このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210531となっている論文です。

PDF登録状況(公開日: 20210531)

TitleAuthorsAbstract論文公表日・翻訳日
# ロバストな人間活動認識のための類似埋め込みネットワーク

Similarity Embedding Networks for Robust Human Activity Recognition ( http://arxiv.org/abs/2106.15283v1 )

ライセンス: Link先を確認
Chenglin Li, Carrie Lu Tong, Di Niu, Bei Jiang, Xiao Zuo, Lei Cheng, Jian Xiong and Jianming Yang(参考訳) 近年,センサデータに基づくヒューマンアクティビティ認識(har)のための深層学習モデルの研究が盛んに行われている。 しかし,複雑な実世界のHARデータに対する深層モデルの一般化能力は,高品質なラベル付き活動データの提供によって制限されている。 本稿では,入力センサ信号を実ベクトルにマッピングする類似性埋め込みニューラルネットワークを,慎重に設計した畳み込み層とLSTM層により設計する。 組込みネットワークは、ペアワイズ類似性損失でトレーニングされ、組込み実空間における同じクラスのサンプルのクラスタリングを奨励し、小さなデータセットや、誤ったラベル付きサンプルを含むノイズの多いデータセットでも効果的にトレーニングすることができる。 さらに,学習した埋め込みに基づいて,非パラメトリックとパラメトリックの両方のアプローチを提案する。 2つの公開データセットに基づく広範な評価により、提案する類似度埋め込みネットワークは、har分類タスクにおける最先端の深層モデルを大幅に上回っており、トレーニングセット内の誤ってラベル付けされたサンプルに頑健であり、ノイズの多いデータセットを効果的にデノベートするためにも使用できることが示されている。

Deep learning models for human activity recognition (HAR) based on sensor data have been heavily studied recently. However, the generalization ability of deep models on complex real-world HAR data is limited by the availability of high-quality labeled activity data, which are hard to obtain. In this paper, we design a similarity embedding neural network that maps input sensor signals onto real vectors through carefully designed convolutional and LSTM layers. The embedding network is trained with a pairwise similarity loss, encouraging the clustering of samples from the same class in the embedded real space, and can be effectively trained on a small dataset and even on a noisy dataset with mislabeled samples. Based on the learned embeddings, we further propose both nonparametric and parametric approaches for activity recognition. Extensive evaluation based on two public datasets has shown that the proposed similarity embedding network significantly outperforms state-of-the-art deep models on HAR classification tasks, is robust to mislabeled samples in the training set, and can also be used to effectively denoise a noisy dataset.
翻訳日:2021-07-04 19:34:04 公開日:2021-05-31
# 科学名には何があるの?

What's in a Scientific Name? ( http://arxiv.org/abs/2106.14610v1 )

ライセンス: Link先を確認
Henrique Ferraz de Arruda, Luciano da Fontoura Costa(参考訳) 単語は、特定の時間や空間において特に重要または有用な概念や構造を表現するために出現したパターンやカテゴリに対応するものとして理解することができる。 単語は、特定の状況に応じて、同じ単語をインスタンス化したり、複数の異なる文脈に関連付けることができるという意味で、完全に一般的で特定のものではないことが特徴である。 実際、言葉をインスタンス化し、関連付ける方法は、特に興味深い側面を示し、それらが採用されている文脈をよりよく理解するのに役立ちます。 科学的な言葉は例外ではない。 本研究では,いくつかの分野において多用されるという意味で,特に関連性の高い単語の組間の関連にアプローチし,現在,科学における主要な課題と関連する概念を表現する。 より具体的には、ここで報告された研究は、"prediction"、"model"、"optimization"、"complex"、"entropy"、"random"、" deterministic"、"pattern"、"database"という単語を考慮に入れている。 また,分析を補完するために,適用地域間の関係を表すネットワークを得る。 多くの興味深い結果が得られた。 まず第一に、いくつかの単語は異なる地域で著しく異なる関連を持つことが観察された。 生物学はコンピュータ科学に関連しており、データベースと関連付けられている。 さらに,ほとんどの場合,「複雑」「モデル」「予測」という言葉にはいくつかの強い関連性があることが観察された。

To a good extent, words can be understood as corresponding to patterns or categories that appeared in order to represent concepts and structures that are particularly important or useful in a given time and space. Words are characterized by not being completely general nor specific, in the sense that the same word can be instantiated or related to several different contexts, depending on specific situations. Indeed, the way in which words are instantiated and associated represents a particularly interesting aspect that can substantially help to better understand the context in which they are employed. Scientific words are no exception to that. In the present work, we approach the associations between a set of particularly relevant words in the sense of being not only frequently used in several areas, but also representing concepts that are currently related to some of the main standing challenges in science. More specifically, the study reported here takes into account the words "prediction", "model", "optimization", "complex", "entropy", "random", "deterministic", "pattern", and "database". In order to complement the analysis, we also obtain a network representing the relationship between the adopted areas. Many interesting results were found. First and foremost, several of the words were observed to have markedly distinct associations in different areas. Biology was found to be related to computer science, sharing associations with databases. Furthermore, for most of the cases, the words "complex", "model", and "prediction" were observed to have several strong associations.
翻訳日:2021-07-04 19:33:25 公開日:2021-05-31
# バイトコードに基づくスマートコントラクト分類手法

A Bytecode-based Approach for Smart Contract Classification ( http://arxiv.org/abs/2106.15497v1 )

ライセンス: Link先を確認
Chaochen Shi, Yong Xiang, Robin Ram Mohan Doss, Jiangshan Yu, Keshav Sood, Longxiang Gao(参考訳) ブロックチェーンテクノロジの開発により、ブロックチェーンプラットフォームにデプロイされるスマートコントラクトの数が指数関数的に増加し、手動のスクリーニングによってユーザが望ましいサービスを見つけることが難しくなっている。 smart contractsの自動分類は、ブロックチェーンユーザにキーワードベースのコントラクト検索を提供し、スマートコントラクトの効率的な管理を支援する。 スマートコントラクト分類に関する最近の研究は、契約ソースコードに基づく自然言語処理(NLP)ソリューションに焦点を当てている。 しかしながら、スマートコントラクトの94%以上がオープンソースではないため、NLPメソッドのアプリケーションシナリオは非常に限られている。 一方、NLPモデルは敵攻撃に対して脆弱である。 本稿では,ソースコードの代わりにコントラクトバイトコードの特徴に基づく分類モデルを提案する。 モデルの最適化には機能選択とアンサンブル学習も使用しています。 3300以上の現実世界のethereumスマートコントラクトに関する実験により、当社のモデルはソースコードなしでスマートコントラクトを分類でき、ベースラインモデルよりも優れたパフォーマンスを実現しています。 また,NLPモデルと比較して,敵攻撃に対する耐性も良好である。 さらに,多くのスマートコントラクト分類モデルで使用されるアカウント機能は,分類にはほとんど影響を与えず,除外できることを示した。

With the development of blockchain technologies, the number of smart contracts deployed on blockchain platforms is growing exponentially, which makes it difficult for users to find desired services by manual screening. The automatic classification of smart contracts can provide blockchain users with keyword-based contract searching and helps to manage smart contracts effectively. Current research on smart contract classification focuses on Natural Language Processing (NLP) solutions which are based on contract source code. However, more than 94% of smart contracts are not open-source, so the application scenarios of NLP methods are very limited. Meanwhile, NLP models are vulnerable to adversarial attacks. This paper proposes a classification model based on features from contract bytecode instead of source code to solve these problems. We also use feature selection and ensemble learning to optimize the model. Our experimental studies on over 3,300 real-world Ethereum smart contracts show that our model can classify smart contracts without source code and has better performance than baseline models. Our model also has good resistance to adversarial attacks compared with NLP-based models. In addition, our analysis reveals that account features used in many smart contract classification models have little effect on classification and can be excluded.
翻訳日:2021-07-04 19:32:33 公開日:2021-05-31
# Know Your Model (KYM): AIと機械学習への信頼を高める

Know Your Model (KYM): Increasing Trust in AI and Machine Learning ( http://arxiv.org/abs/2106.11036v1 )

ライセンス: Link先を確認
Mary Roszel, Robert Norvill, Jean Hilger, Radu State(参考訳) AIシステムの普及は、そのようなシステムが社会に与える影響に注意を向けている。 特に懸念されるのは、現実のシナリオにおける予測エラーの結果と、AIシステムにおける信頼人類の場所である。 AIの信頼性を評価する方法や、個人や団体が信頼できるAIシステムを開発する方法を理解する必要がある。 本稿では、信頼度の各要素を分析し、人類に対する倫理的、技術的、実践的な影響を考慮しつつ、最適なAI機能を確保するために活用できる20のガイドラインのセットを提供する。 さらに、このガイドラインは信頼性が証明可能であり、実証可能であること、実装に依存しないこと、あらゆる分野のあらゆるAIシステムに適用可能であることを保証する。

The widespread utilization of AI systems has drawn attention to the potential impacts of such systems on society. Of particular concern are the consequences that prediction errors may have on real-world scenarios, and the trust humanity places in AI systems. It is necessary to understand how we can evaluate trustworthiness in AI and how individuals and entities alike can develop trustworthy AI systems. In this paper, we analyze each element of trustworthiness and provide a set of 20 guidelines that can be leveraged to ensure optimal AI functionality while taking into account the greater ethical, technical, and practical impacts to humanity. Moreover, the guidelines help ensure that trustworthiness is provable and can be demonstrated, they are implementation agnostic, and they can be applied to any AI system in any sector.
翻訳日:2021-06-27 09:02:45 公開日:2021-05-31
# (参考訳) 交通モード検出における深層学習のためのデータ融合 [全文訳有]

Data Fusion for Deep Learning on Transport Mode Detection: A Case Study ( http://arxiv.org/abs/2106.05876v1 )

ライセンス: CC BY 4.0
Hugues Moreau and Andr\'ea Vassilev and Liming Chen(参考訳) トランスポートモード検出では,センサの選択や前処理,使用するモデルなどによって,さまざまな方法論が存在する。 この領域では、各選択肢の比較は必ずしも完全ではない。 パブリックな実生活データセットの実験は、データフュージョンメソッドに特に重点を置いて、選択された各選択を慎重に評価するために導かれる。 我々の最も驚くべき発見は、我々が文献から実装した方法が、単純な後期融合よりも良いものではないことである。 2つの重要な決定は、センサの選択とデータの表現の選択である: 周波数の対数軸を持つスペクトログラムの2次元畳み込みは、1次元の時間表現よりも優れていることがわかった。

In Transport Mode Detection, a great diversity of methodologies exist according to the choice made on sensors, preprocessing, model used, etc. In this domain, the comparisons between each option are not always complete. Experiments on a public, real-life dataset are led here to evaluate carefully each of the choices that were made, with a specific emphasis on data fusion methods. Our most surprising finding is that none of the methods we implemented from the literature is better than a simple late fusion. Two important decisions are the choice of a sensor and the choice of a representation for the data: we found that using 2D convolutions on spectrograms with a logarithmic axis for the frequencies was better than 1-dimensional temporal representations.
翻訳日:2021-06-15 14:01:01 公開日:2021-05-31
# (参考訳) パーキンソン病患者の神経障害評価のための順序cnn法

An ordinal CNN approach for the assessment of neurological damage in Parkinson's disease patients ( http://arxiv.org/abs/2106.05230v1 )

ライセンス: CC BY 4.0
Javier Barbero-G\'omez, Pedro-Antonio Guti\'errez, V\'ictor-Manuel Vargas, Juan-Antonio Vallejo-Casas, C\'esar Herv\'as-Mart\'inez(参考訳) 3D画像スキャンはパーキンソン病(PD)患者の神経学的損傷を評価するツールである。 この診断プロセスは、DES(Decision Support Systems)を介して医療スタッフを支援するために自動化され、空間データに適用した場合に有効であるため、畳み込みニューラルネットワーク(CNN)が良い候補となる。 本稿では,PD患者の神経障害レベルを評価するための3次元CNNオーディナルモデルを提案する。 CNNは許容可能な性能を達成するために大規模なデータセットを必要とするため、空間データを扱うためにデータ拡張手法が適応される。 我々は,クラス間データ生成にガンマ確率分布を適用する短経路 (ogo-sp) 法による順序グラフに基づくオーバーサンプリングを考える。 OGO-SPを改良したOGO-SP-$\beta$アルゴリズムが提案されている。 異なる手法の評価は、病院大学「Reina Sof\ia」(スペインのC\ordoba)が提供する新しい3D画像データセットに基づいている。 順序法が名目上のパフォーマンスをどのように改善するか,またogo-sp-$\beta$がogo-spよりも優れたパフォーマンスをもたらすかを示す。

3D image scans are an assessment tool for neurological damage in Parkinson's disease (PD) patients. This diagnosis process can be automatized to help medical staff through Decision Support Systems (DSSs), and Convolutional Neural Networks (CNNs) are good candidates, because they are effective when applied to spatial data. This paper proposes a 3D CNN ordinal model for assessing the level or neurological damage in PD patients. Given that CNNs need large datasets to achieve acceptable performance, a data augmentation method is adapted to work with spatial data. We consider the Ordinal Graph-based Oversampling via Shortest Paths (OGO-SP) method, which applies a gamma probability distribution for inter-class data generation. A modification of OGO-SP is proposed, the OGO-SP-$\beta$ algorithm, which applies the beta distribution for generating synthetic samples in the inter-class region, a better suited distribution when compared to gamma. The evaluation of the different methods is based on a novel 3D image dataset provided by the Hospital Universitario 'Reina Sof\'ia' (C\'ordoba, Spain). We show how the ordinal methodology improves the performance with respect to the nominal one, and how OGO-SP-$\beta$ yields better performance than OGO-SP.
翻訳日:2021-06-15 13:50:38 公開日:2021-05-31
# (参考訳) Byakto Speech:畳み込みニューラルネットワークを用いたリアルタイム長音声合成:英語からバングラ語への変換学習 [全文訳有]

Byakto Speech: Real-time long speech synthesis with convolutional neural network: Transfer learning from English to Bangla ( http://arxiv.org/abs/2106.03937v1 )

ライセンス: CC BY 4.0
Zabir Al Nazi, Sayed Mohammed Tasmimul Huda(参考訳) 音声合成はディープラーニングによる自動化が難しい課題の1つであり、低リソース言語であるため、Bangla音声合成の試みはほとんどない。 既存の作品のほとんどは、単純なBangla文字のスクリプトや非常に短い文など以外には使えません。 この研究は、Byaktaというオープンソースのディープラーニングベースのバイリンガルテキストを音声合成システムに導入することで、これらの問題を解決しようとしている。 TTSモデルの性能を評価するため,音声認識モデルに基づく自動スコアリング尺度も提案した。 また,Bangla音声合成モデルを用いた音声品質評価のためのテストベンチマークデータセットも導入した。 TTSはhttps://github.com/z abir-nabil/bangla-ts で利用可能である。

Speech synthesis is one of the challenging tasks to automate by deep learning, also being a low-resource language there are very few attempts at Bangla speech synthesis. Most of the existing works can't work with anything other than simple Bangla characters script, very short sentences, etc. This work attempts to solve these problems by introducing Byakta, the first-ever open-source deep learning-based bilingual (Bangla and English) text to a speech synthesis system. A speech recognition model-based automated scoring metric was also proposed to evaluate the performance of a TTS model. We also introduce a test benchmark dataset for Bangla speech synthesis models for evaluating speech quality. The TTS is available at https://github.com/z abir-nabil/bangla-tt s
翻訳日:2021-06-15 13:49:35 公開日:2021-05-31
# 局所プールを付加した階層型最大プールモデルにおける畳み込みニューラルネットワーク画像分類器の解析

Analysis of convolutional neural network image classifiers in a hierarchical max-pooling model with additional local pooling ( http://arxiv.org/abs/2106.05233v1 )

ライセンス: Link先を確認
Benjamin Walter(参考訳) 画像分類を考慮し,局所プールを付加した階層的最大プールモデルを提案する。 ここで、追加の局所プーリングにより、階層モデルは、互いに異なる相対距離を持つ画像の一部を組み合わせることができる。 様々な畳み込みニューラルネットワーク画像分類器を導入し、その収束率の観点から比較する。 シミュレーションおよび実データに適用することにより、推定値の有限サンプルサイズ性能を解析する。

Image classification is considered, and a hierarchical max-pooling model with additional local pooling is introduced. Here the additional local pooling enables the hierachical model to combine parts of the image which have a variable relative distance towards each other. Various convolutional neural network image classifiers are introduced and compared in view of their rate of convergence. The finite sample size performance of the estimates is analyzed by applying them to simulated and real data.
翻訳日:2021-06-13 14:02:50 公開日:2021-05-31
# 複数の変化点に対するオンラインベイズ推定とリスク評価

Online Bayesian inference for multiple changepoints and risk assessment ( http://arxiv.org/abs/2106.05834v1 )

ライセンス: Link先を確認
Olivier Sorba, C Geissler(参考訳) 本研究の目的は,多次元連続信号の平均における急激な傾向変化を検出することである。 fernhead と liu ([4] と [5]) の論文に着想を得た本書では,信号の階層的変化について記述する。 変化日と放出パラメータに関するベイズ後方情報を得る。 これらの見積もりはオンラインで修正できる。 新しいデータが届きます 本稿では,様々な排出法則に対応する明示的な定式化と,部分的に観測されたデータしか利用できない場合の一般化を提案する。 現実的な応用には、部分的に観察されたマルチアセット投資戦略のリターンが含まれており、リターンの移動者の事前の知識をスキャンするだけで、いくつかの統計的仮定に制限される。 この状況は、基本的な外因性情報(新情報、決算発表、論争等)がある個々の資産のリターンの傾向の変化の研究とは異なる。 使える。

The aim of the present study is to detect abrupt trend changes in the mean of a multidimensional sequential signal. Directly inspired by papers of Fernhead and Liu ([4] and [5]), this work describes the signal in a hierarchical manner : the change dates of a time segmentation process trigger the renewal of a piece-wise constant emission law. Bayesian posterior information on the change dates and emission parameters is obtained. These estimations can be revised online, i.e. as new data arrive. This paper proposes explicit formulations corresponding to various emission laws, as well as a generalization to the case where only partially observed data are available. Practical applications include the returns of partially observed multi-asset investment strategies, when only scant prior knowledge of the movers of the returns is at hand, limited to some statistical assumptions. This situation is different from the study of trend changes in the returns of individual assets, where fundamental exogenous information (news, earnings announcements, controversies, etc.) can be used.
翻訳日:2021-06-13 13:59:27 公開日:2021-05-31
# 線形逆問題に対する深層学習における測定矛盾の克服:医用イメージングへの応用

Overcoming Measurement Inconsistency in Deep Learning for Linear Inverse Problems: Applications in Medical Imaging ( http://arxiv.org/abs/2011.14387v2 )

ライセンス: Link先を確認
Marija Vella, Jo\~ao F. C. Mota(参考訳) 現在、ディープニューラルネットワーク(DNN)の顕著な性能は、線形逆問題の解法として選択されている。 超解像と復元像に応用され、MRIやCT画像の再構成にも応用されている。 これらのアプリケーションでは、DNNはトレーニングデータを介して、測定値と入力画像の間のマップを見つけることでフォワード演算子を反転させる。 そして、マップがテストデータに対して有効であることが期待されます。 しかし、このフレームワークはテスト中に測定の不整合を導入する。 医用画像や防衛などの領域において重要な矛盾は, 一般化誤差と密接に関連していることが示される。 次に、DNNの出力を計測一貫性を強制する最適化アルゴリズムで後処理するフレームワークを提案する。 MR画像を用いた実験により,本手法による測定の整合性が再現性能に大きな向上をもたらすことが示された。

The remarkable performance of deep neural networks (DNNs) currently makes them the method of choice for solving linear inverse problems. They have been applied to super-resolve and restore images, as well as to reconstruct MR and CT images. In these applications, DNNs invert a forward operator by finding, via training data, a map between the measurements and the input images. It is then expected that the map is still valid for the test data. This framework, however, introduces measurement inconsistency during testing. We show that such inconsistency, which can be critical in domains like medical imaging or defense, is intimately related to the generalization error. We then propose a framework that post-processes the output of DNNs with an optimization algorithm that enforces measurement consistency. Experiments on MR images show that enforcing measurement consistency via our method can lead to large gains in reconstruction performance.
翻訳日:2021-06-07 08:55:10 公開日:2021-05-31
# (参考訳) マルチ目的のソフトウェア構成チューニング(単一パフォーマンス上の問題) [全文訳有]

Multi-Objectivizing Software Configuration Tuning (for a single performance concern) ( http://arxiv.org/abs/2106.01331v1 )

ライセンス: CC BY 4.0
Tao Chen and Miqing Li(参考訳) 単一パフォーマンス特性(例えばレイテンシの最小化)を最適化するためのソフトウェア構成の自動チューニングは、構成システムの性質(複雑な景観や高価な計測など)のために簡単ではない。 この問題に対処するため、既存の作業は様々な効果的な最適化を開発することに注力している。 しかし、これらのオプティマイザがすべてに対処する必要がある顕著な問題は、検索がローカルのオプティマに閉じ込められるのを避ける方法だ。 高価な測定環境でこれを乗り越えることは、さらに難しい。 本稿では,この問題に対処するための視点を異にする。 最適化モデルの改善に注力する代わりに、最適化モデルのレベルに取り組んでいます。 我々は、補助的なパフォーマンス目標(例えばレイテンシに加えてスループット)を考慮したメタ多目的化モデル(MMO)を提案する。 このモデルがユニークなのは、補助パフォーマンスの目標を最適化するのではなく、異なる構成(例えば)に比較しない場合に、同じようなパフォーマンスを実現するために使用することです。 Paretoは互いに支配的ではないため、探索が局所的なオプティマに閉じ込められるのを防ぐ。 8つの実世界のソフトウェアシステム/環境における多様なパフォーマンス特性の実験により、我々のmmoモデルは、ローカルのオプティマ(最大42%の利得)を克服する上で、最先端の単一目的のモデルよりも統計的に効果的であることが分かりました。

Automatically tuning software configuration for optimizing a single performance attribute (e.g., minimizing latency) is not trivial, due to the nature of the configuration systems (e.g., complex landscape and expensive measurement). To deal with the problem, existing work has been focusing on developing various effective optimizers. However, a prominent issue that all these optimizers need to take care of is how to avoid the search being trapped in local optima -- a hard nut to crack for software configuration tuning due to its rugged and sparse landscape, and neighboring configurations tending to behave very differently. Overcoming such in an expensive measurement setting is even more challenging. In this paper, we take a different perspective to tackle this issue. Instead of focusing on improving the optimizer, we work on the level of optimization model. We do this by proposing a meta multi-objectivizatio n model (MMO) that considers an auxiliary performance objective (e.g., throughput in addition to latency). What makes this model unique is that we do not optimize the auxiliary performance objective, but rather use it to make similarly-performing while different configurations less comparable (i.e. Pareto nondominated to each other), thus preventing the search from being trapped in local optima. Experiments on eight real-world software systems/environments with diverse performance attributes reveal that our MMO model is statistically more effective than state-of-the-art single-objective counterparts in overcoming local optima (up to 42% gain), while using as low as 24% of their measurements to achieve the same (or better) performance result.
翻訳日:2021-06-05 13:48:57 公開日:2021-05-31
# 関節パラトープ・エピトープ予測のためのニューラルメッセージパッシング

Neural message passing for joint paratope-epitope prediction ( http://arxiv.org/abs/2106.00757v1 )

ライセンス: Link先を確認
Alice Del Vecchio, Andreea Deac, Pietro Li\`o and Petar Veli\v{c}kovi\'c(参考訳) 抗体は、抗原に結合して抗原を検出し中和する免疫系のタンパク質である。 抗体と抗原の相互作用における結合部位はそれぞれパラトープとエピトープと呼ばれ、これらの領域の予測はワクチンおよび合成抗体の発達の鍵となる。 先行技術とは対照的に、パラトープとエピトープ予測器は非対称な処理を必要とし、それぞれがパラトープとエピトープ予測の特定の側面に向けられた異なるニューラルメッセージパッシングアーキテクチャを提案する。 両タスクの大幅な改善,新たな最先端の設定,および新型コロナウイルス関連抗原の定性的予測の回復について検討した。

Antibodies are proteins in the immune system which bind to antigens to detect and neutralise them. The binding sites in an antibody-antigen interaction are known as the paratope and epitope, respectively, and the prediction of these regions is key to vaccine and synthetic antibody development. Contrary to prior art, we argue that paratope and epitope predictors require asymmetric treatment, and propose distinct neural message passing architectures that are geared towards the specific aspects of paratope and epitope prediction, respectively. We obtain significant improvements on both tasks, setting the new state-of-the-art and recovering favourable qualitative predictions on antigens of relevance to COVID-19.
翻訳日:2021-06-03 14:19:33 公開日:2021-05-31
# (参考訳) 検証セットを使わずにニューラルネットワークを一般化する永続ホモロジー

Persistent Homology Captures the Generalization of Neural Networks Without A Validation Set ( http://arxiv.org/abs/2106.00012v1 )

ライセンス: CC BY 4.0
Asier Guti\'errez-Fandi\~no, David P\'erez-Fern\'andez, Jordi Armengol-Estap\' ;e, Marta Villegas(参考訳) ニューラルネットワークのトレーニングは通常、モデルの一般化を推定するための検証(ホールドアウト)セットで監視される。 これは、モデル固有の特性を測定して、それが適切に学習されているかどうかを判断する代わりに行われる。 本研究では,代数的トポロジー,特に永続的ホモロジー(PH)を用いたニューラルネットワークのトレーニングを提案する。 ニューラルネットワークの単純な複雑な表現を用いて、異なるアーキテクチャと複数のデータセットを持つニューラルネットワーク学習プロセスにおいて、PHダイアグラム距離の進化を研究する。 その結果,連続ニューラルネットワーク状態間のPHダイアグラム距離は検証精度と相関し,ニューラルネットワークの一般化誤差をホールドアウトセットなしで本質的に推定できることが示唆された。

The training of neural networks is usually monitored with a validation (holdout) set to estimate the generalization of the model. This is done instead of measuring intrinsic properties of the model to determine whether it is learning appropriately. In this work, we suggest studying the training of neural networks with Algebraic Topology, specifically Persistent Homology (PH). Using simplicial complex representations of neural networks, we study the PH diagram distance evolution on the neural network learning process with different architectures and several datasets. Results show that the PH diagram distance between consecutive neural network states correlates with the validation accuracy, implying that the generalization error of a neural network could be intrinsically estimated without any holdout set.
翻訳日:2021-06-03 08:45:48 公開日:2021-05-31
# (参考訳) HEMET: 均一な暗号化フレンドリなプライバシ保護型モバイルニューラルネットワークアーキテクチャ [全文訳有]

HEMET: A Homomorphic-Encrypti on-Friendly Privacy-Preserving Mobile Neural Network Architecture ( http://arxiv.org/abs/2106.00038v1 )

ライセンス: CC BY 4.0
Qian Lou and Lei Jiang(参考訳) 近年、同型暗号化(HE)はプライバシー保護ニューラルネットワーク(PPNN)の実装に使われ、復号化せずに暗号化データに直接推論を行う。 以前の ppnn では、より小さな計算オーバーヘッドのために squeezenet のようなモバイルネットワークアーキテクチャが採用されていたが、ppnn でモバイルネットワークアーキテクチャを使用すると、必ずしも短い推論遅延が得られるわけではない。 パラメータが少ないにもかかわらず、モバイルネットワークアーキテクチャは一般的により多くの層を導入し、ppnnの乗算深さを増加させ、推論遅延を延ばす。 本稿では, プライバシー保護に配慮した \textbf{HE} ニューラル n\textbf{ET}work architecture, \textbf{HEMET} を提案する。 実験結果から, 最先端(SOTA)PPNNと比較して, HEMETは推論遅延を59.3\%\sim 61.2\%$に削減し, 推論精度を0.4 \% \sim 0.5\%$に改善した。

Recently Homomorphic Encryption (HE) is used to implement Privacy-Preserving Neural Networks (PPNNs) that perform inferences directly on encrypted data without decryption. Prior PPNNs adopt mobile network architectures such as SqueezeNet for smaller computing overhead, but we find na\"ively using mobile network architectures for a PPNN does not necessarily achieve shorter inference latency. Despite having less parameters, a mobile network architecture typically introduces more layers and increases the HE multiplicative depth of a PPNN, thereby prolonging its inference latency. In this paper, we propose a \textbf{HE}-friendly privacy-preserving \textbf{M}obile neural n\textbf{ET}work architecture, \textbf{HEMET}. Experimental results show that, compared to state-of-the-art (SOTA) PPNNs, HEMET reduces the inference latency by $59.3\%\sim 61.2\%$, and improves the inference accuracy by $0.4 \% \sim 0.5\%$.
翻訳日:2021-06-03 07:50:24 公開日:2021-05-31
# (参考訳) ニューラルネットワークの可塑性に関する研究 [全文訳有]

A study on the plasticity of neural networks ( http://arxiv.org/abs/2106.00042v1 )

ライセンス: CC BY 4.0
Tudor Berariu, Wojciech Czarnecki, Soham De, Jorg Bornschein, Samuel Smith, Razvan Pascanu and Claudia Clopath(参考訳) 連続学習や転帰学習といった複数の設定で共有される目的のひとつは、以前取得した知識を活用して、現在のタスクにより早く収束させることである。 通常、これは微調整によって行われるが、暗黙の仮定では、ネットワークはその可塑性を維持している。 近年, 微調整したデータと同じ分布から得られたデータに対する事前学習モデルが, 新たな初期化モデルと同じ一般化に達しない可能性が指摘されている。 私たちはこの観察を構築、拡張し、背後にある力学の仮説を提供します。 本稿では,事前学習モデルの最適化に大きく依存する連続学習における可塑性喪失の意義について考察する。

One aim shared by multiple settings, such as continual learning or transfer learning, is to leverage previously acquired knowledge to converge faster on the current task. Usually this is done through fine-tuning, where an implicit assumption is that the network maintains its plasticity, meaning that the performance it can reach on any given task is not affected negatively by previously seen tasks. It has been observed recently that a pretrained model on data from the same distribution as the one it is fine-tuned on might not reach the same generalisation as a freshly initialised one. We build and extend this observation, providing a hypothesis for the mechanics behind it. We discuss the implication of losing plasticity for continual learning which heavily relies on optimising pretrained models.
翻訳日:2021-06-03 07:36:33 公開日:2021-05-31
# (参考訳) StarGAN-ZSVC:低リソース環境におけるゼロショット音声変換を目指して [全文訳有]

StarGAN-ZSVC: Towards Zero-Shot Voice Conversion in Low-Resource Contexts ( http://arxiv.org/abs/2106.00043v1 )

ライセンス: CC BY-SA 4.0
Matthew Baas, Herman Kamper(参考訳) 音声変換は、発声者の言語的内容を保持しながら、異なる対象話者によって話されているように見えるように、音源話者から発声を変換するタスクである。 近年の進歩により、音声変換システムの品質が大幅に向上した。 しかし、より広い範囲の文脈で有用であるためには、音声変換システムは(i)並列データにアクセスせずに訓練可能であり、(ii)訓練中にソースとターゲット話者の両方が見えないゼロショット環境で動作し、(iii)リアルタイムまたはより高速に実行される必要がある。 最近の技術はこれらの要件の1つか2つを満たすが、3つすべてではない。 本稿では,これら3つの条件をすべて満たすために,gans(generative adversarial network)に基づく最近の音声変換モデルを拡張する。 具体的には、最近のStarGAN-VCモデルを話者埋め込み(潜在的に見えない話者から)に条件付けすることで拡張する。 これにより、モデルはゼロショット設定で使用できるので、StarGAN-ZSVCと呼ぶ。 我々は、stargan-zsvcを低リソース環境での他の音声変換技術と比較し、9分間のトレーニングセットを用いた。 もうひとつのニューラルゼロショットアプローチであるAutoVCと比較して、StarGAN-ZSVCはゼロショット設定に小さな改善を加えており、非常に小さなデータでトレーニングされたモデルであっても、リアルタイムゼロショット音声変換が可能であることを示している。 StarGAN-ZSVCのスケールアップは、高リソースコンテキストにおけるゼロショット音声変換の品質も向上するかどうか、さらなる作業が必要である。

Voice conversion is the task of converting a spoken utterance from a source speaker so that it appears to be said by a different target speaker while retaining the linguistic content of the utterance. Recent advances have led to major improvements in the quality of voice conversion systems. However, to be useful in a wider range of contexts, voice conversion systems would need to be (i) trainable without access to parallel data, (ii) work in a zero-shot setting where both the source and target speakers are unseen during training, and (iii) run in real time or faster. Recent techniques fulfil one or two of these requirements, but not all three. This paper extends recent voice conversion models based on generative adversarial networks (GANs), to satisfy all three of these conditions. We specifically extend the recent StarGAN-VC model by conditioning it on a speaker embedding (from a potentially unseen speaker). This allows the model to be used in a zero-shot setting, and we therefore call it StarGAN-ZSVC. We compare StarGAN-ZSVC against other voice conversion techniques in a low-resource setting using a small 9-minute training set. Compared to AutoVC -- another recent neural zero-shot approach -- we observe that StarGAN-ZSVC gives small improvements in the zero-shot setting, showing that real-time zero-shot voice conversion is possible even for a model trained on very little data. Further work is required to see whether scaling up StarGAN-ZSVC will also improve zero-shot voice conversion quality in high-resource contexts.
翻訳日:2021-06-03 07:25:39 公開日:2021-05-31
# (参考訳) 周波数以上のもの? Demasking Unsupervised Hypernymy Prediction Methods [全文訳有]

More than just Frequency? Demasking Unsupervised Hypernymy Prediction Methods ( http://arxiv.org/abs/2106.00055v1 )

ライセンス: CC BY 4.0
Thomas Bott, Dominik Schlechtweg and Sabine Schulte im Walde(参考訳) 本稿では,ハイパーニーミー予測の教師なし手法(すなわち,フィッシュコッドのような一対の単語中のどの単語がハイパーニームで,どの単語が低音かを予測する)の比較を行う。 最も重要なことは、英語とドイツ語のデータセットにまたがって、3つの方法(weedsprec、invcl、slqs row)の予測が強く重なり、周波数ベースの予測と高い相関があることを示すことである。 対照的に、二階法slqsは全体として低い精度を示すが、他の方法の誤りを正しく予測する。 本研究は, 周波数関連効果を同定するために, 計算手法の周波数バイアスをチェックする必要があることを再度確認する。

This paper presents a comparison of unsupervised methods of hypernymy prediction (i.e., to predict which word in a pair of words such as fish-cod is the hypernym and which the hyponym). Most importantly, we demonstrate across datasets for English and for German that the predictions of three methods (WeedsPrec, invCL, SLQS Row) strongly overlap and are highly correlated with frequency-based predictions. In contrast, the second-order method SLQS shows an overall lower accuracy but makes correct predictions where the others go wrong. Our study once more confirms the general need to check the frequency bias of a computational method in order to identify frequency-(un)relate d effects.
翻訳日:2021-06-03 07:09:46 公開日:2021-05-31
# (参考訳) GRAVITAS:インターネット・オブ・Thingsアグリゲート・セキュリティのためのグラフィカル・レチケーション・アタック・ベクター [全文訳有]

GRAVITAS: Graphical Reticulated Attack Vectors for Internet-of-Things Aggregate Security ( http://arxiv.org/abs/2106.00073v1 )

ライセンス: CC BY 4.0
Jacob Brown, Tanujay Saha, Niraj K. Jha(参考訳) internet-of-things(i ot)とcyber-physical systems(cpss)は、複雑なネットワークトポロジーで接続された数千のデバイスで構成される。 これらのコンポーネントの多様性と複雑さは巨大な攻撃面を示し、敵は異なるデバイスのセキュリティ脆弱性を利用して強力な攻撃を行うことができる。 これらのシステムにおける個々のデバイスのセキュリティを改善するために、大きな努力がなされているが、総じてセキュリティにはほとんど注意が払われていない。 本稿では,未発見の攻撃ベクトルを識別し,システム内の防御の配置を最適化し,性能とコストを最適化する,GRAVITASと呼ばれるIoT/CPSの総合的リスク管理システムについて述べる。 既存のリスク管理システムは既知の攻撃のみを考慮しているが、このモデルは、未発見のエクスプロイトを推論するために機械学習アプローチを採用しており、手作業による侵入テスト(pen-testing)によって見過ごされる攻撃を特定することができる。 このモデルは、実質的に任意のIoT/CPSを分析し、システム管理者に最適なコストでシステムの脆弱性を減らすための具体的な防御策のリストを提供するのに十分な柔軟性がある。 GRAVITASは、政府、企業、システム管理者が大規模にセキュアなIoT/CPSを設計するために使用できる。

Internet-of-Things (IoT) and cyber-physical systems (CPSs) may consist of thousands of devices connected in a complex network topology. The diversity and complexity of these components present an enormous attack surface, allowing an adversary to exploit security vulnerabilities of different devices to execute a potent attack. Though significant efforts have been made to improve the security of individual devices in these systems, little attention has been paid to security at the aggregate level. In this article, we describe a comprehensive risk management system, called GRAVITAS, for IoT/CPS that can identify undiscovered attack vectors and optimize the placement of defenses within the system for optimal performance and cost. While existing risk management systems consider only known attacks, our model employs a machine learning approach to extrapolate undiscovered exploits, enabling us to identify attacks overlooked by manual penetration testing (pen-testing). The model is flexible enough to analyze practically any IoT/CPS and provide the system administrator with a concrete list of suggested defenses that can reduce system vulnerability at optimal cost. GRAVITAS can be employed by governments, companies, and system administrators to design secure IoT/CPS at scale, providing a quantitative measure of security and efficiency in a world where IoT/CPS devices will soon be ubiquitous.
翻訳日:2021-06-03 07:02:07 公開日:2021-05-31
# (参考訳) ベイズ型系統推定のための変分組合せ逐次モンテカルロ法 [全文訳有]

Variational Combinatorial Sequential Monte Carlo Methods for Bayesian Phylogenetic Inference ( http://arxiv.org/abs/2106.00075v1 )

ライセンス: CC BY 4.0
Antonio Khalil Moretti, Liyi Zhang, Christian A. Naesseth, Hadiah Venner, David Blei, Itsik Pe'er(参考訳) ベイジアン系統推論は、ランダムウォークマルコフ連鎖モンテカルロ (mcmc) やコンビネートシーケンシャルモンテカルロ (csmc) のようなアルゴリズムを用いて、局所的あるいは逐次的にトポロジーや分岐長を探索することによって行われることが多い。 しかし、MCMCが進化的パラメータ学習に使用される場合、収束は状態空間の非効率な探索を伴う長い実行を必要とする。 我々は,複雑な組合せ構造上の分布を学習するために変分逐次探索を確立させる強力なフレームワークである変分コンビネータシーケンシャルモンテカルロ(vcsmc)を導入する。 次に,csmcの効率的な提案分布であるnested csmcを開発し,nested csmcが(難解な)局所最適提案の正確な近似であることを証明した。 ネストされたCSMCを用いて第2の目的 VNCSMC を定義する。 本稿では,VCSMCとVNCSMCが計算効率が高く,既存のタスクよりも高い確率空間を探索できることを示す。

Bayesian phylogenetic inference is often conducted via local or sequential search over topologies and branch lengths using algorithms such as random-walk Markov chain Monte Carlo (MCMC) or Combinatorial Sequential Monte Carlo (CSMC). However, when MCMC is used for evolutionary parameter learning, convergence requires long runs with inefficient exploration of the state space. We introduce Variational Combinatorial Sequential Monte Carlo (VCSMC), a powerful framework that establishes variational sequential search to learn distributions over intricate combinatorial structures. We then develop nested CSMC, an efficient proposal distribution for CSMC and prove that nested CSMC is an exact approximation to the (intractable) locally optimal proposal. We use nested CSMC to define a second objective, VNCSMC which yields tighter lower bounds than VCSMC. We show that VCSMC and VNCSMC are computationally efficient and explore higher probability spaces than existing methods on a range of tasks.
翻訳日:2021-06-03 06:37:29 公開日:2021-05-31
# (参考訳) 切除・肝移植後の肝細胞癌再発予測のための深層学習 : 発見と妥当性の検討 [全文訳有]

Deep learning for prediction of hepatocellular carcinoma recurrence after resection or liver transplantation: a discovery and validation study ( http://arxiv.org/abs/2106.00090v1 )

ライセンス: CC BY 4.0
Zhikun Liu, Yuanpeng Liu, Yuan Hong, Jinwen Meng, Jianguo Wang, Shusen Zheng and Xiao Xu(参考訳) 本研究の目的は, 深層学習ニューラルネットワークを用いて, ユビキタスで利用可能な組織像を直接解析し, 肝移植後の予後の分類法を開発することである。 核地図セットは、U-netを訓練して核アーキテクチャ情報を取得するために使用された。 対象は切除後HCCを施行した症例で,明確な結果が得られた。 LTはHCC患者をLTで治療した。 u-netで抽出された列車セットとその核構造情報をmobilenet v2ベースの分類器(mobilenetv2_hcc_cla ss)の訓練に用いた。 MobileNetV2_HCC_Clas sは、独立検証セットにおけるHCC切除またはLT後の他の要因に比べて、相対的に高い差別力を維持した。 病理組織学的検討では,再発を最も予測する腫瘍部位は,ストローマの存在,高細胞性気腫,核肥大,免疫浸潤の欠如が特徴であった。 組織学的スライドに付随する深層学習を用いて臨床的に有用な予後分類器を開発した。 本分類法は, 臨床, 生物学的, 病理的特徴の相違から, 臨床, 生物学的, 病理的特徴の相違が指摘されている。 この分類器は、HCC患者の予後予測を精査し、より集中的な管理の恩恵を受ける患者を特定するのに役立つ。

This study aimed to develop a classifier of prognosis after resection or liver transplantation (LT) for HCC by directly analysing the ubiquitously available histological images using deep learning based neural networks. Nucleus map set was used to train U-net to capture the nuclear architectural information. Train set included the patients with HCC treated by resection and has a distinct outcome. LT set contained patients with HCC treated by LT. Train set and its nuclear architectural information extracted by U-net were used to train MobileNet V2 based classifier (MobileNetV2_HCC_Cla ss), purpose-built for classifying supersized heterogeneous images. The MobileNetV2_HCC_Clas s maintained relative higher discriminatory power than the other factors after HCC resection or LT in the independent validation set. Pathological review showed that the tumoral areas most predictive of recurrence were characterized by presence of stroma, high degree of cytological atypia, nuclear hyperchomasia, and a lack of immune infiltration. A clinically useful prognostic classifier was developed using deep learning allied to histological slides. The classifier has been extensively evaluated in independent patient populations with different treatment, and gives consistent excellent results across the classical clinical, biological and pathological features. The classifier assists in refining the prognostic prediction of HCC patients and identifying patients who would benefit from more intensive management.
翻訳日:2021-06-03 06:17:33 公開日:2021-05-31
# (参考訳) 多目的spibb:seldonian offline policy improvement with safety constraints in finite mdps [全文訳有]

Multi-Objective SPIBB: Seldonian Offline Policy Improvement with Safety Constraints in Finite MDPs ( http://arxiv.org/abs/2106.00099v1 )

ライセンス: CC BY 4.0
Harsh Satija, Philip S. Thomas, Joelle Pineau, Romain Laroche(参考訳) オフライン強化学習(RL)における制約下での安全政策改善(SPI)の問題について検討する。 i) 既知のベースラインポリシーの下で収集されたデータセットがあり、 (ii) 環境から複数の報酬信号を受け取り、最適化する多くの目的を導き出すシナリオを考察する。 本稿では,このrl設定に対するspiの定式化について,アルゴリズムのユーザが異なる報酬信号に対するトレードオフを処理した場合の選好を考慮し,新たなポリシーが少なくとも個々の目的に沿ったベースラインポリシと同様に実行されることを保証した。 我々は,従来のSPIアルゴリズムを基盤として,実環境におけるエージェントの性能を高い確率で保証する,Baseline Bootstrapping (SPIBB, Laroche et al., 2019)によるSafe Policy Iterationに基づく新しい手法を提案する。 本研究は,IV液および血管圧薬の敗血症治療方針を学習するために,本手法が人工グリッドワールド安全タスクおよび実世界のクリティカルケアコンテキストにおいて有効であることを示す。

We study the problem of Safe Policy Improvement (SPI) under constraints in the offline Reinforcement Learning (RL) setting. We consider the scenario where: (i) we have a dataset collected under a known baseline policy, (ii) multiple reward signals are received from the environment inducing as many objectives to optimize. We present an SPI formulation for this RL setting that takes into account the preferences of the algorithm's user for handling the trade-offs for different reward signals while ensuring that the new policy performs at least as well as the baseline policy along each individual objective. We build on traditional SPI algorithms and propose a novel method based on Safe Policy Iteration with Baseline Bootstrapping (SPIBB, Laroche et al., 2019) that provides high probability guarantees on the performance of the agent in the true environment. We show the effectiveness of our method on a synthetic grid-world safety task as well as in a real-world critical care context to learn a policy for the administration of IV fluids and vasopressors to treat sepsis.
翻訳日:2021-06-03 06:04:10 公開日:2021-05-31
# (参考訳) クラウドソースGNSSデータを用いた3次元地図作成 [全文訳有]

3D map creation using crowdsourced GNSS data ( http://arxiv.org/abs/2106.00107v1 )

ライセンス: CC BY 4.0
Terence Lines (1) and Ana Basiri (1) ((1) School of Geographical and Earth Sciences, University of Glasgow)(参考訳) 3Dマップは、ドローンナビゲーション、緊急サービス、都市計画など、多くのアプリケーションでますます有用になっている。 しかし、レーザースキャナーなどの既存の技術を使って3Dマップを作成し、最新に保つことは高価である。 本稿では、グローバルナビゲーション衛星システム(gnss)信号を用いて2.5d(その他3d level-of-detail(lod) 1)の地図を無料で生成する新しい手法を提案し、実装する。 これにより、GNSS信号可用性のパターンを見つけ出し、3Dマップを作成することができる。 本論文は, ブートストラップ方式を用いて, 地図生成時に信号分類器を反復的に訓練するGNSS信号強度パターンにアルゴリズムを適用した。 提案手法は, 自動処理GNSSデータを用いて3次元マップを作成できることを示す。 その結果,3次元,すなわち3次元が得られた。 建物の高さは5メートル以下の精度で推定できるが、これはCityGML標準によって推奨されるベンチマークである。

3D maps are increasingly useful for many applications such as drone navigation, emergency services, and urban planning. However, creating 3D maps and keeping them up-to-date using existing technologies, such as laser scanners, is expensive. This paper proposes and implements a novel approach to generate 2.5D (otherwise known as 3D level-of-detail (LOD) 1) maps for free using Global Navigation Satellite Systems (GNSS) signals, which are globally available and are blocked only by obstacles between the satellites and the receivers. This enables us to find the patterns of GNSS signal availability and create 3D maps. The paper applies algorithms to GNSS signal strength patterns based on a boot-strapped technique that iteratively trains the signal classifiers while generating the map. Results of the proposed technique demonstrate the ability to create 3D maps using automatically processed GNSS data. The results show that the third dimension, i.e. height of the buildings, can be estimated with below 5 metre accuracy, which is the benchmark recommended by the CityGML standard.
翻訳日:2021-06-03 05:30:37 公開日:2021-05-31
# (参考訳) 大規模プレトレーニングが自然・医療画像のフルショット・トランスファー学習に及ぼす影響 [全文訳有]

Effect of large-scale pre-training on full and few-shot transfer learning for natural and medical images ( http://arxiv.org/abs/2106.00116v1 )

ライセンス: CC BY 4.0
Mehdi Cherti and Jenia Jitsev(参考訳) Transfer Learningは、トレーニング済みのモデルを活用して、さまざまなダウンストリームタスクやデータセットのより効率的なフォローアップトレーニングを実現することを目的としている。 最近の作業は、事前トレーニングのためにモデルサイズ、データサイズ、計算予算が増加すると、モデルの一般化と転送に強い利益をもたらす。 しかし、ソースとターゲットのデータ分散が互いに遠く離れている場合、スケールの増加によって観測された転送改善が持つかどうかは、いまだによく分かっていない。 本研究では,自然画像(ImageNet-21k/1k)または医用胸部X線画像の大規模ソースデータセットに対して大規模な事前トレーニングを行い,自然画像領域と医用画像領域の異なるターゲットデータセットを用いて,フルおよび少数ショット転送を比較する。 我々の観察は、関連するデータセットの事前トレーニングと転送は、事前トレーニング中にモデルとデータサイズが増加するという明確な利点を示すが、ソースとターゲットのデータセットがさらに離れている場合、そのような利点は明らかでないことを示す。 これらの観察は、フルショット転送と少数ショット転送の両方にわたって保持され、モデルとデータサイズの増加による一般化と転送の改善を示唆するスケーリング法則が不完全であり、また、転送前トレーニングにおけるモデルサイズとデータサイズの変化の影響を正確に予測するために、ソースとターゲットデータの分布がどの程度異なるかについても考慮する必要がある。 (実験を再現するためのレポジトリが利用可能となる。)

Transfer learning aims to exploit pre-trained models for more efficient follow-up training on wide range of downstream tasks and datasets, enabling successful training also on small data. Recent line of work posits strong benefits for model generalization and transfer when model size, data size, and compute budget are increased for the pre-training. It remains however still largely unclear whether the observed transfer improvement due to increase in scale also holds when source and target data distributions are far apart from each other. In this work we conduct large-scale pre-training on large source datasets of either natural (ImageNet-21k/1k) or medical chest X-Ray images and compare full and few-shot transfer using different target datasets from both natural and medical imaging domains. Our observations provide evidence that while pre-training and transfer on closely related datasets do show clear benefit of increasing model and data size during pre-training, such benefits are not clearly visible when source and target datasets are further apart. These observations hold across both full and few-shot transfer and indicate that scaling laws hinting improvement of generalization and transfer with increasing model and data size are incomplete and should also take into account the degree of how distinct the source and target data distributions are, to correctly predict effect of model size and data size variation during pre-training on transfer. (Repository for reproducing the experiments will be made available.)
翻訳日:2021-06-03 05:04:11 公開日:2021-05-31
# (参考訳) 定量的アルゴリズム取引における深層強化学習 [全文訳有]

Deep Reinforcement Learning in Quantitative Algorithmic Trading: A Review ( http://arxiv.org/abs/2106.00123v1 )

ライセンス: CC BY 4.0
Tidor-Vlad Pricope(参考訳) アルゴリズムによる株式取引は、今日の金融市場では重要な存在となり、取引の大部分は完全に自動化されている。 深層強化学習(Dep Reinforcement Learning, DRL)エージェントは、チェスや囲碁といった複雑なゲームでよく見られる力であることが判明した。 株式市場の歴史的価格シリーズや動きを、利益とリスクの最小化を最大化しようとする複雑な不完全な情報環境と見なすことができる。 本稿では、金融分野におけるAIのサブドメインにおける深い強化学習による進歩を、より正確には、自動化された低頻度の量的株式取引でレビューする。 レビューされた研究の多くは概念実証の理想しか持たず、非現実的な環境で実験を行い、リアルタイム取引の応用も無かった。 ほとんどの作品では、確立されたベースライン戦略と比較して統計的に著しく性能が向上したものの、まともな収益性レベルは得られなかった。 さらに、リアルタイムのオンライントレーディングプラットフォームにおける実験的なテストの欠如や、DRLやヒューマントレーダのさまざまなタイプ上に構築されたエージェント間の有意義な比較の欠如がある。 我々は、株取引におけるdrlは、強い仮定の下でプロトレーダーに匹敵する大きな適用可能性を示したが、研究はまだ初期段階にあると結論づけた。

Algorithmic stock trading has become a staple in today's financial market, the majority of trades being now fully automated. Deep Reinforcement Learning (DRL) agents proved to be to a force to be reckon with in many complex games like Chess and Go. We can look at the stock market historical price series and movements as a complex imperfect information environment in which we try to maximize return - profit and minimize risk. This paper reviews the progress made so far with deep reinforcement learning in the subdomain of AI in finance, more precisely, automated low-frequency quantitative stock trading. Many of the reviewed studies had only proof-of-concept ideals with experiments conducted in unrealistic settings and no real-time trading applications. For the majority of the works, despite all showing statistically significant improvements in performance compared to established baseline strategies, no decent profitability level was obtained. Furthermore, there is a lack of experimental testing in real-time, online trading platforms and a lack of meaningful comparisons between agents built on different types of DRL or human traders. We conclude that DRL in stock trading has showed huge applicability potential rivalling professional traders under strong assumptions, but the research is still in the very early stages of development.
翻訳日:2021-06-03 04:43:59 公開日:2021-05-31
# (参考訳) 要約に構造をもたらす:長い科学文献の要約データセット [全文訳有]

Bringing Structure into Summaries: a Faceted Summarization Dataset for Long Scientific Documents ( http://arxiv.org/abs/2106.00130v1 )

ライセンス: CC BY 4.0
Rui Meng, Khushboo Thaker, Lei Zhang, Yue Dong, Xingdi Yuan, Tong Wang, Daqing He(参考訳) faceted summarizationは、異なる視点からドキュメントのブリーフィングを提供する。 読者は構造化アウトラインの助けを借りて、長いドキュメントの主要なポイントを素早く理解することができる。 しかしながら、大規模な顔付き要約データセットが欠如していることから、このテーマに関する研究はほとんど行われていない。 本研究では,エメラルド誌の記事上に構築された顔要約ベンチマークであるFacetSumについて述べる。 従来の文書と要約のペアとは異なり、facetsumは複数の要約を提供し、それぞれが目的、方法、発見、価値を含む長い文書の特定のセクションをターゲットにしている。 データセットの分析と実験結果から,構造を要約に組み込むことの重要性が明らかになった。 我々は、FacetSumが要約研究のさらなる進歩を促し、長文と要約の両方において構造化情報を活用するNLPシステムの開発を促進すると信じている。

Faceted summarization provides briefings of a document from different perspectives. Readers can quickly comprehend the main points of a long document with the help of a structured outline. However, little research has been conducted on this subject, partially due to the lack of large-scale faceted summarization datasets. In this study, we present FacetSum, a faceted summarization benchmark built on Emerald journal articles, covering a diverse range of domains. Different from traditional document-summary pairs, FacetSum provides multiple summaries, each targeted at specific sections of a long document, including the purpose, method, findings, and value. Analyses and empirical results on our dataset reveal the importance of bringing structure into summaries. We believe FacetSum will spur further advances in summarization research and foster the development of NLP systems that can leverage the structured information in both long texts and summaries.
翻訳日:2021-06-03 04:25:41 公開日:2021-05-31
# (参考訳) Tesseract:マルチエージェント強化学習のためのテンソル化アクター [全文訳有]

Tesseract: Tensorised Actors for Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2106.00136v1 )

ライセンス: CC BY 4.0
Anuj Mahajan, Mikayel Samvelyan, Lei Mao, Viktor Makoviychuk, Animesh Garg, Jean Kossaifi, Shimon Whiteson, Yuke Zhu, Animashree Anandkumar(参考訳) 大規模行動空間における強化学習は難しい課題である。 協調型マルチエージェント強化学習(marl)は、コミュニケーションと可観測性に様々な制約を課すことで問題を悪化させる。 本研究では,アクション空間の指数関数的な爆発とエージェント数の増加という,価値ベースのアプローチと政策段階のアプローチの両方に影響を与える基本的なハードルを考える。 値に基づく手法では、最適な値関数を正確に表現することが困難となる。 政策勾配法では、批判者の訓練を困難にし、遅れる批判者の問題を悪化させる。 学習理論の観点からは, 関連する動作値関数を低複雑度仮説クラスで正確に表現することで, 両問題に対処できることを示す。 これは、エージェントの相互作用をサンプル効率の良い方法で正確にモデル化する必要がある。 この目的のために、ベルマン方程式の新しいテンソル化定式化を提案する。 これは、q-函数を異なるエージェントの作用空間に対応するモードをテンソルとして見る方法であるtesseractを導出する。 Tesseractから派生したアルゴリズムはエージェント間でQテンソルを分解し、低ランクテンソル近似を利用してタスクに関連するエージェントの相互作用をモデル化する。 本稿では,テッセラクトに基づくアルゴリズムのPAC解析を行い,リッチ・オブザーバ MDP のクラスとの関係を明らかにする。 異なる領域における実証的な結果は、理論によって予測されるサンプル効率におけるテッセラクトの利得を確認する。

Reinforcement Learning in large action spaces is a challenging problem. Cooperative multi-agent reinforcement learning (MARL) exacerbates matters by imposing various constraints on communication and observability. In this work, we consider the fundamental hurdle affecting both value-based and policy-gradient approaches: an exponential blowup of the action space with the number of agents. For value-based methods, it poses challenges in accurately representing the optimal value function. For policy gradient methods, it makes training the critic difficult and exacerbates the problem of the lagging critic. We show that from a learning theory perspective, both problems can be addressed by accurately representing the associated action-value function with a low-complexity hypothesis class. This requires accurately modelling the agent interactions in a sample efficient way. To this end, we propose a novel tensorised formulation of the Bellman equation. This gives rise to our method Tesseract, which views the Q-function as a tensor whose modes correspond to the action spaces of different agents. Algorithms derived from Tesseract decompose the Q-tensor across agents and utilise low-rank tensor approximations to model agent interactions relevant to the task. We provide PAC analysis for Tesseract-based algorithms and highlight their relevance to the class of rich observation MDPs. Empirical results in different domains confirm Tesseract's gains in sample efficiency predicted by the theory.
翻訳日:2021-06-03 04:15:59 公開日:2021-05-31
# (参考訳) HiddenCut: より一般化した自然言語理解のためのシンプルなデータ拡張 [全文訳有]

HiddenCut: Simple Data Augmentation for Natural Language Understanding with Better Generalization ( http://arxiv.org/abs/2106.00149v1 )

ライセンス: CC BY 4.0
Jiaao Chen, Dinghan Shen, Weizhu Chen, Diyi Yang(参考訳) タスク固有のデータで訓練済みの大規模モデルを微調整することで、NLPで大きな成功を収めた。 しかし,ネットワーク内の情報の大部分は冗長であり,微調整段階では有効に利用できないことが実証されている。 これにより、得られたモデルをドメイン外分布に一般化した場合の結果は劣る。 この目的のために、モデルをより規則化し、より一般化可能な機能を学ぶことを奨励する、単純で効果的なデータ拡張手法であるHiddenCutを提案する。 具体的には、隠れた空間内の連続した空間は、訓練中に動的かつ戦略的に減少する。 実験の結果,HiddenCut 法は GLUE ベンチマークの最先端拡張法よりも優れており,非分配性や対抗策に優れた一般化性能を示すことがわかった。 私たちはコードをhttps://github.com/g t-salt/hiddencut.com で公開しました。

Fine-tuning large pre-trained models with task-specific data has achieved great success in NLP. However, it has been demonstrated that the majority of information within the self-attention networks is redundant and not utilized effectively during the fine-tuning stage. This leads to inferior results when generalizing the obtained models to out-of-domain distributions. To this end, we propose a simple yet effective data augmentation technique, HiddenCut, to better regularize the model and encourage it to learn more generalizable features. Specifically, contiguous spans within the hidden space are dynamically and strategically dropped during training. Experiments show that our HiddenCut method outperforms the state-of-the-art augmentation methods on the GLUE benchmark, and consistently exhibits superior generalization performances on out-of-distribution and challenging counterexamples. We have publicly released our code at https://github.com/G T-SALT/HiddenCut.
翻訳日:2021-06-03 03:43:45 公開日:2021-05-31
# (参考訳) 言語間トランスフォーマーを用いた多言語単語レベル品質推定の探索的解析 [全文訳有]

An Exploratory Analysis of Multilingual Word-Level Quality Estimation with Cross-Lingual Transformers ( http://arxiv.org/abs/2106.00143v1 )

ライセンス: CC BY 4.0
Tharindu Ranasinghe, Constantin Orasan, Ruslan Mitkov(参考訳) 機械翻訳の単語レベル品質推定(qe)に関するほとんどの研究は、言語固有のモデルに焦点を当てている。 これらのアプローチの明らかな欠点は、各言語ペアのラベル付きデータの必要性と、複数の言語固有のモデルを維持するために必要な高いコストである。 これらの問題を克服するために,多言語・単語レベルのqeに対する様々なアプローチを検討する。 これらのqeモデルが現在の言語固有のモデルと同等の性能を示す。 ゼロショットおよび少数ショットQEの場合、他の言語ペアで訓練されたモデルから、任意の新しい言語ペアに対する単語レベルの品質を正確に予測できることを実証する。 本論文で提案する強力な事前学習トランスフォーマーに基づく単語レベルのqeモデルは言語をまたがって広く普及し,現実のシナリオにおいてより有用であることが示唆された。

Most studies on word-level Quality Estimation (QE) of machine translation focus on language-specific models. The obvious disadvantages of these approaches are the need for labelled data for each language pair and the high cost required to maintain several language-specific models. To overcome these problems, we explore different approaches to multilingual, word-level QE. We show that these QE models perform on par with the current language-specific models. In the cases of zero-shot and few-shot QE, we demonstrate that it is possible to accurately predict word-level quality for any given new language pair from models trained on other language pairs. Our findings suggest that the word-level QE models based on powerful pre-trained transformers that we propose in this paper generalise well across languages, making them more useful in real-world scenarios.
翻訳日:2021-06-02 14:58:34 公開日:2021-05-31
# 純粋相関に対する反実的不変性:なぜ、どのようにストレステストに合格するか

Counterfactual Invariance to Spurious Correlations: Why and How to Pass Stress Tests ( http://arxiv.org/abs/2106.00545v1 )

ライセンス: Link先を確認
Victor Veitch, Alexander D'Amour, Steve Yadlowsky, Jacob Eisenstein(参考訳) インフォーマルに、'spurious correlation' とは、アナリストが重要とすべきでないと考える入力データのある側面に対するモデルの依存である。 機械学習では、これらはノウ・イ・ユー・サー・イットの性格を持ち、例えば、文の主題の性別を変更すると感情予測者の出力が変化する。 スプリアス相関をチェックするために、入力データの無関係な部分を摂動させ、モデル予測が変化するかどうかを確認することで、モデルにストレステストを加えることができる。 本稿では,因果推論ツールを用いたストレステストについて検討する。 入力の無関係な部分を変更することは、モデル予測を変えるべきではないという要求の形式化として、emph{counterfactual invariance}を導入する。 我々は,非現実的不変性とドメイン外のモデル性能を結合し,非現実的不変性予測を学習するための実践的なスキームを提供する。 反事実的不変性の意味と意味は、データの真の基礎となる因果構造に依存することが判明した。 個々の因果構造は、反事実的不変性を誘導するために異なる正則化スキームを必要とする。 同様に、反事実不変性は、基礎となる因果構造によって異なる領域シフトが保証されることを意味する。 この理論はテキスト分類の実験的な結果によって支持されている。

Informally, a `spurious correlation' is the dependence of a model on some aspect of the input data that an analyst thinks shouldn't matter. In machine learning, these have a know-it-when-you-see -it character; e.g., changing the gender of a sentence's subject changes a sentiment predictor's output. To check for spurious correlations, we can `stress test' models by perturbing irrelevant parts of input data and seeing if model predictions change. In this paper, we study stress testing using the tools of causal inference. We introduce \emph{counterfactual invariance} as a formalization of the requirement that changing irrelevant parts of the input shouldn't change model predictions. We connect counterfactual invariance to out-of-domain model performance, and provide practical schemes for learning (approximately) counterfactual invariant predictors (without access to counterfactual examples). It turns out that both the means and implications of counterfactual invariance depend fundamentally on the true underlying causal structure of the data. Distinct causal structures require distinct regularization schemes to induce counterfactual invariance. Similarly, counterfactual invariance implies different domain shift guarantees depending on the underlying causal structure. This theory is supported by empirical results on text classification.
翻訳日:2021-06-02 14:42:58 公開日:2021-05-31
# GANはロッキーなチケットも演奏できる

GANs Can Play Lottery Tickets Too ( http://arxiv.org/abs/2106.00134v1 )

ライセンス: Link先を確認
Xuxi Chen, Zhenyu Zhang, Yongduo Sui, Tianlong Chen(参考訳) GAN(Deep Generative Adversarial Network)は、多くのシナリオで人気が高まり、リソース制約された現実世界のアプリケーションでは高いパラメータの複雑さに悩まされる。 しかし、gansの圧縮についてはあまり研究されていない。 いくつかの研究は、GANのトレーニング不安定さが悪名高いため、通常、ヒューリスティックな圧縮技術の適用は不満足な結果をもたらすことを示している。 並行して、抽選券仮説は、完全なモデル性能に分離してトレーニングできるスパースマッチングサブネットワークを見つけることで、識別モデルで広く成功していることを示している。 本研究では,深部GANにおけるこのようなトレーニング可能なサブネットワークの存在を初めて研究する。 さまざまなGANに対して、マッチングサブネットワークが67%-74%の間隔で存在していることは確かです。 識別器の刈り取りの有無がサブネットワークのマッチングの有無や品質に与える影響は小さいが,識別器で使用される初期化重みは重要な役割を担っている。 次に、これらのサブネットワークの強力な転送可能性を示してタスクを検知する。 さらに, 得られたサブネットワークは, 両画像生成において, 従来のGAN圧縮手法を大幅に上回っていることを示す。 SNGAN) と Image-to-image translation GANs (例) CycleGAN)。 コードはhttps://github.com/V ITA-Group/GAN-LTHで公開されている。

Deep generative adversarial networks (GANs) have gained growing popularity in numerous scenarios, while usually suffer from high parameter complexities for resource-constrained real-world applications. However, the compression of GANs has less been explored. A few works show that heuristically applying compression techniques normally leads to unsatisfactory results, due to the notorious training instability of GANs. In parallel, the lottery ticket hypothesis shows prevailing success on discriminative models, in locating sparse matching subnetworks capable of training in isolation to full model performance. In this work, we for the first time study the existence of such trainable matching subnetworks in deep GANs. For a range of GANs, we certainly find matching subnetworks at 67%-74% sparsity. We observe that with or without pruning discriminator has a minor effect on the existence and quality of matching subnetworks, while the initialization weights used in the discriminator play a significant role. We then show the powerful transferability of these subnetworks to unseen tasks. Furthermore, extensive experimental results demonstrate that our found subnetworks substantially outperform previous state-of-the-art GAN compression approaches in both image generation (e.g. SNGAN) and image-to-image translation GANs (e.g. CycleGAN). Codes available at https://github.com/V ITA-Group/GAN-LTH.
翻訳日:2021-06-02 14:41:53 公開日:2021-05-31
# 潜在クエリによるテキスト要約

Text Summarization with Latent Queries ( http://arxiv.org/abs/2106.00104v1 )

ライセンス: Link先を確認
Yumo Xu and Mirella Lapata(参考訳) 大規模なデータセットが利用可能になったことにより、汎用目的で単一のドキュメントから要約を作成するニューラルネットワークの開発が進められた。 要約システムを使用する場合、ユーザは、情報ニーズに応じて、単一のキーワードから複数の質問からなる長い物語まで、さまざまな言語実現を伴う特定の意図を持つことが多い。 しかし、既存の要約システムは、しばしばこのクエリに焦点を当てた要約タスクをサポートできないか、堅牢に動作しない。 文書から潜在クエリを学習し,既存のクエリ形式と抽象的な要約を行う,最初の統一テキスト要約システムlaqsumを紹介する。 本システムでは,潜伏クエリモデルと条件付き言語モデルとを協調的に最適化し,テスト時に任意のタイプのクエリをプラグイン・アンド・プレイできるようにする。 汎用要約データのみから学習し,下流要約タスクのさらなる最適化を必要とせず,異なるクエリタイプ,ドキュメント設定,ターゲットドメインを含む要約ベンチマークにおいて,強固な比較システムを強固に上回っている。

The availability of large-scale datasets has driven the development of neural models that create summaries from single documents, for generic purposes. When using a summarization system, users often have specific intents with various language realizations, which, depending on the information need, can range from a single keyword to a long narrative composed of multiple questions. Existing summarization systems, however, often either fail to support or act robustly on this query focused summarization task. We introduce LaQSum, the first unified text summarization system that learns Latent Queries from documents for abstractive summarization with any existing query forms. Under a deep generative framework, our system jointly optimizes a latent query model and a conditional language model, allowing users to plug-and-play queries of any type at test time. Despite learning from only generic summarization data and requiring no further optimization for downstream summarization tasks, our system robustly outperforms strong comparison systems across summarization benchmarks with different query types, document settings, and target domains.
翻訳日:2021-06-02 14:38:07 公開日:2021-05-31
# コーパスに基づくparaphrase検出実験とレビュー

Corpus-Based Paraphrase Detection Experiments and Review ( http://arxiv.org/abs/2106.00145v1 )

ライセンス: Link先を確認
Tedo Vrbanec and Ana Mestrovic(参考訳) パラフレーズ検出は、盗作検出、著者帰属、質問応答、テキスト要約、一般的なテキストマイニングなど、多くのアプリケーションにおいて重要である。 本稿では,様々なコーパスベースモデル,特に深層学習モデル(dlモデル)の性能概要とパラフレーズ検出の課題について述べる。 Microsoft Research Paraphrase Corpus, Clough and Stevenson and Webis Crowd Paraphrase Corpus 2011 の3つの公開コーパスで評価した8つのモデル (LSI, TF-IDF, Word2Vec, Doc2Vec, GloVe, FastText, ELMO, USE) の結果を報告する。 テキストの前処理には,ハイパーパラメータやサブモデル選択(スキップグラム対cbow),距離測定,意味的類似度/パラフレーズ検出しきい値など,多くの実験を行った。 ディープラーニングモデルを使用した他の研究者の発見は、DLモデルは従来の最先端アプローチと非常に競合し、さらに発展する可能性があることを示している。

Paraphrase detection is important for a number of applications, including plagiarism detection, authorship attribution, question answering, text summarization, text mining in general, etc. In this paper, we give a performance overview of various types of corpus-based models, especially deep learning (DL) models, with the task of paraphrase detection. We report the results of eight models (LSI, TF-IDF, Word2Vec, Doc2Vec, GloVe, FastText, ELMO, and USE) evaluated on three different public available corpora: Microsoft Research Paraphrase Corpus, Clough and Stevenson and Webis Crowd Paraphrase Corpus 2011. Through a great number of experiments, we decided on the most appropriate approaches for text pre-processing: hyper-parameters, sub-model selection-where they exist (e.g., Skipgram vs. CBOW), distance measures, and semantic similarity/paraphras e detection threshold. Our findings and those of other researchers who have used deep learning models show that DL models are very competitive with traditional state-of-the-art approaches and have potential that should be further developed.
翻訳日:2021-06-02 14:37:50 公開日:2021-05-31
# 確率論的ニューラルネットワークと深層確率モデルを用いた確率論的深層学習

Probabilistic Deep Learning with Probabilistic Neural Networks and Deep Probabilistic Models ( http://arxiv.org/abs/2106.00120v1 )

ライセンス: Link先を確認
Daniel T. Chang(参考訳) 確率的ディープラーニング(probabilistic Deep Learning)は、モデル不確実性とデータ不確実性の両方を考慮に入れたディープラーニングである。 これは確率モデルとディープニューラルネットワークの使用に基づいている。 確率的ニューラルネットワークと確率的モデルという2つの確率的ディープラーニングのアプローチを区別する。 前者は、不確かさを表現し処理できる確率的層を利用するディープニューラルネットワークを使用し、後者は確率的モデルを使用して、確率変数間の複雑な非線形確率的関係をキャプチャするディープニューラルネットワークコンポーネントを組み込む。 本稿では、ベイズ型ニューラルネットワークと混合密度ネットワーク(確率的ニューラルネットワーク)、変分オートエンコーダ、深いガウス過程、深層混合効果モデル(ディープ確率モデル)など、それぞれのアプローチの主な例について議論する。 TensorFlow Probabilityは確率的モデリングと推論のためのライブラリであり、確率的ディープラーニングのアプローチの両方に使用できる。 イラストにはコード例が含まれています。

Probabilistic deep learning is deep learning that accounts for uncertainty, both model uncertainty and data uncertainty. It is based on the use of probabilistic models and deep neural networks. We distinguish two approaches to probabilistic deep learning: probabilistic neural networks and deep probabilistic models. The former employs deep neural networks that utilize probabilistic layers which can represent and process uncertainty; the latter uses probabilistic models that incorporate deep neural network components which capture complex non-linear stochastic relationships between the random variables. We discuss some major examples of each approach including Bayesian neural networks and mixed density networks (for probabilistic neural networks), and variational autoencoders, deep Gaussian processes and deep mixed effects models (for deep probabilistic models). TensorFlow Probability is a library for probabilistic modeling and inference which can be used for both approaches of probabilistic deep learning. We include its code examples for illustration.
翻訳日:2021-06-02 14:35:45 公開日:2021-05-31
# 映像のリアルタイム処理のための連続3次元畳み込みニューラルネットワーク

Continual 3D Convolutional Neural Networks for Real-time Processing of Videos ( http://arxiv.org/abs/2106.00050v1 )

ライセンス: Link先を確認
Lukas Hedegaard and Alexandros Iosifidis(参考訳) 本稿では,ビデオがクリップではなくフレーム単位で処理される時空間CNNの新しい計算式であるContinuous 3D Convolutional Neural Networks (Co3D CNNs)を紹介する。 フレームワイズ予測を必要とするオンライン処理タスクでは、Co3D CNNは通常の3D CNNの計算冗長性、すなわち複数のクリップに現れるフレーム上の繰り返し畳み込みを省く。 Co3D CNNは、計算保存量において桁違いのオーダーを得られるが、メモリ要件は対応する3D CNNと同等であり、時間的受容野の大きさの変化の影響を受けない。 その結果,既存の映像認識モデルから重み付けされた連続3次元cnnは,フレーム演算の浮動小数点演算を10.0-12.4x削減するとともに,動力学的s-400の精度を2.3-3.8で向上させた。 さらに,Co3D CNNの過渡的起動応答について検討し,オンライン処理速度の広範なベンチマークと,最新のハードウェア上で公開されている最先端3D CNNの精度について検討する。

This paper introduces Continual 3D Convolutional Neural Networks (Co3D CNNs), a new computational formulation of spatio-temporal 3D CNNs, in which videos are processed frame-by-frame rather than by clip. In online processing tasks demanding frame-wise predictions, Co3D CNNs dispense with the computational redundancies of regular 3D CNNs, namely the repeated convolutions over frames, which appear in multiple clips. While yielding an order of magnitude in computational savings, Co3D CNNs have memory requirements comparable with that of corresponding regular 3D CNNs and are less affected by changes in the size of the temporal receptive field. We show that Continual 3D CNNs initialised on the weights from preexisting state-of-the-art video recognition models reduce the floating point operations for frame-wise computations by 10.0-12.4x while improving accuracy on Kinetics-400 by 2.3-3.8. Moreover, we investigate the transient start-up response of Co3D CNNs and perform an extensive benchmark of online processing speed as well as accuracy for publicly available state-of-the-art 3D CNNs on modern hardware.
翻訳日:2021-06-02 14:34:48 公開日:2021-05-31
# インスタンス識別と特徴分離によるクラスタリングフレンドリな表現学習

Clustering-friendly Representation Learning via Instance Discrimination and Feature Decorrelation ( http://arxiv.org/abs/2106.00131v1 )

ライセンス: Link先を確認
Yaling Tao, Kentaro Takagi, Kouta Nakata(参考訳) クラスタリングは機械学習における最も基本的なタスクの1つである。 近年、ディープクラスタリングはクラスタリング技術の主要なトレンドとなっている。 表現学習は、しばしば深いクラスタリングの有効性において重要な役割を果たすため、パフォーマンス劣化の主要な原因となる。 本稿では,インスタンス識別と特徴デコレーションを用いたクラスタリング型表現学習手法を提案する。 この深層学習に基づく表現学習法は, 古典的スペクトルクラスタリングの特性に動機づけられている。 インスタンス識別はデータ間の類似性を学び、特徴デコレーションは特徴間の冗長な相関を取り除く。 個々のインスタンスクラスを学習することでインスタンス間の類似性を学習するインスタンス識別手法を利用する。 詳細な実験と試験により,クラスタリングのための潜在空間の学習にアプローチが適用可能であることを示す。 我々は,新しいソフトマックスによる相関制約を学習用に設計する。 CIFAR-10とImageNet-10を用いた画像クラスタリングの評価では,それぞれ81.5%,95.4%の精度が得られた。 また、ソフトマックス形式制約は様々なニューラルネットワークと互換性があることを示した。

Clustering is one of the most fundamental tasks in machine learning. Recently, deep clustering has become a major trend in clustering techniques. Representation learning often plays an important role in the effectiveness of deep clustering, and thus can be a principal cause of performance degradation. In this paper, we propose a clustering-friendly representation learning method using instance discrimination and feature decorrelation. Our deep-learning-based representation learning method is motivated by the properties of classical spectral clustering. Instance discrimination learns similarities among data and feature decorrelation removes redundant correlation among features. We utilize an instance discrimination method in which learning individual instance classes leads to learning similarity among instances. Through detailed experiments and examination, we show that the approach can be adapted to learning a latent space for clustering. We design novel softmax-formulated decorrelation constraints for learning. In evaluations of image clustering using CIFAR-10 and ImageNet-10, our method achieves accuracy of 81.5% and 95.4%, respectively. We also show that the softmax-formulated constraints are compatible with various neural networks.
翻訳日:2021-06-02 14:34:28 公開日:2021-05-31
# 自己注意プールと深部1次元時間チャネル分離畳み込みを用いた低リソース音声言語識別

Low-Resource Spoken Language Identification Using Self-Attentive Pooling and Deep 1D Time-Channel Separable Convolutions ( http://arxiv.org/abs/2106.00052v1 )

ライセンス: Link先を確認
Roman Bedyakin, Nikolay Mikhaylovskiy(参考訳) このメモは、言語識別トラックであるDialog2021カンファレンスで、NTR/TSUがLow Resource ASRチャレンジに応募したことを説明している。 音声言語識別(LID)は多言語自動音声認識(ASR)システムパイプラインにおいて重要なステップである。 伝統的に、ASRタスクは、ロシアのほとんどの言語を含む世界のほとんどの言語では達成不可能な大量のラベル付きデータを必要とする。 本稿では,自己注意プーリング層を有する畳み込みニューラルネットワークが,言語識別タスクの低リソース設定において有望な結果を示し,低リソースasrチャレンジデータセットのためのsomaをセットアップすることを示す。 さらに、これに対する混乱行列の構造と、より多様なVoxForgeデータセットと状態を比較し、データセットが十分に多様性があり、性別、年齢などの他の分類要因を識別できるように、仮説を裏付ける。 LIDシステムの混乱行列は言語類似度の測定値である。

This memo describes NTR/TSU winning submission for Low Resource ASR challenge at Dialog2021 conference, language identification track. Spoken Language Identification (LID) is an important step in a multilingual Automated Speech Recognition (ASR) system pipeline. Traditionally, the ASR task requires large volumes of labeled data that are unattainable for most of the world's languages, including most of the languages of Russia. In this memo, we show that a convolutional neural network with a Self-Attentive Pooling layer shows promising results in low-resource setting for the language identification task and set up a SOTA for the Low Resource ASR challenge dataset. Additionally, we compare the structure of confusion matrices for this and significantly more diverse VoxForge dataset and state and substantiate the hypothesis that whenever the dataset is diverse enough so that the other classification factors, like gender, age etc. are well-averaged, the confusion matrix for LID system bears the language similarity measure.
翻訳日:2021-06-02 14:33:41 公開日:2021-05-31
# 複素状況における偏微分方程式のロバスト発見

Robust discovery of partial differential equations in complex situations ( http://arxiv.org/abs/2106.00008v1 )

ライセンス: Link先を確認
Hao Xu and Dongxiao Zhang(参考訳) データ駆動による偏微分方程式(PDE)の発見は近年かなりの発展を遂げている。 問題のいくつかの側面は、スパース回帰ベースとニューラルネットワークベースの方法によって解決されている。 しかし, 既存手法の性能は, 高雑音, 高次導波, 衝撃波を含む複雑な状況に対処する際の安定性に欠けており, 導波の正確な計算に障害が生じる。 そこで本研究では、物理学的不定形ニューラルネットワーク(pinn)を組み込んだロバストな深層学習ジェネティックアルゴリズム(r-dlga)と呼ばれるロバストなpde発見フレームワークを提案する。 この枠組みでは,pinnの損失関数にdeep learning-geneticアルゴリズムによるポテンシャル項の予備結果を物理制約として加え,微分計算の精度を向上させる。 予備結果の最適化を支援し、エラー補償項を排除して最終的に発見されたPDEを得る。 複雑な状況下でのR-DLGAの安定性と精度を検証し,提案手法がPINNの最適化により精度よく導関数を計算し,高雑音,高次導関数,衝撃波を含む複雑な状況に対して驚くほど堅牢性を有することを示す。

Data-driven discovery of partial differential equations (PDEs) has achieved considerable development in recent years. Several aspects of problems have been resolved by sparse regression-based and neural network-based methods. However, the performances of existing methods lack stability when dealing with complex situations, including sparse data with high noise, high-order derivatives and shock waves, which bring obstacles to calculating derivatives accurately. Therefore, a robust PDE discovery framework, called the robust deep learning-genetic algorithm (R-DLGA), that incorporates the physics-informed neural network (PINN), is proposed in this work. In the framework, a preliminary result of potential terms provided by the deep learning-genetic algorithm is added into the loss function of the PINN as physical constraints to improve the accuracy of derivative calculation. It assists to optimize the preliminary result and obtain the ultimately discovered PDE by eliminating the error compensation terms. The stability and accuracy of the proposed R-DLGA in several complex situations are examined for proof-and-concept, and the results prove that the proposed framework is able to calculate derivatives accurately with the optimization of PINN and possesses surprising robustness to complex situations, including sparse data with high noise, high-order derivatives, and shock waves.
翻訳日:2021-06-02 14:33:26 公開日:2021-05-31
# 微視的シミュレーションデータによる粘性重力電流のマクログバニング方程式の深層学習による発見

Deep-Learning Discovers Macroscopic Governing Equations for Viscous Gravity Currents from Microscopic Simulation Data ( http://arxiv.org/abs/2106.00009v1 )

ライセンス: Link先を確認
Junsheng Zeng, Hao Xu, Yuntian Chen, and Dongxiao Zhang(参考訳) 深層学習は、高次元の非線形マッピング能力により、様々な科学や工学の問題にうまく適用されてきたが、科学的知識の発見では限られた用途である。 本研究では,基礎用語の事前知識を必要とせず,高分解能微視的シミュレーションデータに基づく粘性重力電流の巨視的支配方程式を探索するためのディープラーニングフレームワークを提案する。 粘度比が異なる2つの典型的なシナリオに対して、ディープラーニングに基づく方程式は、提案された枠組みを検証した長期漸近的な振る舞いを記述するための理論的に導出された方程式と同じ支配的な用語を正確に捉えている。 未知の巨視的方程式は短期的な振る舞いを記述するために得られ、隠れたメカニズムは最終的に説明可能な項と対応する係数で発見される。 その結果,データ空間における実験結果やシミュレーション結果から,科学的意味空間における未知の固有法則を発見できる可能性が示唆された。

Although deep-learning has been successfully applied in a variety of science and engineering problems owing to its strong high-dimensional nonlinear mapping capability, it is of limited use in scientific knowledge discovery. In this work, we propose a deep-learning based framework to discover the macroscopic governing equation of viscous gravity current based on high-resolution microscopic simulation data without the need for prior knowledge of underlying terms. For two typical scenarios with different viscosity ratios, the deep-learning based equations exactly capture the same dominated terms as the theoretically derived equations for describing long-term asymptotic behaviors, which validates the proposed framework. Unknown macroscopic equations are then obtained for describing short-term behaviors, and hidden mechanisms are eventually discovered with deep-learned explainable compensation terms and corresponding coefficients. Consequently, the presented deep-learning framework shows considerable potential for discovering unrevealed intrinsic laws in scientific semantic space from raw experimental or simulation results in data space.
翻訳日:2021-06-02 14:33:06 公開日:2021-05-31
# 観測データによる因果効果の連関推定

Federated Estimation of Causal Effects from Observational Data ( http://arxiv.org/abs/2106.00456v1 )

ライセンス: Link先を確認
Thanh Vinh Vo, Trong Nghia Hoang, Young Lee, Tze-Yun Leong(参考訳) 現代の多くのアプリケーションは、データをローカルに保持し、公開しないまま、フェデレートされた精神でデータを集めている。 因果推論に関するほとんどの洞察は、日付が悪く、中央リポジトリにデータを保存する必要がある。 フェデレーションデータソースを用いた因果推論のための新しいフレームワークを提案する。 異なるプライベートデータソースからの局所的因果効果を集中化せずに評価・統合する。 そして, 観察データから得られる治療効果を, 古典的潜在的結果フレームワークの非パラメトリックな再構成を用いて推定する。 提案手法は,複数のデータソースからパラメータを効率的に学習し,プライバシ制約を考慮し,ガウス過程によって分散されたランダム関数として潜在結果をモデル化する。 シミュレーションと実世界のベンチマークの例を通して,提案手法の期待と効率を実証する。

Many modern applications collect data that comes in federated spirit, with data kept locally and undisclosed. Till date, most insight into the causal inference requires data to be stored in a central repository. We present a novel framework for causal inference with federated data sources. We assess and integrate local causal effects from different private data sources without centralizing them. Then, the treatment effects on subjects from observational data using a non-parametric reformulation of the classical potential outcomes framework is estimated. We model the potential outcomes as a random function distributed by Gaussian processes, whose defining parameters can be efficiently learned from multiple data sources, respecting privacy constraints. We demonstrate the promise and efficiency of the proposed approach through a set of simulated and real-world benchmark examples.
翻訳日:2021-06-02 14:32:49 公開日:2021-05-31
# PUDLE:バックプロパゲーションによる辞書学習の急激な加速

PUDLE: Implicit Acceleration of Dictionary Learning by Backpropagation ( http://arxiv.org/abs/2106.00058v1 )

ライセンス: Link先を確認
Bahareh Tolooshams and Demba Ba(参考訳) 辞書学習問題は、数個の原子の組み合わせとしてデータを表現しており、統計学や信号処理における表現を学習するための一般的な方法として長い間存在してきた。 最もポピュラーな辞書学習アルゴリズムは、スパースコーディングと辞書更新ステップを交互に行い、リッチな文献はその理論的収束を研究した。 ニューラル・プルーサブルな分散コーディングネットワークの人気が高まり、そのようなネットワークを介したバックプロパゲーションが辞書学習を行うという経験的発見につながった。 本稿では,PUDLE(Provable Unfolded Dictionary LEarning method)による実験結果の理論的証明を行う。 我々は、損失、展開、バックプロパゲーションが収束に与える影響を強調する。 展開する関数として、バックプロパゲーションされた勾配はより速く収束し、交代最小化による勾配よりも正確である。 我々は,合成および画像分割実験により,この知見を補完する。 この発見は、辞書学習のための高速化されたディープラーニングオプティマイザと展開されたネットワークの利用をサポートする。

The dictionary learning problem, representing data as a combination of few atoms, has long stood as a popular method for learning representations in statistics and signal processing. The most popular dictionary learning algorithm alternates between sparse coding and dictionary update steps, and a rich literature has studied its theoretical convergence. The growing popularity of neurally plausible unfolded sparse coding networks has led to the empirical finding that backpropagation through such networks performs dictionary learning. This paper offers the first theoretical proof for these empirical results through PUDLE, a Provable Unfolded Dictionary LEarning method. We highlight the impact of loss, unfolding, and backpropagation on convergence. We discover an implicit acceleration: as a function of unfolding, the backpropagated gradient converges faster and is more accurate than the gradient from alternating minimization. We complement our findings through synthetic and image denoising experiments. The findings support the use of accelerated deep learning optimizers and unfolded networks for dictionary learning.
翻訳日:2021-06-02 14:32:00 公開日:2021-05-31
# 時空間データによるCOVID-19ホットスポットの早期検出

Early Detection of COVID-19 Hotspots Using Spatio-Temporal Data ( http://arxiv.org/abs/2106.00072v1 )

ライセンス: Link先を確認
Shixiang Zhu, Alexander Bukharin, Liyan Xie, Shihao Yang, Pinar Keskinocak, Yao Xie(参考訳) 近年、CDC(疾病対策センター)は他の政府機関と協力して、新型コロナウイルス(COVID-19)の流行(ホットスポット)が増加する郡を識別し、地域保健部門に感染拡大を制限する支援を提供している。 ホットスポットイベントの時空間的ダイナミクスを理解することは、政策決定を支援し、大規模なアウトブレイクを防ぐために非常に重要である。 本稿では,米国におけるcovid-19ホットスポット(郡レベル)の早期検出のための時空間ベイズ的枠組みを提案する。 観察された症例数とホットスポットは、新型コロナウイルスの感染の時空間的ダイナミクスをコードする潜伏確率変数のクラスに依存すると仮定する。 そのような潜在変数はゼロ平均ガウス過程に従い、共分散は非定常核関数によって指定される。 我々のカーネル関数の最も有意義な特徴は、深いニューラルネットワークが、カーネルの解釈可能性を維持しながら、モデルの代表力を高めるために導入されていることです。 分散モデルを導出し,変分学習戦略を用いてモデルに適合させることにより,大規模データセットの計算難易度を回避できる。 本モデルでは,他のベースライン法と比較して,解釈性やホットスポット検出性能が優れていることを示す。

Recently, the Centers for Disease Control and Prevention (CDC) has worked with other federal agencies to identify counties with increasing coronavirus disease 2019 (COVID-19) incidence (hotspots) and offers support to local health departments to limit the spread of the disease. Understanding the spatio-temporal dynamics of hotspot events is of great importance to support policy decisions and prevent large-scale outbreaks. This paper presents a spatio-temporal Bayesian framework for early detection of COVID-19 hotspots (at the county level) in the United States. We assume both the observed number of cases and hotspots depend on a class of latent random variables, which encode the underlying spatio-temporal dynamics of the transmission of COVID-19. Such latent variables follow a zero-mean Gaussian process, whose covariance is specified by a non-stationary kernel function. The most salient feature of our kernel function is that deep neural networks are introduced to enhance the model's representative power while still enjoying the interpretability of the kernel. We derive a sparse model and fit the model using a variational learning strategy to circumvent the computational intractability for large data sets. Our model demonstrates better interpretability and superior hotspot-detection performance compared to other baseline methods.
翻訳日:2021-06-02 14:31:46 公開日:2021-05-31
# 一般化されたAdaGrad(G-AdaGrad)とAdam:状態空間の展望

Generalized AdaGrad (G-AdaGrad) and Adam: A State-Space Perspective ( http://arxiv.org/abs/2106.00092v1 )

ライセンス: Link先を確認
Kushal Chakrabarti, Nikhil Chopra(参考訳) 加速度勾配に基づく手法は、特にデータポイントが豊富であるか、利用可能なデータが複数のエージェントに分散している場合、非凸機械学習の問題を解決するために広く使われている。 顕著な加速勾配アルゴリズムの2つはAdaGradとAdamである。 AdaGradは最も単純な加速勾配法であり、特にスパースデータに有効である。 adamは、他の方法と比較して、ディープラーニングの問題で有利に機能することが示されている。 本稿では,非凸機械学習問題の解を高速化する新しい高速最適化器であるgeneralized adagrad (g-adagrad)を提案する。 具体的には,G-AdaGradやAdamといった勾配加速度アルゴリズムの収束を解析するための状態空間的視点を採用する。 提案する状態空間モデルは常微分方程式によって制御される。 この2つのアルゴリズムの単純な収束証明を最小の仮定で決定論的設定で提示する。 我々の分析は、AdaGradの収束率を改善するための直感も提供する。 我々は、G-AdaGradとAdamの収束と性能に関する主張を強化するために、MNISTデータセットの実証結果を提供する。

Accelerated gradient-based methods are being extensively used for solving non-convex machine learning problems, especially when the data points are abundant or the available data is distributed across several agents. Two of the prominent accelerated gradient algorithms are AdaGrad and Adam. AdaGrad is the simplest accelerated gradient method, which is particularly effective for sparse data. Adam has been shown to perform favorably in deep learning problems compared to other methods. In this paper, we propose a new fast optimizer, Generalized AdaGrad (G-AdaGrad), for accelerating the solution of potentially non-convex machine learning problems. Specifically, we adopt a state-space perspective for analyzing the convergence of gradient acceleration algorithms, namely G-AdaGrad and Adam, in machine learning. Our proposed state-space models are governed by ordinary differential equations. We present simple convergence proofs of these two algorithms in the deterministic settings with minimal assumptions. Our analysis also provides intuition behind improving upon AdaGrad's convergence rate. We provide empirical results on MNIST dataset to reinforce our claims on the convergence and performance of G-AdaGrad and Adam.
翻訳日:2021-06-02 14:31:27 公開日:2021-05-31
# パープレキシティを越えた言語モデルの評価

Language Model Evaluation Beyond Perplexity ( http://arxiv.org/abs/2106.00085v1 )

ライセンス: Link先を確認
Clara Meister, Ryan Cotterell(参考訳) そこで我々は,自然言語モデルがいかに自然言語を学習するかを定量化する代替手法を提案する。 この疑問に答えるために,言語モデルから生成したテキストが,学習した人間の生成したテキストに存在する統計的傾向を示すか分析する。 自然言語のある種の統計的傾向に対する言語モデルの適合性を評価するための、重要なテストを伴うフレームワークを提供する。 ニューラル言語モデルは、考慮される統計傾向のサブセットのみを学習しているように見えるが、理論的な法則(現在)よりも経験的傾向と密接に一致している。 さらに、異なる分布に対する適合性は、モデルアーキテクチャと生成戦略の両方に依存する。 具体的な例として、核サンプリングスキームで生成されたテキストは、標準祖先サンプリングで生成されたテキストよりも自然言語のタイプ-トケン関係に密着しており、lstmからのテキストは、長さ、ストップワード、シンボルに対する自然言語分布をよく反映している。

We propose an alternate approach to quantifying how well language models learn natural language: we ask how well they match the statistical tendencies of natural language. To answer this question, we analyze whether text generated from language models exhibits the statistical tendencies present in the human-generated text on which they were trained. We provide a framework--paired with significance tests--for evaluating the fit of language models to certain statistical tendencies of natural language. We find that neural language models appear to learn only a subset of the statistical tendencies considered, but align much more closely with empirical trends than theoretical laws (when present). Further, the fit to different distributions is dependent on both model architecture and generation strategy. As concrete examples, text generated under the nucleus sampling scheme adheres more closely to the type--token relationship of natural language than text produced using standard ancestral sampling; text from LSTMs reflects the natural language distributions over length, stopwords, and symbols suprisingly well.
翻訳日:2021-06-02 14:27:50 公開日:2021-05-31
# 複数単語選択によるELECTRA訓練

Training ELECTRA Augmented with Multi-word Selection ( http://arxiv.org/abs/2106.00139v1 )

ライセンス: Link先を確認
Jiaming Shen, Jialu Liu, Tianqi Liu, Cong Yu, Jiawei Han(参考訳) BERTなどの事前訓練されたテキストエンコーダは、最近多くのNLPタスクで最先端のパフォーマンスを達成した。 有効性はあるものの、これらの事前学習手法は一般に大量の計算資源を必要とする。 プリトレーニングを加速するためにelectraは、各入力トークンがジェネレータに置き換えられるかどうかを予測する識別器を訓練する。 しかし、この新しいタスクはバイナリ分類として、意味的にはあまり意味的ではない。 本研究では,マルチタスク学習に基づくエレクトラを改善する新しいテキストエンコーダ事前学習手法を提案する。 具体的には、識別器を訓練し、置換トークンを同時に検出し、候補集合から元のトークンを選択する。 さらに,(1)タスク固有の頭部に注意型ネットワークを利用する,(2)ジェネレータと識別器の底層を共有する,という2つの事前学習タスクを効果的に組み合わせる手法を開発した。 GLUEとSQuADデータセットの大規模な実験により,提案手法の有効性と有効性を示した。

Pre-trained text encoders such as BERT and its variants have recently achieved state-of-the-art performances on many NLP tasks. While being effective, these pre-training methods typically demand massive computation resources. To accelerate pre-training, ELECTRA trains a discriminator that predicts whether each input token is replaced by a generator. However, this new task, as a binary classification, is less semantically informative. In this study, we present a new text encoder pre-training method that improves ELECTRA based on multi-task learning. Specifically, we train the discriminator to simultaneously detect replaced tokens and select original tokens from candidate sets. We further develop two techniques to effectively combine all pre-training tasks: (1) using attention-based networks for task-specific heads, and (2) sharing bottom layers of the generator and the discriminator. Extensive experiments on GLUE and SQuAD datasets demonstrate both the effectiveness and the efficiency of our proposed method.
翻訳日:2021-06-02 14:27:34 公開日:2021-05-31
# AppBuddy: 強化学習を通じてモバイルアプリのタスクを補完する学習

AppBuddy: Learning to Accomplish Tasks in Mobile Apps via Reinforcement Learning ( http://arxiv.org/abs/2106.00133v1 )

ライセンス: Link先を確認
Maayan Shvo, Zhiming Hu, Rodrigo Toro Icarte, Iqbal Mohomed, Allan Jepson, Sheila A. McIlraith(参考訳) 人間は、たとえ小さな子供でも、モバイル端末でアプリケーションを使う方法を見つけることに、すぐに精通する。 新しいアプリを使うための学習は、しばしば試行錯誤によって行われ、likeアプリを使った過去の経験から知識を移すことによって促進される。 よりスマートなスマートフォン - モバイルアプリを使ってタスクの達成方法を学べる - を構築する見通しは、具体的だ。 本稿では,この試みを進めることを目的とした強化学習(RL)の利用について検討する。 モバイルアプリのタスクを学習するためのRLベースのフレームワークを紹介する。 RLエージェントには、オンスクリーン要素の基本的な表現から派生した状態と、タスクの進捗に基づく報酬が提供される。 エージェントはタップやタイピングによってスクリーン要素と対話できる。 実験の結果、複数のモバイルアプリで、RLエージェントがマルチステップのタスクをこなし、異なるアプリにまたがる控えめな一般化を達成できることが示されている。 より一般的には、効率的なRLトレーニング環境を実現するために、いくつかのエンジニアリング課題に対処するプラットフォームを開発する。 私たちのAppBuddyプラットフォームはOpenAI Gymと互換性があり、モバイルアプリのスイートと、モバイルアプリ設定におけるRL研究の多様性をサポートするベンチマークタスクが含まれています。

Human beings, even small children, quickly become adept at figuring out how to use applications on their mobile devices. Learning to use a new app is often achieved via trial-and-error, accelerated by transfer of knowledge from past experiences with like apps. The prospect of building a smarter smartphone - one that can learn how to achieve tasks using mobile apps - is tantalizing. In this paper we explore the use of Reinforcement Learning (RL) with the goal of advancing this aspiration. We introduce an RL-based framework for learning to accomplish tasks in mobile apps. RL agents are provided with states derived from the underlying representation of on-screen elements, and rewards that are based on progress made in the task. Agents can interact with screen elements by tapping or typing. Our experimental results, over a number of mobile apps, show that RL agents can learn to accomplish multi-step tasks, as well as achieve modest generalization across different apps. More generally, we develop a platform which addresses several engineering challenges to enable an effective RL training environment. Our AppBuddy platform is compatible with OpenAI Gym and includes a suite of mobile apps and benchmark tasks that supports a diversity of RL research in the mobile app setting.
翻訳日:2021-06-02 14:23:45 公開日:2021-05-31
# 分布シフト下における意味セグメンテーションの不確実性推定について

Closer Look at the Uncertainty Estimation in Semantic Segmentation under Distributional Shift ( http://arxiv.org/abs/2106.00076v1 )

ライセンス: Link先を確認
Sebastian Cygert, Bart{\l}omiej Wr\'oblewski, Karol Wo\'zniak, Rados{\l}aw S{\l}owi\'nski, Andrzej Czy\.zewski(参考訳) 最近のコンピュータビジョンアルゴリズムは、多くのベンチマークで印象的なパフォーマンスを達成するが、それらは堅牢性に欠けており、異なる分布(例えば、)の画像で示される。 天候や照明条件は訓練中は考慮されないが、誤った予測をもたらす可能性がある。 したがって、そのようなモデルが信頼度尺度を確実に予測できることが望まれる。 本研究は、クロスデータセット設定とシミュレーションからデータに基づいてトレーニングされたモデルを適用する場合のドメインシフトの異なるレベルにおいて、意味セグメンテーションのタスクに対する不確実性の評価を行う。 単純な色変換はすでに強力なベースラインを提供しており、より洗練されたスタイル変換データ拡張と同等である。 さらに,異なるバックボーンと/または拡張手法を用いたモデルからなるアンサンブルを構築することにより,ドメインシフト設定の下での全体的な精度と不確実性評価の観点から,性能を著しく向上することができた。 GTAからCityscapesへの適応に挑戦する予測校正誤差(ECE)は4.05から1.1に引き下げられた。 さらに、擬似ラベル生成を改善するために、自己学習設定でモデルのアンサンブルが利用され、標準の微調整(アンサンブルなし)と比較して最終モデルの精度が大幅に向上した。

While recent computer vision algorithms achieve impressive performance on many benchmarks, they lack robustness - presented with an image from a different distribution, (e.g. weather or lighting conditions not considered during training), they may produce an erroneous prediction. Therefore, it is desired that such a model will be able to reliably predict its confidence measure. In this work, uncertainty estimation for the task of semantic segmentation is evaluated under a varying level of domain shift: in a cross-dataset setting and when adapting a model trained on data from the simulation. It was shown that simple color transformations already provide a strong baseline, comparable to using more sophisticated style-transfer data augmentation. Further, by constructing an ensemble consisting of models using different backbones and/or augmentation methods, it was possible to improve significantly model performance in terms of overall accuracy and uncertainty estimation under the domain shift setting. The Expected Calibration Error (ECE) on challenging GTA to Cityscapes adaptation was reduced from 4.05 to the competitive value of 1.1. Further, an ensemble of models was utilized in the self-training setting to improve the pseudo-labels generation, which resulted in a significant gain in the final model accuracy, compared to the standard fine-tuning (without ensemble).
翻訳日:2021-06-02 14:22:03 公開日:2021-05-31
# RNNにおける学習と一般化

Learning and Generalization in RNNs ( http://arxiv.org/abs/2106.00047v1 )

ライセンス: Link先を確認
Abhishek Panigrahi, Navin Goyal(参考訳) 単純なリカレントニューラルネットワーク(RNN)とそのより高度な従兄弟LSTMなど。 シーケンスモデリングに非常に成功しています しかし、それらの理論的な理解は不十分であり、フィードフォワードネットワークの進展に追随していない。 本稿では、RNNがシーケンスの関数を学習できることを証明し、この状況を改善するために前進する。 シーケンス内の個々のトークンの関数の和であるシーケンスの関数のみを扱うことができる以前の作業とは対照的に、一般的な関数を許容する。 概念的に、技術的に、我々は証明の中でrnnの隠れた状態から情報を抽出することができる新しいアイデアを紹介します。 本稿では,正規言語認識問題について概説する。

Simple recurrent neural networks (RNNs) and their more advanced cousins LSTMs etc. have been very successful in sequence modeling. Their theoretical understanding, however, is lacking and has not kept pace with the progress for feedforward networks, where a reasonably complete understanding in the special case of highly overparametrized one-hidden-layer networks has emerged. In this paper, we make progress towards remedying this situation by proving that RNNs can learn functions of sequences. In contrast to the previous work that could only deal with functions of sequences that are sums of functions of individual tokens in the sequence, we allow general functions. Conceptually and technically, we introduce new ideas which enable us to extract information from the hidden state of the RNN in our proofs -- addressing a crucial weakness in previous work. We illustrate our results on some regular language recognition problems.
翻訳日:2021-06-02 14:14:55 公開日:2021-05-31
# 構造化出力予測の細粒度一般化解析

Fine-grained Generalization Analysis of Structured Output Prediction ( http://arxiv.org/abs/2106.00115v1 )

ライセンス: Link先を確認
Waleed Mustafa, Yunwen Lei, Antoine Ledent, Marius Kloft(参考訳) 機械学習では、しばしば構造化出力予測問題(SOPP)に遭遇する。 出力空間がリッチな内部構造を持つような問題。 SOPPが自然に発生するアプリケーションドメインには、自然言語処理、音声認識、コンピュータビジョンがある。 典型的なSOPPは、非常に大きなラベルセットを持ち、出力の大きさの関数として指数関数的に成長する。 既存の一般化解析は、ラベル集合の濃度$d$に少なくとも平方根依存を持つ一般化境界を意味し、実際は空である可能性がある。 本稿では, 対数依存性を持つ新しい高確率境界を$d$で開発することにより, 技術の現状を著しく改善する。 さらに、アルゴリズム安定性のレンズを利用して、$d$に依存することなく期待値の一般化境界を開発する。 そこで本研究は,大規模SOPPの学習に有効な理論基盤を構築した。 さらに,弱依存データを用いた学習にも結果を拡大する。

In machine learning we often encounter structured output prediction problems (SOPPs), i.e. problems where the output space admits a rich internal structure. Application domains where SOPPs naturally occur include natural language processing, speech recognition, and computer vision. Typical SOPPs have an extremely large label set, which grows exponentially as a function of the size of the output. Existing generalization analysis implies generalization bounds with at least a square-root dependency on the cardinality $d$ of the label set, which can be vacuous in practice. In this paper, we significantly improve the state of the art by developing novel high-probability bounds with a logarithmic dependency on $d$. Moreover, we leverage the lens of algorithmic stability to develop generalization bounds in expectation without any dependency on $d$. Our results therefore build a solid theoretical foundation for learning in large-scale SOPPs. Furthermore, we extend our results to learning with weakly dependent data.
翻訳日:2021-06-02 14:14:42 公開日:2021-05-31
# 拡散確率モデルの高速サンプリングについて

On Fast Sampling of Diffusion Probabilistic Models ( http://arxiv.org/abs/2106.00132v1 )

ライセンス: Link先を確認
Zhifeng Kong, Wei Ping(参考訳) 本研究では拡散確率モデルにおける高速サンプリングのための統一フレームワークfastdpmを提案する。 FastDPMは従来の手法を一般化し、サンプル品質を改善した新しいアルゴリズムを生み出した。 本研究では, 異なる領域, 異なるデータセット, 異なる条件情報を用いて, このフレームワーク下での高速サンプリング手法を体系的に検討する。 特定の手法の性能は、データ領域(画像や音声など)、サンプリング速度とサンプル品質のトレードオフ、条件情報量に依存することがわかった。 実践者のための方法の選択に関する洞察とレシピも提供する。

In this work, we propose FastDPM, a unified framework for fast sampling in diffusion probabilistic models. FastDPM generalizes previous methods and gives rise to new algorithms with improved sample quality. We systematically investigate the fast sampling methods under this framework across different domains, on different datasets, and with different amount of conditional information provided for generation. We find the performance of a particular method depends on data domains (e.g., image or audio), the trade-off between sampling speed and sample quality, and the amount of conditional information. We further provide insights and recipes on the choice of methods for practitioners.
翻訳日:2021-06-02 14:14:15 公開日:2021-05-31
# 可視化品質評価の自動化 : 高等教育における事例研究

Automating Visualization Quality Assessment: a Case Study in Higher Education ( http://arxiv.org/abs/2106.00077v1 )

ライセンス: Link先を確認
Nicolas Steven Holliman(参考訳) 本稿では,高次教育課程を受講した学生によるデータ視覚化の人為的評価を支援するために,自動可視化品質指標を応用した,機械+人混合インテリジェンスを用いた可視化品質評価のケーススタディを提案する。 エッジの混雑、視覚的満足度、色分析を含む画像情報処理アルゴリズムのセットは、学生の可視化のマシン分析を生成する。 画像インフォマティクスのアウトプットからの洞察は,作業評価の指標として有用であることが証明され,その成果の報告の一部として学生に提供された。 学生と外部のレビュアーのコメントは、標準フィードバック文書への画像情報出力の追加は肯定的なステップであったことを示唆している。 評価データと評価プロセスの自動化に関する倫理的課題を概観する。

We present a case study in the use of machine+human mixed intelligence for visualization quality assessment, applying automated visualization quality metrics to support the human assessment of data visualizations produced as coursework by students taking higher education courses. A set of image informatics algorithms including edge congestion, visual saliency and colour analysis generate machine analysis of student visualizations. The insight from the image informatics outputs has proved helpful for the marker in assessing the work and is also provided to the students as part of a written report on their work. Student and external reviewer comments suggest that the addition of the image informatics outputs to the standard feedback document was a positive step. We review the ethical challenges of working with assessment data and of automating assessment processes.
翻訳日:2021-06-02 14:11:00 公開日:2021-05-31
# ハイパースフィア上の拡散自己組織化マップ

Diffusion Self-Organizing Map on the Hypersphere ( http://arxiv.org/abs/2106.00014v1 )

ライセンス: Link先を確認
M. Andrecut(参考訳) 単位超球面上の自己組織化マップの拡散に基づく実装について論じる。 我々は,この手法を線形代数法のみを用いて効率的に実装できることを示し,python numpyの実装を与え,よく知られたmnistデータセットを用いてそのアプローチを説明する。

We discuss a diffusion based implementation of the self-organizing map on the unit hypersphere. We show that this approach can be efficiently implemented using just linear algebra methods, we give a python numpy implementation, and we illustrate the approach using the well known MNIST dataset.
翻訳日:2021-06-02 14:06:24 公開日:2021-05-31
# グラフニューラルネットワークにおけるノード可変グラフフィルタ

Node-Variant Graph Filters in Graph Neural Networks ( http://arxiv.org/abs/2106.00089v1 )

ライセンス: Link先を確認
Fernando Gama, Brendon G. Anderson, Somayeh Sojoudi(参考訳) グラフニューラルネットワーク(GNN)は、グラフ構造化データを含む無数のアプリケーションに成功している。 理論的には、GNNは非線形アクティベーション関数を用いて、その後のグラフ畳み込みフィルタによって安定した方法で処理できる低固有値周波数コンテンツを生成する。 しかし、非線形関数によって生成された周波数内容の正確な形状は分かっておらず、学習も制御もできない。 本研究では,ノード変動グラフフィルタ (NVGF) が周波数コンテンツを生成できることが示され,非線形活性化関数の代わりに使用される。 これにより、線形ではあるが、周波数コンテンツも作成できる新しいgnnアーキテクチャが実現される。 さらに、この新しい周波数コンテンツは、データから設計または学習することができる。 このように、周波数生成の役割は、従来のGNNの非線形性質とは分離される。 周波数生成の寄与と非線形性の寄与を区別するために,広範囲なシミュレーションを行った。

Graph neural networks (GNNs) have been successfully employed in a myriad of applications involving graph-structured data. Theoretical findings establish that GNNs use nonlinear activation functions to create low-eigenvalue frequency content that can be processed in a stable manner by subsequent graph convolutional filters. However, the exact shape of the frequency content created by nonlinear functions is not known, and thus, it cannot be learned nor controlled. In this work, node-variant graph filters (NVGFs) are shown to be capable of creating frequency content and are thus used in lieu of nonlinear activation functions. This results in a novel GNN architecture that, although linear, is capable of creating frequency content as well. Furthermore, this new frequency content can be either designed or learned from data. In this way, the role of frequency creation is separated from the nonlinear nature of traditional GNNs. Extensive simulations are carried out to differentiate the contributions of frequency creation from those of the nonlinearity.
翻訳日:2021-06-02 14:06:20 公開日:2021-05-31
# Meta-HAR:人間活動認識のためのフェデレーション表現学習

Meta-HAR: Federated Representation Learning for Human Activity Recognition ( http://arxiv.org/abs/2106.00615v1 )

ライセンス: Link先を確認
Chenglin Li, Di Niu, Bei Jiang, Xiao Zuo and Jianming Yang(参考訳) モバイルセンサに基づくヒューマンアクティビティ認識(har)はユビキタスコンピューティングにおいて重要な役割を果たす。 しかし、データ規制の台頭は、個人デバイスからプライベートおよびラベル付き信号データを大規模に収集することを妨げる。 フェデレーション学習は、ローカルに更新されたモデルを共有グローバルモデルに反復的に集約することで、集中的な収集なしで分散したプライベートデータを活用できる、モデルトレーニングの分散化代替ソリューションとして登場した。 しかし,HARにおけるフェデレート学習の有効性は,各ユーザが異なるアクティビティタイプを持ち,同一のアクティビティタイプに対して異なる信号分布を持つという事実に影響されている。 さらに、トレーニングされた単一のグローバルモデルが、異種データを持つ個々のユーザや新規ユーザに対してうまく一般化できるかは不明だ。 本稿では,信号埋め込みネットワークをメタ学習し,学習した信号表現を各ユーザの個人別分類ネットワークに入力し,活動予測を行う,フェデレート表現学習フレームワークであるMeta-HARを提案する。 組込みネットワークの表現能力を高めるために,組込みネットワークが任意のユーザに対して一般化できるように,各ユーザのhar問題を異なるタスクとして扱い,モデルに依存しないメタ学習フレームワークを通じて共有組込みネットワークを訓練する。 適応手順における頑健に学習された表現の上に、パーソナライゼーションがさらに達成される。 利用可能な2つのHARデータセットと、新たに作成されたHARデータセットに基づいて、広範な実験を行った。 その結果,Meta-HARは,新規ユーザを含む個々のユーザに対する高いテスト精度を維持する上で有効であることが確認され,フェデレート平均化やリペアリング,さらには集中学習など,いくつかのベースラインを著しく上回っている。

Human activity recognition (HAR) based on mobile sensors plays an important role in ubiquitous computing. However, the rise of data regulatory constraints precludes collecting private and labeled signal data from personal devices at scale. Federated learning has emerged as a decentralized alternative solution to model training, which iteratively aggregates locally updated models into a shared global model, therefore being able to leverage decentralized, private data without central collection. However, the effectiveness of federated learning for HAR is affected by the fact that each user has different activity types and even a different signal distribution for the same activity type. Furthermore, it is uncertain if a single global model trained can generalize well to individual users or new users with heterogeneous data. In this paper, we propose Meta-HAR, a federated representation learning framework, in which a signal embedding network is meta-learned in a federated manner, while the learned signal representations are further fed into a personalized classification network at each user for activity prediction. In order to boost the representation ability of the embedding network, we treat the HAR problem at each user as a different task and train the shared embedding network through a Model-Agnostic Meta-learning framework, such that the embedding network can generalize to any individual user. Personalization is further achieved on top of the robustly learned representations in an adaptation procedure. We conducted extensive experiments based on two publicly available HAR datasets as well as a newly created HAR dataset. Results verify that Meta-HAR is effective at maintaining high test accuracies for individual users, including new users, and significantly outperforms several baselines, including Federated Averaging, Reptile and even centralized learning in certain cases.
翻訳日:2021-06-02 14:04:38 公開日:2021-05-31
# 新物理検出のための機械学習非保守ダイナミクス

Machine-Learning Non-Conservative Dynamics for New-Physics Detection ( http://arxiv.org/abs/2106.00026v1 )

ライセンス: Link先を確認
Ziming Li, Bohan Wang, Qi Meng, Wei Chen, Max Tegmark and Tie-Yan Liu(参考訳) エネルギー保存は基本的な物理原理であり、その分解はしばしば新しい物理学を意味する。 本稿では,データ駆動型新しい物理発見手法を提案する。 具体的には、未知の力によって支配される軌道を考慮し、我々のニューラル新物理検出器(NNPhD)は、力場をラグランジアンニューラルネットワーク(LNN)と普遍近似器ネットワーク(UAN)で表される保守的および非保守的成分に分解し、力回復誤差の最小化と予測される非保守的力の大きさの1/$の一定値の値を求める。 任意の力に対して、相転移が$\lambda$=1で起こることを示す。 我々は、NNPhDがおもちゃの数値実験で新しい物理学を発見し、湿った二重振り子からの摩擦(1493)、天王星の軌道からの海王星(1846)、吸気軌道からの重力波(2017)を再発見することに成功した。 また,NNPhDと積分器の結合が,減衰二重振り子の将来を予測する従来の手法よりも優れていることを示す。

Energy conservation is a basic physics principle, the breakdown of which often implies new physics. This paper presents a method for data-driven "new physics" discovery. Specifically, given a trajectory governed by unknown forces, our Neural New-Physics Detector (NNPhD) aims to detect new physics by decomposing the force field into conservative and non-conservative components, which are represented by a Lagrangian Neural Network (LNN) and a universal approximator network (UAN), respectively, trained to minimize the force recovery error plus a constant $\lambda$ times the magnitude of the predicted non-conservative force. We show that a phase transition occurs at $\lambda$=1, universally for arbitrary forces. We demonstrate that NNPhD successfully discovers new physics in toy numerical experiments, rediscovering friction (1493) from a damped double pendulum, Neptune from Uranus' orbit (1846) and gravitational waves (2017) from an inspiraling orbit. We also show how NNPhD coupled with an integrator outperforms previous methods for predicting the future of a damped double pendulum.
翻訳日:2021-06-02 14:02:54 公開日:2021-05-31
# 反クープマン主義

Anti-Koopmanism ( http://arxiv.org/abs/2106.00106v1 )

ライセンス: Link先を確認
Efrain Gonzalez, Moad Abudia, Michael Jury, Rushikesh Kamalapurkar, Joel A. Rosenfeld(参考訳) 本稿では、コップマン作用素の束の存在、コップマン作用素間の共通固有関数、コップマン作用素の有界性とコンパクト性など、コップマン作用素に関する長年の誤解について述べる。 各誤解に対して反例を提供する。 この写本はまた、ガウス RBF のネイティブ空間がアフィン力学に対応する有界クープマン作用素のみをサポートすることを証明しており、有界性の仮定は非常に制限的であることを示している。 DMDのためのフレームワークは、カーネルヒルベルト空間を再現する上で、厳密に定義されたクープマン作用素しか必要とせず、再構成例を通してこのアプローチの有効性を示す。

This article addresses several longstanding misconceptions concerning Koopman operators, including the existence of lattices of eigenfunctions, common eigenfunctions between Koopman operators, and boundedness and compactness of Koopman operators, among others. Counterexamples are provided for each misconception. This manuscript also proves that the Gaussian RBF's native space only supports bounded Koopman operator corresponding to affine dynamics, which shows that the assumption of boundedness is very limiting. A framework for DMD is presented that requires only densely defined Koopman operators over reproducing kernel Hilbert spaces, and the effectiveness of this approach is demonstrated through reconstruction examples.
翻訳日:2021-06-02 14:02:26 公開日:2021-05-31
# 音楽音響モデリングのための説明可能な畳み込み機能を目指して

Towards Explainable Convolutional Features for Music Audio Modeling ( http://arxiv.org/abs/2106.00110v1 )

ライセンス: Link先を確認
Anna K. Yanchenko, Mohammadreza Soltani, Robert J. Ravier, Sayan Mukherjee and Vahid Tarokh(参考訳) 音声信号はしばしばスペクトログラムとして表現され、2d画像として扱われる。 この光の下では、深い畳み込みアーキテクチャは音楽オーディオのタスクに広く使われているが、これら2つのデータ型は全く異なる構造を持っている。 本研究では,音楽音声タスクの将来のアーキテクチャを知らせる深層畳み込みモデルの「ブラックボックス」を開放し,スペクトログラムを2次元画像としてモデル化する深層畳み込みの優れた性能を説明する。 この目的のために,様々な畳み込みアーキテクチャで学習した深い特徴を用いた体系的な実験を通じて,自然画像データから音楽音声データへの深層学習に関する最近の説明可能性に関する議論を拡大する。 深い畳み込み機能は、元々そのタスクで訓練された深層アーキテクチャから抽出されるかどうかに関わらず、さまざまなターゲットタスクでうまく機能する。 さらに、深い特徴は、訓練されたモデルまたは訓練されていないモデルから抽出された深い特徴にかかわらず、手作りのウェーブレット機能と高い類似性を示す。

Audio signals are often represented as spectrograms and treated as 2D images. In this light, deep convolutional architectures are widely used for music audio tasks even though these two data types have very different structures. In this work, we attempt to "open the black-box" on deep convolutional models to inform future architectures for music audio tasks, and explain the excellent performance of deep convolutions that model spectrograms as 2D images. To this end, we expand recent explainability discussions in deep learning for natural image data to music audio data through systematic experiments using the deep features learned by various convolutional architectures. We demonstrate that deep convolutional features perform well across various target tasks, whether or not they are extracted from deep architectures originally trained on that task. Additionally, deep features exhibit high similarity to hand-crafted wavelet features, whether the deep features are extracted from a trained or untrained model.
翻訳日:2021-06-02 14:02:14 公開日:2021-05-31
# エネルギー制約付きオーバーザ・エアフェデレーションエッジ学習のための動的スケジューリング

Dynamic Scheduling for Over-the-Air Federated Edge Learning with Energy Constraints ( http://arxiv.org/abs/2106.00490v1 )

ライセンス: Link先を確認
Yuxuan Sun, Sheng Zhou, Zhisheng Niu, Deniz G\"und\"uz(参考訳) 機械学習と無線通信技術は、フェデレーションエッジ学習(FEEL)が有望なトレーニングフレームワークであるインテリジェントエッジを共同で促進している。 FEELに関わる無線デバイスは、通信帯域、計算能力、バッテリー容量の点でリソースが限られているため、トレーニング性能を最適化するために、慎重にスケジュールしておくことが重要である。 本研究は, アナログ勾配集約を用いた空対空FEELシステムについて考察し, 機器のエネルギー制約下でのトレーニング性能を最適化するエネルギー対応動的デバイススケジューリングアルゴリズムを提案する。 計算エネルギーを考慮すれば、デバイスがローカルトレーニングの前にスケジュールされるため、動的スケジューリングが困難になるが、オーバーザ・エアアグリゲーションの通信エネルギーはローカルトレーニング後に知られている局所勾配のl2ノルムに依存する。 これにより,推定手法をスケジューリングに取り入れ,勾配ノルムを予測できる。 推定誤差を考慮に入れ,提案アルゴリズムとオフラインアルゴリズムの性能差を特徴付ける。 実験の結果、高度に不均衡な局所データ分布の下では、提案アルゴリズムはエネルギー制約を満たしつつ、CIFAR-10データセットの精度を4.9%向上させることができることがわかった。

Machine learning and wireless communication technologies are jointly facilitating an intelligent edge, where federated edge learning (FEEL) is a promising training framework. As wireless devices involved in FEEL are resource limited in terms of communication bandwidth, computing power and battery capacity, it is important to carefully schedule them to optimize the training performance. In this work, we consider an over-the-air FEEL system with analog gradient aggregation, and propose an energy-aware dynamic device scheduling algorithm to optimize the training performance under energy constraints of devices, where both communication energy for gradient aggregation and computation energy for local training are included. The consideration of computation energy makes dynamic scheduling challenging, as devices are scheduled before local training, but the communication energy for over-the-air aggregation depends on the l2-norm of local gradient, which is known after local training. We thus incorporate estimation methods into scheduling to predict the gradient norm. Taking the estimation error into account, we characterize the performance gap between the proposed algorithm and its offline counterpart. Experimental results show that, under a highly unbalanced local data distribution, the proposed algorithm can increase the accuracy by 4.9% on CIFAR-10 dataset compared with the myopic benchmark, while satisfying the energy constraints.
翻訳日:2021-06-02 14:00:31 公開日:2021-05-31
# 非線形制御-アフィン系の制御作業カーネル回帰

Control Occupation Kernel Regression for Nonlinear Control-Affine Systems ( http://arxiv.org/abs/2106.00103v1 )

ライセンス: Link先を確認
Moad Abudia, Tejasvi Channagiri, Joel A. Rosenfeld, Rushikesh Kamalapurkar(参考訳) 本稿では,制御された軌跡を情報の中心単位とする非線形高次制御アフィン力学系の近似を求めるアルゴリズムを提案する。 近似の基本的な基本要素として、高階制御の占有核は、ベクトル値の再現核ヒルベルト空間内の与えられたコントローラによる乗算後の反復積分を表す。 正規化回帰設定において、特定の最適化問題に対する一意オプティマイザは、これらの占有核の線形結合として表現され、無限次元最適化問題を表現子定理を通じて有限次元最適化問題に変換する。 興味深いことに、ヒルベルト空間のベクトル値構造は、制御アフィン系のドリフトと制御有効成分の同時近似を可能にする。 この手法の有効性を示すためにいくつかの実験が行われた。

This manuscript presents an algorithm for obtaining an approximation of nonlinear high order control affine dynamical systems, that leverages the controlled trajectories as the central unit of information. As the fundamental basis elements leveraged in approximation, higher order control occupation kernels represent iterated integration after multiplication by a given controller in a vector valued reproducing kernel Hilbert space. In a regularized regression setting, the unique optimizer for a particular optimization problem is expressed as a linear combination of these occupation kernels, which converts an infinite dimensional optimization problem to a finite dimensional optimization problem through the representer theorem. Interestingly, the vector valued structure of the Hilbert space allows for simultaneous approximation of the drift and control effectiveness components of the control affine system. Several experiments are performed to demonstrate the effectiveness of the approach.
翻訳日:2021-06-02 13:58:30 公開日:2021-05-31
# (参考訳) 2段階時間分布カプセルネットワークを用いた低線量ctスキャンによるヒトレベルcovid-19診断 [全文訳有]

Human-level COVID-19 Diagnosis from Low-dose CT Scans Using a Two-stage Time-distributed Capsule Network ( http://arxiv.org/abs/2105.14656v1 )

ライセンス: CC BY 4.0
Parnian Afshar, Moezedin Javad Rafiee, Farnoosh Naderkhani, Shahin Heidarian, Nastaran Enshaei, Anastasia Oikonomou, Faranak Babaki Fard, Reut Anconina, Keyvan Farahani, Konstantinos N. Plataniotis, and Arash Mohammadi(参考訳) 逆転写ポリメラーゼ鎖反応(RT-PCR)は、現在、新型コロナウイルスの診断におけるゴールドスタンダードである。 しかし、診断に数日を要し、偽陰性率は比較的高い。 画像、特に胸部CTは、この疾患の診断と評価を支援することができる。 それにもかかわらず、標準線量CTは患者、特に複数のスキャンを必要とする患者にかなりの放射線負荷をもたらすことが示されている。 本研究では,低線量および超低線量(LDCTおよびLDCT)スキャンプロトコルについて検討した。 胸部放射線学の専門知識はパンデミックの間は広く利用できない可能性があるため、LDCT/ULDCTスキャンの収集データセットを用いて人工知能(AI)ベースのフレームワークを開発し、AIモデルが人間レベルのパフォーマンスを提供できるという仮説を研究する。 AIモデルは2段階のカプセルネットワークアーキテクチャを使用して、COVID-19、コミュニティ獲得肺炎(CAP)、正常例をLDCT/ULDCTスキャンで迅速に分類することができる。 aiモデルは、新型コロナウイルスの感度89.5% +\- 0.11、キャップ感度95% +\- 0.11、正常症例の感度(特異性)85.7% +\- 0.16、精度90% +\- 0.06を達成する。 臨床データ(デポグラフィと症状)を組み込むことで、新型コロナウイルスの感度は94.3%+\-pm 0.05、キャップ感度96.7%+\- 0.07、正常症例の感度(特異度)は91%+\- 0.09、精度94.1%+\- 0.03となる。 提案したAIモデルは、LDCT/ULDCTスキャンに基づく人体レベルの診断を実現する。 提案するaiモデルは、放射線科医がcovid-19感染を正確にかつ迅速に診断し、パンデミック時の感染連鎖を制御するのに役立つ可能性があると信じている。

Reverse transcription-polyme rase chain reaction (RT-PCR) is currently the gold standard in COVID-19 diagnosis. It can, however, take days to provide the diagnosis, and false negative rate is relatively high. Imaging, in particular chest computed tomography (CT), can assist with diagnosis and assessment of this disease. Nevertheless, it is shown that standard dose CT scan gives significant radiation burden to patients, especially those in need of multiple scans. In this study, we consider low-dose and ultra-low-dose (LDCT and ULDCT) scan protocols that reduce the radiation exposure close to that of a single X-Ray, while maintaining an acceptable resolution for diagnosis purposes. Since thoracic radiology expertise may not be widely available during the pandemic, we develop an Artificial Intelligence (AI)-based framework using a collected dataset of LDCT/ULDCT scans, to study the hypothesis that the AI model can provide human-level performance. The AI model uses a two stage capsule network architecture and can rapidly classify COVID-19, community acquired pneumonia (CAP), and normal cases, using LDCT/ULDCT scans. The AI model achieves COVID-19 sensitivity of 89.5% +\- 0.11, CAP sensitivity of 95% +\- 0.11, normal cases sensitivity (specificity) of 85.7% +\- 0.16, and accuracy of 90% +\- 0.06. By incorporating clinical data (demographic and symptoms), the performance further improves to COVID-19 sensitivity of 94.3% +\- pm 0.05, CAP sensitivity of 96.7% +\- 0.07, normal cases sensitivity (specificity) of 91% +\- 0.09 , and accuracy of 94.1% +\- 0.03. The proposed AI model achieves human-level diagnosis based on the LDCT/ULDCT scans with reduced radiation exposure. We believe that the proposed AI model has the potential to assist the radiologists to accurately and promptly diagnose COVID-19 infection and help control the transmission chain during the pandemic.
翻訳日:2021-06-02 07:21:39 公開日:2021-05-31
# (参考訳) 今後の産業におけるモノのインターネットのためのフェデレーションラーニング [全文訳有]

Federated Learning for Industrial Internet of Things in Future Industries ( http://arxiv.org/abs/2105.14659v1 )

ライセンス: CC BY 4.0
Dinh C. Nguyen, Ming Ding, Pubudu N. Pathirana, Aruna Seneviratne, Jun Li, Dusit Niyato, H. Vincent Poor(参考訳) 産業用モノのインターネット(Industrial Internet of Things, IIoT)は,産業システムの運用を変革する有望な機会を提供する。 近年、人工知能(AI)は、AI技術が集中的なデータ収集と処理を必要とするインテリジェントIIoTアプリケーションの実現に広く利用されている。 しかし、現代のiiotネットワークのスケーラビリティが高く、産業データの機密性が高まるため、現実的なシナリオでは必ずしも実現できない。 新たなコラボレーティブAIアプローチであるフェデレートラーニング(FL)は、複数のIIoTデバイスとマシンを協調して、ネットワークエッジでのAIトレーニングを実行し、ユーザのプライバシ保護を支援することで、インテリジェントなIIoTネットワークにとって特に魅力的なものだ。 本稿では、主要なIIoTサービスおよびアプリケーションにおけるFLの新しい応用の概要と議論について述べる。 IIoTにおけるFLの実現可能性を示すケーススタディも提供された。 最後に、業界におけるFL-IIoTの完全な実現に対処する必要がある、さまざまな興味深いオープンリサーチトピックを強調します。

The Industrial Internet of Things (IIoT) offers promising opportunities to transform the operation of industrial systems and becomes a key enabler for future industries. Recently, artificial intelligence (AI) has been widely utilized for realizing intelligent IIoT applications where AI techniques require centralized data collection and processing. However, this is not always feasible in realistic scenarios due to the high scalability of modern IIoT networks and growing industrial data confidentiality. Federated Learning (FL), as an emerging collaborative AI approach, is particularly attractive for intelligent IIoT networks by coordinating multiple IIoT devices and machines to perform AI training at the network edge while helping protect user privacy. In this article, we provide a detailed overview and discussions of the emerging applications of FL in key IIoT services and applications. A case study is also provided to demonstrate the feasibility of FL in IIoT. Finally, we highlight a range of interesting open research topics that need to be addressed for the full realization of FL-IIoT in industries.
翻訳日:2021-06-02 07:08:58 公開日:2021-05-31
# (参考訳) メモリ効率の良い微分変換器アーキテクチャ探索 [全文訳有]

Memory-Efficient Differentiable Transformer Architecture Search ( http://arxiv.org/abs/2105.14669v1 )

ライセンス: CC BY 4.0
Yuekai Zhao, Li Dong, Yelong Shen, Zhihua Zhang, Furu Wei, Weizhu Chen(参考訳) 差別化可能なアーキテクチャ検索(dart)は多くのビジョンタスクでうまく適用されます。 しかし、dartをトランスフォーマーに直接使用するのはメモリ集約的であり、検索プロセスは実現不可能である。 この目的のために,マルチ分割可逆ネットワークを提案し,DARTSと組み合わせる。 具体的には、最後のレイヤの出力だけを保存するように、バックプロパゲーションと再構成アルゴリズムを考案する。 DARTSのメモリ負荷を軽減することで、より大きな隠れたサイズとより多くの候補操作で検索できます。 wmt'14 english-german, wmt'14 english- french, wmt'14 english-czechの3つのシーケンシャル-to-sequenceデータセットで検索されたアーキテクチャを評価した。 実験の結果,ネットワークはタスク全体にわたって標準トランスフォーマーを上回っていることがわかった。 さらに,提案手法は大規模進化型変圧器と良好に比較し,探索計算を桁違いに削減する。

Differentiable architecture search (DARTS) is successfully applied in many vision tasks. However, directly using DARTS for Transformers is memory-intensive, which renders the search process infeasible. To this end, we propose a multi-split reversible network and combine it with DARTS. Specifically, we devise a backpropagation-with -reconstruction algorithm so that we only need to store the last layer's outputs. By relieving the memory burden for DARTS, it allows us to search with larger hidden size and more candidate operations. We evaluate the searched architecture on three sequence-to-sequence datasets, i.e., WMT'14 English-German, WMT'14 English-French, and WMT'14 English-Czech. Experimental results show that our network consistently outperforms standard Transformers across the tasks. Moreover, our method compares favorably with big-size Evolved Transformers, reducing search computation by an order of magnitude.
翻訳日:2021-06-02 06:55:52 公開日:2021-05-31
# (参考訳) スパイク時間依存型塑性訓練スパイクニューラルネットワークの一般化性の評価 [全文訳有]

Characterization of Generalizability of Spike Time Dependent Plasticity trained Spiking Neural Networks ( http://arxiv.org/abs/2105.14677v1 )

ライセンス: CC BY 4.0
Biswadeep Chakraborty, Saibal Mukhopadhyay(参考訳) Spike Time Dependent Plasticity (STDP) でトレーニングされたスパイクニューラルネットワーク(SNN)は、さまざまな機械学習アプリケーションに対して、神経にインスパイアされた教師なしの学習方法である。 本稿では,学習アルゴリズムの軌跡のハウスドルフ次元を用いたSTDP学習過程の一般化性について検討する。 本稿では,STDP学習モデルと関連するハイパーパラメータがSNNの一般化性に及ぼす影響を分析し,SNNにおける一般化可能性と学習可能性とのトレードオフを特徴付ける。 この分析は、SNNの一般化性を改善するために、STDPモデルのハイパーパラメーターを最適化するベイズ最適化手法を開発するために用いられる。

A Spiking Neural Network (SNN) trained with Spike Time Dependent Plasticity (STDP) is a neuro-inspired unsupervised learning method for various machine learning applications. This paper studies the generalizability properties of the STDP learning processes using the Hausdorff dimension of the trajectories of the learning algorithm. The paper analyzes the effects of STDP learning models and associated hyper-parameters on the generalizability properties of an SNN and characterizes the generalizability vs learnability trade-off in an SNN. The analysis is used to develop a Bayesian optimization approach to optimize the hyper-parameters for an STDP model to improve the generalizability properties of an SNN.
翻訳日:2021-06-02 06:40:57 公開日:2021-05-31
# (参考訳) クレーム生成によるゼロショット事実検証 [全文訳有]

Zero-shot Fact Verification by Claim Generation ( http://arxiv.org/abs/2105.14682v1 )

ライセンス: CC BY 4.0
Liangming Pan, Wenhu Chen, Wenhan Xiong, Min-Yen Kan, William Yang Wang(参考訳) 自動ファクト検証のためのニューラルモデルによって、人間が注釈付き大規模データセットが利用可能になったことで、有望な結果が得られた。 しかし、事実検証が必要な新しいドメインごとに、手作業でクレームを書き、それを裏付ける証拠にリンクすることでデータセットを作成するのは費用がかかる。 われわれは,ウィキペディアのエビデンスからサポート,反証,あるいは検証不能なクレームを自動生成することで,堅牢な事実検証モデルをトレーニングするフレームワークであるQACGを開発した。 QACGは証拠から質問応答ペアを生成し、それらを異なるタイプのクレームに変換する。 FEVERデータセットの実験により、当社のQACGフレームワークは、人間による注釈付きトレーニングデータの需要を大幅に削減することが示された。 ゼロショットシナリオでは、QACGはRoBERTaモデルのF1を50%から77%に改善し、パフォーマンスは2K以上の手作業による例に相当する。 当社のQACGコードは公開されています。

Neural models for automated fact verification have achieved promising results thanks to the availability of large, human-annotated datasets. However, for each new domain that requires fact verification, creating a dataset by manually writing claims and linking them to their supporting evidence is expensive. We develop QACG, a framework for training a robust fact verification model by using automatically generated claims that can be supported, refuted, or unverifiable from evidence from Wikipedia. QACG generates question-answer pairs from the evidence and then converts them into different types of claims. Experiments on the FEVER dataset show that our QACG framework significantly reduces the demand for human-annotated training data. In a zero-shot scenario, QACG improves a RoBERTa model's F1 from 50% to 77%, equivalent in performance to 2K+ manually-curated examples. Our QACG code is publicly available.
翻訳日:2021-06-02 06:27:23 公開日:2021-05-31
# (参考訳) 忠実確率最適化のための再サンプリングと再重み付けの組み合わせ [全文訳有]

Combining resampling and reweighting for faithful stochastic optimization ( http://arxiv.org/abs/2105.14694v1 )

ライセンス: CC BY 4.0
Jing An, Lexing Ying(参考訳) 多くの機械学習とデータサイエンスタスクは、非凸最適化問題を解く必要がある。 損失関数が複数の項の和であるとき、一般的な方法は確率勾配降下である。 損失関数ランドスケープをサンプリングするプロセスとして、確率勾配降下は平坦な局所最小値を好むことが知られている。 これはディープラーニングのような特定の最適化問題に対して望ましいが、特にグローバル最小値が鋭い谷にある場合、グローバル最小値を見つけることが目標となると問題を引き起こす。 単純なモチベーションの例として、損失関数における複数の項のリプシッツ定数の差が確率勾配降下を引き起こし、異なる最小値で異なる分散を経験することの根本的な理由が示されている。 この効果を緩和し、忠実な最適化を行うために、局所最小値における分散のバランスをとり、一般損失関数に拡張する、サンプルリング・重み付けスキームを提案する。 また, 確率的漸近性の観点から, 提案手法がバニラ確率的勾配勾配よりも真の大域最小値を選択する可能性が示唆された。 理論的知見を示すために、ロバスト統計、計算化学、ニューラルネットワークトレーニングの実験が提供されている。

Many machine learning and data science tasks require solving non-convex optimization problems. When the loss function is a sum of multiple terms, a popular method is stochastic gradient descent. Viewed as a process for sampling the loss function landscape, the stochastic gradient descent is known to prefer flat local minimums. Though this is desired for certain optimization problems such as in deep learning, it causes issues when the goal is to find the global minimum, especially if the global minimum resides in a sharp valley. Illustrated with a simple motivating example, we show that the fundamental reason is that the difference in the Lipschitz constants of multiple terms in the loss function causes stochastic gradient descent to experience different variances at different minimums. In order to mitigate this effect and perform faithful optimization, we propose a combined resampling-reweighti ng scheme to balance the variance at local minimums and extend to general loss functions. We also explain from the stochastic asymptotics perspective how the proposed scheme is more likely to select the true global minimum when compared with the vanilla stochastic gradient descent. Experiments from robust statistics, computational chemistry, and neural network training are provided to demonstrate the theoretical findings.
翻訳日:2021-06-02 06:16:18 公開日:2021-05-31
# (参考訳) 接続プロバーの誘導におけるエントロピーの役割 [全文訳有]

The Role of Entropy in Guiding a Connection Prover ( http://arxiv.org/abs/2105.14706v1 )

ライセンス: CC BY 4.0
Zsolt Zombori, Josef Urban, Miroslav Ol\v{s}\'ak(参考訳) 本研究では、定理証明における推論ステップを選択するための優れたアルゴリズムの学習方法を研究する。 このことをleancopによって実装されたconnected tableau calculusで検討し、部分的tableauは限られた数の推論を適用できる状態のクリーンでコンパクトな概念を提供する。 まず、現在最先端の学習アルゴリズムであるグラフニューラルネットワーク(GNN)をplCoP定理証明器に組み込むことから始める。 次に,モンテカルロ木探索を成功させて推論指導を行う場合,強化学習環境におけるシステムの挙動を観察する。 パターンマッチング能力は優れているが、当初、GNNはより単純な学習アルゴリズムよりも性能が劣っている。 より単純なアルゴリズムは信頼性が低い、すなわち、その推奨はエントロピーが高いことを観察する。 これにより、ニューラルネットワークを介して実装された推論選択のエントロピーが、証明探索にどのように影響するかを探索する。 これは不確実性の下での人間の意思決定の研究、特に確率マッチング理論に関連している。 我々の主な成果は、適切なエントロピー正規化、すなわち、GNNを過度に信頼しないように訓練することで、大規模数学的コーパスにおけるplCoPの性能を大幅に改善することである。

In this work we study how to learn good algorithms for selecting reasoning steps in theorem proving. We explore this in the connection tableau calculus implemented by leanCoP where the partial tableau provides a clean and compact notion of a state to which a limited number of inferences can be applied. We start by incorporating a state-of-the-art learning algorithm -- a graph neural network (GNN) -- into the plCoP theorem prover. Then we use it to observe the system's behaviour in a reinforcement learning setting, i.e., when learning inference guidance from successful Monte-Carlo tree searches on many problems. Despite its better pattern matching capability, the GNN initially performs worse than a simpler previously used learning algorithm. We observe that the simpler algorithm is less confident, i.e., its recommendations have higher entropy. This leads us to explore how the entropy of the inference selection implemented via the neural network influences the proof search. This is related to research in human decision-making under uncertainty, and in particular the probability matching theory. Our main result shows that a proper entropy regularisation, i.e., training the GNN not to be overconfident, greatly improves plCoP's performance on a large mathematical corpus.
翻訳日:2021-06-02 06:00:30 公開日:2021-05-31
# (参考訳) ロバスト化$\ell_\infty$Adversa rial Training to the Union of Perturbation Models [全文訳有]

Robustifying $\ell_\infty$ Adversarial Training to the Union of Perturbation Models ( http://arxiv.org/abs/2105.14710v1 )

ライセンス: CC BY 4.0
Ameya D. Patil, Michael Tuttle, Alexander G. Schwing, Naresh R. Shanbhag(参考訳) 古典的対人訓練(AT)フレームワークは、単一の攻撃タイプ(通常$\ell_\infty$ norm-bounded perturbations)に対して高い対人的精度を達成するように設計されている。 ATの最近の拡張は、複数の摂動の連合に対する防御に重点を置いているが、この利点はシングルアタックの$\ell_\infty$ ATに対するトレーニングの複雑さの増大(最大10\times$)を犠牲にして得られる。 本研究では,訓練効率を保ちながら(\ell_\infty, \ell_2, \ell_1$)摂動の和合に堅牢性を提供するために,広く普及しているシングルアタック$\ell_\infty$ ATフレームワークの機能を拡張する。 我々の技術は、SNAP(Shaped Noise Augmented Processing)と呼ばれ、ネットワークの決定境界の曲率を減少させるシングルアタックATフレームワークの確立した副産物を利用する。 snapは、標準的なシングルアタックアタックを使用してネットワークパラメータとともに分布を学習する形状のノイズ拡張層を備えたディープネットを推奨する。 その結果、SNAPは、CIFAR-10上のResNet-18の対向精度を、14%から20%向上させ、4つの最先端(SOTA)シングルアタック$\ell_\infty$ ATフレームワークに対して向上させ、ImageNet上でResNet-50とResNet-101のベンチマークを初めて確立した。

Classical adversarial training (AT) frameworks are designed to achieve high adversarial accuracy against a single attack type, typically $\ell_\infty$ norm-bounded perturbations. Recent extensions in AT have focused on defending against the union of multiple perturbations but this benefit is obtained at the expense of a significant (up to $10\times$) increase in training complexity over single-attack $\ell_\infty$ AT. In this work, we expand the capabilities of widely popular single-attack $\ell_\infty$ AT frameworks to provide robustness to the union of ($\ell_\infty, \ell_2, \ell_1$) perturbations while preserving their training efficiency. Our technique, referred to as Shaped Noise Augmented Processing (SNAP), exploits a well-established byproduct of single-attack AT frameworks -- the reduction in the curvature of the decision boundary of networks. SNAP prepends a given deep net with a shaped noise augmentation layer whose distribution is learned along with network parameters using any standard single-attack AT. As a result, SNAP enhances adversarial accuracy of ResNet-18 on CIFAR-10 against the union of ($\ell_\infty, \ell_2, \ell_1$) perturbations by 14%-to-20% for four state-of-the-art (SOTA) single-attack $\ell_\infty$ AT frameworks, and, for the first time, establishes a benchmark for ResNet-50 and ResNet-101 on ImageNet.
翻訳日:2021-06-02 05:40:03 公開日:2021-05-31
# (参考訳) CTSpine1K:CTにおける脊椎椎間板分割のための大規模データセット [全文訳有]

CTSpine1K: A Large-Scale Dataset for Spinal Vertebrae Segmentation in Computed Tomography ( http://arxiv.org/abs/2105.14711v1 )

ライセンス: CC BY 4.0
Yang Deng, Ce Wang, Yuan Hui, Qian Li, Jun Li, Shiwei Luo, Mengke Sun, Quan Quan, Shuxin Yang, You Hao, Pengbo Liu, Honghu Xiao, Chunpeng Zhao, Xinbao Wu, S. Kevin Zhou(参考訳) 脊椎関連疾患は高い死亡率を持ち、社会的コストの大きな負担を引き起こす。 脊椎画像は非侵襲的に脊椎病理を可視化し評価するための重要なツールである。 CT画像における椎骨分割は,脊椎疾患の臨床診断と手術計画のための定量的医用画像解析の基礎となる。 現在公開されている脊椎の注釈付きデータセットはサイズが小さい。 大規模なアノテートされた背骨画像データセットがないため、データ駆動のディープラーニングベースのセグメンテーション手法は、非常に制限されている。 本稿では, 脊椎椎間板形成のための複数のソースから収集したCTSpine1Kと呼ばれる大規模脊椎CTデータセットについて紹介する。 このデータセットに基づいて、最初のベンチマークを設定するためにいくつかの脊椎椎間板分割実験を行った。 この大規模なデータセットは、脊椎のセグメンテーション、ラベル付け、複平面X線写真からの3次元脊椎再構築、画像超解像、拡張など、多くの脊椎関連画像解析タスクのさらなる研究を促進するだろうと考えている。

Spine-related diseases have high morbidity and cause a huge burden of social cost. Spine imaging is an essential tool for noninvasively visualizing and assessing spinal pathology. Segmenting vertebrae in computed tomography (CT) images is the basis of quantitative medical image analysis for clinical diagnosis and surgery planning of spine diseases. Current publicly available annotated datasets on spinal vertebrae are small in size. Due to the lack of a large-scale annotated spine image dataset, the mainstream deep learning-based segmentation methods, which are data-driven, are heavily restricted. In this paper, we introduce a large-scale spine CT dataset, called CTSpine1K, curated from multiple sources for vertebra segmentation, which contains 1,005 CT volumes with over 11,100 labeled vertebrae belonging to different spinal conditions. Based on this dataset, we conduct several spinal vertebrae segmentation experiments to set the first benchmark. We believe that this large-scale dataset will facilitate further research in many spine-related image analysis tasks, including but not limited to vertebrae segmentation, labeling, 3D spine reconstruction from biplanar radiographs, image super-resolution, and enhancement.
翻訳日:2021-06-02 05:14:12 公開日:2021-05-31
# (参考訳) 容器セグメンテーションのための不確かさを意識した半教師付き学習を用いた階層型深層ネットワーク [全文訳有]

Hierarchical Deep Network with Uncertainty-aware Semi-supervised Learning for Vessel Segmentation ( http://arxiv.org/abs/2105.14732v1 )

ライセンス: CC BY 4.0
Chenxin Li, Wenao Ma, Liyan Sun, Xinghao Ding, Yue Huang, Guisheng Wang, Yizhou Yu(参考訳) 臓器血管の解析はコンピュータ支援診断と外科的計画に不可欠である。 しかし、特に低コントラスト毛細血管領域において、細かな臓器血管の連結領域が血管のセグメンテーションやサブタイプの認識に多くの曖昧さをもたらすため、これは簡単な作業ではない。 さらに、最近の2段階のアプローチは、第1段階全体の血管区画から第2段階のサブタイプの血管画素単位の分類への不正確さを蓄積し、増幅する。 さらに、オルガン容器の手動アノテーションの不足も別の課題となっている。 本稿では,これらの課題に対処するために,注目機構が容器全体に誘導される低コントラストキャピラリー領域を局所化し,サブタイプ容器の空間的活性化を高める階層型深層ネットワークを提案する。 さらに,深層モデルのアノテーション・hungry制限を緩和するための不確実性を考慮した半教師付き学習フレームワークを提案する。 提案手法は,底部画像における網膜動脈/静脈の分画とCT画像における肝門/肝血管の分画のベンチマークにおいて,最先端の性能を実現する。

The analysis of organ vessels is essential for computer-aided diagnosis and surgical planning. But it is not a easy task since the fine-detailed connected regions of organ vessel bring a lot of ambiguity in vessel segmentation and sub-type recognition, especially for the low-contrast capillary regions. Furthermore, recent two-staged approaches would accumulate and even amplify these inaccuracies from the first-stage whole vessel segmentation into the second-stage sub-type vessel pixel-wise classification. Moreover, the scarcity of manual annotation in organ vessels poses another challenge. In this paper, to address the above issues, we propose a hierarchical deep network where an attention mechanism localizes the low-contrast capillary regions guided by the whole vessels, and enhance the spatial activation in those areas for the sub-type vessels. In addition, we propose an uncertainty-aware semi-supervised training framework to alleviate the annotation-hungry limitation of deep models. The proposed method achieves the state-of-the-art performance in the benchmarks of both retinal artery/vein segmentation in fundus images and liver portal/hepatic vessel segmentation in CT images.
翻訳日:2021-06-02 05:05:30 公開日:2021-05-31
# (参考訳) 空間適応型ワープ正規化による制御可能な人物画像合成 [全文訳有]

Controllable Person Image Synthesis with Spatially-Adaptive Warped Normalization ( http://arxiv.org/abs/2105.14739v1 )

ライセンス: CC BY 4.0
Jichao Zhang, Aliaksandr Siarohin, Hao Tang, Jingjing Chen, Enver Sangineto, Wei Wang, Nicu Sebe(参考訳) 制御可能な人物画像生成は、望ましい属性(例えば、与えられたポーズ、布のテクスチャ、髪型など)を持つ現実的な人間像を作成することを目的としている。 しかし、ソースとターゲット画像の空間的不一致が大きいため、画像から画像への変換に標準的アーキテクチャが適さない。 最先端のアーキテクチャのほとんどは、生成中のアライメントステップを避けるため、多くのアーティファクト、特に複雑なテクスチャを持つ人物イメージが引き起こされる。 この問題を解決するために,学習フロー場とワープ変調パラメータを統合した空間適応型ワープ正規化(SAWN)を提案する。 これにより、人物の空間適応スタイルをポーズ特徴と効率的に整合させることができる。 さらに,テクスチャ伝達タスクの事前学習モデルを洗練し,生成した布質と無関係地域の保存能力を大幅に向上させる,新たな自己学習部分置換戦略を提案する。 広範に使用されるdeepfashionデータセットにおける実験結果から,ポーズ伝達とテクスチャ伝達の両タスクにおいて,最先端手法よりも提案手法の大幅な改善が示された。

Controllable person image generation aims to produce realistic human images with desirable attributes (e.g., the given pose, cloth textures or hair style). However, the large spatial misalignment between the source and target images makes the standard architectures for image-to-image translation not suitable for this task. Most of the state-of-the-art architectures avoid the alignment step during the generation, which causes many artifacts, especially for person images with complex textures. To solve this problem, we introduce a novel Spatially-Adaptive Warped Normalization (SAWN), which integrates a learned flow-field to warp modulation parameters. This allows us to align person spatial-adaptive styles with pose features efficiently. Moreover, we propose a novel self-training part replacement strategy to refine the pretrained model for the texture-transfer task, significantly improving the quality of the generated cloth and the preservation ability of irrelevant regions. Our experimental results on the widely used DeepFashion dataset demonstrate a significant improvement of the proposed method over the state-of-the-art methods on both pose-transfer and texture-transfer tasks.
翻訳日:2021-06-02 04:48:08 公開日:2021-05-31
# (参考訳) スパイキングニューラルネットワークを用いたシリコン網膜のバイオインスパイア視覚注意のパターン分類への応用 [全文訳有]

Bio-inspired visual attention for silicon retinas based on spiking neural networks applied to pattern classification ( http://arxiv.org/abs/2105.14753v1 )

ライセンス: CC BY 4.0
Am\'elie Gruel and Jean Martinet(参考訳) 視覚的注意は、知覚手がかりの離散的な側面に選択的に焦点を合わせ、他の知覚可能な情報を無視する行動的および認知的プロセスとして定義することができる。 この生物学的メカニズム、特に塩分検出は、マルチメディアインデックス化において、画像やビデオの関連部分にのみ分析を駆り立てて、さらなる処理を行うために長い間使われてきた。 最近のシリコン網膜(またはイベントカメラ)の出現は、このようなセンサーの出力の非伝統的なタイプに対して、どのように注意と礼儀正しく適応するかという疑問を提起している。 シリコン網膜は生物学的網膜の挙動を再現することを目指している。 その点において、彼らは時間的事象を生成し、それは神経スパイクと解釈され、ニューラルネットワークによって解釈される。 特に、スパイキングニューラルネットワーク(SNN)は、従来の人工ネットワークよりも生物学に近い、非同期タイプの人工ニューラルネットワークを表現している。 SNNはスパイク列車の形で情報を受信し処理する。 したがって、シリコン網膜で測定される入射イベントパターンの効率的な処理と分類に適した候補となる。 本稿では,注意機構の背後にある生物学的背景を概観し,生物基盤の低レベル計算的注意機構を用いたsnsを用いたイベントビデオ分類のケーススタディと興味深い予備結果を紹介する。

Visual attention can be defined as the behavioral and cognitive process of selectively focusing on a discrete aspect of sensory cues while disregarding other perceivable information. This biological mechanism, more specifically saliency detection, has long been used in multimedia indexing to drive the analysis only on relevant parts of images or videos for further processing. The recent advent of silicon retinas (or event cameras -- sensors that measure pixel-wise changes in brightness and output asynchronous events accordingly) raises the question of how to adapt attention and saliency to the unconventional type of such sensors' output. Silicon retina aims to reproduce the biological retina behaviour. In that respect, they produce punctual events in time that can be construed as neural spikes and interpreted as such by a neural network. In particular, Spiking Neural Networks (SNNs) represent an asynchronous type of artificial neural network closer to biology than traditional artificial networks, mainly because they seek to mimic the dynamics of neural membrane and action potentials over time. SNNs receive and process information in the form of spike trains. Therefore, they make for a suitable candidate for the efficient processing and classification of incoming event patterns measured by silicon retinas. In this paper, we review the biological background behind the attentional mechanism, and introduce a case study of event videos classification with SNNs, using a biology-grounded low-level computational attention mechanism, with interesting preliminary results.
翻訳日:2021-06-02 04:31:08 公開日:2021-05-31
# (参考訳) 感情音声変換:理論・データベース・ESD

Emotional Voice Conversion: Theory, Databases and ESD ( http://arxiv.org/abs/2105.14762v1 )

ライセンス: CC BY 4.0
Kun Zhou, Berrak Sisman, Rui Liu, Haizhou Li(参考訳) 本稿では,まず,最先端の感情音声変換研究と既存の感情音声データベースについて概観する。 そこで我々は,研究ニーズの増大に対処する新たな感情音声データベース(ESD)の開発を動機づける。 本論文では,ESDデータベースを研究コミュニティで利用可能にしている。 esdデータベースは10のネイティブ英語と10のネイティブ中国語話者が話す350の並列発話で構成され、5つの感情カテゴリ(中性、幸福、怒り、悲しみ、驚き)をカバーしている。 29時間以上の音声データを制御された環境下で記録した。 データベースは、マルチスピーカーおよびクロスリンガル感情音声変換研究に適している。 ケーススタディでは、ESDデータベース上に複数の最先端の感情音声変換システムを実装している。 本稿では,ESDのレファレンス研究とリリースについて述べる。

In this paper, we first provide a review of the state-of-the-art emotional voice conversion research, and the existing emotional speech databases. We then motivate the development of a novel emotional speech database (ESD) that addresses the increasing research need. With this paper, the ESD database is now made available to the research community. The ESD database consists of 350 parallel utterances spoken by 10 native English and 10 native Chinese speakers and covers 5 emotion categories (neutral, happy, angry, sad and surprise). More than 29 hours of speech data were recorded in a controlled acoustic environment. The database is suitable for multi-speaker and cross-lingual emotional voice conversion studies. As case studies, we implement several state-of-the-art emotional voice conversion systems on the ESD database. This paper provides a reference study on ESD in conjunction with its release.
翻訳日:2021-06-02 04:22:03 公開日:2021-05-31
# (参考訳) 確率勾配法によるエネルギー効率・フェデレーションメタラーニング [全文訳有]

Energy-Efficient and Federated Meta-Learning via Projected Stochastic Gradient Ascent ( http://arxiv.org/abs/2105.14772v1 )

ライセンス: CC BY 4.0
Anis Elgabli, Chaouki Ben Issaid, Amrit S. Bedi, Mehdi Bennis, Vaneet Aggarwal(参考訳) 本稿では,エネルギー効率のよいメタラーニングフレームワークを提案する。 目的は,分散環境で,低計算量および通信エネルギー消費時に,少数のサンプルを用いて新しいタスクに微調整できるメタモデルを学習できるようにすることである。 各タスクは別々のエージェントによって所有されていると仮定するため、メタモデルをトレーニングするために限られたタスクが使用される。 各タスクがエージェントのローカルデータ上でオフラインでトレーニングされたと仮定すると、すべてのエージェントのローカルモデルから始まり、p-sga (projected stochastic gradient ascent) を用いて後向きにメタモデルを見つける軽量なアルゴリズムを提案する。 提案手法は,正弦波回帰および画像分類タスクの実施実験において,MAMLやiMAMLのような最先端の手法と比較して,計算ヘシアン,二重ループ,行列インバージョンなどの複雑な計算を極めて少ないエネルギー消費で実現する。

In this paper, we propose an energy-efficient federated meta-learning framework. The objective is to enable learning a meta-model that can be fine-tuned to a new task with a few number of samples in a distributed setting and at low computation and communication energy consumption. We assume that each task is owned by a separate agent, so a limited number of tasks is used to train a meta-model. Assuming each task was trained offline on the agent's local data, we propose a lightweight algorithm that starts from the local models of all agents, and in a backward manner using projected stochastic gradient ascent (P-SGA) finds a meta-model. The proposed method avoids complex computations such as computing hessian, double looping, and matrix inversion, while achieving high performance at significantly less energy consumption compared to the state-of-the-art methods such as MAML and iMAML on conducted experiments for sinusoid regression and image classification tasks.
翻訳日:2021-06-02 04:20:59 公開日:2021-05-31
# (参考訳) SemEval-2021 Task 6: CLIP機能を用いたテキスト・画像中の説得手法の検出 [全文訳有]

LIIR at SemEval-2021 task 6: Detection of Persuasion Techniques In Texts and Images using CLIP features ( http://arxiv.org/abs/2105.14774v1 )

ライセンス: CC BY 4.0
Erfan Ghadery, Damien Sileo, Marie-Francine Moens(参考訳) 本稿では,SemEval-2021タスク6におけるマルチモーダルコンテンツ(ミーム)における説得手法の検出について述べる。 本システムは,事前学習型マルチモーダルモデル(CLIP)と連鎖型分類器を組み合わせる。 また,データ拡張手法によってデータを強化することを提案する。 F1-microのランクは8/16で、F1-macroは9/16である。

We describe our approach for SemEval-2021 task 6 on detection of persuasion techniques in multimodal content (memes). Our system combines pretrained multimodal models (CLIP) and chained classifiers. Also, we propose to enrich the data by a data augmentation technique. Our submission achieves a rank of 8/16 in terms of F1-micro and 9/16 with F1-macro on the test set.
翻訳日:2021-06-02 04:11:03 公開日:2021-05-31
# (参考訳) 手続き的コンテンツ生成:転送強化学習のためのより良いベンチマーク [全文訳有]

Procedural Content Generation: Better Benchmarks for Transfer Reinforcement Learning ( http://arxiv.org/abs/2105.14780v1 )

ライセンス: CC BY-SA 4.0
Matthias M\"uller-Brockhausen, Mike Preuss, Aske Plaat(参考訳) 強化学習(TRL)における伝達というアイデアは、知識を1つの問題から別の問題に、すべてをスクラッチから学ばずに移行できるという、興味深いものです。 これにより、より迅速な学習とより複雑な方法の学習が可能になる。 この分野の洞察を得て,新たなトレンドを検出するために,データベース検索を行った。 2018年からのディープラーニングの採用は驚くほど遅くなっている。 ディープラーニングの導入は、trlの最大の課題である一般化をまだ解決していない。 異なるドメイン間の転送は、ドメインが強い類似性(例えば、)を持つときにうまく機能する。 MountainCar to Cartpole)とほとんどのTRL出版物は、ほとんど違いのない同じドメイン内の異なるタスクに焦点を当てている。 私たちが遭遇したほとんどのtrlアプリケーションは、これらの改善を自己定義ベースラインと比較します。 これは残念な状況だと考えている。 将来的には、(1)タスクの類似性を明確に測定する必要があります。 2) 一般化は改善する必要がある。 Promisingアプローチは、MCTS経由の計画とディープラーニングを統合するか、LSTM経由でメモリを導入する。 (3) ベンチマークツールの欠如は、有意義な比較と進捗測定を可能にするために改善される。 AlchemyとMeta-Worldはすでに興味深いベンチマークスイートとして登場しています。 また,プロセスコンテンツ生成(pcg)の増加は,trlのベンチマークと一般化の両方を改善する可能性がある。

The idea of transfer in reinforcement learning (TRL) is intriguing: being able to transfer knowledge from one problem to another problem without learning everything from scratch. This promises quicker learning and learning more complex methods. To gain an insight into the field and to detect emerging trends, we performed a database search. We note a surprisingly late adoption of deep learning that starts in 2018. The introduction of deep learning has not yet solved the greatest challenge of TRL: generalization. Transfer between different domains works well when domains have strong similarities (e.g. MountainCar to Cartpole), and most TRL publications focus on different tasks within the same domain that have few differences. Most TRL applications we encountered compare their improvements against self-defined baselines, and the field is still missing unified benchmarks. We consider this to be a disappointing situation. For the future, we note that: (1) A clear measure of task similarity is needed. (2) Generalization needs to improve. Promising approaches merge deep learning with planning via MCTS or introduce memory through LSTMs. (3) The lack of benchmarking tools will be remedied to enable meaningful comparison and measure progress. Already Alchemy and Meta-World are emerging as interesting benchmark suites. We note that another development, the increase in procedural content generation (PCG), can improve both benchmarking and generalization in TRL.
翻訳日:2021-06-02 04:03:50 公開日:2021-05-31
# (参考訳) ニューラルマシン翻訳の合成一般化について [全文訳有]

On Compositional Generalization of Neural Machine Translation ( http://arxiv.org/abs/2105.14802v1 )

ライセンス: CC BY 4.0
Yafu Li, Yongjing Yin, Yulong Chen and Yue Zhang(参考訳) 現代のニューラルマシン翻訳(NMT)モデルは、WMTのような標準ベンチマークで競合性能を達成した。 しかし、いまだに堅牢性、ドメインの一般化など重要な問題が残っている。 本稿では,216kクリーンで一貫した文対からなるベンチマークデータセットCoGnitionを構築することで,合成一般化の観点からNMTモデルを考察する。 合成翻訳誤り率を用いて種々の要因の影響を定量的に分析し,NMTモデルが従来の指標では極めてよく機能するが,構成一般化に悪影響を及ぼすことを示した。

Modern neural machine translation (NMT) models have achieved competitive performance in standard benchmarks such as WMT. However, there still exist significant issues such as robustness, domain generalization, etc. In this paper, we study NMT models from the perspective of compositional generalization by building a benchmark dataset, CoGnition, consisting of 216k clean and consistent sentence pairs. We quantitatively analyze effects of various factors using compound translation error rate, then demonstrate that the NMT model fails badly on compositional generalization, although it performs remarkably well under traditional metrics.
翻訳日:2021-06-02 03:41:52 公開日:2021-05-31
# (参考訳) ヒューマンモーション合成のためのシーン認識生成ネットワーク [全文訳有]

Scene-aware Generative Network for Human Motion Synthesis ( http://arxiv.org/abs/2105.14804v1 )

ライセンス: CC BY 4.0
Jingbo Wang, Sijie Yan, Bo Dai, Dahua LIn(参考訳) 本稿では,実世界の様々な応用に有用なヒューマン・モーション・シンセサイザーについて再考する。 以前、このタスクのために多くの手法が開発されてきたが、それらはしばしば2つの側面に制限されている: 位置移動を残しながらポーズに焦点を合わせ、環境が人間の動きに与える影響を無視している。 本稿では,シーンと人間の動きの相互作用を考慮した新しい枠組みを提案する。 人間の動きの不確実性を考慮すると、このタスクを生成タスクとして定式化し、その目的は、シーンと人間の初期位置の両方に条件付けられた可塑性な人間の動きを生成することである。 この枠組みは、人間の動きの分布を、シーンで条件付けられた動き軌跡の分布と、シーンと軌道の両方で条件付けられた身体ポーズのダイナミクスの分布に分解する。 さらに,3次元から2次元のプロジェクション制約だけでなく,人間の動きと文脈シーンとの整合性を強制する,GANに基づく学習手法を考案した。 提案手法の有効性を,合成環境と実環境の両方をカバーする2つの挑戦的データセット上で評価した。

We revisit human motion synthesis, a task useful in various real world applications, in this paper. Whereas a number of methods have been developed previously for this task, they are often limited in two aspects: focusing on the poses while leaving the location movement behind, and ignoring the impact of the environment on the human motion. In this paper, we propose a new framework, with the interaction between the scene and the human motion taken into account. Considering the uncertainty of human motion, we formulate this task as a generative task, whose objective is to generate plausible human motion conditioned on both the scene and the human initial position. This framework factorizes the distribution of human motions into a distribution of movement trajectories conditioned on scenes and that of body pose dynamics conditioned on both scenes and trajectories. We further derive a GAN based learning approach, with discriminators to enforce the compatibility between the human motion and the contextual scene as well as the 3D to 2D projection constraints. We assess the effectiveness of the proposed method on two challenging datasets, which cover both synthetic and real world environments.
翻訳日:2021-06-02 03:23:19 公開日:2021-05-31
# (参考訳) 学生の認知的・感情的共感的文章作成支援 [全文訳有]

Supporting Cognitive and Emotional Empathic Writing of Students ( http://arxiv.org/abs/2105.14815v1 )

ライセンス: CC BY-SA 4.0
Thiemo Wambsganss, Christina Niklaus, Matthias S\"ollner, Siegfried Handschuh and Jan Marco Leimeister(参考訳) 本稿では,ドイツ語のビジネスモデルに対する学生によるピアレビューにおける感情的および認知的共感を捉えるためのアノテーションアプローチを提案する。 3種類のレビュー要素に基づいて感情的および認知的共感スコアをモデル化できるアノテーションスキームを提案する。 また,92の学生エッセイに基づく3つのアノテーションを用いたアノテーション研究を行い,アノテーション方式の評価を行った。 構成成分に対する {\alpha}=0.79 と共感スコアに対する multi-{\pi}=0.41 の条件間合意は、提案手法が注釈者に対して相当かつ適度な合意を導くのに成功していることを示している。 さらに,アノテートされた共感構造を検出するための予測モデルを訓練し,インストラクターや時間,場所に依存しない個別の共感フィードバックを受け取るための適応的な筆記支援システムに組み込んだ。 本研究は,58名の学生によるピアラーニング演習で評価し,共感スキル学習,フィードバック精度,使用意図について有望な結果を得た。 最後に,500件の共感アノテート・学生によるビジネスモデルのピアレビューとアノテーションガイドラインを無償で提供し,共感支援システムの設計・開発に関する今後の研究を奨励する。

We present an annotation approach to capturing emotional and cognitive empathy in student-written peer reviews on business models in German. We propose an annotation scheme that allows us to model emotional and cognitive empathy scores based on three types of review components. Also, we conducted an annotation study with three annotators based on 92 student essays to evaluate our annotation scheme. The obtained inter-rater agreement of {\alpha}=0.79 for the components and the multi-{\pi}=0.41 for the empathy scores indicate that the proposed annotation scheme successfully guides annotators to a substantial to moderate agreement. Moreover, we trained predictive models to detect the annotated empathy structures and embedded them in an adaptive writing support system for students to receive individual empathy feedback independent of an instructor, time, and location. We evaluated our tool in a peer learning exercise with 58 students and found promising results for perceived empathy skill learning, perceived feedback accuracy, and intention to use. Finally, we present our freely available corpus of 500 empathy-annotated, student-written peer reviews on business models and our annotation guidelines to encourage future research on the design and development of empathy support systems.
翻訳日:2021-06-02 03:07:51 公開日:2021-05-31
# (参考訳) Greedy Layer Pruning: トランスモデルの推論時間を短縮する [全文訳有]

Greedy Layer Pruning: Decreasing Inference Time of Transformer Models ( http://arxiv.org/abs/2105.14839v1 )

ライセンス: CC BY 4.0
David Peer, Sebastian Stabinger, Stefan Engl, Antonio Rodriguez-Sanchez(参考訳) 教師なし事前学習後の微調整変圧器モデルは、多くの異なるNLPタスクにおいて非常に高い性能に達する。 残念ながら、トランスフォーマーは長い推論時間に悩まされ、生産コストを大幅に増加させ、組み込みデバイスへのデプロイの制限要因となっている。 一つの可能な解決策は知識蒸留であり、大きな教師モデルから小さな生徒モデルに情報を転送することでこの問題を解決するが、追加の高価な事前学習フェーズが必要であるため、このソリューションは計算コストが高く、小規模の学術研究グループでは経済的に禁止される。 もう1つの解決策は、トランスモデルの高い圧縮速度に達し、事前学習蒸留段階の計算負荷を回避する層ワイズプルーニング手法を使用することである。 料金は、層状プルーニングアルゴリズムの性能が最先端の知識蒸留法に匹敵するものではないためである。 本稿では,(1)知識蒸留に比べて性能ギャップを縮めること,(3)少額の予算で性能差を縮めること,(2)にグリーディ層刈り込み(glp)を導入する。 より正確には、提示された方法論により、わずか$300ドルの予算でGLUEベンチマーク全体の競争モデルを作成および評価することが可能である。 ソースコードはhttps://github.com/d eepopinion/greedy-la yer-pruningで閲覧できます。

Fine-tuning transformer models after unsupervised pre-training reaches a very high performance on many different NLP tasks. Unfortunately, transformers suffer from long inference times which greatly increases costs in production and is a limiting factor for the deployment into embedded devices. One possible solution is to use knowledge distillation, which solves this problem by transferring information from large teacher models to smaller student models, but as it needs an additional expensive pre-training phase, this solution is computationally expensive and can be financially prohibitive for smaller academic research groups. Another solution is to use layer-wise pruning methods, which reach high compression rates for transformer models and avoids the computational load of the pre-training distillation stage. The price to pay is that the performance of layer-wise pruning algorithms is not on par with state-of-the-art knowledge distillation methods. In this paper, greedy layer pruning (GLP) is introduced to (1) outperform current state-of-the-art for layer-wise pruning (2) close the performance gap when compared to knowledge distillation, while (3) using only a modest budget. More precisely, with the methodology presented it is possible to prune and evaluate competitive models on the whole GLUE benchmark with a budget of just $\$300$. Our source code is available on https://github.com/d eepopinion/greedy-la yer-pruning.
翻訳日:2021-06-02 02:50:11 公開日:2021-05-31
# (参考訳) ポリプセグメンテーションのための精製ディープニューラルネットワークとU-Net [全文訳有]

Refined Deep Neural Network and U-Net for Polyps Segmentation ( http://arxiv.org/abs/2105.14848v1 )

ライセンス: CC BY 4.0
Quoc-Huy Trinh, Minh-Van Nguyen, Thiet-Gia Huynh, Minh-Triet Tran(参考訳) medico: multimedia task 2020は、自動セグメンテーションのための効率的かつ正確なコンピュータ支援診断システムの開発に焦点を当てている。 我々は,包括的データセット上のポリープのセグメンテーションアルゴリズムを開発するために,タスク1のPolypsセグメンテーションタスクに参加する。 本研究では,u-netモデルを用いた適応畳み込みニューラルネットワークと,内視鏡画像における各種ポリプのセマンティクスセグメンテーションのためのpranetを組み合わせた残余モジュールとインセプションモジュールを提案する。 メソッドで異なるアーキテクチャとパラメータで5つの実行を選択します。 提案手法は,複数の実験で精度と効率が向上する可能性を示し,jaccard index 0.765で上位3位にランクインした。

The Medico: Multimedia Task 2020 focuses on developing an efficient and accurate computer-aided diagnosis system for automatic segmentation [3]. We participate in task 1, Polyps segmentation task, which is to develop algorithms for segmenting polyps on a comprehensive dataset. In this task, we propose methods combining Residual module, Inception module, Adaptive Convolutional neural network with U-Net model, and PraNet for semantic segmentation of various types of polyps in endoscopic images. We select 5 runs with different architecture and parameters in our methods. Our methods show potential results in accuracy and efficiency through multiple experiments, and our team is in the Top 3 best results with a Jaccard index of 0.765.
翻訳日:2021-06-02 02:36:46 公開日:2021-05-31
# (参考訳) なぜCTCはピーク行動をもたらすのか? [全文訳有]

Why does CTC result in peaky behavior? ( http://arxiv.org/abs/2105.14849v1 )

ライセンス: CC BY-SA 4.0
Albert Zeyer and Ralf Schl\"uter and Hermann Ney(参考訳) CTCモデルのピーク挙動は実験的によく知られている。 しかし、なぜピーク行動が起こるのか、またそれが良い性質であるかどうかについての理解が欠落している。 ctc損失のピーク挙動と勾配降下収束特性および関連する訓練条件の形式的解析を行った。 我々の分析は、なぜピーク時行動が起こるのか、いつそれが最適であるかを深く理解する。 どんなモデルでも簡単に学習できる簡単な例では、一様初期化からctcで訓練されたフィードフォワードニューラルネットワークが100%の誤差率でピーク動作へと収束することを証明する。 我々はCTCがブランクラベルとうまく連携する理由をさらに分析した。 さらに,ラベル先行モデルを含む他の関連する損失に対してはピーク動作が発生せず,収束性が向上することを示す。

The peaky behavior of CTC models is well known experimentally. However, an understanding about why peaky behavior occurs is missing, and whether this is a good property. We provide a formal analysis of the peaky behavior and gradient descent convergence properties of the CTC loss and related training criteria. Our analysis provides a deep understanding why peaky behavior occurs and when it is suboptimal. On a simple example which should be trivial to learn for any model, we prove that a feed-forward neural network trained with CTC from uniform initialization converges towards peaky behavior with a 100% error rate. Our analysis further explains why CTC only works well together with the blank label. We further demonstrate that peaky behavior does not occur on other related losses including a label prior model, and that this improves convergence.
翻訳日:2021-06-02 02:32:14 公開日:2021-05-31
# (参考訳) Cascaded Head-colliding Attention [全文訳有]

Cascaded Head-colliding Attention ( http://arxiv.org/abs/2105.14850v1 )

ライセンス: CC BY 4.0
Lin Zheng, Zhiyong Wu, Lingpeng Kong(参考訳) トランスフォーマーは、様々な重要なタスクで自然言語処理(nlp)の分野を進歩させた。 Transformerアーキテクチャの基盤には、シーケンスの各要素間の相互相互作用をモデル化するマルチヘッドアテンション(MHA)機構がある。 その大きな成功にもかかわらず、現在のフレームワークは異なるヘッド間の相互作用を無視しており、多くのヘッドが実際には冗長であるため、モデルのキャパシティを大幅に無駄にしている。 パラメータ効率を向上させるため,確率論的観点からMHAを潜在変数モデルとして再定式化する。 本稿では, 階層的変動分布を通して, 注目頭部間の相互作用を明示的にモデル化するCODA(Cascaded Head-colliding attention)を提案する。 我々は、CODA が言語モデリングにおいて \texttt{Wikitext-103} で 0.6$ perplexity を、パラメータ効率の改善により BLEU on \texttt{WMT14 EN-DE} で 0.6$ BLEU を上回り、その実装は \url{https://github.com/L Zhengisme/CODA} で公開されています。

Transformers have advanced the field of natural language processing (NLP) on a variety of important tasks. At the cornerstone of the Transformer architecture is the multi-head attention (MHA) mechanism which models pairwise interactions between the elements of the sequence. Despite its massive success, the current framework ignores interactions among different heads, leading to the problem that many of the heads are redundant in practice, which greatly wastes the capacity of the model. To improve parameter efficiency, we re-formulate the MHA as a latent variable model from a probabilistic perspective. We present cascaded head-colliding attention (CODA) which explicitly models the interactions between attention heads through a hierarchical variational distribution. We conduct extensive experiments and demonstrate that CODA outperforms the transformer baseline, by $0.6$ perplexity on \texttt{Wikitext-103} in language modeling, and by $0.6$ BLEU on \texttt{WMT14 EN-DE} in machine translation, due to its improvements on the parameter efficiency.\footnote {Our implementation is publicly available at \url{https://github.com/L Zhengisme/CODA}.}
翻訳日:2021-06-02 02:13:23 公開日:2021-05-31
# (参考訳) インザ・ワイルド画像からの3次元顔再構成のための自由変形学習 [全文訳有]

Learning Free-Form Deformation for 3D Face Reconstruction from In-The-Wild Images ( http://arxiv.org/abs/2105.14857v1 )

ライセンス: CC BY 4.0
Harim Jung, Myeong-Seok Oh, Seong-Whan Lee(参考訳) 線形基底関数を用いた3次元顔を表す主成分分析(PCA)に基づく統計モデルである3D Morphable Model (3DMM) は, 単眼画像から3次元顔を再構成する有望な結果を示した。 しかし、3dmmは3dスキャンの限られた数と大域的な線形基底のため、表現力に制限がある。 3DMMの限界に対処するために,フリーフォーム変形(FFD)による3次元顔メッシュの再構築を初めて行う,簡単な学習ベース手法を提案する。 FFDは、並列入力グリッドに参照メッシュを埋め込み、グリッドのスパース制御ポイントを移動させることでメッシュを変形させる幾何学的モデリング手法である。 FFDは数学的に定義された基底関数に基づいているため、表現力に制限はない。 これにより、制御点の適切な偏差を変形パラメータとして推定することにより、正確な3次元顔メッシュを復元することができる。 3DMMとFFDはどちらもパラメトリックモデルであるが、3DMMパラメータが顔形状に与える影響を予測することは困難であり、FFDの変形パラメータはメッシュの最終的な形状に対する影響の観点から解釈可能である。 このffdの実用的な利点により、メッシュと制御ポイントは3d顔モデリングの出発点となり、一般ユーザーは広く利用可能な3dソフトウェアツールを使用してメッシュを微調整できる。 複数のデータセットを用いた実験により,2次元顔画像から3次元顔形状と表情を推定し,最先端の手法と同等の性能が得られることを示す。

The 3D Morphable Model (3DMM), which is a Principal Component Analysis (PCA) based statistical model that represents a 3D face using linear basis functions, has shown promising results for reconstructing 3D faces from single-view in-the-wild images. However, 3DMM has restricted representation power due to the limited number of 3D scans and the global linear basis. To address the limitations of 3DMM, we propose a straightforward learning-based method that reconstructs a 3D face mesh through Free-Form Deformation (FFD) for the first time. FFD is a geometric modeling method that embeds a reference mesh within a parallelepiped grid and deforms the mesh by moving the sparse control points of the grid. As FFD is based on mathematically defined basis functions, it has no limitation in representation power. Thus, we can recover accurate 3D face meshes by estimating appropriate deviation of control points as deformation parameters. Although both 3DMM and FFD are parametric models, it is difficult to predict the effect of the 3DMM parameters on the face shape, while the deformation parameters of FFD are interpretable in terms of their effect on the final shape of the mesh. This practical advantage of FFD allows the resulting mesh and control points to serve as a good starting point for 3D face modeling, in that ordinary users can fine-tune the mesh by using widely available 3D software tools. Experiments on multiple datasets demonstrate how our method successfully estimates the 3D face geometry and facial expressions from 2D face images, achieving comparable performance to the state-of-the-art methods.
翻訳日:2021-06-02 01:54:57 公開日:2021-05-31
# (参考訳) 変分オートエンコーダの一貫性規則化 [全文訳有]

Consistency Regularization for Variational Auto-Encoders ( http://arxiv.org/abs/2105.14859v1 )

ライセンス: CC0 1.0
Samarth Sinha, Adji B. Dieng(参考訳) 変分自動エンコーダ(VAE)は教師なし学習の強力なアプローチである。 これらは変分推論(vi)を用いた潜在変数モデルにおいてスケーラブルな近似後続推論を可能にする。 vaeは、データを入力とするエンコーダと呼ばれるディープニューラルネットワークによってパラメータ化された変分系を仮定する。 このエンコーダはすべての観測値で共有され、推論のコストを償却する。 しかしながら、VAEのエンコーダは、与えられた観測とそれのセマンティックス保存変換を異なる潜在表現にマッピングするという望ましくない性質を持っている。 このエンコーダの「矛盾」は、特に下流タスクにおける学習表現の品質を低下させ、また一般化にも悪影響を及ぼす。 本稿では,VAEの整合性を強制する正規化手法を提案する。 この考え方は、観測の条件付け時の変分分布と、この観測のランダムな意味保存変換の条件付け時の変分分布との発散を最小化することである。 この正規化は任意のVAEに適用できる。 実験では、複数のベンチマークデータセット上の4つの異なるVAE変種に適用し、学習された表現の質を常に改善すると同時に、より一般化することに成功した。 特に、ヌーヴォー変分オートエンコーダ(NVAE)に適用すると、本手法はMNISTおよびCIFAR-10の最先端性能が得られる。 また,本手法を3次元データに適用し,下流分類タスクの精度から,優れた品質の表現を学習した。

Variational auto-encoders (VAEs) are a powerful approach to unsupervised learning. They enable scalable approximate posterior inference in latent-variable models using variational inference (VI). A VAE posits a variational family parameterized by a deep neural network called an encoder that takes data as input. This encoder is shared across all the observations, which amortizes the cost of inference. However the encoder of a VAE has the undesirable property that it maps a given observation and a semantics-preserving transformation of it to different latent representations. This "inconsistency" of the encoder lowers the quality of the learned representations, especially for downstream tasks, and also negatively affects generalization. In this paper, we propose a regularization method to enforce consistency in VAEs. The idea is to minimize the Kullback-Leibler (KL) divergence between the variational distribution when conditioning on the observation and the variational distribution when conditioning on a random semantic-preserving transformation of this observation. This regularization is applicable to any VAE. In our experiments we apply it to four different VAE variants on several benchmark datasets and found it always improves the quality of the learned representations but also leads to better generalization. In particular, when applied to the Nouveau Variational Auto-Encoder (NVAE), our regularization method yields state-of-the-art performance on MNIST and CIFAR-10. We also applied our method to 3D data and found it learns representations of superior quality as measured by accuracy on a downstream classification task.
翻訳日:2021-06-02 01:42:10 公開日:2021-05-31
# (参考訳) 変分オートエンコーダ:調和的視点 [全文訳有]

Variational Autoencoders: A Harmonic Perspective ( http://arxiv.org/abs/2105.14866v1 )

ライセンス: CC BY 4.0
Alexander Camuto, Matthew Willetts(参考訳) 本研究では,高調波解析の観点から変分オートエンコーダ(VAE)について検討する。 VAEの潜伏空間を様々な測度空間であるガウス空間として見ることにより、VAEのエンコーダ分散がVAEエンコーダとデコーダニューラルネットワークによってパラメータ化された関数の周波数内容を制御することを示す一連の結果を得る。 特に、より大きなエンコーダ分散がこれらの関数の高周波含量を減少させることを示す。 解析により,この分散の増大がvaeのデコーダネットワークにソフトリプシッツ制約を効果的に生じさせることを示した。 さらに、VAEの入力にガウス雑音を加えることで、VAEエンコーダネットワークの周波数内容とリプシッツ定数をより細かく制御できることを示す。 理論解析を支援するために、我々は、小さな完全連結ニューラルネットワークとより大きな畳み込みネットワークを用いたVAEの実験を行い、我々の理論が様々なニューラルネットワークアーキテクチャを実証した。

In this work we study Variational Autoencoders (VAEs) from the perspective of harmonic analysis. By viewing a VAE's latent space as a Gaussian Space, a variety of measure space, we derive a series of results that show that the encoder variance of a VAE controls the frequency content of the functions parameterised by the VAE encoder and decoder neural networks. In particular we demonstrate that larger encoder variances reduce the high frequency content of these functions. Our analysis allows us to show that increasing this variance effectively induces a soft Lipschitz constraint on the decoder network of a VAE, which is a core contributor to the adversarial robustness of VAEs. We further demonstrate that adding Gaussian noise to the input of a VAE allows us to more finely control the frequency content and the Lipschitz constant of the VAE encoder networks. To support our theoretical analysis we run experiments with VAEs with small fully-connected neural networks and with larger convolutional networks, demonstrating empirically that our theory holds for a variety of neural network architectures.
翻訳日:2021-06-02 01:26:56 公開日:2021-05-31
# (参考訳) Verdi:バイリンガルの品質評価と誤り検出

Verdi: Quality Estimation and Error Detection for Bilingual ( http://arxiv.org/abs/2105.14878v1 )

ライセンス: CC BY 4.0
Mingjun Zhao, Haijiang Wu, Di Niu, Zixuan Wang, Xiaoli Wang(参考訳) 翻訳品質評価は,翻訳後作業の削減と言語間コーパスクリーニングに重要である。 研究課題として、品質推定(QE)は、ソースとターゲットの文のペアにおける翻訳の質を直接推定し、黄金の翻訳を参照することなく修正が必要な単語をハイライトすることを目的としている。 本稿では,バイリンガルコーパスにおける単語レベルおよび文レベルの後編集作業量推定のための新しいフレームワークであるverdiを提案する。 verdiは2つの単語予測器を採用し、トランスフォーマーベースのニューラルマシン翻訳(nmt)モデルや事前学習された言語間言語モデル(xlm)など、後続の品質推定のために2つの文から多様な特徴を抽出することができる。 本研究では,二言語コーパスの対称的性質を活かし,モデルレベルの2重学習をnmt予測器に適用し,主課題と2重課題を同時に処理し,重み共有を行うことにより,単方向nmtモデルよりも文脈予測能力の強化を図る。 デュアルラーニング方式を利用して、ソースコンテキストに依存することなく、翻訳対象情報を直接符号化する新たな特徴を設計する。 wmt20 qeタスクで行った広範囲な実験により、本手法がコンペティションの勝者を上回り、他のベースライン手法を大きく上回ることを示した。 さらに、verdiが提供する文レベルのスコアを用いて並列コーパスをクリーンにし、モデル性能とトレーニング効率の両方の利点を享受する。

Translation Quality Estimation is critical to reducing post-editing efforts in machine translation and to cross-lingual corpus cleaning. As a research problem, quality estimation (QE) aims to directly estimate the quality of translation in a given pair of source and target sentences, and highlight the words that need corrections, without referencing to golden translations. In this paper, we propose Verdi, a novel framework for word-level and sentence-level post-editing effort estimation for bilingual corpora. Verdi adopts two word predictors to enable diverse features to be extracted from a pair of sentences for subsequent quality estimation, including a transformer-based neural machine translation (NMT) model and a pre-trained cross-lingual language model (XLM). We exploit the symmetric nature of bilingual corpora and apply model-level dual learning in the NMT predictor, which handles a primal task and a dual task simultaneously with weight sharing, leading to stronger context prediction ability than single-direction NMT models. By taking advantage of the dual learning scheme, we further design a novel feature to directly encode the translated target information without relying on the source context. Extensive experiments conducted on WMT20 QE tasks demonstrate that our method beats the winner of the competition and outperforms other baseline methods by a great margin. We further use the sentence-level scores provided by Verdi to clean a parallel corpus and observe benefits on both model performance and training efficiency.
翻訳日:2021-06-02 01:07:41 公開日:2021-05-31
# (参考訳) semeval-2021タスク4 : 抽象的意味の理解 [全文訳有]

SemEval-2021 Task 4: Reading Comprehension of Abstract Meaning ( http://arxiv.org/abs/2105.14879v1 )

ライセンス: CC BY 4.0
Boyuan Zheng, Xiaoyu Yang, Yu-Ping Ruan, Zhenhua Ling, Quan Liu, Si Wei, Xiaodan Zhu(参考訳) 本稿では, semeval-2021 共通タスク4: read comprehension of abstract meaning (recam) を紹介する。 この共有タスクは抽象概念を表現・理解する機械の能力を評価するために設計されている。 質問文とそれに対応する質問文が与えられた場合、参加システムは5つの抽象概念候補の中から正しい回答を選択することが期待される。 抽象性の2つの典型的な定義、すなわち非受容性と非特異性に基づいて、我々のタスクは参加モデルを評価するための3つのサブタスクを提供する。 特に、subtask 1は、システムが物理的世界で直接知覚できない概念をいかにうまくモデル化できるかを評価することを目的としている。 Subtask 2は、パスの文脈から、ハイパーネム階層にある非特異な概念を解釈するモデルの能力に焦点を当てている。 Subtask 3は、2種類の抽象性に対するモデルの一般化可能性に関する洞察を提供することを目的としている。 SemEval-2021 の公式評価期間中に,Subtask 1 に 23 件,Subtask 2 に 28 件を提出した。 参加チームはさらに29件をSubtask 3に提出した。 leaderboard and competitionのウェブサイトはhttps://competitions .codalab.org/competi tions/26153にある。 データとベースラインコードはhttps://github.com/b oyuanzheng010/SemEva l2021-Reading-Compre hension-of-Abstract- Meaningで入手できる。

This paper introduces the SemEval-2021 shared task 4: Reading Comprehension of Abstract Meaning (ReCAM). This shared task is designed to help evaluate the ability of machines in representing and understanding abstract concepts. Given a passage and the corresponding question, a participating system is expected to choose the correct answer from five candidates of abstract concepts in a cloze-style machine reading comprehension setup. Based on two typical definitions of abstractness, i.e., the imperceptibility and nonspecificity, our task provides three subtasks to evaluate the participating models. Specifically, Subtask 1 aims to evaluate how well a system can model concepts that cannot be directly perceived in the physical world. Subtask 2 focuses on models' ability in comprehending nonspecific concepts located high in a hypernym hierarchy given the context of a passage. Subtask 3 aims to provide some insights into models' generalizability over the two types of abstractness. During the SemEval-2021 official evaluation period, we received 23 submissions to Subtask 1 and 28 to Subtask 2. The participating teams additionally made 29 submissions to Subtask 3. The leaderboard and competition website can be found at https://competitions .codalab.org/competi tions/26153. The data and baseline code are available at https://github.com/b oyuanzheng010/SemEva l2021-Reading-Compre hension-of-Abstract- Meaning.
翻訳日:2021-06-02 01:06:34 公開日:2021-05-31
# (参考訳) 多言語モデルによるspan-extraction read comprehension [全文訳有]

A Multilingual Modeling Method for Span-Extraction Reading Comprehension ( http://arxiv.org/abs/2105.14880v1 )

ライセンス: CC BY 4.0
Gaochen Wu, Bin Xu, Dejie Chang, Bangchang Liu(参考訳) スパン抽出読解モデルは、大規模で高品質なトレーニングデータセットの提供によって、大幅に進歩した。 このような急速な進歩と広範な応用にもかかわらず、英語以外の言語での抽出的読解データセットは乏しいままであり、各言語に対する十分な量のトレーニングデータの作成は費用がかかり、しかも不可能である。 大規模で高品質なモノリンガルスパントラクショントレーニングデータセットを作成する方法の1つは、その言語でトレーニングデータを必要とせずにターゲット言語に転送できる多言語モデリングアプローチとシステムを開発することである。 本稿では、対象言語における抽出読解学習データの不足を解決するために、自己適応的注意と多言語的注意を用いた多言語環境における既存の抽出読解学習データを同時にモデル化し、XLRCと呼ばれる多言語読解学習手法を提案する。 具体的には、対象言語(中国語)から異なる言語族(英語)に抽出された既存の読み理解データセット(cmrc 2018)を翻訳し、多言語並列コーパスを構築する。 第2に、最終目標表現を強化するために、自己アテンションと相互アテンションを組み合わせた自己適応的アテンション(SAA)を採用し、ターゲット言語とソース言語のそれぞれから意味関係を抽出する。 さらに,多様な言語家族から豊富な知識を学ぶために,多言語注意(MLA)を提案する。 実験の結果,本手法はCMRC 2018タスクにおける最先端ベースライン(RoBERTa_Large)よりも優れており,多言語モデリング手法の有効性を示し,多言語NLPタスクの可能性を示す。

Span-extraction reading comprehension models have made tremendous advances enabled by the availability of large-scale, high-quality training datasets. Despite such rapid progress and widespread application, extractive reading comprehension datasets in languages other than English remain scarce, and creating such a sufficient amount of training data for each language is costly and even impossible. An alternative to creating large-scale high-quality monolingual span-extraction training datasets is to develop multilingual modeling approaches and systems which can transfer to the target language without requiring training data in that language. In this paper, in order to solve the scarce availability of extractive reading comprehension training data in the target language, we propose a multilingual extractive reading comprehension approach called XLRC by simultaneously modeling the existing extractive reading comprehension training data in a multilingual environment using self-adaptive attention and multilingual attention. Specifically, we firstly construct multilingual parallel corpora by translating the existing extractive reading comprehension datasets (i.e., CMRC 2018) from the target language (i.e., Chinese) into different language families (i.e., English). Secondly, to enhance the final target representation, we adopt self-adaptive attention (SAA) to combine self-attention and inter-attention to extract the semantic relations from each pair of the target and source languages. Furthermore, we propose multilingual attention (MLA) to learn the rich knowledge from various language families. Experimental results show that our model outperforms the state-of-the-art baseline (i.e., RoBERTa_Large) on the CMRC 2018 task, which demonstrate the effectiveness of our proposed multi-lingual modeling approach and show the potentials in multilingual NLP tasks.
翻訳日:2021-06-02 00:44:49 公開日:2021-05-31
# (参考訳) 攻撃的言語と精神的健康の関係に関する探索的分析 [全文訳有]

An Exploratory Analysis of the Relation Between Offensive Language and Mental Health ( http://arxiv.org/abs/2105.14888v1 )

ライセンス: CC BY 4.0
Ana-Maria Bucur, Marcos Zampieri, and Liviu P. Dinu(参考訳) 本稿では、攻撃的言語の使用とメンタルヘルスの相互作用を分析する。 我々は攻撃的言語識別と抑うつ検出のために作成された公開データセットを取得し、自己報告された抑うつ診断のない個人によるソーシャルメディア投稿における攻撃的言語の使用を比較するために、計算モデルを訓練した。 また,最近の関連研究により,投稿がうつ病の徴候を示す個人群によるサンプルについても検討した。 分析の結果,自己報告型うつ病の患者やうつ病の徴候を呈する患者では,攻撃的言語がより頻繁に使用されることが明らかとなった。 ここでは、丁寧さ・攻撃性・精神健康研究の新たな道が開かれた。

In this paper, we analyze the interplay between the use of offensive language and mental health. We acquired publicly available datasets created for offensive language identification and depression detection and we train computational models to compare the use of offensive language in social media posts written by groups of individuals with and without self-reported depression diagnosis. We also look at samples written by groups of individuals whose posts show signs of depression according to recent related studies. Our analysis indicates that offensive language is more frequently used in the samples written by individuals with self-reported depression as well as individuals showing signs of depression. The results discussed here open new avenues in research in politeness/offensive ness and mental health.
翻訳日:2021-06-02 00:29:23 公開日:2021-05-31
# (参考訳) ディープラーニング分類器のRawlsian Fair Adaptation [全文訳有]

Rawlsian Fair Adaptation of Deep Learning Classifiers ( http://arxiv.org/abs/2105.14890v1 )

ライセンス: CC BY 4.0
Kulin Shah, Pooja Gupta, Amit Deshpande, Chiranjib Bhattacharyya(参考訳) 分類におけるグループフェアネスは、人種や性別など、様々な敏感なサブ人口にまたがる予測ユーティリティの平等を目標としている。 グループフェアネスにおける平等あるいはほぼ平等な制約は、集合的ユーティリティだけでなく、最も有利なサブ人口の効用も悪化させる。 本稿では, 実用性に対するパレート効率と最小差の原理を実証的な例として適用し, 最悪の部分集団における誤り率を最小限に抑えるRawls分類器に到達する。 我々の数学的特徴は、Rawls分類器が、機会の公平な平等の精神において、理想的な特徴のスコアに一様にしきい値を適用することを示している。 実際には、そのようなスコアや特徴表現はしばしば有用だが不公平なブラックボックスモデルによって計算される。 第2の貢献は、計算したスコアや特徴表現を変更することなく、任意のブラックボックス深層学習モデルの実用的Rawlsianフェア適応である。 任意のスコア関数や特徴表現と、その感度なサブポピュレーションに関する2次統計のみを考慮し、この仮説クラスに制限されたRawls誤差率を達成する特徴表現上のしきい値分類器または線形しきい値分類器を求める。 我々の技術的貢献は、上記の問題を曖昧な確率制約を用いて定式化し、Rawls の公正適応のための効率的なアルゴリズムと、Rawls の誤り率の証明可能な上限を提供することである。 実験の結果,公平性を再訓練することなく,最先端のgroup-fairアルゴリズムに対して有意な改善が得られた。

Group-fairness in classification aims for equality of a predictive utility across different sensitive sub-populations, e.g., race or gender. Equality or near-equality constraints in group-fairness often worsen not only the aggregate utility but also the utility for the least advantaged sub-population. In this paper, we apply the principles of Pareto-efficiency and least-difference to the utility being accuracy, as an illustrative example, and arrive at the Rawls classifier that minimizes the error rate on the worst-off sensitive sub-population. Our mathematical characterization shows that the Rawls classifier uniformly applies a threshold to an ideal score of features, in the spirit of fair equality of opportunity. In practice, such a score or a feature representation is often computed by a black-box model that has been useful but unfair. Our second contribution is practical Rawlsian fair adaptation of any given black-box deep learning model, without changing the score or feature representation it computes. Given any score function or feature representation and only its second-order statistics on the sensitive sub-populations, we seek a threshold classifier on the given score or a linear threshold classifier on the given feature representation that achieves the Rawls error rate restricted to this hypothesis class. Our technical contribution is to formulate the above problems using ambiguous chance constraints, and to provide efficient algorithms for Rawlsian fair adaptation, along with provable upper bounds on the Rawls error rate. Our empirical results show significant improvement over state-of-the-art group-fair algorithms, even without retraining for fairness.
翻訳日:2021-06-02 00:19:32 公開日:2021-05-31
# (参考訳) ACNet:ロバストアレーン検出のための動的文脈強調によるマスク認識注意 [全文訳有]

ACNet: Mask-Aware Attention with Dynamic Context Enhancement for Robust Acne Detection ( http://arxiv.org/abs/2105.14891v1 )

ライセンス: CC BY 4.0
Kyungseo Min, Gun-Hee Lee, Seong-Whan Lee(参考訳) コンピュータ支援診断はコストと時間効率の面から最近注目されている。 近年のacne検出の成功にはディープラーニングが大きな役割を果たしているが、一貫性のない照明による色の変化、スケールの変化、高密度分布など、いくつかの課題が残っている。 これらの問題に対処するため,我々は,複合特徴再構成,動的コンテキスト拡張,マスク対応マルチアテンションという3つのコンポーネントからなるアクネ検出ネットワークを提案する。 第一に、合成特徴再構成は意味情報と細部を統合して特徴表現を強化し、不均衡照明の悪影響を軽減する。 次に、Dynamic Context Enhancementは、コンテキスト拡張のためのマルチスケール機能の異なる受容フィールドを制御し、スケールの変動を処理する。 最後に、マスクアウェアマルチアテンションは、不均一領域を抑圧し、有望なアセン領域を強調することにより、密配置された小アセントを検出する。 acne画像データセットacne04と自然画像データセットpascal voc 2007で実験を行った。 PASCAL VOC 2007のACNE04における最先端化と従来の最先端化手法との競合性能について述べる。

Computer-aided diagnosis has recently received attention for its advantage of low cost and time efficiency. Although deep learning played a major role in the recent success of acne detection, there are still several challenges such as color shift by inconsistent illumination, variation in scales, and high density distribution. To address these problems, we propose an acne detection network which consists of three components, specifically: Composite Feature Refinement, Dynamic Context Enhancement, and Mask-Aware Multi-Attention. First, Composite Feature Refinement integrates semantic information and fine details to enrich feature representation, which mitigates the adverse impact of imbalanced illumination. Then, Dynamic Context Enhancement controls different receptive fields of multi-scale features for context enhancement to handle scale variation. Finally, Mask-Aware Multi-Attention detects densely arranged and small acne by suppressing uninformative regions and highlighting probable acne regions. Experiments are performed on acne image dataset ACNE04 and natural image dataset PASCAL VOC 2007. We demonstrate how our method achieves the state-of-the-art result on ACNE04 and competitive performance with previous state-of-the-art methods on the PASCAL VOC 2007.
翻訳日:2021-06-01 23:56:09 公開日:2021-05-31
# (参考訳) 動的クラスタ・ツー・アルゴリサムマッピングを用いたハイブリッドヘンリーガス溶解度最適化アルゴリズム

Hybrid Henry Gas Solubility Optimization Algorithm with Dynamic Cluster-to-Algorithm Mapping for Search-based Software Engineering Problems ( http://arxiv.org/abs/2105.14923v1 )

ライセンス: CC BY 4.0
Kamal Z. Zamli, Md. Abdul Kader, Saiful Azad, Bestoun S. Ahmed(参考訳) 本稿では,Henry Gas Solubility Optimization (HGSO)アルゴリズムの新しい変種であるHGSO(Hybrid HGSO)について述べる。 前者とは異なり、HHGSOは複数のクラスタで異なるメタヒューリスティックアルゴリズム(例えば、独自のパラメータと局所ベストを持つ)を同じ集団内で共存させることができる。 HHGSOは、適応切替係数を持つペナル化と報酬モデルによる動的クラスタ対アルゴリズムの展開により、それぞれJayaアルゴリズム、Sooty Tern Optimization Algorithm、Butterfly Optimization Algorithm、Owl Search Algorithmからなるメタヒューリスティックなハイブリッド化のための新しいアプローチを提供する。 選択された2つのケーススタディ(すなわち、チーム形成問題と組合せテストスイート生成を含む)から得られた結果は、ハイブリダイゼーションがHGSOの性能を著しく改善し、他の競合するメタヒューリスティックおよびハイパーヒューリスティックアルゴリズムよりも優れた性能を示したことを示している。

This paper discusses a new variant of the Henry Gas Solubility Optimization (HGSO) Algorithm, called Hybrid HGSO (HHGSO). Unlike its predecessor, HHGSO allows multiple clusters serving different individual meta-heuristic algorithms (i.e., with its own defined parameters and local best) to coexist within the same population. Exploiting the dynamic cluster-to-algorithm mapping via penalized and reward model with adaptive switching factor, HHGSO offers a novel approach for meta-heuristic hybridization consisting of Jaya Algorithm, Sooty Tern Optimization Algorithm, Butterfly Optimization Algorithm, and Owl Search Algorithm, respectively. The acquired results from the selected two case studies (i.e., involving team formation problem and combinatorial test suite generation) indicate that the hybridization has notably improved the performance of HGSO and gives superior performance against other competing meta-heuristic and hyper-heuristic algorithms.
翻訳日:2021-06-01 23:46:07 公開日:2021-05-31
# (参考訳) LHCにおけるマルチレプトンファイナル状態における新しい物理を特徴付ける生成逆ネットワークの利用 [全文訳有]

The use of Generative Adversarial Networks to characterise new physics in multi-lepton final states at the LHC ( http://arxiv.org/abs/2105.14933v1 )

ライセンス: CC BY 4.0
Thabang Lebese, Bruce Mellado, Xifeng Ruan(参考訳) 機械学習のセミスーパービジョンは、信号と背景領域がラベル付けされていない新しい物理学の探索に使用できる。 これにより、標準モデルを越えた信号の探索におけるモデル依存性が強く軽減される。 このアプローチは、過度に適合すると偽の信号が発生するという欠点を示す。 投射玩具モンテカルロ(MC)イベントは、頻繁な推論によって対応する試行係数を推定するために用いられる。 しかし、完全な検出器シミュレーションに基づくmcイベントはリソース集約的である。 generative adversarial networks (gans) はmcジェネレータを模倣するために用いられる。 GANは強力な生成モデルであるが、しばしばトレーニングの不安定性に悩まされる。 以下は、GANのレビューである。 我々は,重量クリッピングのwasserstein gan (wgan) と勾配ペナルティのwgan (wgan-gp) の使用を提唱する。 LHCにおけるマルチレプトン異常の出現に続いて、LHCにおけるbクォークと関連したダイレプトン最終状態の生成にGANを適用する。 MCイベントとWGAN-GPイベントの良好な一致は、この研究で選択された観測可能なものに見出される。

Semi-supervision in Machine Learning can be used in searches for new physics where the signal plus background regions are not labelled. This strongly reduces model dependency in the search for signals Beyond the Standard Model. This approach displays the drawback in that over-fitting can give rise to fake signals. Tossing toy Monte Carlo (MC) events can be used to estimate the corresponding trials factor through a frequentist inference. However, MC events that are based on full detector simulations are resource intensive. Generative Adversarial Networks (GANs) can be used to mimic MC generators. GANs are powerful generative models, but often suffer from training instability. We henceforth show a review of GANs. We advocate the use of Wasserstein GAN (WGAN) with weight clipping and WGAN with gradient penalty (WGAN-GP) where the norm of gradient of the critic is penalized with respect to its input. Following the emergence of multi-lepton anomalies at the LHC, we apply GANs for the generation of di-leptons final states in association with b-quarks at the LHC. A good agreement between the MC events and the WGAN-GP events is found for the observables selected in the study.
翻訳日:2021-06-01 23:44:38 公開日:2021-05-31
# (参考訳) 特徴帰属法の有効性と自動評価スコアとの相関

The effectiveness of feature attribution methods and its correlation with automatic evaluation scores ( http://arxiv.org/abs/2105.14944v1 )

ライセンス: CC BY 4.0
Giang Nguyen, Daeyoung Kim, Anh Nguyen(参考訳) 人工知能(AI)モデルの決定を説明することは、多くの実世界の高精細なアプリケーションにおいてますます重要になっている。 何百もの論文が、これらのツールを彼らの作業で議論または活用する、新しい特徴帰属手法を提案している。 しかし, 対象のエンドユーザーであるにもかかわらず, ほとんどの属性法は, プロキシ自動評価指標でのみ評価された。 本稿では,320名のレイユーザと11名のエキスパートユーザを対象とした大規模ユーザスタディを行い,画像ネット分類,スタンフォードドッグス細粒度分類,これら2つの課題について,現状の属性手法の有効性を明らかにした。 その結果、全体的な特徴属性は、人間が最も近いトレーニングセットの例を示すよりも驚くほど効果的ではないことがわかった。 きめ細かい犬分類の難しいタスクでは、人間に属性マップを提示することは役に立たないが、AI単独と比較して人間とAIチームのパフォーマンスを損なう。 重要なことは、人間とAIチームの実際のパフォーマンスと相関がよくない自動属性マップ評価方法が見つかった。 本研究の成果は,既存の評価基準を再考するため,下流の人間-イン-ザ-ループアプリケーション上での手法の厳密な検証をコミュニティに奨励するものである。

Explaining the decisions of an Artificial Intelligence (AI) model is increasingly critical in many real-world, high-stake applications. Hundreds of papers have either proposed new feature attribution methods, discussed or harnessed these tools in their work. However, despite humans being the target end-users, most attribution methods were only evaluated on proxy automatic-evaluation metrics. In this paper, we conduct the first, large-scale user study on 320 lay and 11 expert users to shed light on the effectiveness of state-of-the-art attribution methods in assisting humans in ImageNet classification, Stanford Dogs fine-grained classification, and these two tasks but when the input image contains adversarial perturbations. We found that, in overall, feature attribution is surprisingly not more effective than showing humans nearest training-set examples. On a hard task of fine-grained dog categorization, presenting attribution maps to humans does not help, but instead hurts the performance of human-AI teams compared to AI alone. Importantly, we found automatic attribution-map evaluation measures to correlate poorly with the actual human-AI team performance. Our findings encourage the community to rigorously test their methods on the downstream human-in-the-loop applications and to rethink the existing evaluation metrics.
翻訳日:2021-06-01 23:25:50 公開日:2021-05-31
# (参考訳) 参照フレームの提案と周波数領域情報によるビデオ圧縮アーチファクト削減の性能向上 [全文訳有]

Boosting the Performance of Video Compression Artifact Reduction with Reference Frame Proposals and Frequency Domain Information ( http://arxiv.org/abs/2105.14962v1 )

ライセンス: CC BY 4.0
Yi Xu, Minyi Zhao, Jing Liu, Xinjian Zhang, Longwen Gao, Shuigeng Zhou, Huyang Sun(参考訳) 多くのディープラーニングベースのビデオ圧縮アーティファクト除去アルゴリズムが提案され、低品質な圧縮ビデオから高品質なビデオを取り出すことができる。 近年,複数の隣接フレームを基準フレームとして,時空間情報をマイニングする手法が提案されている。 しかし、これらの後処理手法は、隣接するフレームを直接活用するが、ビデオ自体の情報を無視して利用することができる。 本稿では,既存のマルチフレーム手法の性能向上のための効果的な参照フレーム提案手法を提案する。 さらに,高速フーリエ変換(FFT)に基づく損失を導入し,修復の有効性をさらに向上させる。 実験結果から,MFQE 2.0データセットの忠実度と知覚性能は最先端の手法よりも優れていた。 また,本手法はトラック1とトラック2に勝利し,ntire 2021のトラック3で2位にランクインした。

Many deep learning based video compression artifact removal algorithms have been proposed to recover high-quality videos from low-quality compressed videos. Recently, methods were proposed to mine spatiotemporal information via utilizing multiple neighboring frames as reference frames. However, these post-processing methods take advantage of adjacent frames directly, but neglect the information of the video itself, which can be exploited. In this paper, we propose an effective reference frame proposal strategy to boost the performance of the existing multi-frame approaches. Besides, we introduce a loss based on fast Fourier transformation~(FFT) to further improve the effectiveness of restoration. Experimental results show that our method achieves better fidelity and perceptual performance on MFQE 2.0 dataset than the state-of-the-art methods. And our method won Track 1 and Track 2, and was ranked the 2nd in Track 3 of NTIRE 2021 Quality enhancement of heavily compressed videos Challenge.
翻訳日:2021-06-01 23:24:29 公開日:2021-05-31
# (参考訳) コールドスタートレコメンデーションのための特権グラフ蒸留 [全文訳有]

Privileged Graph Distillation for Cold Start Recommendation ( http://arxiv.org/abs/2105.14975v1 )

ライセンス: CC BY 4.0
Shuai Wang, Kun Zhang, Le Wu, Haiping Ma, Richang Hong, Meng Wang(参考訳) レコメンデーションシステムのコールドスタート問題は長年にわたる課題であり、歴史的相互作用の記録のない属性に基づいて新しいユーザ(イテム)に推奨する必要がある。 これらのレコメンデーションシステムでは,温かいユーザ (items) はコールドスタートユーザ (items) と比較して, 相互作用記録の特権的な協調信号を持ち, 協調フィルタリング (CF) 信号は推奨のために競合する性能を示す。 多くの研究者は、多くのオンラインプラットフォームでユーザとアイテムの分類属性が利用できる冷間開始勧告を改善するために、協調的な信号埋め込み空間と属性埋め込み空間の相関を学習することを提案した。 しかし、コールドスタートの推奨は、2つの埋め込み空間モデリングと単純な空間変換の仮定によって制限される。 本稿では,ユーザ・イテム相互作用の挙動とユーザ(イテム)属性が自然に異質なグラフ構造を形成するため,特権グラフ蒸留モデル~(PGD)を提案する。 教師モデルは、温かいユーザと特権的なCFリンクを持つアイテムのための異種グラフ構造で構成されている。 学生モデルはcfリンクのないエンティティ属性グラフで構成されている。 具体的には、教師モデルは構築された不均一グラフから複雑な高階関係を注入することで、各エンティティの埋め込みをより良く学習することができる。 学生モデルは、教師の埋め込みから特権cf埋め込みで蒸留アウトプットを学習することができる。 提案手法は,新規ユーザ,新規アイテム,新規ユーザ新規アイテムなど,さまざまなコールドスタートシナリオに適用可能である。 最後に、実世界のデータセットに対する広範な実験結果から、提案したモデルが、それぞれ3つのデータセットの最先端ベースラインよりも平均6.6\%、5.6\%、1.17.1\%$で異なるタイプのコールドスタート問題に対して有効であることを明らかに示している。

The cold start problem in recommender systems is a long-standing challenge, which requires recommending to new users (items) based on attributes without any historical interaction records. In these recommendation systems, warm users (items) have privileged collaborative signals of interaction records compared to cold start users (items), and these Collaborative Filtering (CF) signals are shown to have competing performance for recommendation. Many researchers proposed to learn the correlation between collaborative signal embedding space and the attribute embedding space to improve the cold start recommendation, in which user and item categorical attributes are available in many online platforms. However, the cold start recommendation is still limited by two embedding spaces modeling and simple assumptions of space transformation. As user-item interaction behaviors and user (item) attributes naturally form a heterogeneous graph structure, in this paper, we propose a privileged graph distillation model~(PGD). The teacher model is composed of a heterogeneous graph structure for warm users and items with privileged CF links. The student model is composed of an entity-attribute graph without CF links. Specifically, the teacher model can learn better embeddings of each entity by injecting complex higher-order relationships from the constructed heterogeneous graph. The student model can learn the distilled output with privileged CF embeddings from the teacher embeddings. Our proposed model is generally applicable to different cold start scenarios with new user, new item, or new user-new item. Finally, extensive experimental results on the real-world datasets clearly show the effectiveness of our proposed model on different types of cold start problems, with average $6.6\%, 5.6\%, $ and $17.1\%$ improvement over state-of-the-art baselines on three datasets, respectively.
翻訳日:2021-06-01 23:08:44 公開日:2021-05-31
# (参考訳) カーネル回帰における一般化誤差率--無騒音状態から無雑音状態へのクロスオーバー [全文訳有]

Generalization Error Rates in Kernel Regression: The Crossover from the Noiseless to Noisy Regime ( http://arxiv.org/abs/2105.15004v1 )

ライセンス: CC BY 4.0
Hugo Cui, Bruno Loureiro, Florent Krzakala, Lenka Zdeborov\'a(参考訳) この写本では、カーネルリッジ回帰(KRR)をガウスの設計に基づいて検討する。 KRRの過大な一般化誤差の減衰の指数は、特徴の固有値のパワー-ロー崩壊を仮定して様々な研究で報告されている。 しかし、これらの崩壊は、一定の正則化を伴うノイズのないケースと、ノイズが最適に正則化されたケースという、大きく異なるセットアップのために提供された。 中間設定は、ほとんどチャージされていない。 本研究では,ノイズと正規化の相互作用の観点から観察可能な,すべてのレジームと過大なエラー減衰率のキャラクタリゼーションを提供するため,この作業を統一し,拡張する。 特に,試料の複雑さが増大するにつれて,ノイズのない指数と雑音値とのノイズ設定における遷移の存在を示す。 最後に、このクロスオーバーが実際のデータセット上でどのように観測されるかを示す。

In this manuscript we consider Kernel Ridge Regression (KRR) under the Gaussian design. Exponents for the decay of the excess generalization error of KRR have been reported in various works under the assumption of power-law decay of eigenvalues of the features co-variance. These decays were, however, provided for sizeably different setups, namely in the noiseless case with constant regularization and in the noisy optimally regularized case. Intermediary settings have been left substantially uncharted. In this work, we unify and extend this line of work, providing characterization of all regimes and excess error decay rates that can be observed in terms of the interplay of noise and regularization. In particular, we show the existence of a transition in the noisy setting between the noiseless exponents to its noisy values as the sample complexity is increased. Finally, we illustrate how this crossover can also be observed on real data sets.
翻訳日:2021-06-01 22:53:11 公開日:2021-05-31
# (参考訳) 定乗法近似と準最適加算誤差を用いた局所プライベート$k$-Meansクラスタリング

Locally Private $k$-Means Clustering with Constant Multiplicative Approximation and Near-Optimal Additive Error ( http://arxiv.org/abs/2105.15007v1 )

ライセンス: CC BY 4.0
Anamay Chaturvedi, Matthew Jones, Huy L. Nguyen(参考訳) 大きさ$n$ in $d'$-次元ユークリッド空間のデータセットが与えられたとき、$k$-平均問題は、与えられた大きさのデータセットの点間の$\ell_2^2$-距離の和が$n$と$k$中心の集合が最小となるように、$k$点(センターと呼ばれる)の集合を求める。 局所的プライベートな設定におけるこの問題に関する最近の研究は、加法誤差$\tilde{O} (n^{1/2 + a} \cdot k \cdot \max \{\sqrt{d}, \sqrt{k} \})$で定数乗法近似を達成し、一定の数のラウンドを持つ任意の解に対する$\Omega(\sqrt{n})$の低い境界を証明している。 この研究では、2つの新しいアルゴリズムで加算誤差の上界と下界に$n$の指数の間のギャップを橋渡しします。 任意の$\alpha>0$が与えられた場合、我々の最初のアルゴリズムは、少なくとも$(1+\alpha)$ファクタが$k^{\tilde{O}(1/\alpha^2)} \sqrt{d' n} \mbox{poly}\log n$加法誤差を持つ任意の非プライベートな$k$-meansクラスタリングアルゴリズムよりも大きい乗法近似を保証する。 任意の$c>\sqrt{2}$が与えられると、第2のアルゴリズムは、定数乗算近似を伴う加法誤差$o(k^{1 + \tilde{o}(1/(2c^2-1))} \sqrt{d' n} \mbox{poly} \log n)$ を達成する。 どちらのアルゴリズムも、前回の作業で任意に小さいパラメータの加法誤差で発生する$\omega(n^{1/2 + a})$ factorを超越しており、特に第2のアルゴリズムは、任意に線形に近い加法誤差の$k$に対する定数因子乗法近似と多項式依存性を持つ一定数のラウンドにおいて、局所的にプライベートな$k$-means問題を解くことができることを初めて示している。

Given a data set of size $n$ in $d'$-dimensional Euclidean space, the $k$-means problem asks for a set of $k$ points (called centers) so that the sum of the $\ell_2^2$-distances between points of a given data set of size $n$ and the set of $k$ centers is minimized. Recent work on this problem in the locally private setting achieves constant multiplicative approximation with additive error $\tilde{O} (n^{1/2 + a} \cdot k \cdot \max \{\sqrt{d}, \sqrt{k} \})$ and proves a lower bound of $\Omega(\sqrt{n})$ on the additive error for any solution with a constant number of rounds. In this work we bridge the gap between the exponents of $n$ in the upper and lower bounds on the additive error with two new algorithms. Given any $\alpha>0$, our first algorithm achieves a multiplicative approximation guarantee which is at most a $(1+\alpha)$ factor greater than that of any non-private $k$-means clustering algorithm with $k^{\tilde{O}(1/\alpha^2)} \sqrt{d' n} \mbox{poly}\log n$ additive error. Given any $c>\sqrt{2}$, our second algorithm achieves $O(k^{1 + \tilde{O}(1/(2c^2-1))} \sqrt{d' n} \mbox{poly} \log n)$ additive error with constant multiplicative approximation. Both algorithms go beyond the $\Omega(n^{1/2 + a})$ factor that occurs in the additive error for arbitrarily small parameters $a$ in previous work, and the second algorithm in particular shows for the first time that it is possible to solve the locally private $k$-means problem in a constant number of rounds with constant factor multiplicative approximation and polynomial dependence on $k$ in the additive error arbitrarily close to linear.
翻訳日:2021-06-01 22:26:36 公開日:2021-05-31
# (参考訳) ニューラルバイリアライズPCFG誘導 [全文訳有]

Neural Bi-Lexicalized PCFG Induction ( http://arxiv.org/abs/2105.15021v1 )

ライセンス: CC0 1.0
Songlin Yang, Yanpeng Zhao, Kewei Tu(参考訳) ニューラルレキシカル化PCFG(L-PCFGs)は文法誘導に有効であることが示されている。 しかし、計算複雑性を低減するために、子語の生成に対して強い独立性を仮定し、ビレクシカルな依存関係を無視する。 本稿では,L-PCFGをパラメータ化する手法を提案する。 提案手法はビレクシカル依存関係を直接モデル化し,L-PCFGの学習と表現の複雑さを低減させる。 英語wsjデータセットにおける実験結果は、実行速度と教師なし構文解析性能の両方を改善するための手法の有効性を確認した。

Neural lexicalized PCFGs (L-PCFGs) have been shown effective in grammar induction. However, to reduce computational complexity, they make a strong independence assumption on the generation of the child word and thus bilexical dependencies are ignored. In this paper, we propose an approach to parameterize L-PCFGs without making implausible independence assumptions. Our approach directly models bilexical dependencies and meanwhile reduces both learning and representation complexities of L-PCFGs. Experimental results on the English WSJ dataset confirm the effectiveness of our approach in improving both running speed and unsupervised parsing performance.
翻訳日:2021-06-01 22:24:56 公開日:2021-05-31
# (参考訳) ArtGraph: 芸術的知識グラフを目指して [全文訳有]

ArtGraph: Towards an Artistic Knowledge Graph ( http://arxiv.org/abs/2105.15028v1 )

ライセンス: CC BY 4.0
Giovanna Castellano, Giovanni Sansaro, Gennaro Vessio(参考訳) 本稿では,WikiArtとDBpediaをベースとした芸術知識グラフArtGraphについて述べる。 自動アート分析は、パターン認識とコンピュータビジョンコミュニティからの関心がますます高まっている。 しかし、現在の作品のほとんどが主にデジタルアートワークのイメージに基づいており、時にはメタデータやテキストによるコメントが補われている。 芸術領域におけるより強力な情報検索および知識発見ツールのための貴重な資源として、アート、アーティスト、絵画学校等の豊富な情報を統一された構造化フレームワークに統合する知識グラフを提供する。

This paper presents our ongoing work towards ArtGraph: an artistic knowledge graph based on WikiArt and DBpedia. Automatic art analysis has seen an ever-increasing interest from the pattern recognition and computer vision community. However, most of the current work is mainly based solely on digitized artwork images, sometimes supplemented with some metadata and textual comments. A knowledge graph that integrates a rich body of information about artworks, artists, painting schools, etc., in a unified structured framework can provide a valuable resource for more powerful information retrieval and knowledge discovery tools in the artistic domain.
翻訳日:2021-06-01 22:00:53 公開日:2021-05-31
# (参考訳) DiaKG:医学知識グラフ構築のための注釈付き糖尿病データセット [全文訳有]

DiaKG: an Annotated Diabetes Dataset for Medical Knowledge Graph Construction ( http://arxiv.org/abs/2105.15033v1 )

ライセンス: CC BY 4.0
Dejie Chang, Mosha Chen, Chaozhen Liu, Liping Liu, Dongdong Li, Wei Li, Fei Kong, Bangchang Liu, Xiaobin Luo, Ji Qi, Qiao Jin, Bin Xu(参考訳) ナレッジグラフは構造化情報や概念知識、特に医学領域のモデリングに有効であることが証明されている。 しかし, 高品質アノテートコーパスの欠如は, この課題に対する研究や応用を進める上で重要な課題である。 医学領域におけるドメイン固有知識グラフの研究を加速するために,22,050個のエンティティと6,890個の関係を持つ,糖尿病知識グラフのための高品質な中国語データセットであるDiaKGを紹介する。 提案するデータセットを徹底的に評価するためのベンチマークとして,名前付きエンティティ認識と関係抽出のための最近の典型的な手法を実装した。 実験の結果,diakgは既存の手法の多くでは困難であり,今後の研究方向性を検討するためにさらなる分析が行われている。 このデータセットのリリースは、糖尿病知識グラフの構築を支援し、AIベースのアプリケーションを促進することを願っている。

Knowledge Graph has been proven effective in modeling structured information and conceptual knowledge, especially in the medical domain. However, the lack of high-quality annotated corpora remains a crucial problem for advancing the research and applications on this task. In order to accelerate the research for domain-specific knowledge graphs in the medical domain, we introduce DiaKG, a high-quality Chinese dataset for Diabetes knowledge graph, which contains 22,050 entities and 6,890 relations in total. We implement recent typical methods for Named Entity Recognition and Relation Extraction as a benchmark to evaluate the proposed dataset thoroughly. Empirical results show that the DiaKG is challenging for most existing methods and further analysis is conducted to discuss future research direction for improvements. We hope the release of this dataset can assist the construction of diabetes knowledge graphs and facilitate AI-based applications.
翻訳日:2021-06-01 21:54:07 公開日:2021-05-31
# (参考訳) マルチスケールネットワークに基づく新しい自動変調分類方式 [全文訳有]

A Novel Automatic Modulation Classification Scheme Based on Multi-Scale Networks ( http://arxiv.org/abs/2105.15037v1 )

ライセンス: CC BY 4.0
Hao Zhang, Fuhui Zhou, Qihui Wu, Wei Wu, Rose Qingyang Hu(参考訳) 自動変調分類はインテリジェントな通信を可能にし、今日および将来の無線通信ネットワークにおいて重要である。 多くの自動変調分類スキームが提案されているが、無線通信環境の動的変化に起因するクラス内多様性問題には対処できない。 そこで本論文では,顔認識に触発されて,マルチスケールネットワークを用いた新しい自動変調分類方式を提案する。 さらに、中心損失と交差エントロピー損失を組み合わせた新規な損失関数を利用して、識別性と分離性の両方の特徴を学習し、分類性能をさらに向上させる。 広範なシミュレーション結果から,提案する自動変調分類方式は,分類精度の点で,ベンチマーク方式よりも優れた性能が得られることが示された。 提案手法の分類精度に及ぼすネットワークパラメータと2段階訓練戦略による損失関数の影響について検討した。

Automatic modulation classification enables intelligent communications and it is of crucial importance in today's and future wireless communication networks. Although many automatic modulation classification schemes have been proposed, they cannot tackle the intra-class diversity problem caused by the dynamic changes of the wireless communication environment. In order to overcome this problem, inspired by face recognition, a novel automatic modulation classification scheme is proposed by using the multi-scale network in this paper. Moreover, a novel loss function that combines the center loss and the cross entropy loss is exploited to learn both discriminative and separable features in order to further improve the classification performance. Extensive simulation results demonstrate that our proposed automatic modulation classification scheme can achieve better performance than the benchmark schemes in terms of the classification accuracy. The influence of the network parameters and the loss function with the two-stage training strategy on the classification accuracy of our proposed scheme are investigated.
翻訳日:2021-06-01 21:41:13 公開日:2021-05-31
# (参考訳) 語句保存のための因子化の意味と形態 [全文訳有]

Factorising Meaning and Form for Intent-Preserving Paraphrasing ( http://arxiv.org/abs/2105.15053v1 )

ライセンス: CC BY 4.0
Tom Hosking, Mirella Lapata(参考訳) 本稿では,本来の意図を保ちつつ,異なる表面形状を用いる英語質問のパラフレーズを生成する手法を提案する。 本モデルでは,学習対象の注意深い選択と情報ボトルネックを組み合わせ,意味や形を歪ませる潜在符号化空間を誘導する。 エンコーダデコーダモデルを用いて、同じ意味のパラフレーズと同じ表面形状の例から質問を再構成し、分離された符号化空間を生成する。 ベクトル量子化された変分オートエンコーダを用いて、曲面形式を離散的潜在変数の集合として表現し、テスト時に異なる曲面形式を選択するために分類器を使うことができる。 重要な点として,本手法は,対象者の外部ソースへのアクセスを必要としない。 広範な実験と人的評価により,従来の手法と比較して,意味保存と構文的新しさとのトレードオフが良好であるパラフレーズを生成できることが示された。

We propose a method for generating paraphrases of English questions that retain the original intent but use a different surface form. Our model combines a careful choice of training objective with a principled information bottleneck, to induce a latent encoding space that disentangles meaning and form. We train an encoder-decoder model to reconstruct a question from a paraphrase with the same meaning and an exemplar with the same surface form, leading to separated encoding spaces. We use a Vector-Quantized Variational Autoencoder to represent the surface form as a set of discrete latent variables, allowing us to use a classifier to select a different surface form at test time. Crucially, our method does not require access to an external source of target exemplars. Extensive experiments and a human evaluation show that we are able to generate paraphrases with a better tradeoff between semantic preservation and syntactic novelty compared to previous methods.
翻訳日:2021-06-01 21:18:26 公開日:2021-05-31
# (参考訳) Pareto Simulated Annealing を用いた機械学習におけるアルゴリズムバイアスの対応 [全文訳有]

Using Pareto Simulated Annealing to Address Algorithmic Bias in Machine Learning ( http://arxiv.org/abs/2105.15064v1 )

ライセンス: CC BY 4.0
William Blanzeisky, P\'adraig Cunningham(参考訳) アルゴリズムバイアスは、トレーニングデータのバイアスや、アルゴリズム自体の問題に起因する可能性がある。 これらのアルゴリズム上の問題は通常、モデルのキャパシティと正規化に関する問題に関係している。 この過小評価バイアスは、偏りや公平性を明確に考慮せずに、モデルが適切な一般化精度のために最適化されたために生じるかもしれない。 ある意味では、モデルが"アシュック"されていなければ、バイアスがかかっていることに驚くべきではない。 本稿では,モデル学習における新たな基準としてバイアス(評価)を含める。 本稿では,Pareto Simulated Annealing を用いた多目的最適化手法を提案する。 1つの合成データと2つの実世界のデータセットで、この戦略の有効性を実証する。

Algorithmic Bias can be due to bias in the training data or issues with the algorithm itself. These algorithmic issues typically relate to problems with model capacity and regularisation. This underestimation bias may arise because the model has been optimised for good generalisation accuracy without any explicit consideration of bias or fairness. In a sense, we should not be surprised that a model might be biased when it hasn't been "asked" not to be. In this paper, we consider including bias (underestimation) as an additional criterion in model training. We present a multi-objective optimisation strategy using Pareto Simulated Annealing that optimise for both balanced accuracy and underestimation. We demonstrate the effectiveness of this strategy on one synthetic and two real-world datasets.
翻訳日:2021-06-01 21:01:33 公開日:2021-05-31
# (参考訳) Max-Margin is Dead, Long Live Max-Margin! [全文訳有]

Max-Margin is Dead, Long Live Max-Margin! ( http://arxiv.org/abs/2105.15069v1 )

ライセンス: CC BY 4.0
Alex Nowak-Vila, Alessandro Rudi, Francis Bach(参考訳) 機械学習におけるmax-marginの基本概念は、構造化予測のような2つ以上のラベルを持つ出力空間では不適切である。 本稿では,出力間の誤差を測定する離散損失について,高い制約条件下での分類タスクにのみ最大マージン損失が一致することを示す。 これらの条件は、整合性を証明する木グラフで定義される距離によって満たされるため、マックス=マージンが二進集合を超えて一貫したことを示す最初の損失である。 最終的に、max-marginの概念を正し、loss-augmented scoreの最大化は維持されるが、元のドメインのサブセット上で実行される制限max-marginを導入することで、これらの制限に対処する。 結果として生じる損失は、二元サポートベクトルマシンの一般化であり、離散損失に関するより穏やかな条件下では一貫している。

The foundational concept of Max-Margin in machine learning is ill-posed for output spaces with more than two labels such as in structured prediction. In this paper, we show that the Max-Margin loss can only be consistent to the classification task under highly restrictive assumptions on the discrete loss measuring the error between outputs. These conditions are satisfied by distances defined in tree graphs, for which we prove consistency, thus being the first losses shown to be consistent for Max-Margin beyond the binary setting. We finally address these limitations by correcting the concept of Max-Margin and introducing the Restricted-Max-Margi n, where the maximization of the loss-augmented scores is maintained, but performed over a subset of the original domain. The resulting loss is also a generalization of the binary support vector machine and it is consistent under milder conditions on the discrete loss.
翻訳日:2021-06-01 20:54:38 公開日:2021-05-31
# (参考訳) ニューラルネットワークを用いた小児の胎児アルコールスペクトラム障害の検出 [全文訳有]

Detecting Fetal Alcohol Spectrum Disorder in children using Artificial Neural Network ( http://arxiv.org/abs/2105.15074v1 )

ライセンス: CC BY 4.0
Vannessa de J. Duarte, Paul Leger, Sergio Contreras and Hiroaki Fukuda(参考訳) 胎児アルコールスペクトラム障害(英: Fetal alcohol spectrum disorder, FASD)は、妊娠中の母親のアルコール摂取量と他の子供の状態との違いのみが異なる症候群である。 fasdの早期診断は、子供と青年の生活の質を改善した。 そこで本研究では,小児のFASDを分類し,その正確性を検討するために,ニューラルネットワーク(ANN)を用いたことに焦点を当てた。 ANNは、がん、糖尿病、その他の医学領域の疾患の診断に使われており、良い結果をもたらすツールである。 使用されるデータは、5歳から18歳の子供(心理測定、ササード眼球運動、拡散テンソルイメージング(DTI)の検査を含む)のバッテリーから得られる。 層状層を有するANNの異なる構成について検討する。 まず、心理測定データに対して結果の75%を正しく予測する。 他のモデルには機能レイヤが含まれており、各テストで個別にfasdを予測するために使用しました。 モデルは70 %以上を正確に予測し、サイコメトリックとメモリガイドは88 %以上を精度で予測する。 その結果,ANNアプローチはFASDを検出するための競合的かつ効率的な手法であることが示唆された。 しかし、診断技術としての使用には注意が必要だ。

Fetal alcohol spectrum disorder (FASD) is a syndrome whose only difference compared to other children's conditions is the mother's alcohol consumption during pregnancy. An earlier diagnosis of FASD improving the quality of life of children and adolescents. For this reason, this study focus on evaluating the use of the artificial neural network (ANN) to classify children with FASD and explore how accurate it is. ANN has been used to diagnose cancer, diabetes, and other diseases in the medical area, being a tool that presents good results. The data used is from a battery of tests from children for 5-18 years old (include tests of psychometric, saccade eye movement, and diffusion tensor imaging (DTI)). We study the different configurations of ANN with dense layers. The first one predicts 75\% of the outcome correctly for psychometric data. The others models include a feature layer, and we used it to predict FASD using every test individually. The models accurately predict over 70\% of the cases, and psychometric and memory guides predict over 88\% accuracy. The results suggest that the ANN approach is a competitive and efficient methodology to detect FASD. However, we could be careful in used as a diagnostic technique.
翻訳日:2021-06-01 20:21:38 公開日:2021-05-31
# (参考訳) スパースなエキスパートモデルとそれ以上を探求する [全文訳有]

Exploring Sparse Expert Models and Beyond ( http://arxiv.org/abs/2105.15082v1 )

ライセンス: CC BY 4.0
An Yang, Junyang Lin, Rui Men, Chang Zhou, Le Jiang, Xianyan Jia, Ang Wang, Jie Zhang, Jiamang Wang, Yong Li, Di Zhang, Wei Lin, Lin Qu, Jingren Zhou, Hongxia Yang(参考訳) Mixture-of-Experts (MoE) モデルは、無数のパラメータを持つ有望な結果が得られるが、計算コストは一定であり、モデルスケーリングのトレンドとなっている。 それでも、MoE層がパラメータをスパースアクティベーションで活用することで、どのように品質向上をもたらすのかは謎である。 本研究では,スパースエキスパートモデルにおけるいくつかの要因について検討する。 負荷の不均衡は、最近の研究の視点とは対照的に、モデル品質に重大な問題ではない可能性があるが、sparsely activated experts $k$とexpert capacity $c$トップ$k$ routingは、この文脈で大きな違いをもたらす可能性がある。 さらに私たちは、エキスパートプロトタイピングと呼ばれる、専門家を異なるプロトタイプに分割し、トップクラスのルーティングに$k$を適用するシンプルな方法を提案します。 この戦略は, モデル品質を向上させるが, 一定の計算コストを維持するとともに, 大規模モデルのさらなる探索により, 大規模モデルの訓練に有効であることが示唆された。 私たちはモデルスケールを1兆ドル以上のパラメータに押し上げ、NVIDIA V100-32GBのGPUのみに実装します。 提案する巨大モデルは,同規模のベースライン上での収束の大幅な高速化を実現する。

Mixture-of-Experts (MoE) models can achieve promising results with outrageous large amount of parameters but constant computation cost, and thus it has become a trend in model scaling. Still it is a mystery how MoE layers bring quality gains by leveraging the parameters with sparse activation. In this work, we investigate several key factors in sparse expert models. We observe that load imbalance may not be a significant problem affecting model quality, contrary to the perspectives of recent studies, while the number of sparsely activated experts $k$ and expert capacity $C$ in top-$k$ routing can significantly make a difference in this context. Furthermore, we take a step forward to propose a simple method called expert prototyping that splits experts into different prototypes and applies $k$ top-$1$ routing. This strategy improves the model quality but maintains constant computational costs, and our further exploration on extremely large-scale models reflects that it is more effective in training larger models. We push the model scale to over $1$ trillion parameters and implement it on solely $480$ NVIDIA V100-32GB GPUs, in comparison with the recent SOTA Switch Transformer on $2048$ TPUs. The proposed giant model achieves substantial speedup in convergence over the same-size baseline.
翻訳日:2021-06-01 20:08:15 公開日:2021-05-31
# (参考訳) beyond noise: 神経機械翻訳におけるきめ細かな意味的多様性の影響の緩和 [全文訳有]

Beyond Noise: Mitigating the Impact of Fine-grained Semantic Divergences on Neural Machine Translation ( http://arxiv.org/abs/2105.15087v1 )

ライセンス: CC BY 4.0
Eleftheria Briakou and Marine Carpuat(参考訳) ニューラルマシン翻訳(NMT)は、ノイズの多い並列トレーニングサンプルに非常に敏感であることが示されているが、以前の作業では、ソースとターゲットのあらゆるタイプのミスマッチをノイズとして扱う。 その結果、ほとんど等価だが少数の意味的に異なるトークンを含むサンプルがnmtトレーニングにどのように影響するかは、まだ不明である。 このギャップを埋めるために、トランスフォーマーモデルに対する様々な種類の細粒度意味分岐の影響を分析する。 合成発散に基づく学習モデルでは、より頻繁にテキストが生成され、予測に自信がないことを示す。 そこで本研究では,自然発生の発散による劣化からNMTが回復する要因を生かし,EN-FRタスクにおける翻訳品質とモデル校正の両面を改善した分散対応NMTフレームワークを提案する。

While it has been shown that Neural Machine Translation (NMT) is highly sensitive to noisy parallel training samples, prior work treats all types of mismatches between source and target as noise. As a result, it remains unclear how samples that are mostly equivalent but contain a small number of semantically divergent tokens impact NMT training. To close this gap, we analyze the impact of different types of fine-grained semantic divergences on Transformer models. We show that models trained on synthetic divergences output degenerated text more frequently and are less confident in their predictions. Based on these findings, we introduce a divergent-aware NMT framework that uses factors to help NMT recover from the degradation caused by naturally occurring divergences, improving both translation quality and model calibration on EN-FR tasks.
翻訳日:2021-06-01 19:55:31 公開日:2021-05-31
# (参考訳) アラートによる動的走行保守問題に対する政策

Policies for the Dynamic Traveling Maintainer Problem with Alerts ( http://arxiv.org/abs/2105.15119v1 )

ライセンス: CC BY 4.0
Paulo da Costa, Peter Verleijsdonk, Simon Voorberg, Alp Akcay, Stella Kapodistria, Willem van Jaarsveld and Yingqian Zhang(参考訳) 企業は、風力タービン、列車、病院設備などの近代的な資本資産を必要とし、最小のダウンタイムを経験する。 理想的には、資産は失敗の直前に維持され、最小のメンテナンスコストで最大限の可用性を確保する。 この目的のために、2つの課題が生じる: 資産の失敗時間が未知であり、資産はより大きな資産ネットワークの一部となる。 今日では、警報を発するリアルタイムモニタリングを備えた資産が一般的であり、これは通常、劣化の兆候によって引き起こされる。 したがって、アラートや資産の場所、メンテナンスコストといった情報をもとにして、メンテナンスを計画することが重要となる。 この問題はDTMPA(Dynamic Traveling Maintainer Problem with Alerts)と呼ばれる。 DTMPAのためのモデリングフレームワークを提案し、警告が早期であり、障害の指標が不十分である。 目標は、無限の時間的地平線上で発生したメンテナンスコストの削減である。 そこで本研究では,アラート信号からの異なる情報レベルを活用し,この問題を解決する3つの手法を提案する。 提案手法は, 近接性, 緊急性, 経済的リスクに基づく資産のランク付けを行う様々な欲求的ヒューリスティック, 近未来コストの最適化に組合せ最適化を用いた旅行管理ヒューリスティック, アラート履歴のみを用いた長期コストの最小化を目的とした深層強化学習(DRL)手法から構成される。 シミュレーション環境では、全ての手法が最適ポリシーを近似し、小さな資産ネットワークの完全な条件情報にアクセスできる。 最適ポリシの計算が難易度の高い大規模ネットワークでは,DRLが最低コストを一貫して達成し,競争力のあるメンテナンスポリシが提案される。

Companies require modern capital assets such as wind turbines, trains and hospital equipment to experience minimal downtime. Ideally, assets are maintained right before failure to ensure maximum availability at minimum maintenance costs. To this end, two challenges arise: failure times of assets are unknown a priori and assets can be part of a larger asset network. Nowadays, it is common for assets to be equipped with real-time monitoring that emits alerts, typically triggered by the first signs of degradation. Thus, it becomes crucial to plan maintenance considering information received via alerts, asset locations and maintenance costs. This problem is referred to as the Dynamic Traveling Maintainer Problem with Alerts (DTMPA). We propose a modeling framework for the DTMPA, where the alerts are early and imperfect indicators of failures. The objective is to minimize discounted maintenance costs accrued over an infinite time horizon. We propose three methods to solve this problem, leveraging different information levels from the alert signals. The proposed methods comprise various greedy heuristics that rank assets based on proximity, urgency and economic risk; a Traveling Maintainer Heuristic employing combinatorial optimization to optimize near-future costs; a Deep Reinforcement Learning (DRL) method trained to minimize the long-term costs using exclusively the history of alerts. In a simulated environment, all methods can approximate optimal policies with access to perfect condition information for small asset networks. For larger networks, where computing the optimal policy is intractable, the proposed methods yield competitive maintenance policies, with DRL consistently achieving the lowest costs.
翻訳日:2021-06-01 19:37:55 公開日:2021-05-31
# (参考訳) 摂動からの学習:逆対向学習を用いた多変量・インフォーマティブ対話生成 [全文訳有]

Learning from Perturbations: Diverse and Informative Dialogue Generation with Inverse Adversarial Training ( http://arxiv.org/abs/2105.15171v1 )

ライセンス: CC BY 4.0
Wangchunshu Zhou, Qifei Li, Chenle Li(参考訳) 本稿では, 汎用応答やモデル対話履歴を改善するために, ニューラル対話システムを訓練するための逆逆学習(IAT)アルゴリズムを提案する。 標準的な対人訓練アルゴリズムとは対照的に、IATは対話履歴の摂動に敏感であり、従って摂動から学ぶことを奨励する。 対話履歴の摂動によって出力確率が大幅に低下する応答に対してより高い報酬を与えることにより、モデルはより多様で一貫した応答を生成することが奨励される。 摂動対話履歴が与えられた同じ応答を生成する際にモデルをペナルティ化することにより、モデルは対話履歴をよりよく捉え、より情報的な応答を生成することを余儀なくされる。 2つのベンチマークデータセットによる実験結果から,本手法は対話履歴をモデル化し,より多様で一貫した応答を生成する。 さらに,対話応答生成モデルの多様性を向上させるために広く利用されている最大相互情報(MMI)に基づく手法の問題点を指摘し,それを実証的に示す。

In this paper, we propose Inverse Adversarial Training (IAT) algorithm for training neural dialogue systems to avoid generic responses and model dialogue history better. In contrast to standard adversarial training algorithms, IAT encourages the model to be sensitive to the perturbation in the dialogue history and therefore learning from perturbations. By giving higher rewards for responses whose output probability reduces more significantly when dialogue history is perturbed, the model is encouraged to generate more diverse and consistent responses. By penalizing the model when generating the same response given perturbed dialogue history, the model is forced to better capture dialogue history and generate more informative responses. Experimental results on two benchmark datasets show that our approach can better model dialogue history and generate more diverse and consistent responses. In addition, we point out a problem of the widely used maximum mutual information (MMI) based methods for improving the diversity of dialogue response generation models and demonstrate it empirically.
翻訳日:2021-06-01 19:36:44 公開日:2021-05-31
# (参考訳) フェデレーション学習におけるパーソナライズによる蒸留の統一 [全文訳有]

Unifying Distillation with Personalization in Federated Learning ( http://arxiv.org/abs/2105.15191v1 )

ライセンス: CC BY 4.0
Siddharth Divi, Habiba Farrukh, Berkay Celik(参考訳) Federated Learning(FL)は、クライアントがデータを共有せずに中央アグリゲータを通じて共同作業モデルを学習する分散プライバシ保護学習技術である。 この設定では、すべてのクライアントは単一の共通予測子(fedavg)を学習するが、クライアント間の統計データの不均一性のため、各クライアントのローカルデータではうまく一般化しない。 本稿では,2段階のパーソナライズ学習アルゴリズムであるpersflを用いてこの問題に対処する。 最初の段階では、PersFLはFLトレーニングフェーズ中に各クライアントの最適な教師モデルを見つける。 第2段階では、persflは最適な教師からの有用な知識を各ユーザのローカルモデルに割く。 教師モデルは、クライアントがローカルモデルに容易に適応できるような、リッチでハイレベルな表現を各クライアントに提供する。 CIFAR-10とMNISTデータセットのPersFLを3つのデータ分割戦略を用いて評価し,クライアントのデータ分散の多様性を制御した。 我々はPersFLがFedAvgと最先端のパーソナライズ手法であるpFedMe、Per-FedAvg、FedPerを最小限の通信コストで多数データスプリットで上回ることを示す。 さらに, 異なる蒸留目的に対するpersflの性能, この性能が, クライアント間の公平性という公平な概念, 必要な通信ラウンド数にどのように影響するかについて検討した。 PersFLのコードはhttps://tinyurl.com/ hdh5zhxsで公開されている。

Federated learning (FL) is a decentralized privacy-preserving learning technique in which clients learn a joint collaborative model through a central aggregator without sharing their data. In this setting, all clients learn a single common predictor (FedAvg), which does not generalize well on each client's local data due to the statistical data heterogeneity among clients. In this paper, we address this problem with PersFL, a discrete two-stage personalized learning algorithm. In the first stage, PersFL finds the optimal teacher model of each client during the FL training phase. In the second stage, PersFL distills the useful knowledge from optimal teachers into each user's local model. The teacher model provides each client with some rich, high-level representation that a client can easily adapt to its local model, which overcomes the statistical heterogeneity present at different clients. We evaluate PersFL on CIFAR-10 and MNIST datasets using three data-splitting strategies to control the diversity between clients' data distributions. We empirically show that PersFL outperforms FedAvg and three state-of-the-art personalization methods, pFedMe, Per-FedAvg, and FedPer on majority data-splits with minimal communication cost. Further, we study the performance of PersFL on different distillation objectives, how this performance is affected by the equitable notion of fairness among clients, and the number of required communication rounds. PersFL code is available at https://tinyurl.com/ hdh5zhxs for public use and validation.
翻訳日:2021-06-01 19:24:19 公開日:2021-05-31
# (参考訳) 有限サンプル保証を持つ単純で一般化された機械学習定理 [全文訳有]

A Simple and General Debiased Machine Learning Theorem with Finite Sample Guarantees ( http://arxiv.org/abs/2105.15197v1 )

ライセンス: CC BY 4.0
Victor Chernozhukov, Whitney K. Newey, Rahul Singh(参考訳) 脱バイアス機械学習(Debiased machine learning)は、バイアス補正とサンプル分割に基づくメタアルゴリズムであり、機能(つまり)に対する信頼区間を計算する。 機械学習アルゴリズムのスカラー要約)。 例えば、アナリストはニューラルネットワークで推定される治療効果に対する信頼区間を欲しがるかもしれない。 我々は,いくつかの単純かつ解釈可能な条件を満たす任意の機械学習アルゴリズムのグローバルあるいはローカル機能を含む,漸近的脱バイアス機械学習定理を提供する。 形式的には、有限サンプル引数による一貫性、ガウス近似、半パラメトリック効率を証明する。 収束速度は大域汎函数に対して根nであり、局所汎函数に対して優雅に分解される。 この結果は、アナリストが現代の学習理論の速度を従来の統計的推論に翻訳するために使用できる、単純な条件のセットで決定される。 これらの条件は逆問題に対する新しい二重ロバスト性を示す。

Debiased machine learning is a meta algorithm based on bias correction and sample splitting to calculate confidence intervals for functionals (i.e. scalar summaries) of machine learning algorithms. For example, an analyst may desire the confidence interval for a treatment effect estimated with a neural network. We provide a nonasymptotic debiased machine learning theorem that encompasses any global or local functional of any machine learning algorithm that satisfies a few simple, interpretable conditions. Formally, we prove consistency, Gaussian approximation, and semiparametric efficiency by finite sample arguments. The rate of convergence is root-n for global functionals, and it degrades gracefully for local functionals. Our results culminate in a simple set of conditions that an analyst can use to translate modern learning theory rates into traditional statistical inference. The conditions reveal a new double robustness property for ill posed inverse problems.
翻訳日:2021-06-01 18:53:48 公開日:2021-05-31
# bangla自然言語処理:古典的,機械学習,深層学習に基づく手法の包括的レビュー

Bangla Natural Language Processing: A Comprehensive Review of Classical, Machine Learning, and Deep Learning Based Methods ( http://arxiv.org/abs/2105.14875v1 )

ライセンス: Link先を確認
Ovishake Sen, Mohtasim Fuad, MD. Nazrul Islam, Jakaria Rabbi, MD. Kamrul Hasan, Awal Ahmed Fime, Md. Tahmid Hasan Fuad, Delowar Sikder, and MD. Akil Raihan Iftee(参考訳) バングラ語は世界第7位の言語であり、2億2500万人が母国語・非母語話者である。 しかし、英語はオンラインリソースや技術知識、ジャーナル、ドキュメントの主要な言語である。 その結果、多くのバングラ語話者は、英語の指導力に制限があり、英語の資源を利用するハードルに直面している。 限られた支援と需要の増加の間のギャップを埋めるため、研究者は多数の実験を行い、バングラ語資料の作成と加工のための貴重なツールや技術を開発した。 オンラインおよび技術領域でバングラ語を使いやすくするために、多くの取り組みが進行中である。 過去、過去、そして将来のBangla Natural Language Processing(BNLP)のトレンドを理解するためのいくつかのレビュー論文がある。 これらの研究は主に、感情分析、音声認識、光学文字認識、テキスト要約など、BNLPの特定の領域に集中している。 近年のBNLPツールや手法に関する包括的研究を含む資源の不足は明らかである。 そこで本稿では,71のbnlp研究論文の徹底的なレビューを行い,情報抽出,機械翻訳,名前付きエンティティ認識,解析,音声タグ処理,質問応答システム,感情分析,スパムと偽検出,テキスト要約,単語認識の曖昧化,音声処理と認識の11つのカテゴリに分類する。 1999年から2021年にかけて発行された論文を調査し、2015年以降の論文の50%を公表した。 BNLPの限界と現在のトレンドに対処しながら、異なるデータセットで古典的、機械学習、ディープラーニングのアプローチについて議論する。

The Bangla language is the seventh most spoken language, with 265 million native and non-native speakers worldwide. However, English is the predominant language for online resources and technical knowledge, journals, and documentation. Consequently, many Bangla-speaking people, who have limited command of English, face hurdles to utilize English resources. To bridge the gap between limited support and increasing demand, researchers conducted many experiments and developed valuable tools and techniques to create and process Bangla language materials. Many efforts are also ongoing to make it easy to use the Bangla language in the online and technical domains. There are some review papers to understand the past, previous, and future Bangla Natural Language Processing (BNLP) trends. The studies are mainly concentrated on the specific domains of BNLP, such as sentiment analysis, speech recognition, optical character recognition, and text summarization. There is an apparent scarcity of resources that contain a comprehensive study of the recent BNLP tools and methods. Therefore, in this paper, we present a thorough review of 71 BNLP research papers and categorize them into 11 categories, namely Information Extraction, Machine Translation, Named Entity Recognition, Parsing, Parts of Speech Tagging, Question Answering System, Sentiment Analysis, Spam and Fake Detection, Text Summarization, Word Sense Disambiguation, and Speech Processing and Recognition. We study articles published between 1999 to 2021, and 50\% of the papers were published after 2015. We discuss Classical, Machine Learning and Deep Learning approaches with different datasets while addressing the limitations and current and future trends of the BNLP.
翻訳日:2021-06-01 17:55:19 公開日:2021-05-31
# 多言語ニューラルマシン翻訳モデルは、言語ペア固有の注意ヘッドを含むか?

Do Multilingual Neural Machine Translation Models Contain Language Pair Specific Attention Heads? ( http://arxiv.org/abs/2105.14940v1 )

ライセンス: Link先を確認
Zae Myung Kim, Laurent Besacier, Vassilina Nikoulina, Didier Schwab(参考訳) 多言語表現の分析に関する最近の研究は、言語非依存表現の出現の有無や、多言語モデルがその重みを異なる言語に分割するかどうかを識別することに焦点を当てている。 このような研究の多くはブラックボックス方式で行われているが、本稿は多言語ニューラル翻訳(NMT)モデルの個々のコンポーネントを分析することを目的としている。 特に,(1)「ばらつき」や「自信」といった注意重みのいくつかの側面を定量化する指標を用いて,(1)特定の言語対の翻訳に特有なエンコーダ・セルフ・アテンションとエンコーダ・デコーダ・アテンションヘッド(多対1nmtモデル)に着目し,(2)翻訳品質に関して注意ヘッドの重要性を体系的にランク付けする。 実験結果から、言語ペア間で最も重要な注意点の集合が非常によく似ており、翻訳品質を著しく損なうことなく、あまり重要でない頭部の3分の1近くを除去できることがわかった。

Recent studies on the analysis of the multilingual representations focus on identifying whether there is an emergence of language-independent representations, or whether a multilingual model partitions its weights among different languages. While most of such work has been conducted in a "black-box" manner, this paper aims to analyze individual components of a multilingual neural translation (NMT) model. In particular, we look at the encoder self-attention and encoder-decoder attention heads (in a many-to-one NMT model) that are more specific to the translation of a certain language pair than others by (1) employing metrics that quantify some aspects of the attention weights such as "variance" or "confidence", and (2) systematically ranking the importance of attention heads with respect to translation quality. Experimental results show that surprisingly, the set of most important attention heads are very similar across the language pairs and that it is possible to remove nearly one-third of the less important heads without hurting the translation quality greatly.
翻訳日:2021-06-01 17:54:50 公開日:2021-05-31
# 可能性比と再パラメータ化勾配の統一的考察

A unified view of likelihood ratio and reparameterization gradients ( http://arxiv.org/abs/2105.14900v1 )

ライセンス: Link先を確認
Paavo Parmas and Masashi Sugiyama(参考訳) Reparameterization (RP) と chance ratio (LR) の勾配推定器は、機械学習と強化学習を通して期待の勾配を推定するために用いられるが、それらは通常単純な数学的トリックとして説明され、その性質について見当たらない。 我々は、LR と RP が確率質量の運動を追跡する代替方法であり、2 つが発散定理によって接続されていることを説明するために第一原理のアプローチを用いる。 さらに,LRとRPを組み合わせたすべての推定器の空間は,フロー場$u(x)$と重要サンプリング分布$q(x)$で完全にパラメータ化可能であることを示す。 特徴空間の外側にこのタイプの単サンプル推定器が存在しないことを証明し、より優れたモンテカルロ勾配推定器を探すべき場所を明らかにする。

Reparameterization (RP) and likelihood ratio (LR) gradient estimators are used to estimate gradients of expectations throughout machine learning and reinforcement learning; however, they are usually explained as simple mathematical tricks, with no insight into their nature. We use a first principles approach to explain that LR and RP are alternative methods of keeping track of the movement of probability mass, and the two are connected via the divergence theorem. Moreover, we show that the space of all possible estimators combining LR and RP can be completely parameterized by a flow field $u(x)$ and an importance sampling distribution $q(x)$. We prove that there cannot exist a single-sample estimator of this type outside our characterized space, thus, clarifying where we should be searching for better Monte Carlo gradient estimators.
翻訳日:2021-06-01 17:53:43 公開日:2021-05-31
# Q-attention:視覚に基づくロボットマニピュレーションのための効率的な学習の実現

Q-attention: Enabling Efficient Learning for Vision-based Robotic Manipulation ( http://arxiv.org/abs/2105.14829v1 )

ライセンス: Link先を確認
Stephen James and Andrew J. Davison(参考訳) 強化学習手法の成功にもかかわらず、ロボット操作の幅広いタスクに適用される場合、彼らはまだ画期的な瞬間を持っていない。 これは、強化学習アルゴリズムが訓練に非常に難しく、時間を要することで知られており、フルステート入力ではなく画像からのトレーニングでさらに悪化しているためである。 人間が操作タスクを実行すると、目はプロセスのすべてのステップを注意深く監視し、目は操作対象に順次焦点を合わせます。 このことを念頭に置いて、少数の実演のみを前提として、スパース逆タスクの範囲に適用可能な汎用的な操作アルゴリズムであるアテンション駆動型ロボットマニピュレーション(ARM)アルゴリズムを提案する。 armは、複雑な操作のタスクを3段階のパイプラインに分割する:(1) q-attention agentは、rgbとpoint cloudの入力から興味深いピクセルロケーションを抽出し、(2)q-attention agentから作物を受け取り、ポーズを出力する次善のポーズエージェント、(3)目標のポーズを取って共同アクションを出力するコントロールエージェントである。 我々は、現在の学習アルゴリズムがRLBenchタスクで失敗し、ARMが成功したことを示す。

Despite the success of reinforcement learning methods, they have yet to have their breakthrough moment when applied to a broad range of robotic manipulation tasks. This is partly due to the fact that reinforcement learning algorithms are notoriously difficult and time consuming to train, which is exacerbated when training from images rather than full-state inputs. As humans perform manipulation tasks, our eyes closely monitor every step of the process with our gaze focusing sequentially on the objects being manipulated. With this in mind, we present our Attention-driven Robotic Manipulation (ARM) algorithm, which is a general manipulation algorithm that can be applied to a range of sparse-rewarded tasks, given only a small number of demonstrations. ARM splits the complex task of manipulation into a 3 stage pipeline: (1) a Q-attention agent extracts interesting pixel locations from RGB and point cloud inputs, (2) a next-best pose agent that accepts crops from the Q-attention agent and outputs poses, and (3) a control agent that takes the goal pose and outputs joint actions. We show that current learning algorithms fail on a range of RLBench tasks, whilst ARM is successful.
翻訳日:2021-06-01 17:53:26 公開日:2021-05-31
# 効率的非教師付き異常分割のための半直交埋め込み

Semi-orthogonal Embedding for Efficient Unsupervised Anomaly Segmentation ( http://arxiv.org/abs/2105.14737v1 )

ライセンス: Link先を確認
Jin-Hwa Kim, Do-Hyeong Kim, Saehoon Yi, Taehoon Lee(参考訳) 本稿では,教師なし異常セグメンテーションに対する半直交埋め込みの効率について述べる。 事前訓練されたCNNのマルチスケール機能は、最近、大きなパフォーマンスを持つ局所化マハラノビス距離に使われている。 しかし、機能サイズの増大は、多次元共分散テンソルのバッチ逆を必要とするため、より大きなcnnまでスケールアップする上で問題となる。 そこで我々は,多次元共分散テンソルの逆数に対する計算コストを3次的に削減し,ロバスト近似のための半直交埋め込み法,ランダムな特徴選択法を一般化する。 アブレーション研究の精査により,提案手法はMVTec AD, KolektorSDD, KolektorSDD2, mSTCデータセットに対して,新たな最先端技術を実現する。 理論的および実証的な分析は、単純だが費用対効果のあるアプローチの洞察と検証を提供する。

We present the efficiency of semi-orthogonal embedding for unsupervised anomaly segmentation. The multi-scale features from pre-trained CNNs are recently used for the localized Mahalanobis distances with significant performance. However, the increased feature size is problematic to scale up to the bigger CNNs, since it requires the batch-inverse of multi-dimensional covariance tensor. Here, we generalize an ad-hoc method, random feature selection, into semi-orthogonal embedding for robust approximation, cubically reducing the computational cost for the inverse of multi-dimensional covariance tensor. With the scrutiny of ablation studies, the proposed method achieves a new state-of-the-art with significant margins for the MVTec AD, KolektorSDD, KolektorSDD2, and mSTC datasets. The theoretical and empirical analyses offer insights and verification of our straightforward yet cost-effective approach.
翻訳日:2021-06-01 17:52:23 公開日:2021-05-31
# 境界ロジット注意:画像分類器の学習

Bounded logit attention: Learning to explain image classifiers ( http://arxiv.org/abs/2105.14824v1 )

ライセンス: Link先を確認
Thomas Baumhauer and Djordje Slijepcevic and Matthias Zeppelzauer(参考訳) 説明可能な人工知能は、「説明」と呼ばれる適切なサイド情報を通じて、人間の認知に直接アクセスできないほど複雑すぎるシステムの動作を解明しようとする試みである。 本稿では,BLA(bounded logit attention)と呼ばれる畳み込み画像分類のためのトレーニング可能な説明モジュールを提案する。 BLAモジュールは、各入力インスタンスに対して畳み込み特徴マップのサブセットを選択することを学習し、次に分類器の予測の説明として機能する。 BLAはChenらによって導入された"L2X"(Learning to explain)というインスタンスワイズ機能選択手法のいくつかの制限を克服している。 (2018):1)BLAは実世界の画像分類問題にスケールし、2)BLAは可変サイズの説明を学ぶための標準的な方法を提供する。 モジュラリティのため、BLAは学習装置の転送を自認しており、訓練された分類器のポストホックアドオンとしても使用できる。 説明可能性以外にも、BLAは部分集合選択の微分可能近似の汎用的な方法として機能する。 ユーザスタディでは、人気のある(Grad-)CAM法で生成された説明よりも、BLAの説明の方が好ましいことがわかった。

Explainable artificial intelligence is the attempt to elucidate the workings of systems too complex to be directly accessible to human cognition through suitable side-information referred to as "explanations". We present a trainable explanation module for convolutional image classifiers we call bounded logit attention (BLA). The BLA module learns to select a subset of the convolutional feature map for each input instance, which then serves as an explanation for the classifier's prediction. BLA overcomes several limitations of the instancewise feature selection method "learning to explain" (L2X) introduced by Chen et al. (2018): 1) BLA scales to real-world sized image classification problems, and 2) BLA offers a canonical way to learn explanations of variable size. Due to its modularity BLA lends itself to transfer learning setups and can also be employed as a post-hoc add-on to trained classifiers. Beyond explainability, BLA may serve as a general purpose method for differentiable approximation of subset selection. In a user study we find that BLA explanations are preferred over explanations generated by the popular (Grad-)CAM method.
翻訳日:2021-06-01 17:52:08 公開日:2021-05-31
# krotovとhopfieldの論文について [arxiv:2008.06996]

A remark on a paper of Krotov and Hopfield [arXiv:2008.06996] ( http://arxiv.org/abs/2105.15034v1 )

ライセンス: Link先を確認
Fei Tang, Michael Kopp(参考訳) 先日の論文 "large associative memory problem in neurobiology and machine learning" (arxiv:2008.06996) で著者らは、文献で議論された多くの密集した連想記憶モデルを取り戻せる生物学的に妥当な顕微鏡理論を提示した。 近年のmlp-mixer [arxiv:2105.01601] の層と [arxiv:2105.02723] の本質的に等価なモデルがこれに含まれることを示す。

In their recent paper titled "Large Associative Memory Problem in Neurobiology and Machine Learning" [arXiv:2008.06996] the authors gave a biologically plausible microscopic theory from which one can recover many dense associative memory models discussed in the literature. We show that the layers of the recent "MLP-mixer" [arXiv:2105.01601] as well as the essentially equivalent model in [arXiv:2105.02723] are amongst them.
翻訳日:2021-06-01 17:51:51 公開日:2021-05-31
# すべての画像に16×16語の価値はない:適応シーケンス長を持つダイナミックビジョントランスフォーマー

Not All Images are Worth 16x16 Words: Dynamic Vision Transformers with Adaptive Sequence Length ( http://arxiv.org/abs/2105.15075v1 )

ライセンス: Link先を確認
Yulin Wang, Rui Huang, Shiji Song, Zeyi Huang, Gao Huang(参考訳) 視覚変換器(ViT)は大規模画像認識において顕著な成功を収めた。 各2D画像を一定数のパッチに分割し、それぞれがトークンとして扱われる。 一般に、より多くのトークンで画像を表現すると予測精度が向上するが、計算コストが大幅に増加する。 精度と速度の適切なトレードオフを達成するため、トークンの数は16x16に実証的に設定される。 本稿では,各画像に独自の特徴があり,理想的には各入力にトークン番号を条件付けする必要がある,と論じる。 実際、わずか4x4トークンで正確に予測できる「容易」な画像がかなりの数存在するのに対し、「ハード」な画像のごく一部ではより微細な表現が必要とされる。 この現象に触発されて,入力画像毎に適切なトークン数を自動的に設定する動的トランスフォーマを提案する。 これは、トークン数が増加する複数のトランスフォーマーをカスケードして、テスト時に順応的にアクティベートされる、すなわち十分に確実な予測が得られたら推論を終了させることによって達成される。 さらに、冗長計算を減らすために、Dynamic Transformerの異なるコンポーネント間での効率的な機能再利用と関係再利用機構を設計する。 ImageNet, CIFAR-10, CIFAR-100の大規模な実験結果から, 提案手法は理論的計算効率と実用推論速度の両方において, 競争ベースラインを大幅に上回ることを示した。

Vision Transformers (ViT) have achieved remarkable success in large-scale image recognition. They split every 2D image into a fixed number of patches, each of which is treated as a token. Generally, representing an image with more tokens would lead to higher prediction accuracy, while it also results in drastically increased computational cost. To achieve a decent trade-off between accuracy and speed, the number of tokens is empirically set to 16x16. In this paper, we argue that every image has its own characteristics, and ideally the token number should be conditioned on each individual input. In fact, we have observed that there exist a considerable number of "easy" images which can be accurately predicted with a mere number of 4x4 tokens, while only a small fraction of "hard" ones need a finer representation. Inspired by this phenomenon, we propose a Dynamic Transformer to automatically configure a proper number of tokens for each input image. This is achieved by cascading multiple Transformers with increasing numbers of tokens, which are sequentially activated in an adaptive fashion at test time, i.e., the inference is terminated once a sufficiently confident prediction is produced. We further design efficient feature reuse and relationship reuse mechanisms across different components of the Dynamic Transformer to reduce redundant computations. Extensive empirical results on ImageNet, CIFAR-10, and CIFAR-100 demonstrate that our method significantly outperforms the competitive baselines in terms of both theoretical computational efficiency and practical inference speed.
翻訳日:2021-06-01 17:51:40 公開日:2021-05-31
# 自己教師付きコントラスト学習の特徴学習プロセス理解に向けて

Toward Understanding the Feature Learning Process of Self-supervised Contrastive Learning ( http://arxiv.org/abs/2105.15134v1 )

ライセンス: Link先を確認
Zixin Wen, Yuanzhi Li(参考訳) ラベルのないデータから、コントラスト学習によってトレーニングされたニューラルネットワークはどうやって特徴を抽出できるのか? なぜコントラスト学習は通常、優れた表現を確保するために教師付き学習よりも強力なデータ拡張を必要とするのか? これらの質問は、深層学習の最適化と統計的側面の両方を含むが、対象関数が最も追求される教師付き学習を分析することで、答えが得られない。 実際、自己教師付き学習では、ニューラルネットワークの最適化/一般化と、データの潜在構造をどのようにエンコードするかとの関連は避けられない。 本研究では,コントラスト学習がニューラルネットワークの特徴表現をどのように学習するかを,その特徴学習過程を分析して正式に研究する。 私たちは、データが2つのタイプの機能から構成されている場合を考えています: 学習したいより意味的に整合したスパース機能と、避けたい他の密集した機能です。 理論的には, 適切な拡張が適用されれば, 所望のスパース特徴を有意に学習できることが証明される。 そこで我々は, スパース特徴の相関性を保ちつつ, 正試料間の密な特徴の相関をいかに低減できるかを理論的に評価し, スパース特徴の自己超越からニューラルネットワークを学習させる, 拡張の効果を説明するための基本原理である「textbf{feature decoupling」を提案する。 実証的に,特徴分離原理は,実践における対照的な学習のメカニズムと一致していることを確認した。

How can neural networks trained by contrastive learning extract features from the unlabeled data? Why does contrastive learning usually need much stronger data augmentations than supervised learning to ensure good representations? These questions involve both the optimization and statistical aspects of deep learning, but can hardly be answered by analyzing supervised learning, where the target functions are the highest pursuit. Indeed, in self-supervised learning, it is inevitable to relate to the optimization/general ization of neural networks to how they can encode the latent structures in the data, which we refer to as the \textit{feature learning process}. In this work, we formally study how contrastive learning learns the feature representations for neural networks by analyzing its feature learning process. We consider the case where our data are comprised of two types of features: the more semantically aligned sparse features which we want to learn from, and the other dense features we want to avoid. Theoretically, we prove that contrastive learning using \textbf{ReLU} networks provably learns the desired sparse features if proper augmentations are adopted. We present an underlying principle called \textbf{feature decoupling} to explain the effects of augmentations, where we theoretically characterize how augmentations can reduce the correlations of dense features between positive samples while keeping the correlations of sparse features intact, thereby forcing the neural networks to learn from the self-supervision of sparse features. Empirically, we verified that the feature decoupling principle matches the underlying mechanism of contrastive learning in practice.
翻訳日:2021-06-01 17:50:57 公開日:2021-05-31
# シーケンス生成のための転送学習:シングルソースからマルチソースへ

Transfer Learning for Sequence Generation: from Single-source to Multi-source ( http://arxiv.org/abs/2105.14809v1 )

ライセンス: Link先を確認
Xuancheng Huang, Jingfang Xu, Maosong Sun, and Yang Liu(参考訳) マルチソースシーケンス生成(MSG)は、自動後編集、複数ソース翻訳、マルチドキュメント要約など、複数のソースを取得する重要なシーケンス生成タスクである。 MSGタスクはデータ不足に悩まされており、近年の事前学習モデルは低リソース下流タスクに有効であることが証明されているため、事前学習されたシーケンス・ツー・シーケンス・モデルからMSGタスクへ転送することが不可欠である。 msgタスクで事前学習されたモデルを直接微調整し、複数のソースを単一の長いシーケンスに連結する手法は、事前学習されたモデルをmsgタスクに転送する簡単な方法と見なされるが、直接的微調整手法が壊滅的な忘れを招き、単に訓練済みの自己完結層に頼るだけでは十分ではないと推測する。 そこで本研究では,2段階のファイントゥニング手法により,事前のファイントゥン差を緩和し,さらに,ファインエンコーダを用いた新しいMSGモデルを導入し,MSGタスクの表現性を向上する。 実験の結果,本手法はWMT17 APEタスクとWMT14テストセットを用いたマルチソース翻訳タスクにおいて,新たな最先端結果が得られることがわかった。 文書レベルの翻訳に適応すると、我々のフレームワークは強力なベースラインを著しく上回ります。

Multi-source sequence generation (MSG) is an important kind of sequence generation tasks that takes multiple sources, including automatic post-editing, multi-source translation, multi-document summarization, etc. As MSG tasks suffer from the data scarcity problem and recent pretrained models have been proven to be effective for low-resource downstream tasks, transferring pretrained sequence-to-sequence models to MSG tasks is essential. Although directly finetuning pretrained models on MSG tasks and concatenating multiple sources into a single long sequence is regarded as a simple method to transfer pretrained models to MSG tasks, we conjecture that the direct finetuning method leads to catastrophic forgetting and solely relying on pretrained self-attention layers to capture cross-source information is not sufficient. Therefore, we propose a two-stage finetuning method to alleviate the pretrain-finetune discrepancy and introduce a novel MSG model with a fine encoder to learn better representations in MSG tasks. Experiments show that our approach achieves new state-of-the-art results on the WMT17 APE task and multi-source translation task using the WMT14 test set. When adapted to document-level translation, our framework outperforms strong baselines significantly.
翻訳日:2021-06-01 17:48:58 公開日:2021-05-31
# 不均一グラフとトラッカーとの相互作用モデルによる文書レベルのイベント抽出

Document-level Event Extraction via Heterogeneous Graph-based Interaction Model with a Tracker ( http://arxiv.org/abs/2105.14924v1 )

ライセンス: Link先を確認
Runxin Xu, Tianyu Liu, Lei Li, Baobao Chang(参考訳) ドキュメントレベルのイベント抽出は、記事全体からイベント情報を認識することを目的としている。 既存の方法は、このタスクの2つの課題のために有効ではない: (a) 対象のイベント引数が文に分散している; (b) 文書内のイベント間の相関は、モデル化するのは簡単ではない。 本稿では、前述の2つの課題を解決するために、トラッカー(GIT)を用いた不均一グラフベースインタラクションモデルを提案する。 最初の課題として、GITは異種グラフ相互作用ネットワークを構築し、異なる文とエンティティの参照の間でのグローバルな相互作用をキャプチャする。 第2に、GITは、抽出されたイベントを追跡し、イベント間の相互依存性をキャプチャするトラッカーモジュールを導入した。 大規模なデータセット(Zheng et al., 2019)の実験では、GITは以前の手法を2.8 F1で上回っている。 さらに分析したところ、GITは文書に散らばる複数の相関するイベントやイベント引数を抽出するのに有効であることがわかった。 私たちのコードはhttps://github.com/R unxinXu/GITで利用可能です。

Document-level event extraction aims to recognize event information from a whole piece of article. Existing methods are not effective due to two challenges of this task: a) the target event arguments are scattered across sentences; b) the correlation among events in a document is non-trivial to model. In this paper, we propose Heterogeneous Graph-based Interaction Model with a Tracker (GIT) to solve the aforementioned two challenges. For the first challenge, GIT constructs a heterogeneous graph interaction network to capture global interactions among different sentences and entity mentions. For the second, GIT introduces a Tracker module to track the extracted events and hence capture the interdependency among the events. Experiments on a large-scale dataset (Zheng et al., 2019) show GIT outperforms the previous methods by 2.8 F1. Further analysis reveals GIT is effective in extracting multiple correlated events and event arguments that scatter across the document. Our code is available at https://github.com/R unxinXu/GIT.
翻訳日:2021-06-01 17:48:32 公開日:2021-05-31
# キャラクタリレーションのモデル化による多人数対話による物語の語り

Telling Stories through Multi-User Dialogue by Modeling Character Relations ( http://arxiv.org/abs/2105.15054v1 )

ライセンス: Link先を確認
Wai Man Si, Prithviraj Ammanabrolu, Mark O. Riedl(参考訳) 本稿では,登場人物の1対2のナレーションと対話を通じて物語が出現する物語の継続を考察し,物語のフォローと進行中に,登場人物のペルソナと他のキャラクターとの関係に整合した言語を選択するモデルを必要とする。 文字対話と文字関係情報を訓練するマルチタスクモデルが,トランスフォーマーによるストーリー継続を改善することを仮定する。 この目的のために、私たちはダンジョンズ&ドラゴンズデータセット(rameshkumar and bailey, 2020) -- ロールプレイングゲームダンジョンズ&ドラゴンズをプレイしながら、ストーリーを共同的に話す人々の対話の書き起こしで構成され、各ペアの相互作用するキャラクターとそのペルソナ間の関係を自動的に抽出する。 文字関係を用いたマルチタスクモデルでは,強いベースラインよりもストーリー継続精度が向上することが示唆された。

This paper explores character-driven story continuation, in which the story emerges through characters' first- and second-person narration as well as dialogue -- requiring models to select language that is consistent with a character's persona and their relationships with other characters while following and advancing the story. We hypothesize that a multi-task model that trains on character dialogue plus character relationship information improves transformer-based story continuation. To this end, we extend the Critical Role Dungeons and Dragons Dataset (Rameshkumar and Bailey, 2020) -- consisting of dialogue transcripts of people collaboratively telling a story while playing the role-playing game Dungeons and Dragons -- with automatically extracted relationships between each pair of interacting characters as well as their personas. A series of ablations lend evidence to our hypothesis, showing that our multi-task model using character relationships improves story continuation accuracy over strong baselines.
翻訳日:2021-06-01 17:48:18 公開日:2021-05-31
# 海底から真珠を摘む - ハイブリッドクラウドサービスのためのノイズの多いトリアーティファクトからのアーティファクト抽出

Picking Pearl From Seabed: Extracting Artefacts from Noisy Issue Triaging Collaborative Conversations for Hybrid Cloud Services ( http://arxiv.org/abs/2105.15065v1 )

ライセンス: Link先を確認
Amar Prakash Azad, Supriyo Ghosh, Ajay Gupta, Harshit Kumar and Prateeti Mohapatra(参考訳) サイトの信頼性エンジニア(SRE)は、問題の識別と解決において重要な役割を果たす。 問題が報告された後、SREは仮想ルーム(コラボレーションプラットフォーム)に集まり、問題をトリガします。 そうしている間に、同様の問題をトリアージするために後で使用できる豊富な情報を残します。 しかし、会話のユーザビリティは、i)うるさい、ii)ラベルなしであるため、課題となる。 本稿では,最小ラベル付きデータを用いたノイズの多い会話から課題成果を抽出する手法を提案する。 本稿では,最小限の介入による教師なしと教師なしのモデルの組み合わせを提案し,ドメイン知識を利用して少量の会話データに対するアーティファクトを予測し,すでに訓練済みの言語モデルを用いて大量の会話データに基づくアーティファクト予測を行う。 実験結果から,教師なしモデルと教師なしモデルのアンサンブルは,それぞれが個別に使用するよりも優れていることがわかった。

Site Reliability Engineers (SREs) play a key role in issue identification and resolution. After an issue is reported, SREs come together in a virtual room (collaboration platform) to triage the issue. While doing so, they leave behind a wealth of information which can be used later for triaging similar issues. However, usability of the conversations offer challenges due to them being i) noisy and ii) unlabelled. This paper presents a novel approach for issue artefact extraction from the noisy conversations with minimal labelled data. We propose a combination of unsupervised and supervised model with minimum human intervention that leverages domain knowledge to predict artefacts for a small amount of conversation data and use that for fine-tuning an already pretrained language model for artefact prediction on a large amount of conversation data. Experimental results on our dataset show that the proposed ensemble of unsupervised and supervised model is better than using either one of them individually.
翻訳日:2021-06-01 17:48:03 公開日:2021-05-31
# 1$\times$N Block Pattern for Network Sparsity

1$\times$N Block Pattern for Network Sparsity ( http://arxiv.org/abs/2105.14713v1 )

ライセンス: Link先を確認
Mingbao Lin, Yuchao Li, Yuxin Zhang, Bohong Chen, Fei Chao, Mengdi Wang, Shen Li, Jun Yang, Rongrong Ji(参考訳) ネットワークの分散性は、ニューラルネットワークの大幅な規模拡大を克服するための有望な方向として現れるが、一般的なCPU上での大幅なスピードアップを達成するだけでなく、モデル精度の同時維持も未解決のままである。 本稿では,この制限を破るために,ブロック間隔パターン(ブロックプルーニング)を1\times N$という新しい概念を提案する。 特に、同じ入力チャネルインデックスを持つ連続$N$出力カーネルは、1つのブロックにグループ化され、プルーニングパターンの基本的なプルーニング粒度として機能する。 われわれの$1 \times N$ sparsityパターンは、これらのブロックを重要視している。 また,最初に出力チャネル次元の重み行列を再構成し,精度向上のためにより影響力のあるブロックを導出し,入力チャネル次元の次層重みに同様の再配置を適用し,畳み込み操作を確実にするフィルタ再配置のワークフローを提供する。 さらに, 並列化されたブロックワイドベクトル化演算により, 1 ドルブロック間隔後の出力計算を実現し, 一般的な CPU ベースのプラットフォーム上での大幅な高速化を実現した。 プルーニングパターンの有効性は,ilsvrc-2012実験により実証された。 例えば、50%の間隔と$N=4$の場合、MobileNet-V2の上位1の精度でフィルタプルーニングよりも約3.0%改善する。 一方、重量プルーニングよりもcortex-a7 cpuの56.04msの推論節約が得られる。 コードはhttps://github.com/l mbxmu/1xn。

Though network sparsity emerges as a promising direction to overcome the drastically increasing size of neural networks, it remains an open problem to concurrently maintain model accuracy as well as achieve significant speedups on general CPUs. In this paper, we propose one novel concept of $1\times N$ block sparsity pattern (block pruning) to break this limitation. In particular, consecutive $N$ output kernels with the same input channel index are grouped into one block, which serves as a basic pruning granularity of our pruning pattern. Our $1 \times N$ sparsity pattern prunes these blocks considered unimportant. We also provide a workflow of filter rearrangement that first rearranges the weight matrix in the output channel dimension to derive more influential blocks for accuracy improvements, and then applies similar rearrangement to the next-layer weights in the input channel dimension to ensure correct convolutional operations. Moreover, the output computation after our $1 \times N$ block sparsity can be realized via a parallelized block-wise vectorized operation, leading to significant speedups on general CPUs-based platforms. The efficacy of our pruning pattern is proved with experiments on ILSVRC-2012. For example, in the case of 50% sparsity and $N=4$, our pattern obtains about 3.0% improvements over filter pruning in the top-1 accuracy of MobileNet-V2. Meanwhile, it obtains 56.04ms inference savings on Cortex-A7 CPU over weight pruning. Code is available at https://github.com/l mbxmu/1xN.
翻訳日:2021-06-01 17:45:51 公開日:2021-05-31
# 完全双曲型ニューラルネットワーク

Fully Hyperbolic Neural Networks ( http://arxiv.org/abs/2105.14686v1 )

ライセンス: Link先を確認
Weize Chen, Xu Han, Yankai Lin, Hexu Zhao, Zhiyuan Liu, Peng Li, Maosong Sun, Jie Zhou(参考訳) 双曲型ニューラルネットワークは複雑なデータをモデル化する大きな可能性を示している。 しかし、既存の双曲型ネットワークは完全に双曲型ではない、なぜならそれらは双曲型空間における特徴を符号化するが、双曲型空間の起源である接空間(ユークリッド部分空間)におけるそれらの操作のほとんどを形式化するからである。 このハイブリッド手法はネットワークのモデリング能力を著しく制限する。 本稿では,ロレンツ変換(ブーストとローテーションを含む)をニューラルネットワークの基本動作に適合させることにより,ロレンツモデルに基づく双曲型ネットワークを構築するための完全双曲型フレームワークを提案する。 さらに、既存の双曲的ネットワークで使われる接空間における線型変換はローレンツ回転の緩和であり、既存の双曲的ネットワークの能力に暗黙的に制限されたブーストを含まないことも証明する。 4つのnlpタスクの実験結果から,浅層ネットワークと深層ネットワークの両方を構築する際の性能が向上した。 私たちのコードはフォローアップリサーチを促進するためにリリースされます。

Hyperbolic neural networks have shown great potential for modeling complex data. However, existing hyperbolic networks are not completely hyperbolic, as they encode features in a hyperbolic space yet formalize most of their operations in the tangent space (a Euclidean subspace) at the origin of the hyperbolic space. This hybrid method greatly limits the modeling ability of networks. In this paper, we propose a fully hyperbolic framework to build hyperbolic networks based on the Lorentz model by adapting the Lorentz transformations (including boost and rotation) to formalize essential operations of neural networks. Moreover, we also prove that linear transformation in tangent spaces used by existing hyperbolic networks is a relaxation of the Lorentz rotation and does not include the boost, implicitly limiting the capabilities of existing hyperbolic networks. The experimental results on four NLP tasks show that our method has better performance for building both shallow and deep networks. Our code will be released to facilitate follow-up research.
翻訳日:2021-06-01 17:44:23 公開日:2021-05-31
# 文書レベル機械翻訳用g変換器

G-Transformer for Document-level Machine Translation ( http://arxiv.org/abs/2105.14761v1 )

ライセンス: Link先を確認
Guangsheng Bao, Yue Zhang, Zhiyang Teng, Boxing Chen and Weihua Luo(参考訳) 文書レベルのMTモデルは、まだ満足には程遠い。 既存の作業は翻訳単位を単一文から複数文に拡張する。 しかし,本研究では,翻訳ユニットを文書全体へ拡張すると,トランスフォーマーの教師あり訓練が失敗することを示した。 本稿では,このような失敗は過剰フィッティングによるものではなく,訓練中の局所ミニマの周囲に付着することによるものである。 分析の結果、ターゲットからソースへの注意の複雑さが増加することが失敗の原因であることが判明した。 そこで本稿では,g-transformerを提案する。局所性仮定を変圧器への帰納バイアスとして導入し,対象からソースへの注意の仮説空間を減少させる。 実験の結果、G-TransformerはTransformerよりも高速で安定して収束し、3つのベンチマークデータセットの非事前学習と事前学習の両方のために、最先端のBLEUスコアを新たに達成した。

Document-level MT models are still far from satisfactory. Existing work extend translation unit from single sentence to multiple sentences. However, study shows that when we further enlarge the translation unit to a whole document, supervised training of Transformer can fail. In this paper, we find such failure is not caused by overfitting, but by sticking around local minima during training. Our analysis shows that the increased complexity of target-to-source attention is a reason for the failure. As a solution, we propose G-Transformer, introducing locality assumption as an inductive bias into Transformer, reducing the hypothesis space of the attention from target to source. Experiments show that G-Transformer converges faster and more stably than Transformer, achieving new state-of-the-art BLEU scores for both non-pretraining and pre-training settings on three benchmark datasets.
翻訳日:2021-06-01 17:44:05 公開日:2021-05-31
# 抽象テキスト要約のための強化生成逆数ネットワーク

Reinforced Generative Adversarial Network for Abstractive Text Summarization ( http://arxiv.org/abs/2105.15176v1 )

ライセンス: Link先を確認
Tianyang Xu, Chunyun Zhang(参考訳) sequence-to-sequence モデルは生成要約に対して実行可能な新しいアプローチを提供する。 しかし、これらのモデルには3つの欠点があり、原文の詳細把握はしばしば不正確であり、そのようなモデルによって生成されたテキストには繰り返しがあるが、単語のリストを超えた単語を扱うのは困難である。 本稿では,系列間アテンションモデルを強化するために,強化学習と逆生成ネットワークを組み合わせた新しいアーキテクチャを提案する。 まず,テキストから直接単語をコピーするハイブリッドポインタ・ジェネレータネットワークを用い,生成者が新たな単語を生成する能力を犠牲にすることなく,正確な情報の再生に寄与する。 第2に,時間内およびデコーダ内の両方の注意を,要約内容のペナルティ化と繰り返しの回避に用いた。 提案した論文の要約タスクに本モデルを適用し,ROUEGの現行モデルに近づき,可読性の向上を実現した。

Sequence-to-sequence models provide a viable new approach to generative summarization, allowing models that are no longer limited to simply selecting and recombining sentences from the original text. However, these models have three drawbacks: their grasp of the details of the original text is often inaccurate, and the text generated by such models often has repetitions, while it is difficult to handle words that are beyond the word list. In this paper, we propose a new architecture that combines reinforcement learning and adversarial generative networks to enhance the sequence-to-sequence attention model. First, we use a hybrid pointer-generator network that copies words directly from the source text, contributing to accurate reproduction of information without sacrificing the ability of generators to generate new words. Second, we use both intra-temporal and intra-decoder attention to penalize summarized content and thus discourage repetition. We apply our model to our own proposed COVID-19 paper title summarization task and achieve close approximations to the current model on ROUEG, while bringing better readability.
翻訳日:2021-06-01 17:43:48 公開日:2021-05-31
# 安定部分表現学習による効率的な階層探索

Efficient Hierarchical Exploration with Stable Subgoal Representation Learning ( http://arxiv.org/abs/2105.14750v1 )

ライセンス: Link先を確認
Siyuan Li, Jin Zhang, Jianhao Wang, Chongjie Zhang(参考訳) 目標条件付き階層型強化学習(HRL)は、複雑で時間的に拡張されたタスクを解決するためのアプローチとして成功している。 近年、その成功は階層的なポリシーと下位表現を同時に学習することで、より一般的な設定にまで拡張されている。 しかし、オンラインサブゴナル表現学習はHRLの非定常問題を悪化させ、高レベルの政策学習における探索の課題を提起する。 本稿では,探索状態の少ない領域での表現更新を可能にしつつ,探索された領域でのサブゴール埋め込みを安定化する状態固有正規化を提案する。 この安定表現の恩恵を受け、新しさと潜在可能性の尺度を設計し、新しい有望なサブゴールと状態を積極的に探究する効率的な階層的探索戦略を開発する。 実験結果から,本手法は,疎度な報酬を伴う連続制御タスクにおける最先端のベースラインを著しく上回り,より優れた政策学習を促進するサブゴラル表現学習の安定性と効率性を示す。

Goal-conditioned hierarchical reinforcement learning (HRL) serves as a successful approach to solving complex and temporally extended tasks. Recently, its success has been extended to more general settings by concurrently learning hierarchical policies and subgoal representations. However, online subgoal representation learning exacerbates the non-stationary issue of HRL and introduces challenges for exploration in high-level policy learning. In this paper, we propose a state-specific regularization that stabilizes subgoal embeddings in well-explored areas while allowing representation updates in less explored state regions. Benefiting from this stable representation, we design measures of novelty and potential for subgoals, and develop an efficient hierarchical exploration strategy that actively seeks out new promising subgoals and states. Experimental results show that our method significantly outperforms state-of-the-art baselines in continuous control tasks with sparse rewards and further demonstrate the stability and efficiency of the subgoal representation learning of this work, which promotes superior policy learning.
翻訳日:2021-06-01 17:43:30 公開日:2021-05-31
# ツリーセンブルモデル解釈可能性に対する厳密な反実例に基づくアプローチ

An exact counterfactual-examp le-based approach to tree-ensemble models interpretability ( http://arxiv.org/abs/2105.14820v1 )

ライセンス: Link先を確認
Pierre Blanchart(参考訳) 機械学習モデルの決定を説明することは、MLモデルの決定に対する信頼が認定/承認の鍵となる多くの領域で必要となっている。 モデル決定を説明する能力は、モデル決定に加えて診断を提供することもできる。 残念ながら、高性能モデルは、決定を完全に理解するために必要な透明性を示していません。 そして、こうしたモデル決定を説明するために使用されるブラックボックスアプローチは、与えられた入力に関するモデル決定の正確な原因を追跡する精度の欠如に苦しんでいる。 実際、彼らは入力を取り巻くモデルの決定領域を明示的に記述する能力を持っていません。 幾何学的特徴化を用いて入力特徴空間における決定領域を明確かつ正確に特徴づけることのできる、現在使用されているモデルのうち、高性能モデルのカテゴリは存在するか? 驚くべきことに、私たちは、xgboost、lightgbm、ランダムフォレストなど、幅広い高性能モデルを含むツリーアンサンブルモデルのカテゴリに入る任意のモデルに対して、肯定的な答えを導き出しました。 この特徴付けにより、クエリポイントに関連する最適な反事実(CF)の例を簡単に計算できる。 CFの例を、機能のサブセットのみに基づいて計算するなど、このアプローチのいくつかの可能性を示す。 これにより、ユーザが制御できる変数に関する事前知識を追加することで、より妥当な説明を得ることができる。 回帰問題に対するCF推論への適応についても検討する。

Explaining the decisions of machine learning models is becoming a necessity in many areas where trust in ML models decision is key to their accreditation/adopti on. The ability to explain models decisions also allows to provide diagnosis in addition to the model decision, which is highly valuable in scenarios such as fault detection. Unfortunately, high-performance models do not exhibit the necessary transparency to make their decisions fully understandable. And the black-boxes approaches, which are used to explain such model decisions, suffer from a lack of accuracy in tracing back the exact cause of a model decision regarding a given input. Indeed, they do not have the ability to explicitly describe the decision regions of the model around that input, which is necessary to determine what influences the model towards one decision or the other. We thus asked ourselves the question: is there a category of high-performance models among the ones currently used for which we could explicitly and exactly characterise the decision regions in the input feature space using a geometrical characterisation? Surprisingly we came out with a positive answer for any model that enters the category of tree ensemble models, which encompasses a wide range of high-performance models such as XGBoost, LightGBM, random forests ... We could derive an exact geometrical characterisation of their decision regions under the form of a collection of multidimensional intervals. This characterisation makes it straightforward to compute the optimal counterfactual (CF) example associated with a query point. We demonstrate several possibilities of the approach, such as computing the CF example based only on a subset of features. This allows to obtain more plausible explanations by adding prior knowledge about which variables the user can control. An adaptation to CF reasoning on regression problems is also envisaged.
翻訳日:2021-06-01 17:43:16 公開日:2021-05-31
# DisSECT:コンセプトトラバーサルによる同時説明の切り離し

DISSECT: Disentangled Simultaneous Explanations via Concept Traversals ( http://arxiv.org/abs/2105.15164v1 )

ライセンス: Link先を確認
Asma Ghandeharioun, Been Kim, Chun-Liang Li, Brendan Jou, Brian Eoff, Rosalind W. Picard(参考訳) 深層学習モデルの推論は、科学的理解、安全性の向上、隠れたバイアスの解明、公平性の評価など、多くの学者が主張するように、有望な場所である。 反事実的説明の主な利点の1つは、ユーザーがデータに存在しないもの、存在しないもの、ヒートマップやインフルエンサー関数のような他の多くの形態の説明が本質的にできない品質を通じて、"what-if"シナリオを探求することを可能にすることである。 しかし、生成的説明可能性に関するほとんどの以前の研究は、重要な概念を効果的に切り離すことはできず、非現実的な例を生み出したり、関連する情報を保持できない。 本研究では, 発電機, 判別器, 概念分割器を共同で訓練し, 少ない監督でこれらの課題を克服する新しい手法であるdissectを提案する。 DISSECTは、分類器の決定に影響を及ぼす概念の度合いを増した生成例の列として定義される概念トラバーサル(CT)を生成する。 分類器の信号から生成モデルを訓練することで、dissectは、ユーザ定義の概念に頼るのではなく、分類器固有の異なる概念の"notion"を自動で発見する方法を提供する。 我々は,(1)複数の概念を分解し,(2)分類者の判断に影響を及ぼし,(3)共同学習による推論に結びついていること,(4)関連情報を保存していること,(5)類似の入力に対して安定であること,などをCTで示している。 我々は,従来の手法が解釈可能性の望ましい基準を満たしていないような,難易度の高い合成および現実的なデータセットに対して,DisdisSECTを検証する。 最後に,分類器の潜在的なバイアスの検出と予測に影響を与えるスプリアスアーティファクトの同定にdissectの適用性を示す実験を行った。

Explaining deep learning model inferences is a promising venue for scientific understanding, improving safety, uncovering hidden biases, evaluating fairness, and beyond, as argued by many scholars. One of the principal benefits of counterfactual explanations is allowing users to explore "what-if" scenarios through what does not and cannot exist in the data, a quality that many other forms of explanation such as heatmaps and influence functions are inherently incapable of doing. However, most previous work on generative explainability cannot disentangle important concepts effectively, produces unrealistic examples, or fails to retain relevant information. We propose a novel approach, DISSECT, that jointly trains a generator, a discriminator, and a concept disentangler to overcome such challenges using little supervision. DISSECT generates Concept Traversals (CTs), defined as a sequence of generated examples with increasing degrees of concepts that influence a classifier's decision. By training a generative model from a classifier's signal, DISSECT offers a way to discover a classifier's inherent "notion" of distinct concepts automatically rather than rely on user-predefined concepts. We show that DISSECT produces CTs that (1) disentangle several concepts, (2) are influential to a classifier's decision and are coupled to its reasoning due to joint training (3), are realistic, (4) preserve relevant information, and (5) are stable across similar inputs. We validate DISSECT on several challenging synthetic and realistic datasets where previous methods fall short of satisfying desirable criteria for interpretability and show that it performs consistently well and better than existing methods. Finally, we present experiments showing applications of DISSECT for detecting potential biases of a classifier and identifying spurious artifacts that impact predictions.
翻訳日:2021-06-01 17:42:51 公開日:2021-05-31
# 介入による連続時間ベイズネットワークのアクティブラーニング

Active Learning of Continuous-time Bayesian Networks through Interventions ( http://arxiv.org/abs/2105.14742v1 )

ライセンス: Link先を確認
Dominik Linzner and Heinz Koeppl(参考訳) 最小限の実験資源下での時間軸データから連続時間ベイズネットワーク(CTBN)の学習構造とパラメータを考察する。 実際に、実験データを生成するコストは、特に自然科学や社会科学においてボトルネックとなる。 これを克服するための一般的なアプローチはベイズ最適実験設計(BOED)である。 しかし、BOEDはすべての実験結果の統合を含むため、高次元設定では実現不可能となる。 本稿では,期待情報ゲインの変動近似に基づく実験設計の新しい基準を提案する。 ctbnsでは、構造とパラメータ学習のために、この基準に対する半解析式を計算できることを示す。 これにより、スケーラブルな近似が存在するCTBNのマスター方程式を解くことで、実験結果よりもサンプリングを置き換えることができる。 これにより、高次元における実験結果のサンプリングの計算負担が軽減される。 我々はこの枠組みを用いて介入シーケンスを推薦する。 本稿では,CTBNモデルを条件付きCTBNに拡張し,介入を取り入れる。 合成および実世界のデータに対する評価基準の性能を実証する。

We consider the problem of learning structures and parameters of Continuous-time Bayesian Networks (CTBNs) from time-course data under minimal experimental resources. In practice, the cost of generating experimental data poses a bottleneck, especially in the natural and social sciences. A popular approach to overcome this is Bayesian optimal experimental design (BOED). However, BOED becomes infeasible in high-dimensional settings, as it involves integration over all possible experimental outcomes. We propose a novel criterion for experimental design based on a variational approximation of the expected information gain. We show that for CTBNs, a semi-analytical expression for this criterion can be calculated for structure and parameter learning. By doing so, we can replace sampling over experimental outcomes by solving the CTBNs master-equation, for which scalable approximations exist. This alleviates the computational burden of sampling possible experimental outcomes in high-dimensions. We employ this framework in order to recommend interventional sequences. In this context, we extend the CTBN model to conditional CTBNs in order to incorporate interventions. We demonstrate the performance of our criterion on synthetic and real-world data.
翻訳日:2021-06-01 17:40:17 公開日:2021-05-31
# ランダム化による高速・高精度・解釈可能な時系列分類

Fast, Accurate and Interpretable Time Series Classification Through Randomization ( http://arxiv.org/abs/2105.14876v1 )

ライセンス: Link先を確認
Nestor Cabello, Elham Naghizade, Jianzhong Qi, Lars Kulik(参考訳) 時系列分類(TSC)は、特定の時系列のクラスラベルを予測することを目的としており、経済学や医学などの応用分野の豊富なセットにとって重要なものである。 最先端のtsc法は主に分類精度と効率に重点を置いており、分類の解釈可能性を考慮していない。 このギャップに対処するため, ランダム化された時系列フォレスト (r-STSF) を新たに提案する。 r-STSFは非常に効率的で、最先端の分類精度を実現し、解釈可能である。 r-STSFは、識別サブシリーズ(インターバル)の集約値に従って時系列を分類する効率的な間隔ベースのアプローチをとる。 最先端の精度を達成するため、r-STSFは識別サブシリーズを用いてランダム化された木々のアンサンブルを構築する。 4つの時系列表現、9つの集約関数、教師付きバイナリインスパイアされた検索と特徴ランキングの指標を組み合わせて、高度に差別的なサブシリーズを識別する。 識別サブシリーズは解釈可能な分類を可能にする。 広範なデータセットの実験では、r-STSFは最先端の精度を達成し、既存のTSC法よりも桁違いに高速であることが示された。 これは、解釈可能性を実現する最先端グループからの唯一の分類器である。 また, 複雑な時系列データセットの分類において, r-STSF が最適であることを示す。

Time series classification (TSC) aims to predict the class label of a given time series, which is critical to a rich set of application areas such as economics and medicine. State-of-the-art TSC methods have mostly focused on classification accuracy and efficiency, without considering the interpretability of their classifications, which is an important property required by modern applications such as appliance modeling and legislation such as the European General Data Protection Regulation. To address this gap, we propose a novel TSC method - the Randomized-Supervise d Time Series Forest (r-STSF). r-STSF is highly efficient, achieves state-of-the-art classification accuracy and enables interpretability. r-STSF takes an efficient interval-based approach to classify time series according to aggregate values of discriminatory sub-series (intervals). To achieve state-of-the-art accuracy, r-STSF builds an ensemble of randomized trees using the discriminatory sub-series. It uses four time series representations, nine aggregation functions and a supervised binary-inspired search combined with a feature ranking metric to identify highly discriminatory sub-series. The discriminatory sub-series enable interpretable classifications. Experiments on extensive datasets show that r-STSF achieves state-of-the-art accuracy while being orders of magnitude faster than most existing TSC methods. It is the only classifier from the state-of-the-art group that enables interpretability. Our findings also highlight that r-STSF is the best TSC method when classifying complex time series datasets.
翻訳日:2021-06-01 17:40:05 公開日:2021-05-31
# 線形予測関数を超えた表現学習

Representation Learning Beyond Linear Prediction Functions ( http://arxiv.org/abs/2105.14989v1 )

ライセンス: Link先を確認
Ziping Xu and Ambuj Tewari(参考訳) 表現学習の理論に関する近年の論文は,対象タスクの集合から対象タスクへの一般化において,多様性と呼ばれる量の重要性を示している。 これらの論文のほとんどは、共有表現を予測にマッピングする関数は、ソースとターゲットの両方のタスクに対して線形である、と仮定している。 実際には、ディープラーニングの研究者は、新しいタスクの難易度に基づいて、事前訓練されたモデルに従って異なる数の余分なレイヤーを使用する。 これにより、ソースタスクと対象タスクが線形関数以外の異なる予測関数空間を使用する場合、多様性が達成できるかどうかを問うことができる。 対象とするタスクが複数のレイヤを持つニューラルネットワークを使用していても,ソースタスクが線形関数を使用する限り,多様性が持続することを示す。 ソースタスクが非線形予測関数を使用する場合、ReLuアクティベーション関数を持つディープ1ニューラルネットワークは、多様性を達成するために指数関数的に多くのソースタスクを必要とすることを示す。 一般関数クラスの場合、エローダ次元は多様性に必要なタスクの数に低い境界を与える。 我々の理論的結果は、より単純なタスクがより一般化されることを示唆している。 我々の理論結果は、経験的リスクのグローバル最小化に寄与するが、その定性予測は、深層ニューラルネットワークのシミュレーションで検証されたように、勾配に基づく最適化アルゴリズムにはまだ当てはまる。

Recent papers on the theory of representation learning has shown the importance of a quantity called diversity when generalizing from a set of source tasks to a target task. Most of these papers assume that the function mapping shared representations to predictions is linear, for both source and target tasks. In practice, researchers in deep learning use different numbers of extra layers following the pretrained model based on the difficulty of the new task. This motivates us to ask whether diversity can be achieved when source tasks and the target task use different prediction function spaces beyond linear functions. We show that diversity holds even if the target task uses a neural network with multiple layers, as long as source tasks use linear functions. If source tasks use nonlinear prediction functions, we provide a negative result by showing that depth-1 neural networks with ReLu activation function need exponentially many source tasks to achieve diversity. For a general function class, we find that eluder dimension gives a lower bound on the number of tasks required for diversity. Our theoretical results imply that simpler tasks generalize better. Though our theoretical results are shown for the global minimizer of empirical risks, their qualitative predictions still hold true for gradient-based optimization algorithms as verified by our simulations on deep neural networks.
翻訳日:2021-06-01 17:39:45 公開日:2021-05-31
# 特徴リプレイとスローラーニングによるドメイン不変オブジェクト検出の高速化

Training Domain-invariant Object Detector Faster with Feature Replay and Slow Learner ( http://arxiv.org/abs/2105.14693v1 )

ライセンス: Link先を確認
Chaehyeon Lee, Junghoon Seo, Heechul Jung(参考訳) リモートセンシング領域における深層学習に基づくオブジェクト検出では、予測変数に影響を与えることなく観察された変数に影響を与えるニュアンス因子がしばしば重要となる。 これまで、ニュアサンス因子の知識を持つドメイン不変特徴抽出器を構築するために、ニュアサンス不等角化特徴変換(ndft)が提案されてきた。 しかし、NDFTはトレーニングフェーズで膨大な時間を必要とするため、実用的ではない。 本稿では,NDFTの改良であるA-NDFTを提案する。 A-NDFTは2つのアクセラレーション技術、フィーチャリプレイとスローラーナーを利用している。 その結果、大規模uavdtベンチマークでは、性能を維持しながらndftのトレーニング時間を31時間から3時間に短縮できることが示されている。 コードはオンラインで公開されている。

In deep learning-based object detection on remote sensing domain, nuisance factors, which affect observed variables while not affecting predictor variables, often matters because they cause domain changes. Previously, nuisance disentangled feature transformation (NDFT) was proposed to build domain-invariant feature extractor with with knowledge of nuisance factors. However, NDFT requires enormous time in a training phase, so it has been impractical. In this paper, we introduce our proposed method, A-NDFT, which is an improvement to NDFT. A-NDFT utilizes two acceleration techniques, feature replay and slow learner. Consequently, on a large-scale UAVDT benchmark, it is shown that our framework can reduce the training time of NDFT from 31 hours to 3 hours while still maintaining the performance. The code will be made publicly available online.
翻訳日:2021-06-01 17:39:08 公開日:2021-05-31
# SN-Graph: 分類のためのミニマリスト3Dオブジェクト表現

SN-Graph: a Minimalist 3D Object Representation for Classification ( http://arxiv.org/abs/2105.14784v1 )

ライセンス: Link先を確認
Siyu Zhang, Hui Cao, Yuqi Liu, Shen Cai, Yanting Zhang, Yuanzhan Li, Xiaoyu Chi(参考訳) ディープラーニング技術を使って3dオブジェクトを処理することで、多くの成功を収めた。 しかし、ポイントクラウドやボクセル、マルチビュー画像といった従来の表現よりも、特定のタスクに効果的である3Dオブジェクトの表現に焦点を当てる手法はほとんどない。 本稿では,3次元オブジェクトを表現するためのSphere Node Graph (SN-Graph)を提案する。 具体的には、署名された距離場(SDF)から特定の内部球体(ノードとして)を抽出し、その後、球体ノード間の接続(エッジとして)を確立してグラフを構築し、グラフニューラルネットワーク(GNN)を用いた3次元解析にシームレスに適合する。 ModelNet40データセットで行った実験によると、グラフにノードが少ない場合やテスト対象が任意に回転する場合、SN-Graphの分類精度は最先端の手法よりもかなり高い。

Using deep learning techniques to process 3D objects has achieved many successes. However, few methods focus on the representation of 3D objects, which could be more effective for specific tasks than traditional representations, such as point clouds, voxels, and multi-view images. In this paper, we propose a Sphere Node Graph (SN-Graph) to represent 3D objects. Specifically, we extract a certain number of internal spheres (as nodes) from the signed distance field (SDF), and then establish connections (as edges) among the sphere nodes to construct a graph, which is seamlessly suitable for 3D analysis using graph neural network (GNN). Experiments conducted on the ModelNet40 dataset show that when there are fewer nodes in the graph or the tested objects are rotated arbitrarily, the classification accuracy of SN-Graph is significantly higher than the state-of-the-art methods.
翻訳日:2021-06-01 17:38:54 公開日:2021-05-31
# MLPがCNNにキャッチアップできるのか?

Can Attention Enable MLPs To Catch Up With CNNs? ( http://arxiv.org/abs/2105.15078v1 )

ライセンス: Link先を確認
Meng-Hao Guo, Zheng-Ning Liu, Tai-Jiang Mu, Dun Liang, Ralph R. Martin and Shi-Min Hu(参考訳) 2021年5月の第1週、Google、Tsinghua University、Oxford University、Facebookの研究者がarXiv.orgに関する最新の研究 [16, 7, 12, 17]をほぼ同時に公開し、それぞれが線形層を中心とした新しい学習アーキテクチャを提案している。 このことは、学界と産業界の両方で、MLPが十分であるかどうか、多くの学習アーキテクチャがMLPに回帰している、という議論や議論を引き起こした。 これは本当ですか? この観点からは、多層パーセプトロン(mlps)、畳み込みニューラルネットワーク(cnns)、トランスフォーマーなど、学習アーキテクチャの簡単な歴史を示す。 次に,新たに提案された4つのアーキテクチャの共通点を検討する。 最後に、新しい学習アーキテクチャの課題と方向性について、将来の研究を刺激したいと考えています。

In the first week of May, 2021, researchers from four different institutions: Google, Tsinghua University, Oxford University and Facebook, shared their latest work [16, 7, 12, 17] on arXiv.org almost at the same time, each proposing new learning architectures, consisting mainly of linear layers, claiming them to be comparable, or even superior to convolutional-based models. This sparked immediate discussion and debate in both academic and industrial communities as to whether MLPs are sufficient, many thinking that learning architectures are returning to MLPs. Is this true? In this perspective, we give a brief history of learning architectures, including multilayer perceptrons (MLPs), convolutional neural networks (CNNs) and transformers. We then examine what the four newly proposed architectures have in common. Finally, we give our views on challenges and directions for new learning architectures, hoping to inspire future research.
翻訳日:2021-06-01 17:38:40 公開日:2021-05-31
# MSG-Transformer:メッセンジャートークンの操作による地域空間情報の交換

MSG-Transformer: Exchanging Local Spatial Information by Manipulating Messenger Tokens ( http://arxiv.org/abs/2105.15168v1 )

ライセンス: Link先を確認
Jiemin Fang, Lingxi Xie, Xinggang Wang, Xiaopeng Zhang, Wenyu Liu, Qi Tian(参考訳) トランスフォーマーは、視覚認識のためのニューラルネットワークを設計する新しい手法を提供している。 畳み込みネットワークと比較すると、トランスフォーマーは各ステージでグローバルな特徴を参照できるが、アテンションモジュールは高い計算オーバーヘッドをもたらし、高い解像度の視覚データを処理するためのトランスフォーマーの適用を妨げている。 本稿では,効率性と柔軟性の対立を軽減することを目的として,メッセンジャー(MSG)として機能する各領域に特化トークンを提案する。 したがって、これらのMSGトークンを操作することで、領域間で柔軟に視覚情報を交換することができ、計算複雑性を低減できる。 次に、MSGトークンをMSG-Transformerというマルチスケールアーキテクチャに統合する。 標準画像分類とオブジェクト検出では、MSG-Transformerは競合性能を実現し、GPUとCPUの両方での推論が高速化される。 コードはhttps://github.com/h ustvl/MSG-Transforme r.comから入手できる。

Transformers have offered a new methodology of designing neural networks for visual recognition. Compared to convolutional networks, Transformers enjoy the ability of referring to global features at each stage, yet the attention module brings higher computational overhead that obstructs the application of Transformers to process high-resolution visual data. This paper aims to alleviate the conflict between efficiency and flexibility, for which we propose a specialized token for each region that serves as a messenger (MSG). Hence, by manipulating these MSG tokens, one can flexibly exchange visual information across regions and the computational complexity is reduced. We then integrate the MSG token into a multi-scale architecture named MSG-Transformer. In standard image classification and object detection, MSG-Transformer achieves competitive performance and the inference on both GPU and CPU is accelerated. The code will be available at https://github.com/h ustvl/MSG-Transforme r.
翻訳日:2021-06-01 17:38:21 公開日:2021-05-31
# SegFormer: トランスフォーマーを用いたセマンティックセグメンテーションのシンプルで効率的な設計

SegFormer: Simple and Efficient Design for Semantic Segmentation with Transformers ( http://arxiv.org/abs/2105.15203v1 )

ライセンス: Link先を確認
Enze Xie, Wenhai Wang, Zhiding Yu, Anima Anandkumar, Jose M. Alvarez, Ping Luo(参考訳) SegFormerはシンプルで効率的で強力なセマンティックセマンティックセマンティクスフレームワークで、トランスフォーマーを軽量多層認識(MLP)デコーダと統合する。 segformerには2つの魅力的な特徴がある: 1) segformerは、マルチスケールな特徴を出力する、新しい階層的構造化トランスフォーマエンコーダを含んでいる。 位置符号化は不要で、テスト解像度がトレーニングと異なる場合、パフォーマンスが低下する位置符号の補間を避けることができる。 2) SegFormerは複雑なデコーダを避ける。 提案したMLPデコーダは,異なるレイヤからの情報を集約し,局所的な注意とグローバルな注意を組み合わせ,強力な表現を描画する。 このシンプルで軽量な設計がトランスフォーマーの効率的なセグメンテーションの鍵であることを示す。 segformer-b0 から segformer-b5 までの一連のモデルを取得するために、我々のアプローチをスケールアップし、以前のモデルよりもはるかに優れたパフォーマンスと効率に到達しました。 例えば、SegFormer-B4 は 64M パラメータを持つADE20K 上で 50.3% mIoU を達成する。 私たちの最高のモデルであるSegFormer-B5は、Cityscapesバリデーションセットで84.0% mIoUを獲得し、Cityscapes-Cで優れたゼロショットロバスト性を示している。

We present SegFormer, a simple, efficient yet powerful semantic segmentation framework which unifies Transformers with lightweight multilayer perception (MLP) decoders. SegFormer has two appealing features: 1) SegFormer comprises a novel hierarchically structured Transformer encoder which outputs multiscale features. It does not need positional encoding, thereby avoiding the interpolation of positional codes which leads to decreased performance when the testing resolution differs from training. 2) SegFormer avoids complex decoders. The proposed MLP decoder aggregates information from different layers, and thus combining both local attention and global attention to render powerful representations. We show that this simple and lightweight design is the key to efficient segmentation on Transformers. We scale our approach up to obtain a series of models from SegFormer-B0 to SegFormer-B5, reaching significantly better performance and efficiency than previous counterparts. For example, SegFormer-B4 achieves 50.3% mIoU on ADE20K with 64M parameters, being 5x smaller and 2.2% better than the previous best method. Our best model, SegFormer-B5, achieves 84.0% mIoU on Cityscapes validation set and shows excellent zero-shot robustness on Cityscapes-C. Code will be released at: github.com/NVlabs/Se gFormer.
翻訳日:2021-06-01 17:38:07 公開日:2021-05-31
# コンピュータビジョンと深層学習に基づく健康安全のためのスコーピオン検出・分類システム

Scorpion detection and classification systems based on computer vision and deep learning for health security purposes ( http://arxiv.org/abs/2105.15041v1 )

ライセンス: Link先を確認
Francisco Luis Giambelluca, Marcelo A. Cappelletti, Jorge Osio, Luis A. Giambelluca(参考訳) 本稿では,la plata city (argentina) で発見された2属スコーピオンの検出と分類を行うための,コンピュータビジョンと深層学習技術を用いて,2つの新しい自動およびリアルタイムシステムを開発した。 オブジェクト検出技術は、スコーピオンの形状特性に基づいて、yolo (you only look once) とmobilenetという2つの異なる方法で実装された。 88%と91%の高精度な値、90%と97%の高速なリコール値が両モデルでそれぞれ達成されており、スコーピオンの検出に成功している。 さらに、MobileNet法は、制御されていない環境下でスコーピオンを検出し、複数の検出を行うのに優れた性能を示した。 画像分類には、危険なスコーピオン (tityus) と危険なスコーピオン (bothriurus) の区別に成功し、健康安全ツールの提供を目的としたmobilenetモデルも使用された。 スマートフォンのアプリケーションは、緊急サービスや生物学的研究のための支援ツールとして使用できるシステムの可搬性を利用して開発された。 開発したシステムは、他の属やスコーピオン種に容易に拡張でき、これらの用途が使用可能な領域を拡張することができる。

In this paper, two novel automatic and real-time systems for the detection and classification of two genera of scorpions found in La Plata city (Argentina) were developed using computer vision and deep learning techniques. The object detection technique was implemented with two different methods, YOLO (You Only Look Once) and MobileNet, based on the shape features of the scorpions. High accuracy values of 88% and 91%, and high recall values of 90% and 97%, have been achieved for both models, respectively, which guarantees that they can successfully detect scorpions. In addition, the MobileNet method has been shown to have excellent performance to detect scorpions within an uncontrolled environment and to perform multiple detections. The MobileNet model was also used for image classification in order to successfully distinguish between dangerous scorpion (Tityus) and non-dangerous scorpion (Bothriurus) with the purpose of providing a health security tool. Applications for smartphones were developed, with the advantage of the portability of the systems, which can be used as a help tool for emergency services, or for biological research purposes. The developed systems can be easily scalable to other genera and species of scorpions to extend the region where these applications can be used.
翻訳日:2021-06-01 17:37:40 公開日:2021-05-31
# ドメイン適応型クラウドソーシング学習--名前付きエンティティ認識を事例として

Crowdsourcing Learning as Domain Adaptation: A Case Study on Named Entity Recognition ( http://arxiv.org/abs/2105.14980v1 )

ライセンス: Link先を確認
Xin Zhang, Guangwei Xu, Yueheng Sun, Meishan Zhang, Pengjun Xie(参考訳) クラウドソーシングは、クラウドワーカーによる大規模アノテートトレーニングデータの構築を目的とした、効果的な教師付き学習のための有望なソリューションであると考えられている。 これまでの研究は、クラウドソースアノテーションによる教師付きモデルに対するノイズの影響の低減に重点を置いていた。 この作業では、個々のアノテーションに関して、すべてのクラウドソースアノテーションをゴールドスタンダードとして扱う点が異なる。 このようにして、クラウドソーシングはドメイン適応と非常によく似ており、最近のクロスドメイン手法の進歩はクラウドソーシングにほぼ直接適用できる。 ここでは、名前付きエンティティ認識(ner)を研究事例として、効果的なドメイン認識機能を取り込もうとするドメイン適応法に触発されたアノテーション-アウェア表現学習モデルを提案する。 クラウドソーシング学習の教師なし,教師なし,教師なしの双方を調査し,小規模のエキスパートアノテーションが利用可能でないことを仮定した。 ベンチマーククラウドソースによるNERデータセットの実験結果から,本手法は高い有効性を示し,新たな最先端性能を実現した。 さらに、監督された設定の下では、非常に小さな専門家のアノテーションだけで素晴らしいパフォーマンス向上を達成できます。

Crowdsourcing is regarded as one prospective solution for effective supervised learning, aiming to build large-scale annotated training data by crowd workers. Previous studies focus on reducing the influences from the noises of the crowdsourced annotations for supervised models. We take a different point in this work, regarding all crowdsourced annotations as gold-standard with respect to the individual annotators. In this way, we find that crowdsourcing could be highly similar to domain adaptation, and then the recent advances of cross-domain methods can be almost directly applied to crowdsourcing. Here we take named entity recognition (NER) as a study case, suggesting an annotator-aware representation learning model that inspired by the domain adaptation methods which attempt to capture effective domain-aware features. We investigate both unsupervised and supervised crowdsourcing learning, assuming that no or only small-scale expert annotations are available. Experimental results on a benchmark crowdsourced NER dataset show that our method is highly effective, leading to a new state-of-the-art performance. In addition, under the supervised setting, we can achieve impressive performance gains with only a very small scale of expert annotations.
翻訳日:2021-06-01 17:37:01 公開日:2021-05-31
# グラディエントに基づくバイナリ分類器に対するデータ置換攻撃

Gradient-based Data Subversion Attack Against Binary Classifiers ( http://arxiv.org/abs/2105.14803v1 )

ライセンス: Link先を確認
Rosni K Vasu, Sanjay Seetharaman, Shubham Malaviya, Manish Shukla, Sachin Lodha(参考訳) 機械学習ベースのデータ駆動技術は、さまざまなアプリケーション領域で素晴らしいパフォーマンスを示している。 ほとんどの企業は、高品質なアプリケーションを提供するために、複数のソースからのデータを使用します。 外部データソースの信頼性は、採用されている機械学習技術のセキュリティに関する懸念を引き起こす。 攻撃者はトレーニングやテストデータセットを改ざんして、これらのテクニックによって生成されたモデルの予測を覆すことができる。 データ中毒は、攻撃者が訓練データを操作して分類器の性能を低下させようとする攻撃である。 本研究では,攻撃者がラベルのラベルに毒を盛り,システムの機能を損なうようなラベル汚染攻撃に焦点を当てる。 我々は,攻撃者が被害者モデルの限られた知識を持つという仮定のもと,モデル劣化を実現するために,グラディエントベースのデータ変換戦略を開発する。 我々は、予測ラベルに対する微分可能凸損失関数(残留誤差)の勾配をウォームスタートとして利用し、様々な戦略を定式化し、汚染するデータインスタンスの集合を見つける。 さらに,攻撃の伝達可能性と2値分類器の感受性を分析した。 本実験は,提案手法がベースラインより優れ,計算効率が高いことを示す。

Machine learning based data-driven technologies have shown impressive performances in a variety of application domains. Most enterprises use data from multiple sources to provide quality applications. The reliability of the external data sources raises concerns for the security of the machine learning techniques adopted. An attacker can tamper the training or test datasets to subvert the predictions of models generated by these techniques. Data poisoning is one such attack wherein the attacker tries to degrade the performance of a classifier by manipulating the training data. In this work, we focus on label contamination attack in which an attacker poisons the labels of data to compromise the functionality of the system. We develop Gradient-based Data Subversion strategies to achieve model degradation under the assumption that the attacker has limited-knowledge of the victim model. We exploit the gradients of a differentiable convex loss function (residual errors) with respect to the predicted label as a warm-start and formulate different strategies to find a set of data instances to contaminate. Further, we analyze the transferability of attacks and the susceptibility of binary classifiers. Our experiments show that the proposed approach outperforms the baselines and is computationally efficient.
翻訳日:2021-06-01 17:32:57 公開日:2021-05-31
# 適応型マルチソース因果推論

Adaptive Multi-Source Causal Inference ( http://arxiv.org/abs/2105.14877v1 )

ライセンス: Link先を確認
Thanh Vinh Vo, Pengfei Wei, Trong Nghia Hoang, Tze-Yun Leong(参考訳) データ不足は因果効果推定における大きな課題である。 本稿では,目的集団における因果効果の予測を容易にするために,追加のデータソースを活用することを提案する。 具体的には、同様の因果メカニズムをターゲットの観測と共有する追加のソースデータセットを活用して、ターゲット集団の因果効果を推測する。 我々は,成果,治療,共同創設者のモデル化を通じて,知識伝達の3つのレベルを提案する。 一貫した正の伝達を実現するために,学習可能なパラメトリック伝達因子を導入し,伝達強度を適応的に制御し,ソースとターゲット間の公平かつバランスの取れた知識伝達を実現する。 提案手法は,データソースとターゲット間のデータの相違を事前に知ることなく,対象個体群の因果関係を推定することができる。 合成と実世界の両方のデータセットを用いた実験は,最近のベースラインと比較して提案手法の有効性を示した。

Data scarcity is a tremendous challenge in causal effect estimation. In this paper, we propose to exploit additional data sources to facilitate estimating causal effects in the target population. Specifically, we leverage additional source datasets which share similar causal mechanisms with the target observations to help infer causal effects of the target population. We propose three levels of knowledge transfer, through modelling the outcomes, treatments, and confounders. To achieve consistent positive transfer, we introduce learnable parametric transfer factors to adaptively control the transfer strength, and thus achieving a fair and balanced knowledge transfer between the sources and the target. The proposed method can infer causal effects in the target population without prior knowledge of data discrepancy between the additional data sources and the target. Experiments on both synthetic and real-world datasets show the effectiveness of the proposed method as compared with recent baselines.
翻訳日:2021-06-01 17:32:41 公開日:2021-05-31
# SHAQ:マルチエージェント強化学習のためのQラーニングへの共有価値理論の導入

SHAQ: Incorporating Shapley Value Theory into Q-Learning for Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2105.15013v1 )

ライセンス: Link先を確認
Jianhong Wang, Jinxin Wang, Yuan Zhang, Yunjie Gu, Tae-Kyun Kim(参考訳) 値分解はマルチエージェント強化学習(MARL)において非常に有用な手法であることが証明されているが、基礎となるメカニズムはまだ完全には理解されていない。 本稿では,価値因子化の理論的基礎について検討する。 我々は連立ゲーム理論におけるShapley値をマルコフ凸ゲーム(MCG)に一般化し、それをMARLにおける値分解のガイドに利用する。 一般化したシャプレー値には,(1)最大大域値の正確な推定,(2)大域値の因子化における公平性,(3)ダミーエージェントに対する敏感性など,いくつかの特徴がある。 提案した理論はシャープレーQ学習(SHAQ)と呼ばれる新しい学習アルゴリズムを生み出し、通常のQ学習の重要な利点を継承するが、それをMARLに拡張する。 先行技術と比較して、SHAQはより弱い仮定(MCG)を持ち、現実の問題とより互換性があるが、多くの場合、説明可能性や性能が優れている。 我々はSHAQを実証し,Predator-Prey と StarCraft Multi-Agent Challenge (SMAC) の理論的主張を検証する。

Value factorisation proves to be a very useful technique in multi-agent reinforcement learning (MARL), but the underlying mechanism is not yet fully understood. This paper explores a theoretic basis for value factorisation. We generalise the Shapley value in the coalitional game theory to a Markov convex game (MCG) and use it to guide value factorisation in MARL. We show that the generalised Shapley value possesses several features such as (1) accurate estimation of the maximum global value, (2) fairness in the factorisation of the global value, and (3) being sensitive to dummy agents. The proposed theory yields a new learning algorithm called Sharpley Q-learning (SHAQ), which inherits the important merits of ordinary Q-learning but extends it to MARL. In comparison with prior-arts, SHAQ has a much weaker assumption (MCG) that is more compatible with real-world problems, but has superior explainability and performance in many cases. We demonstrated SHAQ and verified the theoretic claims on Predator-Prey and StarCraft Multi-Agent Challenge (SMAC).
翻訳日:2021-06-01 17:32:28 公開日:2021-05-31
# 超音波舌画像の自動視線同期

Automatic audiovisual synchronisation for ultrasound tongue imaging ( http://arxiv.org/abs/2105.15162v1 )

ライセンス: Link先を確認
Aciel Eshky, Joanne Cleland, Manuel Sam Ribeiro, Eleanor Sugden, Korin Richmond, Steve Renals(参考訳) 超音波舌イメージングは、発声中の口内調音器を可視化するために用いられる。 言語や言語療法、音声学の研究など、様々な用途で使用されている。 超音波と音声を同時に記録し、このデータを正しく利用するには、2つのモードを正しく同期させる必要がある。 同期化は特別なハードウェアを用いて記録時に達成されるが、このアプローチは実際に失敗し、ユーザビリティが制限される。 本稿では,データ収集後の超音波と音声の自動同期の問題に対処する。 まず,エキスパート超音波使用者の同期誤差に対する耐性について検討し,誤差検出のしきい値を求める。 これらのしきい値を用いて,システム評価の精度評価境界を定義する。 次に、自己教師付きニューラルネットワークによって駆動される自動同期化のアプローチについて記述し、これら2つの信号間の相関を利用して同期を行う。 我々は、複数のドメインから異なる話者特性、異なる機器、異なる記録環境を持つデータに基づいてモデルを訓練し、保持領域内のデータに対して92.4%の精度を達成する。 最後に,新たな臨床サブグループとハードウェア同期の信頼性が低い新たなリソースであるCleftデータセットを紹介した。 この領域外データに本モデルを適用し,その性能を専門ユーザに対して主観的に評価する。 その結果,本モデルの出力を79.3%のハードウェア出力よりも好むことがわかった。 その結果,我々のアプローチの強みと,新たな領域のデータに一般化する能力が示された。

Ultrasound tongue imaging is used to visualise the intra-oral articulators during speech production. It is utilised in a range of applications, including speech and language therapy and phonetics research. Ultrasound and speech audio are recorded simultaneously, and in order to correctly use this data, the two modalities should be correctly synchronised. Synchronisation is achieved using specialised hardware at recording time, but this approach can fail in practice resulting in data of limited usability. In this paper, we address the problem of automatically synchronising ultrasound and audio after data collection. We first investigate the tolerance of expert ultrasound users to synchronisation errors in order to find the thresholds for error detection. We use these thresholds to define accuracy scoring boundaries for evaluating our system. We then describe our approach for automatic synchronisation, which is driven by a self-supervised neural network, exploiting the correlation between the two signals to synchronise them. We train our model on data from multiple domains with different speaker characteristics, different equipment, and different recording environments, and achieve an accuracy >92.4% on held-out in-domain data. Finally, we introduce a novel resource, the Cleft dataset, which we gathered with a new clinical subgroup and for which hardware synchronisation proved unreliable. We apply our model to this out-of-domain data, and evaluate its performance subjectively with expert users. Results show that users prefer our model's output over the original hardware output 79.3% of the time. Our results demonstrate the strength of our approach and its ability to generalise to data from new domains.
翻訳日:2021-06-01 17:32:08 公開日:2021-05-31
# 効率的・モジュール型インプリシト差分法

Efficient and Modular Implicit Differentiation ( http://arxiv.org/abs/2105.15183v1 )

ライセンス: Link先を確認
Mathieu Blondel, Quentin Berthet, Marco Cuturi, Roy Frostig, Stephan Hoyer, Felipe Llinares-L\'opez, Fabian Pedregosa, Jean-Philippe Vert(参考訳) 自動微分(autodiff)は機械学習に革命をもたらした。 基本的な計算を創造的な方法で構成することで複雑な計算を表現でき、微分を手で計算する負担を取り除くことができる。 近年、最適化問題解の差別化は、レイヤーとしての最適化のようなアプリケーションや、ハイパーパラメータ最適化やメタラーニングのような双レベル問題に広く注目されている。 しかしながら、これらの微分の公式はしばしばケースバイケースの退屈な数学的導出を含む。 本稿では,最適化問題の暗黙的微分のための統一的,効率的,モジュール的アプローチを提案する。 このアプローチでは、ユーザは(実装の場合にはpythonで)差別化すべき問題の最適条件をキャプチャする関数$f$を定義します。 これが終わったら、最適化問題を自動で区別するために、$f$と暗黙的な微分のautodiffを利用します。 このアプローチは、暗黙の分化とオートディフの利点を組み合わせたものです。 最適条件仕様は暗黙の微分機構から切り離されるため、任意の最先端の解法とモジュラーの上に追加できるので効率的である。 一見単純な原理によって、最近提案された多くの暗黙的な微分法を復元し、新しいものを簡単に作成できることを示す。 フレームワークを用いた双方向最適化問題の定式化と解決の容易さを示す。 また,分子動力学の感度解析への応用を示す。

Automatic differentiation (autodiff) has revolutionized machine learning. It allows expressing complex computations by composing elementary ones in creative ways and removes the burden of computing their derivatives by hand. More recently, differentiation of optimization problem solutions has attracted widespread attention with applications such as optimization as a layer, and in bi-level problems such as hyper-parameter optimization and meta-learning. However, the formulas for these derivatives often involve case-by-case tedious mathematical derivations. In this paper, we propose a unified, efficient and modular approach for implicit differentiation of optimization problems. In our approach, the user defines (in Python in the case of our implementation) a function $F$ capturing the optimality conditions of the problem to be differentiated. Once this is done, we leverage autodiff of $F$ and implicit differentiation to automatically differentiate the optimization problem. Our approach thus combines the benefits of implicit differentiation and autodiff. It is efficient as it can be added on top of any state-of-the-art solver and modular as the optimality condition specification is decoupled from the implicit differentiation mechanism. We show that seemingly simple principles allow to recover many recently proposed implicit differentiation methods and create new ones easily. We demonstrate the ease of formulating and solving bi-level optimization problems using our framework. We also showcase an application to the sensitivity analysis of molecular dynamics.
翻訳日:2021-06-01 17:28:58 公開日:2021-05-31
# 正解拒絶をともなう敵意訓練

Adversarial Training with Rectified Rejection ( http://arxiv.org/abs/2105.14785v1 )

ライセンス: Link先を確認
Tianyu Pang, Huishuai Zhang, Di He, Yinpeng Dong, Hang Su, Wei Chen, Jun Zhu, Tie-Yan Liu(参考訳) 対人訓練(AT)は、モデル堅牢性を推進するための最も効果的な戦略の1つであり、最先端の対人訓練モデルでさえ、追加データなしでCIFAR-10上でのテスト精度を60%以上越えることに苦慮している。 この精度ボトルネックを突破する自然な方法は、信頼が一般的に使用される確実性プロキシである拒絶オプションを導入することだ。 しかし、バニラ信頼度は入力が誤って分類された場合、モデルの確実性を過大評価することができる。 そこで本研究では,信頼度(T-Con)を確実性オラクルとして利用し,信頼度を補正することでT-Conを予測することを提案する。 穏やかな条件下では、不適切な分類された入力と正しく分類された入力を区別するために、修正された信頼度(r-con)拒絶者と信頼拒否者とを結合することができることを証明する。 また、R-ConのトレーニングをT-Conに合わせることは、ロバストな分類器を学ぶよりも容易なタスクであると定量化します。 実験では, CIFAR-10, CIFAR-10-C, CIFAR-100 上の正則拒否モジュール (RR) をいくつかの攻撃下で評価し, RR モジュールが頑健性向上のための様々な AT フレームワークと互換性があり, 余分な計算がほとんどないことを示した。

Adversarial training (AT) is one of the most effective strategies for promoting model robustness, whereas even the state-of-the-art adversarially trained models struggle to exceed 60% robust test accuracy on CIFAR-10 without additional data, which is far from practical. A natural way to break this accuracy bottleneck is to introduce a rejection option, where confidence is a commonly used certainty proxy. However, the vanilla confidence can overestimate the model certainty if the input is wrongly classified. To this end, we propose to use true confidence (T-Con) (i.e., predicted probability of the true class) as a certainty oracle, and learn to predict T-Con by rectifying confidence. We prove that under mild conditions, a rectified confidence (R-Con) rejector and a confidence rejector can be coupled to distinguish any wrongly classified input from correctly classified ones, even under adaptive attacks. We also quantify that training R-Con to be aligned with T-Con could be an easier task than learning robust classifiers. In our experiments, we evaluate our rectified rejection (RR) module on CIFAR-10, CIFAR-10-C, and CIFAR-100 under several attacks, and demonstrate that the RR module is well compatible with different AT frameworks on improving robustness, with little extra computation.
翻訳日:2021-06-01 17:27:29 公開日:2021-05-31
# MRI神経画像解析におけるマルチタスキングの可能性:組織分節化, 異質化, バイアス補正

Feasibility Assessment of Multitasking in MRI Neuroimaging Analysis: Tissue Segmentation, Cross-Modality Conversion and Bias correction ( http://arxiv.org/abs/2105.14986v1 )

ライセンス: Link先を確認
Mohammad Eslami, Solale Tabarestani, Malek Adjouadi(参考訳) 神経画像化は、脳の健康状態および疾患状態における疾患、構造および機能の診断および同定のために、脳研究において必須である。 文献によると、深層学習(DL)方式によるマルチタスキングの利点は、神経画像の応用に挑戦することにある。 本研究では, 組織分割, モダリティ変換, バイアス場補正など, マルチタスキングの3つの応用の可能性を検討した。 これらのアプリケーションは、マルチタスクを探索する5つの異なるシナリオを反映し、280のトレーニングとテストセッションを経験的評価のために実施する。 有名な畳み込みニューラルネットワークアーキテクチャであるu-netと条件付き生成逆ネットワークに基づくクローズドアーキテクチャの2つのネットワークが実装されている。 正規化相互相関係数やDiceスコアなどの異なるメトリクスは、異なる実験の方法と結果の比較に使用される。 統計分析はペアt-testも行う。 本研究では,これらの手法の長所と短所,実装シナリオの違いによるマルチタスキングへの影響について検討する。 本研究は, 偏差補正とクロスモーダリティ変換がセグメンテーションアプリケーションよりもはるかに容易であり, セグメンテーションによるマルチタスキングが主ターゲットアプリケーションとして特定される場合, 妥当でないことを示す。 しかし,組織分割が主な用途である場合,特にU-netアーキテクチャにおいて,相互モダリティ変換によるマルチタスキングが有用である。

Neuroimaging is essential in brain studies for the diagnosis and identification of disease, structure, and function of the brain in its healthy and disease states. Literature shows that there are advantages of multitasking with some deep learning (DL) schemes in challenging neuroimaging applications. This study examines the feasibility of using multitasking in three different applications, including tissue segmentation, cross-modality conversion, and bias-field correction. These applications reflect five different scenarios in which multitasking is explored and 280 training and testing sessions conducted for empirical evaluations. Two well-known networks, U-Net as a well-known convolutional neural network architecture, and a closed architecture based on the conditional generative adversarial network are implemented. Different metrics such as the normalized cross-correlation coefficient and Dice scores are used for comparison of methods and results of the different experiments. Statistical analysis is also provided by paired t-test. The present study explores the pros and cons of these methods and their practical impacts on multitasking in different implementation scenarios. This investigation shows that bias correction and cross-modality conversion applications are significantly easier than the segmentation application, and having multitasking with segmentation is not reasonable if one of them is identified as the main target application. However, when the main application is the segmentation of tissues, multitasking with cross-modality conversion is beneficial, especially for the U-net architecture.
翻訳日:2021-06-01 17:27:02 公開日:2021-05-31
# 支配的パターン:ディープニューラルネットワークに隠された重要な特徴

Dominant Patterns: Critical Features Hidden in Deep Neural Networks ( http://arxiv.org/abs/2105.15057v1 )

ライセンス: Link先を確認
Zhixing Ye, Shaofei Qin, Sizhe Chen, Xiaolin Huang(参考訳) 本稿では,Deep NeuralNetworks (DNN) に隠された重要な機能の存在について述べる。 これらの特徴を支配的なパターンと呼びます 名前が示すように、自然画像に対して、DNNの支配的なパターンを付加すると、DNNの出力は元の画像ではなく支配的なパターンによって決定され、すなわち、DNNの予測は支配的なパターンと同じである。 特徴空間の感度を追求することで,そのようなパターンを見つけるアルゴリズムを設計する。 支配的なパターンの直接的な応用は、Universal Adversarial Perturbations (UAP)である。 数値実験により, 得られた支配パターンが, 特にラベルフリー環境で, 最先端のUAP手法を破ることが判明した。 さらに、支配的なパターンは、DNNが同じバックボーンを共有する下流タスクを攻撃する可能性があることが証明されている。 我々は、DNN固有の支配パターンがDNNの本質的な性質を明らかにし、その特徴解析と堅牢性向上に非常に重要であると主張している。

In this paper, we find the existence of critical features hidden in Deep NeuralNetworks (DNNs), which are imperceptible but can actually dominate the outputof DNNs. We call these features dominant patterns. As the name suggests, for a natural image, if we add the dominant pattern of a DNN to it, the output of this DNN is determined by the dominant pattern instead of the original image, i.e., DNN's prediction is the same with the dominant pattern's. We design an algorithm to find such patterns by pursuing the insensitivity in the feature space. A direct application of the dominant patterns is the Universal Adversarial Perturbations(UAPs). Numerical experiments show that the found dominant patterns defeat state-of-the-art UAP methods, especially in label-free settings. In addition, dominant patterns are proved to have the potential to attack downstream tasks in which DNNs share the same backbone. We claim that DNN-specific dominant patterns reveal some essential properties of a DNN and are of great importance for its feature analysis and robustness enhancement.
翻訳日:2021-06-01 17:26:39 公開日:2021-05-31
# SDNet:mutil-branch for single image deraining using Swin

SDNet: mutil-branch for single image deraining using swin ( http://arxiv.org/abs/2105.15077v1 )

ライセンス: Link先を確認
Fuxiang Tan, YuTing Kong, Yingying Fan, Feng Liu, Daxin Zhou, Hao zhang, Long Chen, Liang Gao and Yurong Qian(参考訳) 雨は画質を劣化させ、自動運転や社会保障といったその後のコンピュータビジョンタスクのパフォーマンスに深刻な影響を与えます。 したがって、所定の雨天画像から雨害を取り除くことは非常に重要である。 畳み込みニューラルネットワーク(CNN)は画像デライニングタスクに広く用いられているが、畳み込み操作の局所的な計算特性は画像デライニングタスクの開発を制限する。 近年,一般的な変換器は,画像デコライニングタスクの開発をさらに促進するグローバルな計算機能を備えている。 本稿では,swin-transformerを画像レーダリングの分野に初めて導入し,画像レーダリング分野におけるswin-transformerの性能とポテンシャルについて検討する。 具体的には,Swin-transformerの基本モジュールを改良し,単画像降雨除去を実現する3分岐モデルの設計を行う。 前者は基本的なレインパターン特徴抽出を実装し、後者は異なる特徴を融合してさらに画像特徴を抽出処理する。 さらに、深い特徴と浅い特徴を融合するためにジャンプ接続を使用します。 実験の観点では、既存の公開データセットは画像重複と比較的均質な背景に悩まされている。 そこで我々は,モデルを検証する新しいデータセットrain3000を提案する。 そこで本研究では,モデルを検証するための新しいデータセットrain3000を提案する。 公開データセットであるrain100l、rain100h、およびデータセットrain3000の実験結果によると、提案手法は、現在のメインストリームの単一画像のrain streaks除去モデルよりもパフォーマンスと推論速度の利点がある。ソースコードはhttps://github.com/h -tfx/sdnetで入手できる。

Rain streaks degrade the image quality and seriously affect the performance of subsequent computer vision tasks, such as autonomous driving, social security, etc. Therefore, removing rain streaks from a given rainy images is of great significance. Convolutional neural networks(CNN) have been widely used in image deraining tasks, however, the local computational characteristics of convolutional operations limit the development of image deraining tasks. Recently, the popular transformer has global computational features that can further facilitate the development of image deraining tasks. In this paper, we introduce Swin-transformer into the field of image deraining for the first time to study the performance and potential of Swin-transformer in the field of image deraining. Specifically, we improve the basic module of Swin-transformer and design a three-branch model to implement single-image rain removal. The former implements the basic rain pattern feature extraction, while the latter fuses different features to further extract and process the image features. In addition, we employ a jump connection to fuse deep features and shallow features. In terms of experiments, the existing public dataset suffers from image duplication and relatively homogeneous background. So we propose a new dataset Rain3000 to validate our model. Therefore, we propose a new dataset Rain3000 for validating our model. Experimental results on the publicly available datasets Rain100L, Rain100H and our dataset Rain3000 show that our proposed method has performance and inference speed advantages over the current mainstream single-image rain streaks removal models.The source code will be available at https://github.com/H -tfx/SDNet.
翻訳日:2021-06-01 17:26:22 公開日:2021-05-31
# サイバー物理生産システムの再構成管理のための伝達学習

Transfer Learning as an Enhancement for Reconfiguration Management of Cyber-Physical Production Systems ( http://arxiv.org/abs/2105.14730v1 )

ライセンス: Link先を確認
Benjamin Maschler, Timo M\"uller, Andreas L\"ocklin and Michael Weyrich(参考訳) 製造システムの要求の頻繁な変更により、再構成需要が増加している。 近年のアプローチでは、最適な構成を選択可能な構成代替案を検討することを目指している。 これは、例えば、振る舞いが依存しないプロセスに依存する。 生産の順序です しかしながら、機械学習が使用される場合、コンポーネントの振る舞いはプロセスの仕様に依存し、再設定管理を成功させるために追加の概念を必要とする。 そこで我々は,伝達学習による総合的再構成管理の強化を提案する。 これにより、異なるCPPS構成の機械学習依存挙動を、労力を削減して評価し、選択した構成の再起動を支援することができる。 上記提案を実証するために、離散製造領域からの真のサイバー物理生産システムを利用する。

Reconfiguration demand is increasing due to frequent requirement changes for manufacturing systems. Recent approaches aim at investigating feasible configuration alternatives from which they select the optimal one. This relies on processes whose behavior is not reliant on e.g. the production sequence. However, when machine learning is used, components' behavior depends on the process' specifics, requiring additional concepts to successfully conduct reconfiguration management. Therefore, we propose the enhancement of the comprehensive reconfiguration management with transfer learning. This provides the ability to assess the machine learning dependent behavior of the different CPPS configurations with reduced effort and further assists the recommissioning of the chosen one. A real cyber-physical production system from the discrete manufacturing domain is utilized to demonstrate the aforementioned proposal.
翻訳日:2021-06-01 17:25:54 公開日:2021-05-31
# 低ランク行列可変ロジスティック回帰のためのミニマックス下界

A Minimax Lower Bound for Low-Rank Matrix-Variate Logistic Regression ( http://arxiv.org/abs/2105.14673v1 )

ライセンス: Link先を確認
Batoul Taki, Mohsen Ghassemi, Anand D. Sarwate, and Waheed U. Bajwa(参考訳) 本稿では,行列-変量ロジスティック回帰の問題を考える。 ロジスティック回帰問題における係数行列の推定に関する基本的な誤差閾値は、ミニマックスリスクの低い境界を導出したものである。 本稿では,低ランク係数行列に対する最小リスク低境界の導出に着目した。 境界は共変量の次元と分布、係数行列の階数とエネルギー、サンプルの数に明示的に依存する。 結果として得られる境界は問題の内在的な自由度に比例し、低ランク行列ロジスティック回帰問題のサンプル複雑性はベクトル化ロジスティック回帰のそれよりも低いことが示唆される。 色{red}\color{black} この研究で使われている証明技術は、テンソル-変量ロジスティック回帰問題のためのミニマックス下限の開発段階も設定している。

This paper considers the problem of matrix-variate logistic regression. The fundamental error threshold on estimating coefficient matrices in the logistic regression problem is found by deriving a lower bound on the minimax risk. The focus of this paper is on derivation of a minimax risk lower bound for low-rank coefficient matrices. The bound depends explicitly on the dimensions and distribution of the covariates, the rank and energy of the coefficient matrix, and the number of samples. The resulting bound is proportional to the intrinsic degrees of freedom in the problem, which suggests the sample complexity of the low-rank matrix logistic regression problem can be lower than that for vectorized logistic regression. \color{red}\color{black} The proof techniques utilized in this work also set the stage for development of minimax lower bounds for tensor-variate logistic regression problems.
翻訳日:2021-06-01 17:25:44 公開日:2021-05-31
# ReLUニューラルネットワークの深さに関する下界に向けて

Towards Lower Bounds on the Depth of ReLU Neural Networks ( http://arxiv.org/abs/2105.14835v1 )

ライセンス: Link先を確認
Christoph Hertrich, Amitabh Basu, Marco Di Summa, Martin Skutella(参考訳) 我々は、ReLUアクティベーションと所定のアーキテクチャを持つニューラルネットワークによって表現される関数のクラスをよりよく理解するために貢献する。 混合整数最適化、多面体理論、熱帯幾何学の手法を用いて、単一の隠れ層が学習タスクに十分であることを示す普遍近似定理の数学的逆均衡を与える。 特に,表現可能な関数のクラスが,(サイズに制限を加えることなく)より多くのレイヤを追加することによって厳密に増加するかどうかを検討する。 この問題は、ニューラル仮説クラスで表される関数のクラスにその洞察を与えるため、アルゴリズム的および統計的側面に潜在的に影響を及ぼす。 しかし、我々の知る限りでは、この問題はニューラルネットワークの文献では研究されていない。 また、これらのニューラル仮説クラスで関数を表現するのに必要なニューラルネットワークの大きさの上限も提示する。

We contribute to a better understanding of the class of functions that is represented by a neural network with ReLU activations and a given architecture. Using techniques from mixed-integer optimization, polyhedral theory, and tropical geometry, we provide a mathematical counterbalance to the universal approximation theorems which suggest that a single hidden layer is sufficient for learning tasks. In particular, we investigate whether the class of exactly representable functions strictly increases by adding more layers (with no restrictions on size). This problem has potential impact on algorithmic and statistical aspects because of the insight it provides into the class of functions represented by neural hypothesis classes. However, to the best of our knowledge, this question has not been investigated in the neural network literature. We also present upper bounds on the sizes of neural networks required to represent functions in these neural hypothesis classes.
翻訳日:2021-06-01 17:25:32 公開日:2021-05-31
# 注意フローは共有価値説明である

Attention Flows are Shapley Value Explanations ( http://arxiv.org/abs/2105.14652v1 )

ライセンス: Link先を確認
Kawin Ethayarajh and Dan Jurafsky(参考訳) shapley valuesは、協調ゲーム理論におけるクレジット割当問題の解であり、機械学習における一般的なタイプの説明であり、特徴、埋め込み、さらにはニューロンの重要性を説明するために用いられてきた。 しかし、NLPでは、離脱と注意に基づく説明が依然として優勢である。 これらの異なる方法のつながりを描けるか? 私たちは正式に -- 縮退したケースのために保存する -- 注意重みと残一の値がシェープリー値ではないことを証明します。 $\textit{attention flow}$は、アテンショングラフ上でmax-flowアルゴリズムを実行することで得られるアテンション重みのポストプロセス変種である。 おそらく意外なことに、注意フローが少なくとも階層レベルでは、本当にシェープな値であることを証明しています。 MLコミュニティで採用されているシェープ価値の多くの望ましい理論的特性を考えると、NLP実践者は、可能であれば、より伝統的なものと一緒に注意の流れの説明を採用するべきだ、と私たちは主張する。

Shapley Values, a solution to the credit assignment problem in cooperative game theory, are a popular type of explanation in machine learning, having been used to explain the importance of features, embeddings, and even neurons. In NLP, however, leave-one-out and attention-based explanations still predominate. Can we draw a connection between these different methods? We formally prove that -- save for the degenerate case -- attention weights and leave-one-out values cannot be Shapley Values. $\textit{Attention flow}$ is a post-processed variant of attention weights obtained by running the max-flow algorithm on the attention graph. Perhaps surprisingly, we prove that attention flows are indeed Shapley Values, at least at the layerwise level. Given the many desirable theoretical qualities of Shapley Values -- which has driven their adoption among the ML community -- we argue that NLP practitioners should, when possible, adopt attention flow explanations alongside more traditional ones.
翻訳日:2021-06-01 17:23:03 公開日:2021-05-31
# 変圧器の微調整と組成の相互作用について

On the Interplay Between Fine-tuning and Composition in Transformers ( http://arxiv.org/abs/2105.14668v1 )

ライセンス: Link先を確認
Lang Yu and Allyson Ettinger(参考訳) 事前訓練されたトランスフォーマー言語モデルは、様々なNLPタスクにおいて顕著な性能を示した。 しかし、近年の研究では、これらのモデルにおけるフレーズレベルの表現は、語彙内容の強い影響を反映しているが、洗練された合成句情報の証拠がないことが示唆されている。 本稿では,語彙的内容を超えた句意味情報を取り込むための文脈的埋め込みの能力に対する微調整の影響について検討する。 具体的には,語彙重複度の高い逆パラフレーズ分類タスクと感情分類タスクでモデルを微調整する。 微調整後,事前作業後の制御設定におけるフラシアル表現の分析を行う。 微調整はこれらの表現において構成性に恩恵をもたらすことがほとんどないが、感情の訓練は特定のモデルに小さな局所的な利益をもたらす。 フォローアップ分析では,その課題から構成的利益の欠如を説明できるパラフレーズデータセット内の類似した手がかりを同定し,感情訓練による局所的利益の根底にある潜在的な要因について考察する。

Pre-trained transformer language models have shown remarkable performance on a variety of NLP tasks. However, recent research has suggested that phrase-level representations in these models reflect heavy influences of lexical content, but lack evidence of sophisticated, compositional phrase information. Here we investigate the impact of fine-tuning on the capacity of contextualized embeddings to capture phrase meaning information beyond lexical content. Specifically, we fine-tune models on an adversarial paraphrase classification task with high lexical overlap, and on a sentiment classification task. After fine-tuning, we analyze phrasal representations in controlled settings following prior work. We find that fine-tuning largely fails to benefit compositionality in these representations, though training on sentiment yields a small, localized benefit for certain models. In follow-up analyses, we identify confounding cues in the paraphrase dataset that may explain the lack of composition benefits from that task, and we discuss potential factors underlying the localized benefits from sentiment training.
翻訳日:2021-06-01 17:22:45 公開日:2021-05-31
# スケッチとリファイン: 忠実でインフォームティブな表-テキスト生成を目指して

Sketch and Refine: Towards Faithful and Informative Table-to-Text Generation ( http://arxiv.org/abs/2105.14778v1 )

ライセンス: Link先を確認
Peng Wang, Junyang Lin, An Yang, Chang Zhou, Yichang Zhang, Jingren Zhou, Hongxia Yang(参考訳) 表-to-text生成とは、キー-値テーブルから記述テキストを生成することを指す。 従来の自己回帰的手法は、高い頻度でテキストを生成することができるが、カバレッジが低く、忠実度の低い問題に悩まされる。 これらの問題を緩和するために,自動回帰世代と非自己回帰世代(SANA)を組み合わせた,スケルトンに基づく新しい2段階法を提案する。 提案手法は,(1)ソーステーブルからキートークンを選択するための自己回帰ポインタネットワークを用いた骨格生成,(2)反復挿入と削除操作によるテキスト生成のための編集ベースの非自己回帰生成モデルを含む。 骨格から厳しい制約を統合することで、非自己回帰モデルはソーステーブル上の生成のカバレッジを改善し、その忠実性を高める。 我々はウィキパーソンデータセットとウィキバイオデータセットの両方で自動評価および人間評価を行う。 実験の結果,本手法は,自動評価と人間評価,特にカバレッジと忠実性において,従来の最先端手法よりも優れていることがわかった。 特に、WikiPersonで99.47のPARENT-Tリコールを達成し、既存の最良の結果よりも10ポイント以上改善した。

Table-to-text generation refers to generating a descriptive text from a key-value table. Traditional autoregressive methods, though can generate text with high fluency, suffer from low coverage and poor faithfulness problems. To mitigate these problems, we propose a novel Skeleton-based two-stage method that combines both Autoregressive and Non-Autoregressive generations (SANA). Our approach includes: (1) skeleton generation with an autoregressive pointer network to select key tokens from the source table; (2) edit-based non-autoregressive generation model to produce texts via iterative insertion and deletion operations. By integrating hard constraints from the skeleton, the non-autoregressive model improves the generation's coverage over the source table and thus enhances its faithfulness. We conduct automatic and human evaluations on both WikiPerson and WikiBio datasets. Experimental results demonstrate that our method outperforms the previous state-of-the-art methods in both automatic and human evaluation, especially on coverage and faithfulness. In particular, we achieve PARENT-T recall of 99.47 in WikiPerson, improving over the existing best results by more than 10 points.
翻訳日:2021-06-01 17:22:28 公開日:2021-05-31
# 教師なしコモンセンス質問応答のための意味的手法

A Semantic-based Method for Unsupervised Commonsense Question Answering ( http://arxiv.org/abs/2105.14781v1 )

ライセンス: Link先を確認
Yilin Niu, Fei Huang, Jiaming Liang, Wenkai Chen, Xiaoyan Zhu, Minlie Huang(参考訳) ラベル付きタスクデータに依存しないため、教師なしのコモンセンス質問応答は魅力的である。 既存の研究の中で、一般的な解決策は、事前訓練された言語モデルを使用して、質問や文脈で直接条件付けられた候補の選択をスコアすることである。 しかし、そのような言語モデルからのスコアは、単語の頻度や文構造などの無関係な要因の影響を受けやすい。 これらの邪魔な要因は、間違った解答を選択するためにモデルを誤解させるだけでなく、候補解答の語彙的摂動に過敏にさせる。 本稿では,教師なしコモンセンス質問応答のためのSemantic-based Question Answering(SEQA)を提案する。 提案手法は,各解選択を直接スコアリングする代わりに,まず生成モデル(GPT-2など)を用いて,各解と各解のセマンティックな類似性を考慮することによって,これらの可算解を用いて正しい解を選択する。 我々は、このアイデアに対して単純で健全な形式を考案し、その有効性と堅牢性を広範な実験で検証する。 本研究では,提案手法を4つのベンチマークデータセットで評価し,教師なし設定で最良の結果を得る。 さらに、TextFoolerに同義の置換で攻撃された場合、SEQAはベースラインよりもパフォーマンス低下がはるかに少なく、強い堅牢性を示す。

Unsupervised commonsense question answering is appealing since it does not rely on any labeled task data. Among existing work, a popular solution is to use pre-trained language models to score candidate choices directly conditioned on the question or context. However, such scores from language models can be easily affected by irrelevant factors, such as word frequencies, sentence structures, etc. These distracting factors may not only mislead the model to choose a wrong answer but also make it oversensitive to lexical perturbations in candidate answers. In this paper, we present a novel SEmantic-based Question Answering method (SEQA) for unsupervised commonsense question answering. Instead of directly scoring each answer choice, our method first generates a set of plausible answers with generative models (e.g., GPT-2), and then uses these plausible answers to select the correct choice by considering the semantic similarity between each plausible answer and each choice. We devise a simple, yet sound formalism for this idea and verify its effectiveness and robustness with extensive experiments. We evaluate the proposed method on four benchmark datasets, and our method achieves the best results in unsupervised settings. Moreover, when attacked by TextFooler with synonym replacement, SEQA demonstrates much less performance drops than baselines, thereby indicating stronger robustness.
翻訳日:2021-06-01 17:22:07 公開日:2021-05-31
# 探索と爆発:中国のスペル補正モデルを改善する2つの方法

Exploration and Exploitation: Two Ways to Improve Chinese Spelling Correction Models ( http://arxiv.org/abs/2105.14813v1 )

ライセンス: Link先を確認
Chong Li, Cenyuan Zhang, Xiaoqing Zheng, Xuanjing Huang(参考訳) ニューラルネットワークを用いたシーケンシャル・ツー・シーケンス学習は、いくつかの綴り誤りのある文を入力として出力する中国語綴り修正(csc)の有効な枠組みであることが実証的に証明されている。 しかし、CSCモデルは混乱セットによってカバーされるスペルエラーの修正に失敗し、また目に見えないエラーに遭遇する。 本稿では,モデルの弱点を継続的に識別し,より価値のあるトレーニングインスタンスを生成し,そのモデルを強化するためにタスク固有の事前学習戦略を適用する手法を提案する。 生成した敵の例をトレーニングセットに徐々に追加する。 実験結果から, 事前学習戦略と組み合わさって, 複数のCSCモデルの3つのデータセット間の一般化とロバスト性を改善し, CSCタスクの最先端性能を達成できることが示唆された。

A sequence-to-sequence learning with neural networks has empirically proven to be an effective framework for Chinese Spelling Correction (CSC), which takes a sentence with some spelling errors as input and outputs the corrected one. However, CSC models may fail to correct spelling errors covered by the confusion sets, and also will encounter unseen ones. We propose a method, which continually identifies the weak spots of a model to generate more valuable training instances, and apply a task-specific pre-training strategy to enhance the model. The generated adversarial examples are gradually added to the training set. Experimental results show that such an adversarial training method combined with the pretraining strategy can improve both the generalization and robustness of multiple CSC models across three different datasets, achieving stateof-the-art performance for CSC task.
翻訳日:2021-06-01 17:21:42 公開日:2021-05-31
# リカレントニューラルネットワーク文法の効果的なバッチ化

Effective Batching for Recurrent Neural Network Grammars ( http://arxiv.org/abs/2105.14822v1 )

ライセンス: Link先を確認
Hiroshi Noji, Yohei Oseki(参考訳) 従来の記号操作と柔軟な神経表現を統合する言語モデルとして、繰り返しニューラルネットワーク文法(RNNG)は科学と工学の両方の観点から大きな注目を集めている。 しかし、RNNGはバッチトレーニングの難しさからスケールが難しいことが知られている。 本稿では,複数の文にまたがるテンソルと並列に全ての操作が計算されるRNNGの効率的なバッチ化を提案する。 我々のPyTorch実装はGPUを効果的に利用し、モデルに依存しない自動バッチによる既存のC++ DyNet実装と比較してx6スピードアップを実現しています。 さらに, このバッチrnngは, 推定を高速化し, ビームサイズに依存したx20-150高速化を実現する。 最後に,大容量RNNGのLSTMベースラインに対する構文一般化性能を,英語ウィキペディアの100Mトークンの大規模トレーニングデータと,広範囲に対象とする構文評価ベンチマークに基づいて評価した。 RNNGの実装はhttps://github.com/a istairc/rnng-pytorch /で公開しています。

As a language model that integrates traditional symbolic operations and flexible neural representations, recurrent neural network grammars (RNNGs) have attracted great attention from both scientific and engineering perspectives. However, RNNGs are known to be harder to scale due to the difficulty of batched training. In this paper, we propose effective batching for RNNGs, where every operation is computed in parallel with tensors across multiple sentences. Our PyTorch implementation effectively employs a GPU and achieves x6 speedup compared to the existing C++ DyNet implementation with model-independent auto-batching. Moreover, our batched RNNG also accelerates inference and achieves x20-150 speedup for beam search depending on beam sizes. Finally, we evaluate syntactic generalization performance of the scaled RNNG against the LSTM baseline, based on the large training data of 100M tokens from English Wikipedia and the broad-coverage targeted syntactic evaluation benchmark. Our RNNG implementation is available at https://github.com/a istairc/rnng-pytorch /.
翻訳日:2021-06-01 17:21:26 公開日:2021-05-31
# GWLAN: コンピュータ翻訳のための汎用ワードレベルオートコンプリートN

GWLAN: General Word-Level AutocompletioN for Computer-Aided Translation ( http://arxiv.org/abs/2105.14913v1 )

ライセンス: Link先を確認
Huayang Li, Lemao Liu, Guoping Huang, Shuming Shi(参考訳) CAT(Computer-Aided Translation)は、人間の翻訳者を支援するソフトウェアであり、人間の翻訳者の生産性を高めるのに有用であることが証明されている。 オートコンプリート(Autocompletion)は、人間の翻訳者が提供するテキスト部分に従って翻訳結果を提案するもので、CATの中核機能である。 この系統の以前の研究には2つの制限がある。 第一に、この話題に関するほとんどの研究は、文レベルのオートコンプリート(つまり、人間の入力に基づく文として全翻訳を生成する)に焦点を当てているが、語レベルのオートコンプリートは、これまでのところ未調査である。 第二に、CATのオートコンプリートタスクには、ほとんど公開ベンチマークが利用できない。 このことが、自動MTと比較してCATの進歩がはるかに遅い理由の1つかもしれない。 本稿では、実世界のCATシナリオから一般語レベルの自動補完(GWLAN)タスクを提案し、このトピックの研究を促進するための最初の公開ベンチマークを構築する。 さらに,GWLANの有効手法を提案し,それをいくつかの強力なベースラインと比較する。 実験により,提案手法はベンチマークデータセットのベースライン手法よりもはるかに正確な予測を行うことができることを示した。

Computer-aided translation (CAT), the use of software to assist a human translator in the translation process, has been proven to be useful in enhancing the productivity of human translators. Autocompletion, which suggests translation results according to the text pieces provided by human translators, is a core function of CAT. There are two limitations in previous research in this line. First, most research works on this topic focus on sentence-level autocompletion (i.e., generating the whole translation as a sentence based on human input), but word-level autocompletion is under-explored so far. Second, almost no public benchmarks are available for the autocompletion task of CAT. This might be among the reasons why research progress in CAT is much slower compared to automatic MT. In this paper, we propose the task of general word-level autocompletion (GWLAN) from a real-world CAT scenario, and construct the first public benchmark to facilitate research in this topic. In addition, we propose an effective method for GWLAN and compare it with several strong baselines. Experiments demonstrate that our proposed method can give significantly more accurate predictions than the baseline methods on our benchmark datasets.
翻訳日:2021-06-01 17:21:10 公開日:2021-05-31
# デジタル奨学金のためのテキスト分析ツールの有用性に対する語彙的金標準の影響

How Lexical Gold Standards Have Effects On The Usefulness Of Text Analysis Tools For Digital Scholarship ( http://arxiv.org/abs/2105.14921v1 )

ライセンス: Link先を確認
Jussi Karlgren(参考訳) 本稿では,現在の語彙的類似性と類似金の標準が,それらが評価するために設計したモデルがどのように使用されるかという特定の考え方に適合するように構築されていることを述べる。 トピック関連性は常に情報アクセスツールや関連する言語技術にとって最も重要なターゲット概念であり、これは情報技術がどのような用途に使われているかを示す有用な出発点として証明されてきたが、人文科学や社会科学におけるデジタル奨学金のユースケースなど、どの技術が使われているかという他の用途と常に一致しているわけではない。 本稿では,デジタル人文科学と社会科学の要件の体系的定式化と,モデル設計の基礎となる仮定の明確化について論じる。

This paper describes how the current lexical similarity and analogy gold standards are built to conform to certain ideas about what the models they are designed to evaluate are used for. Topical relevance has always been the most important target notion for information access tools and related language technology technologies, and while this has proven a useful starting point for much of what information technology is used for, it does not always align well with other uses to which technologies are being put, most notably use cases from digital scholarship in the humanities or social sciences. This paper argues for more systematic formulation of requirements from the digital humanities and social sciences and more explicit description of the assumptions underlying model design.
翻訳日:2021-06-01 17:20:51 公開日:2021-05-31
# 並列データのない低リソース関連言語への高リソースNMTモデルの適用

Adapting High-resource NMT Models to Translate Low-resource Related Languages without Parallel Data ( http://arxiv.org/abs/2105.15071v1 )

ライセンス: Link先を確認
Wei-Jen Ko, Ahmed El-Kishky, Adithya Renduchintala, Vishrav Chaudhary, Naman Goyal, Francisco Guzm\'an, Pascale Fung, Philipp Koehn, Mona Diab(参考訳) 並列データの不足は、低リソース言語のための高品質機械翻訳システムのトレーニングの大きな障害である。 幸運なことに、一部の低リソース言語は言語的に関連があるか、高リソース言語と類似している。 本研究では,この言語重なりを利用して,モノリンガルデータのみを用いた低リソース言語への翻訳を容易にするとともに,関連する高リソース言語の並列データも活用する。 我々の手法であるNMT-Adaptは,低リソース適応にモノリンガルデータを利用するために,デノイング自動符号化,バックトランスレーション,対向目的を組み合わせた。 3つの異なる言語ファミリーから7つの言語を実験し,本手法が他の翻訳ベースラインと比較して低リソース言語への翻訳を著しく改善することを示す。

The scarcity of parallel data is a major obstacle for training high-quality machine translation systems for low-resource languages. Fortunately, some low-resource languages are linguistically related or similar to high-resource languages; these related languages may share many lexical or syntactic structures. In this work, we exploit this linguistic overlap to facilitate translating to and from a low-resource language with only monolingual data, in addition to any parallel data in the related high-resource language. Our method, NMT-Adapt, combines denoising autoencoding, back-translation and adversarial objectives to utilize monolingual data for low-resource adaptation. We experiment on 7 languages from three different language families and show that our technique significantly improves translation into low-resource language compared to other translation baselines.
翻訳日:2021-06-01 17:20:35 公開日:2021-05-31
# sa2sl:アスペクトベースの感情分析からビジネスインテリジェンスのためのソーシャルリスニングシステムへ

SA2SL: From Aspect-Based Sentiment Analysis to Social Listening System for Business Intelligence ( http://arxiv.org/abs/2105.15079v1 )

ライセンス: Link先を確認
Luong Luc Phan, Phuc Huynh Pham, Kim Thi-Thanh Nguyen, Tham Thi Nguyen, Sieu Khai Huynh, Luan Thanh Nguyen, Tin Van Huynh, and Kiet Van Nguyen(参考訳) 本稿では,ベトナムにおけるアスペクトベース感情分析に基づくソーシャルリスニングシステムの構築プロセスについて紹介する。 まず、ベトナムのスマートフォンフィードバックデータセットであるUIT-ViSFDを、アスペクトベースの感情分析を評価するための厳密なアノテーションスキームに基づいて構築された新しいベンチマークコーパスとして作成する。 また,ベトナムのアスペクトベース感情タスクに対して,高速テキスト単語埋め込みを用いたBi-LSTMアーキテクチャに基づくアプローチを提案する。 実験の結果,本手法はアスペクトタスクでは84.48%,感情タスクでは63.06%,従来の機械学習やディープラーニングシステムでは63.06%のF1スコアを達成できた。 最後に、私たちは、データセット上で最高のパフォーマンスモデルに基づくソーシャルリスニングシステムであるSA2SLを構築します。

In this paper, we present a process of building a social listening system based on aspect-based sentiment analysis in Vietnamese from creating a dataset to building a real application. Firstly, we create UIT-ViSFD, a Vietnamese Smartphone Feedback Dataset as a new benchmark corpus built based on a strict annotation schemes for evaluating aspect-based sentiment analysis, consisting of 11,122 human-annotated comments for mobile e-commerce, which is freely available for research purposes. We also present a proposed approach based on the Bi-LSTM architecture with the fastText word embeddings for the Vietnamese aspect based sentiment task. Our experiments show that our approach achieves the best performances with the F1-score of 84.48% for the aspect task and 63.06% for the sentiment task, which performs several conventional machine learning and deep learning systems. Last but not least, we build SA2SL, a social listening system based on the best performance model on our dataset, which will inspire more social listening systems in future.
翻訳日:2021-06-01 17:20:22 公開日:2021-05-31
# 深層nlpモデルにおける言語知識の伝達学習の影響

How transfer learning impacts linguistic knowledge in deep NLP models? ( http://arxiv.org/abs/2105.15179v1 )

ライセンス: Link先を確認
Nadir Durrani and Hassan Sajjad and Fahim Dalvi(参考訳) トレーニング済みのニューラルネットワークモデルから下流タスクへの移行学習は、最近NLPの主要なテーマとなっている。 いくつかの研究者は、深部NLPモデルはモデルの異なる層で捉えた、非自明な量の言語知識を学習することを示した。 下流のNLPタスクに対する微調整が学習言語知識に与える影響について検討する。 我々は, BERT, RoBERTa, XLNetの各モデルに対して, 階層およびニューロンレベルの診断分類器を用いて検討を行った。 いくつかのGLUEタスクでは、ネットワークはコア言語情報に依存し、ネットワーク内でより深く保存するが、他のタスクではそれを忘れている。 言語情報は事前訓練された言語モデルに分散されるが、タスク固有の知識のために上位層を保存する微調整後、下位層にローカライズされる。 このパターンはアーキテクチャによって異なり、BERT は RoBERTa や XLNet に比べて比較的深い言語情報をネットワーク上に保持している。

Transfer learning from pre-trained neural language models towards downstream tasks has been a predominant theme in NLP recently. Several researchers have shown that deep NLP models learn non-trivial amount of linguistic knowledge, captured at different layers of the model. We investigate how fine-tuning towards downstream NLP tasks impacts the learned linguistic knowledge. We carry out a study across popular pre-trained models BERT, RoBERTa and XLNet using layer and neuron-level diagnostic classifiers. We found that for some GLUE tasks, the network relies on the core linguistic information and preserve it deeper in the network, while for others it forgets. Linguistic information is distributed in the pre-trained language models but becomes localized to the lower layers post fine-tuning, reserving higher layers for the task specific knowledge. The pattern varies across architectures, with BERT retaining linguistic information relatively deeper in the network compared to RoBERTa and XLNet, where it is predominantly delegated to the lower layers.
翻訳日:2021-06-01 17:20:05 公開日:2021-05-31
# 相互学習によるコード生成のための木構造デコーダトレーニングの改善

Improving Tree-Structured Decoder Training for Code Generation via Mutual Learning ( http://arxiv.org/abs/2105.14796v1 )

ライセンス: Link先を確認
Binbin Xie, Jinsong Su, Yubin Ge, Xiang Li, Jianwei Cui, Junfeng Yao and Bin Wang(参考訳) コード生成は、入力自然言語発話が与えられたコードを自動的に生成することを目的としている。 現在、支配的なモデルでは、シーケンスからツリーへのタスクとして扱われ、デコーダは抽象構文木のプレオーダートラバーサルに対応するアクションのシーケンスを出力する。 しかし、そのようなデコーダは、正しい動作予測を保証するのに不十分な事前のトラバーサルベースの先行アクションのみを利用する。 本稿では、まず、異なるトラバーサルに基づくデコード(プレオーダートラバーサル対幅優先トラバーサル)を持つニューラルコード生成モデル間のコンテキストモデリングの違いを分析し、それらのモデルを共同学習するための相互学習フレームワークを提案する。 この枠組みでは, 相互蒸留により2つのモデルを連続的に強化し, 学習ステップ毎に1対1の知識伝達を同期的に実行する。 具体的には,教師としてのモデルと教師としてのモデルとを交互に選択し,教師のトレーニングデータと行動予測分布の適合を学生に要求する。 これにより、両方のモデルが相互に知識を完全に吸収し、同時に改善することができる。 いくつかのベンチマークデータセットに対する実験結果と詳細な分析により,本手法の有効性が示された。 コードをhttps://github.com/D eepLearnXMU/CGMLでリリースします。

Code generation aims to automatically generate a piece of code given an input natural language utterance. Currently, among dominant models, it is treated as a sequence-to-tree task, where a decoder outputs a sequence of actions corresponding to the pre-order traversal of an Abstract Syntax Tree. However, such a decoder only exploits the preorder traversal based preceding actions, which are insufficient to ensure correct action predictions. In this paper, we first throughly analyze the context modeling difference between neural code generation models with different traversals based decodings (preorder traversal vs breadth-first traversal), and then propose to introduce a mutual learning framework to jointly train these models. Under this framework, we continuously enhance both two models via mutual distillation, which involves synchronous executions of two one-to-one knowledge transfers at each training step. More specifically, we alternately choose one model as the student and the other as its teacher, and require the student to fit the training data and the action prediction distributions of its teacher. By doing so, both models can fully absorb the knowledge from each other and thus could be improved simultaneously. Experimental results and in-depth analysis on several benchmark datasets demonstrate the effectiveness of our approach. We release our code at https://github.com/D eepLearnXMU/CGML.
翻訳日:2021-06-01 17:19:18 公開日:2021-05-31
# 周囲を知る - マルチモダリティコラボレーションによるパノラマ的マルチオブジェクト追跡

Know Your Surroundings: Panoramic Multi-Object Tracking by Multimodality Collaboration ( http://arxiv.org/abs/2105.14683v1 )

ライセンス: Link先を確認
Yuhang He, Wentao Yu, Jie Han, Xing Wei, Xiaopeng Hong, Yihong Gong(参考訳) 本稿では,自動走行とロボットナビゲーションの多目的追跡(MOT)問題に焦点をあてる。 既存のMOT手法の多くは、カメラの視野に傾向があり、背景の乱れや光条件の悪さによる複雑なシナリオにおけるトラッキング障害に悩まされる、特異なRGBカメラを用いて複数のオブジェクトを追跡する。 そこで本研究では,2次元パノラマ画像と3次元点雲の両方を入力として,マルチモダリティデータを用いて対象軌跡を推定するマルチモダリティパノラマ・マルチオブジェクト追跡フレームワーク(mmpat)を提案する。 提案手法は,パノラマ画像検出モジュール,マルチモダリティデータ融合モジュール,データアソシエーションモジュール,軌道推論モデルという4つの主要モジュールを含む。 提案手法をJRDBデータセット上で評価し,検出タスクと追跡タスクの両方においてMMPATが最高性能を達成し,最先端の手法を大きなマージン(APとMOTAでそれぞれ15.7と8.5の改善)で大幅に上回った。

In this paper, we focus on the multi-object tracking (MOT) problem of automatic driving and robot navigation. Most existing MOT methods track multiple objects using a singular RGB camera, which are prone to camera field-of-view and suffer tracking failures in complex scenarios due to background clutters and poor light conditions. To meet these challenges, we propose a MultiModality PAnoramic multi-object Tracking framework (MMPAT), which takes both 2D panorama images and 3D point clouds as input and then infers target trajectories using the multimodality data. The proposed method contains four major modules, a panorama image detection module, a multimodality data fusion module, a data association module and a trajectory inference model. We evaluate the proposed method on the JRDB dataset, where the MMPAT achieves the top performance in both the detection and tracking tasks and significantly outperforms state-of-the-art methods by a large margin (15.7 and 8.5 improvement in terms of AP and MOTA, respectively).
翻訳日:2021-06-01 17:11:50 公開日:2021-05-31
# 長期人物識別:ベンチマーク

Long-term Person Re-identification: A Benchmark ( http://arxiv.org/abs/2105.14685v1 )

ライセンス: Link先を確認
Peng Xu and Xiatian Zhu(参考訳) 既存の人物再識別(Re-ID)作業は、着替えや外見の変化を前提として、短期的な検索の問題がほとんどである。 しかし現実の世界では、場所、時間、日付、季節、天気、イベントによって異なる服装をすることが多い。 その結果,服の着替えを伴う長期のRe-IDには,既存の方法が適さないことがわかった。 最近の長期Re-IDの試みはいくつかあるが、衣服の変化を伴う大規模な現実的なデータセットは、短期Re-ID設定で既に経験されているような広範な研究を可能にするために欠如しており、不可欠である。 本研究では,大規模で現実的な人物再識別ベンチマークをタイムリに提供する。 1,1K人の身元から171Kの箱からなり、12ヶ月にわたって収集・構築されている。 このデータセットのユニークな特徴は、(1)自然/ネイティブな個人的外観(例えば、服や髪型)のバリエーション:着替えや着替えの度合いは、すべて非常に多様であり、数分、時間、日数、週、月、季節、年といった時間的ギャップが再現れる。 2)多様な生活の歩み:多岐にわたる年齢・職業の人々が、異なる気象条件(例えば、晴れ、曇り、風、雨、雪、極寒)やイベント(例えば、労働、余暇、日常活動)に現れる。 (3) リッチカメラのセットアップ: 生のビデオは17台の屋外防犯カメラで撮影され、様々な解像度が現実世界の監視システムで広範に密集している。 (4) 最大のスケール: 代替データセットと比較して、最大の (17) カメラ、(1082) アイデンティティ、および (171k) バウンディングボックスをカバーする。

Existing person re-identification (Re-ID) works mostly consider a short-term search problem assuming unchanged clothes and personal appearance. However, in realworld we often dress ourselves differently across locations, time, dates, seasons, weather, and events. As a result, the existing methods are unsuitable for long-term person Re-ID with clothes change involved. Whilst there are several recent longterm Re-ID attempts, a large realistic dataset with clothes change is lacking and indispensable for enabling extensive study as already experienced in short-term Re-ID setting. In this work, we contribute timely a large, realistic long-term person re-identification benchmark. It consists of 171K bounding boxes from 1.1K person identities, collected and constructed over a course of 12 months. Unique characteristics of this dataset include: (1) Natural/native personal appearance (e.g., clothes and hair style) variations: The degrees of clothes-change and dressing styles all are highly diverse, with the reappearing gap in time ranging from minutes, hours, and days to weeks, months, seasons, and years. (2) Diverse walks of life: Persons across a wide range of ages and professions appear in different weather conditions (e.g., sunny, cloudy, windy, rainy, snowy, extremely cold) and events (e.g., working, leisure, daily activities). (3) Rich camera setups: The raw videos were recorded by 17 outdoor security cameras with various resolutions operating in a real-world surveillance system for a wide and dense block. (4) Largest scale: It covers the largest number of (17) cameras, (1082) identities, and (171K) bounding boxes, as compared to alternative datasets.
翻訳日:2021-06-01 17:11:29 公開日:2021-05-31
# 移動可能なスパース対向攻撃

Transferable Sparse Adversarial Attack ( http://arxiv.org/abs/2105.14727v1 )

ライセンス: Link先を確認
Ziwen He, Wei Wang, Jing Dong, Tieniu Tan(参考訳) ディープニューラルネットワークは、敵の攻撃に対する脆弱性を示している。 本稿では,$\ell_0$ のノルム制約に基づいて,画像の画素数を数個だけ修正することで,分散した敵攻撃に注目する。 攻撃成功率が高いにもかかわらず、先行スパース攻撃法はターゲットモデルに過度に適合するため、ブラックボックスプロトコル下での転送性が低い。 そこで本研究では,オーバーフィッティング問題を緩和するジェネレータアーキテクチャを導入し,移動可能なスパース逆例を効率的に作成する。 具体的には、発生器はスパース摂動を振幅と位置成分に分解する。 我々は、これら2つのコンポーネントをエンドツーエンドで協調的に最適化するために、ランダム量子化演算子を慎重に設計する。 実験により, 提案手法は, 最先端手法と比較して, ほぼ同じ間隔で大きなマージンで転送性能を向上したことがわかった。 さらに,提案手法は他の最適化手法よりも700$\times$高速な推論速度を実現する。 コードはhttps://github.com/s haguopohuaizhe/TSAAで公開されている。

Deep neural networks have shown their vulnerability to adversarial attacks. In this paper, we focus on sparse adversarial attack based on the $\ell_0$ norm constraint, which can succeed by only modifying a few pixels of an image. Despite a high attack success rate, prior sparse attack methods achieve a low transferability under the black-box protocol due to overfitting the target model. Therefore, we introduce a generator architecture to alleviate the overfitting issue and thus efficiently craft transferable sparse adversarial examples. Specifically, the generator decouples the sparse perturbation into amplitude and position components. We carefully design a random quantization operator to optimize these two components jointly in an end-to-end way. The experiment shows that our method has improved the transferability by a large margin under a similar sparsity setting compared with state-of-the-art methods. Moreover, our method achieves superior inference speed, 700$\times$ faster than other optimization-based methods. The code is available at https://github.com/s haguopohuaizhe/TSAA.
翻訳日:2021-06-01 17:10:59 公開日:2021-05-31
# 視覚認識のためのデュアルストリームネットワーク

Dual-stream Network for Visual Recognition ( http://arxiv.org/abs/2105.14734v1 )

ライセンス: Link先を確認
Mingyuan Mao, Renrui Zhang, Honghui Zheng, Peng Gao, Teli Ma, Yan Peng, Errui Ding, Shumin Han(参考訳) グローバルな表現能力を持つトランスフォーマーは視覚タスクの競合的な結果を得るが、入力画像の高レベルな局所パターン情報を考慮できない。 本稿では、画像分類のための局所的および大域的パターン特徴の表現能力をフルに検討するための汎用Dual-stream Network(DS-Net)を提案する。 ds-netは細粒度と統合度を同時に計算し,それらを効率的に融合することができる。 具体的には,各ブロック内の2つの異なる解像度を処理するイントラスケール伝搬モジュールと,2つのスケールで特徴間の情報インタラクションを行うイントラスケールアライメントモジュールを提案する。 さらに、下流密度予測のための文脈情報を強化するために、Dual-stream FPN (DS-FPN) も設計する。 ベルとホイッスルがなければ、DS-NetはImageNet-1kのトップ1の精度でDeit-Smallを2.4%上回り、他のVision TransformerやResNetよりも最先端のパフォーマンスを実現している。 オブジェクト検出とインスタンスセグメンテーションでは、DS-Net-Small は MSCOCO 2017 の mAP でそれぞれ ResNet-50 を6.4%、MSCOCO 2017 で 5.5 % で上回り、従来の最先端のスキームを抜いた。 コードはまもなくリリースされる。

Transformers with remarkable global representation capacities achieve competitive results for visual tasks, but fail to consider high-level local pattern information in input images. In this paper, we present a generic Dual-stream Network (DS-Net) to fully explore the representation capacity of local and global pattern features for image classification. Our DS-Net can simultaneously calculate fine-grained and integrated features and efficiently fuse them. Specifically, we propose an Intra-scale Propagation module to process two different resolutions in each block and an Inter-Scale Alignment module to perform information interaction across features at dual scales. Besides, we also design a Dual-stream FPN (DS-FPN) to further enhance contextual information for downstream dense predictions. Without bells and whistles, the propsed DS-Net outperforms Deit-Small by 2.4% in terms of top-1 accuracy on ImageNet-1k and achieves state-of-the-art performance over other Vision Transformers and ResNets. For object detection and instance segmentation, DS-Net-Small respectively outperforms ResNet-50 by 6.4% and 5.5 % in terms of mAP on MSCOCO 2017, and surpasses the previous state-of-the-art scheme, which significantly demonstrates its potential to be a general backbone in vision tasks. The code will be released soon.
翻訳日:2021-06-01 17:10:46 公開日:2021-05-31
# STDPを用いたスパイクニューラルネットワークを用いた時空間行動認識における前処理の効果に関する研究

A Study On the Effects of Pre-processing On Spatio-temporal Action Recognition Using Spiking Neural Networks Trained with STDP ( http://arxiv.org/abs/2105.14740v1 )

ライセンス: Link先を確認
El-Assal Mireille and Tirilly Pierre and Bilasco Ioan Marius(参考訳) 近年、ニューラルネットワークのスパイクへの関心が高まっている。 SNNは、エネルギー効率などのパターン認識におけるANNのボトルネックに対する仮説的な解決策と見なされている。 しかし、現在のANN-to-SNN変換やバックプロパゲーションのような手法はこれらのネットワークを十分に活用するものではない。 この情報は映像理解に重要であるため,映像分類タスクにおけるスパイク決定依存可塑性(stdp)などの教師なし学習法で訓練されたsnsの挙動を研究することが重要である。 本稿では,時間情報を静的形式に変換し,遅延符号化を用いて視覚情報をスパイクに変換する複数の手法を提案する。 これらの手法は、アーリー・フュージョンとレイト・フュージョンとして知られる2種類の時間的融合と組み合わせられ、ビデオから時間的・時間的特徴をスパイキングニューラルネットワークが捉えるのに役立つ。 本稿では,stdpで学習した畳み込みスパイキングニューラルネットワークのネットワークアーキテクチャに依拠し,このネットワークの性能を動作認識課題に対してテストする。 スパイクニューラルネットワークが、異なるムーブメント抽出と表現方法にどのように反応するかを理解することは、SNNとANNのパフォーマンスギャップを軽減するのに役立つ。 本稿では,スパイキングニューラルネットワークを用いた行動認識において,行動の形状と速度の類似性が与える影響について述べる。

There has been an increasing interest in spiking neural networks in recent years. SNNs are seen as hypothetical solutions for the bottlenecks of ANNs in pattern recognition, such as energy efficiency. But current methods such as ANN-to-SNN conversion and back-propagation do not take full advantage of these networks, and unsupervised methods have not yet reached a success comparable to advanced artificial neural networks. It is important to study the behavior of SNNs trained with unsupervised learning methods such as spike-timing dependent plasticity (STDP) on video classification tasks, including mechanisms to model motion information using spikes, as this information is critical for video understanding. This paper presents multiple methods of transposing temporal information into a static format, and then transforming the visual information into spikes using latency coding. These methods are paired with two types of temporal fusion known as early and late fusion, and are used to help the spiking neural network in capturing the spatio-temporal features from videos. In this paper, we rely on the network architecture of a convolutional spiking neural network trained with STDP, and we test the performance of this network when challenged with action recognition tasks. Understanding how a spiking neural network responds to different methods of movement extraction and representation can help reduce the performance gap between SNNs and ANNs. In this paper we show the effect of the similarity in the shape and speed of certain actions on action recognition with spiking neural networks, we also highlight the effectiveness of some methods compared to others.
翻訳日:2021-06-01 17:10:17 公開日:2021-05-31
# 部分監督膵管腺癌予測のための学習誘導的注意誘導法

Learning Inductive Attention Guidance for Partially Supervised Pancreatic Ductal Adenocarcinoma Prediction ( http://arxiv.org/abs/2105.14773v1 )

ライセンス: Link先を確認
Yan Wang, Peng Tang, Yuyin Zhou, Wei Shen, Elliot K. Fishman, and Alan L. Yuille(参考訳) 膵管腺癌(PDAC)は、アメリカ合衆国で3番目に多いがん死の原因である。 深層学習による医学画像からのpdacs(分類とセグメント化の両方を含む)のような腫瘍の予測は増えつつあるが、通常、トレーニングには大量の注釈付きデータが必要である。 本稿では,全てのトレーニングデータに対して安価な画像レベルのアノテーションが提供され,それらのサブセットに対してのみ,コストのかかるvoxelアノテーションが利用できる,部分教師付き設定について考察する。 Inductive Attention Guidance Network (IAG-Net) を提案し、通常の/PDAC分類のためのグローバル画像レベルの分類器と半教師付きPDAC分類のためのローカルボクセルレベルの分類器を共同で学習する。 We instantiate both the global and the local classifiers by multiple instance learning (MIL), where the attention guidance, indicating roughly where the PDAC regions are, is the key to bridging them: For global MIL based normal/PDAC classification, attention serves as a weight for each instance (voxel) during MIL pooling, which eliminates the distraction from the background; For local MIL based semi-supervised PDAC segmentation, the attention guidance is inductive, which not only provides bag-level pseudo-labels to training data without per-voxel annotations for MIL training, but also acts as a proxy of an instance-level classifier. IAG-Netは,最先端技術と比較してPDACセグメンテーション精度を5%以上向上させることを示した。

Pancreatic ductal adenocarcinoma (PDAC) is the third most common cause of cancer death in the United States. Predicting tumors like PDACs (including both classification and segmentation) from medical images by deep learning is becoming a growing trend, but usually a large number of annotated data are required for training, which is very labor-intensive and time-consuming. In this paper, we consider a partially supervised setting, where cheap image-level annotations are provided for all the training data, and the costly per-voxel annotations are only available for a subset of them. We propose an Inductive Attention Guidance Network (IAG-Net) to jointly learn a global image-level classifier for normal/PDAC classification and a local voxel-level classifier for semi-supervised PDAC segmentation. We instantiate both the global and the local classifiers by multiple instance learning (MIL), where the attention guidance, indicating roughly where the PDAC regions are, is the key to bridging them: For global MIL based normal/PDAC classification, attention serves as a weight for each instance (voxel) during MIL pooling, which eliminates the distraction from the background; For local MIL based semi-supervised PDAC segmentation, the attention guidance is inductive, which not only provides bag-level pseudo-labels to training data without per-voxel annotations for MIL training, but also acts as a proxy of an instance-level classifier. Experimental results show that our IAG-Net boosts PDAC segmentation accuracy by more than 5% compared with the state-of-the-arts.
翻訳日:2021-06-01 17:09:49 公開日:2021-05-31
# 深層学習を用いたインキャビンと運転シーンモニタリングに基づく運転意図予測

Driver Intention Anticipation Based on In-Cabin and Driving Scene Monitoring Using Deep Learning ( http://arxiv.org/abs/2105.14790v1 )

ライセンス: Link先を確認
Mahdi Bonyani, Mina Rahmanian, Simindokht Jahangard(参考訳) 運転安全性の向上と自動車事故の回避のために,高度運転支援システム (ADAS) が注目されている。 近年の研究では、運転者の意図をシステムの重要部分として予測することに焦点を当てている。 本研究では,brain4carsデータセットを用いたダイバー操作の予測に4つの入力を用い,実際の動作が起こる5,4,3,2,1秒前に操作予測を行う新しい枠組みを提案する。 1) 内部ビューのみ、2) 外部ビュー、3) 内部ビューと外部ビューの両方を使用して、フレームワークを3つのシナリオで評価しました。 データセットをトレーニング,検証,テストセットに分割し,K倍のクロス検証も活用した。 最先端の研究と比較すると、アーキテクチャは高速で、2番目と3番目のシナリオで高いパフォーマンスを実現しています。 評価指標として精度,精度,リコール,f1-scoreを用い,外視では82.41%,82.28%,82,42% ,82.24%,内視では98.90%,98.96%,外視では98.90%,外視では98.88%を得た。

To improve driving safety and avoid car accidents, Advanced Driver Assistance Systems (ADAS) are given significant attention. Recent studies have focused on predicting driver intention as a key part of these systems. In this study, we proposed new framework in which 4 inputs are employed to anticipate diver maneuver using Brain4Cars dataset and the maneuver prediction is achieved from 5, 4, 3, 2, 1 seconds before the actual action occurs. We evaluated our framework in three scenarios: using only 1) inside view 2) outside view and 3) both inside and outside view. We divided the dataset into training, validation and test sets, also K-fold cross validation is utilized. Compared with state-of-the-art studies, our architecture is faster and achieved higher performance in second and third scenario. Accuracy, precision, recall and f1-score as evaluation metrics were utilized and the result of 82.41%, 82.28%, 82,42% and 82.24% for outside view and 98.90%, 98.96%, 98.90% and 98.88% for both inside and outside view were gained, respectively.
翻訳日:2021-06-01 17:09:26 公開日:2021-05-31
# バイオメトリックシステムにおけるデモグラフィックフェアネス:専門家は何を言っているのか?

Demographic Fairness in Biometric Systems: What do the Experts say? ( http://arxiv.org/abs/2105.14844v1 )

ライセンス: Link先を確認
Christian Rathgeb and Pawel Drozdowski and Naser Damer and Dinusha C. Frings and Christoph Busch(参考訳) アルゴリズムによる意思決定システムは、多くのメディア、組織、研究者によって「バイアス」、「人種差別」、「セクシスト」、「不公平」としばしばラベル付けされている。 このような評価が正当化されるかどうか、市民や政策立案者が懸念すべきかどうか、議論が続いている。 これらのその他の問題は最近、個人的、商業的、政府的な応用においてユビキタスである生体認証技術の文脈でホットな話題となっている。 バイオメトリックスは、多くの監視、アクセス制御、および運用上のアイデンティティ管理システムの重要な構成要素であり、それによって世界中の何十億もの人々に直接的または間接的に影響を及ぼす。 近年、欧州バイオメトリックス協会は"demographic fairness in bioometric systems"をテーマとしたイベントシリーズを組織した。 イベントには、学術、産業、政府組織の国際専門家によるプレゼンテーションや、専門家と聴衆の間の対話や議論の促進が含まれていた。 専門家のさらなる相談はアンケートによって行われた。 本研究は,評価指標や基準,関連する問題など,いくつかの重要な側面を含む生体計測システムにおける統計学的公平性に関する専門家の意見と知見をまとめたものである。 バイオメトリックシステムや法的および倫理的な問題における透明性と説明可能性の必要性。

Algorithmic decision systems have frequently been labelled as "biased", "racist", "sexist", or "unfair" by numerous media outlets, organisations, and researchers. There is an ongoing debate about whether such assessments are justified and whether citizens and policymakers should be concerned. These and other related matters have recently become a hot topic in the context of biometric technologies, which are ubiquitous in personal, commercial, and governmental applications. Biometrics represent an essential component of many surveillance, access control, and operational identity management systems, thus directly or indirectly affecting billions of people all around the world. Recently, the European Association for Biometrics organised an event series with "demographic fairness in biometric systems" as an overarching theme. The events featured presentations by international experts from academic, industry, and governmental organisations and facilitated interactions and discussions between the experts and the audience. Further consultation of experts was undertaken by means of a questionnaire. This work summarises opinions of experts and findings of said events on the topic of demographic fairness in biometric systems including several important aspects such as the developments of evaluation metrics and standards as well as related issues, e.g. the need for transparency and explainability in biometric systems or legal and ethical issues.
翻訳日:2021-06-01 17:09:01 公開日:2021-05-31
# 自然言語に基づく車両検索のための言語接続とビジョン

Connecting Language and Vision for Natural Language-Based Vehicle Retrieval ( http://arxiv.org/abs/2105.14897v1 )

ライセンス: Link先を確認
Shuai Bai, Zhedong Zheng, Xiaohan Wang, Junyang Lin, Zhu Zhang, Chang Zhou, Yi Yang, Hongxia Yang(参考訳) 車両探索は、AIシティーにおける効率的な交通管理のための基本的なタスクである。 既存のプラクティスのほとんどは、車両の再識別や車両追跡など、画像ベースの車両マッチングに焦点を当てている。 本稿では,言語記述という新たなモダリティを,興味ある対象を探索し,現実のシナリオにおけるこの課題の可能性を探るために応用する。 自然言語に基づく車両探索は、視覚と言語モダリティの両方の詳細な理解という新たな課題を提起する。 言語と視覚を結びつけるために,トランスフォーマーに基づく言語モデルと最先端のビジョンモデルとの協調学習を提案する。 ネットワーク構造設計とトレーニング戦略を除いて、いくつかの最適化目標も本研究で再訪されている。 定性的かつ定量的な実験により,提案手法の有効性が検証された。 提案手法は,第5回AIシティチャレンジで1位を獲得し,プライベートテストセットにおいて18.69%のMRRの精度で競合性能を得た。 本研究は,現実世界の車両検索システムにおいて,言語記述を効果的かつ効率的に活用するための今後の研究の道を開くことを願っている。 コードはhttps://github.com/S huaiBai623/AIC2021-T 5-CLVで入手できる。

Vehicle search is one basic task for the efficient traffic management in terms of the AI City. Most existing practices focus on the image-based vehicle matching, including vehicle re-identification and vehicle tracking. In this paper, we apply one new modality, i.e., the language description, to search the vehicle of interest and explore the potential of this task in the real-world scenario. The natural language-based vehicle search poses one new challenge of fine-grained understanding of both vision and language modalities. To connect language and vision, we propose to jointly train the state-of-the-art vision models with the transformer-based language model in an end-to-end manner. Except for the network structure design and the training strategy, several optimization objectives are also re-visited in this work. The qualitative and quantitative experiments verify the effectiveness of the proposed method. Our proposed method has achieved the 1st place on the 5th AI City Challenge, yielding competitive performance 18.69% MRR accuracy on the private test set. We hope this work can pave the way for the future study on using language description effectively and efficiently for real-world vehicle retrieval systems. The code will be available at https://github.com/S huaiBai623/AIC2021-T 5-CLV.
翻訳日:2021-06-01 17:08:43 公開日:2021-05-31
# vidface - 未調整のスナップショットを持つビデオ顔幻覚のためのフルトランスフォーマーソルバ

VidFace: A Full-Transformer Solver for Video FaceHallucination with Unaligned Tiny Snapshots ( http://arxiv.org/abs/2105.14954v1 )

ライセンス: Link先を確認
Yuan Gan, Yawei Luo, Xin Yu, Bang Zhang, Yi Yang(参考訳) 本稿では,複数の低解像度(LR)ビデオスナップショットから高解像度(HR)人間の顔を幻覚させる作業について検討する。 複数のサムネイル間のフルレンジ時空間情報と顔構造をフル活用するために、VidFaceと呼ばれる純粋なトランスフォーマーベースモデルを提案する。 具体的には、vidfaceは複数のスナップショットを一度に処理し、空間的および時間的情報を統合的に活用して、すべてのフレームにまたがる顔アライメントを探索することで、アライメントエラーの蓄積を回避する。 さらに,アライメント機構を効果的に定式化するだけでなく,悪名高い事前学習に取って代わる,トランスフォーマーに顔面前野を装着するリカレント位置埋め込みモジュールを設計した。 最後に、公開voxceleb2ベンチマークから、新しい大規模なビデオ顔幻覚データセットをキュレーションします。 我々の知る限りでは、私たちはビデオベースの顔幻覚に適した変換器ベースの統一解法を開発する最初の試みである。 パブリックなビデオフェース・ベンチマークによる大規模な実験により,提案手法が芸術の状態を著しく上回ることを示した。

In this paper, we investigate the task of hallucinating an authentic high-resolution (HR) human face from multiple low-resolution (LR) video snapshots. We propose a pure transformer-based model, dubbed VidFace, to fully exploit the full-range spatio-temporal information and facial structure cues among multiple thumbnails. Specifically, VidFace handles multiple snapshots all at once and harnesses the spatial and temporal information integrally to explore face alignments across all the frames, thus avoiding accumulating alignment errors. Moreover, we design a recurrent position embedding module to equip our transformer with facial priors, which not only effectively regularises the alignment mechanism but also supplants notorious pre-training. Finally, we curate a new large-scale video face hallucination dataset from the public Voxceleb2 benchmark, which challenges prior arts on tackling unaligned and tiny face snapshots. To the best of our knowledge, we are the first attempt to develop a unified transformer-based solver tailored for video-based face hallucination. Extensive experiments on public video face benchmarks show that the proposed method significantly outperforms the state of the arts.
翻訳日:2021-06-01 17:08:23 公開日:2021-05-31
# 赤外小目標検出のための非凸テンソル低ランク近似

Non-Convex Tensor Low-Rank Approximation for Infrared Small Target Detection ( http://arxiv.org/abs/2105.14974v1 )

ライセンス: Link先を確認
Ting Liu, Jungang Yang, Boyang Li, Chao Xiao, Yang Sun, Yingqian Wang, Wei An(参考訳) 赤外線小目標検出は、多くの赤外線システムにおいて重要な役割を果たす。 近年,多くの赤外線小目標検出手法が提案され,低ランクモデルが強力なツールとして利用されている。 しかし、ほとんどの低ランク法は異なる特異値に対して同じ重みを割り当て、不正確な背景推定につながる。 本稿では、異なる特異値が重要であり、識別的に扱うべきであることを考慮し、赤外小ターゲット検出のための非凸テンソル低ランク近似(NTLA)法を提案する。 本手法では,異なる重みを異なる特異値に適応的に割り当て,正確な背景推定を行う。 提案したNTLAに基づいて,非対称な時空間総変動(ASTTV)を用いて背景特徴を網羅的に記述し,複雑な場面での背景推定と検出を行う。 従来の全変分法と比較して、ASTTVは空間的および時間的正則化のために異なる滑らか度強度を利用する。 提案モデルの最適解を求めるための効率的なアルゴリズムを開発した。 いくつかの最先端手法と比較して,提案手法は異なる評価指標の改善を実現する。 合成データと実データの両方に関する広範囲な実験により,提案手法は,偽率の低い複雑な状況において,よりロバストな検出を実現することを証明した。

Infrared small target detection plays an important role in many infrared systems. Recently, many infrared small target detection methods have been proposed, in which the lowrank model has been used as a powerful tool. However, most low-rank-based methods assign the same weights for different singular values, which will lead to inaccurate background estimation. Considering that different singular values have different importance and should be treated discriminatively, in this paper, we propose a non-convex tensor low-rank approximation (NTLA) method for infrared small target detection. In our method, NTLA adaptively assigns different weights to different singular values for accurate background estimation. Based on the proposed NTLA, we use the asymmetric spatial-temporal total variation (ASTTV) to thoroughly describe background feature, which can achieve good background estimation and detection in complex scenes. Compared with the traditional total variation approach, ASTTV exploits different smoothness strength for spatial and temporal regularization. We develop an efficient algorithm to find the optimal solution of the proposed model. Compared with some state-of-the-art methods, the proposed method achieve an improvement in different evaluation metrics. Extensive experiments on both synthetic and real data demonstrate the proposed method provide a more robust detection in complex situations with low false rates.
翻訳日:2021-06-01 17:08:03 公開日:2021-05-31
# 都市交通監視(UTS:Urban Traffic Surveillance) : 2次元検出に基づく完全確率的3D追跡手法

Urban Traffic Surveillance (UTS): A fully probabilistic 3D tracking approach based on 2D detections ( http://arxiv.org/abs/2105.14993v1 )

ライセンス: Link先を確認
Henry Bradler, Adrian Kretz and Rudolf Mester(参考訳) 都市交通監視(英語: urban traffic surveillance、略称:uts)は、複数の車線や車両が集中する都市交通シナリオにおける車両を検知し、鋭い旋回操作を行う単眼およびキャリブレーションビデオカメラに基づく監視システムである。 UTSは、Unscented Kalmanフィルタに基づく3Dバウンディングボックス表現と、物理的に合理的な3Dモーションモデルを用いて車両を追跡する。 UTSは3次元世界座標系における位置、形状、運動情報を復元するため、多様な交通違反を認識したり、貴重な交通情報を提供するために使用できる。 我々は、各車両に2D境界ボックスとクラスラベルを出力する検出器としてYOLOv3を頼りにしている。 2D検出器は、さまざまなラベル付きトレーニングデータが利用できるため、我々のシステムを異なるカメラ視点にはるかに独立させる。 これにより、よりハードウェア効率が良く、優れた一般化が可能になる。 2次元検出に基づく3Dトラッキングのタスクは、車両形状に関するクラス固有の事前知識を統合することで支援される。 都市部における車両監視設定とラベル付き3Dバウンディングボックスによるデータセットの非存在により,CARLAシミュレータからの自己生成合成データと地上真実を用いてUTSを定量的に評価した。 さらに,実世界のデータに対するUTSの動作の質的な印象を与える。 私たちの実装は、かなりモダンなワークステーション上でリアルタイムに動作できます。 われわれの知る限り、UTSは監視シナリオ(静止カメラによる移動目標の観測)の中で唯一の3D車両追跡システムである。

Urban Traffic Surveillance (UTS) is a surveillance system based on a monocular and calibrated video camera that detects vehicles in an urban traffic scenario with dense traffic on multiple lanes and vehicles performing sharp turning maneuvers. UTS then tracks the vehicles using a 3D bounding box representation and a physically reasonable 3D motion model relying on an Unscented Kalman filter based approach. Since UTS recovers positions, shape and motion information in a three-dimensional world coordinate system, it can be employed to recognize diverse traffic violations or to supply intelligent vehicles with valuable traffic information. We rely on YOLOv3 as a detector yielding 2D bounding boxes and class labels for each vehicle. A 2D detector renders our system much more independent to different camera perspectives as a variety of labeled training data is available. This allows for a good generalization while also being more hardware efficient. The task of 3D tracking based on 2D detections is supported by integrating class specific prior knowledge about the vehicle shape. We quantitatively evaluate UTS using self generated synthetic data and ground truth from the CARLA simulator, due to the non-existence of datasets with an urban vehicle surveillance setting and labeled 3D bounding boxes. Additionally, we give a qualitative impression of how UTS performs on real-world data. Our implementation is capable of operating in real time on a reasonably modern workstation. To the best of our knowledge, UTS is the only 3D vehicle tracking system in a surveillance scenario (static camera observing moving targets).
翻訳日:2021-06-01 17:07:43 公開日:2021-05-31
# 大規模時空間人物再識別:アルゴリズムとベンチマーク

Large-Scale Spatio-Temporal Person Re-identification: Algorithm and Benchmark ( http://arxiv.org/abs/2105.15076v1 )

ライセンス: Link先を確認
Xiujun Shu, Xiao Wang, Shiliang Zhang, Xianghao Zhang, Yuanqi Chen, Ge Li, Qi Tian(参考訳) 空間的および時間的スパンが大きいシナリオにおける人物再識別(re-id)は完全には検討されていない。 これは、既存のベンチマークデータセットが主に、例えば、キャンパスの特定の領域のカメラによって数日間に記録されたビデオを使用して、空間的および時間的範囲に限られていたためである。 このような制限された空間的・時間的範囲は、実際のシナリオで人物の再識別の困難をシミュレートすることが困難である。 本研究では,224k以上の画像を持つ10,860のIDを含む,大規模時空間(LaST)人物再IDデータセットを提案する。 既存のデータセットと比較すると、LaSTはより困難で多様なreID設定を示し、空間的および時間的範囲が大幅に大きい。 例えば、各個人は異なる都市や国に出現し、昼から夜、春から冬にかけて様々な時間帯に出現する。 われわれの知る限りでは、LaSTは最大時空間範囲を持つ新しい人物のre-IDデータセットである。 LaSTに基づいて14個のre-IDアルゴリズムの総合的な性能評価を行い,その課題を検証した。 さらに,このような難易度の高いre-id設定では,実装が容易なベースラインを提案する。 また、LaST上で事前トレーニングされたモデルが、短期および布の交換シナリオを持つ既存のデータセットでうまく一般化可能であることも確認した。 LaSTは将来、より現実的で挑戦的なre-IDタスクに向けて機能することを期待しています。 データセットの詳細はhttps://github.com/s huxjweb/last.git.com で確認できる。

Person re-identification (re-ID) in the scenario with large spatial and temporal spans has not been fully explored. This is partially because that, existing benchmark datasets were mainly collected with limited spatial and temporal ranges, e.g., using videos recorded in a few days by cameras in a specific region of the campus. Such limited spatial and temporal ranges make it hard to simulate the difficulties of person re-ID in real scenarios. In this work, we contribute a novel Large-scale Spatio-Temporal (LaST) person re-ID dataset, including 10,860 identities with more than 224k images. Compared with existing datasets, LaST presents more challenging and high-diversity reID settings, and significantly larger spatial and temporal ranges. For instance, each person can appear in different cities or countries, and in various time slots from daytime to night, and in different seasons from spring to winter. To our best knowledge, LaST is a novel person re-ID dataset with the largest spatiotemporal ranges. Based on LaST, we verified its challenge by conducting a comprehensive performance evaluation of 14 re-ID algorithms. We further propose an easy-to-implement baseline that works well on such challenging re-ID setting. We also verified that models pre-trained on LaST can generalize well on existing datasets with short-term and cloth-changing scenarios. We expect LaST to inspire future works toward more realistic and challenging re-ID tasks. More information about the dataset is available at https://github.com/s huxjweb/last.git.
翻訳日:2021-06-01 17:07:19 公開日:2021-05-31
# 進化的アルゴリズムの類似性:統一シーケンスモデルの設計

Analogous to Evolutionary Algorithm: Designing a Unified Sequence Model ( http://arxiv.org/abs/2105.15089v1 )

ライセンス: Link先を確認
Jiangning Zhang, Chao Xu, Jian Li, Wenzhou Chen, Yabiao Wang, Ying Tai, Shuo Chen, Chengjie Wang, Feiyue Huang, Yong Liu(参考訳) 生物学的進化に触発されて, 実用的進化アルゴリズム (ea) の類似性を用いて視覚トランスフォーマーの合理性を説明し, 両者が一貫した数学的表現を持っていることを導出する。 eaの動的な地域人口と同様に、既存のトランスフォーマー構造を改善し、より効率的なeatモデルを提案し、異なるタスクをより柔軟に扱うタスク関連ヘッドを設計する。 さらに,現在の視覚変換器に空間充填曲線を導入し,画像データを一様シーケンシャル形式に配列する。 したがって、マルチモーダルタスクに対処する統合EATフレームワークを設計でき、ネットワークアーキテクチャをデータフォーマット適応から分離することができる。 本研究では,imagenet分類タスクにおいて,パラメータが小さくスループットも向上しつつ,最新の視覚トランスフォーマーに比べて最先端の結果を得る。 さらに、統一EAT(Text-Based Image Retrieval)の優位性を示すために、マルチモデルタスクを実行し、CSSデータセットのベースライン上のランク1を+3.7ポイント改善する。

Inspired by biological evolution, we explain the rationality of Vision Transformer by analogy with the proven practical Evolutionary Algorithm (EA) and derive that both of them have consistent mathematical representation. Analogous to the dynamic local population in EA, we improve the existing transformer structure and propose a more efficient EAT model, and design task-related heads to deal with different tasks more flexibly. Moreover, we introduce the spatial-filling curve into the current vision transformer to sequence image data into a uniform sequential format. Thus we can design a unified EAT framework to address multi-modal tasks, separating the network architecture from the data format adaptation. Our approach achieves state-of-the-art results on the ImageNet classification task compared with recent vision transformer works while having smaller parameters and greater throughput. We further conduct multi-model tasks to demonstrate the superiority of the unified EAT, e.g., Text-Based Image Retrieval, and our approach improves the rank-1 by +3.7 points over the baseline on the CSS dataset.
翻訳日:2021-06-01 17:06:56 公開日:2021-05-31
# Pho(SC)Net: 歴史的文書におけるゼロショット単語認識へのアプローチ

Pho(SC)Net: An Approach Towards Zero-shot Word Image Recognition in Historical Documents ( http://arxiv.org/abs/2105.15093v1 )

ライセンス: Link先を確認
Anuj Rai, Narayanan C. Krishnan, and Sukalpa Chanda(参考訳) 単語画像認識のための歴史的文書画像アーカイブに単語を注釈することは、時間と熟練した人材を必要とする(歴史家、古文書家など)。 現実のシナリオでは、可能なすべての単語のサンプル画像を取得することも不可能である。 しかし、ゼロショット学習手法は、そのような歴史的文書画像において、見当たらない/見当たらない単語を認識するのによく用いられる。 単語のスポッティングと認識に関する従来の最先端の手法に基づき,文字の形状を2つの異なる単語に区別し,見当たらない単語の認識に効果的であることを示すハイブリッド表現を提案する。 この表現はPHOCから派生したPraamidal Histogram of Shapes (PHOS)と呼ばれており、単語中の文字の発生と位置に関する情報を埋め込んでいる。 その後,この2つの表現を組み合わせ,phos と phoc の双方の特性を有する埋め込みの有効性を検討する実験を行った。 Phos"と"Pho(SC)"を併用した表現の有効性を正当化する2つの公開史料データセットと1つの合成手書きデータセットに対して,エンコーリング結果を得た。

Annotating words in a historical document image archive for word image recognition purpose demands time and skilled human resource (like historians, paleographers). In a real-life scenario, obtaining sample images for all possible words is also not feasible. However, Zero-shot learning methods could aptly be used to recognize unseen/out-of-lexico n words in such historical document images. Based on previous state-of-the-art methods for word spotting and recognition, we propose a hybrid representation that considers the character's shape appearance to differentiate between two different words and has shown to be more effective in recognizing unseen words. This representation has been termed as Pyramidal Histogram of Shapes (PHOS), derived from PHOC, which embeds information about the occurrence and position of characters in the word. Later, the two representations are combined and experiments were conducted to examine the effectiveness of an embedding that has properties of both PHOS and PHOC. Encouraging results were obtained on two publicly available historical document datasets and one synthetic handwritten dataset, which justifies the efficacy of "Phos" and the combined "Pho(SC)" representation.
翻訳日:2021-06-01 17:06:39 公開日:2021-05-31
# 対向訓練のための適応的特徴アライメント

Adaptive Feature Alignment for Adversarial Training ( http://arxiv.org/abs/2105.15157v1 )

ライセンス: Link先を確認
Tao Wang and Ruixin Zhang and Xingyu Chen and Kai Zhao and Xiaolin Huang and Yuge Huang and Shaoxin Li and Jilin Li and Feiyue Huang(参考訳) 最近の研究によると、畳み込みニューラルネットワーク(CNN)は一般的に敵の攻撃に対して脆弱であり、セキュリティに敏感なアプリケーションに脅威をもたらす。 多くの敵防衛法は、精度を犠牲にして堅牢性を向上し、標準と敵の精度の矛盾を生じさせる。 本稿では,特徴統計が単調かつ円滑に変化し,攻撃強度が上昇する興味深い現象を観察する。 この観察に基づいて,任意の攻撃強度の特徴を生成する適応的特徴アライメント(afa)を提案する。 本手法は任意の攻撃力の特徴を自動的に整列するように訓練する。 これは双対BNアーキテクチャにおける拡散重みの予測によって行われる。 従来のモデルの再トレーニングや、異なる攻撃強度のハイパーパラメータを手動で調整する必要のある作業とは異なり、本手法では、ハイパーパラメータを導入することなく、任意の攻撃強度を単一モデルで処理することができる。 重要な点として,本手法は,標準精度の低下を伴わずに,対向サンプルに対するモデルロバスト性を向上する。 CIFAR-10、SVHN、および小画像Netデータセットの実験により、我々の手法は幅広い攻撃強度の下で最先端の手法より優れていることが示された。

Recent studies reveal that Convolutional Neural Networks (CNNs) are typically vulnerable to adversarial attacks, which pose a threat to security-sensitive applications. Many adversarial defense methods improve robustness at the cost of accuracy, raising the contradiction between standard and adversarial accuracies. In this paper, we observe an interesting phenomenon that feature statistics change monotonically and smoothly w.r.t the rising of attacking strength. Based on this observation, we propose the adaptive feature alignment (AFA) to generate features of arbitrary attacking strengths. Our method is trained to automatically align features of arbitrary attacking strength. This is done by predicting a fusing weight in a dual-BN architecture. Unlike previous works that need to either retrain the model or manually tune a hyper-parameters for different attacking strengths, our method can deal with arbitrary attacking strengths with a single model without introducing any hyper-parameter. Importantly, our method improves the model robustness against adversarial samples without incurring much loss in standard accuracy. Experiments on CIFAR-10, SVHN, and tiny-ImageNet datasets demonstrate that our method outperforms the state-of-the-art under a wide range of attacking strengths.
翻訳日:2021-06-01 17:06:18 公開日:2021-05-31
# NoiLIn:Noisy Labelsは、常に逆行訓練をしているか?

NoiLIn: Do Noisy Labels Always Hurt Adversarial Training? ( http://arxiv.org/abs/2105.14676v1 )

ライセンス: Link先を確認
Jingfeng Zhang, Xilie Xu, Bo Han, Tongliang Liu, Gang Niu, Lizhen Cui, Masashi Sugiyama(参考訳) minimax最適化に基づくadversarial training (at)は、モデルの敵対的堅牢性を高める一般的な学習スタイルである。 ノイズラベル(NL)は一般的に学習を損ね、モデルのパフォーマンスを損なう。 興味深いことに、両研究の方向性はほとんど交差せず、火花に当たった。 この論文では、興味深い疑問を提起します -- NLは常にATを傷つけていますか? まず,adversarial data生成のための内部最大化におけるnlインジェクションは,atの一般化の恩恵を受ける自然データを暗黙的に増強する。 第二に、学習のための外部最小化におけるNL注入は、ATの堅牢性に恩恵をもたらす堅牢なオーバーフィッティングを緩和する正規化となる。 AT の対向ロバスト性を高めるため,AT のトレーニング過程に対して,徐々に \underline{Noi}sy \underline{L}abels \underline{In}jection を増加させる "NoiLIn" を提案する。 経験上、noilin氏は以前の質問に対して否定的に答えている。 哲学的には、nl による学習の新しい視点を提供する: nl は必ずしも有害とみなされるべきではなく、トレーニングセットに nl が存在しない場合でも、故意に注入することを考慮すべきである。

Adversarial training (AT) based on minimax optimization is a popular learning style that enhances the model's adversarial robustness. Noisy labels (NL) commonly undermine the learning and hurt the model's performance. Interestingly, both research directions hardly crossover and hit sparks. In this paper, we raise an intriguing question -- Does NL always hurt AT? Firstly, we find that NL injection in inner maximization for generating adversarial data augments natural data implicitly, which benefits AT's generalization. Secondly, we find NL injection in outer minimization for the learning serves as regularization that alleviates robust overfitting, which benefits AT's robustness. To enhance AT's adversarial robustness, we propose "NoiLIn" that gradually increases \underline{Noi}sy \underline{L}abels \underline{In}jection over the AT's training process. Empirically, NoiLIn answers the previous question negatively -- the adversarial robustness can be indeed enhanced by NL injection. Philosophically, we provide a new perspective of the learning with NL: NL should not always be deemed detrimental, and even in the absence of NL in the training set, we may consider injecting it deliberately.
翻訳日:2021-06-01 17:04:22 公開日:2021-05-31
# ACE-NODE: 知覚的ニューラル正規微分方程式

ACE-NODE: Attentive Co-Evolving Neural Ordinary Differential Equations ( http://arxiv.org/abs/2105.14953v1 )

ライセンス: Link先を確認
Sheo Yon Jhin, Minju Jo, Taeyong Kong, Jinsung Jeon, Noseong Park(参考訳) ニューラル常微分方程式(NODE)は、(連続時間)ニューラルネットワークを構築するための新しいパラダイムを提示した。 パラメータの数やニューラルネットワーク構築の柔軟性に関していくつかの優れた特徴を示す一方で、理論上、NODEは同相写像関数のみを学習し、また、NODEは積分問題を解く際の数値的不安定性を示す。 これに対応するために、多くの改良が提案されている。 しかし、我々の知る限り、ノードへの注意の集中はしばらくの間見過ごされてきた。 そこで本研究では、下流機械学習タスクのメインNODEとメインNODEに注意を向けるメインNODE(ACE-NODE)について、注意を喚起する新しい2重共進化NODE(ACE-NODE)を提案する。 ACE-NODEは、ペアワイズと要素ワイズの両方をサポートしています。 実験では,既存のNODEベースベースラインと非NODEベースベースラインをほぼすべてのケースにおいて,非自明なマージンで比較した。

Neural ordinary differential equations (NODEs) presented a new paradigm to construct (continuous-time) neural networks. While showing several good characteristics in terms of the number of parameters and the flexibility in constructing neural networks, they also have a couple of well-known limitations: i) theoretically NODEs learn homeomorphic mapping functions only, and ii) sometimes NODEs show numerical instability in solving integral problems. To handle this, many enhancements have been proposed. To our knowledge, however, integrating attention into NODEs has been overlooked for a while. To this end, we present a novel method of attentive dual co-evolving NODE (ACE-NODE): one main NODE for a downstream machine learning task and the other for providing attention to the main NODE. Our ACE-NODE supports both pairwise and elementwise attention. In our experiments, our method outperforms existing NODE-based and non-NODE-based baselines in almost all cases by non-trivial margins.
翻訳日:2021-06-01 17:04:00 公開日:2021-05-31
# OCT-GAN:Neural ODE-based Conditional Tabular GANs

OCT-GAN: Neural ODE-based Conditional Tabular GANs ( http://arxiv.org/abs/2105.14969v1 )

ライセンス: Link先を確認
Jayoung Kim, Jinsung Jeon, Jaehoon Lee, Jihyeon Hyeong, Noseong Park(参考訳) 表データの合成は、最近ではさまざまな目的のために多くの注目を集めている。 例えば、洗練された合成データを使えば、トレーニングデータを強化することができる。 過去数年間、表データ合成技術は大幅に改善されてきた。 最近の研究は、不均衡分布やマルチモーダリティ問題など、表データの合成における多くの問題に対処している。 しかし、最先端のメソッドのデータユーティリティはまだ満足できない。 本研究では,ニューラル常微分方程式(NODE)に基づいて生成器と識別器を設計することにより,実用性を大幅に改善する。 NODE が表データ生成に理論的に有利な特性を持つことを示した後、我々はその設計を紹介した。 NODEベースの判別器は、最終層のみに隠れベクトルを分類するのではなく、隠れベクトル進化軌道に基づく分類を行う。 我々のジェネレータはまた、そのアーキテクチャの初期段階でODE層を採用し、初期入力ベクトル(すなわち、雑音ベクトルと条件ベクトルの結合)を生成プロセスに適した別の潜在ベクトル空間に変換する。 我々は,保険詐欺の検出やオンラインニュース記事の予測などを含む13のデータセットを用いて実験を行い,分類,回帰,クラスタリング実験の多くの場合において,他の最先端の表型データ合成手法よりも優れることを示す。

Synthesizing tabular data is attracting much attention these days for various purposes. With sophisticate synthetic data, for instance, one can augment its training data. For the past couple of years, tabular data synthesis techniques have been greatly improved. Recent work made progress to address many problems in synthesizing tabular data, such as the imbalanced distribution and multimodality problems. However, the data utility of state-of-the-art methods is not satisfactory yet. In this work, we significantly improve the utility by designing our generator and discriminator based on neural ordinary differential equations (NODEs). After showing that NODEs have theoretically preferred characteristics for generating tabular data, we introduce our designs. The NODE-based discriminator performs a hidden vector evolution trajectory-based classification rather than classifying with a hidden vector at the last layer only. Our generator also adopts an ODE layer at the very beginning of its architecture to transform its initial input vector (i.e., the concatenation of a noisy vector and a condition vector in our case) onto another latent vector space suitable for the generation process. We conduct experiments with 13 datasets, including but not limited to insurance fraud detection, online news article prediction, and so on, and our presented method outperforms other state-of-the-art tabular data synthesis methods in many cases of our classification, regression, and clustering experiments.
翻訳日:2021-06-01 17:03:43 公開日:2021-05-31
# 大規模データ駆動型航空市場影響の最大化

Large-Scale Data-Driven Airline Market Influence Maximization ( http://arxiv.org/abs/2105.15012v1 )

ライセンス: Link先を確認
Duanshun Li, Jing Liu, Jinsung Jeon, Seoyoung Hong, Thai Le, Dongwon Lee, Noseong Park(参考訳) 航空周波数の調整による国内旅客輸送市場の市場影響を最大化するための予測駆動最適化手法を提案する。 低レベルにおいて、我々のニューラルネットワークは、市場への影響を予測するために、古典的な空母性能特徴や輸送ネットワーク特徴など、幅広い特徴を考慮に入れている。 予測モデルに基づいて,2,262経路の市場影響を最大化するために,予算制約付き飛行周波数最適化問題を定義する。 この問題は、従来の方法では正確には解決できない非線形最適化問題のカテゴリに該当する。 そこで本研究では,適応勾配上昇法(AGA法)を提案する。 予測モデルでは,平均根平均二乗誤差(RMSE)の2倍から11倍の精度を示す。 さらに、我々のAGA最適化手法は、グリーディアルゴリズムよりも最適化結果(最大規模の実験の1つ)が良い690倍高速に動作します。

We present a prediction-driven optimization framework to maximize the market influence in the US domestic air passenger transportation market by adjusting flight frequencies. At the lower level, our neural networks consider a wide variety of features, such as classical air carrier performance features and transportation network features, to predict the market influence. On top of the prediction models, we define a budget-constrained flight frequency optimization problem to maximize the market influence over 2,262 routes. This problem falls into the category of the non-linear optimization problem, which cannot be solved exactly by conventional methods. To this end, we present a novel adaptive gradient ascent (AGA) method. Our prediction models show two to eleven times better accuracy in terms of the median root-mean-square error (RMSE) over baselines. In addition, our AGA optimization method runs 690 times faster with a better optimization result (in one of our largest scale experiments) than a greedy algorithm.
翻訳日:2021-06-01 17:03:21 公開日:2021-05-31
# 製品進歩: 産業アップグレード予測のための機械学習アプローチ

Product Progression: a machine learning approach to forecasting industrial upgrading ( http://arxiv.org/abs/2105.15018v1 )

ライセンス: Link先を確認
Giambattista Albora, Luciano Pietronero, Andrea Tacchella, Andrea Zaccaria(参考訳) 経済複雑性の手法、特に関連する尺度は、体系的な評価と比較の枠組みを欠いている。 我々は、サンプル外予測演習がこの役割を果たすべきだと論じ、様々な機械学習モデルを比較して予測ベンチマークを設定する。 予測すべき重要な対象は新製品の活性化であり、木に基づくアルゴリズムは、非常に強力な自動相関ベンチマークと他の教師付きアルゴリズムの両方を明らかに上回っている。 興味深いことに、予測国に関するデータがトレーニングセットから除外された場合、クロスバリデーション環境で最良の結果が得られる。 当社のアプローチには直接的な政策上の意味があり、その国に新しい製品を導入する可能性の定量的かつ科学的に検証された指標を提供する。

Economic complexity methods, and in particular relatedness measures, lack a systematic evaluation and comparison framework. We argue that out-of-sample forecast exercises should play this role, and we compare various machine learning models to set the prediction benchmark. We find that the key object to forecast is the activation of new products, and that tree-based algorithms clearly overperform both the quite strong auto-correlation benchmark and the other supervised algorithms. Interestingly, we find that the best results are obtained in a cross-validation setting, when data about the predicted country was excluded from the training set. Our approach has direct policy implications, providing a quantitative and scientifically tested measure of the feasibility of introducing a new product in a given country.
翻訳日:2021-06-01 17:03:05 公開日:2021-05-31
# OASIS: セットインバージョンのためのアクティブフレームワーク

OASIS: An Active Framework for Set Inversion ( http://arxiv.org/abs/2105.15024v1 )

ライセンス: Link先を確認
Binh T. Nguyen, Duy M. Nguyen, Lam Si Tung Ho, Vu Dinh(参考訳) 本研究では,二元分類問題として定式化することにより,集合反転問題を解く新しい手法を提案する。 高次元および計算コストの高い非線形モデルで効果的に機能する高速アルゴリズムの開発を目指して、従来の学習方法に比べて少ないデータポイントで同じレベルの精度を達成することができる、新しい強力なテクニックのファミリーであるアクティブラーニングに焦点を当てた。 具体的には,セットインバージョン問題を解くために,サポートベクタマシンアルゴリズムを用いたアクティブ学習フレームワークoasisを提案する。 我々の手法は高次元でうまく機能し、計算コストは次元の増加に対して比較的堅牢である。 いくつかのシミュレーションによるOASISの性能を概説し,本アルゴリズムが最先端手法であるVISIAより優れていることを示す。

In this work, we introduce a novel method for solving the set inversion problem by formulating it as a binary classification problem. Aiming to develop a fast algorithm that can work effectively with high-dimensional and computationally expensive nonlinear models, we focus on active learning, a family of new and powerful techniques which can achieve the same level of accuracy with fewer data points compared to traditional learning methods. Specifically, we propose OASIS, an active learning framework using Support Vector Machine algorithms for solving the problem of set inversion. Our method works well in high dimensions and its computational cost is relatively robust to the increase of dimension. We illustrate the performance of OASIS by several simulation studies and show that our algorithm outperforms VISIA, the state-of-the-art method.
翻訳日:2021-06-01 17:02:53 公開日:2021-05-31
# SMASH:人間中心IoTの自己適応のためのセマンティック対応マルチエージェントアプローチ

SMASH: a Semantic-enabled Multi-agent Approach for Self-adaptation of Human-centered IoT ( http://arxiv.org/abs/2105.14915v1 )

ライセンス: Link先を確認
Hamed Rahimi, Iago Felipe Trentin, Fano Ramparany, Olivier Boissier(参考訳) 現在、IoTデバイスは、センシング、コンピューティング、行動、さらには学習、推論、計画といった活動の範囲を拡大しています。 IoTアプリケーションの数が増えるにつれて、これらのオブジェクトはますますユビキタスになりつつある。 そのため、目標を達成するには、環境の不確実性に応じて機能を適用する必要がある。 人間中心のIoTでは、オブジェクトとデバイスは人間と直接対話し、オンラインのコンテキスト情報にアクセスすることができる。 このようなアプリケーションの自己適応は、人間の目標と人間の価値を尊重する方法で対処する必要がある重要な課題である。 したがって、IoTアプリケーションは、ローカルまたは互いに協力して実行時の不確実性を管理するための自己適応技術を備えなければならない。 本稿では、人間中心環境におけるIoTアプリケーションの自己適応のためのマルチエージェントアプローチであるSMASHを提案する。 本稿では,スマートホームをスマート環境のケーススタディとして検討した。 SMASHエージェントは、BDIエージェントモデルに基づく4層アーキテクチャを備え、人間の価値観とゴール推論、計画、行動を統合する。 また、Home'Inと呼ばれるセマンティック対応プラットフォームを利用して、異種プロトコルとデータフォーマットを備えた非識別エージェントやデバイス間の相互運用性の問題に対処する。 このアプローチは文献と比較され、概念実証としてシナリオを開発することによって検証される。 SMASHエージェントのタイムリーな応答は、人中心環境における提案手法の可能性を示している。

Nowadays, IoT devices have an enlarging scope of activities spanning from sensing, computing to acting and even more, learning, reasoning and planning. As the number of IoT applications increases, these objects are becoming more and more ubiquitous. Therefore, they need to adapt their functionality in response to the uncertainties of their environment to achieve their goals. In Human-centered IoT, objects and devices have direct interactions with human beings and have access to online contextual information. Self-adaptation of such applications is a crucial subject that needs to be addressed in a way that respects human goals and human values. Hence, IoT applications must be equipped with self-adaptation techniques to manage their run-time uncertainties locally or in cooperation with each other. This paper presents SMASH: a multi-agent approach for self-adaptation of IoT applications in human-centered environments. In this paper, we have considered the Smart Home as the case study of smart environments. SMASH agents are provided with a 4-layer architecture based on the BDI agent model that integrates human values with goal-reasoning, planning, and acting. It also takes advantage of a semantic-enabled platform called Home'In to address interoperability issues among non-identical agents and devices with heterogeneous protocols and data formats. This approach is compared with the literature and is validated by developing a scenario as the proof of concept. The timely responses of SMASH agents show the feasibility of the proposed approach in human-centered environments.
翻訳日:2021-06-01 17:02:31 公開日:2021-05-31
# パーキンソン病の自動分類のためのパーキンソン中国語音声分析

Parkinsonian Chinese Speech Analysis towards Automatic Classification of Parkinson's Disease ( http://arxiv.org/abs/2105.14704v1 )

ライセンス: Link先を確認
Hao Fang, Chen Gong, Chen Zhang, Yanan Sui, Luming Li(参考訳) 発声障害はパーキンソン病(PD)の早期に発生することが多い。 言語障害は早期診断のための障害の指標となりうるが、運動症状は明らかではない。 本研究では,中国語マンダリンの新しい音声コーパスを構築し,pd患者の分類に対処した。 我々は,特徴選択,畳み込み,再帰的ディープネットワーク,エンドツーエンドシステムのためのランキングアルゴリズムを備えた古典的機械学習手法を実装した。 分類精度は最先端の研究を大きく上回った。 その結果、フリートークは標準音声タスクよりも強力な分類能力を持ち、将来の音声タスクの設計に役立ち、疾患の早期診断を効果的に行うことが示唆された。 既存の分類法と自然音声研究に基づいて,日常会話からのPDの自動検出が臨床人口の多数を占めることができた。

Speech disorders often occur at the early stage of Parkinson's disease (PD). The speech impairments could be indicators of the disorder for early diagnosis, while motor symptoms are not obvious. In this study, we constructed a new speech corpus of Mandarin Chinese and addressed classification of patients with PD. We implemented classical machine learning methods with ranking algorithms for feature selection, convolutional and recurrent deep networks, and an end to end system. Our classification accuracy significantly surpassed state-of-the-art studies. The result suggests that free talk has stronger classification power than standard speech tasks, which could help the design of future speech tasks for efficient early diagnosis of the disease. Based on existing classification methods and our natural speech study, the automatic detection of PD from daily conversation could be accessible to the majority of the clinical population.
翻訳日:2021-06-01 17:01:54 公開日:2021-05-31
# すべてを支配する1つのモデルに向けて: 方言コード切り換えアラビア語asrのための多言語戦略

Towards One Model to Rule All: Multilingual Strategy for Dialectal Code-Switching Arabic ASR ( http://arxiv.org/abs/2105.14779v1 )

ライセンス: Link先を確認
Shammur Absar Chowdhury, Amir Hussein, Ahmed Abdelali, Ahmed Ali(参考訳) グローバル化の進展に伴い,多言語自動音声認識(ASR)や言語処理,音声コンテンツの方言変化などへの需要が高まっている。 最近の研究はモノリンガルシステムに対する効果を示している。 本研究では,自己アテンションに基づくコンストラクタアーキテクチャを用いて,大規模多言語対エンドツーエンドのASRを設計する。 我々はアラビア語(Ar)、英語(En)、フランス語(Fr)を用いてシステムを訓練した。 i)モノリンガル (Ar, En, Fr), (ii) 複数方言 (現代標準アラビア語, エジプト語やモロッコ語などの方言の変種) コードスイッチング (iii) クロスリンガル (Ar-En/Fr) および方言 (MSA-エジプト語方言) テストケースを比較し, 現在の最先端システムと比較した。 さらに,文字対単語要素を含む異なる埋め込み/文字表現の影響について検討した。 以上の結果から,アラビア語単言語方言やコードスイッチングアラビア語asrを上回ることで,このようなモデルの強みが示された。

With the advent of globalization, there is an increasing demand for multilingual automatic speech recognition (ASR), handling language and dialectal variation of spoken content. Recent studies show its efficacy over monolingual systems. In this study, we design a large multilingual end-to-end ASR using self-attention based conformer architecture. We trained the system using Arabic (Ar), English (En) and French (Fr) languages. We evaluate the system performance handling: (i) monolingual (Ar, En and Fr); (ii) multi-dialectal (Modern Standard Arabic, along with dialectal variation such as Egyptian and Moroccan); (iii) code-switching -- cross-lingual (Ar-En/Fr) and dialectal (MSA-Egyptian dialect) test cases, and compare with current state-of-the-art systems. Furthermore, we investigate the influence of different embedding/character representations including character vs word-piece; shared vs distinct input symbol per language. Our findings demonstrate the strength of such a model by outperforming state-of-the-art monolingual dialectal Arabic and code-switching Arabic ASR.
翻訳日:2021-06-01 17:01:42 公開日:2021-05-31
# LTL制約定常政策合成

LTL-Constrained Steady-State Policy Synthesis ( http://arxiv.org/abs/2105.14894v1 )

ライセンス: Link先を確認
Jan K\v{r}et\'insk\'y(参考訳) エージェントの意思決定ポリシーは、行動の正式な仕様が満たされるという制約でしばしば合成される。 ここでは無限ホリゾン特性に着目する。 一方、LTL(Linear Temporal Logic)は定性的な仕様に対する形式主義の一般的な例である。 一方で、定常政策合成(ssps)は、訪問する状態の頻度の観点で、より定量的でより行動的な仕様の視点を提供するため、近年多くの注目を集めている。 最後に、報酬は量的性質の古典的な枠組みを提供する。 本稿では,マルコフ決定過程(MDP)とこれら3つのタイプを組み合わせた仕様について検討する。 導出政策は、LTL仕様を与えられた確率で保証し、定常的な制約に固執する全ての政策の報酬を最大化する。 この目的のために,マルチタイプの仕様を多次元の長期平均報酬に還元する統一解を提供する。 LDBA(Limit-Determini stic B\"uchi Automata)が最近,MDP上のLTLモデルチェックの文脈で研究し,シンプルな線形プログラムによるエレガントな解を可能にする。 このアルゴリズムは一般的な$\omega$-regularプロパティにも拡張され、LDBAと同様にMDPのサイズの時間多項式で動作する。

Decision-making policies for agents are often synthesized with the constraint that a formal specification of behaviour is satisfied. Here we focus on infinite-horizon properties. On the one hand, Linear Temporal Logic (LTL) is a popular example of a formalism for qualitative specifications. On the other hand, Steady-State Policy Synthesis (SSPS) has recently received considerable attention as it provides a more quantitative and more behavioural perspective on specifications, in terms of the frequency with which states are visited. Finally, rewards provide a classic framework for quantitative properties. In this paper, we study Markov decision processes (MDP) with the specification combining all these three types. The derived policy maximizes the reward among all policies ensuring the LTL specification with the given probability and adhering to the steady-state constraints. To this end, we provide a unified solution reducing the multi-type specification to a multi-dimensional long-run average reward. This is enabled by Limit-Deterministic B\"uchi Automata (LDBA), recently studied in the context of LTL model checking on MDP, and allows for an elegant solution through a simple linear programme. The algorithm also extends to the general $\omega$-regular properties and runs in time polynomial in the sizes of the MDP as well as the LDBA.
翻訳日:2021-06-01 17:00:46 公開日:2021-05-31
# 3次元顔ダイナミクスによる画像と映像の生成

Image-to-Video Generation via 3D Facial Dynamics ( http://arxiv.org/abs/2105.14678v1 )

ライセンス: Link先を確認
Xiaoguang Tu, Yingtian Zou, Jian Zhao, Wenjie Ai, Jian Dong, Yuan Yao, Zhikang Wang, Guodong Guo, Zhifeng Li, Wei Liu, and Jiashi Feng(参考訳) 静止画像から様々な映像を生成するために多目的モデルであるFaceAnimeを提案する。 単一顔画像からの映像生成は興味深い問題であり、通常はGAN(Generative Adversarial Networks)を利用して入力された顔画像とスパースな顔のランドマークのシーケンスからの情報を統合する。 しかしながら、生成された顔画像は、通常、顔のランドマークの弱い表現能力のために、品質損失、画像歪み、アイデンティティの変化、表現ミスマッチに悩まされる。 本稿では,1つの顔画像から再構成された3次元顔のダイナミックスに基づいて顔映像を「想像」し,正確に予測されたポーズと表情で現実的でアイデンティティを保った顔映像を生成することを目的とする。 3Dダイナミックスは表情と動きの変化を明らかにし、高度にリアルな顔ビデオ生成を導くための強力な事前知識として機能する。 特に,顔映像の予測を探索し,設計が整った3次元動的予測ネットワークを用いて,単一の顔画像に対する3次元動的シーケンスを予測する。 3dダイナミックスはさらにスパーステクスチャマッピングアルゴリズムによってレンダリングされ、顔フレームを生成するための構造の詳細とスパーステクスチャを復元する。 私たちのモデルは、顔ビデオの再ターゲティングや顔ビデオ予測など、さまざまなAR/VRやエンターテイメントアプリケーションに汎用的です。 単一音源の顔画像から高忠実度, アイデンティティ保存, 視覚的に快適な顔映像を生成する上で, 優れた実験結果が得られた。

We present a versatile model, FaceAnime, for various video generation tasks from still images. Video generation from a single face image is an interesting problem and usually tackled by utilizing Generative Adversarial Networks (GANs) to integrate information from the input face image and a sequence of sparse facial landmarks. However, the generated face images usually suffer from quality loss, image distortion, identity change, and expression mismatching due to the weak representation capacity of the facial landmarks. In this paper, we propose to "imagine" a face video from a single face image according to the reconstructed 3D face dynamics, aiming to generate a realistic and identity-preserving face video, with precisely predicted pose and facial expression. The 3D dynamics reveal changes of the facial expression and motion, and can serve as a strong prior knowledge for guiding highly realistic face video generation. In particular, we explore face video prediction and exploit a well-designed 3D dynamic prediction network to predict a 3D dynamic sequence for a single face image. The 3D dynamics are then further rendered by the sparse texture mapping algorithm to recover structural details and sparse textures for generating face frames. Our model is versatile for various AR/VR and entertainment applications, such as face video retargeting and face video prediction. Superior experimental results have well demonstrated its effectiveness in generating high-fidelity, identity-preserving, and visually pleasant face video clips from a single source face image.
翻訳日:2021-06-01 16:58:39 公開日:2021-05-31
# 非許可アクセスからの秘密鍵付き訓練CNNモデルの保護方法

A Protection Method of Trained CNN Model with Secret Key from Unauthorized Access ( http://arxiv.org/abs/2105.14756v1 )

ライセンス: Link先を確認
AprilPyone MaungMaung and Hitoshi Kiya(参考訳) 本稿では,cnn(convolutional neural network,畳み込みニューラルネットワーク)モデルを秘密鍵セットで保護する手法を提案する。 本手法は,著作権侵害から保護するだけでなく,無許可アクセスからモデルの機能を目立ったオーバーヘッドなく保護することを可能にする。 我々は,ピクセルシャッフル,負正変換,ffx暗号化という,学習可能な変換画像を生成するための秘密鍵セットを備えた3つのブロックワイズ変換を導入する。 保護されたモデルは変換された画像を用いて訓練される。 CIFARおよびImageNetデータセットを用いた実験の結果、キーセットが正しい場合には保護されていないモデルに近い性能を示し、不正なキーセットが与えられた場合には精度が著しく低下した。 保護されたモデルは様々な攻撃に対して堅牢であることも証明された。 パスポートを用いた最新モデル保護と比較して,提案手法はネットワークに付加的なレイヤを持たないため,トレーニングや推論プロセスのオーバーヘッドは発生しない。

In this paper, we propose a novel method for protecting convolutional neural network (CNN) models with a secret key set so that unauthorized users without the correct key set cannot access trained models. The method enables us to protect not only from copyright infringement but also the functionality of a model from unauthorized access without any noticeable overhead. We introduce three block-wise transformations with a secret key set to generate learnable transformed images: pixel shuffling, negative/positive transformation, and FFX encryption. Protected models are trained by using transformed images. The results of experiments with the CIFAR and ImageNet datasets show that the performance of a protected model was close to that of non-protected models when the key set was correct, while the accuracy severely dropped when an incorrect key set was given. The protected model was also demonstrated to be robust against various attacks. Compared with the state-of-the-art model protection with passports, the proposed method does not have any additional layers in the network, and therefore, there is no overhead during training and inference processes.
翻訳日:2021-06-01 16:58:14 公開日:2021-05-31
# 構造保存型カーネル予測ネットワークを用いた低線量ct

Low-Dose CT Denoising Using a Structure-Preserving Kernel Prediction Network ( http://arxiv.org/abs/2105.14758v1 )

ライセンス: Link先を確認
Lu Xu, Yuwei Zhang, Ying Liu, Daoye Wang, Mu Zhou, Jimmy Ren, Zhaoxiang Ye(参考訳) 低用量CTは、患者の健康に過剰な放射線のリスクを減らすために重要な診断法である。 近年の進歩にもかかわらず、CNNベースのアプローチでは、通常、空間的に不変な方法でフィルタを適用し、同様のピクセルレベルの損失を適用し、CT画像のすべての領域を等しく扱い、非均一分散ノイズと共存する微細構造では非効率である。 そこで,本稿では,カーネル予測ネットワークと画素勾配統計を利用した構造認識損失関数を組み合わせた構造保存型カーネル予測ネットワーク (structkpn) を提案する。 広範な実験により,合成データセットと非合成データセットの両方において優れた性能を達成し,臨床スクリーニングや低用量プロトコル最適化において非常に望まれる構造の保存性が向上した。

Low-dose CT has been a key diagnostic imaging modality to reduce the potential risk of radiation overdose to patient health. Despite recent advances, CNN-based approaches typically apply filters in a spatially invariant way and adopt similar pixel-level losses, which treat all regions of the CT image equally and can be inefficient when fine-grained structures coexist with non-uniformly distributed noises. To address this issue, we propose a Structure-preserving Kernel Prediction Network (StructKPN) that combines the kernel prediction network with a structure-aware loss function that utilizes the pixel gradient statistics and guides the model towards spatially-variant filters that enhance noise removal, prevent over-smoothing and preserve detailed structures for different regions in CT imaging. Extensive experiments demonstrated that our approach achieved superior performance on both synthetic and non-synthetic datasets, and better preserves structures that are highly desired in clinical screening and low-dose protocol optimization.
翻訳日:2021-06-01 16:57:58 公開日:2021-05-31
# BaMBNet:デフォーカス・デブロアリングのためのBlur-aware Multi-branch Network

BaMBNet: A Blur-aware Multi-branch Network for Defocus Deblurring ( http://arxiv.org/abs/2105.14766v1 )

ライセンス: Link先を確認
Pengwei Liang, Junjun Jiang, Xianming Liu, and Jiayi Ma(参考訳) 有限開口サイズと露光時間から生じるデフォーカスの劣化は、計算写真において重要な問題である。 ぼやけたカーネルは空間的に変化しており、従来の手法では推定が難しいため、非常に難しい。 低レベルタスクにおける大きなブレークスルーのため、畳み込みニューラルネットワーク(cnns)がデフォーカスデブラリング問題に導入され、著しい進歩を達成した。 しかし、デフォーカスぼかし画像の異なる領域に同じカーネルを適用するため、これらの不均一なぼかし画像を扱うことは困難である。 そこで本研究では,異なる領域(ぼやき量が異なる)を別々に扱うことができる,新しいぼやけ対応マルチブランチネットワーク(bambnet)を設計した。 特に、左右の視点の偏差を測定するdpデータの内部幾何学的制約により異なる領域のぼやけ量を推定する。 ブラー量が異なる異なる画像領域が異なる難易度が異なるという仮定に基づいて、異なる容量を持つ異なるネットワークを利用する(\emph{i.e.)。 パラメータ) 異なる画像領域を処理する。 さらに,各画素を適切なブランチに割り当てるメタラーニングデフォーカスマスク生成アルゴリズムを導入する。 このようにして、ぼやけた領域の欠落した詳細を回復しながら、明瞭な領域の情報を適切に維持することが期待できる。 定量的および定性的な実験は、BaMBNetが最先端の手法より優れていることを示している。 ソースコードはhttps://github.com/j unjun-jiang/BaMBNetで入手できる。

The defocus deblurring raised from the finite aperture size and exposure time is an essential problem in the computational photography. It is very challenging because the blur kernel is spatially varying and difficult to estimate by traditional methods. Due to its great breakthrough in low-level tasks, convolutional neural networks (CNNs) have been introduced to the defocus deblurring problem and achieved significant progress. However, they apply the same kernel for different regions of the defocus blurred images, thus it is difficult to handle these nonuniform blurred images. To this end, this study designs a novel blur-aware multi-branch network (BaMBNet), in which different regions (with different blur amounts) should be treated differentially. In particular, we estimate the blur amounts of different regions by the internal geometric constraint of the DP data, which measures the defocus disparity between the left and right views. Based on the assumption that different image regions with different blur amounts have different deblurring difficulties, we leverage different networks with different capacities (\emph{i.e.} parameters) to process different image regions. Moreover, we introduce a meta-learning defocus mask generation algorithm to assign each pixel to a proper branch. In this way, we can expect to well maintain the information of the clear regions while recovering the missing details of the blurred regions. Both quantitative and qualitative experiments demonstrate that our BaMBNet outperforms the state-of-the-art methods. Source code will be available at https://github.com/j unjun-jiang/BaMBNet.
翻訳日:2021-06-01 16:57:38 公開日:2021-05-31
# RED : 深部ニューラルネットワークのデータ自由構造圧縮のための冗長性を探る

RED : Looking for Redundancies for Data-Free Structured Compression of Deep Neural Networks ( http://arxiv.org/abs/2105.14797v1 )

ライセンス: Link先を確認
Edouard Yvinec, Arnaud Dapogny, Matthieu Cord and Kevin Bailly(参考訳) ディープニューラルネットワーク(Deep Neural Networks, DNN)は、現在のコンピュータビジョンのランドスケープにおいて、かなりの計算コストを伴うにもかかわらず、ユビキタスである。 ランタイムアクセラレーションの主流なアプローチは、接続(非構造化プルーニング)や、より優れたフィルタ(構造化プルーニング)である。 本稿では,データフリーで構造化された統一的手法であるREDについて述べる。 まず,その重みベクトルで表される同一ニューロンの数を増やすために,スカラーDNN重み分布密度の適応的ハッシュ法を提案する。 第2に、その距離によって定義される相対的類似性に基づいて冗長なニューロンをマージすることでネットワークをプルーピングする。 第3に,畳み込み層をさらに深層化するための不均一な分離手法を提案する。 さまざまなベンチマークを通じて、redが他のデータフリーなpruningメソッドを圧倒的に上回り、しばしば非制約なデータ駆動メソッドと同じようなパフォーマンスに達することを実証します。

Deep Neural Networks (DNNs) are ubiquitous in today's computer vision land-scape, despite involving considerable computational costs. The mainstream approaches for runtime acceleration consist in pruning connections (unstructured pruning) or, better, filters (structured pruning), both often requiring data to re-train the model. In this paper, we present RED, a data-free structured, unified approach to tackle structured pruning. First, we propose a novel adaptive hashing of the scalar DNN weight distribution densities to increase the number of identical neurons represented by their weight vectors. Second, we prune the network by merging redundant neurons based on their relative similarities, as defined by their distance. Third, we propose a novel uneven depthwise separation technique to further prune convolutional layers. We demonstrate through a large variety of benchmarks that RED largely outperforms other data-free pruning methods, often reaching performance similar to unconstrained, data-driven methods.
翻訳日:2021-06-01 16:57:13 公開日:2021-05-31
# SNIPS: ノイズの多い逆問題を確率的に解決する

SNIPS: Solving Noisy Inverse Problems Stochastically ( http://arxiv.org/abs/2105.14951v1 )

ライセンス: Link先を確認
Bahjat Kawar, Gregory Vaksman, Michael Elad(参考訳) 本研究では,任意の線形逆問題の後方分布から標本を抽出し,白色ガウス雑音による観測を仮定した,新しい確率的アルゴリズムであるsnipsを提案する。 本稿では,Langevin DynamicsとNewtonの手法のアイデアを取り入れ,事前学習された最小二乗誤差(MMSE)ガウスデノイザを利用する。 提案手法は,分解演算子の特異値分解(svd)を含む後方スコア関数を複雑に導出することで,所望のサンプリングのための可搬的反復アルゴリズムを得る。 確率性のため、アルゴリズムは同じノイズ観測のために複数の高知覚質サンプルを生成することができる。 本稿では,画像のデブラリング,超解像,圧縮センシングにおける提案手法の能力を示す。 その結果, 生成した試料は鋭く, 詳細で, 与えられた測定値と一致し, それらの多様性は, 解く逆問題に固有の不確かさを明らかにした。

In this work we introduce a novel stochastic algorithm dubbed SNIPS, which draws samples from the posterior distribution of any linear inverse problem, where the observation is assumed to be contaminated by additive white Gaussian noise. Our solution incorporates ideas from Langevin dynamics and Newton's method, and exploits a pre-trained minimum mean squared error (MMSE) Gaussian denoiser. The proposed approach relies on an intricate derivation of the posterior score function that includes a singular value decomposition (SVD) of the degradation operator, in order to obtain a tractable iterative algorithm for the desired sampling. Due to its stochasticity, the algorithm can produce multiple high perceptual quality samples for the same noisy observation. We demonstrate the abilities of the proposed paradigm for image deblurring, super-resolution, and compressive sensing. We show that the samples produced are sharp, detailed and consistent with the given measurements, and their diversity exposes the inherent uncertainty in the inverse problem being solved.
翻訳日:2021-06-01 16:56:56 公開日:2021-05-31
# MAOMaps: vSLAMとMap Mergingの品質評価のための写真リアリスティックベンチマーク

MAOMaps: A Photo-Realistic Benchmark For vSLAM and Map Merging Quality Assessment ( http://arxiv.org/abs/2105.14994v1 )

ライセンス: Link先を確認
Andrey Bokovoy, Kirill Muravyev and Konstantin Yakovlev (Federal Research Center for Computer Science and Control of Russian Academy of Sciences)(参考訳) シミュレーションで多くの実験を実行することは、実際のロボットに制御システムをデプロイする前に必要なステップである。 本稿では,視覚に基づく同時ローカライゼーションとマッピング(vSLAM)とマップマージアルゴリズムの品質を定量的に評価することを目的とした,新しいベンチマークを提案する。 ベンチマークはデータセットと、自動評価のための一連のツールで構成されている。 データセットはフォトリアリスティックであり、ローカライゼーションとマップグランド真実データの両方を提供する。 これにより、SLAMパイプラインのローカライゼーション部分だけでなく、マッピング部分も評価できる。 vSLAMで構築された地図と地道な地図を比較するために、SLAMコンテキストを考慮に入れた(隣人のような他のアプローチとは対照的に)両者の対応を見つける新しい方法を導入する。 ベンチマークはROS互換であり、コミュニティにオープンソース化されている。 データとコードは \texttt{github.com/cnndepth/ maomaps} で入手できる。

Running numerous experiments in simulation is a necessary step before deploying a control system on a real robot. In this paper we introduce a novel benchmark that is aimed at quantitatively evaluating the quality of vision-based simultaneous localization and mapping (vSLAM) and map merging algorithms. The benchmark consists of both a dataset and a set of tools for automatic evaluation. The dataset is photo-realistic and provides both the localization and the map ground truth data. This makes it possible to evaluate not only the localization part of the SLAM pipeline but the mapping part as well. To compare the vSLAM-built maps and the ground-truth ones we introduce a novel way to find correspondences between them that takes the SLAM context into account (as opposed to other approaches like nearest neighbors). The benchmark is ROS-compatable and is open-sourced to the community. The data and the code are available at: \texttt{github.com/CnnDepth/ MAOMaps}.
翻訳日:2021-06-01 16:56:39 公開日:2021-05-31
# ロバスト最適化のための等角不確かさ集合

Conformal Uncertainty Sets for Robust Optimization ( http://arxiv.org/abs/2105.14957v1 )

ライセンス: Link先を確認
Chancellor Johnstone(参考訳) 不確実性の下での意思決定は、観測データの摂動に敏感な決定に対して非常に重要である。 不確かさを最適決定に組み込む一つの方法はロバスト最適化であり、不確実性セット上で最悪のシナリオを最小化する。 マハラノビス距離を多目的回帰と共同予測領域の構築のための新しい関数として検討する。 また、共形予測領域をロバスト最適化と結びつけ、有限サンプル有効で保守的な不確実性集合、しばしば共形不確実性集合を提供する。 マハラノビス距離で生成された共形予測領域のカバレッジと効率を他の共形予測領域と比較する。 また、適合不確かさ集合と正規性の仮定の下で構築された集合を比較するための、小さなロバストな最適化例も構築する。

Decision-making under uncertainty is hugely important for any decisions sensitive to perturbations in observed data. One method of incorporating uncertainty into making optimal decisions is through robust optimization, which minimizes the worst-case scenario over some uncertainty set. We explore Mahalanobis distance as a novel function for multi-target regression and the construction of joint prediction regions. We also connect conformal prediction regions to robust optimization, providing finite sample valid and conservative uncertainty sets, aptly named conformal uncertainty sets. We compare the coverage and efficiency of the conformal prediction regions generated with Mahalanobis distance to other conformal prediction regions. We also construct a small robust optimization example to compare conformal uncertainty sets to those constructed under the assumption of normality.
翻訳日:2021-06-01 16:56:26 公開日:2021-05-31
# 部分空間における植込みベクトルの最適スペクトル回復

Optimal Spectral Recovery of a Planted Vector in a Subspace ( http://arxiv.org/abs/2105.15081v1 )

ライセンス: Link先を確認
Cheng Mao, Alexander S. Wein(参考訳) プランテッドベクトル$v$を$\mathbb{R}^N$の$n$次元ランダム部分空間に復元することは、辞書学習、部分空間回復、主成分分析などの機械学習や統計学における多くの問題に関連する一般的なタスクである。 本研究では,同じ$\ell_2$ノルムを持つガウスベクトルと$\ell_4$ノルムが異なる植込みベクトル$v$の計算効率の高い推定と検出について検討する。 例えば、$N \rho$-sparse vector $v$ with Rademacher nonzero entry の特別な場合、以下の結果が成り立つ: 1) ホプキンス、シュラム、シー、シュテューラーによって提案されたスペクトル法の(わずかに不変な)改善された解析を行い、規則$n \rho \ll \sqrt{N}$ の確率の高い $v$ をほぼ回復することを示す。 対照的に、以前の研究は多項式時間回復のために$\rho \ll 1/\sqrt{n}$か$n \sqrt{\rho} \lesssim \sqrt{N}$のいずれかを必要とした。 この結果は(対数因子による)これらの条件の両方を仮定し、以前考慮されなかった密接なケース $\rho = 1$ を扱います。 (2) 固有ベクトルの摂動に対する$\ell_\infty$ 境界と同様に、スペクトル推定器に対する帰納的誤差は、残量1-アウト解析によって確定し、しきい値が正確に $v$ を回復する。 3) 関連する検出問題について検討し, 大規模クラス(より一般的には, 入力の低次多項式)からのスペクトル法では, 植込みベクトルを検出できないことを示した。 これは上界の最適性を確立し、$n \rho \gg \sqrt{N}$ で多項式時間アルゴリズムが成功できないことを示す。

Recovering a planted vector $v$ in an $n$-dimensional random subspace of $\mathbb{R}^N$ is a generic task related to many problems in machine learning and statistics, such as dictionary learning, subspace recovery, and principal component analysis. In this work, we study computationally efficient estimation and detection of a planted vector $v$ whose $\ell_4$ norm differs from that of a Gaussian vector with the same $\ell_2$ norm. For instance, in the special case of an $N \rho$-sparse vector $v$ with Rademacher nonzero entries, our results include the following: (1) We give an improved analysis of (a slight variant of) the spectral method proposed by Hopkins, Schramm, Shi, and Steurer, showing that it approximately recovers $v$ with high probability in the regime $n \rho \ll \sqrt{N}$. In contrast, previous work required either $\rho \ll 1/\sqrt{n}$ or $n \sqrt{\rho} \lesssim \sqrt{N}$ for polynomial-time recovery. Our result subsumes both of these conditions (up to logarithmic factors) and also treats the dense case $\rho = 1$ which was not previously considered. (2) Akin to $\ell_\infty$ bounds for eigenvector perturbation, we establish an entrywise error bound for the spectral estimator via a leave-one-out analysis, from which it follows that thresholding recovers $v$ exactly. (3) We study the associated detection problem and show that in the regime $n \rho \gg \sqrt{N}$, any spectral method from a large class (and more generally, any low-degree polynomial of the input) fails to detect the planted vector. This establishes optimality of our upper bounds and offers evidence that no polynomial-time algorithm can succeed when $n \rho \gg \sqrt{N}$.
翻訳日:2021-06-01 16:56:13 公開日:2021-05-31
# UNiTE:単位N体テンソル等価ネットワークと量子化学への応用

UNiTE: Unitary N-body Tensor Equivariant Network with Applications to Quantum Chemistry ( http://arxiv.org/abs/2105.14655v1 )

ライセンス: Link先を確認
Zhuoran Qiao, Anders S. Christensen, Frederick R. Manby, Matthew Welborn, Anima Anandkumar, Thomas F. Miller III(参考訳) 等変ニューラルネットワークは様々な種類の対称性を組み込むことに成功したが、主に幾何学的対象のベクトル表現に限られている。 様々なアプリケーション領域における高次テンソルの出現にもかかわらず、例えば、 量子化学では、一般のテンソルに対する同変ニューラルネットワークは未探索のままである。 テンソル上の同変関数を学ぶ以前の戦略は、問題の次元が大きくなるとスケーラブルでない高価なテンソル分解に依存する。 本研究では,n$-body tensor と呼ばれる対称テンソルの一般クラスのためのアーキテクチャであるunitary $n$-body tensor equivariant neural network (unite)を提案する。 提案されたニューラルネットワークは、3次元回転の群のようなユニタリ群の作用に関して同値である。 さらに、テンソル内のゼロでない元の数に関して線形時間複雑性を持つ。 また、対称性を保ちながらニューラルネットワークの一般化を改善するために、正規化法(viz., Equivariant Normalization)を導入する。 量子化学に適用した場合、UNiTEは、その領域の最先端の機械学習メソッドを、複数のベンチマークで平均110%以上の改善で上回っている。 最後に,UNiTEは,従来の数値計算法よりも3桁高速で競争精度が向上し,多様なダウンストリーム化学タスクにおけるゼロショット一般化性能が向上することを示す。

Equivariant neural networks have been successful in incorporating various types of symmetries, but are mostly limited to vector representations of geometric objects. Despite the prevalence of higher-order tensors in various application domains, e.g. in quantum chemistry, equivariant neural networks for general tensors remain unexplored. Previous strategies for learning equivariant functions on tensors mostly rely on expensive tensor factorization which is not scalable when the dimensionality of the problem becomes large. In this work, we propose unitary $N$-body tensor equivariant neural network (UNiTE), an architecture for a general class of symmetric tensors called $N$-body tensors. The proposed neural network is equivariant with respect to the actions of a unitary group, such as the group of 3D rotations. Furthermore, it has a linear time complexity with respect to the number of non-zero elements in the tensor. We also introduce a normalization method, viz., Equivariant Normalization, to improve generalization of the neural network while preserving symmetry. When applied to quantum chemistry, UNiTE outperforms all state-of-the-art machine learning methods of that domain with over 110% average improvements on multiple benchmarks. Finally, we show that UNiTE achieves a robust zero-shot generalization performance on diverse down stream chemistry tasks, while being three orders of magnitude faster than conventional numerical methods with competitive accuracy.
翻訳日:2021-06-01 16:52:17 公開日:2021-05-31
# 深層学習による大気ケレンコフ望遠鏡の実データからの初のフルイベント再構成

First Full-Event Reconstruction from Imaging Atmospheric Cherenkov Telescope Real Data with Deep Learning ( http://arxiv.org/abs/2105.14927v1 )

ライセンス: Link先を確認
Mika\"el Jacquemont (LAPP), Thomas Vuillaume (LAPP), Alexandre Benoit (LISTIC), Gilles Maurin (LAPP), Patrick Lambert (LISTIC), Giovanni Lamanna (LAPP)(参考訳) チェレンコフ望遠鏡アレイは、地上のガンマ線天文学の未来である。 地上で作られた最初のプロトタイプ望遠鏡であるLarge Size Telescope 1は現在、最初の科学データを収集している。 本稿では,深層畳み込みニューラルネットワークに基づくフルイベント再構成の開発と実データへの適用について述べる。 シミュレーションと実データの両方で標準解析よりも優れており、ctaデータ解析の深いアプローチを検証することができる。 この研究は、シミュレーションデータから実際のデータに移行することの難しさも示している。

The Cherenkov Telescope Array is the future of ground-based gamma-ray astronomy. Its first prototype telescope built on-site, the Large Size Telescope 1, is currently under commissioning and taking its first scientific data. In this paper, we present for the first time the development of a full-event reconstruction based on deep convolutional neural networks and its application to real data. We show that it outperforms the standard analysis, both on simulated and on real data, thus validating the deep approach for the CTA data analysis. This work also illustrates the difficulty of moving from simulated data to actual data.
翻訳日:2021-06-01 16:51:56 公開日:2021-05-31
# QueryNet: 複数のIDを格納する効率的な攻撃フレームワーク

QueryNet: An Efficient Attack Framework with Surrogates Carrying Multiple Identities ( http://arxiv.org/abs/2105.15010v1 )

ライセンス: Link先を確認
Sizhe Chen, Zhehao Huang, Qinghua Tao, Xiaolin Huang(参考訳) ディープニューラルネットワーク(DNN)は敵の攻撃に対して脆弱であると認識されている一方、既存のブラックボックス攻撃では、高い成功率を達成するために、被害者のDNNに対して広範囲なクエリを必要とする。 クエリ効率の面では、被害者の代理モデルがグラディエント類似性(GS)を考慮して転送可能な攻撃者として採用される。 しかしながら、その類似性、すなわち予測類似性(PS)を利用して非効率なクエリをフィルタリングすることは一般的に無視されている。 surrogateのgsとpsを共同で利用し最適化するために、クエリを大幅に削減できる効率的な攻撃ネットワークであるquerynetを開発した。 QueryNetは、サロゲートによっていくつかの転送可能なAdversarial Examples(AE)を作成し、次に最も有望なAEをサロゲートすることで決定する。 つまり、QueryNetでは、サロゲートは転送可能なアタッカーだけでなく、AEの転送可能性評価器としても利用される。 AEはSurrogatesのGSを使用して生成され、FSに基づいて評価されるため、クエリ結果はSurrogatesのパラメータとアーキテクチャを最適化するためにバックプロパゲーションされ、GSとFSの両方が強化される。 QueryNetは、MNIST/CIFAR10/ImageN et上の11人の犠牲者(2つの商用モデルを含む)が8ビットの画像クエリしか利用できず、被害者のトレーニングデータへのアクセスもできない。

Deep Neural Networks (DNNs) are acknowledged as vulnerable to adversarial attacks, while the existing black-box attacks require extensive queries on the victim DNN to achieve high success rates. For query-efficiency, surrogate models of the victim are adopted as transferable attackers in consideration of their Gradient Similarity (GS), i.e., surrogates' attack gradients are similar to the victim's ones to some extent. However, it is generally neglected to exploit their similarity on outputs, namely the Prediction Similarity (PS), to filter out inefficient queries. To jointly utilize and also optimize surrogates' GS and PS, we develop QueryNet, an efficient attack network that can significantly reduce queries. QueryNet crafts several transferable Adversarial Examples (AEs) by surrogates, and then decides also by surrogates on the most promising AE, which is then sent to query the victim. That is to say, in QueryNet, surrogates are not only exploited as transferable attackers, but also as transferability evaluators for AEs. The AEs are generated using surrogates' GS and evaluated based on their FS, and therefore, the query results could be back-propagated to optimize surrogates' parameters and also their architectures, enhancing both the GS and the FS. QueryNet has significant query-efficiency, i.e., reduces queries by averagely about an order of magnitude compared to recent SOTA methods according to our comprehensive and real-world experiments: 11 victims (including 2 commercial models) on MNIST/CIFAR10/ImageN et, allowing only 8-bit image queries, and no access to the victim's training data.
翻訳日:2021-06-01 16:51:47 公開日:2021-05-31
# 強化学習に基づく車両ネットワークにおける動的サービス配置

Reinforcement Learning-based Dynamic Service Placement in Vehicular Networks ( http://arxiv.org/abs/2105.15022v1 )

ライセンス: Link先を確認
Anum Talpur and Mohan Gurusamy(参考訳) 5Gやモバイルエッジコンピューティングといった技術が出現すると、車載ネットワーク内の車両に異なるリソースとサービス要件を持つ異なるタイプのサービスのプロビジョニングが可能となり、さまざまなタイプのサービスの要求に対するトラフィックモビリティパターンとダイナミックスの複雑さが増し、サービスの配置が困難な課題となっている。 典型的な静的配置ソリューションは、トラフィック移動性とサービスダイナミクスを考慮していないため、効果的ではない。 本稿では,車両の移動性や動的性を考慮しつつ,エッジサーバに最適なサービス配置を求めるための強化学習型動的(RL-Dynamic)サービス配置フレームワークを提案する。 シミュレーション実験にはSUMOとMATLABを用いる。 学習フレームワークでは,決定モジュールに対して,遅延最小化とエッジサーバ利用最小化という2つの目的関数を検討する。 2つの目的関数に対するILPに基づく問題定式化を開発した。 実験の結果,1)静的サービス配置と比較して,RLベースの動的サービス配置はエッジサーバリソースの公平な利用とサービス遅延の低減を実現し,2)遅延最適化配置と比較して,サーバ利用最適化配置はリソースをより効果的に活用し,エッジサーバ利用率を低くする。

The emergence of technologies such as 5G and mobile edge computing has enabled provisioning of different types of services with different resource and service requirements to the vehicles in a vehicular network.The growing complexity of traffic mobility patterns and dynamics in the requests for different types of services has made service placement a challenging task. A typical static placement solution is not effective as it does not consider the traffic mobility and service dynamics. In this paper, we propose a reinforcement learning-based dynamic (RL-Dynamic) service placement framework to find the optimal placement of services at the edge servers while considering the vehicle's mobility and dynamics in the requests for different types of services. We use SUMO and MATLAB to carry out simulation experiments. In our learning framework, for the decision module, we consider two alternative objective functions-minimizing delay and minimizing edge server utilization. We developed an ILP based problem formulation for the two objective functions. The experimental results show that 1) compared to static service placement, RL-based dynamic service placement achieves fair utilization of edge server resources and low service delay, and 2) compared to delay-optimized placement, server utilization optimized placement utilizes resources more effectively, achieving higher fairness with lower edge-server utilization.
翻訳日:2021-06-01 16:51:18 公開日:2021-05-31
# 深部エネルギーモデルを用いたマルチロータUAVのCVaRによる飛行エネルギーリスク評価

CVaR-based Flight Energy Risk Assessment for Multirotor UAVs using a Deep Energy Model ( http://arxiv.org/abs/2105.15189v1 )

ライセンス: Link先を確認
Arnav Choudhry, Brady Moon, Jay Patrikar, Constantine Samaras, Sebastian Scherer(参考訳) エネルギー管理は、無人航空機(UAV)の飛行におけるリスク評価の重要な側面であり、飛行中のバッテリーの枯渇は、ほぼ確実に車両の損傷をもたらし、人的損傷や財産の損傷のリスクが高い。 フライトが消費するエネルギーの量を予測することは、ルーティング、天気、障害物、その他の要因が全体の消費に影響を与えるため、難しい。 時相畳み込みネットワークを用いて静的な文脈情報を組み込んで時間変化の特徴を捉えるUAVの深部エネルギーモデルを開発した。 我々のエネルギーモデルは実世界のデータセットに基づいて訓練されており、飛行をレジームに分離する必要はない。 テスト飛行における電力予測は,最先端解析法と比較して,29 %=2 %向上した。 エネルギーモデルを用いて、所定の軌道のエネルギー使用量を予測し、飛行中にバッテリーが切れるリスクを評価することができる。 本稿では,このリスクを定量化するための指標として,CVaR(Conditional Value-at-Risk)を提案する。 cvarはモンテカルロフォワードシミュレーションの出力分布をリスク空間に変換することで、名目上の経路上で最悪のエネルギー消費に関連するリスクを捉えている。 CVaRのリスク空間分布の計算は、離陸前の飛行の全体的なリスクを評価するための指標を提供する。 我々のエネルギーモデルとリスク評価手法は、飛行安全性を改善し、提案した離陸地点からカバー範囲を評価することができる。 ビデオとコードベースはhttps://youtu.be/PHX GigqilOA と https://git.io/cvar- risk で公開されている。

Energy management is a critical aspect of risk assessment for Uncrewed Aerial Vehicle (UAV) flights, as a depleted battery during a flight brings almost guaranteed vehicle damage and a high risk of human injuries or property damage. Predicting the amount of energy a flight will consume is challenging as routing, weather, obstacles, and other factors affect the overall consumption. We develop a deep energy model for a UAV that uses Temporal Convolutional Networks to capture the time varying features while incorporating static contextual information. Our energy model is trained on a real world dataset and does not require segregating flights into regimes. We illustrate an improvement in power predictions by $29\%$ on test flights when compared to a state-of-the-art analytical method. Using the energy model, we can predict the energy usage for a given trajectory and evaluate the risk of running out of battery during flight. We propose using Conditional Value-at-Risk (CVaR) as a metric for quantifying this risk. We show that CVaR captures the risk associated with worst-case energy consumption on a nominal path by transforming the output distribution of Monte Carlo forward simulations into a risk space. Computing the CVaR on the risk-space distribution provides a metric that can evaluate the overall risk of a flight before take-off. Our energy model and risk evaluation method can improve flight safety and evaluate the coverage area from a proposed takeoff location. The video and codebase are available at https://youtu.be/PHX GigqilOA and https://git.io/cvar- risk .
翻訳日:2021-06-01 16:50:56 公開日:2021-05-31
# モノのインターネットのヘテロジニアスデバイスのための連合学習フレームワークを目指して

Towards a Federated Learning Framework for Heterogeneous Devices of Internet of Things ( http://arxiv.org/abs/2105.14675v1 )

ライセンス: Link先を確認
Huanle Zhang, Jeonghoon Kim(参考訳) フェデレーション学習(federated learning, fl)は、ローカルデバイスにデータを保持する能力から、業界や研究コミュニティでかなりの注目を集めている。 グローバルモデルをトレーニングするための局所モデルの勾配を集約するためには、既存の研究はグローバルモデルと局所モデルが同じである必要がある。 しかし、IoT(Internet of Things)デバイスは計算速度やオンボードメモリに関して本質的に多様である。 本稿では,IoTデバイスの不均一性を対象とするFLフレームワークを提案する。 具体的には、局所モデルをグローバルモデルから圧縮し、圧縮された局所モデルの勾配を用いてグローバルモデルを更新する。 我々は,IoT対応FLの設計を容易にするための予備実験を行った。

Federated Learning (FL) has received a significant amount of attention in the industry and research community due to its capability of keeping data on local devices. To aggregate the gradients of local models to train the global model, existing works require that the global model and the local models are the same. However, Internet of Things (IoT) devices are inherently diverse regarding computation speed and onboard memory. In this paper, we propose an FL framework targeting the heterogeneity of IoT devices. Specifically, local models are compressed from the global model, and the gradients of the compressed local models are used to update the global model. We conduct preliminary experiments to illustrate that our framework can facilitate the design of IoT-aware FL.
翻訳日:2021-06-01 16:48:19 公開日:2021-05-31
# retweetコミュニティがヘイトスピーチの主な原因を明らかに

Retweet communities reveal the main sources of hate speech ( http://arxiv.org/abs/2105.14898v1 )

ライセンス: Link先を確認
Bojan Evkoski, Andraz Pelicon, Igor Mozetic, Nikola Ljubesic, Petra Kralj Novak(参考訳) Twitter上でヘイトスピーチの主な情報源を特定するという課題に対処する。 一方,ヘイトスピーチに対する大量のツイートを注意深く注釈し,高品質なヘイトスピーチ分類モデルを作成するために高度なディープラーニングを展開させる。 一方、私たちはリツイートネットワークを作り、コミュニティを検出し、時間を通じてその進化を監視します。 この組み合わせアプローチは、3年間のスロベニアのtwitterデータに適用される。 いくつかの興味深い結果を報告する。 ヘイトスピーチは政治的・イデオロギー的な問題に関連する攻撃的なツイートで支配されている。 容認できないツイートのシェアは、2020年末までに最初の20%から30%まで、適度に増加している。 許容できないツイートは、許容できるツイートよりもはるかに頻繁にリツイートされる。 受け入れがたいツイートの約60%は、適度な大きさの単一の右派コミュニティによって生成される。 機関のtwitterアカウントとメディアアカウントは、個々のアカウントよりも容認できないツイートを投稿する。 しかし、受け入れられないツイートの主なソースは匿名アカウントであり、過去3年間に停止または閉鎖されたアカウントである。

We address a challenging problem of identifying main sources of hate speech on Twitter. On one hand, we carefully annotate a large set of tweets for hate speech, and deploy advanced deep learning to produce high quality hate speech classification models. On the other hand, we create retweet networks, detect communities and monitor their evolution through time. This combined approach is applied to three years of Slovenian Twitter data. We report a number of interesting results. Hate speech is dominated by offensive tweets, related to political and ideological issues. The share of unacceptable tweets is moderately increasing with time, from the initial 20% to 30% by the end of 2020. Unacceptable tweets are retweeted significantly more often than acceptable tweets. About 60% of unacceptable tweets are produced by a single right-wing community of only moderate size. Institutional Twitter accounts and media accounts post significantly less unacceptable tweets than individual accounts. However, the main sources of unacceptable tweets are anonymous accounts, and accounts that were suspended or closed during the last three years.
翻訳日:2021-06-01 16:48:08 公開日:2021-05-31
# safe pontryagin 微分可能プログラミング

Safe Pontryagin Differentiable Programming ( http://arxiv.org/abs/2105.14937v1 )

ライセンス: Link先を確認
Wanxin Jin, Shaoshuai Mou, George J. Pappas(参考訳) 安全ポントリャーギン差別化プログラミング(Safe Pontryagin Differentiable Programming, PDP)手法を提案し, 安全クリティカルな学習・制御タスクの幅広いクラスを, 学習・制御過程のどの段階においても, 即時および長期の制約満足度も保証する必要のある問題として, 理論的かつアルゴリズム的に安全な差別化可能なフレームワークを確立する。 インテリアポイント法の精神では、Safe PDPは障壁関数によるコストと損失にそれらを統合することで、異なるタイプの状態と入力制約を処理する。 We prove the following fundamental features of Safe PDP: first, both the constrained solution and its gradient in backward pass can be approximated by solving a more efficient unconstrained counterpart; second, the approximation for both the solution and its gradient can be controlled for arbitrary accuracy using a barrier parameter; and third, importantly, any intermediate results throughout the approximation and optimization are strictly respecting all constraints, thus guaranteeing safety throughout the entire learning and control process. 本研究では,安全政策の最適化,安全動作計画,mpcの学習など,様々な安全学習と制御課題を解決する上でのsafe pdpの能力を,6自由度操作や6自由度ロケット駆動着陸といった,さまざまな挑戦的な制御システム上で実証する。

We propose a Safe Pontryagin Differentiable Programming (Safe PDP) methodology, which establishes a theoretical and algorithmic safe differentiable framework to solve a broad class of safety-critical learning and control tasks -- problems that require the guarantee of both immediate and long-term constraint satisfaction at any stage of the learning and control progress. In the spirit of interior-point methods, Safe PDP handles different types of state and input constraints by incorporating them into the cost and loss through barrier functions. We prove the following fundamental features of Safe PDP: first, both the constrained solution and its gradient in backward pass can be approximated by solving a more efficient unconstrained counterpart; second, the approximation for both the solution and its gradient can be controlled for arbitrary accuracy using a barrier parameter; and third, importantly, any intermediate results throughout the approximation and optimization are strictly respecting all constraints, thus guaranteeing safety throughout the entire learning and control process. We demonstrate the capabilities of Safe PDP in solving various safe learning and control tasks, including safe policy optimization, safe motion planning, and learning MPCs from demonstrations, on different challenging control systems such as 6-DoF maneuvering quadrotor and 6-DoF rocket powered landing.
翻訳日:2021-06-01 16:47:56 公開日:2021-05-31
# 変換器を選ぶ: Fourier または Galerkin

Choose a Transformer: Fourier or Galerkin ( http://arxiv.org/abs/2105.14995v1 )

ライセンス: Link先を確認
Shuhao Cao(参考訳) 本稿では, 偏微分方程式に関するデータ駆動型演算子学習問題に, 最先端の変換器の自己注意を初めて適用する。 我々は,大規模ドット積注意におけるソフトマックス正規化が十分だが必要ではないことを示すことによって,自己注意のヒューリスティックスを説明し,有効性を向上させる努力をまとめ,ペトロフ・ガレルキン射影として線形不変量の近似能力を証明した。 また,非正規化データを用いた演算子学習タスクにおいて,モデルが顕著な精度を達成できるようにするため,新しいレイヤ正規化方式を提案する。 最後に, viscid burgers' equation, an interface darcy flow, and an inverse interface coefficient identification problemという3つの演算子学習実験を行った。 すべての実験は、新たに提案されたsoftmax正規化演算子よりも単純な注意に基づく演算子学習器の改善を検証する。

In this paper, we apply the self-attention from the state-of-art Transformer in Attention Is All You Need the first time to a data-driven operator learning problem related to partial differential equations. We put together an effort to explain the heuristics of, and improve the efficacy of the self-attention by demonstrating that the softmax normalization in the scaled dot-product attention is sufficient but not necessary, and have proved the approximation capacity of a linear variant as a Petrov-Galerkin projection. A new layer normalization scheme is proposed to allow a scaling to propagate through attention layers, which helps the model achieve remarkable accuracy in operator learning tasks with unnormalized data. Finally, we present three operator learning experiments, including the viscid Burgers' equation, an interface Darcy flow, and an inverse interface coefficient identification problem. All experiments validate the improvements of the newly proposed simple attention-based operator learner over their softmax-normalized counterparts.
翻訳日:2021-06-01 16:47:32 公開日:2021-05-31
# 車両ネットワークにおけるセキュリティのための機械学習: 包括的調査

Machine Learning for Security in Vehicular Networks: A Comprehensive Survey ( http://arxiv.org/abs/2105.15035v1 )

ライセンス: Link先を確認
Anum Talpur and Mohan Gurusamy(参考訳) 機械学習(ML)は、幅広いアプリケーションドメインに対して効果的なソリューションを提供する、魅力的な、実行可能な技術として登場した。 重要なアプリケーションドメインは車載ネットワークであり、MLベースのアプローチは様々な問題に対処するのに非常に有用である。 車両ノードと/またはインフラ間の無線通信を使用することで、異なるタイプの攻撃に対して脆弱になる。 この点において、MLとその変種は攻撃を検出し、車両通信における様々な種類のセキュリティ問題に対処するために人気を集めている。 本稿では,車両網における異なるセキュリティ問題に対するmlベース手法の包括的調査を行う。 まず、車載ネットワークと異なる種類の通信の基本について簡単に紹介する。 従来の車両網とは別に、現代の車両網アーキテクチャも検討する。 車両ネットワークにおけるセキュリティ攻撃の分類を提案し,様々なセキュリティ課題と要件について議論する。 我々は、車載ネットワークアプリケーションでの使用に基づいて、文献で開発されたMLテクニックを分類する。 さまざまなセキュリティ課題に対処する上で,これらのml技術のソリューションアプローチと動作原理を説明し,洞察に富んだ議論を行う。 車両ネットワークにおけるMLに基づく手法の限界と課題について論じる。 最後に,研究を終える前に得た観察と教訓を紹介する。

Machine Learning (ML) has emerged as an attractive and viable technique to provide effective solutions for a wide range of application domains. An important application domain is vehicular networks wherein ML-based approaches are found to be very useful to address various problems. The use of wireless communication between vehicular nodes and/or infrastructure makes it vulnerable to different types of attacks. In this regard, ML and its variants are gaining popularity to detect attacks and deal with different kinds of security issues in vehicular communication. In this paper, we present a comprehensive survey of ML-based techniques for different security issues in vehicular networks. We first briefly introduce the basics of vehicular networks and different types of communications. Apart from the traditional vehicular networks, we also consider modern vehicular network architectures. We propose a taxonomy of security attacks in vehicular networks and discuss various security challenges and requirements. We classify the ML techniques developed in the literature according to their use in vehicular network applications. We explain the solution approaches and working principles of these ML techniques in addressing various security challenges and provide insightful discussion. The limitations and challenges in using ML-based methods in vehicular networks are discussed. Finally, we present observations and lessons learned before we conclude our work.
翻訳日:2021-06-01 16:47:17 公開日:2021-05-31
# モデル誤特定とアルゴリズムバイアス

Model Mis-specification and Algorithmic Bias ( http://arxiv.org/abs/2105.15182v1 )

ライセンス: Link先を確認
Runshan Fu, Yangfan Liang, Peter Zhang(参考訳) 機械学習アルゴリズムは、重要な決定を知らせるためにますます使われている。 偏りに対する懸念が高まり、異なる集団の個人にアルゴリズムが不均一な結果をもたらす可能性がある。 本研究では,グループ間の平均予測誤差の差としてバイアスを測定する。 その結果,(1)集団レベルの平均予測誤差は無視可能であるが,群レベルの平均予測誤差は大きいこと,(2)集団間での誤差は等しくないこと,(3)集団間の誤差の差,すなわちバイアスが最悪のケースの実現につながること,などが判明した。 すなわち、同じ大きさの2つのグループが存在する場合、これらの2つのグループの平均予測誤差は同じ大きさだが反対の符号を持つ。 閉形式では、そのような誤差とバイアスは特徴の合同分布の第1モーメントと第2モーメントの関数である(線形およびプロビット回帰)。 また、より一般的な設定で同様の結果を示す数値実験も行います。 私たちの仕事は、さまざまなバイアスの原因の影響を分離するための第一歩を提供します。

Machine learning algorithms are increasingly used to inform critical decisions. There is a growing concern about bias, that algorithms may produce uneven outcomes for individuals in different demographic groups. In this work, we measure bias as the difference between mean prediction errors across groups. We show that even with unbiased input data, when a model is mis-specified: (1) population-level mean prediction error can still be negligible, but group-level mean prediction errors can be large; (2) such errors are not equal across groups; and (3) the difference between errors, i.e., bias, can take the worst-case realization. That is, when there are two groups of the same size, mean prediction errors for these two groups have the same magnitude but opposite signs. In closed form, we show such errors and bias are functions of the first and second moments of the joint distribution of features (for linear and probit regressions). We also conduct numerical experiments to show similar results in more general settings. Our work provides a first step for decoupling the impact of different causes of bias.
翻訳日:2021-06-01 16:47:03 公開日:2021-05-31
# エントロピー正則化を持つ競争ゲームに対する高速ポリシー拡張法

Fast Policy Extragradient Methods for Competitive Games with Entropy Regularization ( http://arxiv.org/abs/2105.15186v1 )

ライセンス: Link先を確認
Shicong Cen, Yuting Wei, Yuejie Chi(参考訳) 本稿では,確率単純度制約付きサドル点最適化問題としてしばしばモデル化される,競争ゲームの平衡計算問題について検討する。 制約のない環境での段階的手法の最後の収束を理解するための最近の努力にもかかわらず、制約された設定におけるこれらの手法の理論的基盤、特に乗算的更新を用いた手法は、目的関数が双線型である場合でも、非常に不十分である。 単一エージェント強化学習とゲーム理論におけるエントロピー正則化のアルゴリズム的役割に動機づけられ,エントロピー正則化を伴うゼロサム二者マトリクスゲームの解である量子応答平衡(qre)を線形速度で発見する,効率的な超勾配法を開発した。 提案アルゴリズムは、各プレイヤーが直接相手の行動を観察することなく、自身のペイオフを用いて対称的かつ乗算的な更新を反復的に実行する分散方式で実装することができる。 さらに,エントロピー正則化のノブを制御することにより,非正規化行列ゲームのナッシュ平衡を,ナッシュ平衡を一意と仮定することなくサブリニアレートで近似ナッシュ平衡を求めることができる。 また, 本手法は, エントロピー正規化ゼロサムマルコフゲームを線形レートで解くための, 効率的なポリシー超勾配アルゴリズムをもたらす。 すべての収束率は、対数係数までの状態と作用空間の大きさとは無関係で、収束を加速するためのエントロピー正規化(entropy regularization)の正の役割を強調する。

This paper investigates the problem of computing the equilibrium of competitive games, which is often modeled as a constrained saddle-point optimization problem with probability simplex constraints. Despite recent efforts in understanding the last-iterate convergence of extragradient methods in the unconstrained setting, the theoretical underpinnings of these methods in the constrained settings, especially those using multiplicative updates, remain highly inadequate, even when the objective function is bilinear. Motivated by the algorithmic role of entropy regularization in single-agent reinforcement learning and game theory, we develop provably efficient extragradient methods to find the quantal response equilibrium (QRE) -- which are solutions to zero-sum two-player matrix games with entropy regularization -- at a linear rate. The proposed algorithms can be implemented in a decentralized manner, where each player executes symmetric and multiplicative updates iteratively using its own payoff without observing the opponent's actions directly. In addition, by controlling the knob of entropy regularization, the proposed algorithms can locate an approximate Nash equilibrium of the unregularized matrix game at a sublinear rate without assuming the Nash equilibrium to be unique. Our methods also lead to efficient policy extragradient algorithms for solving entropy-regularized zero-sum Markov games at a linear rate. All of our convergence rates are nearly dimension-free, which are independent of the size of the state and action spaces up to logarithm factors, highlighting the positive role of entropy regularization for accelerating convergence.
翻訳日:2021-06-01 16:46:46 公開日:2021-05-31
# (参考訳) 解答関連性の導入による要約クエリの改善 [全文訳有]

Improve Query Focused Abstractive Summarization by Incorporating Answer Relevance ( http://arxiv.org/abs/2105.12969v2 )

ライセンス: CC BY 4.0
Dan Su, Tiezheng Yu, Pascale Fung(参考訳) query focus summarization(qfs)モデルは、与えられたクエリに答えられるソースドキュメントから要約を生成することを目的としている。 QFSに関するこれまでのほとんどの研究は、要約を生成する際のクエリ関連基準のみを考慮していた。 しかし,要約生成過程における回答の関連性の検討も重要である。 本稿では,質問応答モデルによる質問文の回答関係を明示するモデルであるQFS-BARTを提案し,一貫性と回答関連要約を生成する。 さらに,本モデルでは,要約性能を大幅に向上する大規模事前学習モデルの活用も可能である。 Debatepediaデータセットの実証結果は、提案モデルが新しい最先端のパフォーマンスを達成することを示している。

Query focused summarization (QFS) models aim to generate summaries from source documents that can answer the given query. Most previous work on QFS only considers the query relevance criterion when producing the summary. However, studying the effect of answer relevance in the summary generating process is also important. In this paper, we propose QFS-BART, a model that incorporates the explicit answer relevance of the source documents given the query via a question answering model, to generate coherent and answer-related summaries. Furthermore, our model can take advantage of large pre-trained models which improve the summarization performance significantly. Empirical results on the Debatepedia dataset show that the proposed model achieves the new state-of-the-art performance.
翻訳日:2021-06-01 13:21:46 公開日:2021-05-31
# (参考訳) 知識言語不整合の緩和--深部常識知識の研究 [全文訳有]

Alleviating the Knowledge-Language Inconsistency: A Study for Deep Commonsense Knowledge ( http://arxiv.org/abs/2105.13607v2 )

ライセンス: CC BY 4.0
Yi Zhang, Lei Li, Yunfang Wu, Qi Su, Xu Sun(参考訳) 知識事実は一般に関係性三重項で表されるが、いくつかの常識的事実は言語表現と矛盾する形式を持つ三重項で表される。 この矛盾は、これらの常識的な知識事実を扱うために、事前訓練された言語モデルに課題を提起する。 本稿では,このような知識を深層コモンセンス知識と呼び,広範囲にわたる探索実験を行う。 従来の手法では効果的に捉えられていないが,深部共通センス知識は共通センス知識のかなりの部分を占めている。 さらに,知識の3重表現形式に対する従来の手法の信頼度を緩和し,文章に分散した深層常識知識のマイニング手法を提案する。 実験により,提案手法は深層コモンセンス知識のマイニングにおける性能を著しく向上させることが示された。

Knowledge facts are typically represented by relational triples, while we observe that some commonsense facts are represented by the triples whose forms are inconsistent with the expression of language. This inconsistency puts forward a challenge for pre-trained language models to deal with these commonsense knowledge facts. In this paper, we term such knowledge as deep commonsense knowledge and conduct extensive exploratory experiments on it. We show that deep commonsense knowledge occupies a significant part of commonsense knowledge while conventional methods fail to capture it effectively. We further propose a novel method to mine the deep commonsense knowledge distributed in sentences, alleviating the reliance of conventional methods on the triple representation form of knowledge. Experiments demonstrate that the proposal significantly improves the performance in mining deep commonsense knowledge.
翻訳日:2021-06-01 12:51:58 公開日:2021-05-31
# (参考訳) 速度精度最適化のためのLog-Sum-Exp:逐次密度比行列推定のパワー

The Power of Log-Sum-Exp: Sequential Density Ratio Matrix Estimation for Speed-Accuracy Optimization ( http://arxiv.org/abs/2105.13636v2 )

ライセンス: CC BY 4.0
Taiki Miyagawa and Akinori F. Ebihara(参考訳) 予測をできるだけ早く正確にするために,時系列の多クラス分類のためのモデルを提案する。 行列シーケンシャル確率比テスト(MSPRT)は、この設定に漸近的に最適であることが知られているが、広い現実世界の応用を妨げる重要な仮定を含んでいる。 そこで本研究では,複数の密度比の行列を制約付きで推定し,従来の密度比推定よりも困難である新しい密度比行列推定法であるdrme(密度比行列推定法)を提案する。 DRME を解くためのlog-sum-exp-type loss function (LSEL) を提案し,次のことを証明した: (i) LSEL はトレーニングセットのサンプルサイズが増加(一貫性)するにつれて真の密度比行列を提供する; (ii) より難しいクラスにより大きな勾配を割り当てる; (iii) クラス不均衡なデータセット (guess-aversion) においても差別的なスコアを提供する。 早期分類のためのアーキテクチャであるMSPRT-TANDEMは、アクション認識を含む4つのデータセットのベースラインモデル、特にシーケンシャルな観測の初期段階において、統計的にかなり優れている。 私たちのコードとデータセットは、https://github.com/T aiki Miygawa/MSPRT-TANDEM で公開されています。

We propose a model for multiclass classification of time series to make a prediction as early and as accurate as possible. The matrix sequential probability ratio test (MSPRT) is known to be asymptotically optimal for this setting, but contains a critical assumption that hinders broad real-world applications; the MSPRT requires the underlying probability density. To address this problem, we propose to solve density ratio matrix estimation (DRME), a novel type of density ratio estimation that consists of estimating matrices of multiple density ratios with constraints and thus is more challenging than the conventional density ratio estimation. We propose a log-sum-exp-type loss function (LSEL) for solving DRME and prove the following: (i) the LSEL provides the true density ratio matrix as the sample size of the training set increases (consistency); (ii) it assigns larger gradients to harder classes (hard class weighting effect); and (iii) it provides discriminative scores even on class-imbalanced datasets (guess-aversion). Our overall architecture for early classification, MSPRT-TANDEM, statistically significantly outperforms baseline models on four datasets including action recognition, especially in the early stage of sequential observations. Our code and datasets are publicly available at: https://github.com/T aikiMiyagawa/MSPRT-T ANDEM.
翻訳日:2021-06-01 12:36:40 公開日:2021-05-31
# (参考訳) ResT: 視覚認識のための効率的な変換器 [全文訳有]

ResT: An Efficient Transformer for Visual Recognition ( http://arxiv.org/abs/2105.13677v2 )

ライセンス: CC BY 4.0
Qinglong Zhang and Yubin Yang(参考訳) 本稿では,画像認識のための汎用バックボーンとして機能する,高効率な多スケール視覚トランスフォーマーrestを提案する。 Unlike existing Transformer methods, which employ standard Transformer blocks to tackle raw images with a fixed resolution, our ResT have several advantages: (1) A memory-efficient multi-head self-attention is built, which compresses the memory by a simple depth-wise convolution, and projects the interaction across the attention-heads dimension while keeping the diversity ability of multi-heads; (2) Position encoding is constructed as spatial attention, which is more flexible and can tackle with input images of arbitrary size without interpolation or fine-tune; (3) Instead of the straightforward tokenization at the beginning of each stage, we design the patch embedding as a stack of overlapping convolution operation with stride on the 2D-reshaped token map. 画像分類と下流タスクにおけるResTの総合的な検証を行う。 実験の結果,提案したResTは最近の最先端のバックボーンよりも大きなマージンを有し,ResTの強いバックボーンとしての可能性を示している。 コードとモデルはhttps://github.com/w ofmanaf/ResT.comで公開される。

This paper presents an efficient multi-scale vision Transformer, called ResT, that capably served as a general-purpose backbone for image recognition. Unlike existing Transformer methods, which employ standard Transformer blocks to tackle raw images with a fixed resolution, our ResT have several advantages: (1) A memory-efficient multi-head self-attention is built, which compresses the memory by a simple depth-wise convolution, and projects the interaction across the attention-heads dimension while keeping the diversity ability of multi-heads; (2) Position encoding is constructed as spatial attention, which is more flexible and can tackle with input images of arbitrary size without interpolation or fine-tune; (3) Instead of the straightforward tokenization at the beginning of each stage, we design the patch embedding as a stack of overlapping convolution operation with stride on the 2D-reshaped token map. We comprehensively validate ResT on image classification and downstream tasks. Experimental results show that the proposed ResT can outperform the recently state-of-the-art backbones by a large margin, demonstrating the potential of ResT as strong backbones. The code and models will be made publicly available at https://github.com/w ofmanaf/ResT.
翻訳日:2021-06-01 12:35:08 公開日:2021-05-31
# (参考訳) 重雨画像に対する意味的特徴マッチングによる新しい画像キャプションエンコーダ [全文訳有]

New Image Captioning Encoder via Semantic Visual Feature Matching for Heavy Rain Images ( http://arxiv.org/abs/2105.13753v2 )

ライセンス: CC BY 4.0
Chang-Hwan Son, Pung-Hwi Ye(参考訳) 画像キャプションは入力画像からシーンを記述するテキストを生成する。 晴天で撮影された高品質な画像のために開発された。 しかし、大雨、雪、濃霧などの悪天候では、雨乱れ、雨の蓄積、雪の結晶化などによる視認性が低下し、画質が著しく低下する。 これにより、有用な視覚特徴の抽出が妨げられ、画像キャプション性能が劣化する。 そこで本研究では,降雨画像のキャプションのためのエンコーダを提案する。 中心となる考え方は、重雨の入力画像から抽出した出力特徴を、単語や文コンテキストに関連する意味的な視覚特徴に変換することである。 これを実現するために、ターゲットエンコーダは、まずエンコーダ-デコーダフレームワークで訓練され、視覚的特徴とセマンティックワードを関連付ける。 その後、豪雨モデルに基づく初期再構成サブネットワーク(IRS)を用いて、豪雨画像中の物体を可視化する。 IRSは、ISRの出力特徴と事前訓練されたターゲットエンコーダのセマンティックビジュアル特徴とを一致させるために、別のセマンティックビジュアル特徴マッチングサブネットワーク(SVFMS)と結合される。 提案するエンコーダはISSとSVFMSの共同学習に基づいている。 エンドツーエンドでトレーニングされ、イメージキャプションのためにトレーニング済みのデコーダに接続される。 提案するエンコーダは,大雨画像からでも単語に関連付けられた意味的視覚的特徴を生成できるため,字幕の精度が向上することが実験的に実証された。

Image captioning generates text that describes scenes from input images. It has been developed for high quality images taken in clear weather. However, in bad weather conditions, such as heavy rain, snow, and dense fog, the poor visibility owing to rain streaks, rain accumulation, and snowflakes causes a serious degradation of image quality. This hinders the extraction of useful visual features and results in deteriorated image captioning performance. To address practical issues, this study introduces a new encoder for captioning heavy rain images. The central idea is to transform output features extracted from heavy rain input images into semantic visual features associated with words and sentence context. To achieve this, a target encoder is initially trained in an encoder-decoder framework to associate visual features with semantic words. Subsequently, the objects in a heavy rain image are rendered visible by using an initial reconstruction subnetwork (IRS) based on a heavy rain model. The IRS is then combined with another semantic visual feature matching subnetwork (SVFMS) to match the output features of the IRS with the semantic visual features of the pretrained target encoder. The proposed encoder is based on the joint learning of the IRS and SVFMS. It is is trained in an end-to-end manner, and then connected to the pretrained decoder for image captioning. It is experimentally demonstrated that the proposed encoder can generate semantic visual features associated with words even from heavy rain images, thereby increasing the accuracy of the generated captions.
翻訳日:2021-06-01 12:16:39 公開日:2021-05-31
# ILDC for CJPE: 裁判所判決の予測と説明のためのインドの法律文書コーパス

ILDC for CJPE: Indian Legal Documents Corpus for Court Judgment Prediction and Explanation ( http://arxiv.org/abs/2105.13562v2 )

ライセンス: Link先を確認
Vijit Malik and Rishabh Sanjay and Shubham Kumar Nigam and Kripa Ghosh and Shouvik Kumar Guha and Arnab Bhattacharya and Ashutosh Modi(参考訳) 裁判官が事件の結果を予測するのを助ける自動化システムは、司法手続きの迅速化に役立つだろう。 このようなシステムが実用的に有用であるためには、システムによる予測を説明すべきである。 このようなシステム開発の研究を促進するために,ILDC(Indian Legal Documents Corpus)を紹介する。 ILDCは、インド最高裁判所の35k件の訴訟で、原告の判決が下された大きなコーパスである。 コーパスの一部(別個のテストセット)には、法の専門家によるゴールドスタンダードの説明が注釈付けされている。 ILDCに基づいて,裁判所判断予測・説明(CJPE)の課題を提案する。 このタスクは、ケースの説明可能な結果を予測する自動化システムを必要とする。 ケース予測のためのベースラインモデルのバッテリを実験し,説明可能性のための階層的オクルージョンモデルを提案する。 我々の最良の予測モデルは、人間の法律専門家の精度が78%、94%であり、予測タスクの複雑さを指している。 提案アルゴリズムによる説明の分析は,今後の研究の範囲をめざして,その判断を説明する上で,アルゴリズムと法の専門家の視点に有意な差があることを明らかにする。

An automated system that could assist a judge in predicting the outcome of a case would help expedite the judicial process. For such a system to be practically useful, predictions by the system should be explainable. To promote research in developing such a system, we introduce ILDC (Indian Legal Documents Corpus). ILDC is a large corpus of 35k Indian Supreme Court cases annotated with original court decisions. A portion of the corpus (a separate test set) is annotated with gold standard explanations by legal experts. Based on ILDC, we propose the task of Court Judgment Prediction and Explanation (CJPE). The task requires an automated system to predict an explainable outcome of a case. We experiment with a battery of baseline models for case predictions and propose a hierarchical occlusion based model for explainability. Our best prediction model has an accuracy of 78% versus 94% for human legal experts, pointing towards the complexity of the prediction task. The analysis of explanations by the proposed algorithm reveals a significant difference in the point of view of the algorithm and legal experts for explaining the judgments, pointing towards scope for future research.
翻訳日:2021-06-01 11:42:56 公開日:2021-05-31
# 限られた並列資源を用いた言語間抽象要約

Cross-Lingual Abstractive Summarization with Limited Parallel Resources ( http://arxiv.org/abs/2105.13648v2 )

ライセンス: Link先を確認
Yu Bai, Yang Gao, Heyan Huang(参考訳) 並列言語間要約データは少ないため、モデルが利用可能な言語間リソースをより活用する必要がある。 既存の手法では、マルチタスクフレームワークでシーケンシャル・ツー・シーケンス・ネットワークを採用することが多い。 このようなアプローチは複数のデコーダを適用でき、それぞれが特定のタスクに使用される。 しかし、これらの独立したデコーダはパラメータを共有しないので、異なる言語における要約の離散的なフレーズ間の関係を捉えず、高リソース言語の知識を低リソース言語に転送するために接続を断ち切る。 これらの接続をブリッジするために,低リソース環境下でのクロスLingual Abstractive Summarization (MCLAS) のための新しいマルチタスクフレームワークを提案する。 統一デコーダを1つ使用して、単言語およびクロス言語サマリーの逐次結合を生成することで、mclasは単言語サマー化タスクをクロス言語サマー化(cls)タスクの前提条件とする。 このようにして、共有デコーダは言語間のアライメントや要約パターンを含む相互作用を学び、知識伝達の達成を促進する。 CLSデータセットの2つの実験により、我々のモデルは低リソースとフルデータセットの両方のシナリオにおいて、3つのベースラインモデルよりも大幅に優れていることが示された。 さらに,生成したサマリーとアテンションヘッドの詳細な解析により,MCLASを用いて相互作用が十分に学習されていることを確認する。

Parallel cross-lingual summarization data is scarce, requiring models to better use the limited available cross-lingual resources. Existing methods to do so often adopt sequence-to-sequence networks with multi-task frameworks. Such approaches apply multiple decoders, each of which is utilized for a specific task. However, these independent decoders share no parameters, hence fail to capture the relationships between the discrete phrases of summaries in different languages, breaking the connections in order to transfer the knowledge of the high-resource languages to low-resource languages. To bridge these connections, we propose a novel Multi-Task framework for Cross-Lingual Abstractive Summarization (MCLAS) in a low-resource setting. Employing one unified decoder to generate the sequential concatenation of monolingual and cross-lingual summaries, MCLAS makes the monolingual summarization task a prerequisite of the cross-lingual summarization (CLS) task. In this way, the shared decoder learns interactions involving alignments and summary patterns across languages, which encourages attaining knowledge transfer. Experiments on two CLS datasets demonstrate that our model significantly outperforms three baseline models in both low-resource and full-dataset scenarios. Moreover, in-depth analysis on the generated summaries and attention heads verifies that interactions are learned well using MCLAS, which benefits the CLS task under limited parallel resources.
翻訳日:2021-06-01 11:42:17 公開日:2021-05-31
# アカデミックエキスパートの探索のための説明的クエリベースのフレームワーク

An Explanatory Query-Based Framework for Exploring Academic Expertise ( http://arxiv.org/abs/2105.13728v2 )

ライセンス: Link先を確認
Oana Cocarascu, Andrew McLean, Paul French, Francesca Toni(参考訳) 研究機関の成功は「仕事のために」適切な研究者を特定することに大きく依存している:研究者は様々な分野から適切な協力者を特定する必要がある;学生は興味のあるプロジェクトに適した監督者を特定する必要がある;管理者は関連する研究者と資金の機会を一致させる必要がある、など。 通常、機関内の潜在的な協力者を見つけることは、偏見を伴う手動検索作業に時間がかかる。 本稿では,学術論文の抽象的な処理に基づいて,研究専門知識の検索,評価,探索を行う新しいクエリベースのフレームワークを提案する。 自然言語のユーザクエリを考慮し、ドメイン固有の知識ベースと単語の埋め込みを利用して、関連する専門知識を持つ研究者を見つける。 また、レコメンデーションに関する説明も生成する。 我々は,先進大学における論文の機関リポジトリを用いて,多ラベル分類タスクのためのベースライン,人工ニューラルネットワーク,トランスフォーマーベースモデルを用いて,論文の著者を特定する。 また,同機関の(別個の)研究資金レポジトリを用いて,フレームワークのクロスドメイン効果を評価する。 提案手法は, 望ましい特性を満足し, 効率的でありながら, マッチングの同定に有効であることを示す。

The success of research institutions heavily relies upon identifying the right researchers "for the job": researchers may need to identify appropriate collaborators, often from across disciplines; students may need to identify suitable supervisors for projects of their interest; administrators may need to match funding opportunities with relevant researchers, and so on. Usually, finding potential collaborators in institutions is a time-consuming manual search task prone to bias. In this paper, we propose a novel query-based framework for searching, scoring, and exploring research expertise automatically, based upon processing abstracts of academic publications. Given user queries in natural language, our framework finds researchers with relevant expertise, making use of domain-specific knowledge bases and word embeddings. It also generates explanations for its recommendations. We evaluate our framework with an institutional repository of papers from a leading university, using, as baselines, artificial neural networks and transformer-based models for a multilabel classification task to identify authors of publication abstracts. We also assess the cross-domain effectiveness of our framework with a (separate) research funding repository for the same institution. We show that our simple method is effective in identifying matches, while satisfying desirable properties and being efficient.
翻訳日:2021-06-01 11:41:54 公開日:2021-05-31
# 高精度な残響物体検出のための再帰的輪郭残響ブラインドネットワーク

Recursive Contour Saliency Blending Network for Accurate Salient Object Detection ( http://arxiv.org/abs/2105.13865v2 )

ライセンス: Link先を確認
Yi Ke Yun, Chun Wei Tan, Takahiro Tsubono(参考訳) 輪郭情報は、健全な物体検出において重要な役割を果たす。 しかし、過剰な偽陽性は既存の輪郭モデルからの予測に残っており、輪郭-サリーエンシー融合が不十分である。 本研究では,高度物体検出におけるエッジ品質を改善するネットワークを考案した。 輪郭と塩分情報を交換する輪郭・塩分混合モジュールを提案する。 トータルトレーサブルパラメータを同一に保ちながら,輪郭・サリエンシー融合を促進するために再帰型cnnを採用した。 さらに,従来の中間塩分予測から最も有用な特徴を抽出できるように,段階的な特徴抽出モジュールを設計した。 さらに,本モデルがより良好な境界予測を生成するために,二重閉じ込め損失と信頼損失という2つの新しい損失関数を提案した。 5つの共通ベンチマークデータセットの評価結果から,本モデルが最先端の競争性能を達成できることが判明した。 最後に、我々のモデルは軽量で高速で、パラメータはわずか279万、リアルタイムの推論は31FPSである。

Contour information plays a vital role in salient object detection. However, excessive false positives remain in predictions from existing contour-based models due to insufficient contour-saliency fusion. In this work, we designed a network for better edge quality in salient object detection. We proposed a contour-saliency blending module to exchange information between contour and saliency. We adopted recursive CNN to increase contour-saliency fusion while keeping the total trainable parameters the same. Furthermore, we designed a stage-wise feature extraction module to help the model pick up the most helpful features from previous intermediate saliency predictions. Besides, we proposed two new loss functions, namely Dual Confinement Loss and Confidence Loss, for our model to generate better boundary predictions. Evaluation results on five common benchmark datasets reveal that our model achieves competitive state-of-the-art performance. Last but not least, our model is lightweight and fast, with only 27.9 million parameters and real-time inferencing at 31 FPS.
翻訳日:2021-06-01 11:41:13 公開日:2021-05-31
# 最適化誘起平衡ネットワーク

Optimization Induced Equilibrium Networks ( http://arxiv.org/abs/2105.13228v2 )

ライセンス: Link先を確認
Xingyu Xie, Qiuhao Wang, Zenan Ling, Xia Li, Yisen Wang, Guangcan Liu, Zhouchen Lin(参考訳) 暗黙の方程式によって定義されるディープニューラルネットワーク(DNN)のような暗黙の平衡モデルは最近ますます魅力的になりつつある。 本稿では,暗黙の平衡モデルの平衡点を最適化問題の解とみなすことができるのか,という問題について考察する。 この目的のために、まずDNNを暗黙の凸関数の近位演算子である新しい単位層に分解し、出力を一定に保つ。 次に、単位層の平衡モデルを導出し、最適化誘起平衡ネットワーク(OptEq)と名付け、深層に容易に拡張できる。 OptEq の平衡点は、その対応する凸最適化問題の解と明確な目的によって理論的に関連付けられる。 これに基づいて, 1) 基礎となる凸問題を, opteq のアーキテクチャを変更するために明示的に修正すること,2) 固定点反復に情報を統合することで,不動点集合が非特異な場合に所望の平衡点を選択することを保証できる。 我々は,パラメータが少ない場合でも,OptEqが従来の暗黙モデルより優れていることを示す。 この研究は、深層モデルの最適化誘導設計への第一歩を定めている。

Implicit equilibrium models, i.e., deep neural networks (DNNs) defined by implicit equations, have been becoming more and more attractive recently. In this paper, we investigate an emerging question: can an implicit equilibrium model's equilibrium point be regarded as the solution of an optimization problem? To this end, we first decompose DNNs into a new class of unit layer that is the proximal operator of an implicit convex function while keeping its output unchanged. Then, the equilibrium model of the unit layer can be derived, named Optimization Induced Equilibrium Networks (OptEq), which can be easily extended to deep layers. The equilibrium point of OptEq can be theoretically connected to the solution of its corresponding convex optimization problem with explicit objectives. Based on this, we can flexibly introduce prior properties to the equilibrium points: 1) modifying the underlying convex problems explicitly so as to change the architectures of OptEq; and 2) merging the information into the fixed point iteration, which guarantees to choose the desired equilibrium point when the fixed point set is non-singleton. We show that deep OptEq outperforms previous implicit models even with fewer parameters. This work establishes the first step towards the optimization-guided design of deep models.
翻訳日:2021-06-01 11:40:30 公開日:2021-05-31
# 量子アニールを用いた複雑系の量子最適化

Quantum Optimisation of Complex Systems with a Quantum Annealer ( http://arxiv.org/abs/2105.13945v2 )

ライセンス: Link先を確認
Steve Abel, Andrew Blance and Michael Spannowsky(参考訳) 量子アニール法と,熱アニール法,ネルダーミード法,勾配降下法などの古典的最適化法を詳細に比較した。 まず量子アニール上の2次元イジングモデルを直接研究し、その特性を熱的2次元イジングモデルと直接比較する。 これらの性質には、理論の「量子性」の変化またはイジング結合のスケールアップによって引き起こされるイジング様相転移が含まれる。 この挙動は、量子系の物理的理解から期待されることと一致している。 続いて、より硬く2次元のポテンシャルを最小化する量子アニールの効果を実証する。 すべてのポテンシャルについて、ネルダーミード法と勾配降下法が偽極小に閉じ込められやすいという一般的な挙動を見出す一方、熱アニール法は真の極小を見つけるのに多少優れている。 しかし、現在のサイズに制限があるにもかかわらず、量子アニールはこれらの古典的手法よりも著しく優れた最小化を行う。 量子アニールは、システムがほとんど偽の最小値に閉じ込められず、迅速かつうまくポテンシャルを最小化するために設計することができる。

We perform an in-depth comparison of quantum annealing with several classical optimisation techniques, namely thermal annealing, Nelder-Mead, and gradient descent. We begin with a direct study of the 2D Ising model on a quantum annealer, and compare its properties directly with those of the thermal 2D Ising model. These properties include an Ising-like phase transition that can be induced by either a change in 'quantum-ness' of the theory, or by a scaling the Ising couplings up or down. This behaviour is in accord with what is expected from the physical understanding of the quantum system. We then go on to demonstrate the efficacy of the quantum annealer at minimising several increasingly hard two dimensional potentials. For all the potentials we find the general behaviour that Nelder-Mead and gradient descent methods are very susceptible to becoming trapped in false minima, while the thermal anneal method is somewhat better at discovering the true minimum. However, and despite current limitations on its size, the quantum annealer performs a minimisation very markedly better than any of these classical techniques. A quantum anneal can be designed so that the system almost never gets trapped in a false minimum, and rapidly and successfully minimises the potentials.
翻訳日:2021-06-01 11:40:12 公開日:2021-05-31