このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。



PDF登録状況(公開日: 20210225)

# (参考訳) K-Deep Simplex: ローカル辞書による深層マニフォールド学習 [全文訳有]

K-Deep Simplex: Deep Manifold Learning via Local Dictionaries ( http://arxiv.org/abs/2012.02134v2 )

ライセンス: CC BY 4.0
Pranay Tankala, Abiy Tasissa, James M. Murphy, Demba Ba(参考訳) K-Deep Simplex (KDS) は、多様体学習とスパース辞書学習の強みを組み合わせた非線形次元減少のための統一的な最適化フレームワークである。 本手法は,データポイントを表すローカル辞書を,確率シンプレックスを用いた再構成係数で学習する。 辞書は、構造化深層学習の一般的なテクニックであるアンロールアルゴリズムを用いて学習される。 KDSは関連するアプローチよりも膨大な計算上の優位性を持ち、解釈可能かつ柔軟である。 特に、KDSは、データの内在的な幾何学的性質に依存するスケーリングを伴うデータポイントの数で準線形である。 KDSを教師なしクラスタリング問題に適用し、理論的性能保証を証明する。 実験により,アルゴリズムは効率が高く,合成データセットや実データに対して競争力があることが示された。

We propose K-Deep Simplex (KDS), a unified optimization framework for nonlinear dimensionality reduction that combines the strengths of manifold learning and sparse dictionary learning. Our approach learns local dictionaries that represent a data point with reconstruction coefficients supported on the probability simplex. The dictionaries are learned using algorithm unrolling, an increasingly popular technique for structured deep learning. KDS enjoys tremendous computational advantages over related approaches and is both interpretable and flexible. In particular, KDS is quasilinear in the number of data points with scaling that depends on intrinsic geometric properties of the data. We apply KDS to the unsupervised clustering problem and prove theoretical performance guarantees. Experiments show that the algorithm is highly efficient and performs competitively on synthetic and real data sets.
翻訳日:2021-05-23 19:51:24 公開日:2021-02-25
# (参考訳) CTにおける肺気道および動脈-静脈分画に対するTubule-Sensitive CNNの学習 [全文訳有]

Learning Tubule-Sensitive CNNs for Pulmonary Airway and Artery-Vein Segmentation in CT ( http://arxiv.org/abs/2012.05767v5 )

ライセンス: CC BY 4.0
Yulei Qin, Hao Zheng, Yun Gu, Xiaolin Huang, Jie Yang, Lihui Wang, Feng Yao, Yue-Min Zhu, Guang-Zhong Yang(参考訳) 肺気道,動脈,静脈のセグメンテーションのための畳み込みニューラルネットワーク(CNN)の訓練は,管状目標と背景との重度の階級的不均衡によって引き起こされる疎い監督信号により困難である。 コントラスト非造影CTにおいて,CNNによる正確な気道および動脈静脈分画法を提案する。 細気管支、動脈、静脈に対して優れた感受性を有する。 この手法はまず、ニューラルネットワークから学んだ機能を最大限活用するために、機能修正モジュールを使用する。 特徴の空間情報は、活性化領域の相対的優先度を維持するために適切に統合され、その後のチャネルワイド・リカレーションの恩恵を受ける。 次に、管状物体の表現学習を強化するために注意蒸留モジュールを導入する。 高分解能アテンションマップの細部の詳細は、コンテキストを豊かにするために、ある層からその前の層に繰り返し渡される。 肺コンテキストマップと距離変換マップの解剖学は、動脈-静脈の分化能力を改善するために設計され、組み込まれている。 広範な実験により、これらのコンポーネントによるかなりの性能向上が示された。 本手法は最先端手法と比較し, 競合的なセグメント化性能を維持しつつ, はるかに多くの枝を抽出した。 コードとモデルはhttp://www.pami.sjtu .edu.cn/news/56で利用可能である。

Training convolutional neural networks (CNNs) for segmentation of pulmonary airway, artery, and vein is challenging due to sparse supervisory signals caused by the severe class imbalance between tubular targets and background. We present a CNNs-based method for accurate airway and artery-vein segmentation in non-contrast computed tomography. It enjoys superior sensitivity to tenuous peripheral bronchioles, arterioles, and venules. The method first uses a feature recalibration module to make the best use of features learned from the neural networks. Spatial information of features is properly integrated to retain relative priority of activated regions, which benefits the subsequent channel-wise recalibration. Then, attention distillation module is introduced to reinforce representation learning of tubular objects. Fine-grained details in high-resolution attention maps are passing down from one layer to its previous layer recursively to enrich context. Anatomy prior of lung context map and distance transform map is designed and incorporated for better artery-vein differentiation capacity. Extensive experiments demonstrated considerable performance gains brought by these components. Compared with state-of-the-art methods, our method extracted much more branches while maintaining competitive overall segmentation performance. Codes and models are available at http://www.pami.sjtu .edu.cn/News/56
翻訳日:2021-05-15 14:06:54 公開日:2021-02-25
# (参考訳) Reddit Entity Linking Dataset [全文訳有]

Reddit Entity Linking Dataset ( http://arxiv.org/abs/2101.01228v2 )

ライセンス: CC BY 4.0
Nicholas Botzer, Yifan Ding, Tim Weninger(参考訳) 我々は,3人のアノテータによってアノテートされ,金,銀,青銅にグループ化され,アノテータ間の合意を示す,17,316個のリンクされたエンティティを含むredditのデータセットを紹介,公開する。 注釈者による異なる誤りや不一致を分析し、生データに対する3種類の修正を提案する。 最後に、非社会的メディアデータセットからのテキストに基づいてトレーニングおよびチューニングされた既存のエンティティリンクモデルをテストする。 既存のエンティティリンクモデルは、オリジナルのデータセットで非常によく機能するが、このソーシャルメディアデータセットではパフォーマンスが悪いことが分かりました。 また,これらのエラーの大部分は,参照検出サブタスクの性能低下によるものであることを示す。 これらの結果は、膨大な量のソーシャルメディアテキストに適用可能な、より良いエンティティリンクモデルの必要性を示している。

We introduce and make publicly available an entity linking dataset from Reddit that contains 17,316 linked entities, each annotated by three human annotators and then grouped into Gold, Silver, and Bronze to indicate inter-annotator agreement. We analyze the different errors and disagreements made by annotators and suggest three types of corrections to the raw data. Finally, we tested existing entity linking models that are trained and tuned on text from non-social media datasets. We find that, although these existing entity linking models perform very well on their original datasets, they perform poorly on this social media dataset. We also show that the majority of these errors can be attributed to poor performance on the mention detection subtask. These results indicate the need for better entity linking models that can be applied to the enormous amount of social media text.
翻訳日:2021-04-12 00:29:23 公開日:2021-02-25
# (参考訳) インダクティブバイアス、事前学習、微調整は発話に対する脳の反応を左右する [全文訳有]

Inductive biases, pretraining and fine-tuning jointly account for brain responses to speech ( http://arxiv.org/abs/2103.01032v1 )

ライセンス: CC BY 4.0
Juliette Millet, Jean-Remi King(参考訳) 音声を理解できる能力は、現在に至るまで、ディープラーニングモデルに左右されないままである。 この偉業は、音声特異的なプロセスのための一般的な音の表現を微調整する脳の能力から生じる可能性がある。 この仮説を検証するために, 機能的磁気共鳴画像(fMRI)を用いて, オランダ人102名の被験者を対象に, 5種類の深部ニューラルネットワークと音声文によるヒト脳反応を比較した。 各ネットワークは、音響シーンの分類、音声からテキストへのタスク(ベンガル語、英語、オランダ語に基づく)、あるいは訓練されていない。 各モデルと脳の類似性は、最適線形投影後のそれぞれの活性化を関連づけることで評価される。 ネットワーク間の脳相似性の違いは3つの主要な結果を示した。 まず、脳内の音声表現は、ランダムなディープネットワークによって説明できる。 第二に、音響シーンの分類を学ぶことで、深い網が脳の類似性を高める。 第3に、音声関連音声入力(オランダ語対英語)を処理する学習は、深層ネットを学習よりも高いレベルの脳相似性に導く。 オランダ対ベンガル)。 これらの結果から,人間の脳は音声処理を学ぶために,高度に訓練された聴覚階層を微調整していることが示唆された。

Our ability to comprehend speech remains, to date, unrivaled by deep learning models. This feat could result from the brain's ability to fine-tune generic sound representations for speech-specific processes. To test this hypothesis, we compare i) five types of deep neural networks to ii) human brain responses elicited by spoken sentences and recorded in 102 Dutch subjects using functional Magnetic Resonance Imaging (fMRI). Each network was either trained on an acoustics scene classification, a speech-to-text task (based on Bengali, English, or Dutch), or not trained. The similarity between each model and the brain is assessed by correlating their respective activations after an optimal linear projection. The differences in brain-similarity across networks revealed three main results. First, speech representations in the brain can be accounted for by random deep networks. Second, learning to classify acoustic scenes leads deep nets to increase their brain similarity. Third, learning to process phonetically-related speech inputs (i.e., Dutch vs English) leads deep nets to reach higher levels of brain-similarity than learning to process phonetically-distant speech inputs (i.e. Dutch vs Bengali). Together, these results suggest that the human brain fine-tunes its heavily-trained auditory hierarchy to learn to process speech.
翻訳日:2021-04-05 08:40:58 公開日:2021-02-25
# 近似推論のための容易に解釈できる診断法:シミュレーションによる対称発散

An Easy to Interpret Diagnostic for Approximate Inference: Symmetric Divergence Over Simulations ( http://arxiv.org/abs/2103.01030v1 )

ライセンス: Link先を確認
Justin Domke(参考訳) 確率的推論アルゴリズムの誤差を推定することが重要である。 マルコフ連鎖モンテカルロ法による既存の診断は、推論が漸近的に正確であると仮定し、変分推論やラプラス法のような近似手法には適さない。 本稿では,前者からのデータセットを繰り返しシミュレーションし,それぞれに推論を行う診断手法を提案する。 中心的な観測は、これらのシミュレーションで定義された対称KL偏差を推定できるということである。

It is important to estimate the errors of probabilistic inference algorithms. Existing diagnostics for Markov chain Monte Carlo methods assume inference is asymptotically exact, and are not appropriate for approximate methods like variational inference or Laplace's method. This paper introduces a diagnostic based on repeatedly simulating datasets from the prior and performing inference on each. The central observation is that it is possible to estimate a symmetric KL-divergence defined over these simulations.
翻訳日:2021-04-05 00:51:34 公開日:2021-02-25
# インフレーション型3次元深部畳み込みニューラルネットワークを用いた手話認識への伝達学習の適用

Application of Transfer Learning to Sign Language Recognition using an Inflated 3D Deep Convolutional Neural Network ( http://arxiv.org/abs/2103.05111v1 )

ライセンス: Link先を確認
Roman T\"ongi(参考訳) 手話は聴覚障害を持つ人々にとって主要な言語である。 手話認識(SLR)は手話の自動認識であり、コンピュータにとって難しい問題である。 ディープラーニングモデルのトレーニングには,一般的に大量のデータが必要です。 しかし、ほとんどの手話言語では、対応するデータセットが欠落している。 転送学習は、十分なデータを持たない対象タスクを解決するのに役立つ大量のデータを持つ関連タスクを活用する技術である。 トランスファーラーニングはコンピュータビジョンと自然言語処理に非常にうまく応用されている。 しかし、SLRの分野での研究はほとんど行われていない。 本稿では,3次元畳み込みニューラルネットワークを深層学習アーキテクチャとして用いて,孤立SLRへの伝達学習の有効性について検討する。 転送学習は、アメリカ手話データセットMS-ASL上のネットワークを事前訓練し、その後、ドイツの手話データセットSIGNUMの3つの異なるサイズで微調整することで実現される。 実験の結果、移動学習が孤立SLRに効果的に適用できるという明確な実証的証拠が得られた。 転送学習を適用したネットワークの精度は,MS-ASLデータセットで事前トレーニングされていないベースラインモデルと比較して21%まで向上した。

Sign language is the primary language for people with a hearing loss. Sign language recognition (SLR) is the automatic recognition of sign language, which represents a challenging problem for computers, though some progress has been made recently using deep learning. Huge amounts of data are generally required to train deep learning models. However, corresponding datasets are missing for the majority of sign languages. Transfer learning is a technique to utilize a related task with an abundance of data available to help solve a target task lacking sufficient data. Transfer learning has been applied highly successfully in computer vision and natural language processing. However, much less research has been conducted in the field of SLR. This paper investigates how effectively transfer learning can be applied to isolated SLR using an inflated 3D convolutional neural network as the deep learning architecture. Transfer learning is implemented by pre-training a network on the American Sign Language dataset MS-ASL and subsequently fine-tuning it separately on three different sizes of the German Sign Language dataset SIGNUM. The results of the experiments give clear empirical evidence that transfer learning can be effectively applied to isolated SLR. The accuracy performances of the networks applying transfer learning increased substantially by up to 21% as compared to the baseline models that were not pre-trained on the MS-ASL dataset.
翻訳日:2021-04-05 00:51:04 公開日:2021-02-25
# 視覚的特徴に基づくWebテーブル分類

Web Table Classification based on Visual Features ( http://arxiv.org/abs/2103.05110v1 )

ライセンス: Link先を確認
Babette B\"uhler and Heiko Paulheim(参考訳) web上のテーブルは、事実検索や知識ベース拡張など、多くのアプリケーションにとって貴重なデータソースとなります。 しかし、関係知識を含む真のテーブルは、web上のテーブルのごく一部を占めるため、信頼できる本物のwebテーブルの分類は、テーブル抽出の第一段階である。 以前の作業は通常、htmlコードからの明示的な機能構築に依存している。 対照的に、Webテーブルのレンダリング画像に畳み込みニューラルネットワークを適用することによって純粋に機能するテーブルの完全な視覚的外観を活用することにより、Webテーブル分類のためのアプローチを提案する。 これらの視覚的特徴を自動抽出できるので、明示的な特徴構築の必要性を回避することができる。 このタスクのために、HTMLソースコードと13,112のテーブルの画像を含む新しい手書きゴールド標準データセットが作成された。 転送学習技術はよく知られたVGG16とResNet50アーキテクチャに適用される。 resnet50(f1 93.29%)の微調整によるcnn画像分類の評価は、このアプローチが、htmlコードベースの明示的に定義された機能を使用して、以前のソリューションに匹敵する結果が得られることを示している。 視覚的特徴と明示的な特徴を組み合わせることで、93.70%のF尺度をランダムフォレスト分類によって達成することができる。

Tables on the web constitute a valuable data source for many applications, like factual search and knowledge base augmentation. However, as genuine tables containing relational knowledge only account for a small proportion of tables on the web, reliable genuine web table classification is a crucial first step of table extraction. Previous works usually rely on explicit feature construction from the HTML code. In contrast, we propose an approach for web table classification by exploiting the full visual appearance of a table, which works purely by applying a convolutional neural network on the rendered image of the web table. Since these visual features can be extracted automatically, our approach circumvents the need for explicit feature construction. A new hand labeled gold standard dataset containing HTML source code and images for 13,112 tables was generated for this task. Transfer learning techniques are applied to well known VGG16 and ResNet50 architectures. The evaluation of CNN image classification with fine tuned ResNet50 (F1 93.29%) shows that this approach achieves results comparable to previous solutions using explicitly defined HTML code based features. By combining visual and explicit features, an F-measure of 93.70% can be achieved by Random Forest classification, which beats current state of the art methods.
翻訳日:2021-04-05 00:48:18 公開日:2021-02-25
# ハイブリッド非教師付き異常検出法による脱税リスク管理

Tax Evasion Risk Management Using a Hybrid Unsupervised Outlier Detection Method ( http://arxiv.org/abs/2103.01033v1 )

ライセンス: Link先を確認
Milo\v{s} Savi\'c, Jasna Atanasijevi\'c, Du\v{s}an Jakoveti\'c, Nata\v{s}a Kreji\'c(参考訳) ビッグデータの手法は、世界中の税金不正検出の重要なツールになりつつある。 教師なし学習(unsupervised learning)アプローチは、対応するデータセットにおけるラベルや根拠の真理が欠如しているため、主要なフレームワークである。 本稿では,脱税リスク管理のためのハイブリッド型非教師なし異常検出手法hunodについて述べる。 文献で提案されている従来の手法とは対照的に、hunod法は2つの異なる機械学習設計(クラスタリングと表現学習)に基づく2つの外れ値検出アプローチを組み合わせて、所定の課税データセットにおける外れ値の検出と内部検証を行う。 hunodメソッドにより、ユーザは、特定の経済状況に関連する外れ値を検出するために、両方の外れ値検出アプローチに関連するドメイン知識を組み込むことができる。 また, 教師なし外乱検出法の結果に対して, 説明可能なサロゲートモデルを訓練することにより, 得られた外乱の解釈可能性を実現する。 HUNOD法の実験評価は,セルビア税務省が収集した個人所得税宣言データベースから得られた2つのデータセットを用いて行った。 その結果,本手法は,クラスタ構成に応じて90%から98%の内部検証された異常値を示し,表現学習に正規化機構を用いた。

Big data methods are becoming an important tool for tax fraud detection around the world. Unsupervised learning approach is the dominant framework due to the lack of label and ground truth in corresponding data sets although these methods suffer from low interpretability. HUNOD, a novel hybrid unsupervised outlier detection method for tax evasion risk management, is presented in this paper. In contrast to previous methods proposed in the literature, the HUNOD method combines two outlier detection approaches based on two different machine learning designs (i.e, clustering and representational learning) to detect and internally validate outliers in a given tax dataset. The HUNOD method allows its users to incorporate relevant domain knowledge into both constituent outlier detection approaches in order to detect outliers relevant for a given economic context. The interpretability of obtained outliers is achieved by training explainable-by-desig n surrogate models over results of unsupervised outlier detection methods. The experimental evaluation of the HUNOD method is conducted on two datasets derived from the database on individual personal income tax declarations collected by the Tax Administration of Serbia. The obtained results show that the method indicates between 90% and 98% internally validated outliers depending on the clustering configuration and employed regularization mechanisms for representational learning.
翻訳日:2021-04-05 00:47:58 公開日:2021-02-25
# deepfakes生成と検出:最新技術,オープンチャレンジ,対策,今後の展望

Deepfakes Generation and Detection: State-of-the-art, open challenges, countermeasures, and way forward ( http://arxiv.org/abs/2103.00484v1 )

ライセンス: Link先を確認
Momina Masood, Marriam Nawaz, Khalid Mahmood Malik, Ali Javed, Aun Irtaza(参考訳) ソーシャルメディア上での視聴覚コンテンツへのアクセスの容易化、tensorflowやkerasといった現代的なツール、オープンソースのトレーニングモデル、経済コンピューティングインフラストラクチャ、特にgan(generative adversarial network)といったディープラーニング(dl)メソッドの急速な進化などと相まって、偽情報、リベンジポルノ、金融詐欺、嘘、政府機能の破壊のためのディープフェイクの生成が可能になった。 既存の調査は主にディープフェイクビデオ検出のみに焦点を当てている。 オーディオとビデオの両方のディープフェイクの検出と生成のアプローチをレビューする試みは行われていない。 本稿では,既存のツールと機械学習(ml)に基づくディープフェイク生成手法の包括的レビューと詳細な分析と,音声とビデオの両方のディープフェイクの検出と生成のためのそのような操作を検出する手法について述べる。 deepfakeの各カテゴリについて,操作アプローチ,現在の公開データセット,およびdeepfake検出手法の性能評価のためのキー標準に関する情報とその結果について検討する。 さらに,今後の課題について議論し,今後の方向性を列挙し,ディープフェイク生成と検出の両方の領域を改善するために考慮すべき課題について,今後の研究者に指導する。 この研究は、deepfakeの作成と検出メカニズムと、現在の限界と今後の方向性を理解する上で、読者を支援することが期待されている。

Easy access to audio-visual content on social media, combined with the availability of modern tools such as Tensorflow or Keras, open-source trained models, and economical computing infrastructure, and the rapid evolution of deep-learning (DL) methods, especially Generative Adversarial Networks (GAN), have made it possible to generate deepfakes to disseminate disinformation, revenge porn, financial frauds, hoaxes, and to disrupt government functioning. The existing surveys have mainly focused on deepfake video detection only. No attempt has been made to review approaches for detection and generation of both audio and video deepfakes. This paper provides a comprehensive review and detailed analysis of existing tools and machine learning (ML) based approaches for deepfake generation and the methodologies used to detect such manipulations for the detection and generation of both audio and video deepfakes. For each category of deepfake, we discuss information related to manipulation approaches, current public datasets, and key standards for the performance evaluation of deepfake detection techniques along with their results. Additionally, we also discuss open challenges and enumerate future directions to guide future researchers on issues that need to be considered to improve the domains of both the deepfake generation and detection. This work is expected to assist the readers in understanding the creation and detection mechanisms of deepfake, along with their current limitations and future direction.
翻訳日:2021-04-05 00:46:05 公開日:2021-02-25
# 脅威知能を用いたコンピュータシステムにおけるサイバー脅威の効率的なハンティングシステム

A System for Efficiently Hunting for Cyber Threats in Computer Systems Using Threat Intelligence ( http://arxiv.org/abs/2101.06761v2 )

ライセンス: Link先を確認
Peng Gao, Fei Shao, Xiaoyuan Liu, Xusheng Xiao, Haoyuan Liu, Zheng Qin, Fengyuan Xu, Prateek Mittal, Sanjeev R. Kulkarni, Dawn Song(参考訳) ログベースのサイバー脅威狩りは、高度なサイバー攻撃に対抗する重要な解決策として浮上している。 しかし、既存のアプローチでは、手作業によるクエリ構築が必須ではなく、オープンソースのCyber Threat Intelligence(OSCTI)が提供する脅威行動に関する豊富な外部知識を見落としている。 このギャップを埋めるために、OSCTIを用いたコンピュータシステムにおけるサイバー脅威ハンティングを支援するThreatRaptorを開発した。 Built upon mature system auditing frameworks, ThreatRaptor provides (1) an unsupervised, light-weight, and accurate NLP pipeline that extracts structured threat behaviors from unstructured OSCTI text, (2) a concise and expressive domain-specific query language, TBQL, to hunt for malicious system activities, (3) a query synthesis mechanism that automatically synthesizes a TBQL query from the extracted threat behaviors, and (4) an efficient query execution engine to search the big system audit logging data.

Log-based cyber threat hunting has emerged as an important solution to counter sophisticated cyber attacks. However, existing approaches require non-trivial efforts of manual query construction and have overlooked the rich external knowledge about threat behaviors provided by open-source Cyber Threat Intelligence (OSCTI). To bridge the gap, we build ThreatRaptor, a system that facilitates cyber threat hunting in computer systems using OSCTI. Built upon mature system auditing frameworks, ThreatRaptor provides (1) an unsupervised, light-weight, and accurate NLP pipeline that extracts structured threat behaviors from unstructured OSCTI text, (2) a concise and expressive domain-specific query language, TBQL, to hunt for malicious system activities, (3) a query synthesis mechanism that automatically synthesizes a TBQL query from the extracted threat behaviors, and (4) an efficient query execution engine to search the big system audit logging data.
翻訳日:2021-03-27 20:13:47 公開日:2021-02-25
# 不均一処理効果の非パラメトリック推定:理論から学習アルゴリズムへ

Nonparametric Estimation of Heterogeneous Treatment Effects: From Theory to Learning Algorithms ( http://arxiv.org/abs/2101.10943v2 )

ライセンス: Link先を確認
Alicia Curth and Mihaela van der Schaar(参考訳) 治療の有効性を評価する必要性は経験科学のほとんどでユビキタスであり、柔軟に効果の不均一性を調べることへの関心は急速に成長しています。 そのため, モデルに依存しない非パラメトリックメタラーナーが近年提案されている。 このような学習者は、治療効果推定問題を独立したサブ問題に分解し、それぞれが標準の教師付き学習方法を用いて解決できる。 データ駆動方式で異なるメタリーナーを選択することは、偽情報へのアクセスを必要とするため困難である。 そこで,一部の学習者が先行学習よりも優れた成績を期待できる条件をよりよく理解することを目的として,プラグイン推定と擬似アウトカム回帰に依存する4つの幅広いメタ学習戦略を理論的に分析した。 議論されたメタラーニング戦略のベースラーナーとして,ニューラルネットワークアーキテクチャを考慮し,この理論的推論を用いてアルゴリズム設計の原則を導出し,我々の分析を実践に翻訳する方法を強調した。 シミュレーション研究では、異なるデータ生成プロセスにおける学習者の相対的な強さを示す。

The need to evaluate treatment effectiveness is ubiquitous in most of empirical science, and interest in flexibly investigating effect heterogeneity is growing rapidly. To do so, a multitude of model-agnostic, nonparametric meta-learners have been proposed in recent years. Such learners decompose the treatment effect estimation problem into separate sub-problems, each solvable using standard supervised learning methods. Choosing between different meta-learners in a data-driven manner is difficult, as it requires access to counterfactual information. Therefore, with the ultimate goal of building better understanding of the conditions under which some learners can be expected to perform better than others a priori, we theoretically analyze four broad meta-learning strategies which rely on plug-in estimation and pseudo-outcome regression. We highlight how this theoretical reasoning can be used to guide principled algorithm design and translate our analyses into practice by considering a variety of neural network architectures as base-learners for the discussed meta-learning strategies. In a simulation study, we showcase the relative strengths of the learners under different data-generating processes.
翻訳日:2021-03-13 20:03:12 公開日:2021-02-25
# 非IIDフェデレーション学習における部分作業者参加による線形高速化

Achieving Linear Speedup with Partial Worker Participation in Non-IID Federated Learning ( http://arxiv.org/abs/2101.11203v2 )

ライセンス: Link先を確認
Haibo Yang, Minghong Fang, Jia Liu(参考訳) Federated Learning (FL) は分散機械学習アーキテクチャであり、多数の作業者が分散データを使ってモデルを共同学習する。 近年、データプライバシ保護、通信効率の向上、トレーニングにおける収束の線形スピードアップ(つまり、労働者数に対して収束性能が直線的に増加する)などにより、FLは注目を集めている。 しかし、収束に対する線形スピードアップに関する既存の研究は i.i.d の仮定に限られる。 労働者および/または完全な労働者の参加にわたるデータセット。 これまでのところ、収束の線形スピードアップが非i.i.dで達成可能かどうかは、まだ疑問である。 FLに部分的なワーカー参加のデータセット。 本稿では,その答えが肯定的であることを示す。 具体的には、非i.i.d上でのフェデレーション平均(FedAvg)アルゴリズム(両面学習率)を示す。 非凸設定のデータセットは収束率$\mathcal{O}(\frac{1}{\sqrt{mKT}} + \frac{1}{T})$ for full worker part and a convergence rate$\mathcal{O}(\frac{1}{\sqrt{nKT}} + \frac{1}{T})$ for partial worker part workers part, where $K$ is the number of local steps, $T$ is the number of communication round, $m$ is the total workers number and $n$ is the one communication round if for partial workers join. 結果はまた,flの局所的なステップが収束の助けとなり,最大局所的なステップ数を$t/m$に改善できることを示した。 我々は、MNISTとCIFAR-10の広範な実験を行い、理論結果を検証する。

Federated learning (FL) is a distributed machine learning architecture that leverages a large number of workers to jointly learn a model with decentralized data. FL has received increasing attention in recent years thanks to its data privacy protection, communication efficiency and a linear speedup for convergence in training (i.e., convergence performance increases linearly with respect to the number of workers). However, existing studies on linear speedup for convergence are only limited to the assumptions of i.i.d. datasets across workers and/or full worker participation, both of which rarely hold in practice. So far, it remains an open question whether or not the linear speedup for convergence is achievable under non-i.i.d. datasets with partial worker participation in FL. In this paper, we show that the answer is affirmative. Specifically, we show that the federated averaging (FedAvg) algorithm (with two-sided learning rates) on non-i.i.d. datasets in non-convex settings achieves a convergence rate $\mathcal{O}(\frac{1}{\sqrt{mKT}} + \frac{1}{T})$ for full worker participation and a convergence rate $\mathcal{O}(\frac{1}{\sqrt{nKT}} + \frac{1}{T})$ for partial worker participation, where $K$ is the number of local steps, $T$ is the number of total communication rounds, $m$ is the total worker number and $n$ is the worker number in one communication round if for partial worker participation. Our results also reveal that the local steps in FL could help the convergence and show that the maximum number of local steps can be improved to $T/m$. We conduct extensive experiments on MNIST and CIFAR-10 to verify our theoretical results.
翻訳日:2021-03-13 19:41:36 公開日:2021-02-25
# プラットフォーム分類における学習スキル等価性

Learning Skill Equivalencies Across Platform Taxonomies ( http://arxiv.org/abs/2102.09377v2 )

ライセンス: Link先を確認
Zhi Li, Cheng Ren, Xianyou Li, and Zachary A. Pardos(参考訳) スキルの評価と報告は多くのデジタル学習プラットフォームの中心的な機能である。 学生が複数のプラットフォームを使うことが多いため、クロスプラットフォーム評価が新たな課題として浮上している。 Learning Tools Interoperability(LTI )のような技術はプラットフォーム間のコミュニケーションを可能にしていますが、使用するさまざまなスキル分類の調整は大規模には解決されていません。 本稿では,問題コンテンツとプラットフォームのクリックストリームデータを利用して,プラットフォーム間で同等のスキルを見つけ,リンクする手法を提案し,評価する。 我々は,スキルを連続実数値ベクトルとして表現する6つのモデルを提案し,スキル空間間のマッピングに機械翻訳を利用する。 この方法は、ASSISTments、Khan Academy、Cognitive Tutorの3つのデジタル学習プラットフォームでテストされています。 この結果は,細粒度分類から粗粒度へのスキル等価性予測において妥当な精度を示し,3つのプラットフォーム間の平均リコール@5を0.8で達成した。 我々の技術翻訳アプローチは、教師や標準化されたテストの世界において、分類学の退屈な手作業による分類学マッピング作業(クロスウォークとも呼ばれる)への支援に役立ちます。

Assessment and reporting of skills is a central feature of many digital learning platforms. With students often using multiple platforms, cross-platform assessment has emerged as a new challenge. While technologies such as Learning Tools Interoperability (LTI) have enabled communication between platforms, reconciling the different skill taxonomies they employ has not been solved at scale. In this paper, we introduce and evaluate a methodology for finding and linking equivalent skills between platforms by utilizing problem content as well as the platform's clickstream data. We propose six models to represent skills as continuous real-valued vectors and leverage machine translation to map between skill spaces. The methods are tested on three digital learning platforms: ASSISTments, Khan Academy, and Cognitive Tutor. Our results demonstrate reasonable accuracy in skill equivalency prediction from a fine-grained taxonomy to a coarse-grained one, achieving an average recall@5 of 0.8 between the three platforms. Our skill translation approach has implications for aiding in the tedious, manual process of taxonomy to taxonomy mapping work, also called crosswalks, within the tutoring as well as standardized testing worlds.
翻訳日:2021-03-13 14:50:26 公開日:2021-02-25
# 粗い測定値からのグラフコミュニティ検出: 粗い重み付き確率ブロックモデルの回復条件

Graph Community Detection from Coarse Measurements: Recovery Conditions for the Coarsened Weighted Stochastic Block Model ( http://arxiv.org/abs/2102.13135v1 )

ライセンス: Link先を確認
Nafiseh Ghoroghchian, Gautam Dasarathy, and Stark C. Draper(参考訳) グラフの粗い測定から地域社会の回復の問題を考察する。 完全に観測されたグラフのコミュニティリカバリ問題とは対照的に、グラフの測定を低解像度で行うと、複数のグラフノードをまたいだ各測定が統合される場合が多い。 このような低分解能な測定は、自身のコミュニティで粗いグラフを効果的に誘導する。 本研究の目的は, この粗いグラフにおいて, コミュニティ組織を回復することのできる, グラフ構造, 量, および測定特性に関する条件を開発することである。 本稿では,粗粒化過程を数学的に定式化し,その影響をコミュニティのメンバやコネクティビティに与えることにより,確率的ブロックモデルを構築する。 この新たなセットアップとモデリングを通じて、コミュニティリカバリのためのエラーを特徴付ける。 誤差境界は、粗グラフ群を完全に回復するために単純かつ閉形式の漸近条件を与える。

We study the problem of community recovery from coarse measurements of a graph. In contrast to the problem of community recovery of a fully observed graph, one often encounters situations when measurements of a graph are made at low-resolution, each measurement integrating across multiple graph nodes. Such low-resolution measurements effectively induce a coarse graph with its own communities. Our objective is to develop conditions on the graph structure, the quantity, and properties of measurements, under which we can recover the community organization in this coarse graph. In this paper, we build on the stochastic block model by mathematically formalizing the coarsening process, and characterizing its impact on the community members and connections. Through this novel setup and modeling, we characterize an error bound for community recovery. The error bound yields simple and closed-form asymptotic conditions to achieve the perfect recovery of the coarse graph communities.
翻訳日:2021-03-02 12:44:46 公開日:2021-02-25
# (参考訳) 効率的なトランスフォーマー言語モデルを用いた自動エッセイスコアリング [全文訳有]

Automated essay scoring using efficient transformer-based language models ( http://arxiv.org/abs/2102.13136v1 )

ライセンス: CC BY 4.0
Christopher M Ormerod, Akanksha Malhotra, and Amir Jafari(参考訳) Automated Essay Scoring(AES)は、教育、言語学、自然言語処理(NLP)を含む学際的な取り組みです。 AESにおけるNLPモデルの有効性は、テキストが不十分な場合でも、長期的依存を評価し、意味を外挿する能力をテストする。 大規模なプリトレーニングトランスフォーマーベースの言語モデルは、多くのNLPタスクで現在の最先端のものを支配してきましたが、これらのモデルの計算要件は、実際にデプロイするのにコストがかかります。 この論文の目標は、AESに関しては、より大きなNLPのパラダイムに挑むことです。 そこで本研究では,AESデータセット上でのパラメータ数が少ない微調整済みNLPモデルの性能評価を行った。 モデルをセンシングすることで,事前学習したトランスフォーマーモデルよりも少ないパラメータで優れた結果が得られる。

Automated Essay Scoring (AES) is a cross-disciplinary effort involving Education, Linguistics, and Natural Language Processing (NLP). The efficacy of an NLP model in AES tests it ability to evaluate long-term dependencies and extrapolate meaning even when text is poorly written. Large pretrained transformer-based language models have dominated the current state-of-the-art in many NLP tasks, however, the computational requirements of these models make them expensive to deploy in practice. The goal of this paper is to challenge the paradigm in NLP that bigger is better when it comes to AES. To do this, we evaluate the performance of several fine-tuned pretrained NLP models with a modest number of parameters on an AES dataset. By ensembling our models, we achieve excellent results with fewer parameters than most pretrained transformer-based models.
翻訳日:2021-03-02 05:26:34 公開日:2021-02-25
# (参考訳) テンソル表記法 [全文訳有]

Named Tensor Notation ( http://arxiv.org/abs/2102.13196v1 )

ライセンス: CC BY 4.0
David Chiang, Alexander M. Rush, Boaz Barak(参考訳) 著者, 読者, 将来の実装者に対して, 軸の順序とそれぞれの目的の追跡の負担を和らげるために, 名前付き軸を持つテンソルの表記法を提案する。 また、低階テンソルの操作を高階テンソルに拡張することも容易である(例えば、画像上の操作を画像のミニバッチに拡張したり、注意メカニズムを複数の注意ヘッドに拡張したりする)。 表記法の簡単な概要を説明した後、注意や畳み込みといったビルディングブロックから、transformersやlenetといったフルモデルまで、現代的な機械学習からいくつかの例を紹介します。 最後に、形式的な定義を与え、いくつかの拡張を記述する。 我々の提案は、以前の多くの論文やソフトウェアライブラリのアイデアに基づいている。 このドキュメントは、より多くの著者に名前付きテンソルの使用を奨励し、より明確な論文とバグの少ない実装をもたらすことを願っています。 この文書のソースコードはhttps://github.com/n amedtensor/notation/ にある。 この提案について、問題やプルリクエストをレポジトリに提出することで、誰でもコメントを頂きたいと思います。

We propose a notation for tensors with named axes, which relieves the author, reader, and future implementers from the burden of keeping track of the order of axes and the purpose of each. It also makes it easy to extend operations on low-order tensors to higher order ones (e.g., to extend an operation on images to minibatches of images, or extend the attention mechanism to multiple attention heads). After a brief overview of our notation, we illustrate it through several examples from modern machine learning, from building blocks like attention and convolution to full models like Transformers and LeNet. Finally, we give formal definitions and describe some extensions. Our proposals build on ideas from many previous papers and software libraries. We hope that this document will encourage more authors to use named tensors, resulting in clearer papers and less bug-prone implementations. The source code for this document can be found at https://github.com/n amedtensor/notation/ . We invite anyone to make comments on this proposal by submitting issues or pull requests on this repository.
翻訳日:2021-03-02 05:16:11 公開日:2021-02-25
# (参考訳) 観察からの非政治模倣学習 [全文訳有]

Off-Policy Imitation Learning from Observations ( http://arxiv.org/abs/2102.13185v1 )

ライセンス: CC0 1.0
Zhuangdi Zhu, Kaixiang Lin, Bo Dai, Jiayu Zhou(参考訳) 観察からの学習(LfO)は、多くのアプリケーションが不完全なリソースの再利用を通じて恩恵を受けることができる実用的な強化学習シナリオです。 従来の模倣学習 (IL) と比較して, LfO は専門家の行動指導が不足しているため, より困難である。 従来のILとLfOの両方において、流通マッチングは彼らの基盤の中心です。 従来の分散マッチングアプローチは、ポリシー学習のオンポリシ移行に依存するサンプルコストがかかります。 サンプル効率のために、いくつかのオフポリシーソリューションが提案されているが、包括的な理論的正当化が欠けているか、専門家の行動のガイダンスに依存している。 本研究では,オフポリシ最適化を原理的に実現するサンプル効率の高いLfO手法を提案する。 さらに学習手順を高速化するため、モード被覆の観点から分布マッチングを支援する逆アクションモデルを用いてポリシー更新を規制する。 本手法は, サンプル効率と漸近性能の両面で, 最先端技術に匹敵するものであることが示唆された。

Learning from Observations (LfO) is a practical reinforcement learning scenario from which many applications can benefit through the reuse of incomplete resources. Compared to conventional imitation learning (IL), LfO is more challenging because of the lack of expert action guidance. In both conventional IL and LfO, distribution matching is at the heart of their foundation. Traditional distribution matching approaches are sample-costly which depend on on-policy transitions for policy learning. Towards sample-efficiency, some off-policy solutions have been proposed, which, however, either lack comprehensive theoretical justifications or depend on the guidance of expert actions. In this work, we propose a sample-efficient LfO approach that enables off-policy optimization in a principled manner. To further accelerate the learning procedure, we regulate the policy update with an inverse action model, which assists distribution matching from the perspective of mode-covering. Extensive empirical results on challenging locomotion tasks indicate that our approach is comparable with state-of-the-art in terms of both sample-efficiency and asymptotic performance.
翻訳日:2021-03-02 04:45:37 公開日:2021-02-25
# (参考訳) ロバスト・インタープリタブルジェネラティブモデリングのための物理統合可変オートエンコーダ [全文訳有]

Physics-Integrated Variational Autoencoders for Robust and Interpretable Generative Modeling ( http://arxiv.org/abs/2102.13156v1 )

ライセンス: CC BY 4.0
Naoya Takeishi and Alexandros Kalousis(参考訳) 機械学習に物理モデルを統合することは、解釈能力と外挿能力を改善した堅牢なモデルを学ぶための大きな約束です。 本研究では,不完全物理モデルの深部生成モデル,特に変分オートエンコーダ(VAE)への統合に焦点を当てる。 重要な技術的課題は、不完全物理学モデルと完全モデルの学習された構成要素(ニューラルネット)のバランスを取ることで、物理部が有意義に使われていることを保証することである。 そこで本研究では,潜在空間の一部が物理によって基底化されるVAEアーキテクチャを提案する。 我々は、学習したコンポーネントの効果を制御し、物理学に基づく潜伏変数のセマンティクスを意図通りに保持する正規化器のセットと組み合わせる。 合成および実世界のデータセットに対して生成的なパフォーマンス向上を示すだけでなく、トレーニング分布を超えて有意義な方法で一貫した外挿が可能な堅牢なモデルを学ぶことも示しています。 さらに,我々は生成過程を解釈可能な方法で制御できることを示した。

Integrating physics models within machine learning holds considerable promise toward learning robust models with improved interpretability and abilities to extrapolate. In this work, we focus on the integration of incomplete physics models into deep generative models, variational autoencoders (VAEs) in particular. A key technical challenge is to strike a balance between the incomplete physics model and the learned components (i.e., neural nets) of the complete model, in order to ensure that the physics part is used in a meaningful manner. To this end, we propose a VAE architecture in which a part of the latent space is grounded by physics. We couple it with a set of regularizers that control the effect of the learned components and preserve the semantics of the physics-based latent variables as intended. We not only demonstrate generative performance improvements over a set of synthetic and real-world datasets, but we also show that we learn robust models that can consistently extrapolate beyond the training distribution in a meaningful manner. Moreover, we show that we can control the generative process in an interpretable manner.
翻訳日:2021-03-02 01:50:49 公開日:2021-02-25
# (参考訳) アルゴリズム安定性によるマシンアンラーニング

Machine Unlearning via Algorithmic Stability ( http://arxiv.org/abs/2102.13179v1 )

ライセンス: CC BY 4.0
Enayat Ullah, Tung Mai, Anup Rao, Ryan Rossi, Raman Arora(参考訳) 本研究では,機械学習の課題を調査し,アルゴリズム的安定性,総変動(tv)安定性の概念を同定する。 凸リスク最小化問題に対して,ノイズ確率勾配降下(sgd)に基づくtv安定アルゴリズムを設計する。 我々の重要な貢献は、ノイズの多いSGDプロシージャのためのマルコフ連鎖の(最大)結合を構築することに基づく、対応する効率的な非学習アルゴリズムの設計である。 精度と学習効率のトレードオフを理解するため,テレビ安定アルゴリズムの過剰な経験的・集団的リスクを,凸リスク最小化のために上層と下層に与える。 我々の手法は任意の非凸関数に一般化し、アルゴリズムも微分プライベートである。

We study the problem of machine unlearning and identify a notion of algorithmic stability, Total Variation (TV) stability, which we argue, is suitable for the goal of exact unlearning. For convex risk minimization problems, we design TV-stable algorithms based on noisy Stochastic Gradient Descent (SGD). Our key contribution is the design of corresponding efficient unlearning algorithms, which are based on constructing a (maximal) coupling of Markov chains for the noisy SGD procedure. To understand the trade-offs between accuracy and unlearning efficiency, we give upper and lower bounds on excess empirical and populations risk of TV stable algorithms for convex risk minimization. Our techniques generalize to arbitrary non-convex functions, and our algorithms are differentially private as well.
翻訳日:2021-03-02 00:48:43 公開日:2021-02-25
# (参考訳) Rip van Winkle氏のRazor: データテストのオーバーフィットの簡易評価 [全文訳有]

Rip van Winkle's Razor: A Simple Estimate of Overfit to Test Data ( http://arxiv.org/abs/2102.13189v1 )

ライセンス: CC BY 4.0
Sanjeev Arora, Yi Zhang(参考訳) 伝統的な統計では、テストデータ(a.k.a.)の使用を禁じている。 トレーニング中にデータを保持します。 Dwork et al。 2015年、研究者が互いにモデルを構築し、ハイパーパラメーターやコンピュータコードをコピーする機械学習の現在のプラクティスは、テストセット上で暗黙的にトレーニングすることに相当する、と指摘する。 したがって、テストデータのエラー率は真の人口誤差を反映しないかもしれない。 この観測は {\em adaptive data analysis} を開始し、この差の上限が保証された評価機構を提供する。 統計的クエリ(すなわち)で。 テストの精度) フィードバック 最高の上限値はかなり悲観的です: テストされたモデルの数がテストセットのサイズの2乗である場合、偏差は事実上空虚な値に到達します。 この研究では、単純な新しい推定値 {\em Rip van Winkle's Razor} を提示する。 これは、モデルの新しい概念である \textquotedblleft information content\textquotedbl right\ に依存している: フィールドと関連する科学/数学に精通し、テストデータの作成時に眠りに落ちたばかりの専門家の審判に提供されなければならない情報の量(例えば、 \textquotedblleft Rip van Winkle\textquotedblr ight\ 有名なおとぎ話)。 この情報コンテンツの概念は、多くの現代の設定で非空席であることが示されている上記の偏差の推定を提供するために使用されます。

Traditional statistics forbids use of test data (a.k.a. holdout data) during training. Dwork et al. 2015 pointed out that current practices in machine learning, whereby researchers build upon each other's models, copying hyperparameters and even computer code -- amounts to implicitly training on the test set. Thus error rate on test data may not reflect the true population error. This observation initiated {\em adaptive data analysis}, which provides evaluation mechanisms with guaranteed upper bounds on this difference. With statistical query (i.e. test accuracy) feedbacks, the best upper bound is fairly pessimistic: the deviation can hit a practically vacuous value if the number of models tested is quadratic in the size of the test set. In this work, we present a simple new estimate, {\em Rip van Winkle's Razor}. It relies upon a new notion of \textquotedblleft information content\textquotedbl right\ of a model: the amount of information that would have to be provided to an expert referee who is intimately familiar with the field and relevant science/math, and who has been just been woken up after falling asleep at the moment of the creation of the test data (like \textquotedblleft Rip van Winkle\textquotedblr ight\ of the famous fairy tale). This notion of information content is used to provide an estimate of the above deviation which is shown to be non-vacuous in many modern settings.
翻訳日:2021-03-02 00:47:40 公開日:2021-02-25
# (参考訳) インダクティブな相互情報推定:凸最大エントロピーコプラアプローチ [全文訳有]

Inductive Mutual Information Estimation: A Convex Maximum-Entropy Copula Approach ( http://arxiv.org/abs/2102.13182v1 )

ライセンス: CC BY-SA 4.0
Yves-Laurent Kom Samo(参考訳) 我々は2つの順序ベクトルの相互情報をx$とy$で推定する新しい推定器を提案する。 我々のアプローチは、データ内の関係を明らかにするいくつかの非パラメトリックな特性を通してのみデータ生成分布に依存するという点で(デダクティブとは対照的に)帰納的であり、真のジョイント分布を完全な特徴付けるのに十分なデータを必要としない。 具体的には、i)$I\left(y; x\right) = I\left(u_y; u_x\right)$ ここで $u_y$ と $u_x$ は $y$ と $x$ の \emph{copula-uniform dual representations} である。 それらの画像は確率積分変換の下で)、および (ii) コプラエントロピー$h\left(u_y\right)$, $h\left(u_x\right)$と$h\left(u_y, u_x\right)$を推定し、型 $\alpha_m = E\left[\phi_m(u_y, u_x)\right]$の制約の下でコプラ密度の空間上の最大エントロピー問題を解く。 我々は、制約が実現可能である限り、この問題は一意な解を認め、指数関数族であり、凸最適化問題を解くことによって学習できることを証明する。 MIND を表わす結果の推定量は、常に非負で、任意のサンプルサイズ$n$に対して有界であり、一貫性があり、MSE レート $O(1/n)$ を持ち、競合するアプローチよりもデータ効率が高い。 相互情報推定以外にも,CER-GAN (Copula Entropy Regulationized GAN) と呼ばれる偽サンプルのコプラのエントロピーを最大化することで,GANのモード崩壊を緩和する手法が考えられることを実証した。

We propose a novel estimator of the mutual information between two ordinal vectors $x$ and $y$. Our approach is inductive (as opposed to deductive) in that it depends on the data generating distribution solely through some nonparametric properties revealing associations in the data, and does not require having enough data to fully characterize the true joint distributions $P_{x, y}$. Specifically, our approach consists of (i) noting that $I\left(y; x\right) = I\left(u_y; u_x\right)$ where $u_y$ and $u_x$ are the \emph{copula-uniform dual representations} of $y$ and $x$ (i.e. their images under the probability integral transform), and (ii) estimating the copula entropies $h\left(u_y\right)$, $h\left(u_x\right)$ and $h\left(u_y, u_x\right)$ by solving a maximum-entropy problem over the space of copula densities under a constraint of the type $\alpha_m = E\left[\phi_m(u_y, u_x)\right]$. We prove that, so long as the constraint is feasible, this problem admits a unique solution, it is in the exponential family, and it can be learned by solving a convex optimization problem. The resulting estimator, which we denote MIND, is marginal-invariant, always non-negative, unbounded for any sample size $n$, consistent, has MSE rate $O(1/n)$, and is more data-efficient than competing approaches. Beyond mutual information estimation, we illustrate that our approach may be used to mitigate mode collapse in GANs by maximizing the entropy of the copula of fake samples, a model we refer to as Copula Entropy Regularized GAN (CER-GAN).
翻訳日:2021-03-02 00:29:47 公開日:2021-02-25
# (参考訳) マルチアーマドおよびコンテクスチュアルバンドのための二重適応トンプソンサンプリング [全文訳有]

Doubly-Adaptive Thompson Sampling for Multi-Armed and Contextual Bandits ( http://arxiv.org/abs/2102.13202v1 )

ライセンス: CC BY 4.0
Maria Dimakopoulou, Zhimei Ren, Zhengyuan Zhou(参考訳) 探索と搾取のバランスをとるために、マルチアームのバンディットアルゴリズムは、これまでに収集されたデータを使用して、各腕の真の平均報酬に関する推論を行う必要があります。 しかし、その段階で観測された腕と報酬の歴史は適応的に収集され、非iidデータによる推論を行う上での課題が知られている。 特に、従来の高信頼結合アルゴリズムや伝統的なトンプソンサンプリングアルゴリズムにおいて顕著な役割を果たすサンプル平均は、偏りなくも漸近的にも正常でもない。 本稿では,Thompsonサンプリングに基づくアルゴリズムの変種を提案し,因果推論文献の最近の進歩を利用して,各アームの真の平均報酬に対する2倍堅牢な推定値の条件を適応的に再重み付けする。 提案アルゴリズムの後悔は、Webサービスのランダム化制御試験のデータに基づく半合成実験において、最適(最小)後悔率とその経験的評価と一致し、提案した2倍適応型トンプソンサンプリングは、最適腕を特定する際の累積的後悔と統計的パワーの観点から、既存のベースラインよりも優れた経験的性能を有することを示す。 Further, we extend this approach to contextual bandits, where there are more sources of bias present apart from the adaptive data collection -- such as the mismatch between the true data generating process and the reward model assumptions or the unequal representations of certain regions of the context space in initial stages of learning -- and propose the linear contextual doubly-adaptive Thompson sampling and the non-parametric contextual doubly-adaptive Thompson sampling extensions of our approach.

To balance exploration and exploitation, multi-armed bandit algorithms need to conduct inference on the true mean reward of each arm in every time step using the data collected so far. However, the history of arms and rewards observed up to that time step is adaptively collected and there are known challenges in conducting inference with non-iid data. In particular, sample averages, which play a prominent role in traditional upper confidence bound algorithms and traditional Thompson sampling algorithms, are neither unbiased nor asymptotically normal. We propose a variant of a Thompson sampling based algorithm that leverages recent advances in the causal inference literature and adaptively re-weighs the terms of a doubly robust estimator on the true mean reward of each arm -- hence its name doubly-adaptive Thompson sampling. The regret of the proposed algorithm matches the optimal (minimax) regret rate and its empirical evaluation in a semi-synthetic experiment based on data from a randomized control trial of a web service is performed: we see that the proposed doubly-adaptive Thompson sampling has superior empirical performance to existing baselines in terms of cumulative regret and statistical power in identifying the best arm. Further, we extend this approach to contextual bandits, where there are more sources of bias present apart from the adaptive data collection -- such as the mismatch between the true data generating process and the reward model assumptions or the unequal representations of certain regions of the context space in initial stages of learning -- and propose the linear contextual doubly-adaptive Thompson sampling and the non-parametric contextual doubly-adaptive Thompson sampling extensions of our approach.
翻訳日:2021-03-02 00:00:08 公開日:2021-02-25
# (参考訳) DeepSZ:ディープラーニングを用いたSunyaev-Zel'dovich銀河クラスターの同定 [全文訳有]

DeepSZ: Identification of Sunyaev-Zel'dovich Galaxy Clusters using Deep Learning ( http://arxiv.org/abs/2102.13123v1 )

ライセンス: CC BY 4.0
Zhen Lin, Nicholas Huang, Camille Avestruz, W. L. Kimmy Wu, Shubhendu Trivedi, Jo\~ao Caldeira, Brian Nord(参考訳) Sunyaev Zel'dovich(SZ)効果から同定された銀河クラスターは、マルチ波長クラスターベースの宇宙論において重要な要素である。 本稿では,SZクラスタ探索における標準Matched Filter (MF)法とConvolutional Neural Networks (CNN)を用いた手法の2つを比較した。 我々はさらに 'combined' 識別子の結果を実装し、示す。 SPT-3Gライクな調査のために,複数の観測周波数のシミュレーションミリ波マップにこの手法を適用した。 方法にはいくつかの重要な違いがある。 MF法は点源とノイズのモデルを取り除くために画像前処理を必要とするが、CNN法は画像の前処理をほとんど必要としない。 さらに、CNNはモデル内のハイパーパラメータのチューニングを必要とし、入力、カットアウトされた空の画像を取る。 具体的には、cnnを使用して、8arcmin $\times$ 8arcminカットアウトがクラスタを含んでいるかどうかを分類します。 純度と完全性の違いを比較します。 MF信号対雑音比は質量と赤方偏移の両方に依存する。 我々のcnnは、与えられた質量しきい値のために訓練され、mfとは異なるクラスター群をキャプチャし、そのうちのいくつかはmf検出しきい値以下でsnrを持つ。 しかし、cnnは、クラスタがカットアウトの端付近にあるカットアウトを誤分類しがちであり、スタッガーカットアウトで緩和することができる。 この2つの手法の相補性を活用し,各手法のスコアを組み合わせることで識別を行う。 MFの純度と完全度はどちらも0.61であり、標準検出閾値を仮定している。 CNNの純度と完全性は0.59と0.61である。 組み合わせた分類法では0.60と0.77が得られ、純度はわずかに低下する。 多くの低信号対雑音クラスタの信頼性を高める組み合わせ手法を提案します。

Galaxy clusters identified from the Sunyaev Zel'dovich (SZ) effect are a key ingredient in multi-wavelength cluster-based cosmology. We present a comparison between two methods of cluster identification: the standard Matched Filter (MF) method in SZ cluster finding and a method using Convolutional Neural Networks (CNN). We further implement and show results for a `combined' identifier. We apply the methods to simulated millimeter maps for several observing frequencies for an SPT-3G-like survey. There are some key differences between the methods. The MF method requires image pre-processing to remove point sources and a model for the noise, while the CNN method requires very little pre-processing of images. Additionally, the CNN requires tuning of hyperparameters in the model and takes as input, cutout images of the sky. Specifically, we use the CNN to classify whether or not an 8 arcmin $\times$ 8 arcmin cutout of the sky contains a cluster. We compare differences in purity and completeness. The MF signal-to-noise ratio depends on both mass and redshift. Our CNN, trained for a given mass threshold, captures a different set of clusters than the MF, some of which have SNR below the MF detection threshold. However, the CNN tends to mis-classify cutouts whose clusters are located near the edge of the cutout, which can be mitigated with staggered cutouts. We leverage the complementarity of the two methods, combining the scores from each method for identification. The purity and completeness of the MF alone are both 0.61, assuming a standard detection threshold. The purity and completeness of the CNN alone are 0.59 and 0.61. The combined classification method yields 0.60 and 0.77, a significant increase for completeness with a modest decrease in purity. We advocate for combined methods that increase the confidence of many lower signal-to-noise clusters.
翻訳日:2021-03-01 22:31:32 公開日:2021-02-25
# (参考訳) ジェネラティブモデリングと混合トレーニングによるロバスト花粉画像分類 [全文訳有]

Robust Pollen Imagery Classification with Generative Modeling and Mixup Training ( http://arxiv.org/abs/2102.13143v1 )

ライセンス: CC BY 4.0
Jaideep Murkute(参考訳) 深層学習アプローチは画像分類タスクにおいて大きな成功を収めており、花粉の航空画像の高速かつ信頼性の高い分類に大きく貢献することができる。 しかし、自然画像の設定におけるディープラーニング手法はしばしば一般化問題に悩まされ、目に見えないテスト分布では性能が低下する。 本研究では,花粉のエアロビオロジカルな画像分類によく応用できる,堅牢なディープラーニングフレームワークを提案する。 我々は,畳み込みニューラルネットワークを用いた花粉の粒度分類手法を開発し,ディープラーニングのベストプラクティスを組み合わせることで,より一般化する。 データ拡張やウェイト正規化といった一般的なアプローチに加えて、マニホールドミックスアップのような暗黙的な正規化手法を使用して、よりスムーズな意思決定境界の学習を可能にします。 また、EfficientNet畳み込みニューラルネットワークのような実績のある最先端のアーキテクチャの選択も活用しています。 可変オートエンコーダによる生成モデリングの成功に触発され、モデルが画像の関連部分に集中できるように、より豊かな学習目標を持つモデルをトレーニングします。 最後に、テストセット予測の堅牢性のために、ニューラルネットワークのアンサンブルを作成します。 実験の結果,上記の手法と重み付けしたf1-scoreで測定した一般化性能が向上した。 提案手法は、ICPR-2020 Pollen Grain Classification Challengeの最終ランキングで4位を獲得し、0.972578ウェイトF1スコア、0.950828マクロ平均F1スコア、0.972877認識精度を獲得しました。

Deep learning approaches have shown great success in image classification tasks and can aid greatly towards the fast and reliable classification of pollen grain aerial imagery. However, often-times deep learning methods in the setting of natural images can suffer generalization problems and yield poor performance on unseen test distribution. In this work, we present and a robust deep learning framework that can generalize well for pollen grain aerobiological imagery classification. We develop a convolutional neural network-based pollen grain classification approach and combine some of the best practices in deep learning for better generalization. In addition to commonplace approaches like data-augmentation and weight regularization, we utilize implicit regularization methods like manifold mixup to allow learning of smoother decision boundaries. We also make use of proven state-of-the-art architectural choices like EfficientNet convolutional neural networks. Inspired by the success of generative modeling with variational autoencoders, we train models with a richer learning objective which can allow the model to focus on the relevant parts of the image. Finally, we create an ensemble of neural networks, for the robustness of the test set predictions. Based on our experiments, we show improved generalization performance as measured with a weighted F1-score with the aforementioned approaches. The proposed approach earned a fourth-place in the final rankings in the ICPR-2020 Pollen Grain Classification Challenge; with a 0.972578 weighted F1 score,0.950828 macro average F1 scores, and 0.972877 recognition accuracy.
翻訳日:2021-03-01 22:04:00 公開日:2021-02-25
# (参考訳) メタラーニングによるマルチドメイン学習:インナーループ学習によるマルチドメインロスランドスケープの最適ステップ [全文訳有]

Multi-Domain Learning by Meta-Learning: Taking Optimal Steps in Multi-Domain Loss Landscapes by Inner-Loop Learning ( http://arxiv.org/abs/2102.13147v1 )

ライセンス: CC BY 4.0
Anthony Sicilia, Xingchen Zhao, Davneet Minhas, Erin O'Connor, Howard Aizenstein, William Klunk, Dana Tudorascu, Seong Jae Hwang(参考訳) マルチモーダルアプリケーションに対するMDL(Multi-Domain Learning)問題に対するモデルに依存しない解決策を検討する。 多くの既存のMDL技術は、ドメイン固有のモジュールを構築するために非自明なアーキテクチャ変更を明示的に必要とするモデル依存のソリューションである。 したがって、これらのMDL技術を十分に確立されたモデルで新しい問題に適切に適用する。 セマンティックセグメンテーションのためのu-netは、様々な低レベルの実装を要求できる。 本稿では, 新たなマルチモーダルデータ(例えば, 様々な構造的ニューロイメージング・モダリティ)を考えると, MDLを純粋にアルゴリズム的に実現し, 広く利用されているニューラルネットワークがモデルに依存しない方法で自明にMDLを実現することを目的としている。 そこで本研究では,近年の学習・学習分野(メタラーニング)のテクニックを用いて,重み付き損失関数を効果的に拡張する手法を提案する。 具体的には、損失関数のハイパーパラメータ上の後方分布を動的に推定するためにインナーループ勾配ステップを取る。 したがって,本手法はモデルに依存しないため,追加のモデルパラメータやネットワークアーキテクチャの変更は不要である。 特に、ホワイトマター高輝度(WMH)の自動セグメンテーションでは、医療画像のフィッティング問題に対するソリューションを実証しています。 我々は2つの神経イメージングモード(T1-MRとFLAIR)を検討し、私たちの問題に相補的な情報を提供します。

We consider a model-agnostic solution to the problem of Multi-Domain Learning (MDL) for multi-modal applications. Many existing MDL techniques are model-dependent solutions which explicitly require nontrivial architectural changes to construct domain-specific modules. Thus, properly applying these MDL techniques for new problems with well-established models, e.g. U-Net for semantic segmentation, may demand various low-level implementation efforts. In this paper, given emerging multi-modal data (e.g., various structural neuroimaging modalities), we aim to enable MDL purely algorithmically so that widely used neural networks can trivially achieve MDL in a model-independent manner. To this end, we consider a weighted loss function and extend it to an effective procedure by employing techniques from the recently active area of learning-to-learn (meta-learning). Specifically, we take inner-loop gradient steps to dynamically estimate posterior distributions over the hyperparameters of our loss function. Thus, our method is model-agnostic, requiring no additional model parameters and no network architecture changes; instead, only a few efficient algorithmic modifications are needed to improve performance in MDL. We demonstrate our solution to a fitting problem in medical imaging, specifically, in the automatic segmentation of white matter hyperintensity (WMH). We look at two neuroimaging modalities (T1-MR and FLAIR) with complementary information fitting for our problem.
翻訳日:2021-03-01 21:57:58 公開日:2021-02-25
# (参考訳) インストラクションにおけるインシシットと明示的制御フローの強化学習 [全文訳有]

Reinforcement Learning of Implicit and Explicit Control Flow in Instructions ( http://arxiv.org/abs/2102.13195v1 )

ライセンス: CC BY 4.0
Ethan A. Brooks, Janarthanan Rajendran, Richard L. Lewis, Satinder Singh(参考訳) 動的環境で柔軟にタスク指示に従う学習は、強化学習エージェントにとって興味深い課題です。 ここでは、命令の厳格なステップバイステップ実行から逸脱する制御フローの学習、すなわち、命令の一部をスキップしたり、以前完了またはスキップされたステップに戻る制御フローに焦点を当てます。 このような柔軟な制御の要求は次の2つの基本的な方法によって生じる: 制御が(条件分岐やループのような)命令自身で指定されたときと、確率的環境力学が摂動した命令の再補完を必要とするときと、既に存在する命令の日和見的スキップである。 我々は、タスク報酬のみから、命令の内部エンコーディングにおけるフレキシブルな参加と条件行動を学ぶことによって、これらの課題を満たす注意に基づくアーキテクチャを定式化する。 MinecraftとStarCraftにインスパイアされた2つの図示的ドメインにおいて、アーキテクチャの明示的および暗黙的な制御の両方を学ぶ能力をテストし、このアーキテクチャは2つのベースラインのリカレントアーキテクチャと1つのアブレーションアーキテクチャに比類のないパフォーマンスレベルで、トレーニングセットのそれより大きい長さの新規な命令に対してゼロショットの一般化を示すことを示した。

Learning to flexibly follow task instructions in dynamic environments poses interesting challenges for reinforcement learning agents. We focus here on the problem of learning control flow that deviates from a strict step-by-step execution of instructions -- that is, control flow that may skip forward over parts of the instructions or return backward to previously completed or skipped steps. Demand for such flexible control arises in two fundamental ways: explicitly when control is specified in the instructions themselves (such as conditional branching and looping) and implicitly when stochastic environment dynamics require re-completion of instructions whose effects have been perturbed, or opportunistic skipping of instructions whose effects are already present. We formulate an attention-based architecture that meets these challenges by learning, from task reward only, to flexibly attend to and condition behavior on an internal encoding of the instructions. We test the architecture's ability to learn both explicit and implicit control in two illustrative domains -- one inspired by Minecraft and the other by StarCraft -- and show that the architecture exhibits zero-shot generalization to novel instructions of length greater than those in a training set, at a performance level unmatched by two baseline recurrent architectures and one ablation architecture.
翻訳日:2021-03-01 19:38:14 公開日:2021-02-25
# (参考訳) 局所確率的グラデーション・ディサント・アセンション:収束分析とコミュニケーション効率

Local Stochastic Gradient Descent Ascent: Convergence Analysis and Communication Efficiency ( http://arxiv.org/abs/2102.13152v1 )

ライセンス: CC BY 4.0
Yuyang Deng, Mehrdad Mahdavi(参考訳) Local SGDは、ワーカーノード間の同期頻度を減らすことによって、分散学習における通信オーバーヘッドを克服する有望なアプローチである。 経験的リスク最小化における局所SGDの最近の理論的進歩にもかかわらず、ミニマックス最適化における同等の効率は未解明のままである。 対人的頑健な学習や生成的対人ネットワーク(GAN)の訓練など,大規模で最小限の学習課題に触発された本研究では,一次変数と二重変数を局所的に訓練し,通信回数を大幅に削減するために,局所確率勾配降下度(ローカルSGDA)を提案する。 局所的SGDAは,通信数を少なくした均質データと異種データの両方において分散ミニマックス問題を確実に最適化し,強凸強凹および非凸強凹設定下で収束率を確立することができる。 また,非凸非凹凸問題の解法として,局所SGDA+を新規に提案する。 異なる分散ミニマックス問題に関する実証的証拠を実証する。

Local SGD is a promising approach to overcome the communication overhead in distributed learning by reducing the synchronization frequency among worker nodes. Despite the recent theoretical advances of local SGD in empirical risk minimization, the efficiency of its counterpart in minimax optimization remains unexplored. Motivated by large scale minimax learning problems, such as adversarial robust learning and training generative adversarial networks (GANs), we propose local Stochastic Gradient Descent Ascent (local SGDA), where the primal and dual variables can be trained locally and averaged periodically to significantly reduce the number of communications. We show that local SGDA can provably optimize distributed minimax problems in both homogeneous and heterogeneous data with reduced number of communications and establish convergence rates under strongly-convex-stro ngly-concave and nonconvex-strongly-c oncave settings. In addition, we propose a novel variant local SGDA+, to solve nonconvex-nonconcave problems. We give corroborating empirical evidence on different distributed minimax problems.
翻訳日:2021-03-01 17:23:24 公開日:2021-02-25
# ドメイン一般化における補間と外挿のオンライン学習手法

An Online Learning Approach to Interpolation and Extrapolation in Domain Generalization ( http://arxiv.org/abs/2102.13128v1 )

ライセンス: Link先を確認
Elan Rosenfeld, Pradeep Ravikumar, Andrej Risteski(参考訳) 分布外一般化の一般的な仮定は、トレーニングデータがそれぞれ異なる分布から引き出されたサブデータセットで構成されていることである。目的は、これらの分布を「補間」し、それらを超えて「外挿」することである。 ermは補間できるが外挿はできない、後者の方がかなり難しいという共通の信念があるが、これらの主張は曖昧で形式的な正当性が欠如している。 本研究では,リスクを最小化するプレイヤーと新たなテスト分布を提示する敵とのオンラインゲームとして,サブグループに対する一般化を再演する。 部分群可能性の再重み付けに基づく補間と外挿という既存の概念の下では、その統計的複雑性はそれほど大きくないが、外挿は補間よりもはるかに計算が難しいことを厳密に証明している。 さらに、erm -- あるいはノイズの多い変種 -- が両方のタスクに最適であることを示す。 本フレームワークは,独立した関心を持つ可能性のある領域一般化アルゴリズムの形式解析のための新しい手法を提案する。

A popular assumption for out-of-distribution generalization is that the training data comprises sub-datasets, each drawn from a distinct distribution; the goal is then to "interpolate" these distributions and "extrapolate" beyond them -- this objective is broadly known as domain generalization. A common belief is that ERM can interpolate but not extrapolate and that the latter is considerably more difficult, but these claims are vague and lack formal justification. In this work, we recast generalization over sub-groups as an online game between a player minimizing risk and an adversary presenting new test distributions. Under an existing notion of inter- and extrapolation based on reweighting of sub-group likelihoods, we rigorously demonstrate that extrapolation is computationally much harder than interpolation, though their statistical complexity is not significantly different. Furthermore, we show that ERM -- or a noisy variant -- is provably minimax-optimal for both tasks. Our framework presents a new avenue for the formal analysis of domain generalization algorithms which may be of independent interest.
翻訳日:2021-03-01 14:08:27 公開日:2021-02-25
# 脳磁気共鳴画像の構造類似性学習に基づくグラフ正規化畳み込みニューラルネットワークによるアルツハイマー病の検出

Detection of Alzheimer's Disease Using Graph-Regularized Convolutional Neural Network Based on Structural Similarity Learning of Brain Magnetic Resonance Images ( http://arxiv.org/abs/2102.13517v1 )

ライセンス: Link先を確認
Kuo Yang, Emad A. Mohammed, Behrouz H. Far(参考訳) 目的: 磁気共鳴画像(MRI)間の構造的類似度を学習し, この類似度をグラフとして表現したアルツハイマー病(AD)検出法を提案する。 方法: 入力画像の埋め込み特徴(Non-Demented (ND), Very Mild Demented (VMD), Mild Demented (MD), Moderated Demented (MDTD))を用いて類似度グラフを構築する。 共振器距離を類似度尺度として用い,同一のクラス画像間の類似度を捉えるために,異なる次元縮小とクラスタリングのアルゴリズムを実験・比較した。 類似度グラフを用いて、畳み込みニューラルネットワーク(CNN)にトレーニングデータを提示(サンプル)します。 類似度グラフをcnnモデルの損失関数の正規化子として使用し、入力画像とk-ネアレストとの距離を類似度グラフで最小化し、訓練画像予測と実際の画像クラスラベルとのカテゴリ間クロスエントロピー損失を最小化する。 結果: 事前学習したcnnモデルを用いて広範囲な実験を行い,最近の手法と比較した。 結論: 本手法は, テストデータセットにおいて優れた性能を達成している(精度 = 0.986, 受信機動作特性曲線下領域 = 0.998, f1測度 = 0.987)。 意義: 分類結果は, 他の手法と比較して, 予測精度が向上したことを示す。 この領域で再現可能な研究を促進するために,実験で使用したすべてのコードをリリースする。

Objective: This paper presents an Alzheimer's disease (AD) detection method based on learning structural similarity between Magnetic Resonance Images (MRIs) and representing this similarity as a graph. Methods: We construct the similarity graph using embedded features of the input image (i.e., Non-Demented (ND), Very Mild Demented (VMD), Mild Demented (MD), and Moderated Demented (MDTD)). We experiment and compare different dimension-reduction and clustering algorithms to construct the best similarity graph to capture the similarity between the same class images using the cosine distance as a similarity measure. We utilize the similarity graph to present (sample) the training data to a convolutional neural network (CNN). We use the similarity graph as a regularizer in the loss function of a CNN model to minimize the distance between the input images and their k-nearest neighbours in the similarity graph while minimizing the categorical cross-entropy loss between the training image predictions and the actual image class labels. Results: We conduct extensive experiments with several pre-trained CNN models and compare the results to other recent methods. Conclusion: Our method achieves superior performance on the testing dataset (accuracy = 0.986, area under receiver operating characteristics curve = 0.998, F1 measure = 0.987). Significance: The classification results show an improvement in the prediction accuracy compared to the other methods. We release all the code used in our experiments to encourage reproducible research in this area
翻訳日:2021-03-01 14:07:08 公開日:2021-02-25
# 機械バイオメトリックス - スマートシティ環境におけるマシンの識別に向けて

Machine Biometrics -- Towards Identifying Machines in a Smart City Environment ( http://arxiv.org/abs/2102.13190v1 )

ライセンス: Link先を確認
G.K. Sidiropoulos, G.A. Papakostas(参考訳) 本稿では,スマート都市環境における機械の識別について述べる。 マシンバイオメトリックスの概念は、日常生活で人間と対話する機械のアイデンティティを認証する方法として、この研究で初めて提案されている。 この定義は、自動運転車やソーシャルロボットなどの現代において課せられる。 現代社会の一員として 活躍しています この文脈では,エンジンの挙動バイオメトリックスから自動車を識別する場合について検討する。 この目的のために22の音響特性を抽出し、その識別能力を9種類の機械学習分類器と組み合わせて5つの自動車メーカーを特定するためにテストした。 実験結果から,MLP(Multilayer Perceptron)ニューラルネットワークモデルの場合,提案されたバイオメトリックが最大98%の精度で車両を識別できることが明らかになった。

This paper deals with the identification of machines in a smart city environment. The concept of machine biometrics is proposed in this work for the first time, as a way to authenticate machine identities interacting with humans in everyday life. This definition is imposed in modern years where autonomous vehicles, social robots, etc. are considered active members of contemporary societies. In this context, the case of car identification from the engine behavioral biometrics is examined. For this purpose, 22 sound features were extracted and their discrimination capabilities were tested in combination with 9 different machine learning classifiers, towards identifying 5 car manufacturers. The experimental results revealed the ability of the proposed biometrics to identify cars with high accuracy up to 98% for the case of the Multilayer Perceptron (MLP) neural network model.
翻訳日:2021-03-01 14:06:39 公開日:2021-02-25
# PharmKE:トランスファーラーニングを用いた医薬品テキストの知識抽出プラットフォーム

PharmKE: Knowledge Extraction Platform for Pharmaceutical Texts using Transfer Learning ( http://arxiv.org/abs/2102.13139v1 )

ライセンス: Link先を確認
Nasi Jofche, Kostadin Mishev, Riste Stojanov, Milos Jovanovik, Dimitar Trajanov(参考訳) 与えられたテキストで名前付きエンティティを認識するという課題は、近年非常にダイナミックな分野である。 これは、ニューラルネットワークアーキテクチャの進歩、計算能力の向上、トレーニング済みで高精度なモデルを提供するさまざまなラベル付きデータセットの可用性によるものだ。 これらのタスクは一般的に共通のエンティティのタグ付けに焦点を当てていますが、ドメイン固有のユースケースでは、事前トレーニングされたモデルの一部ではないカスタムエンティティのタグ付けが必要です。 これは、事前トレーニングしたモデルを微調整するか、カスタムモデルをトレーニングすることで解決できる。 主な課題は、信頼できるラベル付きトレーニングとテストデータセットを得ることであり、手動ラベリングは非常に面倒な作業です。 本論文では,医薬品領域に焦点をあてたテキスト解析プラットフォームであるPharmKEについて紹介する。 最先端トランスファー学習モデルを用いてテキスト分類を行い、提案手法により得られた結果を徹底的に統合する。 この方法論は、正確なラベル付きトレーニングとテストデータセットの作成に使用され、薬学領域を中心に、カスタムエンティティラベリングタスクのモデルをトレーニングするために使用される。 得られた結果は、同じデータセットで訓練された微調整BERTおよびBioBERTモデルと比較されます。 さらに、PharmKEプラットフォームは、名前付きエンティティ認識タスクから得られた結果を統合して、エンティティの共参照を解決し、各文のセマンティック関係を分析し、質問応答や事実抽出といった追加のテキスト分析タスクのベースラインを設定する。 認識されたエンティティは、所定の薬学的テキストに対してdbpediaspotlightによって生成された知識グラフを拡張するためにも使用される。

The challenge of recognizing named entities in a given text has been a very dynamic field in recent years. This is due to the advances in neural network architectures, increase of computing power and the availability of diverse labeled datasets, which deliver pre-trained, highly accurate models. These tasks are generally focused on tagging common entities, but domain-specific use-cases require tagging custom entities which are not part of the pre-trained models. This can be solved by either fine-tuning the pre-trained models, or by training custom models. The main challenge lies in obtaining reliable labeled training and test datasets, and manual labeling would be a highly tedious task. In this paper we present PharmKE, a text analysis platform focused on the pharmaceutical domain, which applies deep learning through several stages for thorough semantic analysis of pharmaceutical articles. It performs text classification using state-of-the-art transfer learning models, and thoroughly integrates the results obtained through a proposed methodology. The methodology is used to create accurately labeled training and test datasets, which are then used to train models for custom entity labeling tasks, centered on the pharmaceutical domain. The obtained results are compared to the fine-tuned BERT and BioBERT models trained on the same dataset. Additionally, the PharmKE platform integrates the results obtained from named entity recognition tasks to resolve co-references of entities and analyze the semantic relations in every sentence, thus setting up a baseline for additional text analysis tasks, such as question answering and fact extraction. The recognized entities are also used to expand the knowledge graph generated by DBpedia Spotlight for a given pharmaceutical text.
翻訳日:2021-03-01 14:04:20 公開日:2021-02-25
# 教師-学生設定におけるロバストさの理解:新しい視点

Understanding Robustness in Teacher-Student Setting: A New Perspective ( http://arxiv.org/abs/2102.13170v1 )

ライセンス: Link先を確認
Zhuolin Yang, Zhaoxi Chen, Tiffany Cai, Xinyun Chen, Bo Li, Yuandong Tian(参考訳) 逆の例は機械学習モデルのユビキタスな性質として現れており、有界な逆の摂動はモデルを誤った誤った予測に導く可能性がある。 このような例は、機械学習モデルの堅牢性を評価する方法と、モデルトレーニングプロセスを理解するためのプロキシを提供します。 広範な研究は、逆例の存在を説明し、モデルの堅牢性を改善する方法を提供することを試みる(例)。 対人訓練)。 彼らは主に、事前に定義されたラベルを持つデータセットで訓練されたモデルに焦点を当てていますが、教師-学生フレームワークを活用し、特定のインスタンスにラベルを提供するために教師モデル、またはオラクルを仮定します。 我々は、低ランク入力データの場合、Tian(2019)を拡張し、入力サブスペース内で学生の専門化(訓練された学生ニューロンと同一層における特定の教師ニューロンとの相関性が高い)が引き続き起こることを示すが、教師と学生ノードはデータサブスペースから大きく異なっており、それが逆の例につながると推測する。 広範な実験により、学生の専門性は、標準トレーニング、敵対的トレーニング、信頼度調整された敵対的トレーニング、堅牢な機能データセットによるトレーニングなど、さまざまなシナリオにおけるモデル堅牢性と強く相関することを示しています。 我々の研究は、敵対的な事例に関する将来の探索を暗示し、原則化されたデータ拡張を通じてモデルロバスト性を高めることができる。

Adversarial examples have appeared as a ubiquitous property of machine learning models where bounded adversarial perturbation could mislead the models to make arbitrarily incorrect predictions. Such examples provide a way to assess the robustness of machine learning models as well as a proxy for understanding the model training process. Extensive studies try to explain the existence of adversarial examples and provide ways to improve model robustness (e.g. adversarial training). While they mostly focus on models trained on datasets with predefined labels, we leverage the teacher-student framework and assume a teacher model, or oracle, to provide the labels for given instances. We extend Tian (2019) in the case of low-rank input data and show that student specialization (trained student neuron is highly correlated with certain teacher neuron at the same layer) still happens within the input subspace, but the teacher and student nodes could differ wildly out of the data subspace, which we conjecture leads to adversarial examples. Extensive experiments show that student specialization correlates strongly with model robustness in different scenarios, including student trained via standard training, adversarial training, confidence-calibrate d adversarial training, and training with robust feature dataset. Our studies could shed light on the future exploration about adversarial examples, and enhancing model robustness via principled data augmentation.
翻訳日:2021-03-01 14:03:39 公開日:2021-02-25
# 一貫性スパース深層学習:理論と計算

Consistent Sparse Deep Learning: Theory and Computation ( http://arxiv.org/abs/2102.13229v1 )

ライセンス: Link先を確認
Yan Sun, Qifan Song, Faming Liang(参考訳) ディープラーニングは、データサイエンスの多くの成功を支えるエンジンだ。 しかし、深層ニューラルネットワーク(DNN)は、深層学習の基本モデルとして、しばしば過剰にパラメータ化され、トレーニング、予測、解釈に多くの困難を引き起こします。 提案手法は,最大$O(n/\log(n))$接続を持つスパースDNNを学習し,後続の一貫性,変数選択の整合性,漸近的に最適な一般化境界などの理論的保証を与える。 特に,スパースDNNとガウス先行混合の後方整合性を確立し,ラプラス近似に基づく辺縁内包確率アプローチを用いてスパースDNNの構造を連続的に決定できることを示し,ベイズ証拠を用いて,確率勾配勾配のような最適化手法で学習したスパースDNNを,複数の初期化を伴う複数のランで抽出する。 提案手法は,大規模スパースDNNの標準ベイズ法よりも計算効率がよい。 提案手法は, 大規模ネットワーク圧縮と高次元非線形変数選択に非常に有効であり, 相互解釈可能な機械学習が進んでいることを示す。

Deep learning has been the engine powering many successes of data science. However, the deep neural network (DNN), as the basic model of deep learning, is often excessively over-parameterized, causing many difficulties in training, prediction and interpretation. We propose a frequentist-like method for learning sparse DNNs and justify its consistency under the Bayesian framework: the proposed method could learn a sparse DNN with at most $O(n/\log(n))$ connections and nice theoretical guarantees such as posterior consistency, variable selection consistency and asymptotically optimal generalization bounds. In particular, we establish posterior consistency for the sparse DNN with a mixture Gaussian prior, show that the structure of the sparse DNN can be consistently determined using a Laplace approximation-based marginal posterior inclusion probability approach, and use Bayesian evidence to elicit sparse DNNs learned by an optimization method such as stochastic gradient descent in multiple runs with different initializations. The proposed method is computationally more efficient than standard Bayesian methods for large-scale sparse DNNs. The numerical results indicate that the proposed method can perform very well for large-scale network compression and high-dimensional nonlinear variable selection, both advancing interpretable machine learning.
翻訳日:2021-03-01 14:02:52 公開日:2021-02-25
# 非線形射影に基づくクエリ効率の良いブラックボックス攻撃の勾配推定

Nonlinear Projection Based Gradient Estimation for Query Efficient Blackbox Attacks ( http://arxiv.org/abs/2102.13184v1 )

ライセンス: Link先を確認
Huichen Li and Linyi Li and Xiaojun Xu and Xiaolu Zhang and Shuang Yang and Bo Li(参考訳) 勾配推定とベクトル空間投影は2つの異なるトピックとして研究されている。 投影された低次元空間に基づいて効率よく勾配を推定する方法を検討することにより,両者のギャップを埋めることを目指している。 まず,線形と非線形の両方の投影下での勾配推定のための下界と上界を示し,一方が他方より優れている条件をアウトラインチェック可能とする。 さらに,プロジェクションに基づく勾配推定におけるクエリの複雑さを分析し,クエリ効率評価に十分な条件を示す。 理論解析に基づいて,非線形勾配投影に基づく境界ブラックボックス攻撃(NonLinear-BA)を提案する。 本研究では,imagenet,celeba,cif ar-10,mnistの4つの画像データセットについて広範な実験を行い,提案手法が最先端のベースラインと比較して優れていることを示す。 特に,プロジェクションに基づく境界ブラックボックス攻撃は,効率的なクエリに基づいて100%攻撃成功率で,はるかに小さな摂動を実現できることを示す。 線型射影も非線形射影も異なる条件下でその利点を示す。 また、商用オンラインAPIMEGVII Face++に対してNonLinear-BAを評価し、ブラックボックス攻撃性能を定量的かつ定性的に示す。 コードはhttps://github.com/A I-secure/NonLinear-B Aで公開されている。

Gradient estimation and vector space projection have been studied as two distinct topics. We aim to bridge the gap between the two by investigating how to efficiently estimate gradient based on a projected low-dimensional space. We first provide lower and upper bounds for gradient estimation under both linear and nonlinear projections, and outline checkable sufficient conditions under which one is better than the other. Moreover, we analyze the query complexity for the projection-based gradient estimation and present a sufficient condition for query-efficient estimators. Built upon our theoretic analysis, we propose a novel query-efficient Nonlinear Gradient Projection-based Boundary Blackbox Attack (NonLinear-BA). We conduct extensive experiments on four image datasets: ImageNet, CelebA, CIFAR-10, and MNIST, and show the superiority of the proposed methods compared with the state-of-the-art baselines. In particular, we show that the projection-based boundary blackbox attacks are able to achieve much smaller magnitude of perturbations with 100% attack success rate based on efficient queries. Both linear and nonlinear projections demonstrate their advantages under different conditions. We also evaluate NonLinear-BA against the commercial online API MEGVII Face++, and demonstrate the high blackbox attack performance both quantitatively and qualitatively. The code is publicly available at https://github.com/A I-secure/NonLinear-B A.
翻訳日:2021-03-01 14:00:23 公開日:2021-02-25
# ランダム特徴とカーネルモデルにおける不変性による学習

Learning with invariances in random features and kernel models ( http://arxiv.org/abs/2102.13219v1 )

ライセンス: Link先を確認
Song Mei, Theodor Misiakiewicz, Andrea Montanari(参考訳) 多くの機械学習タスクには、高い不変性が伴います。データ分散は、特定の変換グループでデータを操作しても変化しません。 例えば、画像のラベルは画像の翻訳の下で不変である。 あるニューラルネットワークアーキテクチャ(例えば畳み込みネットワーク)は、その成功は、そのような不変性を利用するという事実にあると信じられている。 不変なアーキテクチャによって達成される利益を定量化するために、不変のランダムな特徴と不変のカーネルメソッドの2つのモデルのクラスを紹介します。 後者は特別な場合として、グローバル平均プーリングを伴う畳み込みネットワークのための神経タンジェントカーネルを含む。 球面とハイパーキューブ上の一様共変量分布と一般不変ターゲット関数を考える。 我々は、'degeneracy $\alpha$' と呼ばれる群のクラスに対して、隠れた単位のサンプルサイズと値が次元の多項式としてスケールする高次元状態における不変メソッドのテスト誤差を、$\alpha \leq 1$ で特徴づける。 アーキテクチャにおける不変性の利用は、非構造化アーキテクチャと同じテストエラーを達成するために、サンプルサイズと隠れたユニットの数において$d^\alpha$ファクタ(d$は次元を表す)を節約する。 最後に,非構造化カーネル推定器の出力対称性は統計的に有意な改善をもたらさないことを示す。一方,非構造化カーネル推定器を用いたデータ拡張は不変カーネル推定器と同値であり,統計効率も同等である。

A number of machine learning tasks entail a high degree of invariance: the data distribution does not change if we act on the data with a certain group of transformations. For instance, labels of images are invariant under translations of the images. Certain neural network architectures -- for instance, convolutional networks -- are believed to owe their success to the fact that they exploit such invariance properties. With the objective of quantifying the gain achieved by invariant architectures, we introduce two classes of models: invariant random features and invariant kernel methods. The latter includes, as a special case, the neural tangent kernel for convolutional networks with global average pooling. We consider uniform covariates distributions on the sphere and hypercube and a general invariant target function. We characterize the test error of invariant methods in a high-dimensional regime in which the sample size and number of hidden units scale as polynomials in the dimension, for a class of groups that we call `degeneracy $\alpha$', with $\alpha \leq 1$. We show that exploiting invariance in the architecture saves a $d^\alpha$ factor ($d$ stands for the dimension) in sample size and number of hidden units to achieve the same test error as for unstructured architectures. Finally, we show that output symmetrization of an unstructured kernel estimator does not give a significant statistical improvement; on the other hand, data augmentation with an unstructured kernel estimator is equivalent to an invariant kernel estimator and enjoys the same improvement in statistical efficiency.
翻訳日:2021-03-01 13:59:03 公開日:2021-02-25
# ANEA:低リソース名前のエンティティ認識のための離散監督

ANEA: Distant Supervision for Low-Resource Named Entity Recognition ( http://arxiv.org/abs/2102.13129v1 )

ライセンス: Link先を確認
Michael A. Hedderich, Lukas Lange, Dietrich Klakow(参考訳) 遠隔監視により、限られた手書きデータのみが存在する低リソース設定のためのラベル付きトレーニングコーポラを取得できます。 しかし、効果的に利用するためには、遠方の監督が容易に手に入る必要がある。 本稿では、エンティティリストに基づいて、名前付きエンティティを自動的にテキストにアノテートするツールであるANEAを紹介する。 パイプライン全体にわたって、リストを取得し、遠隔監視のエラーを分析する。 チューニングステップによって、ユーザはすべてのトークンを手作業でラベル付けしたりチェックすることなく、言語的な洞察で自動アノテーションを改善することができる。 6つの低リソースシナリオにおいて、平均18ポイントでF1スコアを増大させることができることを示す。

Distant supervision allows obtaining labeled training corpora for low-resource settings where only limited hand-annotated data exists. However, to be used effectively, the distant supervision must be easy to obtain. In this work, we present ANEA, a tool to automatically annotate named entities in text based on entity lists. It spans the whole pipeline from obtaining the lists to analyzing the errors of the distant supervision. A tuning step allows the user to improve the automatic annotation with their linguistic insights without having to manually label or check all tokens. In six low-resource scenarios, we show that the F1-score can be increased by on average 18 points through distantly supervised data obtained by ANEA.
翻訳日:2021-03-01 13:55:15 公開日:2021-02-25
# 連結ハイブリッドmknf知識ベースのための既定集合

Unfounded Sets for Disjunctive Hybrid MKNF Knowledge Bases ( http://arxiv.org/abs/2102.13162v1 )

ライセンス: Link先を確認
Spencer Killen, Jia-Haui You(参考訳) 応答集合プログラミング(ASP)のクローズドワールド推論とオントロジーのオープンワールド推論を組み合わせることで、推論者の応用の空間を広げる。 分岐型ハイブリッドMKNF知識ベースはASPを簡潔に拡張し、場合によっては推論タスクの複雑さを増すことなく拡張する。 しかし多くの場合、解法の開発は遅れている。 その結果,motik と rosati が原著で定式化した推測と検証に基づく,結合型ハイブリッド mknf の知識ベースを解く唯一の方法が知られている。 主な障害は、解法でどのように制約伝達を行うかを理解することである。これは、aspの文脈では、部分的な解釈によって誤った原子である \textit{unground atoms} の計算を中心にしている。 本研究では,これらの知識ベースに対する既定集合の概念を形式化し,より低い複雑性境界を特定し,これらの発展を解法にどのように統合するかを実証する。 本稿では,非基底集合の従来の定義から逸脱することを保証する解法の開発に存在しないオントロジーによってもたらされる課題について論じる。 我々は、未確立集合の事前定義と比較する。

Combining the closed-world reasoning of answer set programming (ASP) with the open-world reasoning of ontologies broadens the space of applications of reasoners. Disjunctive hybrid MKNF knowledge bases succinctly extend ASP and in some cases without increasing the complexity of reasoning tasks. However, in many cases, solver development is lagging behind. As the result, the only known method of solving disjunctive hybrid MKNF knowledge bases is based on guess-and-verify, as formulated by Motik and Rosati in their original work. A main obstacle is understanding how constraint propagation may be performed by a solver, which, in the context of ASP, centers around the computation of \textit{unfounded atoms}, the atoms that are false given a partial interpretation. In this work, we build towards improving solvers for hybrid MKNF knowledge bases with disjunctive rules: We formalize a notion of unfounded sets for these knowledge bases, identify lower complexity bounds, and demonstrate how we might integrate these developments into a solver. We discuss challenges introduced by ontologies that are not present in the development of solvers for disjunctive logic programs, which warrant some deviations from traditional definitions of unfounded sets. We compare our work with prior definitions of unfounded sets.
翻訳日:2021-03-01 13:54:07 公開日:2021-02-25
# 自己ペース学習の確率的解釈と強化学習への応用

A Probabilistic Interpretation of Self-Paced Learning with Applications to Reinforcement Learning ( http://arxiv.org/abs/2102.13176v1 )

ライセンス: Link先を確認
Pascal Klink, Hany Abdulsamad, Boris Belousov, Carlo D'Eramo, Jan Peters, Joni Pajarinen(参考訳) 機械学習全体では、トレーニング対象の局所的なオプティマを避けることで、データからの学習を改善する強力な経験的ポテンシャルが示されている。 強化学習(RL)では、基礎となる最適化は探索-探索トレードオフのために局所的な最適化に固執する傾向が強いため、カリキュラムは特に興味深い。 近年,RL 用キュリキュラの自動生成へのいくつかのアプローチが,手作業で設計したキュリキュラに比べて知識の不足を伴って,性能の向上を図っている。 しかし、これらのアプローチは理論的な観点からほとんど研究されず、その力学の深い理解を妨げている。 本論文では, RLにおける自動カリキュラム生成のアプローチについて, 明確な理論的基盤を持つ。 より正確には、よく知られた自己ペース学習パラダイムを、タスクの複雑さと望ましいタスク分布にマッチする目的のトレードオフであるトレーニングタスクに対する分散を誘導するものとして定式化する。 実験では、この誘導された分布に関する訓練は、未知の報酬と挑戦的な探索要件で、異なるタスクでRLアルゴリズム全体の悪い局所最適化を回避するのに役立ちます。

Across machine learning, the use of curricula has shown strong empirical potential to improve learning from data by avoiding local optima of training objectives. For reinforcement learning (RL), curricula are especially interesting, as the underlying optimization has a strong tendency to get stuck in local optima due to the exploration-exploita tion trade-off. Recently, a number of approaches for an automatic generation of curricula for RL have been shown to increase performance while requiring less expert knowledge compared to manually designed curricula. However, these approaches are seldomly investigated from a theoretical perspective, preventing a deeper understanding of their mechanics. In this paper, we present an approach for automated curriculum generation in RL with a clear theoretical underpinning. More precisely, we formalize the well-known self-paced learning paradigm as inducing a distribution over training tasks, which trades off between task complexity and the objective to match a desired task distribution. Experiments show that training on this induced distribution helps to avoid poor local optima across RL algorithms in different tasks with uninformative rewards and challenging exploration requirements.
翻訳日:2021-03-01 13:50:39 公開日:2021-02-25
# 公正かつ安定なグラフ表現学習のための統一フレームワークを目指して

Towards a Unified Framework for Fair and Stable Graph Representation Learning ( http://arxiv.org/abs/2102.13186v1 )

ライセンス: Link先を確認
Chirag Agarwal, Himabindu Lakkaraju, and Marinka Zitnik(参考訳) グラフニューラルネットワーク(GNN)が出力する表現が現実のアプリケーションにますます採用されているため、これらの表現が公平かつ安定であることを保証することが重要である。 本研究では,非現実的公正性と安定性の鍵となる関係を確立し,それを利用して,任意のGNNで公正かつ安定な表現を学習できる新しいフレームワークNIFTY(uNIfying Fairness and StabiliTY)を提案する。 公平性と安定性を同時に考慮し,GNNにおけるニューラルメッセージパッシングを強化するために,リプシッツ定数を用いた階層単位の重み正規化を開発する,新たな目的関数を導入する。 そこで我々は,目的関数とGNNアーキテクチャの両方において,公平性と安定性を強制する。 さらに, 重み正規化は, 結果表現の反実的公正性と安定性を促進することを理論的に示す。 刑事司法および金融貸付分野における高利害判断からなる3つの新しいグラフデータセットを紹介します。 上記のデータセットの広範な実験は、私たちのフレームワークの有効性を示しています。

As the representations output by Graph Neural Networks (GNNs) are increasingly employed in real-world applications, it becomes important to ensure that these representations are fair and stable. In this work, we establish a key connection between counterfactual fairness and stability and leverage it to propose a novel framework, NIFTY (uNIfying Fairness and stabiliTY), which can be used with any GNN to learn fair and stable representations. We introduce a novel objective function that simultaneously accounts for fairness and stability and develop a layer-wise weight normalization using the Lipschitz constant to enhance neural message passing in GNNs. In doing so, we enforce fairness and stability both in the objective function as well as in the GNN architecture. Further, we show theoretically that our layer-wise weight normalization promotes counterfactual fairness and stability in the resulting representations. We introduce three new graph datasets comprising of high-stakes decisions in criminal justice and financial lending domains. Extensive experimentation with the above datasets demonstrates the efficacy of our framework.
翻訳日:2021-03-01 13:50:18 公開日:2021-02-25
# Spurious Local Minima is common for Deep Neural Networks with Piecewise Linear Activation

Spurious Local Minima Are Common for Deep Neural Networks with Piecewise Linear Activations ( http://arxiv.org/abs/2102.13233v1 )

ライセンス: Link先を確認
Bo Liu(参考訳) 本稿では,線形モデルでは適用できない線形活性化関数とデータセットを持つ深層完全連結ネットワークと畳み込みニューラルネットワーク(cnns)において,スプリアス局所最小化が一般的であることを理論的に示す。 親密な局所ミニマの存在理由を説明するための動機付けの例として、分断線形アクティベーションを備えたディープフルコネクテッドネットワークとCNNの各出力ニューロンは連続的なピースワイズ線形(CPWL)出力を生成し、異なるCPWL出力は経験的リスクを最小限に抑えるときに不一致なデータサンプルのグループに適合することができる。 CPWL機能が異なるデータサンプルを適合させると、通常、経験的なリスクの異なるレベルになり、散発的な局所ミニマの流行につながります。 この結果は、任意の連続損失関数で一般的な設定で証明されます。 主な証明手法は、CPWL関数を線形部品の最小化に対する最大化として表現することである。 ディープReLUネットワークは、これらの線形部品を生成し、最大化および最小化操作を実装するために構築される。

In this paper, it is shown theoretically that spurious local minima are common for deep fully-connected networks and convolutional neural networks (CNNs) with piecewise linear activation functions and datasets that cannot be fitted by linear models. A motivating example is given to explain the reason for the existence of spurious local minima: each output neuron of deep fully-connected networks and CNNs with piecewise linear activations produces a continuous piecewise linear (CPWL) output, and different pieces of CPWL output can fit disjoint groups of data samples when minimizing the empirical risk. Fitting data samples with different CPWL functions usually results in different levels of empirical risk, leading to prevalence of spurious local minima. This result is proved in general settings with any continuous loss function. The main proof technique is to represent a CPWL function as a maximization over minimization of linear pieces. Deep ReLU networks are then constructed to produce these linear pieces and implement maximization and minimization operations.
翻訳日:2021-03-01 13:49:59 公開日:2021-02-25
# マルチラベル双対空間を用いた学習識別特徴

Learning Discriminative Features using Multi-label Dual Space ( http://arxiv.org/abs/2102.13234v1 )

ライセンス: Link先を確認
Ali Braytee and Wei Liu(参考訳) マルチラベル学習は、複数のクラスラベルに関連するインスタンスを処理する。 元のラベル空間は、ブール領域 $\in \left \{ 0,1 \right \}$ からのエントリを持つ論理行列である。 論理ラベルは、インスタンスに対する各意味ラベルの相対的重要性を示すことができない。 既存の手法の大部分は、論理ラベル行列を用いたラベル依存を考慮した線形射影を用いて、入力特徴をラベル空間にマッピングする。 しかし、識別的特徴は、インスタンスの特徴表現から論理ラベル空間への一方向射影を用いて学習される。 論理ラベルの学習空間に多様体が存在しないことを考えると、学習モデルのポテンシャルを制限する。 この本では、画像アノテーションの実際の例から着想を得て、ラベルの重要性と特徴重みから画像を再構築します。 特徴空間から意味的ラベル空間へのプロジェクション行列を学習するマルチラベル学習における新しい手法を提案し,エンコーダデコーダ深層学習アーキテクチャを用いて元の特徴空間に投影する。 本手法を導いた重要な直観は,2つの線形射影を用いて特徴を前後にマッピングするため,識別的特徴を同定することである。 我々の知る限りでは、これはマルチラベル学習においてラベル多様体から元の特徴を再構築する能力を研究する最初の試みの1つである。 学習したプロジェクション行列は、複数のセマンティックラベルにまたがる識別的特徴のサブセットを特定する。 実世界のデータセットに対する大規模な実験は,提案手法の優位性を示している。

Multi-label learning handles instances associated with multiple class labels. The original label space is a logical matrix with entries from the Boolean domain $\in \left \{ 0,1 \right \}$. Logical labels are not able to show the relative importance of each semantic label to the instances. The vast majority of existing methods map the input features to the label space using linear projections with taking into consideration the label dependencies using logical label matrix. However, the discriminative features are learned using one-way projection from the feature representation of an instance into a logical label space. Given that there is no manifold in the learning space of logical labels, which limits the potential of learned models. In this work, inspired from a real-world example in image annotation to reconstruct an image from the label importance and feature weights. We propose a novel method in multi-label learning to learn the projection matrix from the feature space to semantic label space and projects it back to the original feature space using encoder-decoder deep learning architecture. The key intuition which guides our method is that the discriminative features are identified due to map the features back and forth using two linear projections. To the best of our knowledge, this is one of the first attempts to study the ability to reconstruct the original features from the label manifold in multi-label learning. We show that the learned projection matrix identifies a subset of discriminative features across multiple semantic labels. Extensive experiments on real-world datasets show the superiority of the proposed method.
翻訳日:2021-03-01 13:49:37 公開日:2021-02-25
# テーテルロボットのペアの動作計画

Motion Planning for a Pair of Tethered Robots ( http://arxiv.org/abs/2102.13212v1 )

ライセンス: Link先を確認
Reza H. Teshnizi, Dylan A. Shell(参考訳) 多角形の障害物を含む環境を考えると、限られた長さのケーブルで互いに接続する一対の平面ロボットの動作計画の問題に対処できる。 ケーブルを介して固定されたベースに繋がる単一のロボットの以前の問題と同様に、直線視認性は重要な役割を担っている。 本稿では,2つのロボットの場合においても,可視性グラフが自然な離散化をもたらし,重要なトポロジ的考察を極めて効果的に捉えていることを示す。 しかし、単一ロボットの場合とは異なり、有界ケーブル長は、問題を複雑にする調整(あるいはそれと同等の、集中型プランナーの観点から見れば相対的なタイミング)に関する考慮を導入する。 実際、この論文は、軌道ではなく経路の発見の1つとして問題をキャストすることを許す定理であるコア理論的結果を確立するために、以前の単ロボットよりもかなり関係のある形式化を導入する必要がある。 一度確認すると、計画上の問題は、接続ケーブルのエレガントな表現で簡単なグラフ検索に減少し、ソリューションの実現性を保証するためにケーブルの十分性を保証する追加の補助チェックを数回だけ要求します。 本稿では,A${}^\star$ searchの実装について述べ,実験結果を報告する。 最後に、アルゴリズムが提供するソリューションの最適な実行を処方します。

Considering an environment containing polygonal obstacles, we address the problem of planning motions for a pair of planar robots connected to one another via a cable of limited length. Much like prior problems with a single robot connected via a cable to a fixed base, straight line-of-sight visibility plays an important role. The present paper shows how the reduced visibility graph provides a natural discretization and captures the essential topological considerations very effectively for the two robot case as well. Unlike the single robot case, however, the bounded cable length introduces considerations around coordination (or equivalently, when viewed from the point of view of a centralized planner, relative timing) that complicates the matter. Indeed, the paper has to introduce a rather more involved formalization than prior single-robot work in order to establish the core theoretical result -- a theorem permitting the problem to be cast as one of finding paths rather than trajectories. Once affirmed, the planning problem reduces to a straightforward graph search with an elegant representation of the connecting cable, demanding only a few extra ancillary checks that ensure sufficiency of cable to guarantee feasibility of the solution. We describe our implementation of A${}^\star$ search, and report experimental results. Lastly, we prescribe an optimal execution for the solutions provided by the algorithm.
翻訳日:2021-03-01 13:47:40 公開日:2021-02-25
# プロセスマイニングにおけるケースレベル逆推論

Case Level Counterfactual Reasoning in Process Mining ( http://arxiv.org/abs/2102.13490v1 )

ライセンス: Link先を確認
Mahnaz Sadat Qafari, Wil van der Aalst(参考訳) プロセスマイニングは、プロセスの診断や、パフォーマンスとコンプライアンスの問題を明らかにするために広く利用されている。 また、プロセスの開始時により逸脱するケースがプロセスの後半で遅延する傾向がある場合など、異なる振舞いの側面の間の関係を見ることもできる。 しかし、相関は必ずしも因果関係を明らかにしない。 さらに、標準的なプロセスマイニング診断は、プロセスを改善する方法を示していない。 これは、我々が \emph{structural equation models} と \emph{counterfactual reasoning} の使用を提唱する理由である。 因果推論の結果を使用し、これらをイベントログやプロセス介入を推論できるように適応します。 提案手法をProMプラグインとして実装し,複数のデータセットで評価した。 ProMプラグインは、パフォーマンスやコンプライアンスの問題を避けるために、特定のケースがどのように異なる方法で処理されたかを示す推奨事項を生成します。

Process mining is widely used to diagnose processes and uncover performance and compliance problems. It is also possible to see relations between different behavioral aspects, e.g., cases that deviate more at the beginning of the process tend to get delayed in the last part of the process. However, correlations do not necessarily reveal causalities. Moreover, standard process mining diagnostics do not indicate how to improve the process. This is the reason we advocate the use of \emph{structural equation models} and \emph{counterfactual reasoning}. We use results from causal inference and adapt these to be able to reason over event logs and process interventions. We have implemented the approach as a ProM plug-in and have evaluated it on several data sets. Our ProM plug-in produces recommendations that indicate how specific cases could have been handled differently to avoid a performance or compliance problem.
翻訳日:2021-03-01 13:47:01 公開日:2021-02-25
# グラフニューラルネットワークを用いた効率的かつ解釈可能なロボット操作

Efficient and Interpretable Robot Manipulation with Graph Neural Networks ( http://arxiv.org/abs/2102.13177v1 )

ライセンス: Link先を確認
Yixin Lin, Austin S. Wang, Akshara Rai(参考訳) 多くの操作タスクは、自然にオブジェクト間の空間的関係と制約の列としてキャストできる。 操作タスクをグラフ上の操作として表現することで、これらのタスク固有の空間関係の発見と拡大を目指します。 そこで我々は,グラフニューラルネットワーク(GNN)を用いて学習した行動,対象,目標に対する確率的分類問題として,多変数オブジェクトの操作を行う。 我々の定式化はまず環境をグラフ表現に変換し、次に訓練されたgnnポリシーを適用してどのオブジェクトを操作するかを予測する。 私たちのgnnポリシーは、単純なタスクの専門的なデモンストレーションを使用してトレーニングされ、環境内のオブジェクトの数や構成、さらには新しくて複雑なタスクへの一般化を示し、意思決定のための解釈可能な説明を提供します。 本稿では,学習したGNNポリシがシミュレーションと実ハードウェアの両方で様々なブロックタッキングタスクを解くことができることを示す実験を提案する。

Many manipulation tasks can be naturally cast as a sequence of spatial relationships and constraints between objects. We aim to discover and scale these task-specific spatial relationships by representing manipulation tasks as operations over graphs. To do this, we pose manipulating a large, variable number of objects as a probabilistic classification problem over actions, objects and goals, learned using graph neural networks (GNNs). Our formulation first transforms the environment into a graph representation, then applies a trained GNN policy to predict which object to manipulate towards which goal state. Our GNN policies are trained using very few expert demonstrations on simple tasks, and exhibits generalization over number and configurations of objects in the environment and even to new, more complex tasks, and provide interpretable explanations for their decision-making. We present experiments which show that a single learned GNN policy can solve a variety of blockstacking tasks in both simulation and real hardware.
翻訳日:2021-03-01 13:45:51 公開日:2021-02-25
# 適応型ハミルトンニューラルネットワーク

Adaptable Hamiltonian neural networks ( http://arxiv.org/abs/2102.13235v1 )

ライセンス: Link先を確認
Chen-Di Han, Bryan Glaz, Mulugeta Haile, and Ying-Cheng Lai(参考訳) カオスシステムを予測するために機械学習を利用する研究の急速な成長により、ハミルトンの運動方程式によって定義された物理的な制約を持つハミルトンニューラルネットワーク(HNN)に対する最近の関心が復活した。 我々は、非線形物理系の適応可能な予測が可能なHNNのクラスを紹介し、ターゲットハミルトン系の少数の分岐パラメータ値から時系列に基づいてニューラルネットワークをトレーニングすることにより、HNNは他のパラメータ値で動的状態を予測することができる。 HNNのアーキテクチャは、入力パラメータチャネルを組み込み、HNNパラメータ--認識をレンダリングすることで、以前のものとは異なります。 パラダイム的ハミルトニアン系を用いて,最大4つのパラメータ値からの時系列を用いてhnnを訓練することで,ニューラルネットワークにパラメータ区間全体における目標システムの状態を予測できることを示す。 アンサンブル最大Lyapunov指数とアライメント指数を指標として,我々のパラメータ認識型HNNがカオスへの遷移経路の予測に成功していることを示す。 物理強化機械学習は研究の最前線であり、我々の適応可能なHNNは、幅広いアプリケーションで機械学習を理解するためのアプローチを提供する。

The rapid growth of research in exploiting machine learning to predict chaotic systems has revived a recent interest in Hamiltonian Neural Networks (HNNs) with physical constraints defined by the Hamilton's equations of motion, which represent a major class of physics-enhanced neural networks. We introduce a class of HNNs capable of adaptable prediction of nonlinear physical systems: by training the neural network based on time series from a small number of bifurcation-paramete r values of the target Hamiltonian system, the HNN can predict the dynamical states at other parameter values, where the network has not been exposed to any information about the system at these parameter values. The architecture of the HNN differs from the previous ones in that we incorporate an input parameter channel, rendering the HNN parameter--cognizant . We demonstrate, using paradigmatic Hamiltonian systems, that training the HNN using time series from as few as four parameter values bestows the neural machine with the ability to predict the state of the target system in an entire parameter interval. Utilizing the ensemble maximum Lyapunov exponent and the alignment index as indicators, we show that our parameter-cognizant HNN can successfully predict the route of transition to chaos. Physics-enhanced machine learning is a forefront area of research, and our adaptable HNNs provide an approach to understanding machine learning with broad applications.
翻訳日:2021-03-01 13:45:34 公開日:2021-02-25
# (参考訳) 戦略的操作による組合せバンディット [全文訳有]

Combinatorial Bandits under Strategic Manipulations ( http://arxiv.org/abs/2102.12722v1 )

ライセンス: CC BY 4.0
Jing Dong, Ke Li, Shuai Li, Baoxiang Wang(参考訳) 報酬の戦略的操作によるCMAB(Combinary Multi-armed Bandits)の問題について検討し,各腕がそれぞれの利益のために出力された報酬信号を修正できることを示した。 私たちの設定は、敵対的な腐敗や敵対的な攻撃と比較してリラックスした仮定を課す適応アームのより現実的なモデルを洗練します。 戦略兵器の下で設計されたアルゴリズムは、過度に慎重でパフォーマンスを阻害しながら、実際のアプリケーションで堅牢性を獲得する。 我々は,mab問題下でのアーム間の最適結束戦略を検討することにより,戦略操作と敵対的攻撃のギャップを埋める。 次に、$T$が時空であり、$m$が腕の数であり、$B_{max}$が最大予算である戦略的操作の下で、少なくとも$O(m\log T + m B_{max})$の後悔を持っている組み合わせUCBアルゴリズムの戦略的な変種を提案します。 さらに、攻撃者がバンディットアルゴリズムの特定の後悔を引き起こすための戦略予算の低い境界を提供します。 広範な実験は、様々な操作予算の体制において、堅牢性と後悔の境界に関する理論的発見と相関する。

We study the problem of combinatorial multi-armed bandits (CMAB) under strategic manipulations of rewards, where each arm can modify the emitted reward signals for its own interest. Our setting elaborates a more realistic model of adaptive arms that imposes relaxed assumptions compared to adversarial corruptions and adversarial attacks. Algorithms designed under strategic arms gain robustness in real applications while avoiding being overcautious and hampering the performance. We bridge the gap between strategic manipulations and adversarial attacks by investigating the optimal colluding strategy among arms under the MAB problem. We then propose a strategic variant of the combinatorial UCB algorithm, which has a regret of at most $O(m\log T + m B_{max})$ under strategic manipulations, where $T$ is the time horizon, $m$ is the number of arms, and $B_{max}$ is the maximum budget. We further provide lower bounds on the strategic budgets for attackers to incur certain regret of the bandit algorithm. Extensive experiments corroborate our theoretical findings on robustness and regret bounds, in a variety of regimes of manipulation budgets.
翻訳日:2021-02-27 11:23:54 公開日:2021-02-25
# (参考訳) 最適ルックアヘッドバイアスと分散トレードオフに対するwasserstein補間による時系列インプテーション [全文訳有]

Time-Series Imputation with Wasserstein Interpolation for Optimal Look-Ahead-Bias and Variance Tradeoff ( http://arxiv.org/abs/2102.12736v1 )

ライセンス: CC BY 4.0
Jose Blanchet, Fernando Hernandez, Viet Anh Nguyen, Markus Pelger, Xuhui Zhang(参考訳) 時系列データの欠落は、実用的な問題である。 時系列データにおける計算方法は、ダウンストリーム・アウト・オブ・サンプルタスクのモデルをトレーニングするために、全パネルデータに適用されることが多い。 例えば金融では、ポートフォリオ最適化モデルをトレーニングする前に、リターン不足の計算を適用することができる。 残念なことに、このプラクティスは下流タスクの今後のパフォーマンスに先見バイアスをもたらす可能性がある。 インキュベーションのために全データセットを使用するルックアヘッドバイアスと、トレーニングデータのみを使用することによるインキュベーションの大きなばらつきとの間には、本質的にトレードオフがある。 時間内に明らかにされた情報の層を接続することにより、インプテーションにおける分散とルックアヘッドバイアストレードオフを最適に制御するベイジアン後方コンセンサス分布を提案する。 私たちは、合成および実際の財務データの両方で私たちの方法論の利点を実証します。

Missing time-series data is a prevalent practical problem. Imputation methods in time-series data often are applied to the full panel data with the purpose of training a model for a downstream out-of-sample task. For example, in finance, imputation of missing returns may be applied prior to training a portfolio optimization model. Unfortunately, this practice may result in a look-ahead-bias in the future performance on the downstream task. There is an inherent trade-off between the look-ahead-bias of using the full data set for imputation and the larger variance in the imputation from using only the training data. By connecting layers of information revealed in time, we propose a Bayesian posterior consensus distribution which optimally controls the variance and look-ahead-bias trade-off in the imputation. We demonstrate the benefit of our methodology both in synthetic and real financial data.
翻訳日:2021-02-27 10:48:32 公開日:2021-02-25
# (参考訳) ランダムフーリエ特徴の量子化アルゴリズム

Quantization Algorithms for Random Fourier Features ( http://arxiv.org/abs/2102.13079v1 )

ライセンス: CC BY 4.0
Xiaoyun Li and Ping Li(参考訳) ランダム・プロジェクション(RP)の手法は、機械学習やその他の多くの分野において、次元の縮小、近接探索の近似、圧縮センシングなどの標準的な手法である。 RPは基本的に、大規模データにおけるペアワイズ内積とユークリッド距離を近似するためのシンプルで効果的なスキームを提供します。 RPと密接に関連し、ガウスカーネルを近似するためにランダムフーリエ特徴(RFF)の方法も普及している。 RFFは、ランダムな投影から投影されたデータに特定の非線形変換を適用する。 実際には、(非線形)ガウス系カーネルの使用は、ガウス系カーネルに導入されたチューニングパラメータ$(\gamma)$により、しばしば線形系カーネル(内積)よりも優れた性能をもたらす。 近年,RFFの特性研究への関心が高まっている。 ランダムな投影の後、量子化は効率的なデータ保存、計算、伝送の重要なステップである。 RPの量子化も文献で広く研究されている。 本稿では,RFFの量子化アルゴリズムの開発に焦点を当てる。 タスクは、ガウスカーネルのチューニングパラメータ$\gamma$のために、ある意味で難しいです。 例えば、量子化器と量子化データは、各特定のチューニングパラメータ $\gamma$ に結び付けられます。 私たちの貢献は興味深い発見から始まり、RFFの限界分布は実際にはガウスカーネルパラメータ$\gamma$を含まないということです。 この小さな発見は、RFFのためのロイドマックス(LM)量子化スキームの設計を大幅に簡素化し、RFF用のLM量子化器が1つしかない($\gamma$を除く)。 また,lm$^2$-rff量子化器 (lm$^2$-rff quantizer) という変種も開発した。 実験により提案した量子化スキームが良好に動作することを確認した。

The method of random projection (RP) is the standard technique in machine learning and many other areas, for dimensionality reduction, approximate near neighbor search, compressed sensing, etc. Basically, RP provides a simple and effective scheme for approximating pairwise inner products and Euclidean distances in massive data. Closely related to RP, the method of random Fourier features (RFF) has also become popular, for approximating the Gaussian kernel. RFF applies a specific nonlinear transformation on the projected data from random projections. In practice, using the (nonlinear) Gaussian kernel often leads to better performance than the linear kernel (inner product), partly due to the tuning parameter $(\gamma)$ introduced in the Gaussian kernel. Recently, there has been a surge of interest in studying properties of RFF. After random projections, quantization is an important step for efficient data storage, computation, and transmission. Quantization for RP has also been extensive studied in the literature. In this paper, we focus on developing quantization algorithms for RFF. The task is in a sense challenging due to the tuning parameter $\gamma$ in the Gaussian kernel. For example, the quantizer and the quantized data might be tied to each specific tuning parameter $\gamma$. Our contribution begins with an interesting discovery, that the marginal distribution of RFF is actually free of the Gaussian kernel parameter $\gamma$. This small finding significantly simplifies the design of the Lloyd-Max (LM) quantization scheme for RFF in that there would be only one LM quantizer for RFF (regardless of $\gamma$). We also develop a variant named LM$^2$-RFF quantizer, which in certain cases is more accurate. Experiments confirm that the proposed quantization schemes perform well.
翻訳日:2021-02-27 10:26:01 公開日:2021-02-25
# (参考訳) モジュールオブジェクト指向ゲーム:強化学習,心理学,神経科学のためのタスクフレームワーク [全文訳有]

Modular Object-Oriented Games: A Task Framework for Reinforcement Learning, Psychology, and Neuroscience ( http://arxiv.org/abs/2102.12616v1 )

ライセンス: CC BY 4.0
Nicholas Watters and Joshua Tenenbaum and Mehrdad Jazayeri(参考訳) 近年、シミュレーションゲームの研究のトレンドは、人工知能、認知科学、心理学、神経科学の分野において勢いを増している。 これらの分野の交差点も近年増加しており、研究者は人工エージェントと人間や動物の両方を用いたゲームの研究を増やしている。 しかし、ゲームの実装は時間を要する作業であり、研究者は簡単にカスタマイズできない複雑なコードベースで作業を行う必要がある。 さらに、人工知能、人間の心理学、動物の神経生理学の組み合わせを研究する学際的な研究者は、既存のプラットフォームがこれらのドメインの1つだけのために設計されているため、さらなる課題に直面している。 ここでは,モジュール型オブジェクト指向ゲームを紹介する。軽量でフレキシブル,カスタマイズ可能で,機械学習,心理学,神経生理学の研究者が使用するように設計されたpythonタスクフレームワークである。

In recent years, trends towards studying simulated games have gained momentum in the fields of artificial intelligence, cognitive science, psychology, and neuroscience. The intersections of these fields have also grown recently, as researchers increasing study such games using both artificial agents and human or animal subjects. However, implementing games can be a time-consuming endeavor and may require a researcher to grapple with complex codebases that are not easily customized. Furthermore, interdisciplinary researchers studying some combination of artificial intelligence, human psychology, and animal neurophysiology face additional challenges, because existing platforms are designed for only one of these domains. Here we introduce Modular Object-Oriented Games, a Python task framework that is lightweight, flexible, customizable, and designed for use by machine learning, psychology, and neurophysiology researchers.
翻訳日:2021-02-27 10:19:17 公開日:2021-02-25
# (参考訳) 大規模地震データセットを用いたセグメンテーションタスクのためのディープニューラルネットワークの分散トレーニング入門 [全文訳有]

An introduction to distributed training of deep neural networks for segmentation tasks with large seismic datasets ( http://arxiv.org/abs/2102.13003v1 )

ライセンス: CC BY 4.0
Claire Birnie, Haithem Jarraya and Fredrik Hansteen(参考訳) 深層学習の応用は、地震処理や解釈タスクにおいて飛躍的に進歩している。 しかし、多くのアプローチはデータボリュームをサンプリングし、計算要件を最小化するためにモデルサイズを制限する。 モデルのサイズを制限しながらトレーニングを支援する可能性のある重要な時空間情報を失うデータリスクのサブサンプルは、モデルのパフォーマンスに影響を与える可能性があります。 本稿では,大規模ニューラルネットワークのトレーニングにおける2つの主な課題,メモリ制限と非現実的なトレーニング時間について述べる。 トレーニングデータは通常、トレーニング前にメモリにプリロードされる。これは、標準画像処理タスク(float32 vs. uint8)で使用されるデータより4倍大きい耐震アプリケーションにおいて、特に課題である。 マイクロ地震のユースケースを用いて、トレーニングバッチに必要なデータのみをメモリに格納するデータジェネレータアプローチを用いて、750GB以上のデータを使用してモデルをトレーニングする方法を説明する。 さらに、入力データ次元4096x4096の7層unetのトレーニングにより、大規模モデルに対する効率的なトレーニングを示す。 バッチ分割による分散トレーニングアプローチでは、トレーニング時間が4倍に短縮される。 データジェネレータと分散トレーニングの組み合わせは、ニューラルネットワークサイズのデータ1のサブサンプリングや制限の必要性をなくし、より大きなネットワーク、高解像度入力データ、あるいは2dから3d問題空間に移行する機会を提供する。

Deep learning applications are drastically progressing in seismic processing and interpretation tasks. However, the majority of approaches subsample data volumes and restrict model sizes to minimise computational requirements. Subsampling the data risks losing vital spatio-temporal information which could aid training whilst restricting model sizes can impact model performance, or in some extreme cases, renders more complicated tasks such as segmentation impossible. This paper illustrates how to tackle the two main issues of training of large neural networks: memory limitations and impracticably large training times. Typically, training data is preloaded into memory prior to training, a particular challenge for seismic applications where data is typically four times larger than that used for standard image processing tasks (float32 vs. uint8). Using a microseismic use case, we illustrate how over 750GB of data can be used to train a model by using a data generator approach which only stores in memory the data required for that training batch. Furthermore, efficient training over large models is illustrated through the training of a 7-layer UNet with input data dimensions of 4096X4096. Through a batch-splitting distributed training approach, training times are reduced by a factor of four. The combination of data generators and distributed training removes any necessity of data 1 subsampling or restriction of neural network sizes, offering the opportunity of utilisation of larger networks, higher-resolution input data or moving from 2D to 3D problem spaces.
翻訳日:2021-02-27 10:10:12 公開日:2021-02-25
# (参考訳) 分散ロバストフェデレーション平均化

Distributionally Robust Federated Averaging ( http://arxiv.org/abs/2102.12660v1 )

ライセンス: CC BY 4.0
Yuyang Deng, Mohammad Mahdi Kamani, Mehrdad Mahdavi(参考訳) 本稿では,適応サンプリングを用いた周期平均化による分散学習のためのコミュニケーション効率の高い分散アルゴリズムについて検討する。 標準の経験的リスク最小化とは対照的に、基礎となる最適化問題のミニマックス構造のために、局所損失の混合を制御するグローバルパラメータがグローバルステージでしか更新できないという事実から大きな困難が生じます。 そこで本論文では,混合パラメータの履歴勾配の蓄積を近似するために,新しいスナップショット方式を用いた分散ロバストフェデレーション平均化(DRFA)アルゴリズムを提案する。 凸線と非凸線の両方の設定におけるDRFAの収束速度を解析する。 また,提案したアイデアを混合パラメータ上で正規化して目的に一般化し,DRFA-Proxと呼ばれる近位変種を証明可能な収束率で提案する。 また, 強凸強凸および非凸(pl条件下で)強凸強凸設定における正則化ケースに対する代替最適化法を解析した。 本論文では,分散ミニマックス問題に対する局所降下手法の効率性を分析するために,分散的に堅牢なフェデレーション学習をコミュニケーションの低下と共に解決した。 我々は、フェデレーション学習環境における理論的結果に関する実験的証拠を裏付ける。

In this paper, we study communication efficient distributed algorithms for distributionally robust federated learning via periodic averaging with adaptive sampling. In contrast to standard empirical risk minimization, due to the minimax structure of the underlying optimization problem, a key difficulty arises from the fact that the global parameter that controls the mixture of local losses can only be updated infrequently on the global stage. To compensate for this, we propose a Distributionally Robust Federated Averaging (DRFA) algorithm that employs a novel snapshotting scheme to approximate the accumulation of history gradients of the mixing parameter. We analyze the convergence rate of DRFA in both convex-linear and nonconvex-linear settings. We also generalize the proposed idea to objectives with regularization on the mixture parameter and propose a proximal variant, dubbed as DRFA-Prox, with provable convergence rates. We also analyze an alternative optimization method for regularized cases in strongly-convex-stro ngly-concave and non-convex (under PL condition)-strongly- concave settings. To the best of our knowledge, this paper is the first to solve distributionally robust federated learning with reduced communication, and to analyze the efficiency of local descent methods on distributed minimax problems. We give corroborating experimental evidence for our theoretical results in federated learning settings.
翻訳日:2021-02-27 09:58:20 公開日:2021-02-25
# (参考訳) 画像強化による肺炎分離のための遅延データ要求の低減 [全文訳有]

Reducing Labelled Data Requirement for Pneumonia Segmentation using Image Augmentations ( http://arxiv.org/abs/2102.12764v1 )

ライセンス: CC BY 4.0
Jitesh Seth, Rohit Lokwani, Viraj Kulkarni, Aniruddha Pant, Amit Kharat(参考訳) 深層学習意味セグメンテーションアルゴリズムは、胸部x線写真から異常や不透明度を局在化することができる。 しかし、トレーニングデータの収集と注釈のタスクは高価であり、アルゴリズムのパフォーマンスのボトルネックとなる専門知識を必要とする。 胸部X線を用いた肺炎検出のセマンティックセグメンテーションにおけるラベル付きデータの要求低減に対する画像強調の効果を検討した。 我々は、トレーニングデータから異なるサイズのサブセットで完全な畳み込みネットワークモデルを訓練する。 各モデルをトレーニングしながら、異なる画像拡張を適用し、拡張なしでデータセット全体をトレーニングしたベースラインと比較する。 回転と混合は、回転、混合、翻訳、ガンマ、水平フリップの中で最良の増強であり、AUCと平均IoUの点でベースラインに比較して実行しながら、ラベル付きデータの要件を70%削減します。

Deep learning semantic segmentation algorithms can localise abnormalities or opacities from chest radiographs. However, the task of collecting and annotating training data is expensive and requires expertise which remains a bottleneck for algorithm performance. We investigate the effect of image augmentations on reducing the requirement of labelled data in the semantic segmentation of chest X-rays for pneumonia detection. We train fully convolutional network models on subsets of different sizes from the total training data. We apply a different image augmentation while training each model and compare it to the baseline trained on the entire dataset without augmentations. We find that rotate and mixup are the best augmentations amongst rotate, mixup, translate, gamma and horizontal flip, wherein they reduce the labelled data requirement by 70% while performing comparably to the baseline in terms of AUC and mean IoU in our experiments.
翻訳日:2021-02-27 09:57:12 公開日:2021-02-25
# (参考訳) ペルシア英語コード混合テキストの感情分析 [全文訳有]

Sentiment Analysis of Persian-English Code-mixed Texts ( http://arxiv.org/abs/2102.12700v1 )

ライセンス: CC BY 4.0
Nazanin Sabri, Ali Edalat, Behnam Bahrak(参考訳) インターネット上のデータの迅速な生産と、ビジネスや研究の視点からユーザーの感情を理解する必要性は、多数の自動モノリンガル感情検出システムの作成を促しました。 しかし、最近では、ソーシャルメディア上のデータの構造化されていない性質から、多言語テキストやコード混合テキストの例が増えている。 コンテンツタイプのこの開発は、コード混合感情分析システムに対する新たな需要を生み出した。 本研究では,ペルシャ語と英語の混成ツイートのデータセットを収集,ラベル付けし,作成する。 次に、BERTプリトレーニングされた埋め込みを使用するモデルと、これらのツイートの極性スコアを自動的に学習する翻訳モデルを紹介します。 本モデルは,na\"ive bayesとランダムフォレスト手法を用いたベースラインモデルよりも優れている。

The rapid production of data on the internet and the need to understand how users are feeling from a business and research perspective has prompted the creation of numerous automatic monolingual sentiment detection systems. More recently however, due to the unstructured nature of data on social media, we are observing more instances of multilingual and code-mixed texts. This development in content type has created a new demand for code-mixed sentiment analysis systems. In this study we collect, label and thus create a dataset of Persian-English code-mixed tweets. We then proceed to introduce a model which uses BERT pretrained embeddings as well as translation models to automatically learn the polarity scores of these Tweets. Our model outperforms the baseline models that use Na\"ive Bayes and Random Forest methods.
翻訳日:2021-02-27 09:42:26 公開日:2021-02-25
# (参考訳) IIE-NLP-Eyas at SemEval-2021 Task 4: PLM for ReCAM with Special Tokens, Re-Ranking, Siamese Encoders and Back Translation [全文訳有]

IIE-NLP-Eyas at SemEval-2021 Task 4: Enhancing PLM for ReCAM with Special Tokens, Re-Ranking, Siamese Encoders and Back Translation ( http://arxiv.org/abs/2102.12777v1 )

ライセンス: CC BY 4.0
Yuqiang Xie, Luxi Xing, Wei Peng, Yue Hu(参考訳) 本稿では,SemEval-2021 Task 4: Reading Comprehension of Abstract Meaningの3つのサブタスクについて紹介する。 自然言語における抽象概念をよりよく表現し理解するために,バックボーンモデル(RoBERTa)に適応したシンプルで効果的なアプローチを多数設計する。 具体的には、サブタスクを複数選択の質問応答形式に形式化し、抽象概念に特別なトークンを追加し、質問応答の最終予測をサブタスクの結果として考慮します。 さらに、パフォーマンスを改善するために多くの微調整のトリックを使用します。 実験結果から,本手法はベースラインシステムと比較して高い性能を示した。 提案手法は,subtask-1では8位,subtask-2では10位を達成する。

This paper introduces our systems for all three subtasks of SemEval-2021 Task 4: Reading Comprehension of Abstract Meaning. To help our model better represent and understand abstract concepts in natural language, we well-design many simple and effective approaches adapted to the backbone model (RoBERTa). Specifically, we formalize the subtasks into the multiple-choice question answering format and add special tokens to abstract concepts, then, the final prediction of question answering is considered as the result of subtasks. Additionally, we employ many finetuning tricks to improve the performance. Experimental results show that our approaches achieve significant performance compared with the baseline systems. Our approaches achieve eighth rank on subtask-1 and tenth rank on subtask-2.
翻訳日:2021-02-27 09:35:09 公開日:2021-02-25
# (参考訳) 感情認識、感情診断、自動:認知イベント評価アノテーション取得のためのコーパス作成戦略 [全文訳有]

Emotion-Aware, Emotion-Agnostic, or Automatic: Corpus Creation Strategies to Obtain Cognitive Event Appraisal Annotations ( http://arxiv.org/abs/2102.12858v1 )

ライセンス: CC BY 4.0
Jan Hofmann and Enrica Troiano and Roman Klinger(参考訳) 評価理論は、イベントの認知評価が特定の感情をどのように導くかを説明します。 基本的な感情や影響の理論とは対照的に、この理論は自然言語処理においてあまり注目されていない。 Smith and Ellsworth (1985) は、評価次元は注意、確実性、期待された努力、快適性、責任/コントロール、状況制御が(少なくとも)15の感情クラス間で区別されることを示した。 イベント指向のenisearコーパス(troiano et al., 2019)に基づいて,これらの次元に対する異なるアノテーション戦略について検討した。 筆者らは,(1)経験豊富な感情ラベルを隠蔽しながらアノテートするテキストを表示する,(2)テキストに関連する感情を明らかにする,という2つの手動アノテーション設定を解析した。 設定2では、アノテータは、記述されたイベントのより現実的な直観を開発できる一方、設定1は、純粋にテキストに依存する、より標準的なアノテーション手順である。 これらの戦略を2つの方法で評価する: アノテーション間の合意を測定し、RoBERTaを微調整して評価変数を予測する。 その結果,感情の知識がアノテーションの信頼性を高めることがわかった。 さらに、純粋に自動的なルールベースのラベル付け戦略(注釈付き感情クラスによる評価)を評価した。 自動割り当てられたラベルのトレーニングは、手動アノテーションでテストした場合でも、分類器の競争的パフォーマンスにつながります。 これは感情コーパスが存在するすべてのドメインに対して、評価コーパスを自動生成することが可能であることを示す指標である。

Appraisal theories explain how the cognitive evaluation of an event leads to a particular emotion. In contrast to theories of basic emotions or affect (valence/arousal), this theory has not received a lot of attention in natural language processing. Yet, in psychology it has been proven powerful: Smith and Ellsworth (1985) showed that the appraisal dimensions attention, certainty, anticipated effort, pleasantness, responsibility/contr ol and situational control discriminate between (at least) 15 emotion classes. We study different annotation strategies for these dimensions, based on the event-focused enISEAR corpus (Troiano et al., 2019). We analyze two manual annotation settings: (1) showing the text to annotate while masking the experienced emotion label; (2) revealing the emotion associated with the text. Setting 2 enables the annotators to develop a more realistic intuition of the described event, while Setting 1 is a more standard annotation procedure, purely relying on text. We evaluate these strategies in two ways: by measuring inter-annotator agreement and by fine-tuning RoBERTa to predict appraisal variables. Our results show that knowledge of the emotion increases annotators' reliability. Further, we evaluate a purely automatic rule-based labeling strategy (inferring appraisal from annotated emotion classes). Training on automatically assigned labels leads to a competitive performance of our classifier, even when tested on manual annotations. This is an indicator that it might be possible to automatically create appraisal corpora for every domain for which emotion corpora already exist.
翻訳日:2021-02-27 09:28:11 公開日:2021-02-25
# (参考訳) 事前学習されたテキスト表現は多言語・多次元言語習熟度モデリングに有用か? [全文訳有]

Are pre-trained text representations useful for multilingual and multi-dimensional language proficiency modeling? ( http://arxiv.org/abs/2102.12971v1 )

ライセンス: CC BY-SA 4.0
Taraka Rama and Sowmya Vajjala(参考訳) 非ネイティブ学習者のための言語習熟度モデルの開発は,近年,NLP研究への関心が高まっている。 言語習熟度は自然界では多次元であるが、既存の研究ではモデル構築中に単一の「過剰な習熟度」を考えることが多い。 さらに、既存のアプローチは一度に1つの言語のみを考慮します。 本稿では,多次元多言語習熟度分類における事前学習および微調整多言語組込みの役割に関する実験と観察について述べる。 ドイツ語、イタリア語、チェコ語の3つの言語で実験を報告し、語彙制御から社会言語的適切性まで、7次元の熟練度をモデル化します。 提案手法は,多言語習熟度モデリングに有用であるが,どの特徴も言語習熟度の全次元において一貫した最高の性能を得られていないことを示唆する。 コード、データ、関連する追加資料はすべて、https://github.com/n ishkalavallabhi/mult idimcefrscoringにある。

Development of language proficiency models for non-native learners has been an active area of interest in NLP research for the past few years. Although language proficiency is multidimensional in nature, existing research typically considers a single "overall proficiency" while building models. Further, existing approaches also considers only one language at a time. This paper describes our experiments and observations about the role of pre-trained and fine-tuned multilingual embeddings in performing multi-dimensional, multilingual language proficiency classification. We report experiments with three languages -- German, Italian, and Czech -- and model seven dimensions of proficiency ranging from vocabulary control to sociolinguistic appropriateness. Our results indicate that while fine-tuned embeddings are useful for multilingual proficiency modeling, none of the features achieve consistently best performance for all dimensions of language proficiency. All code, data and related supplementary material can be found at: https://github.com/n ishkalavallabhi/Mult idimCEFRScoring.
翻訳日:2021-02-27 09:13:10 公開日:2021-02-25
# (参考訳) ニューラルネットワークにおける部分全体階層の表現方法

How to represent part-whole hierarchies in a neural network ( http://arxiv.org/abs/2102.12627v1 )

ライセンス: CC BY-SA 4.0
Geoffrey Hinton(参考訳) 本論文では作業システムについて述べる。 代わりに、複数の異なるグループによる進歩を、GLOMと呼ばれる想像システムに統合することのできる表現に関する単一のアイデアを提示している。 進歩には、変圧器、神経分野、コントラスト表現学習、蒸留、カプセルが含まれます。 固定されたアーキテクチャを持つニューラルネットワークは、どのようにしてイメージ毎に異なる構造を持つ部分全体階層に画像を解析できるのか? このアイデアは、パースツリー内のノードを表すために、単に同じベクトルの島を使用することです。 GLOMを動作させることができれば、視覚や言語に適用した場合、トランスフォーマーライクなシステムが生成する表現の解釈可能性を大幅に向上させる必要がある。

This paper does not describe a working system. Instead, it presents a single idea about representation which allows advances made by several different groups to be combined into an imaginary system called GLOM. The advances include transformers, neural fields, contrastive representation learning, distillation and capsules. GLOM answers the question: How can a neural network with a fixed architecture parse an image into a part-whole hierarchy which has a different structure for each image? The idea is simply to use islands of identical vectors to represent the nodes in the parse tree. If GLOM can be made to work, it should significantly improve the interpretability of the representations produced by transformer-like systems when applied to vision or language
翻訳日:2021-02-27 08:48:25 公開日:2021-02-25
# (参考訳) ペアドフェーショットデータからの学習生成のためのドメイン適応 [全文訳有]

Domain Adaptation for Learning Generator from Paired Few-Shot Data ( http://arxiv.org/abs/2102.12765v1 )

ライセンス: CC BY 4.0
Chun-Chih Teng and Pin-Yu Chen and Wei-Chen Chiu(参考訳) 十分なソースデータと少数のターゲットデータを持つジェネレータを学習するためのペアドフェーショットGAN(PFS-GAN)モデルを提案する。 生成モデル学習は通常、大規模なトレーニングデータを必要とするが、当社のPFS-GANは、少数ショット学習の概念だけでなく、ドメイン間で知識を伝達するためのドメインシフトも使用しています。 クロスドメインデータセットは、(1)各ターゲットドメインのサンプルはソースドメイン対応を持ち、(2)2つのドメインは、同様のコンテンツ情報を共有するが、外観が異なる。 我々のPFS-GANは、ドメイン不変のコンテンツ特徴とドメイン固有の外観特徴からなる画像から、切り離された表現を学習することを目的としている。 さらに、外観特徴をシフトさせて構造的多様性を高めつつ、内容特徴に関係損失を導入する。 広範な実験により,複数のベースラインと比較して,高い多様性を持つ生成対象領域データに対する定量的・定性的結果が得られた。

We propose a Paired Few-shot GAN (PFS-GAN) model for learning generators with sufficient source data and a few target data. While generative model learning typically needs large-scale training data, our PFS-GAN not only uses the concept of few-shot learning but also domain shift to transfer the knowledge across domains, which alleviates the issue of obtaining low-quality generator when only trained with target domain data. The cross-domain datasets are assumed to have two properties: (1) each target-domain sample has its source-domain correspondence and (2) two domains share similar content information but different appearance. Our PFS-GAN aims to learn the disentangled representation from images, which composed of domain-invariant content features and domain-specific appearance features. Furthermore, a relation loss is introduced on the content features while shifting the appearance features to increase the structural diversity. Extensive experiments show that our method has better quantitative and qualitative results on the generated target-domain data with higher diversity in comparison to several baselines.
翻訳日:2021-02-27 08:47:36 公開日:2021-02-25
# (参考訳) 世界再訪ブロック:畳み込みニューラルネットワークによる自己閉塞が分類に及ぼす影響 [全文訳有]

Blocks World Revisited: The Effect of Self-Occlusion on Classification by Convolutional Neural Networks ( http://arxiv.org/abs/2102.12911v1 )

ライセンス: CC BY 4.0
Markus D. Solbach, John K. Tsotsos(参考訳) コンピュータビジョンの最近の成功にもかかわらず、探索する新しい道は残っています。 本研究では,深層ニューラルネットワークに対する自己閉塞の影響を調べるための新たなデータセットを提案する。 TEOS(The Effect of Self-Occlusion)では、3Dオブジェクトの幾何学的形状と自己閉塞の全体的課題に焦点を当てた3Dブロック世界データセットを提案する。 我々は、オブジェクト分類の文脈における自己閉塞の役割を調べるためにTEOSを設計した。 オブジェクトの分類では顕著な進歩が見られるが、自己排他は課題である。 現実世界では、3Dオブジェクトの自己閉塞は、ディープラーニングアプローチにとって重要な課題である。 しかし、人間は、例えば視点を変えたり、シーンを操作して必要な情報を収集するなど、複雑な戦略を展開することでこれに対処する。 TEOSでは,36と12のオブジェクトを含む2つの難易度(L1とL2)のデータセットを提示する。 対象物,マスク,被写体,カメラの位置,向き,自己閉塞量,および各対象物のCADモデルについて一様にサンプリングした738のビューを提供する。 5つのよく知られた分類ディープニューラルネットワークによるベースライン評価を提示し、TEOSがそれらすべてにとって重要な課題であることを示す。 データセットと事前訓練されたモデルは、科学コミュニティ向けにhttps://nvision2.dat a.eecs.yorku.ca/TEOS で公開されている。

Despite the recent successes in computer vision, there remain new avenues to explore. In this work, we propose a new dataset to investigate the effect of self-occlusion on deep neural networks. With TEOS (The Effect of Self-Occlusion), we propose a 3D blocks world dataset that focuses on the geometric shape of 3D objects and their omnipresent challenge of self-occlusion. We designed TEOS to investigate the role of self-occlusion in the context of object classification. Even though remarkable progress has been seen in object classification, self-occlusion is a challenge. In the real-world, self-occlusion of 3D objects still presents significant challenges for deep learning approaches. However, humans deal with this by deploying complex strategies, for instance, by changing the viewpoint or manipulating the scene to gather necessary information. With TEOS, we present a dataset of two difficulty levels (L1 and L2 ), containing 36 and 12 objects, respectively. We provide 738 uniformly sampled views of each object, their mask, object and camera position, orientation, amount of self-occlusion, as well as the CAD model of each object. We present baseline evaluations with five well-known classification deep neural networks and show that TEOS poses a significant challenge for all of them. The dataset, as well as the pre-trained models, are made publicly available for the scientific community under https://nvision2.dat a.eecs.yorku.ca/TEOS .
翻訳日:2021-02-27 08:35:40 公開日:2021-02-25
# (参考訳) IBRNet: マルチビューイメージベースのレンダリングの学習 [全文訳有]

IBRNet: Learning Multi-View Image-Based Rendering ( http://arxiv.org/abs/2102.13090v1 )

ライセンス: CC BY 4.0
Qianqian Wang, Zhicheng Wang, Kyle Genova, Pratul Srinivasan, Howard Zhou, Jonathan T. Barron, Ricardo Martin-Brualla, Noah Snavely, Thomas Funkhouser(参考訳) 本稿では,近接ビューの疎集合を補間することにより,複雑なシーンの新しいビューを合成する手法を提案する。 本手法の核心は、多層パーセプトロンと、連続5次元位置(3次元空間位置と2次元視野方向)での放射率と体積密度を推定し、複数のソースビューからオンザフライの外観情報を描画するレイトランスを含むネットワークアーキテクチャである。 レンダリング時にソースビューを描画することで、このメソッドはイメージベースレンダリング(ibr)の古典的な作業に戻り、高解像度画像のレンダリングを可能にします。 レンダリングのためにシーンごとの機能を最適化するニューラルシーン表現作業とは異なり、新規シーンに一般化する汎用ビュー補間関数を学習する。 我々は、従来のボリュームレンダリングを使って画像をレンダリングし、完全に差別化可能であり、マルチビューのイメージのみを監督としてトレーニングすることができる。 実験により,本手法は,新しいシーンへの一般化を目指す最近の新しいビュー合成手法よりも優れていることが示された。 さらに,各シーンに微調整を施すと,最先端の単一シーンのニューラルレンダリング手法と競合する。

We present a method that synthesizes novel views of complex scenes by interpolating a sparse set of nearby views. The core of our method is a network architecture that includes a multilayer perceptron and a ray transformer that estimates radiance and volume density at continuous 5D locations (3D spatial locations and 2D viewing directions), drawing appearance information on the fly from multiple source views. By drawing on source views at render time, our method hearkens back to classic work on image-based rendering (IBR), and allows us to render high-resolution imagery. Unlike neural scene representation work that optimizes per-scene functions for rendering, we learn a generic view interpolation function that generalizes to novel scenes. We render images using classic volume rendering, which is fully differentiable and allows us to train using only multi-view posed images as supervision. Experiments show that our method outperforms recent novel view synthesis methods that also seek to generalize to novel scenes. Further, if fine-tuned on each scene, our method is competitive with state-of-the-art single-scene neural rendering methods.
翻訳日:2021-02-27 08:20:00 公開日:2021-02-25
# (参考訳) 未知部分可観測MDPのオンライン学習 [全文訳有]

Online Learning for Unknown Partially Observable MDPs ( http://arxiv.org/abs/2102.12661v1 )

ライセンス: CC BY 4.0
Mehdi Jafarnia-Jahromi, Rahul Jain, Ashutosh Nayyar(参考訳) 部分観測可能なマルコフ決定過程(POMDP)の解決は困難である。 モデルが未知のPOMDPのための最適コントローラの学習は困難である。 未知のPOMDPのための最適コントローラのオンライン学習は、探索と悪用を効果的にトレードオフする後悔最小化アルゴリズムを用いて効率よく学習する必要がある。 本稿では,未知の遷移モデルを持つ無限水平平均コストPMDPについて考察する。 本稿では,自然後続サンプリングに基づく強化学習アルゴリズム (pomdp-psrl) を提案し,$t$ が時間軸である場合には$o(t^{2/3}) を後悔することを示す。 私たちの知る限りでは、これはPOMDPのための初めてのオンラインRLアルゴリズムであり、サブ線形後悔の種である。

Solving Partially Observable Markov Decision Processes (POMDPs) is hard. Learning optimal controllers for POMDPs when the model is unknown is harder. Online learning of optimal controllers for unknown POMDPs, which requires efficient learning using regret-minimizing algorithms that effectively tradeoff exploration and exploitation, is even harder, and no solution exists currently. In this paper, we consider infinite-horizon average-cost POMDPs with unknown transition model, though known observation model. We propose a natural posterior sampling-based reinforcement learning algorithm (POMDP-PSRL) and show that it achieves $O(T^{2/3})$ regret where $T$ is the time horizon. To the best of our knowledge, this is the first online RL algorithm for POMDPs and has sub-linear regret.
翻訳日:2021-02-27 05:39:31 公開日:2021-02-25
# (参考訳) 複数のカーネルによる分散オンライン学習 [全文訳有]

Distributed Online Learning with Multiple Kernels ( http://arxiv.org/abs/2102.12733v1 )

ライセンス: CC BY 4.0
Jeongmin Chae and Songnam Hong(参考訳) 我々は、学習者のネットワーク上の非線形関数を完全に分散的に学習する問題を検討する。 オンライン学習は、すべての学習者がローカルで連続的なストリーミングデータを受け取ると仮定されます。 この学習モデルは、完全に分散したオンライン学習(または完全に分散したオンライン連合学習)と呼ばれる。 本モデルでは,複数のカーネルを持つ新しい学習フレームワークを提案し,DOMKLと命名した。 提案するdomklは,乗算器のオンライン交互方向法と分散ヘッジアルゴリズムの原理を応用して考案された。 T 時間スロット上の DOMKL が最適のサブリニア後悔を達成できることを理論的に証明し、ネットワーク内のすべての学習者が、後視における最高の関数とギャップが減少する共通関数を学習できることを暗示する。 分析の結果、domklは最先端の集中型アプローチと同じ漸近的なパフォーマンスを生み出しながら、ローカルデータをエッジ学習者に保持していることが明らかとなった。 実データを用いた数値実験により,オンライン回帰および時系列予測タスクにおける提案のdomklの有効性を実証する。

We consider the problem of learning a nonlinear function over a network of learners in a fully decentralized fashion. Online learning is additionally assumed, where every learner receives continuous streaming data locally. This learning model is called a fully distributed online learning (or a fully decentralized online federated learning). For this model, we propose a novel learning framework with multiple kernels, which is named DOMKL. The proposed DOMKL is devised by harnessing the principles of an online alternating direction method of multipliers and a distributed Hedge algorithm. We theoretically prove that DOMKL over T time slots can achieve an optimal sublinear regret, implying that every learner in the network can learn a common function which has a diminishing gap from the best function in hindsight. Our analysis also reveals that DOMKL yields the same asymptotic performance of the state-of-the-art centralized approach while keeping local data at edge learners. Via numerical tests with real datasets, we demonstrate the effectiveness of the proposed DOMKL on various online regression and time-series prediction tasks.
翻訳日:2021-02-27 04:19:33 公開日:2021-02-25
# (参考訳) 分類誤りを効果的に発見するための一般化した逆距離 [全文訳有]

Generalized Adversarial Distances to Efficiently Discover Classifier Errors ( http://arxiv.org/abs/2102.12844v1 )

ライセンス: CC BY 4.0
Walter Bennette, Sally Dufek, Karsten Maurer, Sean Sisti, Bunyod Tusmatov(参考訳) あるアプリケーションドメインからブラックボックス分類モデルとラベルなしの評価データセットを与えられた場合、モデルを評価するために効率的な戦略を開発する必要があります。 ランダムサンプリングにより、精度、精度、リコールなどのメトリクスを推定できるが、信頼性の高いエラーに対する洞察は提供されない。 高信頼エラーは、モデルがその予測に非常に自信を持っているが間違っている稀な出来事である。 このようなエラーはコストのかかる誤りを表現でき、明示的に検索されるべきである。 本稿では,機械学習の概念を活用し,分類器が過度に自信を持つ可能性のある予測を同定する,敵距離探索の一般化を提案する。 これらの予測は、予想よりも高いエラー率になりやすいため、信頼性の高いエラーを探しているときにサンプルに役立ちます。 当社の一般化により、Adversarial Distanceはあらゆる分類器やデータドメインに適用できます。 実験結果から, サンプル予測の信頼性を考慮し, 予測値よりも高い誤差が得られ, 競合手法よりも優れていた。

Given a black-box classification model and an unlabeled evaluation dataset from some application domain, efficient strategies need to be developed to evaluate the model. Random sampling allows a user to estimate metrics like accuracy, precision, and recall, but may not provide insight to high-confidence errors. High-confidence errors are rare events for which the model is highly confident in its prediction, but is wrong. Such errors can represent costly mistakes and should be explicitly searched for. In this paper we propose a generalization to the Adversarial Distance search that leverages concepts from adversarial machine learning to identify predictions for which a classifier may be overly confident. These predictions are useful instances to sample when looking for high-confidence errors because they are prone to a higher rate of error than expected. Our generalization allows Adversarial Distance to be applied to any classifier or data domain. Experimental results show that the generalized method finds errors at rates greater than expected given the confidence of the sampled predictions, and outperforms competing methods.
翻訳日:2021-02-27 03:01:08 公開日:2021-02-25
# (参考訳) 補助タスクが表現ダイナミクスに及ぼす影響について

On The Effect of Auxiliary Tasks on Representation Dynamics ( http://arxiv.org/abs/2102.13089v1 )

ライセンス: CC BY 4.0
Clare Lyle, Mark Rowland, Georg Ostrovski, Will Dabney(参考訳) 補助タスクは強化学習エージェントによって学習された表現を形成する上で重要な役割を果たしますが、これが達成されるメカニズムについてはまだ不明です。 本研究は,時間差アルゴリズムのダイナミクスを解析することにより,補助的タスク,環境構造,表現の関係の理解を深める。 このアプローチにより、遷移作用素のスペクトル分解と、様々な補助タスクによって誘導される表現との接続を確立します。 次に,これらの理論結果から得られた知見を活用し,疎外環境における深層強化学習エージェントの補助タスクの選択を知らせる。

While auxiliary tasks play a key role in shaping the representations learnt by reinforcement learning agents, much is still unknown about the mechanisms through which this is achieved. This work develops our understanding of the relationship between auxiliary tasks, environment structure, and representations by analysing the dynamics of temporal difference algorithms. Through this approach, we establish a connection between the spectral decomposition of the transition operator and the representations induced by a variety of auxiliary tasks. We then leverage insights from these theoretical results to inform the selection of auxiliary tasks for deep reinforcement learning agents in sparse-reward environments.
翻訳日:2021-02-27 02:27:55 公開日:2021-02-25
# (参考訳) オンライン社会認知を理解するための認知ネットワーク科学:短いレビュー [全文訳有]

Cognitive network science for understanding online social cognitions: A brief review ( http://arxiv.org/abs/2102.12799v1 )

ライセンス: CC BY 4.0
Massimo Stella(参考訳) ソーシャルメディアは、タイムラインや感情的コンテンツの観点から、大量のユーザーの認知をデジタル化している。 このようなビッグデータは、知覚、パーソナリティ、情報拡散といった認知現象を調査する前例のない機会を開くが、適切な解釈可能な枠組みを必要とする。 ソーシャルメディアのデータはユーザの心から来ているため、この課題にふさわしい候補は認知ネットワーク、認知のモデルが精神的な概念的関連に構造を与える。 This work outlines how cognitive network science can open new, quantitative ways for understanding cognition through online media, like: (i) reconstructing how users semantically and emotionally frame events with contextual knowledge unavailable to machine learning, (ii) investigating conceptual salience/prominence through knowledge structure in social discourse; (iii) studying users' personality traits like openness-to-experien ce, curiosity, and creativity through language in posts; (iv) bridging cognitive/emotional content and social dynamics via multilayer networks comparing the mindsets of influencers and followers. これらの進歩は、認知、ネットワーク、コンピュータ科学を組み合わせて、デジタルおよび現実世界の両方の設定における認知メカニズムを理解するが、代表性、個人可変性およびデータ統合に関する制限が伴う。 このような側面は、社会認知データを操作することの倫理的意義に沿って議論される。 将来的には、ネットワークやソーシャルメディアを通じての認識を読むことで、オンラインプラットフォームによって増幅された認知バイアスを露呈し、大規模で複雑な認知トレンドについてポリシー作りや教育、市場に対して適切な通知を行うことができる。

Social media are digitalising massive amounts of users' cognitions in terms of timelines and emotional content. Such Big Data opens unprecedented opportunities for investigating cognitive phenomena like perception, personality and information diffusion but requires suitable interpretable frameworks. Since social media data come from users' minds, worthy candidates for this challenge are cognitive networks, models of cognition giving structure to mental conceptual associations. This work outlines how cognitive network science can open new, quantitative ways for understanding cognition through online media, like: (i) reconstructing how users semantically and emotionally frame events with contextual knowledge unavailable to machine learning, (ii) investigating conceptual salience/prominence through knowledge structure in social discourse; (iii) studying users' personality traits like openness-to-experien ce, curiosity, and creativity through language in posts; (iv) bridging cognitive/emotional content and social dynamics via multilayer networks comparing the mindsets of influencers and followers. These advancements combine cognitive-, network- and computer science to understand cognitive mechanisms in both digital and real-world settings but come with limitations concerning representativeness, individual variability and data integration. Such aspects are discussed along the ethical implications of manipulating socio-cognitive data. In the future, reading cognitions through networks and social media can expose cognitive biases amplified by online platforms and relevantly inform policy making, education and markets about massive, complex cognitive trends.
翻訳日:2021-02-27 02:26:59 公開日:2021-02-25
# (参考訳) コンテキスト視覚マッピングのためのシーン検索 [全文訳有]

Scene Retrieval for Contextual Visual Mapping ( http://arxiv.org/abs/2102.12728v1 )

ライセンス: CC BY 4.0
William H. B. Smith, Michael Milford, Klaus D. McDonald-Maier, Shoaib Ehsan(参考訳) ビジュアルナビゲーションは「ビジュアルマップ」としても知られる場所画像の参照データベースに対してクエリプレース画像をローカライズする。 視覚的マップの特定の領域における局所化精度の要件である「シーンクラス」は、環境やタスクの文脈によって異なる。 最先端のビジュアルマッピングは、マップに含めるシーンクラスを明示的にターゲットすることで、これらの要求を反映できない。 歩行者と駅を含む4つの異なるシーンクラスが、北ランドとセントルシアの各データセットで識別されている。 これらの重なり合うシーンクラスに苦しむ別々のシーン分類器を再トレーニングする代わりに、最初の貢献をする: 'scene retrieval' の問題を定義する。 シーン検索は、シーンクラスの参照画像に単一のクエリイメージを関連付けることで、テスト時に定義されたシーンの分類に画像検索を拡張する。 第2の貢献は、シーン認識のために事前訓練された最先端ネットワークに対して、シーン分類の精度を最大7%向上させる3重学習畳み込みニューラルネットワーク(CNN)である。 第2の貢献は、視覚マッピングのためのシーン分類と距離と記憶可能性を組み合わせたアルゴリズム「DMC」である。 分析の結果,dmcは距離間隔マッピングを用いた場合よりも,選択したシーンクラスのイメージを64%多く含むことがわかった。 最新のビジュアル・プレイス・ディスクリプタであるAMOS-Net、Hybrid-Net、NetVLADは、DMCがシーンクラスのローカリゼーションの精度を3%向上し、残りのマップ画像のローカリゼーション精度を両方のデータセットで平均10%向上させることを示しています。

Visual navigation localizes a query place image against a reference database of place images, also known as a `visual map'. Localization accuracy requirements for specific areas of the visual map, `scene classes', vary according to the context of the environment and task. State-of-the-art visual mapping is unable to reflect these requirements by explicitly targetting scene classes for inclusion in the map. Four different scene classes, including pedestrian crossings and stations, are identified in each of the Nordland and St. Lucia datasets. Instead of re-training separate scene classifiers which struggle with these overlapping scene classes we make our first contribution: defining the problem of `scene retrieval'. Scene retrieval extends image retrieval to classification of scenes defined at test time by associating a single query image to reference images of scene classes. Our second contribution is a triplet-trained convolutional neural network (CNN) to address this problem which increases scene classification accuracy by up to 7% against state-of-the-art networks pre-trained for scene recognition. The second contribution is an algorithm `DMC' that combines our scene classification with distance and memorability for visual mapping. Our analysis shows that DMC includes 64% more images of our chosen scene classes in a visual map than just using distance interval mapping. State-of-the-art visual place descriptors AMOS-Net, Hybrid-Net and NetVLAD are finally used to show that DMC improves scene class localization accuracy by a mean of 3% and localization accuracy of the remaining map images by a mean of 10% across both datasets.
翻訳日:2021-02-27 02:02:47 公開日:2021-02-25
# (参考訳) フェデレーション学習における新興トレンド:モデル融合からフェデレーションX学習へ [全文訳有]

Emerging Trends in Federated Learning: From Model Fusion to Federated X Learning ( http://arxiv.org/abs/2102.12920v1 )

ライセンス: CC BY 4.0
Shaoxiong Ji and Teemu Saravirta and Shirui Pan and Guodong Long and Anwar Walid(参考訳) フェデレーションラーニングは、データ収集とモデルトレーニングをマルチパーティ計算とモデルアグリゲーションで分離する新しい学習パラダイムである。 柔軟な学習環境として、連合学習は他の学習フレームワークと統合する可能性がある。 他の学習アルゴリズムと連動した連合学習の集中調査を実施します。 具体的には,バニラフェデレーション平均化アルゴリズムの改良と適応アグリゲーション,正規化,クラスタ化法,ベイズ法などのモデル融合手法の見直しについて検討する。 また,近年のトレンドに続き,マルチタスク学習,メタラーニング,トランスファーラーニング,教師なし学習,強化学習などを含む,他の学習パラダイムとの交点におけるフェデレーション学習についても論じている。 本調査は,芸術の現状,課題,今後の方向性を概観する。

Federated learning is a new learning paradigm that decouples data collection and model training via multi-party computation and model aggregation. As a flexible learning setting, federated learning has the potential to integrate with other learning frameworks. We conduct a focused survey of federated learning in conjunction with other learning algorithms. Specifically, we explore various learning algorithms to improve the vanilla federated averaging algorithm and review model fusion methods such as adaptive aggregation, regularization, clustered methods, and Bayesian methods. Following the emerging trends, we also discuss federated learning in the intersection with other learning paradigms, termed as federated x learning, where x includes multitask learning, meta-learning, transfer learning, unsupervised learning, and reinforcement learning. This survey reviews the state of the art, challenges, and future directions.
翻訳日:2021-02-27 01:04:12 公開日:2021-02-25
# (参考訳) 二元ブラックホール系の軌道力学は重力波測定から学ぶことができる [全文訳有]

Orbital dynamics of binary black hole systems can be learned from gravitational wave measurements ( http://arxiv.org/abs/2102.12695v1 )

ライセンス: CC BY 4.0
Brendan Keith, Akshay Khadse, Scott E. Field(参考訳) 2次ブラックホール(BBH)系の力学モデルを発見する重力波形反転戦略を紹介します。 BBHシステムの動作方程式を構築するためには,1つの時系列(おそらくノイズの多い)波形データのみが必要であることを示す。 フィードフォワードニューラルネットワークによってパラメータ化される普遍微分方程式のクラスから始め、この戦略は、可算な力学モデルの空間の構築と、波形誤差を最小化するためにその空間内で物理学的に変形した制約付き最適化を含む。 偏心軌道および非偏心軌道における極端質量比系を含む様々なBBH系に本手法を適用した。 得られた微分方程式はトレーニング間隔よりも長い時間に適用されることを示すとともに, 近日点沈降, 放射反応, 軌道衝突などの相対論的効果を自動的に考慮する。 ここで概説する手法は、連星ブラックホール系のダイナミクスを研究する新しいデータ駆動アプローチを提供する。

We introduce a gravitational waveform inversion strategy that discovers mechanical models of binary black hole (BBH) systems. We show that only a single time series of (possibly noisy) waveform data is necessary to construct the equations of motion for a BBH system. Starting with a class of universal differential equations parameterized by feed-forward neural networks, our strategy involves the construction of a space of plausible mechanical models and a physics-informed constrained optimization within that space to minimize the waveform error. We apply our method to various BBH systems including extreme and comparable mass ratio systems in eccentric and non-eccentric orbits. We show the resulting differential equations apply to time durations longer than the training interval, and relativistic effects, such as perihelion precession, radiation reaction, and orbital plunge, are automatically accounted for. The methods outlined here provide a new, data-driven approach to studying the dynamics of binary black hole systems.
翻訳日:2021-02-26 22:15:25 公開日:2021-02-25
# (参考訳) 夜間オーディオ記録からのOSA関連スノーリング信号の自動分類 [全文訳有]

Automatic Classification of OSA related Snoring Signals from Nocturnal Audio Recordings ( http://arxiv.org/abs/2102.12829v1 )

ライセンス: CC BY 4.0
Arun Sebastian, Peter A. Cistulli, Gary Cohen, Philip de Chazal(参考訳) 本研究は, 閉塞性睡眠時無呼吸症(OSA)患者の夜間音声記録をOSA関連スノア, 単純スノア, その他の音に分類するための自動アルゴリズムの開発である。 最近の研究では、OSA関連スヌールに関する知識が気道崩壊部位の特定に役立つことが示されている。 天井マイクロホンによる睡眠中, フルナイトポリソムノグラフィと同時に音声信号が記録された。 夜間音声信号の時間および周波数特性を抽出し、音声信号をOSA関連スネア、簡易スネアおよび他の音に分類した。 OSA関連スヌーリングが上方気道崩壊の特定に役立つという仮説に基づいて, 線形識別分析(LDA)分類器を用いてOSA関連スヌーアを抽出するアルゴリズムを開発した。 完全な機能セットからハイパフォーマンスな機能セットを選択するために、未偏りのnested leave-one の患者なしのクロスバリデーションプロセスが使用された。 その結果,音声記録からスノーアイベントを同定する精度は87%,OSA関連スノーアイベントをスノーアイベントから同定する精度は72%であった。 マルチクラスLDA分類器を用いてOSA関連スノアイベントを抽出する直接手法は,特徴選択アルゴリズムを用いて64%の精度を実現した。 以上の結果から, 夜間音声記録からOSA関連スノアイベントを抽出できることが明らかとなり, 夜間音声記録から気道崩壊箇所を同定するための新しいツールとして利用できる可能性が示唆された。

In this study, the development of an automatic algorithm is presented to classify the nocturnal audio recording of an obstructive sleep apnoea (OSA) patient as OSA related snore, simple snore and other sounds. Recent studies has been shown that knowledge regarding the OSA related snore could assist in identifying the site of airway collapse. Audio signal was recorded simultaneously with full-night polysomnography during sleep with a ceiling microphone. Time and frequency features of the nocturnal audio signal were extracted to classify the audio signal into OSA related snore, simple snore and other sounds. Two algorithms were developed to extract OSA related snore using an linear discriminant analysis (LDA) classifier based on the hypothesis that OSA related snoring can assist in identifying the site-of-upper airway collapse. An unbiased nested leave-one patient-out cross-validation process was used to select a high performing feature set from the full set of features. Results indicated that the algorithm achieved an accuracy of 87% for identifying snore events from the audio recordings and an accuracy of 72% for identifying OSA related snore events from the snore events. The direct method to extract OSA-related snore events using a multi-class LDA classifier achieved an accuracy of 64% using the feature selection algorithm. Our results gives a clear indication that OSA-related snore events can be extracted from nocturnal sound recordings, and therefore could potentially be used as a new tool for identifying the site of airway collapse from the nocturnal audio recordings.
翻訳日:2021-02-26 21:53:55 公開日:2021-02-25
# (参考訳) 分布自由ロバスト線形回帰 [全文訳有]

Distribution-Free Robust Linear Regression ( http://arxiv.org/abs/2102.12919v1 )

ライセンス: CC BY 4.0
Jaouad Mourtada and Tomas Va\v{s}kevi\v{c}ius and Nikita Zhivotovskiy(参考訳) 我々は,共変体の分布を仮定せず,重尾応答変数を用いてランダムな設計線形回帰を研究する。 共変体の仮定なしに学習する場合、応答変数の条件付き第2モーメントの境界性は、収束の偏差最適過剰リスク率を達成するために必要かつ十分な条件として確立される。 特に,最小二乗法,平均中央値法,凝集理論の考え方を組み合わせることで,次数$d/n$ の過大なリスクを最適部分指数尾と達成する非線形推定器を構築する。 重み付き分布の下で線形クラスを学習する既存のアプローチは適切な推定子に焦点を当てているが、本研究で検討されている分布自由設定における非自明な保証を達成するためには、推定子の不適切性が必要であることを強調する。 最後に、解析の副産物として、Gy\"{o}rfi, Kohler, Krzyzak, Walk によるtruncated least squares estimator に対する古典有界の最適バージョンを証明する。

We study random design linear regression with no assumptions on the distribution of the covariates and with a heavy-tailed response variable. When learning without assumptions on the covariates, we establish boundedness of the conditional second moment of the response variable as a necessary and sufficient condition for achieving deviation-optimal excess risk rate of convergence. In particular, combining the ideas of truncated least squares, median-of-means procedures and aggregation theory, we construct a non-linear estimator achieving excess risk of order $d/n$ with the optimal sub-exponential tail. While the existing approaches to learning linear classes under heavy-tailed distributions focus on proper estimators, we highlight that the improperness of our estimator is necessary for attaining non-trivial guarantees in the distribution-free setting considered in this work. Finally, as a byproduct of our analysis, we prove an optimal version of the classical bound for the truncated least squares estimator due to Gy\"{o}rfi, Kohler, Krzyzak, and Walk.
翻訳日:2021-02-26 21:42:16 公開日:2021-02-25
# (参考訳) 入力勾配はハイライトの識別的特徴か? [全文訳有]

Do Input Gradients Highlight Discriminative Features? ( http://arxiv.org/abs/2102.12781v1 )

ライセンス: CC BY 4.0
Harshay Shah, Prateek Jain, Praneeth Netrapalli(参考訳) インスタンス固有のモデル予測を説明する解釈可能性手法 [Simonyan et al]。 2014年、Smilkovら。 2017] 多くの場合、入力勾配(入力に対する損失の勾配)は、予測に関係のない非差別的特徴に対する予測に関連する識別的特徴を強調しているという前提に基づいています。 In this work, we introduce an evaluation framework to study this hypothesis for benchmark image classification tasks, and make two surprising observations on CIFAR-10 and Imagenet-10 datasets: (a) contrary to conventional wisdom, input gradients of standard models (i.e., trained on the original data) actually highlight irrelevant features over relevant features; (b) however, input gradients of adversarially robust models (i.e., trained on adversarially perturbed data) starkly highlight relevant features over irrelevant features. 入力勾配をよりよく理解するために、我々は合成テストベッドを導入し、理論的には反直感的な経験的発見を正当化する。 評価フレームワークと合成データセットは、インスタンス固有の解釈可能性メソッドを厳格に分析するためのテストベッドとして機能しています。

Interpretability methods that seek to explain instance-specific model predictions [Simonyan et al. 2014, Smilkov et al. 2017] are often based on the premise that the magnitude of input-gradient -- gradient of the loss with respect to input -- highlights discriminative features that are relevant for prediction over non-discriminative features that are irrelevant for prediction. In this work, we introduce an evaluation framework to study this hypothesis for benchmark image classification tasks, and make two surprising observations on CIFAR-10 and Imagenet-10 datasets: (a) contrary to conventional wisdom, input gradients of standard models (i.e., trained on the original data) actually highlight irrelevant features over relevant features; (b) however, input gradients of adversarially robust models (i.e., trained on adversarially perturbed data) starkly highlight relevant features over irrelevant features. To better understand input gradients, we introduce a synthetic testbed and theoretically justify our counter-intuitive empirical findings. Our observations motivate the need to formalize and verify common assumptions in interpretability, while our evaluation framework and synthetic dataset serve as a testbed to rigorously analyze instance-specific interpretability methods.
翻訳日:2021-02-26 21:00:43 公開日:2021-02-25
# (参考訳) 簡単な算術課題による変圧器の限界の検討 [全文訳有]

Investigating the Limitations of the Transformers with Simple Arithmetic Tasks ( http://arxiv.org/abs/2102.13019v1 )

ライセンス: CC BY 4.0
Rodrigo Nogueira, Zhiying Jiang, Jimmy Li(参考訳) 算術タスクを実行する能力は、人間の知性の驚くべき特徴であり、より複雑な推論タスクの重要な構成要素となる可能性がある。 本研究では,数の表面形式が,列列から列への言語モデルが,広い範囲の値に対する加算や減算といった単純な算術的タスクをどのように学習するかについて検討する。 その結果,表層形状における数値の表現方法がモデルの精度に強い影響を与えていることがわかった。 特に、サブワード(例えば「32」)を使用する場合、5桁の数字を追加するのに失敗し、文字レベルの表現(例えば「3 2」)を学ぶのに苦労している。 位置トークン("3 10e1 2"など)を導入することで、モデルは60桁までの正確な数字の追加と減算を学習する。 我々は,現代事前学習型言語モデルは,適切な曲面表現を使用する限り,ごく少数の例から容易に算術を学習できると結論付けた。 この結果は、サブワードのトークン化と位置符号化が現在のトランスフォーマー設計の要素であることを示す証拠となる。 さらに、パラメータの数やトレーニング例に関わらず、トレーニング中に見られる数の長さに依存しない追加ルールを学習できないことを示す。 実験を再現するコードはhttps://github.com/c astorini/transformer s-arithmeticで公開されている。

The ability to perform arithmetic tasks is a remarkable trait of human intelligence and might form a critical component of more complex reasoning tasks. In this work, we investigate if the surface form of a number has any influence on how sequence-to-sequence language models learn simple arithmetic tasks such as addition and subtraction across a wide range of values. We find that how a number is represented in its surface form has a strong influence on the model's accuracy. In particular, the model fails to learn addition of five-digit numbers when using subwords (e.g., "32"), and it struggles to learn with character-level representations (e.g., "3 2"). By introducing position tokens (e.g., "3 10e1 2"), the model learns to accurately add and subtract numbers up to 60 digits. We conclude that modern pretrained language models can easily learn arithmetic from very few examples, as long as we use the proper surface representation. This result bolsters evidence that subword tokenizers and positional encodings are components in current transformer designs that might need improvement. Moreover, we show that regardless of the number of parameters and training examples, models cannot learn addition rules that are independent of the length of the numbers seen during training. Code to reproduce our experiments is available at https://github.com/c astorini/transformer s-arithmetic
翻訳日:2021-02-26 18:22:38 公開日:2021-02-25
# (参考訳) 深部ニューラルネットワークのロバスト性と解釈性向上のための検索拡張 [全文訳有]

Retrieval Augmentation to Improve Robustness and Interpretability of Deep Neural Networks ( http://arxiv.org/abs/2102.13030v1 )

ライセンス: CC BY 4.0
Rita Parada Ramos, Patr\'icia Pereira, Helena Moniz, Joao Paulo Carvalho, Bruno Martins(参考訳) ディープニューラルネットワークモデルは、視覚や言語に関連する様々なタスクで最先端の結果を達成しています。 大規模なトレーニングデータを使用するにもかかわらず、ほとんどのモデルは単一の入出力ペアを反復することでトレーニングされ、現在の予測の残りの例は破棄される。 本研究では,学習データを用いて深層ニューラルネットワークのロバスト性や解釈性を向上させるとともに,最寄りのトレーニング例の情報を用いて,トレーニングとテストの両方における予測を支援する。 具体的には、LSTMモデルのメモリ状態を初期化したり、注意機構を誘導するために、最も近い入力例のターゲットを用いる。 本手法は画像キャプションと感情分析に応用し,画像検索とテキスト検索の両方で実験を行う。 その結果、Flickr8とIMDBデータセットの2つのタスクに対して提案されたモデルの有効性が示された。 コードはhttp://github.com/Ri taRamo/retrieval-aug mentation-nnで公開されています。

Deep neural network models have achieved state-of-the-art results in various tasks related to vision and/or language. Despite the use of large training data, most models are trained by iterating over single input-output pairs, discarding the remaining examples for the current prediction. In this work, we actively exploit the training data to improve the robustness and interpretability of deep neural networks, using the information from nearest training examples to aid the prediction both during training and testing. Specifically, the proposed approach uses the target of the nearest input example to initialize the memory state of an LSTM model or to guide attention mechanisms. We apply this approach to image captioning and sentiment analysis, conducting experiments with both image and text retrieval. Results show the effectiveness of the proposed models for the two tasks, on the widely used Flickr8 and IMDB datasets, respectively. Our code is publicly available http://github.com/Ri taRamo/retrieval-aug mentation-nn.
翻訳日:2021-02-26 18:02:38 公開日:2021-02-25
# (参考訳) ロバストグラフコントラスト学習に向けて [全文訳有]

Towards Robust Graph Contrastive Learning ( http://arxiv.org/abs/2102.13085v1 )

ライセンス: CC BY 4.0
Nikola Jovanovi\'c, Zhao Meng, Lukas Faber, Roger Wattenhofer(参考訳) 対比的に堅牢な自己監督学習の問題をグラフ上で研究する。 対照的な学習フレームワークでは、学習した表現の対角的堅牢性を高める新しい手法を導入し、(i) 逆変換と(i) エッジを除去するだけでなく、挿入する変換を導入する。 予備実験で得られた表現を評価し,有望な結果を得た。 この作業は、グラフのコントラスト学習において実行可能な補助タスクとして堅牢性を取り入れる重要なステップであると考えています。

We study the problem of adversarially robust self-supervised learning on graphs. In the contrastive learning framework, we introduce a new method that increases the adversarial robustness of the learned representations through i) adversarial transformations and ii) transformations that not only remove but also insert edges. We evaluate the learned representations in a preliminary set of experiments, obtaining promising results. We believe this work takes an important step towards incorporating robustness as a viable auxiliary task in graph contrastive learning.
翻訳日:2021-02-26 17:50:19 公開日:2021-02-25
# (参考訳) 概念ベース機械学習における解釈可能性と類似性について [全文訳有]

On Interpretability and Similarity in Concept-Based Machine Learning ( http://arxiv.org/abs/2102.12723v1 )

ライセンス: CC BY 4.0
L\'eonard Kwuida and Dmitry I. Ignatov(参考訳) 機械学習(ML)は分類と予測に重要な技術を提供します。 それらの多くはユーザのためのブラックボックスモデルであり、意思決定者に説明を与えていない。 透明性や意思決定の妥当性を高めるために、説明可能/解釈可能なMLメソッドを開発する必要性がますます重要になっています。 MLプロシージャは、特定のエンティティのクラスをどのように導出しますか? なぜ特定のクラスタリングが、特定の教師なしMLプロシージャから現れるのか? 属性の数が非常に多い場合、何ができますか? 具体的なケースやモデルの間違いの原因は何ですか? 二項属性に対して、形式概念解析(FCA)は形式概念の意図の観点から技術を提供し、モデル予測のもっともらしい理由を提供する。 しかし、解釈可能な機械学習の観点からは、特定の対象の分類における個々の属性の重要性を意思決定者に提供する必要がある。 本稿では,協調ゲーム理論の概念を用いて,概念ベース機械学習における分類・クラスタリングプロセスにおける個々の属性の寄与を評価する方法について論じる。 第3の質問に対処するために、大きなコンテキストにおける類似性を用いて属性数を減らす方法を提案する。

Machine Learning (ML) provides important techniques for classification and predictions. Most of these are black-box models for users and do not provide decision-makers with an explanation. For the sake of transparency or more validity of decisions, the need to develop explainable/interpre table ML-methods is gaining more and more importance. Certain questions need to be addressed: How does an ML procedure derive the class for a particular entity? Why does a particular clustering emerge from a particular unsupervised ML procedure? What can we do if the number of attributes is very large? What are the possible reasons for the mistakes for concrete cases and models? For binary attributes, Formal Concept Analysis (FCA) offers techniques in terms of intents of formal concepts, and thus provides plausible reasons for model prediction. However, from the interpretable machine learning viewpoint, we still need to provide decision-makers with the importance of individual attributes to the classification of a particular object, which may facilitate explanations by experts in various domains with high-cost errors like medicine or finance. We discuss how notions from cooperative game theory can be used to assess the contribution of individual attributes in classification and clustering processes in concept-based machine learning. To address the 3rd question, we present some ideas on how to reduce the number of attributes using similarities in large contexts.
翻訳日:2021-02-26 17:38:16 公開日:2021-02-25
# (参考訳) LazyFormer: Lazy Updateによる自己注意 [全文訳有]

LazyFormer: Self Attention with Lazy Update ( http://arxiv.org/abs/2102.12702v1 )

ライセンス: CC BY 4.0
Chengxuan Ying, Guolin Ke, Di He, Tie-Yan Liu(参考訳) トランスフォーマーベースの言語事前学習の効率性の向上は、特に計算コストのかかる自己保持モジュールにおいて、NLPにおいて重要な課題である。 本稿では, 自己注意分布を頻繁に計算する, 単純で効果的な解法である \emph{LazyFormer} を提案する。 LazyFormerは複数の遅延ブロックで構成され、それぞれが複数のTransformerレイヤを含む。 各遅延ブロックでは、自己アテンション分布は第1層で1回のみ計算され、その後すべての上層で再利用される。 このように、計算のコストは大幅に節約できます。 LazyFormerのトレーニングトリックもいくつか提供しています。 提案手法の有効性を広範な実験で実証した。

Improving the efficiency of Transformer-based language pre-training is an important task in NLP, especially for the self-attention module, which is computationally expensive. In this paper, we propose a simple but effective solution, called \emph{LazyFormer}, which computes the self-attention distribution infrequently. LazyFormer composes of multiple lazy blocks, each of which contains multiple Transformer layers. In each lazy block, the self-attention distribution is only computed once in the first layer and then is reused in all upper layers. In this way, the cost of computation could be largely saved. We also provide several training tricks for LazyFormer. Extensive experiments demonstrate the effectiveness of the proposed method.
翻訳日:2021-02-26 17:10:15 公開日:2021-02-25
# (参考訳) スペイン語の生体医学および臨床言語埋め込み [全文訳有]

Spanish Biomedical and Clinical Language Embeddings ( http://arxiv.org/abs/2102.12843v1 )

ライセンス: CC BY 4.0
Asier Guti\'errez-Fandi\~no, Jordi Armengol-Estap\' ;e, Casimiro Pio Carrino, Ona De Gibert, Aitor Gonzalez-Agirre, Marta Villegas(参考訳) FastText を使用して Word と Sub-word Embedding の両方を計算しました。 サブワード埋め込みでは、サブワードを表すByte Pair Encoding (BPE)アルゴリズムを選びました。 バイオメディカル・ワード・エンベディングは,従来のバージョンよりも優れた結果が得られ,データ量が増えると表現性が向上することを示した。

We computed both Word and Sub-word Embeddings using FastText. For Sub-word embeddings we selected Byte Pair Encoding (BPE) algorithm to represent the sub-words. We evaluated the Biomedical Word Embeddings obtaining better results than previous versions showing the implication that with more data, we obtain better representations.
翻訳日:2021-02-26 16:56:52 公開日:2021-02-25
# (参考訳) ROAD:自動運転のためのROADイベント認識データセット [全文訳有]

ROAD: The ROad event Awareness Dataset for Autonomous Driving ( http://arxiv.org/abs/2102.11585v2 )

ライセンス: CC BY 4.0
Gurkirt Singh, Stephen Akrigg, Manuele Di Maio, Valentina Fontana, Reza Javanmard Alitappeh, Suman Saha, Kossar Jeddisaravi, Farzad Yousefi, Jacob Culley, Tom Nicholson, Jordan Omokeowa, Salman Khan, Stanislao Grazioso, Andrew Bradley, Giuseppe Di Gironimo, Fabio Cuzzolin(参考訳) 人間は、特に道路イベントとその進化を理解することを伴う総合的な方法で運転にアプローチする。 これらの機能を自動運転車に投入することで、状況認識と意思決定を人間レベルのパフォーマンスに近づける可能性があります。 この目的のために、我々は、自動運転のためのROADイベントAwareness Dataset(ROAD)を私たちの知識に紹介する。 ROADは、移動エージェント、実行するアクション、および対応するシーンの位置で構成されたトリプレットとして定義された、道路イベントを検出する自律車両の能力をテストするように設計されています。 ROADは、もともとOxford RobotCar Datasetからの22のビデオで構成されており、各道路イベントのイメージプレーン内の位置を示すバウンディングボックスがアノテートされている。 また、オンライン道路イベント認識のための新たなインクリメンタルアルゴリズムとして、時間とともに膨張するRetinaNetをベースとして、フレームレベルおよびビデオレベルのイベント検出において平均16.8%と6.1%の平均精度を50%のオーバーラップで達成する。 これらの数字は有望だが、自動運転における状況認識が直面する課題を強調している。 最後に、道路学者は複雑な(道路)活動の検出、将来の道路イベント予測、精神状態の感覚的な道路エージェントのモデル化といったエキサイティングなタスクを研究できる。 データセットは https://github.com/g urkirt/road-dataset から取得でき、ベースラインコードは https://github.com/g urkirt/3D-RetinaNet から取得できます。

Humans approach driving in a holistic fashion which entails, in particular, understanding road events and their evolution. Injecting these capabilities in an autonomous vehicle has thus the potential to take situational awareness and decision making closer to human-level performance. To this purpose, we introduce the ROad event Awareness Dataset (ROAD) for Autonomous Driving, to our knowledge the first of its kind. ROAD is designed to test an autonomous vehicle's ability to detect road events, defined as triplets composed by a moving agent, the action(s) it performs and the corresponding scene locations. ROAD comprises 22 videos, originally from the Oxford RobotCar Dataset, annotated with bounding boxes showing the location in the image plane of each road event. We also provide as baseline a new incremental algorithm for online road event awareness, based on inflating RetinaNet along time, which achieves a mean average precision of 16.8% and 6.1% for frame-level and video-level event detection, respectively, at 50% overlap. Though promising, these figures highlight the challenges faced by situation awareness in autonomous driving. Finally, ROAD allows scholars to investigate exciting tasks such as complex (road) activity detection, future road event anticipation and the modelling of sentient road agents in terms of mental states. Dataset can be obtained from https://github.com/g urkirt/road-dataset and baseline code from https://github.com/g urkirt/3D-RetinaNet.
翻訳日:2021-02-26 15:37:02 公開日:2021-02-25
# (参考訳) Hopeful_Men@LT-EDI-E ACL2021: Indic TransliterationとTransformersを用いた希望の音声検出 [全文訳有]

Hopeful_Men@LT-EDI-E ACL2021: Hope Speech Detection Using Indic Transliteration and Transformers ( http://arxiv.org/abs/2102.12082v2 )

ライセンス: CC BY 4.0
Ishan Sanjeev Upadhyay, Nikhil E, Anshul Wadhawan, Radhika Mamidi(参考訳) 本論文では,HopeEDIデータセットにおける希望の発話検出に用いたアプローチについて述べる。 私たちは2つのアプローチを実験した。 第1のアプローチでは,ロジスティック回帰,ランダムフォレスト,SVM,LSTMモデルを用いた分類器の学習にコンテキスト埋め込みを用い,第2のアプローチでは,出力層を追加して事前学習したトランスフォーマーモデル (BERT, ALBERT, RoBERTa, IndicBERT) を微調整して得られた11モデルの多数投票アンサンブルを用いた。 第2のアプローチは、英語、タミル語、マラヤラム語よりも優れていることが分かりました。 我々の解は、それぞれ英語、マラヤラム、タミルの重み付きF1スコア0.93、0.75、0.49を得た。 私たちのソリューションは英語で第1位、マラヤラムで第8位、タミルで第11位でした。

This paper aims to describe the approach we used to detect hope speech in the HopeEDI dataset. We experimented with two approaches. In the first approach, we used contextual embeddings to train classifiers using logistic regression, random forest, SVM, and LSTM based models.The second approach involved using a majority voting ensemble of 11 models which were obtained by fine-tuning pre-trained transformer models (BERT, ALBERT, RoBERTa, IndicBERT) after adding an output layer. We found that the second approach was superior for English, Tamil and Malayalam. Our solution got a weighted F1 score of 0.93, 0.75 and 0.49 for English,Malayalam and Tamil respectively. Our solution ranked first in English, eighth in Malayalam and eleventh in Tamil.
翻訳日:2021-02-26 15:02:21 公開日:2021-02-25
# (参考訳) 物体検出のための局所蒸留法 [全文訳有]

Localization Distillation for Object Detection ( http://arxiv.org/abs/2102.12252v2 )

ライセンス: CC BY 4.0
Zhaohui Zheng and Rongguang Ye and Ping Wang and Jun Wang and Dongwei Ren and Wangmeng Zuo(参考訳) 知識蒸留(KD)は、深層学習分野におけるコンパクトモデル学習の強力な能力を示しているが、それでも物体検出のための局所化情報の蒸留に限られている。 既存のkd手法は主に教師モデルと学生モデルの深い特徴を模倣することに焦点を当てているが、これは特定のモデルアーキテクチャによって制限されるだけでなく、局所的曖昧さを蒸留することができない。 本稿ではまず,物体検出のためのローカライゼーション蒸留(LD)を提案する。 特に、バウンディングボックスの一般的なローカリゼーション表現を採用することで、LDを標準KDとして定式化することができます。 このldは非常に柔軟であり, 教師モデルと学生モデルの任意のアーキテクチャに対する, 蒸留局在曖昧性に適用できる。 さらに,教師モデルそのものを蒸留するセルフLDが,最先端のパフォーマンスをさらに向上させることが興味深い。 第二に、教師モデルと生徒モデルの間に可能なギャップを埋めるための教師アシスタント(TA)戦略を提案し、選択された教師モデルが最適でない場合でも蒸留の有効性を保証することができる。 ベンチマークデータセットPASCAL VOCおよびMS COCOでは、LDは学生検出器のパフォーマンスを一貫して改善し、最先端の検出器を特に高めることができます。 ソースコードとトレーニング済みモデルは、https://github.com/H ikariTju/LDで公開されています。

Knowledge distillation (KD) has witnessed its powerful ability in learning compact models in deep learning field, but it is still limited in distilling localization information for object detection. Existing KD methods for object detection mainly focus on mimicking deep features between teacher model and student model, which not only is restricted by specific model architectures, but also cannot distill localization ambiguity. In this paper, we first propose localization distillation (LD) for object detection. In particular, our LD can be formulated as standard KD by adopting the general localization representation of bounding box. Our LD is very flexible, and is applicable to distill localization ambiguity for arbitrary architecture of teacher model and student model. Moreover, it is interesting to find that Self-LD, i.e., distilling teacher model itself, can further boost state-of-the-art performance. Second, we suggest a teacher assistant (TA) strategy to fill the possible gap between teacher model and student model, by which the distillation effectiveness can be guaranteed even the selected teacher model is not optimal. On benchmark datasets PASCAL VOC and MS COCO, our LD can consistently improve the performance for student detectors, and also boosts state-of-the-art detectors notably. Our source code and trained models are publicly available at https://github.com/H ikariTJU/LD
翻訳日:2021-02-26 14:42:02 公開日:2021-02-25
# 言語処理におけるコントラスト前訓練のプライマー:方法、教訓、展望

A Primer on Contrastive Pretraining in Language Processing: Methods, Lessons Learned and Perspectives ( http://arxiv.org/abs/2102.12982v1 )

ライセンス: Link先を確認
Nils Rethmeier and Isabelle Augenstein(参考訳) 現代の自然言語処理(NLP)メソッドは、マスキング言語モデリングなどの自己監督の事前学習目標を使用して、さまざまなアプリケーションタスクのパフォーマンスを高めます。 これらの事前訓練方法は、再発、敵対的または言語的特性のマスキング、および最近では対照的な学習目的によって頻繁に拡張される。 対照的な自己教師付きトレーニング目標により、拡張画像の入力入力対を類似または類似点としてコントラストさせることで、画像表現事前学習における最近の成功を実現した。 しかし、NLPでは、単一のトークンが文の意味を逆転できるため、テキスト入力拡張の自動生成は依然として非常に難しい。 このため、いくつかの対照的なNLP事前学習法は、メトリックラーニングとエネルギーベースモデルによる手法を用いて、入力-入力ペアよりも入力-ラベルペアの方が対照的である。 本稿では,最近の自己指導型・教師型コントラスト型NLP事前学習手法を要約し,言語モデリング,ほとんどあるいはゼロショット学習,データ効率の事前訓練,特定のNLP終末タスクの実施方法について述べる。 アプリケーションとクロスフィールドリレーションによる先行研究と構造ワークから学んだことと、主要なコントラスト学習の概念を紹介します。 最後に、コントラストNLPの課題と今後の方向性を指摘し、コントラストNLPの事前訓練を画像表現事前訓練の成功に近づけることを推奨する。

Modern natural language processing (NLP) methods employ self-supervised pretraining objectives such as masked language modeling to boost the performance of various application tasks. These pretraining methods are frequently extended with recurrence, adversarial or linguistic property masking, and more recently with contrastive learning objectives. Contrastive self-supervised training objectives enabled recent successes in image representation pretraining by learning to contrast input-input pairs of augmented images as either similar or dissimilar. However, in NLP, automated creation of text input augmentations is still very challenging because a single token can invert the meaning of a sentence. For this reason, some contrastive NLP pretraining methods contrast over input-label pairs, rather than over input-input pairs, using methods from Metric Learning and Energy Based Models. In this survey, we summarize recent self-supervised and supervised contrastive NLP pretraining methods and describe where they are used to improve language modeling, few or zero-shot learning, pretraining data-efficiency and specific NLP end-tasks. We introduce key contrastive learning concepts with lessons learned from prior research and structure works by applications and cross-field relations. Finally, we point to open challenges and future directions for contrastive NLP to encourage bringing contrastive NLP pretraining closer to recent successes in image representation pretraining.
翻訳日:2021-02-26 14:06:26 公開日:2021-02-25
# QNLPの実践:量子コンピュータ上の意味の構成モデルを実行する

QNLP in Practice: Running Compositional Models of Meaning on a Quantum Computer ( http://arxiv.org/abs/2102.12846v1 )

ライセンス: Link先を確認
Robin Lorenz, Anna Pearson, Konstantinos Meichanetzidis, Dimitri Kartsaklis, Bob Coecke(参考訳) 量子自然言語処理(QNLP)は、量子ハードウェア上で動くことを意図したNLPモデルの設計と実装を扱う。 本稿では,大小100文のデータセットを対象としたNISQ(Noisy Intermediate-Scale Quantum)コンピュータ上で行った最初のNLP実験について報告する。 Coecke et al による構成的意味モデルの公式な類似性の展開。 (2010) 量子理論を用いて、量子回路への自然なマッピングを持つ文の表現を作成する。 量子ハードウェア上で単純な文分類タスクを解決する2つのnlpモデルの実装とトレーニングにこれらの表現を用いる。 これらの実験の主な原則、プロセスおよび課題を、NLP研究者がアクセス可能な方法で詳細に説明し、実用的な量子自然言語処理の道を開きます。

Quantum Natural Language Processing (QNLP) deals with the design and implementation of NLP models intended to be run on quantum hardware. In this paper, we present results on the first NLP experiments conducted on Noisy Intermediate-Scale Quantum (NISQ) computers for datasets of size >= 100 sentences. Exploiting the formal similarity of the compositional model of meaning by Coecke et al. (2010) with quantum theory, we create representations for sentences that have a natural mapping to quantum circuits. We use these representations to implement and successfully train two NLP models that solve simple sentence classification tasks on quantum hardware. We describe in detail the main principles, the process and challenges of these experiments, in a way accessible to NLP researchers, thus paving the way for practical Quantum Natural Language Processing.
翻訳日:2021-02-26 14:06:03 公開日:2021-02-25
# グラフニューラルネットワークにおける確率的集約

Stochastic Aggregation in Graph Neural Networks ( http://arxiv.org/abs/2102.12648v1 )

ライセンス: Link先を確認
Yuanqing Wang, Theofanis Karaletsos(参考訳) グラフニューラルネットワーク(gnns)は、サブオプティマイティブなアグリゲーション機構の結果、過剰なスムーシングや限定的な識別力を含む病状を示す。 本稿では、GNNsにおける確率集約(STAG)のための統一フレームワークについて述べる。そこでは、近隣からの集約プロセスにノイズが(適応的に)注入され、ノード埋め込みを形成する。 我々は,上述の2つの問題をほとんどオーバーヘッドなく,stagモデルで解決する理論的議論を行う。 また,固定ノイズモデルに加えて,stagモデルの確率的バージョンと雑音の後方学習のための変分推論フレームワークを提案する。 我々はオーバースムーシングとマルチセットアグリゲーション制限を明確にターゲットとした説明実験を行う。 さらに、STAGは、共通励起および分子グラフベンチマークデータセットにおける競合性能によって示されるGNNの一般性能を向上させる。

Graph neural networks (GNNs) manifest pathologies including over-smoothing and limited discriminating power as a result of suboptimally expressive aggregating mechanisms. We herein present a unifying framework for stochastic aggregation (STAG) in GNNs, where noise is (adaptively) injected into the aggregation process from the neighborhood to form node embeddings. We provide theoretical arguments that STAG models, with little overhead, remedy both of the aforementioned problems. In addition to fixed-noise models, we also propose probabilistic versions of STAG models and a variational inference framework to learn the noise posterior. We conduct illustrative experiments clearly targeting oversmoothing and multiset aggregation limitations. Furthermore, STAG enhances general performance of GNNs demonstrated by competitive performance in common citation and molecule graph benchmark datasets.
翻訳日:2021-02-26 14:05:51 公開日:2021-02-25
# MuZeroモデルの可視化

Visualizing MuZero Models ( http://arxiv.org/abs/2102.12924v1 )

ライセンス: Link先を確認
Joery A. de Vries, Ken S. Voskuil, Thomas M. Moerland and Aske Plaat(参考訳) MuZeroはモデルに基づく強化学習アルゴリズムで、値等価なダイナミックスモデルを使用し、チェス、ショギ、Goのゲームで最先端のパフォーマンスを達成した。 完全な次の状態を予測する標準フォワードダイナミクスモデルとは対照的に、値等価モデルは将来の値を予測するように訓練され、表現における価値関連情報を強調する。 価値等価モデルは、強い経験的成功を示しているが、これらのモデルが実際に学習する表現の種類を視覚化し、調査する研究はまだない。 そこで本論文では,MuZeroエージェントの潜在表現を可視化する。 動作軌跡は観測埋没と内部状態遷移ダイナミクスの間で分岐し, 計画中の不安定性を引き起こす可能性がある。 この知見に基づいて,MuZeroの性能を安定させる2つの正規化手法を提案する。 さらに、MuZeroのオープンソース実装と学習された表現のインタラクティブなビジュアライゼーションを提供し、価値同等のアルゴリズムのさらなる調査を支援することができます。

MuZero, a model-based reinforcement learning algorithm that uses a value equivalent dynamics model, achieved state-of-the-art performance in Chess, Shogi and the game of Go. In contrast to standard forward dynamics models that predict a full next state, value equivalent models are trained to predict a future value, thereby emphasizing value relevant information in the representations. While value equivalent models have shown strong empirical success, there is no research yet that visualizes and investigates what types of representations these models actually learn. Therefore, in this paper we visualize the latent representation of MuZero agents. We find that action trajectories may diverge between observation embeddings and internal state transition dynamics, which could lead to instability during planning. Based on this insight, we propose two regularization techniques to stabilize MuZero's performance. Additionally, we provide an open-source implementation of MuZero along with an interactive visualizer of learned representations, which may aid further investigation of value equivalent algorithms.
翻訳日:2021-02-26 14:05:38 公開日:2021-02-25
# CausalX:因果説明とブロック多線型因子分析

CausalX: Causal Explanations and Block Multilinear Factor Analysis ( http://arxiv.org/abs/2102.12853v1 )

ライセンス: Link先を確認
M. Alex O. Vasilescu, Eric Kim, and Xiao S. Zeng(参考訳) 操作のない因果関係(処置、介入)」という独裁に固執することにより、原因と効果データ分析は因果要因の変化の点で観察されたデータの変化を表します。 現在の技術的制限や倫理上の考慮から実世界でのアクティブな操作には因果的要因が適さない場合、反事実的アプローチはデータ形成モデルに介入する。 オブジェクト表現やアクティビティ(一時的なオブジェクト)表現の場合、さまざまなオブジェクト部分は、空間的または時間的であるかどうかは一般的に不可能です。 高階テンソルの代数である多線型代数は、データ形成の因果因子を遠ざけるのに適した、透明な枠組みである。 部分ベースの因果因子表現を多線形フレームワークで学習するには、部分ベースの多線形モデルに一連の介入を適用する必要がある。 全体と部分の統一多線形モデルを提案する。 我々は、オブジェクト階層全体にわたって同時に最適化することにより、因果因子の不整合表現を演算する階層的ブロック多重線形因子化 M-mode Block SVD を導出する。 計算効率を考慮すると、より低いレベルの抽象化、部分表現、より高いレベルの抽象化、親全体を表すために使用するインクリメンタルボトムアップ計算代替案であるIncremental M-mode Block SVDを紹介します。 このインクリメンタルな計算アプローチは、データがインクリメンタルに利用可能になったときに因果モデルパラメータを更新するためにも用いられる。 結果のオブジェクト表現は、オブジェクトの全体と部分の再帰的階層に関連する固有の因果係数表現の解釈可能な組合せ選択であり、オブジェクト認識を隠蔽に頑健にし、トレーニングデータ要求を減少させる。

By adhering to the dictum, "No causation without manipulation (treatment, intervention)", cause and effect data analysis represents changes in observed data in terms of changes in the causal factors. When causal factors are not amenable for active manipulation in the real world due to current technological limitations or ethical considerations, a counterfactual approach performs an intervention on the model of data formation. In the case of object representation or activity (temporal object) representation, varying object parts is generally unfeasible whether they be spatial and/or temporal. Multilinear algebra, the algebra of higher-order tensors, is a suitable and transparent framework for disentangling the causal factors of data formation. Learning a part-based intrinsic causal factor representations in a multilinear framework requires applying a set of interventions on a part-based multilinear model. We propose a unified multilinear model of wholes and parts. We derive a hierarchical block multilinear factorization, the M-mode Block SVD, that computes a disentangled representation of the causal factors by optimizing simultaneously across the entire object hierarchy. Given computational efficiency considerations, we introduce an incremental bottom-up computational alternative, the Incremental M-mode Block SVD, that employs the lower-level abstractions, the part representations, to represent the higher level of abstractions, the parent wholes. This incremental computational approach may also be employed to update the causal model parameters when data becomes available incrementally. The resulting object representation is an interpretable combinatorial choice of intrinsic causal factor representations related to an object's recursive hierarchy of wholes and parts that renders object recognition robust to occlusion and reduces training data requirements.
翻訳日:2021-02-26 14:05:22 公開日:2021-02-25
# モード接続ボリュームと高速組み立てのための表面単純化の損失

Loss Surface Simplexes for Mode Connecting Volumes and Fast Ensembling ( http://arxiv.org/abs/2102.13042v1 )

ライセンス: Link先を確認
Gregory W. Benton, Wesley J. Maddox, Sanae Lotfi, Andrew Gordon Wilson(参考訳) 多層ネットワークの損失面をよりよく理解することで、より堅牢で正確なトレーニング手順を構築することができる。 最近、独立して訓練されたSGDソリューションは、ほぼ一定のトレーニング損失の1次元パスに沿って接続できることが判明しました。 本稿では,低損失の多次元多様体を形成するモード結合型単純錯体が,多くの独立に訓練されたモデルと接続していることを示す。 この発見に触発され、高速アンサンブルのための単純な複合体を効率的に構築する方法を示し、精度、キャリブレーション、データセットシフトへの堅牢性において、独自に訓練されたディープアンサンブルを上回ります。 特に、トレーニング済みのソリューションから始めて、低損失の単純さを発見するには、いくつかのトレーニングエポックしか必要としない。 コードはhttps://github.com/g -benton/loss-surface -simplexesで入手できる。

With a better understanding of the loss surfaces for multilayer networks, we can build more robust and accurate training procedures. Recently it was discovered that independently trained SGD solutions can be connected along one-dimensional paths of near-constant training loss. In this paper, we show that there are mode-connecting simplicial complexes that form multi-dimensional manifolds of low loss, connecting many independently trained models. Inspired by this discovery, we show how to efficiently build simplicial complexes for fast ensembling, outperforming independently trained deep ensembles in accuracy, calibration, and robustness to dataset shift. Notably, our approach only requires a few training epochs to discover a low-loss simplex, starting from a pre-trained solution. Code is available at https://github.com/g -benton/loss-surface -simplexes.
翻訳日:2021-02-26 14:04:50 公開日:2021-02-25
# ConCrete MAP:低複雑性のソフト推定のための離散変数の確率的緩和学習

ConCrete MAP: Learning a Probabilistic Relaxation of Discrete Variables for Soft Estimation with Low Complexity ( http://arxiv.org/abs/2102.12756v1 )

ライセンス: Link先を確認
Edgar Beck, Carsten Bockelmann and Armin Dekorsy(参考訳) 2010年代の多くの研究領域において機械学習(ML)、特にディープニューラルネットワーク(DNN)の大きな成功に続いて、大規模なMIMOシステムのような大きな逆線形問題を検出するための学習ベースのアプローチが提案された。 主な動機は、最大A-Posteriori(MAP)検出の複雑さがシステム次元とともに指数関数的に増加することである。 DNNを最も基本的な形でブラックボックスとして使用する代わりに、少し異なるアプローチを採用し、MAP検出にdisCrete変数の確率論的連続緩和を導入する。 近接近似と連続最適化により、反復的検出アルゴリズムであるConCrete MAP Detection (CMD)を導出する。 さらに, CMDを深く展開するアイデアに拡張することで, 複雑さを抑えながら, 少数のパラメータを異なる作業点に(オンラインに)最適化することが可能となる。 近年のDNNに基づくアプローチとは対照的に,情報理論に基づくCMDの最適化基準と出力を選択し,個々の最適検出器の近似確率を学習することができる。 これは今日の通信システムにおけるソフトデコーディングに不可欠である。 MIMOシステムにおける数値シミュレーションの結果,SotAと比較して,CMDは有望な性能複雑性のトレードオフを特徴とすることがわかった。 特に,CMDのソフト出力がデコーダに信頼性を持つことを示す。

Following the great success of Machine Learning (ML), especially Deep Neural Networks (DNNs), in many research domains in 2010s, several learning-based approaches were proposed for detection in large inverse linear problems, e.g., massive MIMO systems. The main motivation behind is that the complexity of Maximum A-Posteriori (MAP) detection grows exponentially with system dimensions. Instead of using DNNs, essentially being a black-box in its most basic form, we take a slightly different approach and introduce a probabilistic Continuous relaxation of disCrete variables to MAP detection. Enabling close approximation and continuous optimization, we derive an iterative detection algorithm: ConCrete MAP Detection (CMD). Furthermore, by extending CMD to the idea of deep unfolding, we allow for (online) optimization of a small number of parameters to different working points while limiting complexity. In contrast to recent DNN-based approaches, we select the optimization criterion and output of CMD based on information theory and are thus able to learn approximate probabilities of the individual optimal detector. This is crucial for soft decoding in today's communication systems. Numerical simulation results in MIMO systems reveal CMD to feature a promising performance complexity trade-off compared to SotA. Notably, we demonstrate CMD's soft outputs to be reliable for decoders.
翻訳日:2021-02-26 14:04:33 公開日:2021-02-25
# LET:中国語短文マッチングのための言語知識強化グラフ変換器

LET: Linguistic Knowledge Enhanced Graph Transformer for Chinese Short Text Matching ( http://arxiv.org/abs/2102.12671v1 )

ライセンス: Link先を確認
Boer Lyu, Lu Chen, Su Zhu, Kai Yu(参考訳) 中国語の短文マッチングは自然言語処理の基本的なタスクである。 既存のアプローチは通常、漢字や単語を入力トークンとして扱う。 1)中国語の単語は多義語であり、意味情報は十分に活用されていない。 2) 単語分割による潜在的な問題に悩むモデルもある。 本稿では,ハウネットを外部知識ベースとして紹介し,単語曖昧性を扱うための言語知識強化グラフトランスフォーマ(let)を提案する。 さらに,複数粒度情報を維持するために,単語格子グラフを入力として採用する。 私たちのモデルは、事前学習された言語モデルも補完します。 2つの中国語データセットによる実験結果から、我々のモデルは様々な典型的なテキストマッチング手法より優れていることが示された。 また,テキストマッチングモデルにおいて,意味情報と多粒度情報の両方が重要であることを示す。

Chinese short text matching is a fundamental task in natural language processing. Existing approaches usually take Chinese characters or words as input tokens. They have two limitations: 1) Some Chinese words are polysemous, and semantic information is not fully utilized. 2) Some models suffer potential issues caused by word segmentation. Here we introduce HowNet as an external knowledge base and propose a Linguistic knowledge Enhanced graph Transformer (LET) to deal with word ambiguity. Additionally, we adopt the word lattice graph as input to maintain multi-granularity information. Our model is also complementary to pre-trained language models. Experimental results on two Chinese datasets show that our models outperform various typical text matching approaches. Ablation study also indicates that both semantic information and multi-granularity information are important for text matching modeling.
翻訳日:2021-02-26 14:04:10 公開日:2021-02-25
# ZJUKLAB - SemEval-2021 Task 4: Negative Augmentation with Language Model for Reading Comprehension of Abstract Meaning

ZJUKLAB at SemEval-2021 Task 4: Negative Augmentation with Language Model for Reading Comprehension of Abstract Meaning ( http://arxiv.org/abs/2102.12828v1 )

ライセンス: Link先を確認
Xin Xie, Xiangnan Chen, Xiang Chen, Yong Wang, Ningyu Zhang, Shumin Deng, Huajun Chen(参考訳) 本稿では,SemEval Task4: Reading Comprehension of Abstract Meaning (ReCAM) の3つのサブタスクについて述べる。 モデル学習に使用されるアルゴリズムとアルゴリズムをチューニングし、最良のモデルを選択するプロセスについて説明する。 ReCAMタスクと言語事前学習の類似性から着想を得て,言語モデルによる否定的拡張という,シンプルで効果的な技術を提案する。 評価結果は,提案手法の有効性を示す。 我々のモデルは、それぞれ87.9%の精度と92.8%の精度で、Subtask 1とSubtask 2の2つの公式テストセットで4位に達した。 さらに包括的モデル解析を行い、興味深いエラー事例を観察し、将来の研究を促進する可能性がある。

This paper presents our systems for the three Subtasks of SemEval Task4: Reading Comprehension of Abstract Meaning (ReCAM). We explain the algorithms used to learn our models and the process of tuning the algorithms and selecting the best model. Inspired by the similarity of the ReCAM task and the language pre-training, we propose a simple yet effective technology, namely, negative augmentation with language model. Evaluation results demonstrate the effectiveness of our proposed approach. Our models achieve the 4th rank on both official test sets of Subtask 1 and Subtask 2 with an accuracy of 87.9% and an accuracy of 92.8%, respectively. We further conduct comprehensive model analysis and observe interesting error cases, which may promote future researches.
翻訳日:2021-02-26 14:03:59 公開日:2021-02-25
# 反復的境界 MDP:非解釈的手法による解釈可能なポリシーの学習

Iterative Bounding MDPs: Learning Interpretable Policies via Non-Interpretable Methods ( http://arxiv.org/abs/2102.13045v1 )

ライセンス: Link先を確認
Nicholay Topin, Stephanie Milani, Fei Fang, Manuela Veloso(参考訳) 説明可能な強化学習における現在の作業は、一般に、状態空間上の決定木という形でポリシーを生成する。 このようなポリシーは、正式な安全検証、エージェントの行動予測、および重要な機能の手動検査に使用できます。 しかし、既存のアプローチは、トレーニング後に決定木に適合するか、ニューラルネットワークを使用するような新しい学習技術と互換性のないカスタム学習手順を使用する。 この制限に対処するために、決定木ポリシーを学ぶための新しいマルコフ決定プロセス(MDP)タイプを提案します:反復境界MDP(IBMDP)。 IBMDPは、ベースMDPを中心に構築されており、各IBMDPポリシーは、メソッドに依存しないマスキング手順を使用する場合、ベースMDPの決定ツリーポリシーに対応することが保証される。 この決定木等価性のため、ニューラルネットワークを含むトレーニング中に任意の関数近似器を使用でき、ベースMDPの決定木ポリシーを生成することができる。 必要なマスキング手順と、既存のアルゴリズムを使用して IBMDP を解決できる修正された値更新ステップを紹介します。 この手順を,最近の強化学習法のibmdp変種作成に適用する。 我々は,ibmdps を解き,mdp ベースの決定木ポリシーを作成することで,このアプローチの利点を実証的に示す。

Current work in explainable reinforcement learning generally produces policies in the form of a decision tree over the state space. Such policies can be used for formal safety verification, agent behavior prediction, and manual inspection of important features. However, existing approaches fit a decision tree after training or use a custom learning procedure which is not compatible with new learning techniques, such as those which use neural networks. To address this limitation, we propose a novel Markov Decision Process (MDP) type for learning decision tree policies: Iterative Bounding MDPs (IBMDPs). An IBMDP is constructed around a base MDP so each IBMDP policy is guaranteed to correspond to a decision tree policy for the base MDP when using a method-agnostic masking procedure. Because of this decision tree equivalence, any function approximator can be used during training, including a neural network, while yielding a decision tree policy for the base MDP. We present the required masking procedure as well as a modified value update step which allows IBMDPs to be solved using existing algorithms. We apply this procedure to produce IBMDP variants of recent reinforcement learning methods. We empirically show the benefits of our approach by solving IBMDPs to produce decision tree policies for the base MDPs.
翻訳日:2021-02-26 14:02:56 公開日:2021-02-25
# 線形二次レギュレータのモデル自由学習のためのオンライン政策勾配 : $\sqrt{t}$ regret

Online Policy Gradient for Model Free Learning of Linear Quadratic Regulators with $\sqrt{T}$ Regret ( http://arxiv.org/abs/2102.12608v1 )

ライセンス: Link先を確認
Asaf Cassel (1), Tomer Koren ((1) School of Computer Science, Tel Aviv University)(参考訳) 我々は,LQR(Linnar Quadratic Regulator)問題と呼ばれる固定二次コストの下で線形力学系を制御することを学ぶタスクを検討する。 モデルフリーな手法は実際は好まれることが多いが、これまでのところ、コストのかかるシステム同定に依存するモデルベース手法のみが、時間的地平線Tに最適な依存度でスケールする後悔を達成することが示されている。 本手法は,効率的な政策勾配法と,この設定における政策空間における探索費用の新たな厳密な分析に依拠する。

We consider the task of learning to control a linear dynamical system under fixed quadratic costs, known as the Linear Quadratic Regulator (LQR) problem. While model-free approaches are often favorable in practice, thus far only model-based methods, which rely on costly system identification, have been shown to achieve regret that scales with the optimal dependence on the time horizon T. We present the first model-free algorithm that achieves similar regret guarantees. Our method relies on an efficient policy gradient scheme, and a novel and tighter analysis of the cost of exploration in policy space in this setting.
翻訳日:2021-02-26 14:02:37 公開日:2021-02-25
# 定期的なポリシーイテレーションにおけるリグレクトバウンダリとエクスペリエンスリプレイの改善

Improved Regret Bound and Experience Replay in Regularized Policy Iteration ( http://arxiv.org/abs/2102.12611v1 )

ライセンス: Link先を確認
Nevena Lazic, Dong Yin, Yasin Abbasi-Yadkori, Csaba Szepesvari(参考訳) 本研究では,関数近似を用いた無限水平マルコフ決定過程(MDP)の学習アルゴリズムについて検討する。 まず、ポリテックスアルゴリズム(正規化されたポリシー反復のバージョン)の後悔分析が、ほぼ同一の仮定の下で$O(T^{3/4})$から$O(\sqrt{T})$に鋭くなり、線形関数近似との境界をインスタンス化できることを示した。 その結果、この設定で計算効率の良いアルゴリズムに対して、最初の高い確率の$o(\sqrt{t})$ regretバウンドが得られる。 ニューラルネットワーク関数近似によるpolitexの正確な実装は、メモリと計算の面では非効率である。 我々は過去のポリシーのアクション値関数の平均値をよく近似する必要があることを示唆するので、過去のデータを用いてリプレイバッファ上で単一のQ-関数を訓練する簡単な実装を提案する。 これは、特に壁時計時間の観点から、他の実装よりも優れたパフォーマンスをもたらすことがしばしば示されている。 我々の研究は、ポリシー反復アルゴリズムで経験的リプレイを使用するための新しい理論的正当化も提供する。

In this work, we study algorithms for learning in infinite-horizon undiscounted Markov decision processes (MDPs) with function approximation. We first show that the regret analysis of the Politex algorithm (a version of regularized policy iteration) can be sharpened from $O(T^{3/4})$ to $O(\sqrt{T})$ under nearly identical assumptions, and instantiate the bound with linear function approximation. Our result provides the first high-probability $O(\sqrt{T})$ regret bound for a computationally efficient algorithm in this setting. The exact implementation of Politex with neural network function approximation is inefficient in terms of memory and computation. Since our analysis suggests that we need to approximate the average of the action-value functions of past policies well, we propose a simple efficient implementation where we train a single Q-function on a replay buffer with past data. We show that this often leads to superior performance over other implementation choices, especially in terms of wall-clock time. Our work also provides a novel theoretical justification for using experience replay within policy iteration algorithms.
翻訳日:2021-02-26 14:02:26 公開日:2021-02-25
# ランゲビンダイナミクスによる創発的優先度を持つ確率圧縮センシング

Provable Compressed Sensing with Generative Priors via Langevin Dynamics ( http://arxiv.org/abs/2102.12643v1 )

ライセンス: Link先を確認
Thanh V. Nguyen, Gauri Jagatap and Chinmay Hegde(参考訳) ディープジェネレーションモデルは、圧縮センシング、位相探索、超解像などのさまざまな逆問題における信号の強力な優先度クラスとして出現しています。 ここで、未知の信号が事前訓練された生成モデルの範囲内にあると仮定する。 信号回復の一般的なアプローチは、低次元潜在空間における勾配降下である。 勾配降下は良好な経験的性能を達成したが、その理論的挙動はよく分かっていない。 本稿では, 確率勾配ランゲバンダイナミクス(SGLD)を用いて, 生成前の圧縮センシングについて紹介する。 生成モデル上の軽度の仮定の下で、我々は真の信号へのSGLDの収束を証明する。 また,標準勾配降下に対する競争経験的性能を示す。

Deep generative models have emerged as a powerful class of priors for signals in various inverse problems such as compressed sensing, phase retrieval and super-resolution. Here, we assume an unknown signal to lie in the range of some pre-trained generative model. A popular approach for signal recovery is via gradient descent in the low-dimensional latent space. While gradient descent has achieved good empirical performance, its theoretical behavior is not well understood. In this paper, we introduce the use of stochastic gradient Langevin dynamics (SGLD) for compressed sensing with a generative prior. Under mild assumptions on the generative model, we prove the convergence of SGLD to the true signal. We also demonstrate competitive empirical performance to standard gradient descent.
翻訳日:2021-02-26 14:02:05 公開日:2021-02-25
# 変分選択オートエンコーダ:部分観測された異種データから学ぶ

Variational Selective Autoencoder: Learning from Partially-Observed Heterogeneous Data ( http://arxiv.org/abs/2102.12679v1 )

ライセンス: Link先を確認
Yu Gong and Hossein Hajimirsadeghi and Jiawei He and Thibaut Durand and Greg Mori(参考訳) 異種データから学ぶことは、さまざまなソースと異なるタイプのデータを組み合わせるなどの課題を引き起こします。 一方、異種データはしばしば、異種性や入力源のノイズによる実世界の応用における欠如と関連付けられている。 本研究では、部分観測された異種データから表現を学習する一般的なフレームワークである、変分選択型オートエンコーダ(VSAE)を提案する。 vsaeは、観測データの共有分布、観測されていないデータ、データの欠落を表現したインプテーションマスクをモデル化することで、異種データの潜在依存関係を学習する。 その結果、データ生成や計算を含むさまざまな下流タスクの統一モデルが実現される。 これら2つの課題に対する低次元および高次元不均一データセットの評価は、最先端モデルよりも改善されている。

Learning from heterogeneous data poses challenges such as combining data from various sources and of different types. Meanwhile, heterogeneous data are often associated with missingness in real-world applications due to heterogeneity and noise of input sources. In this work, we propose the variational selective autoencoder (VSAE), a general framework to learn representations from partially-observed heterogeneous data. VSAE learns the latent dependencies in heterogeneous data by modeling the joint distribution of observed data, unobserved data, and the imputation mask which represents how the data are missing. It results in a unified model for various downstream tasks including data generation and imputation. Evaluation on both low-dimensional and high-dimensional heterogeneous datasets for these two tasks shows improvement over state-of-the-art models.
翻訳日:2021-02-26 14:01:56 公開日:2021-02-25
# マルコフ等価性に基づく因果関係の局所的同定法

A Local Method for Identifying Causal Relations under Markov Equivalence ( http://arxiv.org/abs/2102.12685v1 )

ライセンス: Link先を確認
Zhuangyan Fang and Yue Liu and Zhi Geng and Yangbo He(参考訳) 因果関係は、人工知能研究における解釈可能で堅牢な手法を設計する上で重要である。 有向非周期グラフ(DAG)の因果的グラフィカルモデルに基づく変数が与えられたターゲットの原因であるかどうかを局所的に特定する手法を提案する。 一般に、異なる因果関係をコードする多くの因果関係DAGがマルコフ同値であるため、2変数間の因果関係は観測データから特定できない。 本稿では、変数からターゲットへの因果パスの存在を全てのマルコフ等価DAGで確認するための、十分かつ必要なグラフィカルな条件について紹介する。 次に、変数がターゲットの原因/原因であるかどうかを識別するための局所的な基準を提供する。 最後に、変数の局所構造とターゲットに関連する統計的独立性テストを学習することによって、この因果的クエリの局所学習アルゴリズムを提案する。 シミュレーション研究により,我々の局所アルゴリズムは,他の最先端手法と比較して効率的かつ効果的であることが判明した。

Causality is important for designing interpretable and robust methods in artificial intelligence research. We propose a local approach to identify whether a variable is a cause of a given target based on causal graphical models of directed acyclic graphs (DAGs). In general, the causal relation between two variables may not be identifiable from observational data as many causal DAGs encoding different causal relations are Markov equivalent. In this paper, we first introduce a sufficient and necessary graphical condition to check the existence of a causal path from a variable to a target in every Markov equivalent DAG. Next, we provide local criteria for identifying whether the variable is a cause/non-cause of the target. Finally, we propose a local learning algorithm for this causal query via learning local structure of the variable and some additional statistical independence tests related to the target. Simulation studies show that our local algorithm is efficient and effective, compared with other state-of-art methods.
翻訳日:2021-02-26 14:01:43 公開日:2021-02-25
# 量子化による近似最適輸送距離の改善

Improving Approximate Optimal Transport Distances using Quantization ( http://arxiv.org/abs/2102.12731v1 )

ライセンス: Link先を確認
Gaspard Beugnot, Aude Genevay, Kristjan Greenewald, Justin Solomon(参考訳) 最適輸送(OT)は、確率測度を幾何学的に比較する機械学習において一般的なツールであるが、かなりの計算負担が伴う。 OT距離を計算するための線形プログラミングアルゴリズムは入力のサイズで立方体にスケールし、大規模なサンプル体制ではOTは実用的ではない。 安価なサンプルアクセスで測定値間のOT距離を推定するために, 量子化ステップを用いた実用的アルゴリズムを提案する。 また,エントロピー規則化輸送に焦点をあて,近似解法の性能を向上させるアルゴリズムの変種も提供する。 この量子化ステップの利点を理論的に保証し、実際に正常に振る舞うことを示す実験を提示し、既存のot推定器のドロップイン代替として使用できる実用的な近似アルゴリズムを提供する。

Optimal transport (OT) is a popular tool in machine learning to compare probability measures geometrically, but it comes with substantial computational burden. Linear programming algorithms for computing OT distances scale cubically in the size of the input, making OT impractical in the large-sample regime. We introduce a practical algorithm, which relies on a quantization step, to estimate OT distances between measures given cheap sample access. We also provide a variant of our algorithm to improve the performance of approximate solvers, focusing on those for entropy-regularized transport. We give theoretical guarantees on the benefits of this quantization step and display experiments showing that it behaves well in practice, providing a practical approximation algorithm that can be used as a drop-in replacement for existing OT estimators.
翻訳日:2021-02-26 14:01:27 公開日:2021-02-25
# 重り付きリワードを用いた非Regret強化学習

No-Regret Reinforcement Learning with Heavy-Tailed Rewards ( http://arxiv.org/abs/2102.12769v1 )

ライセンス: Link先を確認
Vincent Zhuang, Yanan Sui(参考訳) 強化学習アルゴリズムは通常、ガウス分布や有界分布などの光尾分布から得られる報酬を仮定する。 しかし、現実世界のシステムは多岐にわたる分布に従った報酬を生み出します。 このようなシナリオは,未発表の強化学習の設定において考慮する。 下位境界を構築することにより,重み付き報酬の学習が漸近的に困難であることは,学習の遷移確率の難しさを左右することを示した。 本稿では,ロバスト平均推定による手法を活用し,ヘビー・UCRL2とヘビー・Q・ラーニングを提案する。 我々のアルゴリズムは自然に深層強化学習アプリケーションに一般化し、その例としてHeavy-DQNをインスタンス化する。 我々のアルゴリズムは、合成MDPと標準RLベンチマークの両方でベースラインを上回ります。

Reinforcement learning algorithms typically assume rewards to be sampled from light-tailed distributions, such as Gaussian or bounded. However, a wide variety of real-world systems generate rewards that follow heavy-tailed distributions. We consider such scenarios in the setting of undiscounted reinforcement learning. By constructing a lower bound, we show that the difficulty of learning heavy-tailed rewards asymptotically dominates the difficulty of learning transition probabilities. Leveraging techniques from robust mean estimation, we propose Heavy-UCRL2 and Heavy-Q-Learning, and show that they achieve near-optimal regret bounds in this setting. Our algorithms also naturally generalize to deep reinforcement learning applications; we instantiate Heavy-DQN as an example of this. We demonstrate that all of our algorithms outperform baselines on both synthetic MDPs and standard RL benchmarks.
翻訳日:2021-02-26 14:01:12 公開日:2021-02-25
# 周波数変調カーネルを用いた混合変数ベイズ最適化

Mixed Variable Bayesian Optimization with Frequency Modulated Kernels ( http://arxiv.org/abs/2102.12792v1 )

ライセンス: Link先を確認
Changyong Oh, Efstratios Gavves, Max Welling(参考訳) ベイズ最適化(BO)のサンプル効率は、しばしばガウス過程(GP)サロゲートモデルによって向上される。 しかし、混合変数空間では、GP以外のサーロゲートモデルは、主に異なる種類の変数間で複雑な依存性をモデル化できるカーネルが不足しているため、普及している。 本論文では、異なる種類の変数間の依存性を柔軟にモデリングする周波数変調(FM)カーネルを提案し、BOがさらなるサンプル効率の向上を享受できるようにする。 FMカーネルは連続変数の距離を使用して、離散変数から派生したグラフフーリエスペクトルを変調する。 しかし周波数変調は、より類似した点のペアに対して高い値を返す類似度測度挙動を持つカーネルを定義するとは限らない。 そこで本研究では,FMカーネルが正定値であることの条件を特定し,類似度測定の振る舞いを示す。 実験では, FMカーネル(BO-FM)を用いたGP BOの試料効率の改善を実演し, 合成問題やハイパーパラメータ最適化問題において, BO-FMは競争相手よりも一貫して優れていた。 また、同じ問題に対して周波数変調原理の重要性を実証的に示している。 ニューラルアーキテクチャとSGDハイパーパラメータの合同最適化において、BO-FMは正規化進化(RE)およびBOHBを含む競合他社を上回っている。 BO-FM は RE や BOHB よりも 3 倍の評価で優れた性能を発揮します。

The sample efficiency of Bayesian optimization(BO) is often boosted by Gaussian Process(GP) surrogate models. However, on mixed variable spaces, surrogate models other than GPs are prevalent, mainly due to the lack of kernels which can model complex dependencies across different types of variables. In this paper, we propose the frequency modulated (FM) kernel flexibly modeling dependencies among different types of variables, so that BO can enjoy the further improved sample efficiency. The FM kernel uses distances on continuous variables to modulate the graph Fourier spectrum derived from discrete variables. However, the frequency modulation does not always define a kernel with the similarity measure behavior which returns higher values for pairs of more similar points. Therefore, we specify and prove conditions for FM kernels to be positive definite and to exhibit the similarity measure behavior. In experiments, we demonstrate the improved sample efficiency of GP BO using FM kernels (BO-FM).On synthetic problems and hyperparameter optimization problems, BO-FM outperforms competitors consistently. Also, the importance of the frequency modulation principle is empirically demonstrated on the same problems. On joint optimization of neural architectures and SGD hyperparameters, BO-FM outperforms competitors including Regularized evolution(RE) and BOHB. Remarkably, BO-FM performs better even than RE and BOHB using three times as many evaluations.
翻訳日:2021-02-26 14:00:58 公開日:2021-02-25
# 適応的複雑性をもつハイパーパラメータ転送学習

Hyperparameter Transfer Learning with Adaptive Complexity ( http://arxiv.org/abs/2102.12810v1 )

ライセンス: Link先を確認
Samuel Horv\'ath, Aaron Klein, Peter Richt\'arik, C\'edric Archambeau(参考訳) Bayesian optimization (BO)は、機械学習モデルのハイパーパラメータを自動的にチューニングするサンプル効率の高いアプローチです。 実際に、同様のハイパーパラメータチューニング問題をシーケンシャルに解く必要がある。 例えば、一連の異なる分類問題で学習したニューラルネットワークのタイプをチューニングする必要があるかもしれない。 マルチタスクBOに関する最近の研究は、以前のチューニングタスクから得られた知識を利用して、新しいチューニングタスクをスピードアップします。 しかし、以前のアプローチはBOが連続的な意思決定手順であるという事実を考慮に入れていない。 したがって、一般に、現在のチューニングタスクで収集された評価の数と、以前に完了したすべてのタスクで蓄積された評価の数との間にミスマッチがあります。 本研究では,転送学習手順が異なるデータレジームを原則的に扱うことができるように,マルチタスクboによるミスマッチの補償を可能にする。 ネストされたドロップアウトと自動関連性判定によって複雑性を高める順序付き非線形基底関数の集合を学習する新しいマルチタスクBO法を提案する。 各種ハイパーパラメータチューニング問題に関する実験により,サンプルefの改善が得られた。

Bayesian optimization (BO) is a sample efficient approach to automatically tune the hyperparameters of machine learning models. In practice, one frequently has to solve similar hyperparameter tuning problems sequentially. For example, one might have to tune a type of neural network learned across a series of different classification problems. Recent work on multi-task BO exploits knowledge gained from previous tuning tasks to speed up a new tuning task. However, previous approaches do not account for the fact that BO is a sequential decision making procedure. Hence, there is in general a mismatch between the number of evaluations collected in the current tuning task compared to the number of evaluations accumulated in all previously completed tasks. In this work, we enable multi-task BO to compensate for this mismatch, such that the transfer learning procedure is able to handle different data regimes in a principled way. We propose a new multi-task BO method that learns a set of ordered, non-linear basis functions of increasing complexity via nested drop-out and automatic relevance determination. Experiments on a variety of hyperparameter tuning problems show that our method improves the sample ef
翻訳日:2021-02-26 14:00:35 公開日:2021-02-25
# 模倣学習における二次誤差複合障壁を最適に破る

Provably Breaking the Quadratic Error Compounding Barrier in Imitation Learning, Optimally ( http://arxiv.org/abs/2102.12948v1 )

ライセンス: Link先を確認
Nived Rajaraman, Yanjun Han, Lin F. Yang, Kannan Ramchandran, Jiantao Jiao(参考訳) 我々は、状態空間 $\mathcal{S}$ を持つ韻律マルコフ決定過程 (MDPs) における模擬学習 (IL) の統計的限界について研究する。 我々は,学習者が決定論的専門家政策からN$長-H$トラジェクトリのデータセットを提供し,MDP遷移を知るような既知の移行設定に焦点を当てる。 上界の $O(|\mathcal{S}|H^{3/2}/N)$ を、Rajaraman et al (2020) の Mimic-MD アルゴリズムを用いて最適化し、計算効率を証明した。 対照的に、minimax suboptimality は $\Omega(H^{3/2}/N)$ が $|\mathcal{S}|\geq 3$ であるのに対して、未知の遷移条件はより大きいシャープレート $\Theta(|\mathcal{S}|H^2/N)$ (Rajaraman et al (2020) ) である。 下界は、任意の報酬関数の下で、ILと未知の専門家ポリシーの値推定問題との双方向の低減を証明し、サブサンプル観測による線形関数推定との接続を構築することにより確立される。 さらに、エキスパートが真の報酬関数に最適であるという仮定が加わり、終端層にのみ報酬を持つ任意の3状態のMDPに対して、その準最適性(O(1/N)$)を確実に達成する効率的なアルゴリズムが存在することを示す。 対照的に、専門家が最適に制約されない場合、アルゴリズムは高い確率で準最適$O(\sqrt{H}/N)$を達成できない。 我々の研究は、既知の遷移設定において、専門家の最適仮定の利点を正式に確立する一方、Rajaraman et al (2020) は遷移が不明な場合に役に立たないことを示した。

We study the statistical limits of Imitation Learning (IL) in episodic Markov Decision Processes (MDPs) with a state space $\mathcal{S}$. We focus on the known-transition setting where the learner is provided a dataset of $N$ length-$H$ trajectories from a deterministic expert policy and knows the MDP transition. We establish an upper bound $O(|\mathcal{S}|H^{3/2}/N)$ for the suboptimality using the Mimic-MD algorithm in Rajaraman et al (2020) which we prove to be computationally efficient. In contrast, we show the minimax suboptimality grows as $\Omega( H^{3/2}/N)$ when $|\mathcal{S}|\geq 3$ while the unknown-transition setting suffers from a larger sharp rate $\Theta(|\mathcal{S}|H^2/N)$ (Rajaraman et al (2020)). The lower bound is established by proving a two-way reduction between IL and the value estimation problem of the unknown expert policy under any given reward function, as well as building connections with linear functional estimation with subsampled observations. We further show that under the additional assumption that the expert is optimal for the true reward function, there exists an efficient algorithm, which we term as Mimic-Mixture, that provably achieves suboptimality $O(1/N)$ for arbitrary 3-state MDPs with rewards only at the terminal layer. In contrast, no algorithm can achieve suboptimality $O(\sqrt{H}/N)$ with high probability if the expert is not constrained to be optimal. Our work formally establishes the benefit of the expert optimal assumption in the known transition setting, while Rajaraman et al (2020) showed it does not help when transitions are unknown.
翻訳日:2021-02-26 14:00:22 公開日:2021-02-25
# 連続的単一索引学習について

On continual single index learning ( http://arxiv.org/abs/2102.12961v1 )

ライセンス: Link先を確認
The Tien Mai(参考訳) 本稿では,単一索引モデルの問題を連続学習の文脈に一般化し,学習者が1つずつタスクのシーケンスに挑戦し,各タスクのデータセットをオンライン形式で明らかにする。 我々は,すべてのタスクに対して共通する単一インデックスと,タスク毎に特定のリンク関数を学習できる戦略を提案する。 一般的なシングルインデックスは、前のタスクから得たインフォメーションを新しいタスクに転送することができる。 提案した戦略の理論的解析は,いくつかの後悔の限界を証明して行う。 さらに,タスク内アルゴリズムの例を示すための副産物として,オンライン環境で単一のインデックスモデルを学習し,その後悔の束縛を与えるための新しいオンラインアルゴリズムを開発した。

In this paper, we generalize the problem of single index model to the context of continual learning in which a learner is challenged with a sequence of tasks one by one and the dataset of each task is revealed in an online fashion. We propose a strategy that is able to learn a common single index for all tasks and a specific link function for each task. The common single index allows to transfer the informaton gained from the previous tasks to a new one. We provide a theoretical analysis of our proposed strategy by proving some regret bounds. Moreover, as a by-product from our work to provide an example of a within-task algorithm, we develop a novel online algorithm for learning single index model in an online setting and provide its regret bound.
翻訳日:2021-02-26 13:59:31 公開日:2021-02-25
# 深層ニューラルネットワークにおける分布検出効率の統計的検証

Statistical Testing for Efficient Out of Distribution Detection in Deep Neural Networks ( http://arxiv.org/abs/2102.12967v1 )

ライセンス: Link先を確認
Matan Haroush, Tzivel Frostig, Ruth Heller and Daniel Soudry(参考訳) 一般的に、ディープニューラルネットワーク(DNN)は、トレーニングセットと同様の分布から引き出されたサンプルをうまく一般化する。 しかし、DNNの予測は、テストサンプルが異種分布から引き出されると不安定で信頼性に欠ける。 これは、自動運転車やヘルスケアアプリケーションの場合のように、そのような行動が大きなコストで発生する可能性がある現実世界のアプリケーションへの展開に大きな懸念を示します。 本稿では,DNNにおけるOut Of Distribution (OOD)検出問題について,統計的仮説テスト問題として検討する。 従来のOOD検出ヒューリスティックとは違って,我々のフレームワークは,テストデータに対する偽陽性率(OODを非分布として検出する)を維持することが保証されている。 このフレームワークに基づいて、低階統計に基づいた新しいOOD手順を提案します。 提案手法は,ネットワークパラメータを再トレーニングすることなく,かつ計算コストのごく一部で,oodベンチマークにおいて,最先端の結果と同等あるいは優れた結果が得られる。

Commonly, Deep Neural Networks (DNNs) generalize well on samples drawn from a distribution similar to that of the training set. However, DNNs' predictions are brittle and unreliable when the test samples are drawn from a dissimilar distribution. This presents a major concern for deployment in real-world applications, where such behavior may come at a great cost -- as in the case of autonomous vehicles or healthcare applications. This paper frames the Out Of Distribution (OOD) detection problem in DNN as a statistical hypothesis testing problem. Unlike previous OOD detection heuristics, our framework is guaranteed to maintain the false positive rate (detecting OOD as in-distribution) for test data. We build on this framework to suggest a novel OOD procedure based on low-order statistics. Our method achieves comparable or better than state-of-the-art results on well-accepted OOD benchmarks without retraining the network parameters -- and at a fraction of the computational cost.
翻訳日:2021-02-26 13:59:19 公開日:2021-02-25
# バッチニューラルバンド

Batched Neural Bandits ( http://arxiv.org/abs/2102.13028v1 )

ライセンス: Link先を確認
Quanquan Gu and Amin Karbasi and Khashayar Khosravi and Vahab Mirrokni and Dongruo Zhou(参考訳) 多くのシーケンシャルな意思決定問題では、個人は複数のバッチに分割され、意思決定者はバッチの最後にポリシーを変更することしか許されない。 これらのバッチ問題には、臨床試験からクラウドソーシングまで、多数のアプリケーションがあります。 そこで本研究では,バッチ環境下での一般報酬分布に対する確率的文脈的バンディット問題を考察する。 BatchNeuralUCBアルゴリズムは、ニューラルネットワークと楽観性を組み合わせて探索・探索トレードオフに対処し、バッチの総数を制限します。 我々は,BatchNeuralUCBをバッチサイズと適応サイズの両方で検討し,完全なシーケンシャルバージョンと同じ後悔を達成できるとともに,ポリシー更新の回数を大幅に削減できることを示す。 合成データセットと実世界データセットのシミュレーションにより,理論結果を確認する。

In many sequential decision-making problems, the individuals are split into several batches and the decision-maker is only allowed to change her policy at the end of batches. These batch problems have a large number of applications, ranging from clinical trials to crowdsourcing. Motivated by this, we study the stochastic contextual bandit problem for general reward distributions under the batched setting. We propose the BatchNeuralUCB algorithm which combines neural networks with optimism to address the exploration-exploita tion tradeoff while keeping the total number of batches limited. We study BatchNeuralUCB under both fixed and adaptive batch size settings and prove that it achieves the same regret as the fully sequential version while reducing the number of policy updates considerably. We confirm our theoretical results via simulations on both synthetic and real-world datasets.
翻訳日:2021-02-26 13:58:59 公開日:2021-02-25
# 教師の指導も必要:自己蒸留によるダンプ正規化を目標に

Even your Teacher Needs Guidance: Ground-Truth Targets Dampen Regularization Imposed by Self-Distillation ( http://arxiv.org/abs/2102.13088v1 )

ライセンス: Link先を確認
Kenneth Borup, Lars N. Andersen(参考訳) 知識蒸留は古典的には、ニューラルネットワークがアーキテクチャ間で知識を伝達するために、他のネットワークの出力と元のターゲットと共に訓練される手順である。 ネットワークアーキテクチャが同一である自己蒸留の特別な例は、一般化精度を向上させるために観察されている。 本稿では,逐次ステップがモデル出力と接地目標の両方を組み込むカーネル回帰設定における自己蒸留の反復的変種について考察する。 これにより、自己蒸留における重み付けされた接地目標の利用の重要性に関する最初の理論的結果が得られる。 私たちの焦点は、モデルパラメータの$\ell_2$正規化に応じて、蒸留に適した重み付き平均二乗誤差客観的関数でデータに非線形関数を適合させることです。 自己蒸留により得られるそのような関数は、初期フィットの関数として直接計算でき、無限蒸留ステップは増幅正規化により元のものと同じ最適化問題をもたらす。 最後に,重み付けパラメータの選択が自己蒸留後の一般化性能にどのように影響するかを,回帰設定とresnetネットワークを用いて実験的に検討した。

Knowledge distillation is classically a procedure where a neural network is trained on the output of another network along with the original targets in order to transfer knowledge between the architectures. The special case of self-distillation, where the network architectures are identical, has been observed to improve generalization accuracy. In this paper, we consider an iterative variant of self-distillation in a kernel regression setting, in which successive steps incorporate both model outputs and the ground-truth targets. This allows us to provide the first theoretical results on the importance of using the weighted ground-truth targets in self-distillation. Our focus is on fitting nonlinear functions to training data with a weighted mean square error objective function suitable for distillation, subject to $\ell_2$ regularization of the model parameters. We show that any such function obtained with self-distillation can be calculated directly as a function of the initial fit, and that infinite distillation steps yields the same optimization problem as the original with amplified regularization. Finally, we examine empirically, both in a regression setting and with ResNet networks, how the choice of weighting parameter influences the generalization performance after self-distillation.
翻訳日:2021-02-26 13:58:46 公開日:2021-02-25
# 適応ノルム制約による高速最小ノルム対向攻撃

Fast Minimum-norm Adversarial Attacks through Adaptive Norm Constraints ( http://arxiv.org/abs/2102.12827v1 )

ライセンス: Link先を確認
Maura Pintor, Fabio Roli, Wieland Brendel, Battista Biggio(参考訳) 逆ロバスト性の評価は、入力サンプルを誤分類するために必要な最小摂動を見つけるのに等しい。 基礎となる最適化の固有の複雑さは、たとえ与えられた摂動モデルに特化していたとしても、現在の勾配に基づく攻撃を慎重に調整、初期化、実行する必要がある。 この研究では、異なる$\ell_p$-norm摂動モデル(p=0, 1, 2, \infty$)で動作する高速最小ノルム(fmn)攻撃を提案し、ハイパーパラメータの選択に頑健であり、敵の出発点を必要としないこと、軽量なステップ数で収束させることで、これらの制限を克服する。 これは、$\epsilon$のサイズの$\ell_p$-norm制約内で最大の信頼性で分類されたサンプルを反復的に見つけ、$\epsilon$を適用して、現在のサンプルと決定境界の距離を最小限に抑える。 広範な実験により、FMNは収束速度と計算時間の点で既存の攻撃を大幅に上回り、同等またはより小さな摂動サイズを報告する。

Evaluating adversarial robustness amounts to finding the minimum perturbation needed to have an input sample misclassified. The inherent complexity of the underlying optimization requires current gradient-based attacks to be carefully tuned, initialized, and possibly executed for many computationally-dema nding iterations, even if specialized to a given perturbation model. In this work, we overcome these limitations by proposing a fast minimum-norm (FMN) attack that works with different $\ell_p$-norm perturbation models ($p=0, 1, 2, \infty$), is robust to hyperparameter choices, does not require adversarial starting points, and converges within few lightweight steps. It works by iteratively finding the sample misclassified with maximum confidence within an $\ell_p$-norm constraint of size $\epsilon$, while adapting $\epsilon$ to minimize the distance of the current sample to the decision boundary. Extensive experiments show that FMN significantly outperforms existing attacks in terms of convergence speed and computation time, while reporting comparable or even smaller perturbation sizes.
翻訳日:2021-02-26 13:57:54 公開日:2021-02-25
# Bias-Reduced Multi-step Hindsight Experience Replay

Bias-reduced multi-step hindsight experience replay ( http://arxiv.org/abs/2102.12962v1 )

ライセンス: Link先を確認
Rui Yang, Jiafei Lyu, Yu Yang, Jiangpeng Ya, Feng Luo, Dijun Luo, Lanqing Li, Xiu Li(参考訳) マルチゴール強化学習は、計画やロボット操作に広く用いられている。 マルチゴール強化学習における2つの主な課題は、スパース報酬とサンプル非効率である。 Hindsight Experience Replay (HER)は、隠れた知識で2つの課題に取り組むことを目的としている。 しかし、彼女とその以前の変種は何百万ものサンプルと膨大な計算を必要とする。 本稿では,$n$-step relabelingに基づいて,複数ステップのrelabeled returnを組み込んだMHER(emph{Multi-step Hindsight Experience Replay})を提案する。 n$-step relabelingの利点にもかかわらず、理論的および実験的に$ n$-step relabelingによって導入されたオフポリシー$ n$-stepバイアスが多くの環境でパフォーマンスが低下する可能性があることを証明しています。 上記の問題に対処するため、2つのバイアス低減MHERアルゴリズム、MHER($\lambda$)とモデルベースMHER(MMHER)を示す。 MHER($\lambda$)は$\lambda$戻り値を使い、MMHERはモデルベースの値拡張の恩恵を受ける。 多数のマルチゴールロボットタスクの実験結果から,HER以外の計算量が少ないHERやCurriculum-guided HERよりも高いサンプリング効率を実現することができることがわかった。

Multi-goal reinforcement learning is widely used in planning and robot manipulation. Two main challenges in multi-goal reinforcement learning are sparse rewards and sample inefficiency. Hindsight Experience Replay (HER) aims to tackle the two challenges with hindsight knowledge. However, HER and its previous variants still need millions of samples and a huge computation. In this paper, we propose \emph{Multi-step Hindsight Experience Replay} (MHER) based on $n$-step relabeling, incorporating multi-step relabeled returns to improve sample efficiency. Despite the advantages of $n$-step relabeling, we theoretically and experimentally prove the off-policy $n$-step bias introduced by $n$-step relabeling may lead to poor performance in many environments. To address the above issue, two bias-reduced MHER algorithms, MHER($\lambda$) and Model-based MHER (MMHER) are presented. MHER($\lambda$) exploits the $\lambda$ return while MMHER benefits from model-based value expansions. Experimental results on numerous multi-goal robotic tasks show that our solutions can successfully alleviate off-policy $n$-step bias and achieve significantly higher sample efficiency than HER and Curriculum-guided HER with little additional computation beyond HER.
翻訳日:2021-02-26 13:56:27 公開日:2021-02-25
# ブラックボックスモデルのための説明方法のベンチマークと調査

Benchmarking and Survey of Explanation Methods for Black Box Models ( http://arxiv.org/abs/2102.13076v1 )

ライセンス: Link先を確認
Francesco Bodria, Fosca Giannotti, Riccardo Guidotti, Francesca Naretto, Dino Pedreschi, Salvatore Rinzivillo(参考訳) 人工知能におけるブラックボックスモデルの普及は、これらの曖昧なモデルがどのように特定の決定に達するかを明らかにする説明方法の必要性を高めました。 説明を得ることは、可能なバイアスを明らかにし、実践的または倫理的な問題を解決するために不可欠です。 今日では、文学は異なる説明の方法でいっぱいです。 返された説明の種類に基づいて、説明方法の分類を提供します。 本稿では,最も最近広く使われている説明器を紹介し,説明の視覚的比較と定量的ベンチマークを示す。

The widespread adoption of black-box models in Artificial Intelligence has enhanced the need for explanation methods to reveal how these obscure models reach specific decisions. Retrieving explanations is fundamental to unveil possible biases and to resolve practical or ethical issues. Nowadays, the literature is full of methods with different explanations. We provide a categorization of explanation methods based on the type of explanation returned. We present the most recent and widely used explainers, and we show a visual comparison among explanations and a quantitative benchmarking.
翻訳日:2021-02-26 13:56:02 公開日:2021-02-25
# タスク・アグノスティック・モルフォロジーの進化

Task-Agnostic Morphology Evolution ( http://arxiv.org/abs/2102.13100v1 )

ライセンス: Link先を確認
Donald J. Hejna III, Pieter Abbeel, Lerrel Pinto(参考訳) 深い強化学習は主に学習行動に焦点を当て、通常、エージェントの機能が主に形態によって決定されるという事実を見渡す。 では、ある環境でタスクを解決するのに適した形態を見つけるには、どうすればよいでしょうか? モルフォロジーと振る舞いを共同適用する現在のアプローチでは、特定のタスクの報酬をモルフォロジー最適化のシグナルとして使用します。 しかし、これはしばしば高価なポリシー最適化を必要とし、一般化するために構築されていないタスクに依存した形態をもたらす。 そこで本研究では,これらの問題を緩和するための新しい手法であるタスク非依存形態進化(tame)を提案する。 タスクや報酬の仕様がなければ、TAMEはエージェントの集団にランダムにサンプル化されたアクションプリミティブのみを適用することで形態学を進化させる。 これは、環境の多様な状態に到達する能力と行動の原因によってエージェントを効率的にランク付けする情報理論の目標を使用して達成されます。 最後に,2次元,3次元,操作環境において,タスク教師付きアルゴリズムで学習したタスクのマルチタスク性能に適合する形態素を進化させることができることを実証的に示す。 コードとビデオは https://sites.google .com/view/task-agnos tic-evolution.com をご覧ください。

Deep reinforcement learning primarily focuses on learning behavior, usually overlooking the fact that an agent's function is largely determined by form. So, how should one go about finding a morphology fit for solving tasks in a given environment? Current approaches that co-adapt morphology and behavior use a specific task's reward as a signal for morphology optimization. However, this often requires expensive policy optimization and results in task-dependent morphologies that are not built to generalize. In this work, we propose a new approach, Task-Agnostic Morphology Evolution (TAME), to alleviate both of these issues. Without any task or reward specification, TAME evolves morphologies by only applying randomly sampled action primitives on a population of agents. This is accomplished using an information-theoreti c objective that efficiently ranks agents by their ability to reach diverse states in the environment and the causality of their actions. Finally, we empirically demonstrate that across 2D, 3D, and manipulation environments TAME can evolve morphologies that match the multi-task performance of those learned with task supervised algorithms. Our code and videos can be found at https://sites.google .com/view/task-agnos tic-evolution.
翻訳日:2021-02-26 13:55:55 公開日:2021-02-25
# MaskCycleGAN-VC:フレーム内充填による非並列音声変換学習

MaskCycleGAN-VC: Learning Non-parallel Voice Conversion with Filling in Frames ( http://arxiv.org/abs/2102.12841v1 )

ライセンス: Link先を確認
Takuhiro Kaneko, Hirokazu Kameoka, Kou Tanaka, Nobukatsu Hojo(参考訳) 非並列音声変換(VC)は、並列コーパスなしで音声コンバータを訓練するための技術です。 CycleGAN-VCとCycleGAN-VC2)はベンチマーク手法として広く受け入れられている。 しかし、時間周波数構造を把握できないため、その応用はメル-ケプストラム変換に限られており、近年のメル-スペクトログラムボコーダの進歩にもかかわらず、メル-ケプストラム変換に限られている。 これを解決するために、時間周波数適応正規化(TFAN)と呼ばれる追加モジュールを組み込んだCycleGAN-VC2の改良版であるCycleGAN-VC3が提案されている。 しかし、学習パラメータの数の増加が課されます。 代替として、CycleGAN-VC2の別の拡張であり、フレームの充填(FIF)と呼ばれる新しい補助タスクを使用して訓練されているMaskCycleGAN-VCを提案します。 FIFでは、入力メル-スペクトログラムに時間マスクを適用し、コンバータが周囲のフレームに基づいて欠落フレームを埋めるように促す。 このタスクにより、コンバータは自己教師付きで時間周波数構造を学習でき、TFANのような追加モジュールは不要になる。 MaskCycleGAN-VCはCycleGAN-VC2とCycleGAN-VC3の両方で、モデルサイズはCycleGAN-VC2と同等であった。 オーディオサンプルはhttp://www.kecl.ntt. co.jp/people/kaneko. takuhiro/projects/ma skcyclegan-vc/index. htmlで入手できる。

Non-parallel voice conversion (VC) is a technique for training voice converters without a parallel corpus. Cycle-consistent adversarial network-based VCs (CycleGAN-VC and CycleGAN-VC2) are widely accepted as benchmark methods. However, owing to their insufficient ability to grasp time-frequency structures, their application is limited to mel-cepstrum conversion and not mel-spectrogram conversion despite recent advances in mel-spectrogram vocoders. To overcome this, CycleGAN-VC3, an improved variant of CycleGAN-VC2 that incorporates an additional module called time-frequency adaptive normalization (TFAN), has been proposed. However, an increase in the number of learned parameters is imposed. As an alternative, we propose MaskCycleGAN-VC, which is another extension of CycleGAN-VC2 and is trained using a novel auxiliary task called filling in frames (FIF). With FIF, we apply a temporal mask to the input mel-spectrogram and encourage the converter to fill in missing frames based on surrounding frames. This task allows the converter to learn time-frequency structures in a self-supervised manner and eliminates the need for an additional module such as TFAN. A subjective evaluation of the naturalness and speaker similarity showed that MaskCycleGAN-VC outperformed both CycleGAN-VC2 and CycleGAN-VC3 with a model size similar to that of CycleGAN-VC2. Audio samples are available at http://www.kecl.ntt. co.jp/people/kaneko. takuhiro/projects/ma skcyclegan-vc/index. html.
翻訳日:2021-02-26 13:55:35 公開日:2021-02-25
# 複数の専門家に対する不偏と正確な決定に向けて

Towards Unbiased and Accurate Deferral to Multiple Experts ( http://arxiv.org/abs/2102.13004v1 )

ライセンス: Link先を確認
Vijay Keswani, Matthew Lease, Krishnaram Kenthapadi(参考訳) マシンラーニングモデルは、パイプライン内の人間とコホートで実装されることが多い。モデルには、推論の信頼性が低い場合には、ドメインの専門家に延期するオプションがある。 我々の目標は、機械学習モデル推論とドメインエキスパート予測を組み合わせた予測システムにおいて、精度と公平性を確保するメカニズムを設計することである。 分類設定における「デフォルトシステム」に関する以前の作業は、単一の専門家によるパイプラインの設定に焦点を当てており、この専門家の不正確さとバイアスに対応して、推論モデルとデフレシステムを同時に学習することを目的としています。 私たちの仕事は、このフレームワークを複数の専門家が利用可能な設定に拡張し、各専門家は独自の専門知識と偏見を持っています。 本稿では,分類器と推論システムを同時に学習する枠組みを提案し,分類器が信頼度が低い入力の場合,推論システムが1人以上の人間専門家に推論することを選択する。 本フレームワークは,偏りのある合成専門家による合成データセットとコンテンツモデレーションデータセットを用いてテストし,ベースラインと比較して最終予測の精度と公平性を大幅に向上させることを示した。 また、コンテンツモデレーションタスクのクラウドソースラベルを収集し、ハイブリッドマシンヒューマンフレームワークの評価のための実世界のデータセットを構築し、提案された学習フレームワークがこの実世界のデータセットのベースラインを上回っていることを示します。

Machine learning models are often implemented in cohort with humans in the pipeline, with the model having an option to defer to a domain expert in cases where it has low confidence in its inference. Our goal is to design mechanisms for ensuring accuracy and fairness in such prediction systems that combine machine learning model inferences and domain expert predictions. Prior work on "deferral systems" in classification settings has focused on the setting of a pipeline with a single expert and aimed to accommodate the inaccuracies and biases of this expert to simultaneously learn an inference model and a deferral system. Our work extends this framework to settings where multiple experts are available, with each expert having their own domain of expertise and biases. We propose a framework that simultaneously learns a classifier and a deferral system, with the deferral system choosing to defer to one or more human experts in cases of input where the classifier has low confidence. We test our framework on a synthetic dataset and a content moderation dataset with biased synthetic experts, and show that it significantly improves the accuracy and fairness of the final predictions, compared to the baselines. We also collect crowdsourced labels for the content moderation task to construct a real-world dataset for the evaluation of hybrid machine-human frameworks and show that our proposed learning framework outperforms baselines on this real-world dataset as well.
翻訳日:2021-02-26 13:55:04 公開日:2021-02-25
# パーソナライズを考慮したフェデレートマルチアームバンディット

Federated Multi-armed Bandits with Personalization ( http://arxiv.org/abs/2102.13101v1 )

ライセンス: Link先を確認
Chengshuai Shi, Cong Shen, Jing Yang(参考訳) パーソナライズされた多武装バンディット(PF-MAB)の一般的な枠組みを提案する。これは、教師付き学習におけるFLフレームワークに類似した新しいバンディットパラダイムであり、パーソナライズによるFLの特徴を享受するものである。 PF-MABフレームワークの下で、一般化とパーソナライゼーションを柔軟にバランスさせる混合バンディット学習問題を研究する。 混合モデルに対する下界解析について述べる。 次にPF-UCB(Personalized Federated Up Confidence Bound)アルゴリズムを提案する。このアルゴリズムでは、探索期間を慎重に選択し、局所モデルの学習と混合学習目的のためのグローバル情報の提供の望ましいバランスを実現する。 理論解析は、PF-UCBが個人化の程度にかかわらず$O(\log(T))$の後悔を達成し、下位境界と同様のインスタンス依存性を有することを証明している。 合成データと実世界のデータの両方を用いた実験は、理論解析と提案アルゴリズムの有効性を実証する。

A general framework of personalized federated multi-armed bandits (PF-MAB) is proposed, which is a new bandit paradigm analogous to the federated learning (FL) framework in supervised learning and enjoys the features of FL with personalization. Under the PF-MAB framework, a mixed bandit learning problem that flexibly balances generalization and personalization is studied. A lower bound analysis for the mixed model is presented. We then propose the Personalized Federated Upper Confidence Bound (PF-UCB) algorithm, where the exploration length is chosen carefully to achieve the desired balance of learning the local model and supplying global information for the mixed learning objective. Theoretical analysis proves that PF-UCB achieves an $O(\log(T))$ regret regardless of the degree of personalization, and has a similar instance dependency as the lower bound. Experiments using both synthetic and real-world datasets corroborate the theoretical analysis and demonstrate the effectiveness of the proposed algorithm.
翻訳日:2021-02-26 13:54:40 公開日:2021-02-25
# 多情報融合ネットワークとCNNに基づく地域成長を用いた粗気道分割

Coarse-to-fine Airway Segmentation Using Multi information Fusion Network and CNN-based Region Growing ( http://arxiv.org/abs/2102.12755v1 )

ライセンス: Link先を確認
Jinquan Guo, Rongda Fu, Lin Pan, Shaohua Zheng, Liqin Huang, Bin Zheng, Bingwei He(参考訳) 胸部CT検査による気道自動分画は肺疾患の診断とコンピュータ支援療法において重要な役割を担っている。 しかし、周囲の枝や複雑な木のような構造における低コントラストは、主に気道セグメンテーションの2つの課題として残っている。 近年の研究では、深層学習手法がセグメンテーションタスクにおいてうまく機能していることが示されている。 これらの作品に動機づけられて、完全な気道ツリーを得るために粗いセグメント化フレームワークが提案される。 本フレームワークでは,多情報融合畳み込みニューラルネットワーク(Mif-CNN)とCNNをベースとした領域をそれぞれ,気道全体と小枝に分割する。 mif-cnnでは、atrous spatial pyramid pooling (aspp) をu字型ネットワークに統合し、受容野を駆逐し、マルチスケール情報を取り込むことができる。 一方、境界情報と位置情報は意味情報に組み込まれる。 これらの情報は、Mif-CNNが追加のコンテキスト知識と有用な機能を活用するのに役立ちます。 セグメンテーション結果の性能を向上させるため,CNNベースの領域成長法では,小枝の獲得に重点を置いている。 各Voxel周辺の豊富な情報を完全にキャプチャできるVoxel分類ネットワーク(VCN)が、Voxelを気道および非気道に分類するために適用されます。 また、気道木を改良するために形状復元法が用いられている。

Automatic airway segmentation from chest computed tomography (CT) scans plays an important role in pulmonary disease diagnosis and computer-assisted therapy. However, low contrast at peripheral branches and complex tree-like structures remain as two mainly challenges for airway segmentation. Recent research has illustrated that deep learning methods perform well in segmentation tasks. Motivated by these works, a coarse-to-fine segmentation framework is proposed to obtain a complete airway tree. Our framework segments the overall airway and small branches via the multi-information fusion convolution neural network (Mif-CNN) and the CNN-based region growing, respectively. In Mif-CNN, atrous spatial pyramid pooling (ASPP) is integrated into a u-shaped network, and it can expend the receptive field and capture multi-scale information. Meanwhile, boundary and location information are incorporated into semantic information. These information are fused to help Mif-CNN utilize additional context knowledge and useful features. To improve the performance of the segmentation result, the CNN-based region growing method is designed to focus on obtaining small branches. A voxel classification network (VCN), which can entirely capture the rich information around each voxel, is applied to classify the voxels into airway and non-airway. In addition, a shape reconstruction method is used to refine the airway tree.
翻訳日:2021-02-26 13:54:19 公開日:2021-02-25
# 暗黙的スプライン表現と深層学習を用いた医療画像のバイナリセグメンテーション

Binary segmentation of medical images using implicit spline representations and deep learning ( http://arxiv.org/abs/2102.12759v1 )

ライセンス: Link先を確認
Oliver J.D. Barrowclough, Georg Muntingh, Varatharajan Nainamalai, Ivar Stangeby(参考訳) 本稿では,暗黙のスプライン表現と深層畳み込みニューラルネットワークを組み合わせた画像分割手法を提案する。 これは、ゼロ集合がセグメンテーション境界を表す双変量スプライン関数の制御点を予測することによって行われる。 既存のニューラルネットワークアーキテクチャを適応させ、暗黙のスプライン曲線近似を提供するために調整された新しい損失関数を設計する。 この方法は先天性心疾患ct医用画像データセット上で評価される。 各種ネットワークおよび損失関数に対する各種標準指標の性能測定により実験を行った。 我々は、512\times 512$解像CT画像のために最適に実行された128\times128$係数分解能と2次$(1,1)$のスプラインを決定します。 当社のベストネットワークでは、Diceの平均ボリュームテストスコアが92%近くに達し、この先天性心疾患データセットの最先端に達しています。

We propose a novel approach to image segmentation based on combining implicit spline representations with deep convolutional neural networks. This is done by predicting the control points of a bivariate spline function whose zero-set represents the segmentation boundary. We adapt several existing neural network architectures and design novel loss functions that are tailored towards providing implicit spline curve approximations. The method is evaluated on a congenital heart disease computed tomography medical imaging dataset. Experiments are carried out by measuring performance in various standard metrics for different networks and loss functions. We determine that splines of bidegree $(1,1)$ with $128\times128$ coefficient resolution performed optimally for $512\times 512$ resolution CT images. For our best network, we achieve an average volumetric test Dice score of almost 92%, which reaches the state of the art for this congenital heart disease dataset.
翻訳日:2021-02-26 13:53:55 公開日:2021-02-25
# 3次元点雲の深い知覚指標

A deep perceptual metric for 3D point clouds ( http://arxiv.org/abs/2102.12839v1 )

ライセンス: Link先を確認
Maurice Quach, Aladine Chetouani, Giuseppe Valenzise and Frederic Dufaux(参考訳) ポイントクラウドは3Dコンテンツの保存と送信に不可欠である。 大量のデータを格納できるため、ポイントクラウド圧縮は実用的な使用に不可欠です。 近年,深層ニューラルネットワークに基づく点雲幾何圧縮手法が研究されている。 本稿では,これらのネットワークを訓練するために用いられるvoxel型損失関数の知覚品質を予測する能力を評価する。 一般に用いられる焦点損失と重み付き二元交叉エントロピーは、人間の知覚とあまり相関しないことがわかった。 そこで本研究では,ICIP2020の主観データセットにおける既存の損失関数を上回った3次元点群の知覚損失関数を提案する。 さらに,新しい切り離された距離場ボクセル格子表現を提案し,二項表現と比較して視覚的品質とより相関するスペーサー潜在空間や損失関数を導出することを示した。 ソースコードはhttps://github.com/m auriceqch/2021_pc_pe rceptual_lossで入手できる。

Point clouds are essential for storage and transmission of 3D content. As they can entail significant volumes of data, point cloud compression is crucial for practical usage. Recently, point cloud geometry compression approaches based on deep neural networks have been explored. In this paper, we evaluate the ability to predict perceptual quality of typical voxel-based loss functions employed to train these networks. We find that the commonly used focal loss and weighted binary cross entropy are poorly correlated with human perception. We thus propose a perceptual loss function for 3D point clouds which outperforms existing loss functions on the ICIP2020 subjective dataset. In addition, we propose a novel truncated distance field voxel grid representation and find that it leads to sparser latent spaces and loss functions that are more correlated with perceived visual quality compared to a binary representation. The source code is available at https://github.com/m auriceqch/2021_pc_pe rceptual_loss.
翻訳日:2021-02-26 13:53:35 公開日:2021-02-25
# 永続的ホモロジーとグラフ表現学習

Persistent Homology and Graphs Representation Learning ( http://arxiv.org/abs/2102.12926v1 )

ライセンス: Link先を確認
Mustafa Hajij, Ghaza Zamzmi, Xuanting Cai(参考訳) 本稿では,ノードグラフ表現埋め込みにエンコードされる位相不変性について,永続ホモロジーで利用可能なツールを用いて研究することを目的とした。 具体的には,ノード埋め込み表現アルゴリズムを考えると,これらの埋め込みが実数値化されている場合を考える。 これらの埋め込みを関心領域上のスカラー関数として見ることにより、永続ホモロジーで利用可能なツールを用いて、これらの表現に符号化された位相情報を研究することができる。 我々の構成では,ノード表現アルゴリズム毎に,グラフレベルとノードレベルの両方で,ユニークな永続性ベースのグラフ記述子を効果的に定義している。 提案手法の有効性を実証するため,DeepWalk,Node2Vec,D iff2Vecのトポロジカル記述子について検討した。

This article aims to study the topological invariant properties encoded in node graph representational embeddings by utilizing tools available in persistent homology. Specifically, given a node embedding representation algorithm, we consider the case when these embeddings are real-valued. By viewing these embeddings as scalar functions on a domain of interest, we can utilize the tools available in persistent homology to study the topological information encoded in these representations. Our construction effectively defines a unique persistence-based graph descriptor, on both the graph and node levels, for every node representation algorithm. To demonstrate the effectiveness of the proposed method, we study the topological descriptors induced by DeepWalk, Node2Vec and Diff2Vec.
翻訳日:2021-02-26 13:53:23 公開日:2021-02-25
# ロバストかつ安全なリアルタイムモーション計画のための模擬学習:収縮理論のアプローチ

Imitation Learning for Robust and Safe Real-time Motion Planning: A Contraction Theory Approach ( http://arxiv.org/abs/2102.12668v1 )

ライセンス: Link先を確認
Hiroyasu Tsukamoto and Soon-Jo Chung(参考訳) 本論文では,境界的障害に悩まされる安全クリティカルな非線形システムのリアルタイムロバストな動作計画アルゴリズムであるLAG-ROS(Learning-bas ed Autonomous Guidance with Robustness, Optimality, and Safety guarantees)について述べる。 LAG-ROS法は,1)契約理論による制御リャプノフ関数(CLF)構築,2)CLFに基づく頑健なフィードバック運動プランナの模倣学習,3)学習に基づくモデル予測安全フィルタによるリアルタイム・分散実装の3段階からなる。 clfでは,ニューラルネットワークを用いた神経収縮計測法(ncms)を応用し,摂動と非摂動系軌跡間の定常ユークリッド距離の上限を最小化する微分リアプノフ関数を提案する。 NCMは、摂動状態が所望の軌道上の有界誤差管に留まることを保証し、NCM-CLFをベースとした頑健な集中型運動プランナの模倣学習のためのトレーニングデータをサンプリングする。 トレーニングにローカルオブザーバを使用することで、分散実装も可能になります。 摂動非線形システムのシミュレーション結果から,既存の実時間ロバストなMPCや学習ベースフィードフォワード動作プランナと比較して,LAG-ROSはより高速な実行速度で制御性能とタスク成功率を達成することが示された。

This paper presents Learning-based Autonomous Guidance with Robustness, Optimality, and Safety guarantees (LAG-ROS), a real-time robust motion planning algorithm for safety-critical nonlinear systems perturbed by bounded disturbances. The LAG-ROS method consists of three phases: 1) Control Lyapunov Function (CLF) construction via contraction theory; 2) imitation learning of the CLF-based robust feedback motion planner; and 3) its real-time and decentralized implementation with a learning-based model predictive safety filter. For the CLF, we exploit a neural-network-based method of Neural Contraction Metrics (NCMs), which provides a differential Lyapunov function to minimize an upper bound of the steady-state Euclidean distance between perturbed and unperturbed system trajectories. The NCM ensures the perturbed state to stay in bounded error tubes around given desired trajectories, where we sample training data for imitation learning of the NCM-CLF-based robust centralized motion planner. Using local observations in training also enables its decentralized implementation. Simulation results for perturbed nonlinear systems show that the LAG-ROS achieves higher control performance and task success rate with faster execution speed for real-time computation, when compared with the existing real-time robust MPC and learning-based feedforward motion planners.
翻訳日:2021-02-26 13:53:11 公開日:2021-02-25
# ガウスワイヤタップチャネルにおけるデュアルMINEベースのニューラルセキュア通信

Dual MINE-based Neural Secure Communications under Gaussian Wiretap Channel ( http://arxiv.org/abs/2102.12918v1 )

ライセンス: Link先を確認
Jingjing Li and Zhuo Sun and Lei Zhang and Hongyu Zhu(参考訳) 近年,ガウスワイヤタップチャネル下でのオートエンコーダに基づく物理層セキュア通信システムのエンド・ツー・エンド学習に関する研究が行われている。 しかし、それらの作品では、正当な受信機だけでなく、盗聴器の必要な復号出力を通じて、エンコーダモデルの信頼性とセキュリティを学びました。 実際、既知のeavesdropperのデコーダやその出力の仮定は実用的ではない。 この問題に対処するため,本稿では2つの相互情報ニューラル推定(MINE)に基づくニューラルセキュア通信モデルを提案する。 この方法のセキュリティ制約は、法的および盗聴器チャネルの入出力信号サンプルでのみ構築され、エンコーダのトレーニングがデコーダから完全に独立しているという利点があります。 また、安全な符号化の設計は、盗聴者の復号結果に依存しないため、盗聴者の復号手段によるセキュリティ性能の影響を受けない。 数値計算の結果,eavesdropperが自身で復号器を学習するか,法定復号器を使用するかが保証された。

Recently, some researches are devoted to the topic of end-to-end learning a physical layer secure communication system based on autoencoder under Gaussian wiretap channel. However, in those works, the reliability and security of the encoder model were learned through necessary decoding outputs of not only legitimate receiver but also the eavesdropper. In fact, the assumption of known eavesdropper's decoder or its output is not practical. To address this issue, in this paper we propose a dual mutual information neural estimation (MINE) based neural secure communications model. The security constraints of this method is constructed only with the input and output signal samples of the legal and eavesdropper channels and benefit that training the encoder is completely independent of the decoder. Moreover, since the design of secure coding does not rely on the eavesdropper's decoding results, the security performance would not be affected by the eavesdropper's decoding means. Numerical results show that the performance of our model is guaranteed whether the eavesdropper learns the decoder himself or uses the legal decoder.
翻訳日:2021-02-26 13:52:42 公開日:2021-02-25
# 従来型多コイルMRIの微小逆動に対する不安定性について

On Instabilities of Conventional Multi-Coil MRI Reconstruction to Small Adverserial Perturbations ( http://arxiv.org/abs/2102.13066v1 )

ライセンス: Link先を確認
Chi Zhang, Jinghan Jia, Burhaneddin Yaman, Steen Moeller, Sijia Liu, Mingyi Hong, Mehmet Ak\c{c}akaya(参考訳) 深層学習(DL)はMRIの高速化に多くの注目を集めているが,近年の研究では,小さな摂動がDLベースの再建の不安定を招き,臨床応用への懸念が高まっている。 しかし、これらの仕事は、実用的ではないシングルコイルの取得に焦点を当てています。 マルチコイル獲得に対する小規模の敵意攻撃による不安定性について検討する。 その結果,並列イメージングとマルチコイルCSは,小さな逆乱に対してかなりの不安定性を示すことが示唆された。

Although deep learning (DL) has received much attention in accelerated MRI, recent studies suggest small perturbations may lead to instabilities in DL-based reconstructions, leading to concern for their clinical application. However, these works focus on single-coil acquisitions, which is not practical. We investigate instabilities caused by small adversarial attacks for multi-coil acquisitions. Our results suggest that, parallel imaging and multi-coil CS exhibit considerable instabilities against small adversarial perturbations.
翻訳日:2021-02-26 13:52:25 公開日:2021-02-25
# 自動ストーリー生成:挑戦と挑戦

Automatic Story Generation: Challenges and Attempts ( http://arxiv.org/abs/2102.12634v1 )

ライセンス: Link先を確認
Amal Alabdulkarim, Siyan Li, Xiangyu Peng(参考訳) 本研究のスコープは,自動ストーリー生成における課題を検討することである。 私たちは以下の方法で貢献したいと考えています。 ストーリージェネレーションにおける過去の研究がこれらの課題にどのように対処したかを探る。 2. 今後の研究の方向性と、さらなる進歩に役立つ新しい技術について論じる。 3. 創造性や談話など、しばしば見過ごされがちな課題に光を当てた。

The scope of this survey paper is to explore the challenges in automatic story generation. We hope to contribute in the following ways: 1. Explore how previous research in story generation addressed those challenges. 2. Discuss future research directions and new technologies that may aid more advancements. 3. Shed light on emerging and often overlooked challenges such as creativity and discourse.
翻訳日:2021-02-26 13:52:02 公開日:2021-02-25
# stein変分勾配降下:多粒子および長時間漸近系

Stein Variational Gradient Descent: many-particle and long-time asymptotics ( http://arxiv.org/abs/2102.12956v1 )

ライセンス: Link先を確認
Nikolas N\"usken, D.R. Michiel Renger(参考訳) スタイン変動勾配降下 (SVGD) は相互作用する粒子系に基づくベイズ推論の方法のクラスを指す。 本稿では,ベイジアン計算統計学における2つの主要なパラダイムの1つである変分推論とマルコフ連鎖モンテカルロを表現する確率的変種と同様に,元々提案されていた決定論的ダイナミクスを考察する。 結論として、これらは勾配流構造と統計物理学に根ざした大縮退原理の対応によって強く結びついている。 この関係を明らかにするために、スタイン幾何学の余接空間構築を開発し、その基本的な性質を証明し、経験的測度に対する多粒子極限を規定する大偏差関数を決定する。 さらに,svgd の有限粒子特性に光をあてて,svgd の stein-fisher 情報(または kernelized stein discrepancy) を $\gamma$-convergence という意味での長期および多粒子レジームにおける主要な秩序寄与と同定した。 最後に、スタイン-フィッシュの情報と独立した関心を持つrkhs-ノルムの比較原理を確立する。

Stein variational gradient descent (SVGD) refers to a class of methods for Bayesian inference based on interacting particle systems. In this paper, we consider the originally proposed deterministic dynamics as well as a stochastic variant, each of which represent one of the two main paradigms in Bayesian computational statistics: variational inference and Markov chain Monte Carlo. As it turns out, these are tightly linked through a correspondence between gradient flow structures and large-deviation principles rooted in statistical physics. To expose this relationship, we develop the cotangent space construction for the Stein geometry, prove its basic properties, and determine the large-deviation functional governing the many-particle limit for the empirical measure. Moreover, we identify the Stein-Fisher information (or kernelised Stein discrepancy) as its leading order contribution in the long-time and many-particle regime in the sense of $\Gamma$-convergence , shedding some light on the finite-particle properties of SVGD. Finally, we establish a comparison principle between the Stein-Fisher information and RKHS-norms that might be of independent interest.
翻訳日:2021-02-26 13:51:45 公開日:2021-02-25
# CelebA-Spoof Challenge 2020: Face Anti-Spoofing: Methods and Results

CelebA-Spoof Challenge 2020 on Face Anti-Spoofing: Methods and Results ( http://arxiv.org/abs/2102.12642v1 )

ライセンス: Link先を確認
Yuanhan Zhang, Zhenfei Yin, Jing Shao, Ziwei Liu, Shuo Yang, Yuanjun Xiong, Wei Xia, Yan Xu, Man Luo, Jian Liu, Jianshu Li, Zhijun Chen, Mingyu Guo, Hui Li, Junfu Liu, Pengfei Gao, Tianqi Hong, Hao Han, Shijie Liu, Xinhua Chen, Di Qiu, Cheng Zhen, Dashuang Liang, Yufeng Jin, Zhanlong Hao(参考訳) 顔とのインタラクションシステムが普及するにつれ、これらのシステムのセキュリティと信頼性は重要な問題となり、かなりの研究が費やされる。 その中で、顔のアンチスプーフィングは重要な領域として現れ、その目的は提示された顔が生きているかどうかを特定することです。 近年,10,177名の被験者の625,537枚の写真からなる大規模な顔反スプーフデータセットCelebA-Spoofが公開された。 これは、データと被写体の数において、最大の対スプーフィングデータセットである。 本稿では,celeba-spoof データセットを用いた celeba-spoof challenge 2020 on face antispoofing の手法と結果について報告する。 モデル評価は隠れたテストセット上でオンラインで実施する。 大会には合計134人が参加し、19チームが有効な応募を行った。 上位のソリューションを分析し、今後の作業指示についていくつかの議論を行います。

As facial interaction systems are prevalently deployed, security and reliability of these systems become a critical issue, with substantial research efforts devoted. Among them, face anti-spoofing emerges as an important area, whose objective is to identify whether a presented face is live or spoof. Recently, a large-scale face anti-spoofing dataset, CelebA-Spoof which comprised of 625,537 pictures of 10,177 subjects has been released. It is the largest face anti-spoofing dataset in terms of the numbers of the data and the subjects. This paper reports methods and results in the CelebA-Spoof Challenge 2020 on Face AntiSpoofing which employs the CelebA-Spoof dataset. The model evaluation is conducted online on the hidden test set. A total of 134 participants registered for the competition, and 19 teams made valid submissions. We will analyze the top ranked solutions and present some discussion on future work directions.
翻訳日:2021-02-26 13:50:55 公開日:2021-02-25
# SCD: 検出とセグメンテーションのための積み重ねカートンデータセット

SCD: A Stacked Carton Dataset for Detection and Segmentation ( http://arxiv.org/abs/2102.12808v1 )

ライセンス: Link先を確認
Jinrong Yang, Shengkai Wu, Lijun Gou, Hangcheng Yu, Chenxi Lin, Jiazhuo Wang, Minxuan Li, Xiaoping Li(参考訳) カートンの検出は自動ロジスティクス システムの重要な技術であり、カートンの積み重ねそしてunstacking、容器のカートンの荷を下すことのような多くの適用に適用することができます。 しかし、研究コミュニティがカートン検出モデルのトレーニングと評価を行うための公開大規模カートンデータセットは存在しないため、カートン検出の開発を妨げている。 本稿では,カートン検出の最先端化を目標として,stacked carton dataset(scd)という大規模カートンデータセットを提案する。 画像はインターネットといくつかのウェアタイムから収集され、オブジェクトはインスタンスごとのセグメンテーションを使用して正確な位置決めを行う。 16,136枚の画像から250,000個のインスタンスマスクがあります。 さらに,分類・局所化モジュール(OPCL)と境界誘導スーパービジョンモジュール(BGS)のオフセット予測を組み込んで,RetinaNetに基づくカートン検出器を設計する。 OPCLは、APを3.1%から4.7%のSCDで増加させる分類と局所化品質の不均衡の問題を軽減する一方、BGSはカルトンの境界情報に注意を払って繰り返しカートンテクスチャを分離するように検出器を誘導する。 OPCLの他のデータセットへの一般化を実証するため,MS COCOとPASCAL VOCについて広範な実験を行った。 MS COCOとPASCAL VOCのAPの改善はそれぞれ1.8% - 2.2%と3.4% - 4.3%である。

Carton detection is an important technique in the automatic logistics system and can be applied to many applications such as the stacking and unstacking of cartons, the unloading of cartons in the containers. However, there is no public large-scale carton dataset for the research community to train and evaluate the carton detection models up to now, which hinders the development of carton detection. In this paper, we present a large-scale carton dataset named Stacked Carton Dataset(SCD) with the goal of advancing the state-of-the-art in carton detection. Images are collected from the internet and several warehourses, and objects are labeled using per-instance segmentation for precise localization. There are totally 250,000 instance masks from 16,136 images. In addition, we design a carton detector based on RetinaNet by embedding Offset Prediction between Classification and Localization module(OPCL) and Boundary Guided Supervision module(BGS). OPCL alleviates the imbalance problem between classification and localization quality which boosts AP by 3.1% - 4.7% on SCD while BGS guides the detector to pay more attention to boundary information of cartons and decouple repeated carton textures. To demonstrate the generalization of OPCL to other datasets, we conduct extensive experiments on MS COCO and PASCAL VOC. The improvement of AP on MS COCO and PASCAL VOC is 1.8% - 2.2% and 3.4% - 4.3% respectively.
翻訳日:2021-02-26 13:50:38 公開日:2021-02-25
# FASA: 長期インスタンスセグメンテーションのための機能拡張とサンプリング適応

FASA: Feature Augmentation and Sampling Adaptation for Long-Tailed Instance Segmentation ( http://arxiv.org/abs/2102.12867v1 )

ライセンス: Link先を確認
Yuhang Zang, Chen Huang, Chen Change Loy(参考訳) ロングテールインスタンスセグメンテーションの最近の手法は、トレーニングデータが少ないレアオブジェクトクラスで未だに苦労している。 本稿では,特にレアクラスにおける特徴空間の強化によるデータ不足問題に対処する,単純かつ効果的な手法である特徴強調・サンプリング適応(fasa)を提案する。 FA(Feature Augmentation)とフィーチャーサンプリングコンポーネント(Feature Augmentation)はどちらも、実際のトレーニング状況に適応している -- FAは、過去のイテレーションから観測された実際のサンプルの特徴平均と分散によって通知され、生成した仮想フィーチャを損失適応的にサンプリングし、過度な適合を避ける。 FASAは精巧な損失設計を必要とせず、しばしば大規模なコストと手動で定義されたヘッド/テールクラスグループを含むクラス間転送学習の必要性を排除します。 FASAは、標準または長期のセグメンテーションフレームワークに簡単に接続できる高速で汎用的な方法であり、一貫したパフォーマンス向上と少ない追加コストを示します。 FASAは、最先端のパフォーマンスを備えた長尾分類などの他のタスクにも適用できます。 コードはリリースされる。

Recent methods for long-tailed instance segmentation still struggle on rare object classes with few training data. We propose a simple yet effective method, Feature Augmentation and Sampling Adaptation (FASA), that addresses the data scarcity issue by augmenting the feature space especially for rare classes. Both the Feature Augmentation (FA) and feature sampling components are adaptive to the actual training status -- FA is informed by the feature mean and variance of observed real samples from past iterations, and we sample the generated virtual features in a loss-adapted manner to avoid over-fitting. FASA does not require any elaborate loss design, and removes the need for inter-class transfer learning that often involves large cost and manually-defined head/tail class groups. We show FASA is a fast, generic method that can be easily plugged into standard or long-tailed segmentation frameworks, with consistent performance gains and little added cost. FASA is also applicable to other tasks like long-tailed classification with state-of-the-art performance. Code will be released.
翻訳日:2021-02-26 13:50:10 公開日:2021-02-25
# 意味セグメンテーションにおける教師なし領域適応のための空間的特徴間のコサイン類似性最大化

Maximizing Cosine Similarity Between Spatial Features for Unsupervised Domain Adaptation in Semantic Segmentation ( http://arxiv.org/abs/2102.13002v1 )

ライセンス: Link先を確認
Inseop Chung, Daesik Kim, Nojun Kwak(参考訳) 本論文では,ソースとターゲットドメインのコサイン類似性を特徴レベルで最大化することにより,セマンティックセグメンテーションにおける非監視領域適応の問題に取り組む新しい手法を提案する。 セグメンテーションネットワークは、主に特徴抽出器と分類ヘッドの2つの部分から構成される。 2つのドメインが機能レベルで小さなドメイン間隙を持つようにできれば、分類ヘッドで小さなドメイン間差異も生まれると期待しています。 提案手法では,ソース特徴マップとターゲット特徴マップのコサイン類似度行列を計算し,しきい値を超える要素を最大化し,最も類似したソース特徴と高い類似度を持つように目標特徴を導出する。 さらに,ソースドメインの最新の特徴を格納するクラス毎のソース特徴辞書を用いて,コサイン類似度行列の計算時に一致しない問題を防止し,対象特徴と各種画像からの各種ソース特徴を比較した。 広範な実験を通じて,2つの監視されていないドメイン適応タスク(GTA5$\to$ Cityscaspes と SYNTHIA$\to$ Cityscapes)において,この手法がパフォーマンスを向上することを確認した。

We propose a novel method that tackles the problem of unsupervised domain adaptation for semantic segmentation by maximizing the cosine similarity between the source and the target domain at the feature level. A segmentation network mainly consists of two parts, a feature extractor and a classification head. We expect that if we can make the two domains have small domain gap at the feature level, they would also have small domain discrepancy at the classification head. Our method computes a cosine similarity matrix between the source feature map and the target feature map, then we maximize the elements exceeding a threshold to guide the target features to have high similarity with the most similar source feature. Moreover, we use a class-wise source feature dictionary which stores the latest features of the source domain to prevent the unmatching problem when computing the cosine similarity matrix and be able to compare a target feature with various source features from various images. Through extensive experiments, we verify that our method gains performance on two unsupervised domain adaptation tasks (GTA5$\to$ Cityscaspes and SYNTHIA$\to$ Cityscapes).
翻訳日:2021-02-26 13:49:48 公開日:2021-02-25
# 非拘束時空間ビデオの超解像学習

Learning for Unconstrained Space-Time Video Super-Resolution ( http://arxiv.org/abs/2102.13011v1 )

ライセンス: Link先を確認
Zhihao Shi, Chengqi Li, Linhui Dai, Xiaohong Liu, Jun Chen, Timothy N. Davidson(参考訳) 近年,時間的フレームレートと空間分解能を同時に向上させる映像エンハンスメントに関する研究が盛んに行われている。 しかし、既存の方法は時間的情報と空間的情報の間の本質的な関係を探らないか、最終的な時間的/空間的解決の選択において柔軟性がないかのいずれかである。 本研究では, 時空間相関を効果的に活用し, 性能を向上できる, 制約のない時空間ビデオ超解像ネットワークを提案する。 さらに、光学フロー技術と一般化ピクセルシャッフル演算を用いることで、時間フレームレートと空間分解能の調整が完全に自由である。 実験の結果,提案手法は最先端技術よりもはるかに少ないパラメータと実行時間を必要とすることがわかった。

Recent years have seen considerable research activities devoted to video enhancement that simultaneously increases temporal frame rate and spatial resolution. However, the existing methods either fail to explore the intrinsic relationship between temporal and spatial information or lack flexibility in the choice of final temporal/spatial resolution. In this work, we propose an unconstrained space-time video super-resolution network, which can effectively exploit space-time correlation to boost performance. Moreover, it has complete freedom in adjusting the temporal frame rate and spatial resolution through the use of the optical flow technique and a generalized pixelshuffle operation. Our extensive experiments demonstrate that the proposed method not only outperforms the state-of-the-art, but also requires far fewer parameters and less running time.
翻訳日:2021-02-26 13:49:26 公開日:2021-02-25
# 簡易マルチデータセット検出

Simple multi-dataset detection ( http://arxiv.org/abs/2102.13086v1 )

ライセンス: Link先を確認
Xingyi Zhou, Vladlen Koltun, Philipp Kr\"ahenb\"uhl(参考訳) 汎用かつ広範な物体検出システムをどうやって構築するか? 注釈付きの全ての概念のラベルを使います。 これらのラベルは、潜在的に一貫性のない分類法を持つ多様なデータセットにまたがる。 本稿では,複数の大規模データセット上で一元化検出器を訓練する簡単な方法を提案する。 データセット固有のトレーニングプロトコルと損失を使用しますが、データセット固有の出力と共通の検出アーキテクチャを共有します。 これらのデータセット固有のアウトプットを共通の意味論的分類に自動統合する方法を示す。 先行研究とは対照的に,このアプローチでは手作業による分類の調整は不要である。 当社のマルチデータセット検出器は,各トレーニングドメインでデータセット固有のモデルと同様に動作するが,新たな未認識領域に対してはるかに優れている。 ECCV 2020 Robust Vision Challengeのオブジェクト検出およびインスタンスセグメンテーショントラックで1位にランクインした方法論に基づくエントリ。

How do we build a general and broad object detection system? We use all labels of all concepts ever annotated. These labels span diverse datasets with potentially inconsistent taxonomies. In this paper, we present a simple method for training a unified detector on multiple large-scale datasets. We use dataset-specific training protocols and losses, but share a common detection architecture with dataset-specific outputs. We show how to automatically integrate these dataset-specific outputs into a common semantic taxonomy. In contrast to prior work, our approach does not require manual taxonomy reconciliation. Our multi-dataset detector performs as well as dataset-specific models on each training domain, but generalizes much better to new unseen domains. Entries based on the presented methodology ranked first in the object detection and instance segmentation tracks of the ECCV 2020 Robust Vision Challenge.
翻訳日:2021-02-26 13:49:12 公開日:2021-02-25
# 階層的関連時系列の同時調整分位数予測

Simultaneously Reconciled Quantile Forecasting of Hierarchically Related Time Series ( http://arxiv.org/abs/2102.12612v1 )

ライセンス: Link先を確認
Xing Han, Sambarta Dasgupta, Joydeep Ghosh(参考訳) 現実のアプリケーションの多くは、集約や分解操作を通じて階層的に関係する複数の時系列を同時に予測する。 例えば、商業組織はしばしば、資源計画の目的で、店舗、都市、および州レベルで同時に在庫を予測したい。 このようなアプリケーションでは、予測が合理的に正確であることに加えて、相互に一貫したw.r.tであることが重要である。 このような階層的時系列の予測は経済学者やデータサイエンティストによって追求されているが、現在の最新モデルは強い仮定、例えば、すべての予測は偏見のない推定であり、ノイズ分布はガウス的である。 さらに、最先端のモデルは、特にディープラーニングに基づく現代の非線形モデルのパワーを生かしていない。 本稿では,階層間の予測の整合性を維持するために,量子レグレッション損失と適切な正規化項を結合したフレキシブル非線形モデルを提案する。 ここで導入された理論的枠組みは、下層の微分可微分損失関数を持つ任意の予測モデルに適用できる。 提案手法の最適性の証明も提供する。 さまざまなデータセットに関するシミュレーション研究は、私たちのアプローチの有効性を強調します。

Many real-life applications involve simultaneously forecasting multiple time series that are hierarchically related via aggregation or disaggregation operations. For instance, commercial organizations often want to forecast inventories simultaneously at store, city, and state levels for resource planning purposes. In such applications, it is important that the forecasts, in addition to being reasonably accurate, are also consistent w.r.t one another. Although forecasting such hierarchical time series has been pursued by economists and data scientists, the current state-of-the-art models use strong assumptions, e.g., all forecasts being unbiased estimates, noise distribution being Gaussian. Besides, state-of-the-art models have not harnessed the power of modern nonlinear models, especially ones based on deep learning. In this paper, we propose using a flexible nonlinear model that optimizes quantile regression loss coupled with suitable regularization terms to maintain the consistency of forecasts across hierarchies. The theoretical framework introduced herein can be applied to any forecasting model with an underlying differentiable loss function. A proof of optimality of our proposed method is also provided. Simulation studies over a range of datasets highlight the efficacy of our approach.
翻訳日:2021-02-26 13:49:02 公開日:2021-02-25
# プライバシーを過大評価するな - 個人学習のための勾配埋め込み摂動

Do Not Let Privacy Overbill Utility: Gradient Embedding Perturbation for Private Learning ( http://arxiv.org/abs/2102.12677v1 )

ライセンス: Link先を確認
Da Yu, Huishuai Zhang, Wei Chen, Tie-Yan Liu(参考訳) トレーニングデータに関するモデルのプライバシー漏洩は、差分プライバシーメカニズムにバインドすることができる。 しかし、有意義なプライバシパラメータに対しては、モデルが多数のトレーニング可能なパラメータを含む場合、微分プライベートモデルによってユーティリティが大幅に劣化する。 本稿では,偏微分プライベート深層モデルの精度向上のためのアルゴリズムであるemph{Gradient Embedding Perturbation (GEP)を提案する。 具体的には、各勾配降下ステップにおいて、GEP は個々のプライベート勾配を非感度アンカー部分空間に投影し、低次元勾配埋め込みと小さなノルム勾配を生成する。 そして、GEPはプライバシー予算に応じて、低次元の埋め込みと残留勾配を別々に摂動する。 このような分解は、小さな摂動分散を許容し、プライベートラーニングの次元障壁を壊すのに大いに役立つ。 GEPでは、合理的な計算コストと深いモデルのための控えめなプライバシー保証で、適切な精度を実現します。 特に、プライバシー境界 $\epsilon=8$ で、CIFAR10 で $74.9\%$ テスト精度を達成し、SVHN で $95.1\%$ テスト精度を達成し、既存の結果を大幅に改善します。

The privacy leakage of the model about the training data can be bounded in the differential privacy mechanism. However, for meaningful privacy parameters, a differentially private model degrades the utility drastically when the model comprises a large number of trainable parameters. In this paper, we propose an algorithm \emph{Gradient Embedding Perturbation (GEP)} towards training differentially private deep models with decent accuracy. Specifically, in each gradient descent step, GEP first projects individual private gradient into a non-sensitive anchor subspace, producing a low-dimensional gradient embedding and a small-norm residual gradient. Then, GEP perturbs the low-dimensional embedding and the residual gradient separately according to the privacy budget. Such a decomposition permits a small perturbation variance, which greatly helps to break the dimensional barrier of private learning. With GEP, we achieve decent accuracy with reasonable computational cost and modest privacy guarantee for deep models. Especially, with privacy bound $\epsilon=8$, we achieve $74.9\%$ test accuracy on CIFAR10 and $95.1\%$ test accuracy on SVHN, significantly improving over existing results.
翻訳日:2021-02-26 13:48:43 公開日:2021-02-25
# 変換を用いた境界誤差による信頼キャリブレーション

Confidence Calibration with Bounded Error Using Transformations ( http://arxiv.org/abs/2102.12680v1 )

ライセンス: Link先を確認
Sooyong Jang, Radoslav Ivanov, Insup lee, and James Weimer(参考訳) 機械学習の技術が新しい領域、特に自動運転車などの安全クリティカルなシステムで広く採用されるにつれて、正確な出力不確実性推定を提供することが重要です。 その結果,誤分類の可能性を正確に推定するために,ニューラルネットワークの校正手法が提案されている。 しかし、これらの手法は低いキャリブレーション誤差(ECE)を達成する一方で、キャリブレーション誤差(CE)に関する理論的性能保証を提供する技術はほとんどない。 本論文では,CEに理論的境界を持つ新しいキャリブレーションアルゴリズムであるHokiについて紹介する。 Hokiは、ニューラルネットワークのロジットや入力を変換し、出力の対応する変更からの情報を活用するキャリブレーションを再帰的に実行する。 校正に用いるサンプルの数が減少し、ECEと比例して増加し、ECEの計算に用いる離散ビンの数が増加することが示されるCE上のPAC様境界を提供する。 ImageNetを含む複数のデータセットで実験を行い、提案手法が一般的に、複数のデータセットやモデルにわたる最先端のキャリブレーションアルゴリズムよりも優れていることを示す。 加えて、Hokiは学習時間の点で温度スケーリングに匹敵する高速アルゴリズムである。

As machine learning techniques become widely adopted in new domains, especially in safety-critical systems such as autonomous vehicles, it is crucial to provide accurate output uncertainty estimation. As a result, many approaches have been proposed to calibrate neural networks to accurately estimate the likelihood of misclassification. However, while these methods achieve low expected calibration error (ECE), few techniques provide theoretical performance guarantees on the calibration error (CE). In this paper, we introduce Hoki, a novel calibration algorithm with a theoretical bound on the CE. Hoki works by transforming the neural network logits and/or inputs and recursively performing calibration leveraging the information from the corresponding change in the output. We provide a PAC-like bounds on CE that is shown to decrease with the number of samples used for calibration, and increase proportionally with ECE and the number of discrete bins used to calculate ECE. We perform experiments on multiple datasets, including ImageNet, and show that the proposed approach generally outperforms state-of-the-art calibration algorithms across multiple datasets and models - providing nearly an order or magnitude improvement in ECE on ImageNet. In addition, Hoki is fast algorithm which is comparable to temperature scaling in terms of learning time.
翻訳日:2021-02-26 13:48:19 公開日:2021-02-25
# 拡散地球モーバーの距離と分布埋め込み

Diffusion Earth Mover's Distance and Distribution Embeddings ( http://arxiv.org/abs/2102.12833v1 )

ライセンス: Link先を確認
Alexander Tong, Guillaume Huguet, Amine Natik, Kincaid MacDonald, Manik Kuchroo, Ronald Coifman, Guy Wolf, Smita Krishnaswamy(参考訳) 本研究では,DEMD(Diffusion Earth Mover's Distance)と呼ばれる,多数の高次元データセット間の距離を高速に測定する手法を提案する。 複合データ上に計算された親和性行列から派生した共通データグラフ上の分布としてデータセットをモデル化する。 グラフがリーマン閉多様体の離散化であるような場合、拡散 EMD は測地線接地距離を持つ標準 EMD と位相的に同値であることを示す。 Diffusion EMDは$\tilde{O}(n)$ timeで計算でき、木ベースのEMDのような同様の高速アルゴリズムよりも正確である。 また,拡散emdは完全に微分可能であり,深層ニューラルネットワークなどの勾配ディッショニングフレームワークの将来の利用に適していることを示した。 最後に、Yale New Haven Hospitalの210 COVID-19患者サンプルから収集された単一細胞データに対する拡散EMDの適用を実証する。 ここで、拡散emdは、細胞多様体上の患者間の距離を、等しく正確な方法よりも少なくとも2桁早く導出することができる。 この患者間の距離行列は、患者の構造や多様性を明らかにする高レベルな患者多様体に埋め込まれる。 より一般的には、Diffusion EMDは、多くの医療や生物学的システムで並列に収集される全てのデータセットに適用できる。

We propose a new fast method of measuring distances between large numbers of related high dimensional datasets called the Diffusion Earth Mover's Distance (EMD). We model the datasets as distributions supported on common data graph that is derived from the affinity matrix computed on the combined data. In such cases where the graph is a discretization of an underlying Riemannian closed manifold, we prove that Diffusion EMD is topologically equivalent to the standard EMD with a geodesic ground distance. Diffusion EMD can be computed in $\tilde{O}(n)$ time and is more accurate than similarly fast algorithms such as tree-based EMDs. We also show Diffusion EMD is fully differentiable, making it amenable to future uses in gradient-descent frameworks such as deep neural networks. Finally, we demonstrate an application of Diffusion EMD to single cell data collected from 210 COVID-19 patient samples at Yale New Haven Hospital. Here, Diffusion EMD can derive distances between patients on the manifold of cells at least two orders of magnitude faster than equally accurate methods. This distance matrix between patients can be embedded into a higher level patient manifold which uncovers structure and heterogeneity in patients. More generally, Diffusion EMD is applicable to all datasets that are massively collected in parallel in many medical and biological systems.
翻訳日:2021-02-26 13:47:57 公開日:2021-02-25
# SparseBERT: 自己意識における重要度分析の再考

SparseBERT: Rethinking the Importance Analysis in Self-attention ( http://arxiv.org/abs/2102.12871v1 )

ライセンス: Link先を確認
Han Shi, Jiahui Gao, Xiaozhe Ren, Hang Xu, Xiaodan Liang, Zhenguo Li, James T. Kwok(参考訳) トランスフォーマーベースのモデルは、その強力な能力のために自然言語処理(NLP)タスクに人気がある。 コアコンポーネントであるセルフアテンションモジュールは、広く関心を集めている。 事前学習モデルの注意マップの可視化は,自己着脱機構を理解するための直接的な方法の一つであり,可視化に共通するパターンがいくつか見られる。 これらのパターンに基づき、対応するスパースアテンションマスクを用いた一連の効率的なトランスフォーマーが提案されている。 上記の実証結果に加えて、トランスフォーマーに基づくモデルの普遍的近似性も理論的観点から発見されている。 しかし、上記の自己意識の理解と分析は、事前学習されたモデルに基づいている。 自己注意における重要度分析を再考するために,事前学習中の注意行列の重要性のダイナミクスを考察する。 驚くべき結果の1つは,注意マップの対角要素が他の注意位置と比較して最も重要でないことであり,モデル性能を損なうことなくこれらの要素を除去できることを示す証拠を提供する。 さらに,sparsebert設計の指導にも適用可能な微分可能アテンションマスク(dam)アルゴリズムを提案する。 広範な実験は、我々の興味深い発見を検証し、提案されたアルゴリズムの効果を示す。

Transformer-based models are popular for natural language processing (NLP) tasks due to its powerful capacity. As the core component, self-attention module has aroused widespread interests. Attention map visualization of a pre-trained model is one direct method for understanding self-attention mechanism and some common patterns are observed in visualization. Based on these patterns, a series of efficient transformers are proposed with corresponding sparse attention masks. Besides above empirical results, universal approximability of Transformer-based models is also discovered from a theoretical perspective. However, above understanding and analysis of self-attention is based on a pre-trained model. To rethink the importance analysis in self-attention, we delve into dynamics of attention matrix importance during pre-training. One of surprising results is that the diagonal elements in the attention map are the most unimportant compared with other attention positions and we also provide a proof to show these elements can be removed without damaging the model performance. Furthermore, we propose a Differentiable Attention Mask (DAM) algorithm, which can be also applied in guidance of SparseBERT design further. The extensive experiments verify our interesting findings and illustrate the effect of our proposed algorithm.
翻訳日:2021-02-26 13:47:37 公開日:2021-02-25
# データ効率のよいディープラーニングのためのセルフチューニング

Self-Tuning for Data-Efficient Deep Learning ( http://arxiv.org/abs/2102.12903v1 )

ライセンス: Link先を確認
Ximei Wang, Jinghan Gao, Jianmin Wang, Mingsheng Long(参考訳) ディープラーニングは、大規模ラベル付きデータセットの存在下で、多様なアプリケーションに革命的な進歩をもたらした。 しかし、最も現実的なシナリオで十分なラベル付きデータを集めることは、時間的にコストがかかり、労力がかかる。 ラベル付きデータの要件を軽減するために、半教師付き学習(SSL)はラベル付きデータとラベルなしデータの両方を同時に探索することに焦点を当て、転送学習(TL)は、事前に訓練されたモデルをターゲットデータに微調整する好適なプラクティスを一般化します。 このようにジレンマが発生する: 暗黙の正規化を提供する適切な事前学習モデルがないと、スクラッチからの自己訓練によるsslは、特に大きなラベル空間において、不正確な擬似ラベルによって容易に誤解される。 このジレンマから逃れるために,ラベル付きおよびラベル付きデータの探索と事前学習モデルの転送を統一し,データ効率のよいディープラーニングを実現するための新しい手法であるセルフチューニングを提案する。 さらに, Pseudo Group Contrast (PGC) 機構は, 自己学習における確認バイアスの課題に対処するため, 擬似ラベルへの依存を緩和し, 偽ラベルへの耐性を高めるために考案された。 Self-TuningはSSLとTLを5つのタスク、例えばシャープマージンで上回っている。 15%のラベルを持つ車の微調整の精度を2倍にする。

Deep learning has made revolutionary advances to diverse applications in the presence of large-scale labeled datasets. However, it is prohibitively time-costly and labor-expensive to collect sufficient labeled data in most realistic scenarios. To mitigate the requirement for labeled data, semi-supervised learning (SSL) focuses on simultaneously exploring both labeled and unlabeled data, while transfer learning (TL) popularizes a favorable practice of fine-tuning a pre-trained model to the target data. A dilemma is thus encountered: Without a decent pre-trained model to provide an implicit regularization, SSL through self-training from scratch will be easily misled by inaccurate pseudo-labels, especially in large-sized label space; Without exploring the intrinsic structure of unlabeled data, TL through fine-tuning from limited labeled data is at risk of under-transfer caused by model shift. To escape from this dilemma, we present Self-Tuning, a novel approach to enable data-efficient deep learning by unifying the exploration of labeled and unlabeled data and the transfer of a pre-trained model. Further, to address the challenge of confirmation bias in self-training, a Pseudo Group Contrast (PGC) mechanism is devised to mitigate the reliance on pseudo-labels and boost the tolerance to false-labels. Self-Tuning outperforms its SSL and TL counterparts on five tasks by sharp margins, e.g. it doubles the accuracy of fine-tuning on Cars with 15% labels.
翻訳日:2021-02-26 13:47:21 公開日:2021-02-25
# t-SNE, 強制色および平均場限界

t-SNE, Forceful Colorings and Mean Field Limits ( http://arxiv.org/abs/2102.13009v1 )

ライセンス: Link先を確認
Yulan Zhang, Stefan Steinerberger(参考訳) t-sneは最も一般的に用いられる力に基づく非線形次元減少法の一つである。 この論文には2つの貢献がある: 1つは強制色付けであり、これは他の力に基づく方法(UMAP, ForceAtlas2, ...)にも適用できる。 しかし、粒子に作用する魅力的な(または反発的な)力の大きさと方向の両方は、その性質に関連している:力ベクトルは付加的な特徴として機能することができる。 次に, t-sne が単一等質クラスター上で作用する場合(ランダムk-正則グラフの隣接行列から生じる親和性によってモデル化される)を解析し, 古典的変分解析において興味深い問題をもたらす平均場モデルを求める。 このモデルは、1つの完全均質なクラスターのt-SNE埋め込みが点ではなく、直径 $\sim k^{-1/4} n^{-1/4}$ の薄い公理であると予測する。 これは数値の結果によって支えられます。 平均場 ansatz は他の力に基づく次元還元法にも拡張される。

t-SNE is one of the most commonly used force-based nonlinear dimensionality reduction methods. This paper has two contributions: the first is forceful colorings, an idea that is also applicable to other force-based methods (UMAP, ForceAtlas2,...). In every equilibrium, the attractive and repulsive forces acting on a particle cancel out: however, both the size and the direction of the attractive (or repulsive) forces acting on a particle are related to its properties: the force vector can serve as an additional feature. Secondly, we analyze the case of t-SNE acting on a single homogeneous cluster (modeled by affinities coming from the adjacency matrix of a random k-regular graph); we derive a mean-field model that leads to interesting questions in classical calculus of variations. The model predicts that, in the limit, the t-SNE embedding of a single perfectly homogeneous cluster is not a point but a thin annulus of diameter $\sim k^{-1/4} n^{-1/4}$. This is supported by numerical results. The mean field ansatz extends to other force-based dimensionality reduction methods.
翻訳日:2021-02-26 13:46:00 公開日:2021-02-25
# 脅威防御のためのブロックチェーンフェデレーション学習

Blockchained Federated Learning for Threat Defense ( http://arxiv.org/abs/2102.12746v1 )

ライセンス: Link先を確認
Konstantinos Demertzis(参考訳) スマートシティにおける脅威の複雑さ、環境の変化、およびゼロデイ攻撃などの深刻な脅威を検出できない従来のセキュリティシステムの弱さを考えると、代替のよりアクティブで効果的なセキュリティ方法の必要性はますます高まっています。 このようなアプローチは、問題となるインフラストラクチャの条件や運用パラメータの下での脅威や異常を防止、検出、対処するためのインテリジェントなソリューションの採用である。 本研究では、スマートシティネットワークにおける高度な適応協調学習(AACL)メカニズムの実装を目指し、受動型インテリジェントシステムの運用方法を完全に改善することを目的としたブロックチェーンフェデレーテッドラーニングを用いたインテリジェント脅威防御システムの開発について紹介する。 AACLは、参加者や利害関係者のプライバシーと匿名性を確保しながら、最も先進的な計算知能の手法に基づいている。 提案するフレームワークは,分散型かつ継続的なトレースアルゴリズムの学習にフェデレート学習を併用する。 学習は、プロセスの明確な検証と制御のために、ブロックチェーンテクノロジ内のスマートコントラクトを暗号化することで実現される。 提案されたフレームワークの目的は、Advanced Persistent Threat(APT)攻撃による異常を特定するために、産業用IoT(IIoT)から派生したスマートシティネットワークトラフィックをディープコンテンツインスペクション(DCI)メソッドでインテリジェントに分類することである。

Given the increasing complexity of threats in smart cities, the changing environment, and the weakness of traditional security systems, which in most cases fail to detect serious threats such as zero-day attacks, the need for alternative more active and more effective security methods keeps increasing. Such approaches are the adoption of intelligent solutions to prevent, detect and deal with threats or anomalies under the conditions and the operating parameters of the infrastructure in question. This research paper introduces the development of an intelligent Threat Defense system, employing Blockchain Federated Learning, which seeks to fully upgrade the way passive intelligent systems operate, aiming at implementing an Advanced Adaptive Cooperative Learning (AACL) mechanism for smart cities networks. The AACL is based on the most advanced methods of computational intelligence while ensuring privacy and anonymity for participants and stakeholders. The proposed framework combines Federated Learning for the distributed and continuously validated learning of the tracing algorithms. Learning is achieved through encrypted smart contracts within the blockchain technology, for unambiguous validation and control of the process. The aim of the proposed Framework is to intelligently classify smart cities networks traffic derived from Industrial IoT (IIoT) by Deep Content Inspection (DCI) methods, in order to identify anomalies that are usually due to Advanced Persistent Threat (APT) attacks.
翻訳日:2021-02-26 13:45:39 公開日:2021-02-25
# 到達・把持ロボットのための非侵襲的認知レベルヒューマンインタフェース

Non-invasive Cognitive-level Human Interfacing for the Robotic Restoration of Reaching & Grasping ( http://arxiv.org/abs/2102.12980v1 )

ライセンス: Link先を確認
Ali Shafti and A. Aldo Faisal(参考訳) Assistive and Wearable Roboticsは、さまざまなタイプの運動障害を持つ人間を支援して、自立し、日々の生活を成功させる可能性がある。 しかし、これらのロボットシステムの成功は、人間の行動意図を有意義に解読し、適切に実行する能力に依存している。 神経インターフェイスは、いくつかの成功例があるシステムでの使用のために研究されてきたが、侵襲的で、数ヶ月単位でトレーニング期間を必要とする傾向がある。 本研究では, 人の手と指を操作し, 物体に到達し, つかみ, 操作し, ユーザーの眼球運動のみで制御することのできる, 人間の増強のためのロボットシステムを提案する。 我々は,ウェアラブルアイトラッキング,環境の視覚的コンテキスト,人間の行動の構造的文法を組み合わせることで,対話性を維持しつつ,日常生活の活動を達成できる認知レベル支援ロボット装置と,ユーザエージェントとを組み合わせる。 インターフェースは摩耗し、校正され、5分以内に使用できます。 ユーザーは、追加の5分間のインタラクションでシステムを制御し、うまく利用することを学びます。 システムは5人の健康な参加者でテストされ、最初の6つのタスクでの平均成功率は96.6\%である。

Assistive and Wearable Robotics have the potential to support humans with different types of motor impairments to become independent and fulfil their activities of daily living successfully. The success of these robot systems, however, relies on the ability to meaningfully decode human action intentions and carry them out appropriately. Neural interfaces have been explored for use in such system with several successes, however, they tend to be invasive and require training periods in the order of months. We present a robotic system for human augmentation, capable of actuating the user's arm and fingers for them, effectively restoring the capability of reaching, grasping and manipulating objects; controlled solely through the user's eye movements. We combine wearable eye tracking, the visual context of the environment and the structural grammar of human actions to create a cognitive-level assistive robotic setup that enables the users in fulfilling activities of daily living, while conserving interpretability, and the agency of the user. The interface is worn, calibrated and ready to use within 5 minutes. Users learn to control and make successful use of the system with an additional 5 minutes of interaction. The system is tested with 5 healthy participants, showing an average success rate of $96.6\%$ on first attempt across 6 tasks.
翻訳日:2021-02-26 13:45:16 公開日:2021-02-25
# MixSpeech: 低リソース自動音声認識のためのデータ拡張

MixSpeech: Data Augmentation for Low-resource Automatic Speech Recognition ( http://arxiv.org/abs/2102.12664v1 )

ライセンス: Link先を確認
Linghui Meng, Jin Xu, Xu Tan, Jindong Wang, Tao Qin, Bo Xu(参考訳) 本稿では,自動音声認識(asr)のためのミックスアップに基づく簡易かつ効果的なデータ拡張手法であるmixspeechを提案する。 MixSpeechは、2つの異なる音声特徴(例えば、メル・スペクトログラムまたはMFCC)を入力として重み付き組み合わせ、および2つの認識損失が同じ重みを使用する両方のテキストシーケンスを認識することによってASRモデルを訓練する。 MixSpeechをLAS(Listen、Attend、Spell)とTransformerを含む2つの一般的なエンドツーエンド音声認識モデルに適用し、TIMIT、WSJ、HKUSTを含むいくつかの低リソースデータセットの実験を行います。 実験の結果,MixSpeechはデータ拡張のないベースラインモデルよりも精度が高く,これらの認識タスクにおいて強力なデータ拡張手法であるSpecAugmentよりも優れていた。 具体的には、MixSpeechは、TIMITデータセットの相対的なPER改善10.6$\%$でSpecAugmentを上回り、WSJデータセットの4.7$\%$の強力なWERを達成する。

In this paper, we propose MixSpeech, a simple yet effective data augmentation method based on mixup for automatic speech recognition (ASR). MixSpeech trains an ASR model by taking a weighted combination of two different speech features (e.g., mel-spectrograms or MFCC) as the input, and recognizing both text sequences, where the two recognition losses use the same combination weight. We apply MixSpeech on two popular end-to-end speech recognition models including LAS (Listen, Attend and Spell) and Transformer, and conduct experiments on several low-resource datasets including TIMIT, WSJ, and HKUST. Experimental results show that MixSpeech achieves better accuracy than the baseline models without data augmentation, and outperforms a strong data augmentation method SpecAugment on these recognition tasks. Specifically, MixSpeech outperforms SpecAugment with a relative PER improvement of 10.6$\%$ on TIMIT dataset, and achieves a strong WER of 4.7$\%$ on WSJ dataset.
翻訳日:2021-02-26 13:44:50 公開日:2021-02-25
# FAITH:イベントベース光流を用いた拡張推定の高速反復半平面焦点

FAITH: Fast iterative half-plane focus of expansion estimation using event-based optic flow ( http://arxiv.org/abs/2102.12823v1 )

ライセンス: Link先を確認
Raoul Dinaux, Nikhil Wessendorp, Julien Dupeyroux, Guido de Croon(参考訳) コース推定はロボットの自律ナビゲーションシステムの開発において重要な要素である。 state-of-the-artメソッドはビジュアルベースのアルゴリズムを広く使っているが、計算上欲深く、時には遅すぎることで現実世界の複雑さに対処できない点に注意が必要だ。 それらは、特に光学フロー(OF)がほぼゼロである拡張(FOE)の焦点内にあるとき、全体的な性能を改善するために、高いテクスチャ化を必要とすることが多い。 本研究では, 小型航空機 (MAV) の走行経路を決定するためのFAst ITerative Half-plane (FAITH) 法を提案する。 これは、イベントベースのカメラと、イベントベースの OF を使用して FOE を決定する RANSAC ベースの高速アルゴリズムによって達成されます。 シミュレーション環境でのベンチマークによって性能を検証し、室内障害物回避のために収集されたデータセット上でテストする。 提案手法の計算効率は,高い精度を維持しつつ,最先端の手法よりも優れていた。 これは、イベントベースのカメラを備えたMAV上でさらに実証され、私たちのイベントベースのFOE推定が、オンラインの小型ドローン上で達成できることを示し、MAV上での自律的障害物回避とナビゲーションのための完全なニューロモルフィックソリューションへの道を開いた。

Course estimation is a key component for the development of autonomous navigation systems for robots. While state-of-the-art methods widely use visual-based algorithms, it is worth noting that they all fail to deal with the complexity of the real world by being computationally greedy and sometimes too slow. They often require obstacles to be highly textured to improve the overall performance, particularly when the obstacle is located within the focus of expansion (FOE) where the optic flow (OF) is almost null. This study proposes the FAst ITerative Half-plane (FAITH) method to determine the course of a micro air vehicle (MAV). This is achieved by means of an event-based camera, along with a fast RANSAC-based algorithm that uses event-based OF to determine the FOE. The performance is validated by means of a benchmark on a simulated environment and then tested on a dataset collected for indoor obstacle avoidance. Our results show that the computational efficiency of our solution outperforms state-of-the-art methods while keeping a high level of accuracy. This has been further demonstrated onboard an MAV equipped with an event-based camera, showing that our event-based FOE estimation can be achieved online onboard tiny drones, thus opening the path towards fully neuromorphic solutions for autonomous obstacle avoidance and navigation onboard MAVs.
翻訳日:2021-02-26 13:44:02 公開日:2021-02-25
# ShuffleUNet:深層学習を用いた拡散強調MRIの超解像

ShuffleUNet: Super resolution of diffusion-weighted MRIs using deep learning ( http://arxiv.org/abs/2102.12898v1 )

ライセンス: Link先を確認
Soumick Chatterjee, Alessandro Sciarra, Max D\"unnwald, Raghava Vinaykanth Mushunuri, Ranadheer Podishetti, Rajatha Nagaraja Rao, Geetha Doddapaneni Gopinath, Steffen Oeltze-Jafra, Oliver Speck and Andreas N\"urnberger(参考訳) 拡散強調磁気共鳴イメージング(DW-MRI)は、例えば神経組織の微細構造を特徴付けるのに用いることができる。 繊維追跡により非侵襲的に脳白質結合を脱線させる。 高空間分解能の磁気共鳴イメージング(MRI)は、そのような繊維を優れた方法で可視化する上で重要な役割を担っている。 しかし、そのような解像度の画像を得るには、スキャン時間が長くなる。 より長いスキャン時間は、患者の心理的および身体的状態のために、運動アーチファクトの増加と関連付けられる。 深層学習で実現した1つの低解像度(LR)入力画像から高分解能(HR)の詳細を得る技術であるSingle Image Super-Resolution (SISR)が本研究の焦点である。 補間技術やスパース符号化アルゴリズムと比較して、ディープラーニングは大きなデータセットから事前知識を抽出し、低解像度のデータセットから優れたMRI画像を生成する。 本研究では,深層学習に基づく超解像法を提案し,DW-MRIに応用した。 IXIデータセットの画像は地上構造として使われ、低解像度の画像のシミュレートのために人工的にダウンサンプリングされた。 提案手法は, ベースラインに対して統計的に有意な改善を示し, 0.913\pm0.045$のSSIMを達成した。

Diffusion-weighted magnetic resonance imaging (DW-MRI) can be used to characterise the microstructure of the nervous tissue, e.g. to delineate brain white matter connections in a non-invasive manner via fibre tracking. Magnetic Resonance Imaging (MRI) in high spatial resolution would play an important role in visualising such fibre tracts in a superior manner. However, obtaining an image of such resolution comes at the expense of longer scan time. Longer scan time can be associated with the increase of motion artefacts, due to the patient's psychological and physical conditions. Single Image Super-Resolution (SISR), a technique aimed to obtain high-resolution (HR) details from one single low-resolution (LR) input image, achieved with Deep Learning, is the focus of this study. Compared to interpolation techniques or sparse-coding algorithms, deep learning extracts prior knowledge from big datasets and produces superior MRI images from the low-resolution counterparts. In this research, a deep learning based super-resolution technique is proposed and has been applied for DW-MRI. Images from the IXI dataset have been used as the ground-truth and were artificially downsampled to simulate the low-resolution images. The proposed method has shown statistically significant improvement over the baselines and achieved an SSIM of $0.913\pm0.045$.
翻訳日:2021-02-26 13:43:39 公開日:2021-02-25
# てんかん発作予測のための新しいニューロモルフィック計算手法

A New Neuromorphic Computing Approach for Epileptic Seizure Prediction ( http://arxiv.org/abs/2102.12773v1 )

ライセンス: Link先を確認
Fengshi Tian, Jie Yang, Shiqi Zhao, Mohamad Sawan(参考訳) 畳み込みニューラルネットワーク(CNN)を用いた高い特異性と感度の発作予測手法が報告されている。 しかし、CNNは計算的に高価で電力が空腹です。 これらの不便さは、ウェアラブルデバイスにCNNベースのメソッドを実装するのを難しくする。 エネルギー効率のよいスパイクニューラルネットワーク(SNN)によって動機づけられた、発作予測のためのニューロモルフィックコンピューティングアプローチが本研究で提案されている。 このアプローチでは、脳波サンプルからスパイクシーケンスを生成し、cnnとsnsの利点を組み合わせたスパイク畳み込みニューラルネットワーク(spiking-cnn)で予測するために、ガウス型ランダム離散エンコーダが使用される。 実験結果から,spiking-cnnはハードウェアフレンドリーで精度の高いspiking-cnnに対し,感度,特異性,aucはそれぞれ95.1%,99.2%,0.912であり,計算複雑性は98.58%削減できることがわかった。

Several high specificity and sensitivity seizure prediction methods with convolutional neural networks (CNNs) are reported. However, CNNs are computationally expensive and power hungry. These inconveniences make CNN-based methods hard to be implemented on wearable devices. Motivated by the energy-efficient spiking neural networks (SNNs), a neuromorphic computing approach for seizure prediction is proposed in this work. This approach uses a designed gaussian random discrete encoder to generate spike sequences from the EEG samples and make predictions in a spiking convolutional neural network (Spiking-CNN) which combines the advantages of CNNs and SNNs. The experimental results show that the sensitivity, specificity and AUC can remain 95.1%, 99.2% and 0.912 respectively while the computation complexity is reduced by 98.58% compared to CNN, indicating that the proposed Spiking-CNN is hardware friendly and of high precision.
翻訳日:2021-02-26 13:43:15 公開日:2021-02-25
# AutoPreview: オートパイロット行動理解のためのフレームワーク

AutoPreview: A Framework for Autopilot Behavior Understanding ( http://arxiv.org/abs/2102.13034v1 )

ライセンス: Link先を確認
Yuan Shen, Niviru Wijayaratne, Peter Du, Shanduojiao Jiang, Katherine Driggs Campbell(参考訳) 自動運転車の挙動は、人々の期待と異なる場合がある(例)。 オートパイロットは予期しないほど制御を放棄する)。 この期待ミスマッチは、潜在的なユーザーや既存ユーザーが自動運転技術を信頼せず、事故の可能性を高める可能性がある。 デプロイ前に実世界の運転コンテキストでターゲットのオートパイロットの潜在的なアクションをプレビューできるように、シンプルで効果的なフレームワークであるAutoPreviewを提案します。 対象のオートパイロットに対して、我々は目的のオートパイロット動作を説明可能なアクション表現で再現するデリゲートポリシーを設計し、比較のためにオンラインでクエリし、正確なメンタルモデルを構築する。 その実用性を示すために,CARLAシミュレータと統合されたAutoPreviewのプロトタイプと,フレームワークの潜在的な2つのユースケースを提案する。 AutoPreviewが新しいオートパイロットポリシーを初めて体験する際にオートパイロットの行動をより深く理解するかどうかをパイロットスタディで調査します。 その結果,AutoPreview法は,運転スタイルの理解,デプロイメントの好み,正確な動作タイミング予測などの観点から,自動操縦動作の理解を支援することが示唆された。

The behavior of self driving cars may differ from people expectations, (e.g. an autopilot may unexpectedly relinquish control). This expectation mismatch can cause potential and existing users to distrust self driving technology and can increase the likelihood of accidents. We propose a simple but effective framework, AutoPreview, to enable consumers to preview a target autopilot potential actions in the real world driving context before deployment. For a given target autopilot, we design a delegate policy that replicates the target autopilot behavior with explainable action representations, which can then be queried online for comparison and to build an accurate mental model. To demonstrate its practicality, we present a prototype of AutoPreview integrated with the CARLA simulator along with two potential use cases of the framework. We conduct a pilot study to investigate whether or not AutoPreview provides deeper understanding about autopilot behavior when experiencing a new autopilot policy for the first time. Our results suggest that the AutoPreview method helps users understand autopilot behavior in terms of driving style comprehension, deployment preference, and exact action timing prediction.
翻訳日:2021-02-26 13:42:58 公開日:2021-02-25
# Spanning Tree Constrained Determinantal Point Processs is hard to a approximately (Avaluate)

Spanning Tree Constrained Determinantal Point Processes are Hard to (Approximately) Evaluate ( http://arxiv.org/abs/2102.12646v1 )

ライセンス: Link先を確認
Tatsuya Matsuoka and Naoto Ohsaka(参考訳) 決定点過程 (DPPs) は, 木を分散させることによって制約される。 グラフ $G=(V,E)$ と正半定値行列 $\mathbf{A}$ が$E$ でインデックスされたとき、スパンニングツリー DPP は、$S\subseteq E$ が $\det(\mathbf{A}_S)$ に比例する確率を持つような分布を定義する。 我々はspanning-tree dppsの正規化定数を計算するための$\sharp\textsf{p}$-hardnessを証明し、fprasが知られていない混合判別式からの近似保存還元を提供する。 森林に制約されたDPPについても同様の結果を示した。

We consider determinantal point processes (DPPs) constrained by spanning trees. Given a graph $G=(V,E)$ and a positive semi-definite matrix $\mathbf{A}$ indexed by $E$, a spanning-tree DPP defines a distribution such that we draw $S\subseteq E$ with probability proportional to $\det(\mathbf{A}_S)$ only if $S$ induces a spanning tree. We prove $\sharp\textsf{P}$-hardness of computing the normalizing constant for spanning-tree DPPs and provide an approximation-preser ving reduction from the mixed discriminant, for which FPRAS is not known. We show similar results for DPPs constrained by forests.
翻訳日:2021-02-26 13:41:40 公開日:2021-02-25
# 深部確率的ボラティリティモデル

Deep Stochastic Volatility Model ( http://arxiv.org/abs/2102.12658v1 )

ライセンス: Link先を確認
Xiuqin Xu, Ying Chen(参考訳) 資産リターンのボラティリティは、金融市場のリスクを測定するのに使用できる。 本論文では, 深い潜在変数モデルの枠組みに基づくDSVM(Deep stochastic volatility Model)を提案する。 フレキシブルなディープラーニングモデルを使用して、過去のリターン、過去のボラティリティ、確率的ノイズに対する将来のボラティリティの依存性を自動的に検出し、手動で機能を選択することなく柔軟なボラティリティモデルを提供する。 変動推論に基づくスケーラブルな推論と学習アルゴリズムを開発しています。 実データ分析では、DSVMはいくつかの一般的な代替ボラティリティモデルよりも優れています。 加えて、dsvmの予測されるボラティリティは、金融市場のリスクをよりよく反映し、市場がよりリスクが高くなり、市場がより安定している場合にはより高いレベルに到達し、米国株式市場に巨大なデータが設定された一般的なgarch型モデルと比較して、より信頼性の高いリスク尺度を提供する。

Volatility for financial assets returns can be used to gauge the risk for financial market. We propose a deep stochastic volatility model (DSVM) based on the framework of deep latent variable models. It uses flexible deep learning models to automatically detect the dependence of the future volatility on past returns, past volatilities and the stochastic noise, and thus provides a flexible volatility model without the need to manually select features. We develop a scalable inference and learning algorithm based on variational inference. In real data analysis, the DSVM outperforms several popular alternative volatility models. In addition, the predicted volatility of the DSVM provides a more reliable risk measure that can better reflex the risk in the financial market, reaching more quickly to a higher level when the market becomes more risky and to a lower level when the market is more stable, compared with the commonly used GARCH type model with a huge data set on the U.S. stock market.
翻訳日:2021-02-26 13:41:19 公開日:2021-02-25
# TELESTO:クラウドサービスにおける異常分類のためのグラフニューラルネットワークモデル

TELESTO: A Graph Neural Network Model for Anomaly Classification in Cloud Services ( http://arxiv.org/abs/2102.12877v1 )

ライセンス: Link先を確認
Dominik Scheinert, Alexander Acker(参考訳) 大規模なITシステムの展開、運用、メンテナンスはますます複雑になり、問題が発生した場合、専門家は極端なストレスにさらされる。 したがって、機械学習(ML)と人工知能(AI)の活用は、ITシステムの運用とAIOpsという用語で要約されたメンテナンスに適用されます。 特定の方向は、修復自動化を可能にするために、繰り返し発生する異常タイプの認識を目指しています。 しかし、ITシステム固有の特性、特に頻繁な変化のために(例えば)。 ソフトウェアのアップデート、再構成、ハードウェアの近代化、繰り返し発生する異常型認識は困難である。 現在の方法は、主に与えられたデータの静的次元を仮定する。 与えられたデータの次元変化に不変な手法を提案する。 CPU利用、メモリ割り当てなどのリソースメトリックデータは、多変量時系列としてモデル化されます。 新たなグラフ畳み込みニューラルネットワーク(GCNN)アーキテクチャであるTELESTOを用いて,時間的・空間的特徴抽出とその後の異常分類を実現する。 実験的な評価は、2つのアプリケーションをホストしている実世界のクラウドテストベッドデプロイメントで行われる。 カサンドラデータベースノードに注入された異常の分類結果は、TELESTOが代替GCNNを上回り、85.1%の全体的な分類精度を達成することを示している。 他のノードの分類結果は、85%から60%の精度を示す。

Deployment, operation and maintenance of large IT systems becomes increasingly complex and puts human experts under extreme stress when problems occur. Therefore, utilization of machine learning (ML) and artificial intelligence (AI) is applied on IT system operation and maintenance - summarized in the term AIOps. One specific direction aims at the recognition of re-occurring anomaly types to enable remediation automation. However, due to IT system specific properties, especially their frequent changes (e.g. software updates, reconfiguration or hardware modernization), recognition of reoccurring anomaly types is challenging. Current methods mainly assume a static dimensionality of provided data. We propose a method that is invariant to dimensionality changes of given data. Resource metric data such as CPU utilization, allocated memory and others are modelled as multivariate time series. The extraction of temporal and spatial features together with the subsequent anomaly classification is realized by utilizing TELESTO, our novel graph convolutional neural network (GCNN) architecture. The experimental evaluation is conducted in a real-world cloud testbed deployment that is hosting two applications. Classification results of injected anomalies on a cassandra database node show that TELESTO outperforms the alternative GCNNs and achieves an overall classification accuracy of 85.1%. Classification results for the other nodes show accuracy values between 85% and 60%.
翻訳日:2021-02-26 13:41:02 公開日:2021-02-25
# 不特定ロボットモデルを用いたCRiSP逆キネマティクス学習の構造予測

Structured Prediction for CRiSP Inverse Kinematics Learning with Misspecified Robot Models ( http://arxiv.org/abs/2102.12942v1 )

ライセンス: Link先を確認
Gian Maria Marconi, Rafaello Camoriano, Lorenzo Rosasco and Carlo Ciliberto(参考訳) 機械学習の最近の進歩により、従来は正確なモデリングを分析的に解決する必要のある問題は、データ駆動戦略でうまくアプローチできる。 これらのうち、冗長なロボットアームの逆キネマティクスを計算することは、ロボットの非線形構造、硬い関節制約、非可逆キネマティクスマップのために大きな課題となる。 さらに、ほとんどの学習アルゴリズムは完全にデータ駆動のアプローチを検討する一方で、ロボットの構造に関する有用な情報が利用可能であり、積極的に利用されるべきである。 本研究では,逆運動学を学習する上で,単純かつ効果的な手法を提案する。 本研究では、データ駆動戦略とフォワードキネマティクス関数によって提供されるモデルを組み合わせた構造化予測アルゴリズムを導入し、この問題を的確に解決する。 提案手法により、予測された関節構成がロボットの制約内に適切に収まることが保証される。 また,推定器の一般化特性に関する統計的保証や,軌道再構成作業における性能の実証的評価も提供する。

With the recent advances in machine learning, problems that traditionally would require accurate modeling to be solved analytically can now be successfully approached with data-driven strategies. Among these, computing the inverse kinematics of a redundant robot arm poses a significant challenge due to the non-linear structure of the robot, the hard joint constraints and the non-invertible kinematics map. Moreover, most learning algorithms consider a completely data-driven approach, while often useful information on the structure of the robot is available and should be positively exploited. In this work, we present a simple, yet effective, approach for learning the inverse kinematics. We introduce a structured prediction algorithm that combines a data-driven strategy with the model provided by a forward kinematics function -- even when this function is misspeficied -- to accurately solve the problem. The proposed approach ensures that predicted joint configurations are well within the robot's constraints. We also provide statistical guarantees on the generalization properties of our estimator as well as an empirical evaluation of its performance on trajectory reconstruction tasks.
翻訳日:2021-02-26 13:40:43 公開日:2021-02-25
# 物理情報オートエンコーダによって定義されるサーロゲートモデルを用いたマルチファイデリティエンサンブルカルマンフィルタ

Multifidelity Ensemble Kalman Filtering using surrogate models defined by Physics-Informed Autoencoders ( http://arxiv.org/abs/2102.13025v1 )

ライセンス: Link先を確認
Andrey A Popov, Adrian Sandu(参考訳) マルチファイデリティアンサンブルKalmanフィルタは、連続データ同化におけるベイズ推論のための最適統計フレームワークにおいて、完全順序モデルと縮小順序サーロゲートモデルの階層を組み合わせることを目的とする。 本研究では,多値アンサンブルカルマンフィルタをモデル間の非線形結合を扱うように拡張する。 オートエンコーダを用いることで、最適射影および補間演算子を訓練し、従来の線形法よりも誤差の少ない順序代理モデルを得ることができる。 このようなサロゲートがマルチ忠実フィルタリングの文脈で実際に優れていることを示す標準Lorenz '96モデルについて述べる。

The multifidelity ensemble Kalman filter aims to combine a full-order model and a hierarchy of reduced order surrogate model in an optimal statistical framework for Bayesian inference in sequential data assimilation. In this work we extend the multifidelity ensemble Kalman filter to work with non-linear couplings between the models. Using autoencoders it is possible to train optimal projection and interpolation operators, and to obtain reduced order surrogate models with less error than conventional linear methods. We show on the canonical Lorenz '96 model that such a surrogate does indeed perform better in the context of multifidelity filtering.
翻訳日:2021-02-26 13:40:07 公開日:2021-02-25
# SPINN: Sparse, Physics-based, and Interpretable Neural Networks for PDEs

SPINN: Sparse, Physics-based, and Interpretable Neural Networks for PDEs ( http://arxiv.org/abs/2102.13037v1 )

ライセンス: Link先を確認
Amuthan A. Ramabathiran and Prabhu Ramachandran(参考訳) Sparse, Physics-based, and Interpretable Neural Networks (SPINN) のクラスを導入し,一般微分方程式と部分微分方程式を解く。 従来のPDEのソリューションのメッシュレス表現を特別なスパースディープニューラルネットワークとして再解釈することにより、解釈可能なスパースニューラルネットワークアーキテクチャのクラスを開発する。 ここで提案するSPINNモデルは、PDEのための2つの極端なモデリングツール、高密度ニューラルネットワークベースの方法、従来のメッシュベースおよびメッシュフリーの数値手法のシームレスな橋渡しとなり、これらの両方の視点を最大限に活用した新しいタイプのハイブリッドアルゴリズムを開発する新しい手段を提供します。 先述した他のニューラルネットワークの近似と区別するspinnモデルのユニークな特徴は、同じ大きさの高密度ニューラルネットワークよりも接続がはるかに少ないという意味で、本手法は完全に解釈可能かつスパースである点である。 さらに,フーリエ級数表現をスピンの特殊クラスとして表現できることを実証し,フーリエ級数表現の一般化したニューラルネットワークアナログを提案する。 提案手法の有用性について, 常微分方程式, 楕円型, 放物型, 双曲型および非線形偏微分方程式, および流体力学の例を用いて述べる。

We introduce a class of Sparse, Physics-based, and Interpretable Neural Networks (SPINN) for solving ordinary and partial differential equations. By reinterpreting a traditional meshless representation of solutions of PDEs as a special sparse deep neural network, we develop a class of sparse neural network architectures that are interpretable. The SPINN model we propose here serves as a seamless bridge between two extreme modeling tools for PDEs, dense neural network based methods and traditional mesh-based and mesh-free numerical methods, thereby providing a novel means to develop a new class of hybrid algorithms that build on the best of both these viewpoints. A unique feature of the SPINN model we propose that distinguishes it from other neural network based approximations proposed earlier is that our method is both fully interpretable and sparse in the sense that it has much fewer connections than a dense neural network of the same size. Further, we demonstrate that Fourier series representations can be expressed as a special class of SPINN and propose generalized neural network analogues of Fourier representations. We illustrate the utility of the proposed method with a variety of examples involving ordinary differential equations, elliptic, parabolic, hyperbolic and nonlinear partial differential equations, and an example in fluid dynamics.
翻訳日:2021-02-26 13:39:53 公開日:2021-02-25
# 反射型ハミルトン・モンテカルロを用いたトレンチド・ログ・コンカブ・サンプリング

Truncated Log-concave Sampling with Reflective Hamiltonian Monte Carlo ( http://arxiv.org/abs/2102.13068v1 )

ライセンス: Link先を確認
Apostolos Chalkis, Vissarion Fisikopoulos, Marios Papachristou, Elias Tsigaridas(参考訳) HMCベースのアルゴリズムであるReflective Hamiltonian Monte Carlo(ReHMC)を,凸ポリトープに制限されたログ凹分布からサンプリングする。 ウォームスタートから、$\widetilde O(\kappa d^2 \ell^2 \log (1 / \varepsilon))$ steps for a well-rounded polytope,ignoring logarithmic factor where $\kappa$ is the condition number of the negative log-density, $d$ is the dimension, $\ell$ is a upper bound on the reflections and $\varepsilon$ is the accuracy parameter。 また,rehmcのオープンソース実装を開発し,様々な高次元データセットについて実験を行った。 実験の結果、ReHMCは独立したサンプルを作成する必要がある時間に関して、Hit-and-RunとCoordinate-and-Runより優れていることが示唆されている。

We introduce Reflective Hamiltonian Monte Carlo (ReHMC), an HMC-based algorithm, to sample from a log-concave distribution restricted to a convex polytope. We prove that, starting from a warm start, it mixes in $\widetilde O(\kappa d^2 \ell^2 \log (1 / \varepsilon))$ steps for a well-rounded polytope, ignoring logarithmic factors where $\kappa$ is the condition number of the negative log-density, $d$ is the dimension, $\ell$ is an upper bound on the number of reflections, and $\varepsilon$ is the accuracy parameter. We also developed an open source implementation of ReHMC and we performed an experimental study on various high-dimensional data-sets. Experiments suggest that ReHMC outperfroms Hit-and-Run and Coordinate-Hit-and-R un regarding the time it needs to produce an independent sample.
翻訳日:2021-02-26 13:39:29 公開日:2021-02-25
# 次に行くべき場所:歩行者間のナビゲーションのためのサブゴールレコメンデーションポリシーを学ぶ

Where to go next: Learning a Subgoal Recommendation Policy for Navigation Among Pedestrians ( http://arxiv.org/abs/2102.13073v1 )

ライセンス: Link先を確認
Bruno Brito and Michael Everett and Jonathan P. How and Javier Alonso-Mora(参考訳) 他のロボットや人間と共有された環境でのロボットナビゲーションは、周囲のエージェントの意図を直接観察できず、環境条件が絶えず変化しているため、挑戦的です。 モデル予測制御(mpc)のような局所軌道最適化手法は、これらの変更に対処することができるが、混み合ったシナリオでは簡単には得られないグローバルガイダンスを必要とする。 本稿では,地域プランナーに長期指導を提供するインタラクション対応政策であるDeep Reinforcement Learning (RL) を通じて学習することを提案する。 特に,協調エージェントと非協力エージェントとのシミュレーションでは,深層ネットワークを訓練し,mpcプランナーのサブゴールを推薦する。 推奨のサブゴールは、ロボットが目標に向かって前進するのに役立ち、他のエージェントとの相互作用が期待されている。 推奨サブゴールに基づいて、MPCプランナーは、そのキノダイナミックおよび衝突回避制約を満たすロボットの入力を最適化します。 本手法は,従来のMPCフレームワークと比較して衝突回数,および協調的,競争的,混合的マルチエージェントシナリオにおける深部RL法と比較して,走行時間および衝突回数の両面において,ナビゲーション性能を大幅に向上させることが示された。

Robotic navigation in environments shared with other robots or humans remains challenging because the intentions of the surrounding agents are not directly observable and the environment conditions are continuously changing. Local trajectory optimization methods, such as model predictive control (MPC), can deal with those changes but require global guidance, which is not trivial to obtain in crowded scenarios. This paper proposes to learn, via deep Reinforcement Learning (RL), an interaction-aware policy that provides long-term guidance to the local planner. In particular, in simulations with cooperative and non-cooperative agents, we train a deep network to recommend a subgoal for the MPC planner. The recommended subgoal is expected to help the robot in making progress towards its goal and accounts for the expected interaction with other agents. Based on the recommended subgoal, the MPC planner then optimizes the inputs for the robot satisfying its kinodynamic and collision avoidance constraints. Our approach is shown to substantially improve the navigation performance in terms of number of collisions as compared to prior MPC frameworks, and in terms of both travel time and number of collisions compared to deep RL methods in cooperative, competitive and mixed multiagent scenarios.
翻訳日:2021-02-26 13:39:01 公開日:2021-02-25
# 複雑値ニューラルネットワークの定量的近似結果

Quantitative approximation results for complex-valued neural networks ( http://arxiv.org/abs/2102.13092v1 )

ライセンス: Link先を確認
A. Caragea, D.G. Lee, J. Maly, G. Pfander, F. Voigtlaender(参考訳) modReLUアクティベーション関数 $\sigma(z) = \mathrm{ReLU}(|z| - 1) \cdot z / |z|$ を持つ複素値ニューラルネットワークは、$\mathbb{C}^d$ のコンパクト部分集合上の正規性 $C^n$ の複素値関数を均一に近似することができ、近似速度に明確な境界を与える。

We show that complex-valued neural networks with the modReLU activation function $\sigma(z) = \mathrm{ReLU}(|z| - 1) \cdot z / |z|$ can uniformly approximate complex-valued functions of regularity $C^n$ on compact subsets of $\mathbb{C}^d$, giving explicit bounds on the approximation rate.
翻訳日:2021-02-26 13:38:40 公開日:2021-02-25
# ISALT:ローカルリプシッツエルゴードシステムのための大規模タイムステッピングに適応した推論に基づくスキーム

ISALT: Inference-based schemes adaptive to large time-stepping for locally Lipschitz ergodic systems ( http://arxiv.org/abs/2102.12669v1 )

ライセンス: Link先を確認
Xingjie Li, Fei Lu, Felix X.-F. Ye(参考訳) SDEの効率的なシミュレーションは多くのアプリケーション、特に短時間の力学と大規模統計の両方の効率的なシミュレーションを必要とするエルゴードシステムに欠かせない。 しかし、局所リプシッツ SDE はエルゴード測度を正確にシミュレートするために小さな時間ステップを持つ暗黙のスキームのような特別な処理を必要とすることが多い。 本論文では,データから大きな時間ステップ(ISALT)に適応した推論に基づくスキームを構築するためのフレームワークを提案する。 鍵となるのは、無限次元離散時間フローマップへの近似の統計的学習である。 本稿では,情報基礎関数の導出に数値スキーム(オイラー・マルヤマ,ハイブリッドRK4,暗黙のスキームなど)を用い,パラメータ推論問題について考察する。 パラメータを最小2乗に見積もるスケーラブルなアルゴリズムを導入し,データサイズが大きくなるにつれて推定器の収束を実証する。 3つの非グローバルLipschitz SDEでISALTをテストします:1Dダブルウェルポテンシャル、2Dマルチスケールグラデーションシステム、3D確率ロレンツ方程式。 数値結果は、ISALTが平易な数値スキームよりも大きな時間ステップマグニチュードを許容できることを示しています。 時間ステップが中程度であるときに不変測度を再現するのに最適な精度に達する。

Efficient simulation of SDEs is essential in many applications, particularly for ergodic systems that demand efficient simulation of both short-time dynamics and large-time statistics. However, locally Lipschitz SDEs often require special treatments such as implicit schemes with small time-steps to accurately simulate the ergodic measure. We introduce a framework to construct inference-based schemes adaptive to large time-steps (ISALT) from data, achieving a reduction in time by several orders of magnitudes. The key is the statistical learning of an approximation to the infinite-dimensional discrete-time flow map. We explore the use of numerical schemes (such as the Euler-Maruyama, a hybrid RK4, and an implicit scheme) to derive informed basis functions, leading to a parameter inference problem. We introduce a scalable algorithm to estimate the parameters by least squares, and we prove the convergence of the estimators as data size increases. We test the ISALT on three non-globally Lipschitz SDEs: the 1D double-well potential, a 2D multi-scale gradient system, and the 3D stochastic Lorenz equation with degenerate noise. Numerical results show that ISALT can tolerate time-step magnitudes larger than plain numerical schemes. It reaches optimal accuracy in reproducing the invariant measure when the time-step is medium-large.
翻訳日:2021-02-26 13:38:11 公開日:2021-02-25
# 対称パーセプトロンに対する連続性予想と対数正規極限の証明

Proof of the Contiguity Conjecture and Lognormal Limit for the Symmetric Perceptron ( http://arxiv.org/abs/2102.13069v1 )

ライセンス: Link先を確認
Emmanuel Abbe, Shuangping Li, Allan Sly(参考訳) 本研究では,統計物理学,情報理論,確率論コミュニティにおいて重要な注目を集めた,ニューラルネットワークの単純なモデルである対称二項知覚モデルについて考察する。 '15. このモデルの分割関数は、期待値によって正規化され、対数正規分布に収束する。 結果として、このモデルに対するいくつかの予想を定式化することができる: (i) aubin と al の連続性予想を証明する。 '19 植木モデルと植木モデルの間 (ii) 鋭いしきい値予想を定め、 (iii) 対称の場合では1-rsb予想を解き、非対称の場合ではkrauth-m\'ezard '89 によって最初に予想された。 Perkins-Xu [PX21] の最近の同時作業では、最後の2つの予想もまた、分割関数が指数スケールに集中することを証明することによって確立された。 このことは、ここで確立された連続予想と対数正規極限特徴づけを開放する。 特に,robinson とwormald の有名な業績においてスパースモデルのために開発された small graph conditioning method の濃密なカウンターパートに依存している。

We consider the symmetric binary perceptron model, a simple model of neural networks that has gathered significant attention in the statistical physics, information theory and probability theory communities, with recent connections made to the performance of learning algorithms in Baldassi et al. '15. We establish that the partition function of this model, normalized by its expected value, converges to a lognormal distribution. As a consequence, this allows us to establish several conjectures for this model: (i) it proves the contiguity conjecture of Aubin et al. '19 between the planted and unplanted models in the satisfiable regime; (ii) it establishes the sharp threshold conjecture; (iii) it proves the frozen 1-RSB conjecture in the symmetric case, conjectured first by Krauth-M\'ezard '89 in the asymmetric case. In a recent concurrent work of Perkins-Xu [PX21], the last two conjectures were also established by proving that the partition function concentrates on an exponential scale. This left open the contiguity conjecture and the lognormal limit characterization, which are established here. In particular, our proof technique relies on a dense counter-part of the small graph conditioning method, which was developed for sparse models in the celebrated work of Robinson and Wormald.
翻訳日:2021-02-26 13:37:50 公開日:2021-02-25
# ロボットアプリケーションのためのリアルタイム楕円検出

Real-Time Ellipse Detection for Robotics Applications ( http://arxiv.org/abs/2102.12670v1 )

ライセンス: Link先を確認
Azarakhsh Keipour and Guilherme A. S. Pereira and Sebastian Scherer(参考訳) 実世界のロボット工学応用に適した楕円パターンのリアルタイム検出と追跡のための新しいアルゴリズムを提案する。 この方法は、画像フレームの各輪郭に楕円を適合させ、適合しない楕円を拒絶する。 極端な天候や照明条件で完全で部分的で不完全な楕円体を検出することができ、ロボットのリソース制限付きオンボードコンピュータで使用できるほど軽量である。 この手法は、高速で動く車両に無人のUAVを着陸させ、室内、屋外、そして現実世界のロボット工学タスクのシミュレーションでその性能を示す例として用いられる。 他のよく知られた楕円検出法と比較すると,提案アルゴリズムは1500フレーム以上のデータセット上でF1スコア0.981の他の手法よりも優れていた。 実験のビデオ、ソースコード、収集されたデータセットが論文で提供されている。

We propose a new algorithm for real-time detection and tracking of elliptic patterns suitable for real-world robotics applications. The method fits ellipses to each contour in the image frame and rejects ellipses that do not yield a good fit. It can detect complete, partial, and imperfect ellipses in extreme weather and lighting conditions and is lightweight enough to be used on robots' resource-limited onboard computers. The method is used on an example application of autonomous UAV landing on a fast-moving vehicle to show its performance indoors, outdoors, and in simulation on a real-world robotics task. The comparison with other well-known ellipse detection methods shows that our proposed algorithm outperforms other methods with the F1 score of 0.981 on a dataset with over 1500 frames. The videos of experiments, the source codes, and the collected dataset are provided with the paper.
翻訳日:2021-02-26 13:37:25 公開日:2021-02-25
# 計算流体力学における機械学習に基づく最適メッシュ生成

Machine Learning-Based Optimal Mesh Generation in Computational Fluid Dynamics ( http://arxiv.org/abs/2102.12923v1 )

ライセンス: Link先を確認
Keefe Huang, Moritz Kr\"ugener, Alistair Brown, Friedrich Menhorn, Hans-Joachim Bungartz and Dirk Hartmann(参考訳) 数値流体力学(CFD)は、エンジニアリングの主要なサブフィールドです。 対応する流れのシミュレーションは典型的には重い計算資源の要求によって特徴づけられる。 しばしば、物理的効果を適切に解決するために非常に微細で複雑なメッシュが必要である。 すべてのCFDアルゴリズムは、基礎となるメッシュの離散化のサイズと少なくとも線形にスケールするため、最適メッシュを見つけることが計算効率の鍵となる。 最適なメッシュを見つけるのに用いられる方法の1つは、目標指向の適応メッシュ改良である。 しかし、これは通常計算上必要であり、限られた数のツールでしか利用できない。 この貢献の中で、最適なメッシュ密度を特定するために機械学習アプローチを採用しています。 古典的手法を用いて最適化メッシュを生成し,任意のジオメトリに対して最適なメッシュ密度を予測する畳み込みネットワークを訓練する。 提案手法は2次元風洞シミュレーションと6万以上のシミュレーションにより検証された。 2万のシミュレーションのトレーニングセットを使用して、98.7%以上の精度を達成する。 最適なメッシュの予測は、任意のメッシュ生成およびcfdツールの入力として使用できる。 したがって、複雑な計算なしに、CFDエンジニアは高品質のメッシュから予測を開始できます。

Computational Fluid Dynamics (CFD) is a major sub-field of engineering. Corresponding flow simulations are typically characterized by heavy computational resource requirements. Often, very fine and complex meshes are required to resolve physical effects in an appropriate manner. Since all CFD algorithms scale at least linearly with the size of the underlying mesh discretization, finding an optimal mesh is key for computational efficiency. One methodology used to find optimal meshes is goal-oriented adaptive mesh refinement. However, this is typically computationally demanding and only available in a limited number of tools. Within this contribution, we adopt a machine learning approach to identify optimal mesh densities. We generate optimized meshes using classical methodologies and propose to train a convolutional network predicting optimal mesh densities given arbitrary geometries. The proposed concept is validated along 2d wind tunnel simulations with more than 60,000 simulations. Using a training set of 20,000 simulations we achieve accuracies of more than 98.7%. Corresponding predictions of optimal meshes can be used as input for any mesh generation and CFD tool. Thus without complex computations, any CFD engineer can start his predictions from a high quality mesh.
翻訳日:2021-02-26 13:36:44 公開日:2021-02-25
# 混合ガス検出用金属酸化物センサアレイ

Metal-Oxide Sensor Array for Selective Gas Detection in Mixtures ( http://arxiv.org/abs/2102.12990v1 )

ライセンス: Link先を確認
Noureddine Tayebi, Varvara Kollia and Pradyumna S. Singh(参考訳) モノリシックでマイクロファブリケートな金属酸化物半導体(MOS)センサアレイを機械学習アルゴリズムと組み合わせて, 均一混合ガス中の個々のガスの特異な指紋を決定する。 アレイは4つの異なる金属酸化物で構成され、各画素から独立した温度制御と読み出しのために多重化されている。 センサピクセルは、非常に薄い膜上に設計されており、放熱を最小限に抑え、全体としての消費電力を著しく下げる(平均出力は30ドル)。 異なる温度でピクセルを実行することで得られた高次元データは、均質混合物中の個々の成分の濃度を高い解像度で検出し推定するために平均精度で$\sim$ 88$\%$で機械学習アルゴリズムを訓練するために使用される。 各種ガスに対するMOSセンサの応答が実証されているが、これらのセンサが複数のガスからなる均質なガス混合物に対する応答を研究する研究はほとんどない。 この原理をオゾンと一酸化炭素の二成分混合系に適用し, それぞれが汚染物質ガスの基準であることを示した。 その結果, 混合ガス中の個々のガス濃度の予測には, MOS成分の多変量と様々な温度で測定する能力が不可欠であり, MOSセンサポーア選択性の重要な限界を克服できることが示唆された。 私たちのセンサーアレイの小さなフォームファクタとマイクロファブリケーションアプローチは、ウェアラブルおよびポータブルアプリケーションのためのプラットフォームへの道を開くcmos統合にも役立ちます。

We present a monolithic, microfabricated, metal-oxide semiconductor (MOS) sensor array in conjunction with a machine learning algorithm to determine unique fingerprints of individual gases within homogenous mixtures. The array comprises four different metal oxides, and is engineered for independent temperature control and readout from each individual pixel in a multiplexed fashion. The sensor pixels are designed on a very thin membrane to minimize heat dissipation, thereby significantly lowering the overall power consumption ($<$30 $\mu$W average power). The high dimensional data obtained by running the pixels at different temperatures, is used to train our machine learning algorithm with an average accuracy $\sim$ 88$\%$ for high resolution detection and estimation of concentration of individual constituents in a homogenous mixture. While the response of MOS sensors to various gases has been demonstrated, very few studies have investigated the response of these sensors to homogeneous mixtures of gases comprising several gases. We demonstrate this principle for a binary homogeneous mixture of ozone and carbon monoxide, both of which are criteria pollutant gases. Our findings indicate that a multiplicity of MOS elements together with the ability to vary and measure at various temperatures are essential in predicting concentration of individual gases within mixtures, thereby overcoming a key limitation of MOS sensors - poor selectivity. The small form-factor and microfabrication approach of our sensor array also lends itself to CMOS integration paving the way for a platform for wearable and portable applications.
翻訳日:2021-02-26 13:36:19 公開日:2021-02-25
# 視線による多目的模倣学習

Gaze-Informed Multi-Objective Imitation Learning from Human Demonstrations ( http://arxiv.org/abs/2102.13008v1 )

ライセンス: Link先を確認
Ritwik Bera, Vinicius G. Goecks, Gregory M. Gremillion, Vernon J. Lawhern, John Valasek, Nicholas R. Waytowich(参考訳) 人間とロボットの相互作用の分野では、教師付き学習による人間のデモンストレーションから学習エージェントを教えることが広く研究され、自動運転車やロボット操作などの複数の領域に適用されました。 しかし、人間のデモンストレーションから学ぶ作業の大部分は、デモ参加者からの行動情報のみを利用する。 どんな行動がとられたか 他の有用な情報を無視します 特に、目視情報は、デモンストレーション者が視覚的注意を割り当てている場所に対する貴重な洞察を与えることができ、そのような情報を活用すると、エージェントのパフォーマンスを向上させる可能性があります。 従来のアプローチでは、単純な同期環境での注目の活用のみを研究しており、現実世界のドメインへの適用性が制限されている。 本研究では、人間の行動実証とアイトラッキングデータから同時に学習し、人間の視線情報が重要なコンテキストを提供するタスクを解決するための新しい模倣学習アーキテクチャを提案する。 提案手法は,無人の四回転子が現実世界,光リアルなシミュレート環境で対象車両を探索し,移動するように訓練される視覚ナビゲーションタスクに適用される。 基本模倣学習アーキテクチャと比較すると,提案する視線拡張模倣学習モデルは,人間の視覚注意を予測するために同時に学習しながら,より効率的な経路で,はるかに高いタスク完了率を達成するポリシーを学習できることが示される。 本研究の目的は、人間の入力モダリティを付加した視覚的注意情報のマルチモーダル学習の重要性を強調し、人間のデモンストレーションからエージェントを訓練して視覚運動を行う際に、コミュニティがそれらを採用することを奨励することである。

In the field of human-robot interaction, teaching learning agents from human demonstrations via supervised learning has been widely studied and successfully applied to multiple domains such as self-driving cars and robot manipulation. However, the majority of the work on learning from human demonstrations utilizes only behavioral information from the demonstrator, i.e. what actions were taken, and ignores other useful information. In particular, eye gaze information can give valuable insight towards where the demonstrator is allocating their visual attention, and leveraging such information has the potential to improve agent performance. Previous approaches have only studied the utilization of attention in simple, synchronous environments, limiting their applicability to real-world domains. This work proposes a novel imitation learning architecture to learn concurrently from human action demonstration and eye tracking data to solve tasks where human gaze information provides important context. The proposed method is applied to a visual navigation task, in which an unmanned quadrotor is trained to search for and navigate to a target vehicle in a real-world, photorealistic simulated environment. When compared to a baseline imitation learning architecture, results show that the proposed gaze augmented imitation learning model is able to learn policies that achieve significantly higher task completion rates, with more efficient paths, while simultaneously learning to predict human visual attention. This research aims to highlight the importance of multimodal learning of visual attention information from additional human input modalities and encourages the community to adopt them when training agents from human demonstrations to perform visuomotor tasks.
翻訳日:2021-02-26 13:35:53 公開日:2021-02-25
# インコヒーレント測定によるインシスタンス・オプティマステート認証に向けて

Toward Instance-Optimal State Certification With Incoherent Measurements ( http://arxiv.org/abs/2102.13098v1 )

ライセンス: Link先を確認
Sitan Chen, Jerry Li, Ryan O'Donnell(参考訳) 未知の混合状態 $\rho\in\mathbb{C}^{d\times d}$ と混合状態 $\sigma$ の説明を与えられたとき、$\sigma = \rho$ か $\|\sigma\rho\|_{\mathsf{tr}} \ge \epsilon$ かを決定する。 これは、$\Omega(d^{\Theta(1)}/\epsilon^2)$ コピーが必要であることが知られており、正確な指数は学習者が[OW15, BCL20]を作ることができる測定の種類に依存し、これらの設定の多くは一致する上限[OW15, BOW19, BCL20]がある。 この$d^{\Theta(1)}$依存を特定の種類の混合状態 $\sigma$ に対して避けることができる。 ほぼ低いランクのもの? より野心的なことに、単純な関数 $f:\mathbb{C}^{d\times d}\to\mathbb{R}_{\ge 0}$ が存在し、$\Theta(f(\sigma)/\e psilon^2)$ のコピーは、任意の $\sigma$ に関して状態認証のために必要かつ十分であることを示すことができる。 このようなインスタンス最適境界は古典的な分散テストの文脈で知られている。 [VV17]。 ここでは、量子設定におけるこの性質の第一の限界を示し、(ログ因子を除いて)非適応不整合測定を用いた状態認証のコピー複雑性は、基本的に混合性テストのコピー複雑性によって与えられることを示します。 驚くべきことに、我々の境界は古典的問題に対する例最適境界とは大きく異なり、2つの設定の質的な違いが示される。

We revisit the basic problem of quantum state certification: given copies of unknown mixed state $\rho\in\mathbb{C}^{d\times d}$ and the description of a mixed state $\sigma$, decide whether $\sigma = \rho$ or $\|\sigma - \rho\|_{\mathsf{tr}} \ge \epsilon$. When $\sigma$ is maximally mixed, this is mixedness testing, and it is known that $\Omega(d^{\Theta(1)}/\epsilon^2)$ copies are necessary, where the exact exponent depends on the type of measurements the learner can make [OW15, BCL20], and in many of these settings there is a matching upper bound [OW15, BOW19, BCL20]. Can one avoid this $d^{\Theta(1)}$ dependence for certain kinds of mixed states $\sigma$, e.g. ones which are approximately low rank? More ambitiously, does there exist a simple functional $f:\mathbb{C}^{d\times d}\to\mathbb{R}_{\ge 0}$ for which one can show that $\Theta(f(\sigma)/\e psilon^2)$ copies are necessary and sufficient for state certification with respect to any $\sigma$? Such instance-optimal bounds are known in the context of classical distribution testing, e.g. [VV17]. Here we give the first bounds of this nature for the quantum setting, showing (up to log factors) that the copy complexity for state certification using nonadaptive incoherent measurements is essentially given by the copy complexity for mixedness testing times the fidelity between $\sigma$ and the maximally mixed state. Surprisingly, our bound differs substantially from instance optimal bounds for the classical problem, demonstrating a qualitative difference between the two settings.
翻訳日:2021-02-26 13:35:27 公開日:2021-02-25
# AGENT: コア心理学的推論のベンチマーク

AGENT: A Benchmark for Core Psychological Reasoning ( http://arxiv.org/abs/2102.12321v2 )

ライセンス: Link先を確認
Tianmin Shu, Abhishek Bhandwaldar, Chuang Gan, Kevin A. Smith, Shari Liu, Dan Gutfreund, Elizabeth Spelke, Joshua B. Tenenbaum, Tomer D. Ullman(参考訳) マシンエージェントが現実世界の環境で人間とうまく対話するためには、人間の精神生活を理解する必要がある。 直感的な心理学は、観察可能な行動を駆動する隠された精神的な変数を推論する能力は、人間に自然に来る:前動詞の幼児でさえ、エージェントを物体から区別することができ、エージェントが与えられた制約の目標を達成するために効率的に行動することを期待する。 他のエージェントを推論する機械エージェントに対する近年の関心にもかかわらず、そのようなエージェントが人間の推論を駆動するコア心理学の原則を学ぶか保持するかは明らかではない。 直感心理学の認知発達研究から着想を得て, 主観的直感心理学の重要な概念を探索する4つのシナリオ(ゴール選好, 行動効率, 未観測制約, コスト-リワードトレードオフ)を中心に構成された, 手続き的に生成された3Dアニメーションの大規模なデータセットであるエージェント(Action, Goal, efficiency, coNstraint, uTility)を提示する。 エージェントを人間格付けで検証し,一般化を強調する評価プロトコルを提案し,ベイズ逆計画に基づく2つの強力なベースラインとマインドニューラルネットワークの理論を比較した。 以上より,人間レベルでのコア直感的心理学の設計テストに合格するためには,エージェントの計画方法,ユーティリティ計算とオブジェクトと物理学のコア知識を組み合わせること,モデルが組み込んだ表現をしなければならないことが示唆された。

For machine agents to successfully interact with humans in real-world settings, they will need to develop an understanding of human mental life. Intuitive psychology, the ability to reason about hidden mental variables that drive observable actions, comes naturally to people: even pre-verbal infants can tell agents from objects, expecting agents to act efficiently to achieve goals given constraints. Despite recent interest in machine agents that reason about other agents, it is not clear if such agents learn or hold the core psychology principles that drive human reasoning. Inspired by cognitive development studies on intuitive psychology, we present a benchmark consisting of a large dataset of procedurally generated 3D animations, AGENT (Action, Goal, Efficiency, coNstraint, uTility), structured around four scenarios (goal preferences, action efficiency, unobserved constraints, and cost-reward trade-offs) that probe key concepts of core intuitive psychology. We validate AGENT with human-ratings, propose an evaluation protocol emphasizing generalization, and compare two strong baselines built on Bayesian inverse planning and a Theory of Mind neural network. Our results suggest that to pass the designed tests of core intuitive psychology at human levels, a model must acquire or have built-in representations of how agents plan, combining utility computations and core knowledge of objects and physics.
翻訳日:2021-02-26 11:37:20 公開日:2021-02-25
# two-way kernel matrix puncturing: 資源効率の高いpcaとスペクトルクラスタリングに向けて

Two-way kernel matrix puncturing: towards resource-efficient PCA and spectral clustering ( http://arxiv.org/abs/2102.12293v2 )

ライセンス: Link先を確認
Romain Couillet and Florent Chatelain and Nicolas Le Bihan(参考訳) 本稿では,スペクトルクラスタリングと主成分分析のための基本コスト削減手法を提案する。 この方法は、データ行列$X\in\mathbb{C}^{p\times n}$(または$\mathbb{R}^{p\times n}$)とその対応するカーネル(Gram)行列$K$ through Bernoulli masks:$S\in\{0,1\}^{p\times n}$ for $X$ and $B\in\{0,1\}^{n\times n}$ for $K$からなる。 結果として得られる「二方向切断」カーネルは、$K=\frac{1}{p}[(X \odot S)^{\sf H} (X \odot S)] \odot B$ によって与えられる。 ガウス混合モデルから引き出された独立列からなる$X$に対して、$n,p\to\infty$ with $p/n\to c_0\in(0,\infty)$,$K $のスペクトル挙動(固有値分布の制限)とその孤立固有値と固有ベクトルは、完全に抽出可能であり、反直観現象の連続を示す。 我々は、GAN生成画像データベースにおいて、データを劇的に切り離すことが可能であることを実証し、実証し、実証し、事実上一定の(PCAのクラスタリング)パフォーマンスのために、おそらく巨大な計算およびストレージの利益を提供する。 この予備的な研究は、基本機械学習モデルにおける計算コストとストレージコストの大規模な観点から、再考への道を開く。

The article introduces an elementary cost and storage reduction method for spectral clustering and principal component analysis. The method consists in randomly "puncturing" both the data matrix $X\in\mathbb{C}^{p\times n}$ (or $\mathbb{R}^{p\times n}$) and its corresponding kernel (Gram) matrix $K$ through Bernoulli masks: $S\in\{0,1\}^{p\times n}$ for $X$ and $B\in\{0,1\}^{n\times n}$ for $K$. The resulting "two-way punctured" kernel is thus given by $K=\frac{1}{p}[(X \odot S)^{\sf H} (X \odot S)] \odot B$. We demonstrate that, for $X$ composed of independent columns drawn from a Gaussian mixture model, as $n,p\to\infty$ with $p/n\to c_0\in(0,\infty)$, the spectral behavior of $K$ -- its limiting eigenvalue distribution, as well as its isolated eigenvalues and eigenvectors -- is fully tractable and exhibits a series of counter-intuitive phenomena. We notably prove, and empirically confirm on GAN-generated image databases, that it is possible to drastically puncture the data, thereby providing possibly huge computational and storage gains, for a virtually constant (clustering of PCA) performance. This preliminary study opens as such the path towards rethinking, from a large dimensional standpoint, computational and storage costs in elementary machine learning models.
翻訳日:2021-02-26 11:36:50 公開日:2021-02-25
# 記憶に基づくPOMDPの深部強化学習

Memory-based Deep Reinforcement Learning for POMDP ( http://arxiv.org/abs/2102.12344v2 )

ライセンス: Link先を確認
Lingheng Meng, Rob Gorbet, Dana Kuli\'c(参考訳) 深層強化学習(DRL)の有望な特徴は、機能工学に頼ることなく、エンドツーエンドで最適な政策を学ぶ能力である。 しかし、ほとんどのアプローチは完全可観測状態空間、すなわち状態空間を仮定する。 完全に可観測マルコフ決定プロセス(MDP)。 実世界のロボット工学では、センサの容量制限やセンサノイズといったセンサの問題や、観測設計が完了したかどうかに関する知識の欠如などにより、この仮定は実践的ではない。 これらのシナリオは部分的オブザーバブルMDP(POMDP)につながり、特別な治療が必要です。 本稿では,TD3にメモリコンポーネントを導入して,長期記憶に基づくツイン遅延ディープ決定性ポリシグラデーショングラデーション(LSTM-TD3)を提案し,MDPとPOMDPの両方における他のDRLアルゴリズムとの比較を行った。 以上の結果から,POMDPに対処する上でのメモリコンポーネントの利点が示唆された。

A promising characteristic of Deep Reinforcement Learning (DRL) is its capability to learn optimal policy in an end-to-end manner without relying on feature engineering. However, most approaches assume a fully observable state space, i.e. fully observable Markov Decision Process (MDP). In real-world robotics, this assumption is unpractical, because of the sensor issues such as sensors' capacity limitation and sensor noise, and the lack of knowledge about if the observation design is complete or not. These scenarios lead to Partially Observable MDP (POMDP) and need special treatment. In this paper, we propose Long-Short-Term-Memo ry-based Twin Delayed Deep Deterministic Policy Gradient (LSTM-TD3) by introducing a memory component to TD3, and compare its performance with other DRL algorithms in both MDPs and POMDPs. Our results demonstrate the significant advantages of the memory component in addressing POMDPs, including the ability to handle missing and noisy observation data.
翻訳日:2021-02-26 11:36:11 公開日:2021-02-25
# VHRリモートセンシング画像における建物抽出のための対比形状学習

Adversarial Shape Learning for Building Extraction in VHR Remote Sensing Images ( http://arxiv.org/abs/2102.11262v2 )

ライセンス: Link先を確認
Lei Ding, Hao Tang, Yahui Liu, Yilei Shi and Lorenzo Bruzzone(参考訳) VHR RSIにおけるビルディング抽出は, 閉塞性や境界曖昧性の問題により, 依然として困難な課題である。 従来の畳み込みニューラルネットワーク(CNN)ベースの手法は、局所的なテクスチャやコンテキスト情報を利用することができるが、人間の認識に必要な制約である建物の形状パターンを捉えることができない。 そこで本研究では,建物の形状パターンをモデル化するための対比形状学習ネットワーク(ASLNet)を提案し,建物のセグメンテーションの精度を向上させる。 提案するASLNetでは,形状制約を明示的にモデル化するための対角学習戦略と,形状特徴の埋め込みを強化するためのCNN形状正規化器を導入する。 さらに,建物分割結果の幾何的精度を評価するために,複数のオブジェクトベース評価指標を導入した。 2つのオープンベンチマークデータセットの実験は、提案されたASLNetがピクセルベースの精度とオブジェクトベースの測定の両方を大きなマージンで改善することを示しています。 https://github.com/g gsding/aslnet

Building extraction in VHR RSIs remains to be a challenging task due to occlusion and boundary ambiguity problems. Although conventional convolutional neural networks (CNNs) based methods are capable of exploiting local texture and context information, they fail to capture the shape patterns of buildings, which is a necessary constraint in the human recognition. In this context, we propose an adversarial shape learning network (ASLNet) to model the building shape patterns, thus improving the accuracy of building segmentation. In the proposed ASLNet, we introduce the adversarial learning strategy to explicitly model the shape constraints, as well as a CNN shape regularizer to strengthen the embedding of shape features. To assess the geometric accuracy of building segmentation results, we further introduced several object-based assessment metrics. Experiments on two open benchmark datasets show that the proposed ASLNet improves both the pixel-based accuracy and the object-based measurements by a large margin. The code is available at: https://github.com/g gsDing/ASLNet
翻訳日:2021-02-26 11:35:53 公開日:2021-02-25