このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210128となっている論文です。

PDF登録状況(公開日: 20210128)

TitleAuthorsAbstract論文公表日・翻訳日
# Causal BERT : テキストで表現された事象間の因果検出のための言語モデル

Causal BERT : Language models for causality detection between events expressed in text ( http://arxiv.org/abs/2012.05453v2 )

ライセンス: Link先を確認
Vivek Khetan, Roshni Ramnani, Mayuresh Anand, Shubhashis Sengupta and Andrew E.Fano(参考訳) イベント間の因果関係の理解は重要な自然言語処理タスクであり、医療、ビジネスリスク管理、金融など多くの分野において有用である。 精査すると、形式的な文書か、あるいはtwitterのようなソーシャルメディアから発生したコンテンツの両方で、現実世界における様々な種類の因果関係のコミュニケーションと探索を専門とする、膨大な量のテキストコンテンツを見つけることができる。 自然言語イベント間の「因果関係」を認識することは、しばしば暗黙的に表現されるため、依然として課題である。 暗黙の因果関係は文学で使われる技法のほとんどを通して検出することは困難であり、時には曖昧さや曖昧さと見なされることもある。 また、この問題にはよく知られたデータセットが存在するが、それらの例では、特に暗黙的な関係に関係づけられた場合の因果関係の範囲や複雑さが制限されている。 現代のメソッドのほとんどはlexico-semanticパターンマッチングに基づいているか、機能駆動の教師付きメソッドである。 したがって, これらの手法は, 暗黙的な関係を限定的に扱えるよう, 明確な因果関係を扱うことを目的としており, 一般化が困難である。 本稿では,文コンテキストとイベント情報を組み合わせて自然言語テキストで表現されたイベント間の因果関係を関連づける言語モデルの能力について検討し,マスキングされたイベントコンテキストをドメイン内およびドメイン外データ分散に活用する。 提案手法は,3つの異なるデータ分布において最先端のパフォーマンスを実現し,因果図の抽出や非構造化テキストからのイベント連鎖の構築に利用できる。

Causality understanding between events is a critical natural language processing task that is helpful in many areas, including health care, business risk management and finance. On close examination, one can find a huge amount of textual content both in the form of formal documents or in content arising from social media like Twitter, dedicated to communicating and exploring various types of causality in the real world. Recognizing these "Cause-Effect" relationships between natural language events continues to remain a challenge simply because it is often expressed implicitly. Implicit causality is hard to detect through most of the techniques employed in literature and can also, at times be perceived as ambiguous or vague. Also, although well-known datasets do exist for this problem, the examples in them are limited in the range and complexity of the causal relationships they depict especially when related to implicit relationships. Most of the contemporary methods are either based on lexico-semantic pattern matching or are feature-driven supervised methods. Therefore, as expected these methods are more geared towards handling explicit causal relationships leading to limited coverage for implicit relationships and are hard to generalize. In this paper, we investigate the language model's capabilities for causal association among events expressed in natural language text using sentence context combined with event information, and by leveraging masked event context with in-domain and out-of-domain data distribution. Our proposed methods achieve the state-of-art performance in three different data distributions and can be leveraged for extraction of a causal diagram and/or building a chain of events from unstructured text.
翻訳日:2021-05-15 06:40:04 公開日:2021-01-28
# デジタル双子はモノ接合性ではない -- 業界レベル2の自動車シミュレーターにおけるクロス複製adasテスト

Digital Twins Are Not Monozygotic -- Cross-Replicating ADAS Testing in Two Industry-Grade Automotive Simulators ( http://arxiv.org/abs/2012.06822v2 )

ライセンス: Link先を確認
Markus Borg, Raja Ben Abdessalem, Shiva Nejati, Francois-Xavier Jegeden, Donghwan Shin(参考訳) ソフトウェアとデータ集約的な運転自動化のレベルが増加すると、自動車ソフトウェアテストの進化が求められる。 iso/pas 21448の検証検証(v&v)プロセスの推奨プラクティスとして、自動車の意図する機能の安全性の候補であるシミュレーションベースのテストでは、リスクとコストの両方を削減できる可能性がある。 adas(advanced driver-assistance systems)のためのシミュレータを用いたテスト自動化技術開発に関する研究が増えている。 しかし、同じテストシナリオが異なるシミュレータで実行される場合、結果はどの程度似ていますか? 本研究では, TASS/Siemens PreScan と ESI Pro-SiVIC の2種類の商用シミュレータを用いて, 現実のADAS (PeVi) に検索ベースソフトウェアテスト (SBST) ソリューションを適用した再現実験を行った。 この2つのシミュレータでSBSTソリューションを用いて生成した臨界テストシナリオを最小限のシーンで比較する。 両シミュレータにおいて,SBSTを用いて重要なテストシナリオを効果的かつ効率的に生成できることを示し,この2つのシミュレータから得られたテスト結果は,試験中のADASのいくつかの弱点を明らかにすることができる。 しかし、2つのシミュレータで同じテストシナリオを実行すると、テストアウトプットの詳細、特に(1)テストによって明らかになった安全性違反、(2)車と歩行者のダイナミックスに顕著な違いが生じる。 今後のV&V計画では、堅牢なシミュレーションベースのテストをサポートする複数のシミュレータと、シミュレータの内部に依存しない測定のベースとなるテスト目標を含むことを推奨する。

The increasing levels of software- and data-intensive driving automation call for an evolution of automotive software testing. As a recommended practice of the Verification and Validation (V&V) process of ISO/PAS 21448, a candidate standard for safety of the intended functionality for road vehicles, simulation-based testing has the potential to reduce both risks and costs. There is a growing body of research on devising test automation techniques using simulators for Advanced Driver-Assistance Systems (ADAS). However, how similar are the results if the same test scenarios are executed in different simulators? We conduct a replication study of applying a Search-Based Software Testing (SBST) solution to a real-world ADAS (PeVi, a pedestrian vision detection system) using two different commercial simulators, namely, TASS/Siemens PreScan and ESI Pro-SiVIC. Based on a minimalistic scene, we compare critical test scenarios generated using our SBST solution in these two simulators. We show that SBST can be used to effectively and efficiently generate critical test scenarios in both simulators, and the test results obtained from the two simulators can reveal several weaknesses of the ADAS under test. However, executing the same test scenarios in the two simulators leads to notable differences in the details of the test outputs, in particular, related to (1) safety violations revealed by tests, and (2) dynamics of cars and pedestrians. Based on our findings, we recommend future V&V plans to include multiple simulators to support robust simulation-based testing and to base test objectives on measures that are less dependant on the internals of the simulators.
翻訳日:2021-05-10 05:14:55 公開日:2021-01-28
# VLSP 2020におけるベトナム関係抽出作業における事前学習BERTモデルの適用に関する実証的研究

An Empirical Study of Using Pre-trained BERT Models for Vietnamese Relation Extraction Task at VLSP 2020 ( http://arxiv.org/abs/2012.10275v2 )

ライセンス: Link先を確認
Pham Quang Nhat Minh(参考訳) 本稿では,VLSP 2020 評価キャンペーンにおいて,事前学習した BERT モデルを用いて関係抽出を行う実験的検討を行った。 R-BERTモデルとBERTモデルという,最先端のBERTモデルを適用した。 各モデルについて、FPTAI/vibertとNlpHUST/vibert4newsの2モデルを比較した。 NlpHUST/vibert4news モデルはベトナム関係抽出作業において FPTAI/vibert よりも優れていた。 最後に,R-BERTとBERTを組み合わせたアンサンブルモデルを提案する。 提案するアンサンブルモデルは,開発データ上の2つの単一モデルとタスクオーガナイザが提供するテストデータに対してわずかに改善した。

In this paper, we present an empirical study of using pre-trained BERT models for the relation extraction task at the VLSP 2020 Evaluation Campaign. We applied two state-of-the-art BERT-based models: R-BERT and BERT model with entity starts. For each model, we compared two pre-trained BERT models: FPTAI/vibert and NlpHUST/vibert4news. We found that NlpHUST/vibert4news model significantly outperforms FPTAI/vibert for the Vietnamese relation extraction task. Finally, we proposed an ensemble model that combines R-BERT and BERT with entity starts. Our proposed ensemble model slightly improved against two single models on the development data and the test data provided by the task organizers.
翻訳日:2021-05-01 18:17:20 公開日:2021-01-28
# (参考訳) RBM流とD流:離散エネルギーベース空間を持つ可逆流 [全文訳有]

RBM-Flow and D-Flow: Invertible Flows with Discrete Energy Base Spaces ( http://arxiv.org/abs/2012.13196v2 )

ライセンス: CC BY 4.0
Daniel O'Connor, Walter Vinci(参考訳) 複雑なデータ分布の効率的なサンプリングは、トレーニングされた非可逆流(IF)を用いて達成され、モデル分布は、複数の非線形ビジェクティブ変換を通じて単純なベース分布をプッシュすることによって生成される。 しかし、IFにおける変換の反復性は、ターゲット分布への近似を制限することができる。 本稿では,連続平滑化を適用した制限ボルツマン機械(rbm)を基本分布とするifモデルであるrbm-flowを実装することで,この問題を緩和する。 RBM-Flowを用いることで,同じIF変換を持つベースラインモデル上でのインセプションスコア(IS)とFrechet Inception Distance(FID)によって定量化されるサンプルの品質を向上させることができるが,表現力の低いベース分布では得られないことを示す。 さらに,非相関な離散潜在変数を持つIFモデルであるD-Flowも得られる。 D-Flow はガウス基底変数を持つ典型的な IF と同様の確率と FID/IS スコアを得るが、グローバルな特徴が潜在空間における離散ラベルとして有意に符号化されているという利点がある。

Efficient sampling of complex data distributions can be achieved using trained invertible flows (IF), where the model distribution is generated by pushing a simple base distribution through multiple non-linear bijective transformations. However, the iterative nature of the transformations in IFs can limit the approximation to the target distribution. In this paper we seek to mitigate this by implementing RBM-Flow, an IF model whose base distribution is a Restricted Boltzmann Machine (RBM) with a continuous smoothing applied. We show that by using RBM-Flow we are able to improve the quality of samples generated, quantified by the Inception Scores (IS) and Frechet Inception Distance (FID), over baseline models with the same IF transformations, but with less expressive base distributions. Furthermore, we also obtain D-Flow, an IF model with uncorrelated discrete latent variables. We show that D-Flow achieves similar likelihoods and FID/IS scores to those of a typical IF with Gaussian base variables, but with the additional benefit that global features are meaningfully encoded as discrete labels in the latent space.
翻訳日:2021-04-25 15:38:23 公開日:2021-01-28
# 不確かさウィザード:高速でユーザフレンドリーなニューラルネットワーク不確かさの定量化

Uncertainty-Wizard: Fast and User-Friendly Neural Network Uncertainty Quantification ( http://arxiv.org/abs/2101.00982v2 )

ライセンス: Link先を確認
Michael Weiss and Paolo Tonella(参考訳) 不確かさと信頼性は、テストデータの選択やシステム監視など、ディープラーニングテストで提案されているさまざまなテクニックにおいて有用な指標であることが示されている。我々は、このような不確実性とニューラルネットワークの信頼性を定量化するためのツールである不確実性ウィザードを提案する。 業界をリードするtf.kerasディープラーニングAPI上に構築されており、ほぼ透明で分かりやすいインターフェースを提供する。 同時に、2つの異なるマシンと異なる構成でベンチマークした大きなパフォーマンス最適化も含まれています。

Uncertainty and confidence have been shown to be useful metrics in a wide variety of techniques proposed for deep learning testing, including test data selection and system supervision.We present uncertainty-wizard, a tool that allows to quantify such uncertainty and confidence in artificial neural networks. It is built on top of the industry-leading tf.keras deep learning API and it provides a near-transparent and easy to understand interface. At the same time, it includes major performance optimizations that we benchmarked on two different machines and different configurations.
翻訳日:2021-04-18 20:27:45 公開日:2021-01-28
# 新型コロナウイルス診断のための胸部x線画像分類のための深部視覚単語の新たな袋

New Bag of Deep Visual Words based features to classify chest x-ray images for COVID-19 diagnosis ( http://arxiv.org/abs/2012.15413v2 )

ライセンス: Link先を確認
Chiranjibi Sitaula and Sunil Aryal(参考訳) 重症急性呼吸症候群によるコロナウイルス2(COVID-19)感染は肺の肺炎様効果を引き起こすため、胸部X線検査は疾患の診断に役立つ。 画像の自動解析には、一連の意味的特徴によって機械で表現される。 ディープラーニング(DL)モデルは画像から特徴を引き出すために広く利用されている。 一般的な深部特徴は、いくつかの意味領域を持つため、胸部x線を表すのに適さないかもしれない。 バグ・オブ・ビジュアルワード(Bag of Visual Words、BVW)ベースの機能はX線画像に適していることが示されているが、既存のBoVW機能は新型コロナウイルス感染症と他の肺炎関連感染症を区別するのに十分な情報を取得できない可能性がある。 本稿では,特徴マップ正規化ステップを取り除き,生特徴マップに深部特徴正規化ステップを追加することにより,深部特徴量に対する新しいbovw手法であるbag of deep visual words (bodvw)を提案する。 これにより、covid-19と肺炎を区別するための重要な手がかりとなる、各フィーチャーマップのセマンティクスを維持することができる。 支援ベクターマシン(svm)を用いた胸部x線診断におけるbodvw特徴の有用性について検討した。 以上の結果から,我々の特徴が安定かつ顕著な分類精度,特に他の肺炎との鑑別を,最先端の方法と比較して計算時間を短縮できることが判明した。 そこで本手法は,大規模に新型コロナウイルスの迅速診断に有用であると考えられた。

Because the infection by Severe Acute Respiratory Syndrome Coronavirus 2 (COVID-19) causes the pneumonia-like effect in the lungs, the examination of chest x-rays can help to diagnose the diseases. For automatic analysis of images, they are represented in machines by a set of semantic features. Deep Learning (DL) models are widely used to extract features from images. General deep features may not be appropriate to represent chest x-rays as they have a few semantic regions. Though the Bag of Visual Words (BoVW) based features are shown to be more appropriate for x-ray type of images, existing BoVW features may not capture enough information to differentiate COVID-19 infection from other pneumonia-related infections. In this paper, we propose a new BoVW method over deep features, called Bag of Deep Visual Words (BoDVW), by removing the feature map normalization step and adding deep features normalization step on the raw feature maps. This helps to preserve the semantics of each feature map that may have important clues to differentiate COVID-19 from pneumonia. We evaluate the effectiveness of our proposed BoDVW features in chest x-rays classification using Support Vector Machine (SVM) to diagnose COVID-19. Our results on a publicly available COVID-19 x-ray dataset reveal that our features produce stable and prominent classification accuracy, particularly differentiating COVID-19 infection from other pneumonia, in shorter computation time compared to the state-of-the-art methods. Thus, our method could be a very useful tool for quick diagnosis of COVID-19 patients on a large scale.
翻訳日:2021-04-17 17:20:29 公開日:2021-01-28
# 内視鏡データチャレンジのステレオ対応と再構成

Stereo Correspondence and Reconstruction of Endoscopic Data Challenge ( http://arxiv.org/abs/2101.01133v4 )

ライセンス: Link先を確認
Max Allan and Jonathan Mcleod and Congcong Wang and Jean Claude Rosenthal and Zhenglei Hu and Niklas Gard and Peter Eisert and Ke Xue Fu and Trevor Zeffiro and Wenyao Xia and Zhanshi Zhu and Huoling Luo and Fucang Jia and Xiran Zhang and Xiaohong Li and Lalith Sharan and Tom Kurmann and Sebastian Schmid and Raphael Sznitman and Dimitris Psychogyios and Mahdi Azizian and Danail Stoyanov and Lena Maier-Hein and Stefanie Speidel(参考訳) 中国深センで開かれたMICCAI 2019において, 内視鏡的サブチャレンジのステレオ対応と再構築を行った。 作業は、ブタのケーダバーで捉えた7つのトレーニングデータセットと2つの構造化光データのテストセットを用いて、深度推定を行うことであった。 これらはIntuitive surgeryのチームによって提供された。 チャレンジデイには10チームが参加した。 本論文は,課題終了後に提出された3つの追加手法と,これらのチームによるデータセットで見つかった問題に関する補足セクションを含む。

The stereo correspondence and reconstruction of endoscopic data sub-challenge was organized during the Endovis challenge at MICCAI 2019 in Shenzhen, China. The task was to perform dense depth estimation using 7 training datasets and 2 test sets of structured light data captured using porcine cadavers. These were provided by a team at Intuitive Surgical. 10 teams participated in the challenge day. This paper contains 3 additional methods which were submitted after the challenge finished as well as a supplemental section from these teams on issues they found with the dataset.
翻訳日:2021-04-11 22:55:50 公開日:2021-01-28
# (参考訳) 確率プログラムの効率的な推論のための制御-データ分離と論理条件伝達 [全文訳有]

Control-Data Separation and Logical Condition Propagation for Efficient Inference on Probabilistic Programs ( http://arxiv.org/abs/2101.01502v2 )

ライセンス: CC BY 4.0
Ichiro Hasuo, Yuichiro Oyabu, Clovis Eberhart, Kohei Suenaga, Kenta Cho, Shin-ya Katsumata(参考訳) 命令確率プログラムに対するベイズ推定のための新しいサンプリングアルゴリズムを提案する。 コントロールフローをデータから分離する階層アーキテクチャを備えている。トップレベルがコントロールフローをサンプリングし、ボトムレベルがトップレベルが選択したコントロールフローに沿ってデータ値をサンプリングする。 この分離により,確率的プログラムサンプリングにおいて,様々な言語に基づく解析手法を接続することが可能となる。 私たちはAnglican上にアルゴリズムを実装した。 実験結果は,特に while ループやまれな観測を行うプログラムに対して,アルゴリズムの効率性を示す。

We introduce a novel sampling algorithm for Bayesian inference on imperative probabilistic programs. It features a hierarchical architecture that separates control flows from data: the top-level samples a control flow, and the bottom level samples data values along the control flow picked by the top level. This separation allows us to plug various language-based analysis techniques in probabilistic program sampling; specifically, we use logical backward propagation of observations for sampling efficiency. We implemented our algorithm on top of Anglican. The experimental results demonstrate our algorithm's efficiency, especially for programs with while loops and rare observations.
翻訳日:2021-04-11 17:28:46 公開日:2021-01-28
# TrackMPNN: マルチオブジェクト追跡のためのメッセージパッシンググラフニューラルアーキテクチャ

TrackMPNN: A Message Passing Graph Neural Architecture for Multi-Object Tracking ( http://arxiv.org/abs/2101.04206v3 )

ライセンス: Link先を確認
Akshay Rangesh, Pranav Maheshwari, Mez Gebre, Siddhesh Mhatre, Vahid Ramezani, Mohan M. Trivedi(参考訳) 本研究は、グラフベースのデータ構造を用いて問題をモデル化するマルチオブジェクトトラッキング(mot)に対する従来の多くのアプローチに従い、この定式化を現代のニューラルネットワークに応用する。 この研究の主な貢献は、複数のタイムステップにまたがるデータアソシエーション問題を表す動的無方向性グラフに基づくフレームワークの作成と、それらのグラフ上で動作するメッセージパッシンググラフニューラルネットワーク(GNN)を使用して、すべてのアソシエーションに対して望ましい可能性を生み出すことである。 我々はさらに,複数の時間ステップを推論し,以前の誤りを訂正し,信念を更新し,長期記憶を有し,ミス/フェイル検出を処理できる,メモリ効率のよいリアルタイムオンラインアルゴリズムを作成するために対処しなければならない計算問題に対する解決策と提案を提供する。 これに加えて、当社のフレームワークは、時間的ウィンドウサイズの選択と、トレーニングに使用する損失の柔軟性を提供します。 本質的に、本研究では、教師付き学習から従来の手法を用いて学習すべきグラフベースのニューラルネットワークの種類をトレーニングするためのフレームワークを提供し、これらのトレーニングされたモデルを使用して、オンライン、リアルタイム、計算的に抽出可能な方法で新しいシーケンスを推論する。 提案手法の有効性とロバスト性を示すため、2Dボックスの位置とオブジェクトカテゴリのみを使用して各オブジェクトインスタンスのディスクリプタを構築する。 それにもかかわらず、我々のモデルは、複数の手作りや学習機能を利用する最先端のアプローチと同等に機能する。 自律運転のための人気のあるMOTベンチマークの実験、定性的な例、および競争結果は、提案手法の可能性を実証している。

This study follows many previous approaches to multi-object tracking (MOT) that model the problem using graph-based data structures, and adapts this formulation to make it amenable to modern neural networks. Our main contributions in this work are the creation of a framework based on dynamic undirected graphs that represent the data association problem over multiple timesteps, and a message passing graph neural network (GNN) that operates on these graphs to produce the desired likelihood for every association therein. We further provide solutions and propositions for the computational problems that need to be addressed to create a memory-efficient, real-time, online algorithm that can reason over multiple timesteps, correct previous mistakes, update beliefs, possess long-term memory, and handle missed/false detections. In addition to this, our framework provides flexibility in the choice of temporal window sizes to operate on and the losses used for training. In essence, this study provides a framework for any kind of graph based neural network to be trained using conventional techniques from supervised learning, and then use these trained models to infer on new sequences in an online, real-time, computationally tractable manner. To demonstrate the efficacy and robustness of our approach, we only use the 2D box location and object category to construct the descriptor for each object instance. Despite this, our model performs on par with state-of-the-art approaches that make use of multiple hand-crafted and/or learned features. Experiments, qualitative examples and competitive results on popular MOT benchmarks for autonomous driving demonstrate the promise and uniqueness of the proposed approach.
翻訳日:2021-04-04 14:32:13 公開日:2021-01-28
# 拡張自然言語間の翻訳としての構造化予測

Structured Prediction as Translation between Augmented Natural Languages ( http://arxiv.org/abs/2101.05779v2 )

ライセンス: Link先を確認
Giovanni Paolini, Ben Athiwaratkun, Jason Krone, Jie Ma, Alessandro Achille, Rishita Anubhai, Cicero Nogueira dos Santos, Bing Xiang, Stefano Soatto(参考訳) 本稿では,複合エンティティと関係抽出,ネスト名前付きエンティティ認識,関係分類,意味的役割ラベリング,イベント抽出,コリファレンス解決,対話状態追跡など,多くの構造化予測言語タスクを解決するための新しいフレームワークである拡張自然言語間翻訳(tanl)を提案する。 タスク固有の識別分類器を訓練することで問題に取り組む代わりに、タスク関連情報を容易に抽出できる拡張自然言語間の翻訳タスクとして構成する。 提案手法は,すべてのタスクにおいてタスク固有モデルに適合し,特に,結合エンティティと関係抽出(CoNLL04,ADE,NYT,ACE 2005データセット),関係分類(FewRel,TACRED),セマンティックロールラベル(CoNLL-2005,CoNLL-20 12)に関する新たな最先端結果が得られる。 すべてのタスクに対して同じアーキテクチャとハイパーパラメータを使用して、同時にひとつのモデルをトレーニングしてすべてのタスクを解決する場合(マルチタスク学習)、これを実現する。 最後に,このフレームワークはラベルセマンティクスの活用により,低リソース方式の性能を著しく向上させることができることを示す。

We propose a new framework, Translation between Augmented Natural Languages (TANL), to solve many structured prediction language tasks including joint entity and relation extraction, nested named entity recognition, relation classification, semantic role labeling, event extraction, coreference resolution, and dialogue state tracking. Instead of tackling the problem by training task-specific discriminative classifiers, we frame it as a translation task between augmented natural languages, from which the task-relevant information can be easily extracted. Our approach can match or outperform task-specific models on all tasks, and in particular, achieves new state-of-the-art results on joint entity and relation extraction (CoNLL04, ADE, NYT, and ACE2005 datasets), relation classification (FewRel and TACRED), and semantic role labeling (CoNLL-2005 and CoNLL-2012). We accomplish this while using the same architecture and hyperparameters for all tasks and even when training a single model to solve all tasks at the same time (multi-task learning). Finally, we show that our framework can also significantly improve the performance in a low-resource regime, thanks to better use of label semantics.
翻訳日:2021-03-29 00:58:09 公開日:2021-01-28
# (参考訳) 点雲の悪魔 : 点雲畳み込みのロバスト性の研究 [全文訳有]

The Devils in the Point Clouds: Studying the Robustness of Point Cloud Convolutions ( http://arxiv.org/abs/2101.07832v2 )

ライセンス: CC BY 4.0
Xingyi Li, Wenxuan Wu, Xiaoli Z. Fern, and Li Fuxin(参考訳) 近年,不規則にサンプリングされた点雲に対して畳み込みを行うことが注目されている。 点雲は通常のラスター像とは大きく異なるため、畳み込みネットワークのより緊密な一般化、特に入力データのスケールや回転の変動下でのロバスト性の研究が不可欠である。 本稿では,点雲上の畳み込みネットワークであるpointconvの異なる変種を調査し,入力スケールと回転変化に対するロバスト性について検討する。 私たちが調査した変種のうち、2つは新奇であり、大幅な改善をもたらした。 1つ目は、多層パーセプトロンに基づく重み関数を、ソボレフノルム正規化とともにより単純な3次多項式に置き換えることである。 次に, 3次元データ集合に対して, 3次元幾何学的性質を点convへの入力として, 正規な3次元座標に加えて, 新たな視点不変ディスクリプタを導出する。 また, 活性化関数の選択, 近傍, サブサンプリング法についても検討した。 2D MNISTとCIFAR-10データセットと3D SemanticKITTIとScanNetデータセットで実験が行われた。 その結果、第3次多項式を用いることで、MNISTデータセットの従来の2D CNNを超え、変化や回転をスケールするためのPointConvのロバスト性を大幅に向上することがわかった。 3Dデータセットでは、新しい視点不変記述子により、PointConvの堅牢性とパフォーマンスが大幅に向上する。 我々は、セマンティックKITTIデータセットの最先端セマンティックセマンティックセマンティクス性能と、ポイントベースアプローチのScanNetデータセット上で現在最高のフレームワークと同等のパフォーマンスを達成する。

Recently, there has been a significant interest in performing convolution over irregularly sampled point clouds. Since point clouds are very different from regular raster images, it is imperative to study the generalization of the convolution networks more closely, especially their robustness under variations in scale and rotations of the input data. This paper investigates different variants of PointConv, a convolution network on point clouds, to examine their robustness to input scale and rotation changes. Of the variants we explored, two are novel and generated significant improvements. The first is replacing the multilayer perceptron based weight function with much simpler third degree polynomials, together with a Sobolev norm regularization. Secondly, for 3D datasets, we derive a novel viewpoint-invariant descriptor by utilizing 3D geometric properties as the input to PointConv, in addition to the regular 3D coordinates. We have also explored choices of activation functions, neighborhood, and subsampling methods. Experiments are conducted on the 2D MNIST & CIFAR-10 datasets as well as the 3D SemanticKITTI & ScanNet datasets. Results reveal that on 2D, using third degree polynomials greatly improves PointConv's robustness to scale changes and rotations, even surpassing traditional 2D CNNs for the MNIST dataset. On 3D datasets, the novel viewpoint-invariant descriptor significantly improves the performance as well as robustness of PointConv. We achieve the state-of-the-art semantic segmentation performance on the SemanticKITTI dataset, as well as comparable performance with the current highest framework on the ScanNet dataset among point-based approaches.
翻訳日:2021-03-22 13:15:19 公開日:2021-01-28
# (参考訳) 抽象的タスク表現の学習 [全文訳有]

Learning Abstract Task Representations ( http://arxiv.org/abs/2101.07852v3 )

ライセンス: CC BY 4.0
Mikhail M. Meskhi, Adriano Rivolli, Rafael G. Mantovani, Ricardo Vilalta(参考訳) データキャラクタリゼーションの適切な形態は、学習アルゴリズムの選択とモデル性能推定のプロセスを導くことができる。 メタラーニングの分野は、さまざまなメタ特徴(統計学、モデルベース、情報理論、トポロジーなど)を用いた効果的なデータキャラクタリゼーション形式を記述する豊富な研究体系を提供している。 本稿では,既存のメタ機能集合から始め,深層ニューラルネットワークにおける潜伏変数としての新たな抽象メタ機能を実現する手法を提案する。 従来のメタ機能を直接使用する際の落とし穴について論じ、ハイレベルなタスク特性の学習の重要性を論じる。 機能抽出器としてディープニューラルネットワークを用いた手法を実証する。 1) 抽象メタモデルによる抽象メタモデルマッピングにより, 平均18%程度の性能が向上し, 2) 抽象メタモデルでは高い特徴値が得られた。

A proper form of data characterization can guide the process of learning-algorithm selection and model-performance estimation. The field of meta-learning has provided a rich body of work describing effective forms of data characterization using different families of meta-features (statistical, model-based, information-theoreti c, topological, etc.). In this paper, we start with the abundant set of existing meta-features and propose a method to induce new abstract meta-features as latent variables in a deep neural network. We discuss the pitfalls of using traditional meta-features directly and argue for the importance of learning high-level task properties. We demonstrate our methodology using a deep neural network as a feature extractor. We demonstrate that 1) induced meta-models mapping abstract meta-features to generalization performance outperform other methods by ~18% on average, and 2) abstract meta-features attain high feature-relevance scores.
翻訳日:2021-03-22 12:50:36 公開日:2021-01-28
# 教師付きディープラーニングのための変数ベースサンプル重み付け

Variance Based Samples Weighting for Supervised Deep Learning ( http://arxiv.org/abs/2101.07561v2 )

ライセンス: Link先を確認
Paul Novello (CEA, X, Inria), Ga\"el Po\"ette (CEA), David Lugato (CEA), Pietro Congedo (X, Inria)(参考訳) ニューラルネットワーク(NN)による関数の教師付き学習の文脈において、データセットの分布が学習する関数がより急な領域に焦点を当てたとき、NNがより良い結果をもたらすことを実証的に正当化する。 最初にこの仮定をテイラー展開を用いて数学的に動作する方法で記述する。 次に、理論的導出により、私たちがVBSW(Variance Based Samples Weighting)と呼ぶ方法論を構築することができる。 VBSWはトレーニングポイントの重み付けにラベルの局所的な分散を使用する。 この手法は、画像、テキスト、多変量データに対する様々な分類および回帰タスクのための大規模なNNの性能を大幅に向上させる。 我々はその利点を、浅い線形NNからResnetやBertまでNNを巻き込んだ実験で強調する。

In the context of supervised learning of a function by a Neural Network (NN), we claim and empirically justify that a NN yields better results when the distribution of the data set focuses on regions where the function to learn is steeper. We first traduce this assumption in a mathematically workable way using Taylor expansion. Then, theoretical derivations allow to construct a methodology that we call Variance Based Samples Weighting (VBSW). VBSW uses local variance of the labels to weight the training points. This methodology is general, scalable, cost effective, and significantly increases the performances of a large class of NNs for various classification and regression tasks on image, text and multivariate data. We highlight its benefits with experiments involving NNs from shallow linear NN to Resnet or Bert.
翻訳日:2021-03-22 11:26:42 公開日:2021-01-28
# (参考訳) SparseDNN: CPU上での高速なスパースディープラーニング推論 [全文訳有]

SparseDNN: Fast Sparse Deep Learning Inference on CPUs ( http://arxiv.org/abs/2101.07948v2 )

ライセンス: CC BY 4.0
Ziheng Wang(参考訳) ここ数年、効率的なディープラーニング推論をサポートするアルゴリズムやシステムに大きな飛躍を遂げてきた。 プルーニングと量子化アルゴリズムは、ニューラルネットワークを桁違いに圧縮することができるようになった。 圧縮ニューラルネットワークでは、ターゲットハードウェアの性能を最大化するために、多数の推論フレームワークが設計されている。 OpenVINOやMNNのようなプロダクションフレームワークにおける量子化ニューラルネットワークの成熟したサポートはありますが、刈り取ったスパースニューラルネットワークのサポートはまだ不足しています。 この課題に対処するために、CPUを対象としたスパース深層学習推論エンジンであるSparseDNNを紹介する。 スパース演算子を高速化するスパースコード生成器を備えたカーネルレベルの最適化と、スパースネットワークに対応する新しいネットワークレベルの最適化を提案する。 我々のスパースコードジェネレータは最先端のスパースライブラリや高密度ライブラリよりも大幅に高速化できることを示す。 Huggingface pruneBERTのようなエンドツーエンドのベンチマークでは、SparseDNNは最先端のOpenVINOによる高密度推論よりも最大5倍のスループット向上を実現している。

The last few years have seen gigantic leaps in algorithms and systems to support efficient deep learning inference. Pruning and quantization algorithms can now consistently compress neural networks by an order of magnitude. For a compressed neural network, a multitude of inference frameworks have been designed to maximize the performance of the target hardware. While we find mature support for quantized neural networks in production frameworks such as OpenVINO and MNN, support for pruned sparse neural networks is still lacking. To tackle this challenge, we present SparseDNN, a sparse deep learning inference engine targeting CPUs. We present both kernel-level optimizations with a sparse code generator to accelerate sparse operators and novel network-level optimizations catering to sparse networks. We show that our sparse code generator can achieve significant speedups over state-of-the-art sparse and dense libraries. On end-to-end benchmarks such as Huggingface pruneBERT, SparseDNN achieves up to 5x throughput improvement over dense inference with state-of-the-art OpenVINO.
翻訳日:2021-03-22 09:16:55 公開日:2021-01-28
# 非識別的誤測の非単調性について

On the Non-Monotonicity of a Non-Differentially Mismeasured Binary Confounder ( http://arxiv.org/abs/2101.08007v3 )

ライセンス: Link先を確認
Jose M. Pe\~na(参考訳) この関係がバイナリ共同設立者によって結合された結果に対するバイナリ処理の平均因果効果に興味があるとする。 共同創設者は観察されていないが、その非微分バイナリプロキシが観察されていると仮定する。 我々は、プロキシの調整が計算不能な真の平均因果効果に近づく条件を、まったく調整しないよりも特定する。 他の作品と異なり、共同創設者の成果に対する平均因果効果は、治療と未治療の間に同じ方向にあるとは考えていない。

Suppose that we are interested in the average causal effect of a binary treatment on an outcome when this relationship is confounded by a binary confounder. Suppose that the confounder is unobserved but a non-differential binary proxy of it is observed. We identify conditions under which adjusting for the proxy comes closer to the incomputable true average causal effect than not adjusting at all. Unlike other works, we do not assume that the average causal effect of the confounder on the outcome is in the same direction among treated and untreated.
翻訳日:2021-03-22 01:31:20 公開日:2021-01-28
# 二次残留ネットワーク:PDEを含む物理学における前方および逆問題の解法のためのニューラルネットワークの新しいクラス

Quadratic Residual Networks: A New Class of Neural Networks for Solving Forward and Inverse Problems in Physics Involving PDEs ( http://arxiv.org/abs/2101.08366v2 )

ライセンス: Link先を確認
Jie Bu, Anuj Karpatne(参考訳) 活性化関数を適用する前に入力の重み付け和に2次残差項を追加することにより、パラメータ効率のよいニューラルネットアーキテクチャの新たなタイプとして2次残差ネットワーク(QRes)を提案する。 十分に高い機能能力(あるいは表現力)で、偏微分方程式(PDE)を含む前方および逆物理問題を解くには特に強力であることを示す。 代数幾何学のツールを用いて、従来のニューラルネットワークとは対照的に、qreは各ニューロンの非線形性が高いため、ネットワーク幅と深さの点でより良いパラメータ効率を示すことを理論的に証明する。 最後に、特に複雑なパターンの学習において、qreはトレーニング回数の点で収束速度が速いことを実証的に示す。

We propose quadratic residual networks (QRes) as a new type of parameter-efficient neural network architecture, by adding a quadratic residual term to the weighted sum of inputs before applying activation functions. With sufficiently high functional capacity (or expressive power), we show that it is especially powerful for solving forward and inverse physics problems involving partial differential equations (PDEs). Using tools from algebraic geometry, we theoretically demonstrate that, in contrast to plain neural networks, QRes shows better parameter efficiency in terms of network width and depth thanks to higher non-linearity in every neuron. Finally, we empirically show that QRes shows faster convergence speed in terms of number of training epochs especially in learning complex patterns.
翻訳日:2021-03-22 01:16:55 公開日:2021-01-28
# 計算物理学における機械学習のためのtaylorに基づくサンプリングスキーム

A Taylor Based Sampling Scheme for Machine Learning in Computational Physics ( http://arxiv.org/abs/2101.11105v2 )

ライセンス: Link先を確認
Paul Novello (CEA, Inria, X), Ga\"el Po\"ette (CEA), David Lugato (CEA), Pietro Congedo (Inria, X)(参考訳) 機械学習(ML)は、物理シミュレーションのための代理モデルを構築するためにますます使われる。 数値シミュレーションプログラムによるデータ生成の利点を生かして,機械学習モデルのトレーニングを効率化し,性能コストを伴わずに精度向上を実現する。 本稿では,通常の微分方程式(ODE)システムの解を学習する際のディープニューラルネットワーク(DNN)の誤差を低減するために,テイラー近似に基づく新しいデータサンプリング手法について述べる。

Machine Learning (ML) is increasingly used to construct surrogate models for physical simulations. We take advantage of the ability to generate data using numerical simulations programs to train ML models better and achieve accuracy gain with no performance cost. We elaborate a new data sampling scheme based on Taylor approximation to reduce the error of a Deep Neural Network (DNN) when learning the solution of an ordinary differential equations (ODE) system.
翻訳日:2021-03-22 01:15:58 公開日:2021-01-28
# (参考訳) 時間的動作定位のためのアクティビティグラフトランスフォーマー [全文訳有]

Activity Graph Transformer for Temporal Action Localization ( http://arxiv.org/abs/2101.08540v2 )

ライセンス: CC BY 4.0
Megha Nawhal, Greg Mori(参考訳) 本稿では,時間的行動ローカライゼーションのためのエンドツーエンドの学習可能なモデルであるActivity Graph Transformerを紹介し,映像を入力として受信し,ビデオに現れる一連のアクションインスタンスを直接予測する。 非トリミングビデオにおけるアクションインスタンスの検出とローカライズには、ビデオ内の複数のアクションインスタンスを推論する必要がある。 文学における支配的なパラダイムは、動画を時間的に処理し、アクション領域を提案するか、フレームレベルの検出を直接生成する。 しかし、ビデオの逐次処理は、アクションインスタンスが重複したアクションインスタンスや、ビデオの経過中にアクションインスタンスが再帰するなど、非シーケンス依存および/または非線形の一時的な順序を持つ場合に問題となる。 本研究では,この非線形時間構造をグラフ形式で非系列エンティティとして推論することで捉えた。 我々は,挑戦的データセット(THUMOS14,Charades,E PIC-Kitchens-100。 以上の結果から,提案モデルが最先端モデルに匹敵する可能性が示唆された。

We introduce Activity Graph Transformer, an end-to-end learnable model for temporal action localization, that receives a video as input and directly predicts a set of action instances that appear in the video. Detecting and localizing action instances in untrimmed videos requires reasoning over multiple action instances in a video. The dominant paradigms in the literature process videos temporally to either propose action regions or directly produce frame-level detections. However, sequential processing of videos is problematic when the action instances have non-sequential dependencies and/or non-linear temporal ordering, such as overlapping action instances or re-occurrence of action instances over the course of the video. In this work, we capture this non-linear temporal structure by reasoning over the videos as non-sequential entities in the form of graphs. We evaluate our model on challenging datasets: THUMOS14, Charades, and EPIC-Kitchens-100. Our results show that our proposed model outperforms the state-of-the-art by a considerable margin.
翻訳日:2021-03-21 16:24:22 公開日:2021-01-28
# 自家用スパースRNNトレーニング

Selfish Sparse RNN Training ( http://arxiv.org/abs/2101.09048v2 )

ライセンス: Link先を確認
Shiwei Liu, Decebal Constantin Mocanu, Yulong Pei, Mykola Pechenizkiy(参考訳) スパースニューラルネットワークは、オーバーパラメータ化されたディープニューラルネットワークのトレーニングとデプロイに必要なリソース要件を減らすために広く応用されている。 推論加速には、事前訓練された高密度ネットワーク(dense-to-sparse)から空間性を誘導する手法が効果的に働く。 近年,密度の高いネットワーク(スパースからスパース)を事前学習することなくスパースニューラルネットワークをトレーニングするために動的スパーストレーニング(dst)が提案されている。 しかし,従来のスパース・ツー・スパース法は主にマルチレイヤ・パーセプトロン・ネットワーク(MLP)と畳み込みニューラルネットワーク(CNN)に重点を置いており,リカレント・ニューラルネットワーク(RNN)設定における密分・スパース法の性能にマッチしない。 本稿では,1回のランでパラメータ数を固定したスパースRNNを,性能を損なうことなく訓練する手法を提案する。 トレーニング中、より良い正規化のために、rnn層がセルゲートを横断する非一様再分配を許可する。 さらに,SNT-ASGDを導入することで,RNNのスパース学習手法の性能を大幅に向上させる。 これらの戦略を用いて,penn treebank と wikitext-2 データセット上の様々なタイプの rnn を用いて,最先端のスパーストレーニング結果を得る。

Sparse neural networks have been widely applied to reduce the necessary resource requirements to train and deploy over-parameterized deep neural networks. For inference acceleration, methods that induce sparsity from a pre-trained dense network (dense-to-sparse) work effectively. Recently, dynamic sparse training (DST) has been proposed to train sparse neural networks without pre-training a dense network (sparse-to-sparse), so that the training process can also be accelerated. However, previous sparse-to-sparse methods mainly focus on Multilayer Perceptron Networks (MLPs) and Convolutional Neural Networks (CNNs), failing to match the performance of dense-to-sparse methods in Recurrent Neural Networks (RNNs) setting. In this paper, we propose an approach to train sparse RNNs with a fixed parameter count in one single run, without compromising performance. During training, we allow RNN layers to have a non-uniform redistribution across cell gates for a better regularization. Further, we introduce SNT-ASGD, a variant of the averaged stochastic gradient optimizer, which significantly improves the performance of all sparse training methods for RNNs. Using these strategies, we achieve state-of-the-art sparse training results with various types of RNNs on Penn TreeBank and Wikitext-2 datasets.
翻訳日:2021-03-20 17:30:08 公開日:2021-01-28
# 行動検証によるフェデレーション学習における無標的中毒攻撃検出

Untargeted Poisoning Attack Detection in Federated Learning via Behavior Attestation ( http://arxiv.org/abs/2101.10904v2 )

ライセンス: Link先を確認
Ranwa Al Mallah, David Lopez, Bilal Farooq(参考訳) Federated Learning(FL)は機械学習(ML)のパラダイムであり、分散ノードを使用してグローバルモデルをトレーニングすることで、データのプライバシ、セキュリティ、アクセス権、異種情報へのアクセスに対処する。 その利点にもかかわらず、flベースのml技術によるサイバー攻撃は利益を損なう可能性がある。 FLに対するモデルポゾニング攻撃はモデルの可用性を目標とする。 敵対的な目的は訓練を中断することです。 悪意のあるワーカを検出するために,状態永続化を通じて個々のノードのトレーニングを監視する防御機構であるattestedflを提案する。 作業者の履歴のきめ細かい評価は、その行動の時間的評価を可能にし、革新的な検出戦略をもたらす。 ノードが本当に訓練されているかを観察し、目標に向かって進むことにより、作業者が信頼できるかどうかを評価することを目的とした3つの防衛線を示す。 我々の防御は攻撃者の悪意ある振る舞いを露呈し、信頼できないノードを集約プロセスから取り除き、FLプロセスはより早く収束する。 広範囲な評価とさまざまな敵対的設定により、AttestedFLは、収束の異なる段階で実行される攻撃、攻撃者が衝突し、連続攻撃などの異なるシナリオの下で、モデルの精度を12%から58%に向上させた。

Federated Learning (FL) is a paradigm in Machine Learning (ML) that addresses data privacy, security, access rights and access to heterogeneous information issues by training a global model using distributed nodes. Despite its advantages, there is an increased potential for cyberattacks on FL-based ML techniques that can undermine the benefits. Model-poisoning attacks on FL target the availability of the model. The adversarial objective is to disrupt the training. We propose attestedFL, a defense mechanism that monitors the training of individual nodes through state persistence in order to detect a malicious worker. A fine-grained assessment of the history of the worker permits the evaluation of its behavior in time and results in innovative detection strategies. We present three lines of defense that aim at assessing if the worker is reliable by observing if the node is really training, advancing towards a goal. Our defense exposes an attacker's malicious behavior and removes unreliable nodes from the aggregation process so that the FL process converge faster. Through extensive evaluations and against various adversarial settings, attestedFL increased the accuracy of the model between 12% to 58% under different scenarios such as attacks performed at different stages of convergence, attackers colluding and continuous attacks.
翻訳日:2021-03-16 09:16:56 公開日:2021-01-28
# (参考訳) El Volumen Louder Por Favor:タスク指向セマンティックパーシングにおけるコードスイッチング [全文訳有]

El Volumen Louder Por Favor: Code-switching in Task-oriented Semantic Parsing ( http://arxiv.org/abs/2101.10524v3 )

ライセンス: CC BY 4.0
Arash Einolghozati, Abhinav Arora, Lorena Sainz-Maza Lecanda, Anuj Kumar, Sonal Gupta(参考訳) スペイン語+英語やヒンディー語+英語などのコードスイッチト(CS)音声を解析できることは、タスク指向のセマンティックパーシングシステムを特定のローカル向けに民主化する上で不可欠である。 本研究では,スパングリッシュ(スペイン語+英語)に焦点を当て,セマンティックパースと合わせて5800のCS発話を含むデータセットCSTOPをリリースする。 各種言語間(XL)モデルのCS一般化性について検討し,1つの言語のみのデータが存在する場合,事前学習したXL言語モデルの利点を示す。 そのため、ゼロまたはいくつかのCSトレーニングインスタンスが利用可能な英語のコーパスのみの場合のトレーニング済みモデルの改善に重点を置いています。 本研究では,0ショットと数ショットの2つのデータ拡張手法を提案する。翻訳と整列による微調整と,生成モデルによる拡張と,それに続くマッチングとフィルタである。 上記の改善と数ショット設定を組み合わせることで、ゼロショットとフルデータ設定の間の最初の30ポイント精度のギャップを2/3減らすことができる。

Being able to parse code-switched (CS) utterances, such as Spanish+English or Hindi+English, is essential to democratize task-oriented semantic parsing systems for certain locales. In this work, we focus on Spanglish (Spanish+English) and release a dataset, CSTOP, containing 5800 CS utterances alongside their semantic parses. We examine the CS generalizability of various Cross-lingual (XL) models and exhibit the advantage of pre-trained XL language models when data for only one language is present. As such, we focus on improving the pre-trained models for the case when only English corpus alongside either zero or a few CS training instances are available. We propose two data augmentation methods for the zero-shot and the few-shot settings: fine-tune using translate-and-align and augment using a generation model followed by match-and-filter. Combining the few-shot setting with the above improvements decreases the initial 30-point accuracy gap between the zero-shot and the full-data settings by two thirds.
翻訳日:2021-03-14 14:50:54 公開日:2021-01-28
# (参考訳) EPIC-Survival: end-to-end Part Inferred Clustering for Survival Analysis, Featuring Prognostic Stratification Boosting [全文訳有]

EPIC-Survival: End-to-end Part Inferred Clustering for Survival Analysis, Featuring Prognostic Stratification Boosting ( http://arxiv.org/abs/2101.11085v2 )

ライセンス: CC BY 4.0
Hassan Muhammad, Chensu Xie, Carlie S. Sigel, Michael Doukas, Lindsay Alpert, and Thomas J. Fuchs(参考訳) 組織病理に基づく生存モデルには2つの大きなハードルがある。 第一に、がん患者コホートが異なるリスクグループに成層化に寄与しない場合、好ましくは組織学的形態によって誘導される場合、良好な生存モデルが最小限の臨床応用を有する。 臨床環境では、個人は特定の予後予測を与えられるのではなく、一般的な生存傾向を持つリスクグループ内にあると予測される。 したがって、生存モデルが十分にストラティファイドされたリスクグループを生成することは不可欠です。 第二に、これまで生存モデリングは、2段階のアプローチ(エンコーディングとアグリゲーション)で行われていました。 デジタル化されたスライド画像中の大量のピクセルは、データ処理の技術的制約のために最大限に活用されることはなかった。 EPIC-Survival Bridges encoding and aggregate into a end-to-endvivment modelling approach, while introduced Stratification boosting to the model to encourage the top top, and to discrimination between risk group。 本研究では、肝内胆管癌のモデル化においてEPIC-Survivalが他のアプローチよりも優れていることを示した。 さらに、成層化促進はモデル性能をさらに改善し、ホールドアウトテストセットで0.880の整合インデクスをもたらすことを示した。 また,ICCでは,低リスク群と高リスク群では,特に組織学的差異は認められなかった。

Histopathology-based survival modelling has two major hurdles. Firstly, a well-performing survival model has minimal clinical application if it does not contribute to the stratification of a cancer patient cohort into different risk groups, preferably driven by histologic morphologies. In the clinical setting, individuals are not given specific prognostic predictions, but are rather predicted to lie within a risk group which has a general survival trend. Thus, It is imperative that a survival model produces well-stratified risk groups. Secondly, until now, survival modelling was done in a two-stage approach (encoding and aggregation). The massive amount of pixels in digitized whole slide images were never utilized to their fullest extent due to technological constraints on data processing, forcing decoupled learning. EPIC-Survival bridges encoding and aggregation into an end-to-end survival modelling approach, while introducing stratification boosting to encourage the model to not only optimize ranking, but also to discriminate between risk groups. In this study we show that EPIC-Survival performs better than other approaches in modelling intrahepatic cholangiocarcinoma, a historically difficult cancer to model. Further, we show that stratification boosting improves further improves model performance, resulting in a concordance-index of 0.880 on a held-out test set. Finally, we were able to identify specific histologic differences, not commonly sought out in ICC, between low and high risk groups.
翻訳日:2021-03-14 01:30:41 公開日:2021-01-28
# リモートセンシングのための量子機械学習の利点とボトルネック

Advantages and Bottlenecks of Quantum Machine Learning for Remote Sensing ( http://arxiv.org/abs/2101.10657v2 )

ライセンス: Link先を確認
Daniela A. Zaidenberg, Alessandro Sebastianelli, Dario Spiller, Silvia Liberata Ullo(参考訳) 本稿では,量子コンピュータの概要,量子画像分類手法の既存手法の探求,リモートセンシングアプリケーションを中心に,これらのアルゴリズムを現在利用可能なオープンソースプラットフォーム上で実行するボトルネックについて論じる。 最初の結果は実現可能性を示す。 次のステップでは、量子隠蔽層のサイズを拡大し、さまざまな出力イメージオプションを拡大する。

This concept paper aims to provide a brief outline of quantum computers, explore existing methods of quantum image classification techniques, so focusing on remote sensing applications, and discuss the bottlenecks of performing these algorithms on currently available open source platforms. Initial results demonstrate feasibility. Next steps include expanding the size of the quantum hidden layer and increasing the variety of output image options.
翻訳日:2021-03-13 20:01:17 公開日:2021-01-28
# CPTR:画像キャプチャのためのフルトランスネットワーク

CPTR: Full Transformer Network for Image Captioning ( http://arxiv.org/abs/2101.10804v3 )

ライセンス: Link先を確認
Wei Liu, Sihan Chen, Longteng Guo, Xinxin Zhu, Jing Liu(参考訳) 本稿では,画像キャプションタスクを新しいシーケンスからシーケンスへ予測する視点から検討し,逐次的なraw画像をトランスフォーマティブに入力するキャプショントランスフォーマ(cptr)を提案する。 cnn+transformer"設計パラダイムと比較すると,本モデルは最初からすべてのエンコーダ層でグローバルコンテキストをモデル化でき,完全に畳み込み不要である。 MSCOCOデータセット上で,提案モデルの有効性を実証し,従来のCNN+Transformer法を超越した実験を行った。 さらに、エンコーダのパッチとデコーダの"words-to-patches&quo t;注意の間の自己アテンションを、完全なトランスフォーマアーキテクチャによって詳細に可視化する。

In this paper, we consider the image captioning task from a new sequence-to-sequence prediction perspective and propose CaPtion TransformeR (CPTR) which takes the sequentialized raw images as the input to Transformer. Compared to the "CNN+Transformer" design paradigm, our model can model global context at every encoder layer from the beginning and is totally convolution-free. Extensive experiments demonstrate the effectiveness of the proposed model and we surpass the conventional "CNN+Transformer" methods on the MSCOCO dataset. Besides, we provide detailed visualizations of the self-attention between patches in the encoder and the "words-to-patches&quo t; attention in the decoder thanks to the full Transformer architecture.
翻訳日:2021-03-13 19:51:43 公開日:2021-01-28
# ドメイン適応セマンティックセマンティックセグメンテーションのためのPseudo Label Denoisingとターゲット構造学習

Prototypical Pseudo Label Denoising and Target Structure Learning for Domain Adaptive Semantic Segmentation ( http://arxiv.org/abs/2101.10979v2 )

ライセンス: Link先を確認
Pan Zhang, Bo Zhang, Ting Zhang, Dong Chen, Yong Wang, Fang Wen(参考訳) 自己トレーニングは、ターゲットドメイン上の擬似ラベルでネットワークを訓練するドメイン適応セグメンテーションにおける競争的なアプローチです。 しかし、必然的に、擬似ラベルは騒々しく、ソースとターゲットドメインの相違のためにターゲット特徴は分散されます。 本稿では,教師なしドメイン適応のための2つの問題に対処するために,クラスの特徴センタロイドである代表的なプロトタイプに依存する。 特に、さらに一歩進めて、単なるプロトタイプよりも豊富な情報を提供するプロトタイプからの特徴距離を活用します。 具体的には、擬似ラベルの可能性を推定し、トレーニング中のオンライン修正を容易にする。 一方、同じターゲットの2つの異なるビューに対して、相対的特徴距離に基づいて原型割り当てを調整し、よりコンパクトなターゲット特徴空間を生成する。 さらに,学習済みの知識を自己教師付き事前学習モデルに蒸留することで,さらなる性能向上が期待できる。 本手法は最先端手法よりも優れた性能を示す。 私たちはそのコードを公開します。

Self-training is a competitive approach in domain adaptive segmentation, which trains the network with the pseudo labels on the target domain. However inevitably, the pseudo labels are noisy and the target features are dispersed due to the discrepancy between source and target domains. In this paper, we rely on representative prototypes, the feature centroids of classes, to address the two issues for unsupervised domain adaptation. In particular, we take one step further and exploit the feature distances from prototypes that provide richer information than mere prototypes. Specifically, we use it to estimate the likelihood of pseudo labels to facilitate online correction in the course of training. Meanwhile, we align the prototypical assignments based on relative feature distances for two different views of the same target, producing a more compact target feature space. Moreover, we find that distilling the already learned knowledge to a self-supervised pretrained model further boosts the performance. Our method shows tremendous performance advantage over state-of-the-art methods. We will make the code publicly available.
翻訳日:2021-03-13 19:50:48 公開日:2021-01-28
# (参考訳) LSTM-SAKT: LSTMエンコードSAKTライクトランス for Knowledge Tracing, 2位ソリューション for Riiid! 答えの正確性予測 [全文訳有]

LSTM-SAKT: LSTM-Encoded SAKT-like Transformer for Knowledge Tracing, 2nd place solution for Riiid! Answer Correctness Prediction ( http://arxiv.org/abs/2102.00845v1 )

ライセンス: CC BY 4.0
Takashi Oya and Shigeo Morishima(参考訳) 本稿では,Riiid!の2位解について紹介する。 Answer Correctness Prediction in Kaggle - 世界最大のデータサイエンスコンペティションサイト。 この大会は2020年10月16日から2021年1月7日まで開催され、3395チームと4387の競技者が参加した。 本論文の主な洞察と貢献は以下のとおりである。 (i)既存のトランスフォーマーモデルでは、クエリー/キー/値が含んでいる情報が限られていることが指摘されている。 そこで我々は,LSTMを用いてクエリ/キー/値を得る手法を提案し,その有効性を検証した。 (ii) 質問が混在するデータセットで発生する‘コンテナ間’リーク問題について指摘した。 この問題を解決するために、RNN-variants と Transformer を使用する際に有用な特別なインデックス化/マスキング手法を示した。 (iii) 変圧器の限界を克服するために手作りの付加的な特徴が有効であり, シーケンス長よりも古いサンプルは考慮できないことがわかった。

This paper introduces the 2nd place solution for the Riiid! Answer Correctness Prediction in Kaggle, the world's largest data science competition website. This competition was held from October 16, 2020, to January 7, 2021, with 3395 teams and 4387 competitors. The main insights and contributions of this paper are as follows. (i) We pointed out existing Transformer-based models are suffering from a problem that the information which their query/key/value can contain is limited. To solve this problem, we proposed a method that uses LSTM to obtain query/key/value and verified its effectiveness. (ii) We pointed out 'inter-container' ; leakage problem, which happens in datasets where questions are sometimes served together. To solve this problem, we showed special indexing/masking techniques that are useful when using RNN-variants and Transformer. (iii) We found additional hand-crafted features are effective to overcome the limits of Transformer, which can never consider the samples older than the sequence length.
翻訳日:2021-02-03 04:57:26 公開日:2021-01-28
# (参考訳) VRoC:テキストに基づく変分オートエンコーダ支援マルチタスク噂分類器 [全文訳有]

VRoC: Variational Autoencoder-aided Multi-task Rumor Classifier Based on Text ( http://arxiv.org/abs/2102.00816v1 )

ライセンス: CC BY 4.0
Mingxi Cheng, Shahin Nazarian, Paul Bogdan(参考訳) ソーシャルメディアが普及し、私たちの日常生活のほぼすべての側面に浸透した。 オンライン投稿は個々のユーザーにとって非常に便利だが、様々な噂の流布を促進する。 噂の迅速かつ広い浸透は、永続的な有害または有害な影響を引き起こす可能性があります。 したがって、研究者は噂のネガティブな影響を減らすことに多大な努力を払っている。 この目的のために、噂分類システムはソーシャルメディアの噂を検出し、追跡し、検証することを目的としています。 このようなシステムは通常、 (i) 噂検出器、 (ii) 噂追跡器、 (iii) 姿勢分類器、 (iv) 精度分類器の4つの構成要素を含む。 噂検出,追跡,検証の最先端性を改善するために,ツイートレベルの変分自動エンコーダに基づく噂分類システムであるVRoCを提案する。 VRoCは、変分オートエンコーダ(VAE)と噂の分類コンポーネントを訓練するコトレインエンジンで構成されている。 コトレインエンジンは、VAEが潜在表現を分類器フレンドリに調整するのに役立ちます。 また、VRoCが未確認の噂を高い精度で分類できることも示しています。 PHEMEデータセットでは、VRoCは観測された噂と観測されていない噂の両方において、マクロF1スコアで最大26.9%の最先端技術より一貫して優れている。

Social media became popular and percolated almost all aspects of our daily lives. While online posting proves very convenient for individual users, it also fosters fast-spreading of various rumors. The rapid and wide percolation of rumors can cause persistent adverse or detrimental impacts. Therefore, researchers invest great efforts on reducing the negative impacts of rumors. Towards this end, the rumor classification system aims to detect, track, and verify rumors in social media. Such systems typically include four components: (i) a rumor detector, (ii) a rumor tracker, (iii) a stance classifier, and (iv) a veracity classifier. In order to improve the state-of-the-art in rumor detection, tracking, and verification, we propose VRoC, a tweet-level variational autoencoder-based rumor classification system. VRoC consists of a co-train engine that trains variational autoencoders (VAEs) and rumor classification components. The co-train engine helps the VAEs to tune their latent representations to be classifier-friendly. We also show that VRoC is able to classify unseen rumors with high levels of accuracy. For the PHEME dataset, VRoC consistently outperforms several state-of-the-art techniques, on both observed and unobserved rumors, by up to 26.9%, in terms of macro-F1 scores.
翻訳日:2021-02-03 01:01:28 公開日:2021-01-28
# (参考訳) CoordiQ : 電気自動車充電レコメンデーションのための協調Qラーニング [全文訳有]

CoordiQ : Coordinated Q-learning for Electric Vehicle Charging Recommendation ( http://arxiv.org/abs/2102.00847v1 )

ライセンス: CC BY 4.0
Carter Blum, Hao Liu, Hui Xiong(参考訳) 電気自動車の利用は急速に増加しているが、充電するステーションは需要に応えてはいないため、効率のよいステーションへの車両のルーティングは、最大効率で運用するには不可欠である。 どの駅にドライバーを推薦するかを決めることは、多くの可能性のある推奨事項、揮発性利用パターン、および時間的に推奨の延長結果を伴う複雑な問題です。 強化学習は、シーケンシャルな意思決定問題を解決するための強力なパラダイムを提供するが、従来の手法は、起こりうるアクションの数が多いため、サンプル効率に苦しむことがある。 動作の複雑な表現を可能にするモデルを開発することにより,シミュレーションにおける既存のベースラインと比較して,システム利用者の成果を30%以上改善する。 広く実装されれば、これらのより良い推奨事項は、毎年400万人以上の待ち時間や運転時間を節約できます。

Electric vehicles have been rapidly increasing in usage, but stations to charge them have not always kept up with demand, so efficient routing of vehicles to stations is critical to operating at maximum efficiency. Deciding which stations to recommend drivers to is a complex problem with a multitude of possible recommendations, volatile usage patterns and temporally extended consequences of recommendations. Reinforcement learning offers a powerful paradigm for solving sequential decision-making problems, but traditional methods may struggle with sample efficiency due to the high number of possible actions. By developing a model that allows complex representations of actions, we improve outcomes for users of our system by over 30% when compared to existing baselines in a simulation. If implemented widely, these better recommendations can globally save over 4 million person-hours of waiting and driving each year.
翻訳日:2021-02-02 19:30:13 公開日:2021-01-28
# Jane Jacobs in the Sky: Predicting Urban Vitality with Open Satellite Data

Jane Jacobs in the Sky: Predicting Urban Vitality with Open Satellite Data ( http://arxiv.org/abs/2102.00848v1 )

ライセンス: Link先を確認
Sanja \v{S}\'cepanovi\'c, Sagar Joglekar, Stephen Law, Daniele Quercia(参考訳) 一日中の都市部の人々の存在(しばしば「都市活力」と呼ばれる)は、世界クラスの都市が最も熱望する質の1つだが、達成するのが最も難しいことの1つである。 1970年代に、ジェーン・ジェイコブスは都市活力を理論化し、都市における生活の促進に必要な4つの条件があることを発見した:土地利用の多様性、小さなブロックサイズ、経済活動の混合、人々の集中。 これら4つの条件のプロキシを構築し、最終的にジェーン・ジェイコブスの理論を大規模に検証するために、研究者は様々なソースからプライベートデータとパブリックデータの両方を収集しなければならなかった。 ここでは、Sentinel-2衛星画像が一般に公開されている1つのデータソースの使用を提案します。 特に,最初の2つの条件(土地利用の多様性と小ブロックサイズ)は衛星画像から肉眼で見られるため,最先端のディープラーニングフレームワークで自動的に抽出できるかどうか,最終的に抽出した特徴が活力を予測できるかどうかを検証した。 イタリアの6都市でデータ記録を呼び出したところ、我々の枠組みは、これらの記録から抽出された都市活力の変動の55%を平均で説明できることがわかった。

The presence of people in an urban area throughout the day -- often called 'urban vitality' -- is one of the qualities world-class cities aspire to the most, yet it is one of the hardest to achieve. Back in the 1970s, Jane Jacobs theorized urban vitality and found that there are four conditions required for the promotion of life in cities: diversity of land use, small block sizes, the mix of economic activities, and concentration of people. To build proxies for those four conditions and ultimately test Jane Jacobs's theory at scale, researchers have had to collect both private and public data from a variety of sources, and that took decades. Here we propose the use of one single source of data, which happens to be publicly available: Sentinel-2 satellite imagery. In particular, since the first two conditions (diversity of land use and small block sizes) are visible to the naked eye from satellite imagery, we tested whether we could automatically extract them with a state-of-the-art deep-learning framework and whether, in the end, the extracted features could predict vitality. In six Italian cities for which we had call data records, we found that our framework is able to explain on average 55% of the variance in urban vitality extracted from those records.
翻訳日:2021-02-02 15:34:00 公開日:2021-01-28
# (参考訳) 事前学習言語モデルと構造化知識の組み合わせ [全文訳有]

Combining pre-trained language models and structured knowledge ( http://arxiv.org/abs/2101.12294v1 )

ライセンス: CC BY 4.0
Pedro Colon-Hernandez, Catherine Havasi, Jason Alonso, Matthew Huggins, Cynthia Breazeal(参考訳) 近年、トランスフォーマーベースの言語モデルが様々なnlpベンチマークで最先端の技術性能を達成している。 これらのモデルは、非構造化テキストから、ほとんど分布的情報といくつかの意味論を抽出できるが、知識グラフなどの構造化情報をこれらのモデルに統合することは困難であることが証明されている。 我々は、構造化知識を現在の言語モデルに統合し、課題を特定し、構造化情報と非構造化情報の両方を活用するための様々なアプローチを検討する。 私たちの調査から、アダプターベースのインジェクションを活用する機会がまだあり、探索されたさまざまなアプローチを1つのシステムにさらに組み合わせることが可能であることが分かりました。

In recent years, transformer-based language models have achieved state of the art performance in various NLP benchmarks. These models are able to extract mostly distributional information with some semantics from unstructured text, however it has proven challenging to integrate structured information, such as knowledge graphs into these models. We examine a variety of approaches to integrate structured knowledge into current language models and determine challenges, and possible opportunities to leverage both structured and unstructured information sources. From our survey, we find that there are still opportunities at exploiting adapter-based injections and that it may be possible to further combine various of the explored approaches into one system.
翻訳日:2021-02-02 04:27:25 公開日:2021-01-28
# (参考訳) 位置、パディング、予測:CNNにおける位置情報のより深い考察 [全文訳有]

Position, Padding and Predictions: A Deeper Look at Position Information in CNNs ( http://arxiv.org/abs/2101.12322v1 )

ライセンス: CC0 1.0
Md Amirul Islam, Matthew Kowal, Sen Jia, Konstantinos G. Derpanis, and Neil D. B. Bruce(参考訳) 完全接続されたネットワークとは対照的に、畳み込みニューラルネットワーク(cnns)は、有限の空間範囲の局所フィルタに関連する重みを学習することで効率を上げる。 この意味は、フィルタが見ているものを知っているかもしれないが、それが画像に配置されている場所ではないということです。 本稿では,まずこの仮説を検証し,一般的なCNNにおいて絶対位置情報が符号化されていることを示す。 ゼロパディングはCNNに内部表現の位置情報を符号化させるが、パディングの欠如は位置符号化を妨げていることを示す。 これはCNNにおける位置情報の役割についてのより深い質問を引き起こします。(i) 下流タスクに最適な位置エンコーディングを可能にする境界ヒューリスティックは? ; (ii) 位置エンコーディングは意味表現の学習に影響を与えるか? ; (iii) 位置エンコーディングは常にパフォーマンスを改善しますか? そこで我々は,CNNにおけるパディングと境界ヒューリスティックスの役割について,これまでで最大規模のケーススタディを実施している。 境界までの距離の関数として境界効果を定量化できる新しいタスクを設計します。 多くの意味的目的が境界が意味表現に与える影響を明らかにしている。 最後に、これらの発見が複数の実世界のタスクに与える影響を実証し、位置情報がパフォーマンスの助けになるか、あるいは損なうかを示す。

In contrast to fully connected networks, Convolutional Neural Networks (CNNs) achieve efficiency by learning weights associated with local filters with a finite spatial extent. An implication of this is that a filter may know what it is looking at, but not where it is positioned in the image. In this paper, we first test this hypothesis and reveal that a surprising degree of absolute position information is encoded in commonly used CNNs. We show that zero padding drives CNNs to encode position information in their internal representations, while a lack of padding precludes position encoding. This gives rise to deeper questions about the role of position information in CNNs: (i) What boundary heuristics enable optimal position encoding for downstream tasks?; (ii) Does position encoding affect the learning of semantic representations?; (iii) Does position encoding always improve performance? To provide answers, we perform the largest case study to date on the role that padding and border heuristics play in CNNs. We design novel tasks which allow us to quantify boundary effects as a function of the distance to the border. Numerous semantic objectives reveal the effect of the border on semantic representations. Finally, we demonstrate the implications of these findings on multiple real-world tasks to show that position information can both help or hurt performance.
翻訳日:2021-02-02 02:46:38 公開日:2021-01-28
# (参考訳) 複雑値ニューラルネットワークに関する研究 [全文訳有]

A Survey of Complex-Valued Neural Networks ( http://arxiv.org/abs/2101.12249v1 )

ライセンス: CC BY 4.0
Joshua Bassey, Lijun Qian, Xianfang Li(参考訳) 人工知能ニューラルネットワーク(ANN)ベースの機械学習モデル、特にディープラーニングモデルは、コンピュータビジョン、信号処理、無線通信など、複雑な数値が自然あるいは設計によって発生する多くの分野に広く適用されている。 しかし、現在のANNと機械学習フレームワークの実装のほとんどは、複素数ではなく実数を使っている。 複素数を用いてANNを構築することに関心が高まり、現実値のそれに対するいわゆる複素値ニューラルネットワーク(CVNN)の潜在的なアドバンテージを探求する。 本稿では,CVNNの最近の発展について,文献におけるCVNNに関する研究を実践して論じる。 具体的には、アクティベーション機能、学習と最適化、入力と出力の表現、および信号処理やコンピュータビジョンなどのタスクにおけるそれらの応用に関する詳細なレビューを行い、それに続くいくつかの課題と今後の研究方向性について論じる。

Artificial neural networks (ANNs) based machine learning models and especially deep learning models have been widely applied in computer vision, signal processing, wireless communications, and many other domains, where complex numbers occur either naturally or by design. However, most of the current implementations of ANNs and machine learning frameworks are using real numbers rather than complex numbers. There are growing interests in building ANNs using complex numbers, and exploring the potential advantages of the so-called complex-valued neural networks (CVNNs) over their real-valued counterparts. In this paper, we discuss the recent development of CVNNs by performing a survey of the works on CVNNs in the literature. Specifically, a detailed review of various CVNNs in terms of activation function, learning and optimization, input and output representations, and their applications in tasks such as signal processing and computer vision are provided, followed by a discussion on some pertinent challenges and future research directions.
翻訳日:2021-02-02 00:05:16 公開日:2021-01-28
# (参考訳) 幾何学からトポロジーへ:分散持続性に対する逆定理 [全文訳有]

From Geometry to Topology: Inverse Theorems for Distributed Persistence ( http://arxiv.org/abs/2101.12288v1 )

ライセンス: CC BY-SA 4.0
Elchanan Solomon, Alex Wagner, Paul Bendich(参考訳) 大点雲 X の「右」位相不変量は何ですか。 それまでの研究は、計算するのに非常に高価で、外れ値に不安定で、十分な統計量からは程遠いXの完全な永続化図の推定に重点を置いていた。 したがって、正しい不変量は X の永続化図ではなく、多くの小さな部分集合の永続化図の集合であることを提案する。 この不変量は「分散永続性」と呼ばれ、自明に並列化可能であり、外れ値に対してより安定であり、リッチな逆理論を持つ。 点群の空間(準アイソメトリーメトリックを持つ)から分散永続不変量の空間(ハウスドルフ・ボトルネック距離を持つ)への写像は、グローバルな準アイソメトリーである。 これは単に注入的であるよりもはるかに強い性質であり、小さな近傍の逆元は小さな近傍であり、我々の知識がtdaの文献においてこの種の結果の唯一のものであることを意味する。 さらに、準等方性境界は取られた部分集合のサイズに依存するので、これらの部分集合のサイズが小さいから大きいほど、不変量は純粋に幾何学的なものと位相的なものの間を補間する。 最後に、我々の逆結果は、実際には固定サイズのすべての部分集合(巨大なコレクション)を考える必要はなく、ランダムに部分集合をサンプリングする際に高い確率で生じる被覆特性を満たす比較的小さな集合である。 これらの理論的結果は、実際に分散持続性の使用を実証する2つの合成実験によって補完される。

What is the "right" topological invariant of a large point cloud X? Prior research has focused on estimating the full persistence diagram of X, a quantity that is very expensive to compute, unstable to outliers, and far from a sufficient statistic. We therefore propose that the correct invariant is not the persistence diagram of X, but rather the collection of persistence diagrams of many small subsets. This invariant, which we call "distributed persistence," is trivially parallelizable, more stable to outliers, and has a rich inverse theory. The map from the space of point clouds (with the quasi-isometry metric) to the space of distributed persistence invariants (with the Hausdorff-Bottleneck distance) is a global quasi-isometry. This is a much stronger property than simply being injective, as it implies that the inverse of a small neighborhood is a small neighborhood, and is to our knowledge the only result of its kind in the TDA literature. Moreover, the quasi-isometry bounds depend on the size of the subsets taken, so that as the size of these subsets goes from small to large, the invariant interpolates between a purely geometric one and a topological one. Lastly, we note that our inverse results do not actually require considering all subsets of a fixed size (an enormous collection), but a relatively small collection satisfying certain covering properties that arise with high probability when randomly sampling subsets. These theoretical results are complemented by two synthetic experiments demonstrating the use of distributed persistence in practice.
翻訳日:2021-02-01 21:50:02 公開日:2021-01-28
# Puzzle-CAM: 部分機能とフル機能のマッチングによるローカリゼーションの改善

Puzzle-CAM: Improved localization via matching partial and full features ( http://arxiv.org/abs/2101.11253v2 )

ライセンス: Link先を確認
Sanghyun Jo, In-Jae Yu(参考訳) ピクセルレベルの監督から画像レベルの監督までセマンティックセグメンテーションのパフォーマンスのギャップを狭めるために、Wakly-supervised semantic segmentation (WSSS)が導入された。 ほとんどの高度なアプローチは、セグメンテーションネットワークをトレーニングするために擬似ラベルを生成するクラスアクティベーションマップ(CAM)に基づいている。 WSSSの主な制限は、画像分類器を使用するCAMから擬似ラベルを生成するプロセスが、主にオブジェクトの最も識別性の高い部分に焦点を当てていることである。 そこで本研究では,異なるパッチと画像全体の特徴の違いを最小限に抑えるプロセスであるPuzzle-CAMを提案する。 本手法はパズルモジュールと2つの正規化項からなり,物体の最も統合された領域を探索する。 Puzzle-CAMは、余分なパラメータを必要とせずに、画像レベルの監視を使用してオブジェクトの全体領域を活性化することができる。 実験では,pascal voc 2012テストデータセットの監視に同じラベルを用いた従来の最先端手法を上回っていた。 実験では、Puzzle-CAMはPASCAL VOC 2012データセットの監視のために同じラベルを使用した従来の最先端手法よりも優れていた。 実験に関連するコードは \url{https://github.com/O FRIN/PuzzleCAM} で入手できます。

Weakly-supervised semantic segmentation (WSSS) is introduced to narrow the gap for semantic segmentation performance from pixel-level supervision to image-level supervision. Most advanced approaches are based on class activation maps (CAMs) to generate pseudo-labels to train the segmentation network. The main limitation of WSSS is that the process of generating pseudo-labels from CAMs that use an image classifier is mainly focused on the most discriminative parts of the objects. To address this issue, we propose Puzzle-CAM, a process that minimizes differences between the features from separate patches and the whole image. Our method consists of a puzzle module and two regularization terms to discover the most integrated region in an object. Puzzle-CAM can activate the overall region of an object using image-level supervision without requiring extra parameters. % In experiments, Puzzle-CAM outperformed previous state-of-the-art methods using the same labels for supervision on the PASCAL VOC 2012 test dataset. In experiments, Puzzle-CAM outperformed previous state-of-the-art methods using the same labels for supervision on the PASCAL VOC 2012 dataset. Code associated with our experiments is available at \url{https://github.com/O FRIN/PuzzleCAM}.
翻訳日:2021-02-01 19:46:44 公開日:2021-01-28
# 制約グラフに基づくニューラル文順序付け

Neural Sentence Ordering Based on Constraint Graphs ( http://arxiv.org/abs/2101.11178v2 )

ライセンス: Link先を確認
Yutao Zhu, Kun Zhou, Jian-Yun Nie, Shengchao Liu, Zhicheng Dou(参考訳) 文順序付けは、正しい順序で文のリストを整理することを目的としている。 異なる距離の文順が異なる種類の情報に依存する可能性があるという観測に基づいて、文間の多粒秩序に基づく新しいアプローチを考案する。 これらの順序は複数の制約グラフを形成し、グラフ同型ネットワークによってエンコードされ、文表現に融合される。 最後に、順序付き文表現を用いて文順を決定する。 5つのベンチマークデータセットを用いた実験により,提案手法は既存のベースラインを著しく上回り,新しい最先端性能を実現していることがわかった。 その結果,複数の順序情報を考慮したグラフニューラルネットワークを用いて文の内容と順序情報を統合するという利点が得られた。 私たちのコードはhttps://github.com/D aoD/ConstraintGraph4 NSOで利用可能です。

Sentence ordering aims at arranging a list of sentences in the correct order. Based on the observation that sentence order at different distances may rely on different types of information, we devise a new approach based on multi-granular orders between sentences. These orders form multiple constraint graphs, which are then encoded by Graph Isomorphism Networks and fused into sentence representations. Finally, sentence order is determined using the order-enhanced sentence representations. Our experiments on five benchmark datasets show that our method outperforms all the existing baselines significantly, achieving a new state-of-the-art performance. The results demonstrate the advantage of considering multiple types of order information and using graph neural networks to integrate sentence content and order information for the task. Our code is available at https://github.com/D aoD/ConstraintGraph4 NSO.
翻訳日:2021-02-01 19:41:46 公開日:2021-01-28
# 生成型マルチラベルゼロショット学習

Generative Multi-Label Zero-Shot Learning ( http://arxiv.org/abs/2101.11606v2 )

ライセンス: Link先を確認
Akshita Gupta, Sanath Narayan, Salman Khan, Fahad Shahbaz Khan, Ling Shao, Joost van de Weijer(参考訳) マルチラベルゼロショット学習は、トレーニング中にデータが入手できない複数の見えないカテゴリにイメージを分類する試みである。 テストサンプルは、一般化変種に見られるカテゴリも追加で含めることができる。 既存のアプローチは、見たクラスから共有またはラベル固有の注意を学習することに依存します。 それでも、マルチラベル設定での推論中に見つからないクラスに対する信頼性の高い注意マップの計算は依然として課題である。 対照的に、最先端の単一ラベル生成敵対ネットワーク(GAN)ベースのアプローチは、対応するクラス属性埋め込みからクラス固有の視覚機能を直接合成することを学びます。 しかし、gansからマルチラベル機能を合成することは、ゼロショット設定の文脈ではまだ未検討である。 本稿では,属性レベル,機能レベル,クロスレベル(across属性と機能レベル)で異なる融合アプローチを導入し,対応するマルチラベルクラス埋め込みからマルチラベル機能を合成する。 私たちの知識を最大限に活かすために、私たちの仕事は(一般化された)ゼロショット設定におけるマルチラベル機能合成の問題に取り組む最初のものです。 NUS-WIDE、Open Images、MS COCOの3つのゼロショット画像分類ベンチマークで包括的な実験を行います。 当社のクロスレベル融合ベースのジェネレーティブアプローチは、すべての3つのデータセットの最先端を上回ります。 さらに、MS COCOのゼロショット検出タスクにおけるフュージョンアプローチの一般化能力を示し、既存の手法に対して良好な性能を発揮します。 ソースコードはhttps://github.com/a kshitac8/Generative_ MLZSLで入手できる。

Multi-label zero-shot learning strives to classify images into multiple unseen categories for which no data is available during training. The test samples can additionally contain seen categories in the generalized variant. Existing approaches rely on learning either shared or label-specific attention from the seen classes. Nevertheless, computing reliable attention maps for unseen classes during inference in a multi-label setting is still a challenge. In contrast, state-of-the-art single-label generative adversarial network (GAN) based approaches learn to directly synthesize the class-specific visual features from the corresponding class attribute embeddings. However, synthesizing multi-label features from GANs is still unexplored in the context of zero-shot setting. In this work, we introduce different fusion approaches at the attribute-level, feature-level and cross-level (across attribute and feature-levels) for synthesizing multi-label features from their corresponding multi-label class embedding. To the best of our knowledge, our work is the first to tackle the problem of multi-label feature synthesis in the (generalized) zero-shot setting. Comprehensive experiments are performed on three zero-shot image classification benchmarks: NUS-WIDE, Open Images and MS COCO. Our cross-level fusion-based generative approach outperforms the state-of-the-art on all three datasets. Furthermore, we show the generalization capabilities of our fusion approach in the zero-shot detection task on MS COCO, achieving favorable performance against existing methods. The source code is available at https://github.com/a kshitac8/Generative_ MLZSL.
翻訳日:2021-02-01 19:31:11 公開日:2021-01-28
# D3DLO:深部3次元LiDARオドメトリー

D3DLO: Deep 3D LiDAR Odometry ( http://arxiv.org/abs/2101.12242v1 )

ライセンス: Link先を確認
Philipp Adis, Nicolas Horst, Mathias Wien(参考訳) LiDAR odometry (LO) は、その後の LiDAR 点群のアライメントを見つけるタスクを記述する。 このアライメントは、LiDARセンサーが取り付けられているプラットフォームの動きを推定するために使用できます。 現在、有名なKITTI Vision Benchmark Suiteでは、最先端のアルゴリズムが非学習アプローチです。 3Dポイントクラウドを直接処理することでLOを学習するネットワークアーキテクチャを提案します。 KITTIデータセット上で、対応する点のペアを事前に定義することなく、エンドツーエンドでトレーニングされる。 KITTI Vision Benchmark Suiteの評価では、ネットワークパラメータの3.56%しか使用していないにもかかわらず、以前発表されたDeepCLR [1]と同じような性能を示している。 さらに、平面点抽出を適用し、同時に入力サイズを最大50%削減しながら、限界性能が低下する。

LiDAR odometry (LO) describes the task of finding an alignment of subsequent LiDAR point clouds. This alignment can be used to estimate the motion of the platform where the LiDAR sensor is mounted on. Currently, on the well-known KITTI Vision Benchmark Suite state-of-the-art algorithms are non-learning approaches. We propose a network architecture that learns LO by directly processing 3D point clouds. It is trained on the KITTI dataset in an end-to-end manner without the necessity of pre-defining corresponding pairs of points. An evaluation on the KITTI Vision Benchmark Suite shows similar performance to a previously published work, DeepCLR [1], even though our model uses only around 3.56% of the number of network parameters thereof. Furthermore, a plane point extraction is applied which leads to a marginal performance decrease while simultaneously reducing the input size by up to 50%.
翻訳日:2021-02-01 19:30:27 公開日:2021-01-28
# 一様オブジェクト再構成:完全モノトンプリミティブから効率的な非モノトンインフォームド検索へ

Uniform Object Rearrangement: From Complete Monotone Primitives to Efficient Non-Monotone Informed Search ( http://arxiv.org/abs/2101.12241v1 )

ライセンス: Link先を確認
Rui Wang, Kai Gao, Daniel Nakhimovich, Jingjin Yu, Kostas E. Bekris(参考訳) オブジェクト再配置は、ロボットにとって広く適用可能で挑戦的なタスクです。 幾何学的制約は、物体の数が増えるにつれて衝突や組合せの問題を避けるために慎重に検討されなければならない。 ロボットと物体の衝突は起こらないが、物体と物体の衝突は避けなければならない、均一な物体を並べ替えるアルゴリズム構造を研究する。 目的は、ロボットが一度に1つのオブジェクトを操作できるという前提の下で、オブジェクト転送数を最小化することである。 構成空間の効率的な計算可能な分解は、等価な衝突可能性の連続経路を全て分類する「領域グラフ」を作成するために用いられる。 このコンパクトだがリッチな表現に基づいて、完全な動的プログラミングプリミティブDFSDPは、モノトーン問題、すなわちオブジェクトを最初に中間バッファに移動する必要がないインスタンスを迅速に解決するために、再帰的深度ファーストサーチを実行する。 DFSDPは、オブジェクトとバッファの選択によって、単一バッファ、非モノトンインスタンスを解決するために拡張される。 この作業では、これらのプリミティブをローカルプランナーとして、より一般的な非モノトーンインスタンスのインフォメーション検索フレームワークに活用する。 検索はプリミティブからの部分解を利用して、オブジェクトとバッファの最も有望な選択を識別する。 実験により、提案手法は、他の主要な代替手段よりも、非モノトンインスタンスに挑戦しても、成功率の高い準最適経路を返すことが示された。

Object rearrangement is a widely-applicable and challenging task for robots. Geometric constraints must be carefully examined to avoid collisions and combinatorial issues arise as the number of objects increases. This work studies the algorithmic structure of rearranging uniform objects, where robot-object collisions do not occur but object-object collisions have to be avoided. The objective is minimizing the number of object transfers under the assumption that the robot can manipulate one object at a time. An efficiently computable decomposition of the configuration space is used to create a "region graph", which classifies all continuous paths of equivalent collision possibilities. Based on this compact but rich representation, a complete dynamic programming primitive DFSDP performs a recursive depth first search to solve monotone problems quickly, i.e., those instances that do not require objects to be moved first to an intermediate buffer. DFSDP is extended to solve single-buffer, non-monotone instances, given a choice of an object and a buffer. This work utilizes these primitives as local planners in an informed search framework for more general, non-monotone instances. The search utilizes partial solutions from the primitives to identify the most promising choice of objects and buffers. Experiments demonstrate that the proposed solution returns near-optimal paths with higher success rate, even for challenging non-monotone instances, than other leading alternatives.
翻訳日:2021-02-01 19:24:33 公開日:2021-01-28
# 時間系列回帰と予測のためのニューラルネットワークの自動相関誤差の調整

Adjusting for Autocorrelated Errors in Neural Networks for Time Series Regression and Forecasting ( http://arxiv.org/abs/2101.12578v1 )

ライセンス: Link先を確認
Fan-Keng Sun and Christopher I. Lang and Duane S. Boning(参考訳) 多くの場合、既知のパラメトリックモデル構造を用いて時系列データの高精度なモデルを生成することは困難である。 これに対し、ニューラルネットワークを用いて時系列を概ねモデル化する研究が増えている。 時系列でニューラルネットワークをトレーニングする一般的な前提は、異なる時間ステップでのエラーは非相関であるということである。 しかし、データの時間性のため、多くのケースでエラーは自己相関しており、そのような最大推定は不正確である。 本稿では,自己相関係数をモデルパラメータと協調して学習し,自己相関誤差に適応することを提案する。 時系列回帰の場合, 大規模実験では, 特に自己相関が強い場合に, プライス-ウィンステン法を上回っていることが示された。 さらに,本手法を時系列予測に拡張し,様々な最先端モデルで適用する。 実世界のデータセットの広範囲にわたる結果から,本手法はほぼすべてのケースで性能が向上することが示された。

In many cases, it is difficult to generate highly accurate models for time series data using a known parametric model structure. In response, an increasing body of research focuses on using neural networks to model time series approximately. A common assumption in training neural networks on time series is that the errors at different time steps are uncorrelated. However, due to the temporality of the data, errors are actually autocorrelated in many cases, which makes such maximum likelihood estimation inaccurate. In this paper, we propose to learn the autocorrelation coefficient jointly with the model parameters in order to adjust for autocorrelated errors. For time series regression, large-scale experiments indicate that our method outperforms the Prais-Winsten method, especially when the autocorrelation is strong. Furthermore, we broaden our method to time series forecasting and apply it with various state-of-the-art models. Results across a wide range of real-world datasets show that our method enhances performance in almost all cases.
翻訳日:2021-02-01 19:21:26 公開日:2021-01-28
# 胸部X線画像を用いた新型コロナウイルスの信頼性検出

Reliable COVID-19 Detection Using Chest X-ray Images ( http://arxiv.org/abs/2101.12254v1 )

ライセンス: Link先を確認
Aysen Degerli, Mete Ahishali, Serkan Kiranyaz, Muhammad E. H. Chowdhury, Moncef Gabbouj(参考訳) コロナウイルス病2019(COVID-19)は、自動、正確、高速なアルゴリズムによるコンピュータ支援診断の必要性が浮上しています。 近年の研究では、胸部X線(CXR)画像上のCOVID-19診断に機械学習アルゴリズムを適用している。 しかし、これらの研究のデータ不足は、オーバーフィットの可能性と深いネットワークのパフォーマンスを制限する信頼性の高い評価を妨げます。 さらに、これらのネットワークは、通常、健康な人からのみ、または時々、限定された肺炎タイプから、covid-19肺炎を区別することができる。 したがって、大規模なCXRデータセット上で評価される堅牢で正確なCOVID-19検出器が必要である。 そこで本研究では,14の異なる胸部疾患と健常者からcovid-19肺炎を識別可能なrecovnetという信頼性の高い検出ネットワークを提案する。 これを達成するために、我々は最大のCOVID-19 CXRデータセットをコンパイルしました:QaTa-COV19 4603 COVID-19サンプルを含む12,616画像。 提案手法は98.57%の感度と99.77%の特異性を持つ検出性能を達成した。

Coronavirus disease 2019 (COVID-19) has emerged the need for computer-aided diagnosis with automatic, accurate, and fast algorithms. Recent studies have applied Machine Learning algorithms for COVID-19 diagnosis over chest X-ray (CXR) images. However, the data scarcity in these studies prevents a reliable evaluation with the potential of overfitting and limits the performance of deep networks. Moreover, these networks can discriminate COVID-19 pneumonia usually from healthy subjects only or occasionally, from limited pneumonia types. Thus, there is a need for a robust and accurate COVID-19 detector evaluated over a large CXR dataset. To address this need, in this study, we propose a reliable COVID-19 detection network: ReCovNet, which can discriminate COVID-19 pneumonia from 14 different thoracic diseases and healthy subjects. To accomplish this, we have compiled the largest COVID-19 CXR dataset: QaTa-COV19 with 124,616 images including 4603 COVID-19 samples. The proposed ReCovNet achieved a detection performance with 98.57% sensitivity and 99.77% specificity.
翻訳日:2021-02-01 19:09:33 公開日:2021-01-28
# 非パラメトリックインストゥルメンタル変数モデルにおける二次関数の適応推定

Adaptive Estimation of Quadratic Functionals in Nonparametric Instrumental Variable Models ( http://arxiv.org/abs/2101.12282v1 )

ライセンス: Link先を確認
Christoph Breunig, Xiaohong Chen(参考訳) 本稿では,非パラメトリックインストゥルメンタル変数(NPIV)モデルにおける二次関数の適応的推定について検討する。 NPIVの二次関数の最小値推定は、1つのランダムサンプルを用いた未知演算子による不測の逆回帰の非線形関数の最適推定における重要な問題である。 まず, 四次関数の既約なシーブnpiv推定器は, \cite{bc2020} によって提案される収束率を, 以前に \cite{chenchristensen2017} によって導かれた下限値と一致させる。 minimaxレートは、未知のnpivモデルの特徴に依存する鍵チューニングパラメータ(シーブ次元)の最適選択によって達成される。 次に、Lepskiの手法に基づくチューニングパラメータのデータ駆動選択を提案する。 適応推定器は、重度の不適切な場合には最小値の最適値が得られるが、不規則で軽度の不適切な場合には、乗法的な$\sqrt{\log n}$まで到達する。

This paper considers adaptive estimation of quadratic functionals in the nonparametric instrumental variables (NPIV) models. Minimax estimation of a quadratic functional of a NPIV is an important problem in optimal estimation of a nonlinear functional of an ill-posed inverse regression with an unknown operator using one random sample. We first show that a leave-one-out, sieve NPIV estimator of the quadratic functional proposed by \cite{BC2020} attains a convergence rate that coincides with the lower bound previously derived by \cite{ChenChristensen2017}. The minimax rate is achieved by the optimal choice of a key tuning parameter (sieve dimension) that depends on unknown NPIV model features. We next propose a data driven choice of the tuning parameter based on Lepski's method. The adaptive estimator attains the minimax optimal rate in the severely ill-posed case and in the regular, mildly ill-posed case, but up to a multiplicative $\sqrt{\log n}$ in the irregular, mildly ill-posed case.
翻訳日:2021-02-01 19:08:57 公開日:2021-01-28
# (参考訳) 多人数会話における共同一致解決と文字リンク [全文訳有]

Joint Coreference Resolution and Character Linking for Multiparty Conversation ( http://arxiv.org/abs/2101.11204v2 )

ライセンス: CC BY 4.0
Jiaxin Bai, Hongming Zhang, Yangqiu Song, and Kun Xu(参考訳) 会話で言及された人々を現実世界に結びつけるタスクである文字リンクは、会話を理解するために重要です。 コミュニケーションの効率性のために、人間はしばしば代名詞(例:「彼女」または通常のフレーズ(例:「あの女の子」)を話し言葉で名前付き実体(例:「レイチェル」)ではなく使用することを選びます。 この課題を解決するために、リンクを支援するために、異なる言及間のコアファレンス関係からよりリッチなコンテキストを組み込むことを提案します。 一方,共同参照クラスタ自体の発見は自明な作業ではなく,グローバルキャラクタ情報によるメリットがあると考えられるため,これら2つの課題を共同で解決することを提案する。 具体的には、C$^2$, Coreference resolution と Character linking の連立学習モデルを提案する。 実験結果は、C$^2$が両方のタスクで以前の作業を大幅に上回ることを実証した。 さらに,提案モデルにおける全モジュールの寄与と全ハイパーパラメータの効果を解析するために解析を行った。

Character linking, the task of linking mentioned people in conversations to the real world, is crucial for understanding the conversations. For the efficiency of communication, humans often choose to use pronouns (e.g., "she") or normal phrases (e.g., "that girl") rather than named entities (e.g., "Rachel") in the spoken language, which makes linking those mentions to real people a much more challenging than a regular entity linking task. To address this challenge, we propose to incorporate the richer context from the coreference relations among different mentions to help the linking. On the other hand, considering that finding coreference clusters itself is not a trivial task and could benefit from the global character information, we propose to jointly solve these two tasks. Specifically, we propose C$^2$, the joint learning model of Coreference resolution and Character linking. The experimental results demonstrate that C$^2$ can significantly outperform previous works on both tasks. Further analyses are conducted to analyze the contribution of all modules in the proposed model and the effect of all hyper-parameters.
翻訳日:2021-02-01 18:56:58 公開日:2021-01-28
# (参考訳) タイポロジーブラインドは言語間共有を妨げるか? [全文訳有]

Does Typological Blinding Impede Cross-Lingual Sharing? ( http://arxiv.org/abs/2101.11888v1 )

ライセンス: CC BY 4.0
Johannes Bjerva and Isabelle Augenstein(参考訳) 高リソース言語と低リソース言語のパフォーマンスギャップを埋めることは、これまでの作業の焦点でした。 World Atlas of Language Structures (WALS) のようなデータベースの分類学的な特徴は、非常に低リソースの言語でさえ存在するため、その主要な候補である。 しかし、以前の研究はタイプ学的な情報を使うことから小さな利点しか得られていない。 我々の仮説は、言語横断的な設定で訓練されたモデルが入力データから類型的手がかりを拾い上げ、そのような特徴を明示的に利用することの有用性を誇張するものである。 この仮説を,タイポロジー情報に対するモデル盲目化によって検証し,言語間共有とパフォーマンスへの影響について検討する。 我々のモデルは、言語間の共有を規定する潜在重みを訓練中に学習する言語間アーキテクチャに基づいている。 i)このモデルがタイポロジーを悪用することを防ぐことはパフォーマンスを著しく低下させるが、制御実験では、(ii)タイポロジーによる共有がパフォーマンスを多少改善することを再確認している。

Bridging the performance gap between high- and low-resource languages has been the focus of much previous work. Typological features from databases such as the World Atlas of Language Structures (WALS) are a prime candidate for this, as such data exists even for very low-resource languages. However, previous work has only found minor benefits from using typological information. Our hypothesis is that a model trained in a cross-lingual setting will pick up on typological cues from the input data, thus overshadowing the utility of explicitly using such features. We verify this hypothesis by blinding a model to typological information, and investigate how cross-lingual sharing and performance is impacted. Our model is based on a cross-lingual architecture in which the latent weights governing the sharing between languages is learnt during training. We show that (i) preventing this model from exploiting typology severely reduces performance, while a control experiment reaffirms that (ii) encouraging sharing according to typology somewhat improves performance.
翻訳日:2021-02-01 01:00:49 公開日:2021-01-28
# (参考訳) 完全適応型力学系における因果性と独立性

Causality and independence in perfectly adapted dynamical systems ( http://arxiv.org/abs/2101.11885v1 )

ライセンス: CC BY 4.0
Tineke Blom and Joris M. Mooij(参考訳) 力学系における完全適応は、1つ以上の変数が外部刺激の持続的な変化に対して初期過渡応答を持つが、系が平衡に収束すると元の値に戻る現象である。 因果順序付けアルゴリズムは、因果関係を表す平衡因果順序付けグラフと、一連の平衡方程式から条件付き独立を示すマルコフ順序付けグラフを構築するのに使用できる。 これに基づいて、一階微分方程式の集合から完全適応を特定するのに十分なグラフィカル条件を定式化する。 さらに,実験平衡データにおける完全適応の存在を試験するための十分な条件を与える。 我々は,タンパク質シグナル伝達経路の簡単なモデルに適用し,その予測をシミュレーションと実世界のタンパク質発現データの両方で検証する。 このモデルにおける完全適応は、なぜ因果探索アルゴリズムの出力におけるエッジの存在と方向が、生物学的コンセンサスネットワークにおけるエッジの方向と必ずしも一致しないのかを説明することができる。

Perfect adaptation in a dynamical system is the phenomenon that one or more variables have an initial transient response to a persistent change in an external stimulus but revert to their original value as the system converges to equilibrium. The causal ordering algorithm can be used to construct an equilibrium causal ordering graph that represents causal relations and a Markov ordering graph that implies conditional independences from a set of equilibrium equations. Based on this, we formulate sufficient graphical conditions to identify perfect adaptation from a set of first-order differential equations. Furthermore, we give sufficient conditions to test for the presence of perfect adaptation in experimental equilibrium data. We apply our ideas to a simple model for a protein signalling pathway and test its predictions both in simulations and on real-world protein expression data. We demonstrate that perfect adaptation in this model can explain why the presence and orientation of edges in the output of causal discovery algorithms does not always appear to agree with the direction of edges in biological consensus networks.
翻訳日:2021-02-01 00:52:08 公開日:2021-01-28
# (参考訳) ソーシャルメディア上での偽ニュースの特定 [全文訳有]

Identifying COVID-19 Fake News in Social Media ( http://arxiv.org/abs/2101.11954v1 )

ライセンス: CC BY 4.0
Tathagata Raha, Vijayasaradhi Indurthi, Aayush Upadhyaya, Jeevesh Kataria, Pramud Bommakanti, Vikram Keswani, Vasudeva Varma(参考訳) ソーシャルメディアプラットフォームの発展により、誰もが簡単に情報にアクセスできるようになる。 ソーシャルメディアのユーザーは、世界中と簡単に情報を共有できる。 これは時にフェイクニュースの拡散を促し、望ましくない結果をもたらすことがある。 本研究では、新型コロナウイルスのパンデミックに関連する健康ニュースを本物または偽物として識別できるモデルを訓練する。 我々のモデルは98.64%のF1スコアを達成した。 我々のモデルはリーダーボードで2位となり、最初のポジションを非常に狭いマージン0.05%ポイントで追い詰めた。

The evolution of social media platforms have empowered everyone to access information easily. Social media users can easily share information with the rest of the world. This may sometimes encourage spread of fake news, which can result in undesirable consequences. In this work, we train models which can identify health news related to COVID-19 pandemic as real or fake. Our models achieve a high F1-score of 98.64%. Our models achieve second place on the leaderboard, tailing the first position with a very narrow margin 0.05% points.
翻訳日:2021-02-01 00:51:01 公開日:2021-01-28
# (参考訳) インドにおける新型コロナウイルス感染予測のためのLSTMモデルによる深層学習 [全文訳有]

Deep learning via LSTM models for COVID-19 infection forecasting in India ( http://arxiv.org/abs/2101.11881v1 )

ライセンス: CC BY 4.0
Rohitash Chandra, Ayush Jain, Divyanshu Singh Chauhan(参考訳) 私たちは、医療システム、経済、農業に大きな影響を与えて世界を揺るがしたパンデミックの時代に入りました。 伝染の広がりの複雑さのために顕著な計算および数学的モデルは信頼できませんでした。 さらに、データ収集とレポートの欠如により、そのようなモデリングの試みは信頼できない。 したがって、最新のデータソースと最も包括的な予測モデルで状況を見直す必要がある。 リカレントニューラルネットワークなどのディープラーニングモデルは、時間シーケンスのモデリングに適しています。 本稿では,インドにおける新型コロナウイルスの感染拡大を予知する多段階(短期)のニューラルネットワーク,特に‘textit{long short term memory}(LSTM)ネットワーク,双方向LSTM,エンコーダデコーダLSTMモデルについて述べる。 感染率の面では、新型コロナウイルスのホットポットを持つ状態を選択し、感染がピークに達した状態と比較し、症例が徐々に減少することを示す2ヶ月の予測を提供します。 以上の結果から,他の国や地域での手法の適用を動機づける長期予測が期待されていることが示唆された。 予測はある程度進展したが,人口密度,旅行物流,文化や生活習慣といった社会的側面といった要因の把握が困難であることから,モデリングの課題は残る。

We have entered an era of a pandemic that has shaken the world with major impact to medical systems, economics and agriculture. Prominent computational and mathematical models have been unreliable due to the complexity of the spread of infections. Moreover, lack of data collection and reporting makes any such modelling attempts unreliable. Hence we need to re-look at the situation with the latest data sources and most comprehensive forecasting models. Deep learning models such as recurrent neural networks are well suited for modelling temporal sequences. In this paper, prominent recurrent neural networks, in particular \textit{long short term memory} (LSTMs) networks, bidirectional LSTM, and encoder-decoder LSTM models for multi-step (short-term) forecasting the spread of COVID-infections among selected states in India. We select states with COVID-19 hotpots in terms of the rate of infections and compare with states where infections have been contained or reached their peak and provide two months ahead forecast that shows that cases will slowly decline. Our results show that long-term forecasts are promising which motivates the application of the method in other countries or areas. We note that although we made some progress in forecasting, the challenges in modelling remain due to data and difficulty in capturing factors such as population density, travel logistics, and social aspects such culture and lifestyle.
翻訳日:2021-02-01 00:45:48 公開日:2021-01-28
# (参考訳) copula-based conformal prediction for multi-target regression [全文訳有]

Copula-based conformal prediction for Multi-Target Regression ( http://arxiv.org/abs/2101.12002v1 )

ライセンス: CC BY 4.0
Soundouss Messoudi, S\'ebastien Destercke, Sylvain Rousseau(参考訳) マルチタスク学習の問題に対する共形予測を扱う作業は比較的少なく、これは特にマルチターゲット回帰に当てはまる。 本稿では、有効(周波数校正)な多変量予測を提供することの課題に焦点をあてる。 そこで本研究では,深層ニューラルネットワークに適用したcopula関数を用いたインダクティブ共形予測を提案する。 提案手法は,様々なデータセット上のマルチターゲット回帰問題に対する効率性と妥当性を保証する。

There are relatively few works dealing with conformal prediction for multi-task learning issues, and this is particularly true for multi-target regression. This paper focuses on the problem of providing valid (i.e., frequency calibrated) multi-variate predictions. To do so, we propose to use copula functions applied to deep neural networks for inductive conformal prediction. We show that the proposed method ensures efficiency and validity for multi-target regression problems on various data sets.
翻訳日:2021-02-01 00:19:19 公開日:2021-01-28
# (参考訳) 数値推論のための弱改良型ニューロシンボリックモジュールネットワーク [全文訳有]

Weakly Supervised Neuro-Symbolic Module Networks for Numerical Reasoning ( http://arxiv.org/abs/2101.11802v1 )

ライセンス: CC BY 4.0
Amrita Saha, Shafiq Joty, Steven C.H. Hoi(参考訳) ニューラルモジュールネットワーク(nmns)は,マシンリーディング理解(mrc)におけるテキスト上の数値推論の最も一般的な形式を含む,さまざまな質問応答タスクにおいて,学習可能なモジュールとして明示的な推論を取り入れることに成功している。 しかし、これを実現するには、現代のNMNは、モジュールの推論に関する特別なプログラムとしてクエリを実行する上で強力な監督を必要とし、そのような監督なしによりオープンエンドの設定に一般化できない。 そこで本研究では,数値推論に基づくMRCのための唯一の監視手法として,WNSMN(Weakly Supervised Neuro-Symbolic Module Network)を提案する。 クエリの依存性解析から得られたノイズの多いヒューリスティックプログラムを、ニューラルおよびシンボリック推論モジュールの両方に対する離散的なアクションとして実行し、応答マッチングからの離散的な報酬で強化学習フレームワークでエンドツーエンドにトレーニングする。 DROPの数値回答サブセットでは、WNSMNはNMNを32%上回り、推論自由言語モデルGenBERTは、同等の弱い教師付き設定下でトレーニングされた場合、正確なマッチング精度を8%上回る。 これは、ノイズの多いプログラムに対する明示的な離散的推論をエンドツーエンドで処理できるモジュラーネットワークの有効性と一般化性を示す。

Neural Module Networks (NMNs) have been quite successful in incorporating explicit reasoning as learnable modules in various question answering tasks, including the most generic form of numerical reasoning over text in Machine Reading Comprehension (MRC). However, to achieve this, contemporary NMNs need strong supervision in executing the query as a specialized program over reasoning modules and fail to generalize to more open-ended settings without such supervision. Hence we propose Weakly-Supervised Neuro-Symbolic Module Network (WNSMN) trained with answers as the sole supervision for numerical reasoning based MRC. It learns to execute a noisy heuristic program obtained from the dependency parsing of the query, as discrete actions over both neural and symbolic reasoning modules and trains it end-to-end in a reinforcement learning framework with discrete reward from answer matching. On the numerical-answer subset of DROP, WNSMN out-performs NMN by 32% and the reasoning-free language model GenBERT by 8% in exact match accuracy when trained under comparable weak supervised settings. This showcases the effectiveness and generalizability of modular networks that can handle explicit discrete reasoning over noisy programs in an end-to-end manner.
翻訳日:2021-02-01 00:04:20 公開日:2021-01-28
# (参考訳) LESA:オンラインコンテンツからの一般化クレーム検出に基づく言語カプセル化とセマンティックアマゲーション [全文訳有]

LESA: Linguistic Encapsulation and Semantic Amalgamation Based Generalised Claim Detection from Online Content ( http://arxiv.org/abs/2101.11891v1 )

ライセンス: CC BY 4.0
Shreya Gupta, Parantak Singh, Megha Sundriyal, Md Shad Akhtar, Tanmoy Chakraborty(参考訳) 主張の概念化は、議論マイニングの核心にあります。 クレームの分離は、異なる分布にわたるテキスト構文とコンテキストの相違のため、複雑である。 もうひとつの課題は,実験用のラベル付き非構造化テキストが利用できないことだ。 本稿では,音声と依存性の埋め込みによる構文的特徴の収集と,微調整言語モデルによる文脈的特徴の収集により,従来の問題を解消することを目的としたフレームワークLESAを提案する。 大規模な非構造化データセットにテスト基盤を提供することを目的としたTwitterデータセットをアノテートすることで、後者の問題を解決します。 実験の結果、lesaは6つのベンチマーククレームデータセットにおける最先端のパフォーマンスを、ドメイン内実験で平均3つのクレーム-f1ポイント、一般ドメイン実験で2つのクレーム-f1ポイントで改善した。 我々のデータセットでも、LESAは既存のベースラインを1つのドメイン実験で1つのクレーム-F1ポイント、一般ドメイン実験で2つのクレーム-F1ポイントで上回ります。 また、アノテーションフェーズ(現在の文献に欠けている)にコンパイルされた包括的なデータアノテーションガイドラインもリリースします。

The conceptualization of a claim lies at the core of argument mining. The segregation of claims is complex, owing to the divergence in textual syntax and context across different distributions. Another pressing issue is the unavailability of labeled unstructured text for experimentation. In this paper, we propose LESA, a framework which aims at advancing headfirst into expunging the former issue by assembling a source-independent generalized model that captures syntactic features through part-of-speech and dependency embeddings, as well as contextual features through a fine-tuned language model. We resolve the latter issue by annotating a Twitter dataset which aims at providing a testing ground on a large unstructured dataset. Experimental results show that LESA improves upon the state-of-the-art performance across six benchmark claim datasets by an average of 3 claim-F1 points for in-domain experiments and by 2 claim-F1 points for general-domain experiments. On our dataset too, LESA outperforms existing baselines by 1 claim-F1 point on the in-domain experiments and 2 claim-F1 points on the general-domain experiments. We also release comprehensive data annotation guidelines compiled during the annotation phase (which was missing in the current literature).
翻訳日:2021-01-31 23:30:08 公開日:2021-01-28
# (参考訳) 新型コロナウイルスのフェイクニュースと戦うトランスフォーマーベースのアプローチ [全文訳有]

A transformer based approach for fighting COVID-19 fake news ( http://arxiv.org/abs/2101.12027v1 )

ライセンス: CC BY-SA 4.0
S.M. Sadiq-Ur-Rahman Shifath, Mohammad Faiyaz Khan, and Md. Saiful Islam(参考訳) 新型コロナウイルス(covid-19)の急速な流行によって人類は行き詰まり、他の多くの問題を引き起こした。 新型コロナウイルスは、人類が最も技術的に進歩し、接続性やその他の利益のためにソーシャルメディアプラットフォームに大きく依存している歴史上初のパンデミックだ。 残念ながら、このウイルスに関する偽のニュースや誤報は、人々にも利用可能であり、いくつかの大きな問題を引き起こします。 そのため、このインフォデミックと戦うことは大きな課題となっている。 本研究では、"Constraint@AAAI2021 - COVID19 Fake News Detection in English"という課題に対するソリューションを提示する。 多数のアーキテクチャや技術を用いた広範囲な実験を経て,8種類のトランスフォーマティブベースの事前学習モデルと層を追加して,スタック型アンサンブル分類器を構築し,その目的を微調整した。 試験データセットでは0.979906542精度, 0.979913119精度, 0.979906542リコール, 0.979907901 f1-scoreを達成した。

The rapid outbreak of COVID-19 has caused humanity to come to a stand-still and brought with it a plethora of other problems. COVID-19 is the first pandemic in history when humanity is the most technologically advanced and relies heavily on social media platforms for connectivity and other benefits. Unfortunately, fake news and misinformation regarding this virus is also available to people and causing some massive problems. So, fighting this infodemic has become a significant challenge. We present our solution for the "Constraint@AAAI2021 - COVID19 Fake News Detection in English" challenge in this work. After extensive experimentation with numerous architectures and techniques, we use eight different transformer-based pre-trained models with additional layers to construct a stacking ensemble classifier and fine-tuned them for our purpose. We achieved 0.979906542 accuracy, 0.979913119 precision, 0.979906542 recall, and 0.979907901 f1-score on the test dataset of the competition.
翻訳日:2021-01-31 23:15:12 公開日:2021-01-28
# (参考訳) 外部リソースを用いたシーケンシャル・トゥ・シーケンス・ニューラル・レムマティゼーションの強化 [全文訳有]

Enhancing Sequence-to-Sequence Neural Lemmatization with External Resources ( http://arxiv.org/abs/2101.12056v1 )

ライセンス: CC BY 4.0
Kirill Milintsevich and Kairit Sirts(参考訳) 本稿では,外部レキシコンやルールベースシステムから抽出した補題を用いて,seq2seqニューラルモデルを拡張した新たな補間手法を提案する。 トレーニング中、強化されたlemmatizerは、シーケンシャルデコーダを介して補題を生成し、実行時に供給される外部候補からの補題文字をコピーすることの両方を学ぶ。 Apertium morphological analysisr から抽出した候補で強化された補間器は、追加の補間情報を使用しないベースラインモデルと比較して統計的に有意な改善を達成し、同じ言語群におけるスタンフォード・スタンザモデルよりも0.55%高い23のUD言語に対して平均精度97.25%を達成する。 また、外部データを補間化に統合する他の手法と比較し、Stanzaシステムに基づく単純な辞書拡張手法よりも大幅に性能が向上し、補間的な改善を実現していることを示す。 データ増強法です

We propose a novel hybrid approach to lemmatization that enhances the seq2seq neural model with additional lemmas extracted from an external lexicon or a rule-based system. During training, the enhanced lemmatizer learns both to generate lemmas via a sequential decoder and copy the lemma characters from the external candidates supplied during run-time. Our lemmatizer enhanced with candidates extracted from the Apertium morphological analyzer achieves statistically significant improvements compared to baseline models not utilizing additional lemma information, achieves an average accuracy of 97.25% on a set of 23 UD languages, which is 0.55% higher than obtained with the Stanford Stanza model on the same set of languages. We also compare with other methods of integrating external data into lemmatization and show that our enhanced system performs considerably better than a simple lexicon extension method based on the Stanza system, and it achieves complementary improvements w.r.t. the data augmentation method.
翻訳日:2021-01-31 23:07:38 公開日:2021-01-28
# (参考訳) 説明可能なベイズネットワークの分類 [全文訳有]

A Taxonomy of Explainable Bayesian Networks ( http://arxiv.org/abs/2101.11844v1 )

ライセンス: CC BY 4.0
Iena Petronella Derks and Alta de Waal(参考訳) 人工知能(AI)、特にその説明可能性は、ここ数年で驚異的な注目を集めています。 結果のみが関心のある状況では、通常はこれらのシステムの意思決定プロセスに疑問を呈さないが、決定が人間の生活に直接影響を及ぼす領域において、これらのシステムが適用される場合には、注意を払っている。 特に、エンドユーザー間の不信感を助長する可能性のある必ずしも説明できない予測を導く決定境界の近くで不確実で不確定な観察である。 これにより、結果を説明できるAI手法に注意が向けられた。 ベイズネットワークは、不確実性を管理するツールとして使用できる確率的グラフィカルモデルである。 ベイジアンネットワークの確率的枠組みは、モデル、推論、および証拠の説明可能性を可能にします。 これらの手法の使用は、主にアドホックであり、より広いAI研究分野における説明可能性の方法ほど組織化されていない。 そこで,ベイズネットワークにおける説明可能性の分類を導入した。 モデルにおける説明可能性の既存の分類、推論、または決定の説明を含む証拠を拡張します。 説明可能性法から得られた説明は, 簡単な診断シナリオを用いて説明する。 本論文で導入された分類学は, エンドユーザーに対して, 結果の効率的な伝達を促すだけでなく, 特定の予測が下された理由の理解を支援する可能性を持っている。

Artificial Intelligence (AI), and in particular, the explainability thereof, has gained phenomenal attention over the last few years. Whilst we usually do not question the decision-making process of these systems in situations where only the outcome is of interest, we do however pay close attention when these systems are applied in areas where the decisions directly influence the lives of humans. It is especially noisy and uncertain observations close to the decision boundary which results in predictions which cannot necessarily be explained that may foster mistrust among end-users. This drew attention to AI methods for which the outcomes can be explained. Bayesian networks are probabilistic graphical models that can be used as a tool to manage uncertainty. The probabilistic framework of a Bayesian network allows for explainability in the model, reasoning and evidence. The use of these methods is mostly ad hoc and not as well organised as explainability methods in the wider AI research field. As such, we introduce a taxonomy of explainability in Bayesian networks. We extend the existing categorisation of explainability in the model, reasoning or evidence to include explanation of decisions. The explanations obtained from the explainability methods are illustrated by means of a simple medical diagnostic scenario. The taxonomy introduced in this paper has the potential not only to encourage end-users to efficiently communicate outcomes obtained, but also support their understanding of how and, more importantly, why certain predictions were made.
翻訳日:2021-01-31 22:52:25 公開日:2021-01-28
# (参考訳) VAE^2:野生における変分映像予測の後方崩壊防止 [全文訳有]

VAE^2: Preventing Posterior Collapse of Variational Video Predictions in the Wild ( http://arxiv.org/abs/2101.12050v1 )

ライセンス: CC BY 4.0
Yizhou Zhou, Chong Luo, Xiaoyan Sun, Zheng-Jun Zha and Wenjun Zeng(参考訳) ビデオシーケンスの将来フレームの予測は、問題の複雑で確率的な性質のため困難である。 可変オートエンコーダ(VAEs)に基づくビデオ予測手法は大きな成功を収めているが、観察されたビデオシーケンスの複数の将来をトレーニングデータに含める必要がある。 これは、特定の観察が決定的な未来しか持たない野生でビデオが撮影されるとき、達成することは難しい。 その結果、これらのビデオでバニラVAEモデルを訓練すると、必然的に後部崩壊を引き起こす。 この問題を軽減するために,新しいVAE構造,VAE-in-VAE,VAE$^2$を提案する。 鍵となるアイデアは、vaeに確率性を明確に導入することだ。 観測されたビデオシーケンスの一部を過去と未来を橋渡しするランダムな遷移状態として扱い、全ての可能な遷移状態の下でビデオシーケンス上のマルコフ連鎖の可能性を最大化する。 この難解な目的関数に対してトラクタブルな下界を提案し,それに応じてエンドツーエンド最適化アルゴリズムを設計する。 VAE$^2$は、将来と観測の間の直接的な依存を破り、トレーニングデータによって提供される決定的な未来を直接無視しないため、後方崩壊問題を大幅に緩和することができる。 cityscapes(都市景観)と呼ばれる大規模データセットで実験を行い、多くの都市から収集されたビデオを含む。 VAE$^2$は様々な未来を予測することができ、他の最先端のVAEベースのアプローチよりも後部崩壊に対する耐性が高い。 VAE$^2$は、トレーニングデータが確率性の欠如である他の確率列予測問題にも適用できると考えている。

Predicting future frames of video sequences is challenging due to the complex and stochastic nature of the problem. Video prediction methods based on variational auto-encoders (VAEs) have been a great success, but they require the training data to contain multiple possible futures for an observed video sequence. This is hard to be fulfilled when videos are captured in the wild where any given observation only has a determinate future. As a result, training a vanilla VAE model with these videos inevitably causes posterior collapse. To alleviate this problem, we propose a novel VAE structure, dabbed VAE-in-VAE or VAE$^2$. The key idea is to explicitly introduce stochasticity into the VAE. We treat part of the observed video sequence as a random transition state that bridges its past and future, and maximize the likelihood of a Markov Chain over the video sequence under all possible transition states. A tractable lower bound is proposed for this intractable objective function and an end-to-end optimization algorithm is designed accordingly. VAE$^2$ can mitigate the posterior collapse problem to a large extent, as it breaks the direct dependence between future and observation and does not directly regress the determinate future provided by the training data. We carry out experiments on a large-scale dataset called Cityscapes, which contains videos collected from a number of urban cities. Results show that VAE$^2$ is capable of predicting diverse futures and is more resistant to posterior collapse than the other state-of-the-art VAE-based approaches. We believe that VAE$^2$ is also applicable to other stochastic sequence prediction problems where training data are lack of stochasticity.
翻訳日:2021-01-31 22:41:50 公開日:2021-01-28
# (参考訳) ProtoDA:Few-Shot Intent分類のための効率的な転送学習 [全文訳有]

ProtoDA: Efficient Transfer Learning for Few-Shot Intent Classification ( http://arxiv.org/abs/2101.11753v1 )

ライセンス: CC BY 4.0
Manoj Kumar, Varun Kumar, Hadrien Glaude, Cyprien delichy, Aman Alok and Rahul Gupta(参考訳) 自然言語処理における実用的なシーケンス分類タスクは、しばしばターゲットクラスのトレーニングデータ可用性の低下に苦しむ。 この問題の緩和に向けた最近の研究は、しばしば無関係なタスク、例えば言語モデリングで事前訓練された埋め込みを用いたトランスファーラーニングに焦点を当てている。 我々は,メタラーニングパラダイムの下で,原型ネットワークを用いた関連するタスクのアンサンブル上での伝達学習による代替的アプローチを採用する。 意図分類をケーススタディとして,トレーニングタスクのバラツキの増加が分類性能を有意に改善できることを実証した。 さらに,データ拡張とメタラーニングを併用してサンプリングバイアスを低減する。 我々は,メタラーニング目的とプロトタイプネットワークを併用して直接訓練されたデータ拡張のための条件付きジェネレータを用いて,データ拡張がタスクにカスタマイズされることを保証する。 文埋め込み空間および原型埋め込み空間における拡張について検討する。 メタラーニングと拡張を組み合わせることで、F1スコアは5ショット学習と10ショット学習のベストパフォーマンスシステムよりも6.49%と8.53%向上する。

Practical sequence classification tasks in natural language processing often suffer from low training data availability for target classes. Recent works towards mitigating this problem have focused on transfer learning using embeddings pre-trained on often unrelated tasks, for instance, language modeling. We adopt an alternative approach by transfer learning on an ensemble of related tasks using prototypical networks under the meta-learning paradigm. Using intent classification as a case study, we demonstrate that increasing variability in training tasks can significantly improve classification performance. Further, we apply data augmentation in conjunction with meta-learning to reduce sampling bias. We make use of a conditional generator for data augmentation that is trained directly using the meta-learning objective and simultaneously with prototypical networks, hence ensuring that data augmentation is customized to the task. We explore augmentation in the sentence embedding space as well as prototypical embedding space. Combining meta-learning with augmentation provides upto 6.49% and 8.53% relative F1-score improvements over the best performing systems in the 5-shot and 10-shot learning, respectively.
翻訳日:2021-01-31 22:39:42 公開日:2021-01-28
# (参考訳) OcclusionとLanguage Modelingによる自然言語処理分類器の説明

Explaining Natural Language Processing Classifiers with Occlusion and Language Modeling ( http://arxiv.org/abs/2101.11889v1 )

ライセンス: CC BY 4.0
David Harbecke(参考訳) ディープニューラルネットワークは強力な統計学習者です。 しかし、彼らの予測は、その過程の説明を伴わない。 これらのモデルを分析するために、説明手法が開発されている。 本稿では,自然言語処理分類器のための新しい説明法olmを提案する。 この方法は、それぞれ説明可能性とNLPの中心的な技術である閉塞と言語モデリングを結合する。 OLMは理論的に健全で理解しやすい説明を与える。 私達は説明方法の理論にいくつかの貢献をします。 説明手法の公理は、基礎を探求し、メソッドを推論する興味深い理論概念である。 我々は新しい公理を導入し、直観を与え、既存の公理と矛盾することを示す。 さらに、自然言語処理における既存のグラデーションベースおよびオブクルージョンベースの説明方法の理論的困難さを指摘する。 説明方法の評価が難しい理由について,広範な議論を行う。 olmを他の説明法と比較し,その一意性を実験的に強調する。 最後にolmのコーナーケースを調査し,その妥当性と改善の可能性について考察する。

Deep neural networks are powerful statistical learners. However, their predictions do not come with an explanation of their process. To analyze these models, explanation methods are being developed. We present a novel explanation method, called OLM, for natural language processing classifiers. This method combines occlusion and language modeling, which are techniques central to explainability and NLP, respectively. OLM gives explanations that are theoretically sound and easy to understand. We make several contributions to the theory of explanation methods. Axioms for explanation methods are an interesting theoretical concept to explore their basics and deduce methods. We introduce a new axiom, give its intuition and show it contradicts another existing axiom. Additionally, we point out theoretical difficulties of existing gradient-based and some occlusion-based explanation methods in natural language processing. We provide an extensive argument why evaluation of explanation methods is difficult. We compare OLM to other explanation methods and underline its uniqueness experimentally. Finally, we investigate corner cases of OLM and discuss its validity and possible improvements.
翻訳日:2021-01-31 22:28:21 公開日:2021-01-28
# (参考訳) ガウス過程の高速カーネル補間 [全文訳有]

Faster Kernel Interpolation for Gaussian Processes ( http://arxiv.org/abs/2101.11751v1 )

ライセンス: CC BY 4.0
Mohit Yadav, Daniel Sheldon, Cameron Musco(参考訳) ガウス過程(GP)の回帰を大規模データセットにスケールする上で重要な課題は、正確な推論には、n がデータポイントの数である密度の高い n x n カーネル行列による計算が必要であることである。 重要な仕事は、m誘導点の小さなセットを使用して補間を介してカーネル行列を近似することに焦点を当てている。 SKI(Structured kernel Interpolation)は、高密度格子上に点を配置し、構造化行列代数を用いて、近似推論のためのO(n + m log m)の定位時間を達成する、最もスケーラブルな方法の一つである。 このnの線形スケーリングは、非常に大きなデータセットの推論を可能にするが、コストは、非常に大きなnの限界のままである。我々は、SKIをMコンパクト基底関数の固定セットで自然ベイズ線形回帰問題を解決するものとして置き換えることによって、単一のO(n)時間前処理ステップの後に、SKI毎のイテレーション時間がO(m log m)に削減できることを示した。 固定格子のデータセットサイズnとは無関係に、本手法は真の大規模データセットにスケールする。 我々は, m と n の広い範囲で実際に高速化を実演し, 1億点を超える3次元気象レーダデータセット上でGP推定に適用した。

A key challenge in scaling Gaussian Process (GP) regression to massive datasets is that exact inference requires computation with a dense n x n kernel matrix, where n is the number of data points. Significant work focuses on approximating the kernel matrix via interpolation using a smaller set of m inducing points. Structured kernel interpolation (SKI) is among the most scalable methods: by placing inducing points on a dense grid and using structured matrix algebra, SKI achieves per-iteration time of O(n + m log m) for approximate inference. This linear scaling in n enables inference for very large data sets; however the cost is per-iteration, which remains a limitation for extremely large n. We show that the SKI per-iteration time can be reduced to O(m log m) after a single O(n) time precomputation step by reframing SKI as solving a natural Bayesian linear regression problem with a fixed set of m compact basis functions. With per-iteration complexity independent of the dataset size n for a fixed grid, our method scales to truly massive data sets. We demonstrate speedups in practice for a wide range of m and n and apply the method to GP inference on a three-dimensional weather radar dataset with over 100 million points.
翻訳日:2021-01-31 22:27:24 公開日:2021-01-28
# (参考訳) 多変量確率時系列予測のための自己回帰消音拡散モデル [全文訳有]

Autoregressive Denoising Diffusion Models for Multivariate Probabilistic Time Series Forecasting ( http://arxiv.org/abs/2101.12072v1 )

ライセンス: CC BY 4.0
Kashif Rasul, Calvin Seward, Ingmar Schuster, Roland Vollgraf(参考訳) 本研究では,その勾配を推定し,各タイミングにおけるデータ分布からのサンプルを多変量確率時系列予測のための自己回帰モデルである「texttt{TimeGrad}」を提案する。 この目的のために,スコアマッチングやエネルギーベース手法と密接な関係を持つ潜在変数モデルのクラスである拡散確率モデルを用いる。 モデルでは,データ可能性の変動境界を最適化して勾配を学習し,推定時に白色雑音をLangevinサンプリングを用いてマルコフ連鎖を介して興味の分布のサンプルに変換する。 提案手法は,数千の相関次元を持つ実世界のデータセット上での,最先端の多変量確率予測手法であることを示す。 我々は,本手法が実践者にとって有用なツールであり,今後の研究の基盤となることを願っている。

In this work, we propose \texttt{TimeGrad}, an autoregressive model for multivariate probabilistic time series forecasting which samples from the data distribution at each time step by estimating its gradient. To this end, we use diffusion probabilistic models, a class of latent variable models closely connected to score matching and energy-based methods. Our model learns gradients by optimizing a variational bound on the data likelihood and at inference time converts white noise into a sample of the distribution of interest through a Markov chain using Langevin sampling. We demonstrate experimentally that the proposed autoregressive denoising diffusion model is the new state-of-the-art multivariate probabilistic forecasting method on real-world data sets with thousands of correlated dimensions. We hope that this method is a useful tool for practitioners and lays the foundation for future research in this area.
翻訳日:2021-01-31 21:55:27 公開日:2021-01-28
# (参考訳) S++: プライバシー保護ニューラルネットワークトレーニングのための高速でデプロイ可能なセキュアな計算フレームワーク [全文訳有]

S++: A Fast and Deployable Secure-Computation Framework for Privacy-Preserving Neural Network Training ( http://arxiv.org/abs/2101.12078v1 )

ライセンス: CC BY 4.0
Prashanthi Ramachandran, Shivam Agarwal, Arup Mondal, Aastha Shah, Debayan Gupta(参考訳) S++は、秘密共有のセキュア関数評価を使用して、複数のソースからのプライベートデータを使用してニューラルネットワーク(NN)を訓練するためのシンプルで堅牢でデプロイ可能なフレームワークです。 要するに、すべてのデータ所有者が入力を送信し、ニューラルネットワークを計算する仮想サードパーティを考えてみましょう。私たちの場合、この仮想サードパーティは実際には、悪意のある(しかし非クラスタリング)敵であっても、個別に何も学ばないサーバーのセットです。 この領域でのこれまでの作業は、1つの特定のアクティベーション機能(ReLU)に限定されており、多くのユースケースでアプローチが実用的ではない。 はじめに、すべての共通アクティベーション関数に対して高速かつ検証可能なプロトコルを提供し、それらを秘密の方法で実行するために最適化する。 exponentiation、softmax、sgmoidなどの高速で検証可能で、堅牢な計算能力により、以前書かれたnnを変更せずに使用することができ、開発者の労力とコードの複雑さを大幅に削減できます。 近年、ReLUはシグモイドやタンのような非線形関数と比較してはるかに速く収束し、より計算効率が高いことが判明している。 しかし,出力を確率として表現する能力と普遍近似性から,ロジスティックなsgmoid,tanh,softmaxといった非線形関数に機構を拡張しないことは許容できないと論じた。 rnnへの貢献と、最近のいくつかの進歩は、それらをより関連づける。

We introduce S++, a simple, robust, and deployable framework for training a neural network (NN) using private data from multiple sources, using secret-shared secure function evaluation. In short, consider a virtual third party to whom every data-holder sends their inputs, and which computes the neural network: in our case, this virtual third party is actually a set of servers which individually learn nothing, even with a malicious (but non-colluding) adversary. Previous work in this area has been limited to just one specific activation function: ReLU, rendering the approach impractical for many use-cases. For the first time, we provide fast and verifiable protocols for all common activation functions and optimize them for running in a secret-shared manner. The ability to quickly, verifiably, and robustly compute exponentiation, softmax, sigmoid, etc., allows us to use previously written NNs without modification, vastly reducing developer effort and complexity of code. In recent times, ReLU has been found to converge much faster and be more computationally efficient as compared to non-linear functions like sigmoid or tanh. However, we argue that it would be remiss not to extend the mechanism to non-linear functions such as the logistic sigmoid, tanh, and softmax that are fundamental due to their ability to express outputs as probabilities and their universal approximation property. Their contribution in RNNs and a few recent advancements also makes them more relevant.
翻訳日:2021-01-31 21:37:24 公開日:2021-01-28
# (参考訳) 責任あるaiを例外ではなく規範にする [全文訳有]

Making Responsible AI the Norm rather than the Exception ( http://arxiv.org/abs/2101.11832v1 )

ライセンス: CC BY 4.0
Abhishek Gupta (Montreal AI Ethics Institute and Microsoft)(参考訳) モントリオールAI倫理研究所が作成したこのレポートは、人工知能に関する国家安全保障委員会(National Security Commission on Artificial Intelligence (NSCAI) Key considerations for Responsible Development and Fielding of Artificial Intelligence documentに応答して推奨している。 報告書は、責任あるAIは例外ではなくノルムを作るべきだという考えを中心にしている。 それは、(1)既存のワークフローの摩擦を軽減する、(2)利害関係者に購入を許可する、(3)抽象的な標準を実行可能なエンジニアリングプラクティスに効果的な変換を行う、というガイド原則を活用することによって実現される。 NSCAIからドキュメントに関する包括的なコメントを提供した後、レポートは、NSCAIから文書に提示されたアイデアを運用するのに役立つ、実行可能なフレームワークの主な貢献について掘り下げる。 フレームワークは,(1)学習,知識,情報交換(LKIE),(2)責任AIの3つの方法,(3)経験的に駆動されるリスク優先化行列,(4)適切な複雑性レベルを達成することから構成される。 すべてのコンポーネントは相互に強化され、Responsible AIを例外ではなく規範とする上での原則から実践へと移行する。

This report prepared by the Montreal AI Ethics Institute provides recommendations in response to the National Security Commission on Artificial Intelligence (NSCAI) Key Considerations for Responsible Development and Fielding of Artificial Intelligence document. The report centres on the idea that Responsible AI should be made the Norm rather than an Exception. It does so by utilizing the guiding principles of: (1) alleviating friction in existing workflows, (2) empowering stakeholders to get buy-in, and (3) conducting an effective translation of abstract standards into actionable engineering practices. After providing some overarching comments on the document from the NSCAI, the report dives into the primary contribution of an actionable framework to help operationalize the ideas presented in the document from the NSCAI. The framework consists of: (1) a learning, knowledge, and information exchange (LKIE), (2) the Three Ways of Responsible AI, (3) an empirically-driven risk-prioritization matrix, and (4) achieving the right level of complexity. All components reinforce each other to move from principles to practice in service of making Responsible AI the norm rather than the exception.
翻訳日:2021-01-31 21:22:34 公開日:2021-01-28
# (参考訳) 条件ベースメンテナンス能力の逆機械学習攻撃 [全文訳有]

Adversarial Machine Learning Attacks on Condition-Based Maintenance Capabilities ( http://arxiv.org/abs/2101.12097v1 )

ライセンス: CC BY 4.0
Hamidreza Habibollahi Najaf Abadi(参考訳) 条件ベースのメンテナンス(CBM)戦略は、物理的な環境から収集したデータに基づいてシステムの健康状態を評価するために機械学習モデルを利用する。 悪意のある敵は収集したデータを操作して機械学習モデルを欺き、cbmシステムのパフォーマンスに影響を与えることができる。 コンピュータビジョン領域で導入された敵対的機械学習技術は、トレーニングされたモデルを混乱させるためにデータに摂動を加えることによって、cbmシステムに対するステルス攻撃に使用できる。 ステルスな性質は、攻撃の検出の困難と遅延を引き起こす。 本稿では,cbm領域における逆機械学習について述べる。 ケーススタディでは、CBM能力に対する対向機械学習の使用方法が示されている。 敵のサンプルはFast Gradient Sign法を用いて作成され、攻撃中のCLMシステムの性能が調査される。 その結果,cbmシステムは敵対的機械学習攻撃に対して脆弱であり,防衛戦略を検討する必要があることが明らかとなった。

Condition-based maintenance (CBM) strategies exploit machine learning models to assess the health status of systems based on the collected data from the physical environment, while machine learning models are vulnerable to adversarial attacks. A malicious adversary can manipulate the collected data to deceive the machine learning model and affect the CBM system's performance. Adversarial machine learning techniques introduced in the computer vision domain can be used to make stealthy attacks on CBM systems by adding perturbation to data to confuse trained models. The stealthy nature causes difficulty and delay in detection of the attacks. In this paper, adversarial machine learning in the domain of CBM is introduced. A case study shows how adversarial machine learning can be used to attack CBM capabilities. Adversarial samples are crafted using the Fast Gradient Sign method, and the performance of a CBM system under attack is investigated. The obtained results reveal that CBM systems are vulnerable to adversarial machine learning attacks and defense strategies need to be considered.
翻訳日:2021-01-31 21:05:17 公開日:2021-01-28
# (参考訳) パーソナリティ・アウェア・レコメンデーションシステムに関する調査 [全文訳有]

A Survey on Personality-Aware Recommendation Systems ( http://arxiv.org/abs/2101.12153v1 )

ライセンス: CC BY 4.0
Sahraoui Dhelim, Nyothiri Aung, Mohammed Amine Bouras, Huansheng Ning and Erik Cambria(参考訳) 人工知能とパーソナリティ心理学に関する新たな研究分野としてパーソナリティコンピューティングの出現に伴い、私たちは、パーソナリティを意識したレコメンデーションシステムの前例のない増殖を目撃した。 従来のレコメンデーションシステムとは異なり、これらの新システムはコールドスタートやデータの分散といった従来の問題を解決する。 本調査は,パーソナリティを意識した推薦システムの研究と分類を目的とする。 我々の知る限りでは、この調査はパーソナリティを意識したレコメンデーションシステムに焦点を当てた初めてのものである。 パーソナリティ認識型推薦システムの異なるデザイン選択について,パーソナリティモデリング手法とレコメンデーション手法を比較して検討する。 さらに,一般的なデータセットを提示し,パーソナリティ認識型推薦システムの課題を指摘する。

With the emergence of personality computing as a new research field related to artificial intelligence and personality psychology, we have witnessed an unprecedented proliferation of personality-aware recommendation systems. Unlike conventional recommendation systems, these new systems solve traditional problems such as the cold start and data sparsity problems. This survey aims to study and systematically classify personality-aware recommendation systems. To the best of our knowledge, this survey is the first that focuses on personality-aware recommendation systems. We explore the different design choices of personality-aware recommendation systems, by comparing their personality modeling methods, as well as their recommendation techniques. Furthermore, we present the commonly used datasets and point out some of the challenges of personality-aware recommendation systems.
翻訳日:2021-01-31 20:57:20 公開日:2021-01-28
# (参考訳) CTスキャンによるCOVID-19自動評価と病変分類のための説明可能なAIシステム [全文訳有]

An Explainable AI System for Automated COVID-19 Assessment and Lesion Categorization from CT-scans ( http://arxiv.org/abs/2101.11943v1 )

ライセンス: CC BY 4.0
Matteo Pennisi, Isaak Kavasidis, Concetto Spampinato, Vincenzo Schinin\`a, Simone Palazzo, Francesco Rundo, Massimo Cristofaro, Paolo Campioni, Elisa Pianura, Federica Di Stefano, Ada Petrone, Fabrizio Albarello, Giuseppe Ippolito, Salvatore Cuzzocrea, Sabrina Conoci(参考訳) SARS-CoV-2病原体によって引き起こされるCOVID-19感染は、確認された症例の指数関数的に増加し、残念ながら、世界中の壊滅的なパンデミックの発生です。 本研究では、CTスキャンから自動COVID-19検出と病変分類を行うためのディープラーニングパラダイムに基づくAI駆動パイプラインを提案する。 まず,肺小葉と葉を自動的に同定する新しいセグメンテーションモジュールを提案する。 次に、このようなセグメンテーションネットワークと、COVID-19の同定と病変分類のための分類ネットワークを組み合わせる。 162個のctスキャンデータから得られた分類結果と3人の専門家放射線科医による分類結果を比較した。 その結果、90%の感度と93.5%の特異性を示し、専門家の放射線学者による感度よりも優れ、84%以上の病変分類精度が得られた。 また,前肺と葉の分画によって重要な役割が果たされ,20%以上のパフォーマンスが向上した。 訓練されたAIモデルの解釈は、さらに、新型コロナウイルスの同定に関する決定を支援するための最も重要な領域は、ウイルス、すなわち狂気の舗装、統合および接地ガラスに臨床的に関連した病変と一致していることを明らかにする。 これは、人工モデルが陰性患者(コントロールと間質性肺炎患者の両方が新型コロナウイルスに陰性である)をCTスキャンで評価することで、正の患者を識別することができることを意味している。 最後に、AIモデルはユーザーフレンドリーなGUIに統合され、放射線科医のためのAI説明性をサポートする。

COVID-19 infection caused by SARS-CoV-2 pathogen is a catastrophic pandemic outbreak all over the world with exponential increasing of confirmed cases and, unfortunately, deaths. In this work we propose an AI-powered pipeline, based on the deep-learning paradigm, for automated COVID-19 detection and lesion categorization from CT scans. We first propose a new segmentation module aimed at identifying automatically lung parenchyma and lobes. Next, we combined such segmentation network with classification networks for COVID-19 identification and lesion categorization. We compare the obtained classification results with those obtained by three expert radiologists on a dataset consisting of 162 CT scans. Results showed a sensitivity of 90\% and a specificity of 93.5% for COVID-19 detection, outperforming those yielded by the expert radiologists, and an average lesion categorization accuracy of over 84%. Results also show that a significant role is played by prior lung and lobe segmentation that allowed us to enhance performance by over 20 percent points. The interpretation of the trained AI models, moreover, reveals that the most significant areas for supporting the decision on COVID-19 identification are consistent with the lesions clinically associated to the virus, i.e., crazy paving, consolidation and ground glass. This means that the artificial models are able to discriminate a positive patient from a negative one (both controls and patients with interstitial pneumonia tested negative to COVID) by evaluating the presence of those lesions into CT scans. Finally, the AI models are integrated into a user-friendly GUI to support AI explainability for radiologists, which is publicly available at http://perceivelab.c om/covid-ai.
翻訳日:2021-01-31 20:06:42 公開日:2021-01-28
# (参考訳) 自己教師型クロスサイロフェデレーションニューラルアーキテクチャサーチ [全文訳有]

Self-supervised Cross-silo Federated Neural Architecture Search ( http://arxiv.org/abs/2101.11896v1 )

ライセンス: CC BY 4.0
Xinle Liang, Yang Liu, Jiahuan Luo, Yuanqin He, Tianjian Chen, Qiang Yang(参考訳) Federated Learning (FL)は、サンプルや機能が異なるパーティ間で分散される機械学習タスクに、モデルパフォーマンスとデータプライバシーの両方を提供する。 flのトレーニングプロセスでは、他のパーティのデータ分散やモデルアーキテクチャに関するグローバルな見解を持っていません。 したがって、手動設計のアーキテクチャは最適ではないかもしれない。 過去には、この重要な問題に対処するために、ニューラルネットワーク検索(NAS)がFLに適用されました。 しかし、既存のFederated NASアプローチでは、通信や計算の禁止、高品質なラベルの入手が要求される。 本研究では、参加者が特徴分断データを保持するFLを自動化するための自己監視型垂直フェデレーションニューラルネットワークサーチ(SS-VFNAS)を提案する。 提案フレームワークでは,各パーティが自己教師付きアプローチでnasを実行し,独自のデータを用いた局所的最適アーキテクチャを求める。 次に,vflフレームワークにおける局所最適アーキテクチャを協調的に改善する。 我々は,本手法がフェデレートnasに比べて優れた性能,通信効率,プライバシを有することを実験的に実証し,重複サンプルが不足してもハイパフォーマンスで高転送性な異種アーキテクチャを生成できることを示した。

Federated Learning (FL) provides both model performance and data privacy for machine learning tasks where samples or features are distributed among different parties. In the training process of FL, no party has a global view of data distributions or model architectures of other parties. Thus the manually-designed architectures may not be optimal. In the past, Neural Architecture Search (NAS) has been applied to FL to address this critical issue. However, existing Federated NAS approaches require prohibitive communication and computation effort, as well as the availability of high-quality labels. In this work, we present Self-supervised Vertical Federated Neural Architecture Search (SS-VFNAS) for automating FL where participants hold feature-partitioned data, a common cross-silo scenario called Vertical Federated Learning (VFL). In the proposed framework, each party first conducts NAS using self-supervised approach to find a local optimal architecture with its own data. Then, parties collaboratively improve the local optimal architecture in a VFL framework with supervision. We demonstrate experimentally that our approach has superior performance, communication efficiency and privacy compared to Federated NAS and is capable of generating high-performance and highly-transferable heterogeneous architectures even with insufficient overlapping samples, providing automation for those parties without deep learning expertise.
翻訳日:2021-01-31 19:45:49 公開日:2021-01-28
# 私たち vs. Them:ポピュリストの態度、ニュースバイアス、感情のデータセット

Us vs. Them: A Dataset of Populist Attitudes, News Bias and Emotions ( http://arxiv.org/abs/2101.11956v1 )

ライセンス: Link先を確認
Pere-Llu\'is Huguet Cabot, David Abadi, Agneta Fischer, Ekaterina Shutova(参考訳) 政治対話タスクの計算モデリングは、自然言語処理における研究のますます重要な領域となっています。 近年、ポピュリストの修辞学は政治界に広まりつつあるが、その複雑な性質から計算的なアプローチは乏しい。 本稿では,新しいUs vs.について述べる。 6861のRedditコメントからなるThemデータセットは、ポピュリストの態度と、この現象の最初の大規模計算モデルに注釈を付けた。 我々は、ポピュリストマインドセットと社会グループとの関係や、それらと典型的に関連する感情について検討する。 ポピュリストの態度に関連する2つのタスクのベースラインを設定し,感情とグループ識別の重要性を補助タスクとして活用し,実証するマルチタスク学習モデルを提案する。

Computational modelling of political discourse tasks has become an increasingly important area of research in natural language processing. Populist rhetoric has risen across the political sphere in recent years; however, computational approaches to it have been scarce due to its complex nature. In this paper, we present the new Us vs. Them dataset, consisting of 6861 Reddit comments annotated for populist attitudes and the first large-scale computational models of this phenomenon. We investigate the relationship between populist mindsets and social groups, as well as a range of emotions typically associated with these. We set a baseline for two tasks related to populist attitudes and present a set of multi-task learning models that leverage and demonstrate the importance of emotion and group identification as auxiliary tasks.
翻訳日:2021-01-31 18:30:12 公開日:2021-01-28
# 合成画像キャプションにおける構文計画の役割

The Role of Syntactic Planning in Compositional Image Captioning ( http://arxiv.org/abs/2101.11911v1 )

ライセンス: Link先を確認
Emanuele Bugliarello, Desmond Elliott(参考訳) 画像キャプションは、トレーニングセットと同じ分布から描かれた画像に一般化することに注力しており、画像の異なる分布に一般化するより難しい問題ではない。 最近、ニコラウスら。 (2019) は画像キャプションにおける合成一般化を評価するデータセットを導入し, 未知の形容詞・名詞・動詞の合成で画像を記述する能力をモデルに評価した。 本研究では,キャプションの構文構造を計画し,構成一般化を改善するための様々な手法について検討する。 実験の結果,トークンと構文タグを併用することにより,RNNモデルとTransformerモデルの両方での一般化が促進され,標準メトリクスの性能も向上することがわかった。

Image captioning has focused on generalizing to images drawn from the same distribution as the training set, and not to the more challenging problem of generalizing to different distributions of images. Recently, Nikolaus et al. (2019) introduced a dataset to assess compositional generalization in image captioning, where models are evaluated on their ability to describe images with unseen adjective-noun and noun-verb compositions. In this work, we investigate different methods to improve compositional generalization by planning the syntactic structure of a caption. Our experiments show that jointly modeling tokens and syntactic tags enhances generalization in both RNN- and Transformer-based models, while also improving performance on standard metrics.
翻訳日:2021-01-31 18:29:38 公開日:2021-01-28
# vx2text:マルチモーダル入力によるビデオテキスト生成のエンドツーエンド学習

Vx2Text: End-to-End Learning of Video-Based Text Generation From Multimodal Inputs ( http://arxiv.org/abs/2101.12059v1 )

ライセンス: Link先を確認
Xudong Lin, Gedas Bertasius, Jue Wang, Shih-Fu Chang, Devi Parikh, Lorenzo Torresani(参考訳) ビデオ+テキスト、音声、音声からなるマルチモーダル入力からテキストを生成するためのフレームワークである \textsc{vx2text} を提案する。 言語モデリングに有効であることが示されているトランスフォーマーネットワークを活用するために、各モダリティはまず学習可能なトークン化器によって言語埋め込みのセットに変換される。 これにより、言語空間におけるマルチモーダル融合が可能となり、アドホックなクロスモーダル融合モジュールの必要性がなくなる。 連続入力(ビデオやオーディオなど)におけるトークン化の非微分性に対処するために、エンドツーエンドのトレーニングを可能にするリラクゼーションスキームを利用する。 さらに,従来のエンコーダのみのモデルとは異なり,言語エンコーダが融合したマルチモーダル埋め込みからオープンなテキストを生成する自動回帰デコーダも網羅している。 これは、我々のアプローチを完全に生成し、タスクごとに特別なネットワークヘッドを設計する必要なしに、異なる「ビデオ+x$ to text」問題に直接適用します。 提案するフレームワークは概念的に単純であるだけでなく,極めて効果的である。単一のアーキテクチャに基づくアプローチは,映像ベースの3つのテキスト生成タスク – キャプション,質問応答,音声視覚シーン認識ダイアログ – において,最先端の作業よりも優れている,という実験結果が得られた。

We present \textsc{Vx2Text}, a framework for text generation from multimodal inputs consisting of video plus text, speech, or audio. In order to leverage transformer networks, which have been shown to be effective at modeling language, each modality is first converted into a set of language embeddings by a learnable tokenizer. This allows our approach to perform multimodal fusion in the language space, thus eliminating the need for ad-hoc cross-modal fusion modules. To address the non-differentiabilit y of tokenization on continuous inputs (e.g., video or audio), we utilize a relaxation scheme that enables end-to-end training. Furthermore, unlike prior encoder-only models, our network includes an autoregressive decoder to generate open-ended text from the multimodal embeddings fused by the language encoder. This renders our approach fully generative and makes it directly applicable to different "video+$x$ to text" problems without the need to design specialized network heads for each task. The proposed framework is not only conceptually simple but also remarkably effective: experiments demonstrate that our approach based on a single architecture outperforms the state-of-the-art on three video-based text-generation tasks -- captioning, question answering and audio-visual scene-aware dialog.
翻訳日:2021-01-31 18:29:03 公開日:2021-01-28
# Gassian Wasserstein Distance Lossによる回転物体検出の再考

Rethinking Rotated Object Detection with Gaussian Wasserstein Distance Loss ( http://arxiv.org/abs/2101.11952v1 )

ライセンス: Link先を確認
Xue Yang, Junchi Yan, Qi Ming, Wentao Wang, Xiaopeng Zhang, Qi Tian(参考訳) 境界不連続性と最終検出基準の不整合性は, 回転検出回帰損失設計のボトルネックとなっている。 本稿では,ガウス・ワッサーシュタイン距離に基づく新しい回帰損失を,この問題に対する基本的なアプローチとして提案する。 具体的には、回転バウンディングボックスを2次元ガウス分布に変換し、グラデーションバックプロパゲーションによって効率的に学習できるガウスワッサースタイン距離(GWD)によって、不可分回転IoU誘発損失を近似することができる。 GWDは、2つの回転バウンディングボックスの間に重複がなくても学習に有益であり、これはしばしば小さな物体検出の場合である。 3つの独特な性質のおかげで、gwdは境界の不連続性や、境界ボックスの定義方法に関わらず正方形の問題をエレガントに解くことができる。 異なる検出器を用いた5つのデータセットの実験は、我々のアプローチの有効性を示している。 コードはhttps://github.com/y angxue0827/RotationD etectionで入手できる。

Boundary discontinuity and its inconsistency to the final detection metric have been the bottleneck for rotating detection regression loss design. In this paper, we propose a novel regression loss based on Gaussian Wasserstein distance as a fundamental approach to solve the problem. Specifically, the rotated bounding box is converted to a 2-D Gaussian distribution, which enables to approximate the indifferentiable rotational IoU induced loss by the Gaussian Wasserstein distance (GWD) which can be learned efficiently by gradient back-propagation. GWD can still be informative for learning even there is no overlapping between two rotating bounding boxes which is often the case for small object detection. Thanks to its three unique properties, GWD can also elegantly solve the boundary discontinuity and square-like problem regardless how the bounding box is defined. Experiments on five datasets using different detectors show the effectiveness of our approach. Codes are available at https://github.com/y angxue0827/RotationD etection.
翻訳日:2021-01-31 18:28:18 公開日:2021-01-28
# 再生可能なビデオ生成

Playable Video Generation ( http://arxiv.org/abs/2101.12195v1 )

ライセンス: Link先を確認
Willi Menapace, St\'ephane Lathuili\`ere, Sergey Tulyakov, Aliaksandr Siarohin, Elisa Ricci(参考訳) 本稿では,再生可能ビデオ生成(PVG)の教師なし学習問題を紹介する。 pvgでは、ゲームプレイ時のように、時間ステップ毎に離散アクションを選択して、ユーザが生成した映像を制御できるようにする。 タスクの難しさは、意味的に一貫したアクションを学習することと、ユーザ入力に基づいて条件付けられた現実的なビデオを生成することにある。 本稿では,非ラベルビデオの大規模データセット上で自己教師あり方式で学習するpvgのための新しいフレームワークを提案する。 予測されたアクションラベルがボトルネックとなるエンコーダ・デコーダアーキテクチャを採用している。 ネットワークは、生成したビデオの再生損失を主駆動損失として、リッチなアクション空間を学習することを制約される。 提案手法の有効性を,幅広い環境変数を持つ複数のデータセットに示す。 詳細はプロジェクトページ willi-menapace.githu b.io/playable-video- generation-website をご覧ください。

This paper introduces the unsupervised learning problem of playable video generation (PVG). In PVG, we aim at allowing a user to control the generated video by selecting a discrete action at every time step as when playing a video game. The difficulty of the task lies both in learning semantically consistent actions and in generating realistic videos conditioned on the user input. We propose a novel framework for PVG that is trained in a self-supervised manner on a large dataset of unlabelled videos. We employ an encoder-decoder architecture where the predicted action labels act as bottleneck. The network is constrained to learn a rich action space using, as main driving loss, a reconstruction loss on the generated video. We demonstrate the effectiveness of the proposed approach on several datasets with wide environment variety. Further details, code and examples are available on our project page willi-menapace.githu b.io/playable-video- generation-website.
翻訳日:2021-01-31 18:27:42 公開日:2021-01-28
# DRAG:非並列オーサリングのためのディレクタージェネレータ言語モデリングフレームワーク

DRAG: Director-Generator Language Modelling Framework for Non-Parallel Author Stylized Rewriting ( http://arxiv.org/abs/2101.11836v1 )

ライセンス: Link先を確認
Hrituraj Singh, Gaurav Verma, Aparna Garimella, Balaji Vasan Srinivasan(参考訳) 著者のスタイル化された書き換えは、特定の著者のスタイルで入力テキストを書き換える作業である。 この領域の最近の研究は、Transformerベースの言語モデルを利用して、並列コーパスに頼ることなく、自動エンコーダをデノナイズして作者のスタイル化されたテキストを生成する。 しかしながら、これらのアプローチは、ターゲット属性の明示的な制御の欠如と、完全にデータ駆動であるために制限されている。 本稿では,特定のターゲット属性に着目して,ターゲット著者のスタイルでコンテンツを書き直すためのDirector-Generatorフレームワークを提案する。 提案するフレームワークは,限定サイズのターゲットコーパスでも有効であることを示す。 3人の異なる著者による比較的小さなテキストからなるコーパスの実験では,既存のテキストを対象著者のスタイルで書き直す方法が大幅に改善されている。 さらに, 定量的・質的分析により, 継続性が向上し, より流動的な世代が得られた。

Author stylized rewriting is the task of rewriting an input text in a particular author's style. Recent works in this area have leveraged Transformer-based language models in a denoising autoencoder setup to generate author stylized text without relying on a parallel corpus of data. However, these approaches are limited by the lack of explicit control of target attributes and being entirely data-driven. In this paper, we propose a Director-Generator framework to rewrite content in the target author's style, specifically focusing on certain target attributes. We show that our proposed framework works well even with a limited-sized target author corpus. Our experiments on corpora consisting of relatively small-sized text authored by three distinct authors show significant improvements upon existing works to rewrite input texts in target author's style. Our quantitative and qualitative analyses further show that our model has better meaning retention and results in more fluent generations.
翻訳日:2021-01-31 18:27:09 公開日:2021-01-28
# 離体型機械学習:NLPにおける客観性のイリュージョンについて

Disembodied Machine Learning: On the Illusion of Objectivity in NLP ( http://arxiv.org/abs/2101.11974v1 )

ライセンス: Link先を確認
Zeerak Waseem, Smarika Lulz, Joachim Bingel, Isabelle Augenstein(参考訳) 機械学習は、与えられたデータセット内の知識のボディを特定し、エンコードする。 しかし、データは主観的なコンテンツをエンコードし、トレーニングされたモデルの可能な結果を決定します。 このような主観性は社会の一部の限界化を可能にするため、(社会的)「バイアス」と呼ばれ、取り除こうとする。 本稿では,開発プロセスにおける主観的選択に対するmlコミュニティのバイアスの議論を文脈的に検討する。 データおよびモデル開発における選択が、モデルで表される主観性やバイアスをどのように構成するかを考慮することで、バイアスへの対処と緩和はほぼ不可能であると論じる。 これは、データモデルとMLモデルの両方が、アノテーションによるデータ選択からモデルトレーニングと分析に至るまで、開発パイプラインの各ステップで意味を持つオブジェクトであるからである。 したがって、社会的な限界化に対処する能力にバイアス制限の一般的な言説があります。 我々は、これに精通し、偏見の方法が一部のバイアスに対してのみ正しいことを受け入れることを推奨する。

Machine Learning seeks to identify and encode bodies of knowledge within provided datasets. However, data encodes subjective content, which determines the possible outcomes of the models trained on it. Because such subjectivity enables marginalisation of parts of society, it is termed (social) `bias' and sought to be removed. In this paper, we contextualise this discourse of bias in the ML community against the subjective choices in the development process. Through a consideration of how choices in data and model development construct subjectivity, or biases that are represented in a model, we argue that addressing and mitigating biases is near-impossible. This is because both data and ML models are objects for which meaning is made in each step of the development pipeline, from data selection over annotation to model training and analysis. Accordingly, we find the prevalent discourse of bias limiting in its ability to address social marginalisation. We recommend to be conscientious of this, and to accept that de-biasing methods only correct for a fraction of biases.
翻訳日:2021-01-31 18:26:29 公開日:2021-01-28
# BERTa\'u: Ita\'u BERT デジタルカスタマーサービス用。

BERTa\'u: Ita\'u BERT for digital customer service ( http://arxiv.org/abs/2101.12015v1 )

ライセンス: Link先を確認
Paulo Finardi, Jos\'e Di\'e Viegas, Gustavo T. Ferreira, Alex F. Mansano, Vinicius F. Carid\'a(参考訳) ここ数年、ディープラーニング、NLP、会話エージェントの3つの主要なトピックが関心を集めました。 これら3つのトピックを組み合わせることで、素晴らしいデジタル顧客エクスペリエンスを実現し、実運用環境に展開し、現実世界の問題を解決することは、革新的で破壊的です。 BERTa\'uと呼ばれる新しいポルトガルの金融ドメイン言語表現モデルを紹介します。 BERTa\'uは、Ita\'u仮想アシスタントチャットボットソリューションのデータをスクラッチからトレーニングした未使用のBERTベースである。 私たちの新しい貢献は、BERTa\'uプリトレーニング言語モデルは、より少ないデータを必要とし、3つのNLPタスクで最先端のパフォーマンスを達成し、デプロイを可能にする小さくて軽量なモデルを生成することです。 ita\'u bankからの頻繁な質問(faq)による情報検索,仮想アシスタントデータからの感情分析,nerソリューションの3つのタスクを開発した。 提案したタスクはすべて実環境における実環境ソリューションであり、Hugging Faceで利用可能なGoogle BERTマルチ言語とFacebookのDPRQuestionEncoderと比較して、スペシャリストモデルの使用が有効であることが証明された。 BERTa\'u は FAQ Retrieval MRR の22%、感性分析 F1 の2.1%、NER F1 の4.4% のパフォーマンスを改善し、「シェルフモデル」と比較して最大66%少ないトークンで同じシーケンスを表現できる。

In the last few years, three major topics received increased interest: deep learning, NLP and conversational agents. Bringing these three topics together to create an amazing digital customer experience and indeed deploy in production and solve real-world problems is something innovative and disruptive. We introduce a new Portuguese financial domain language representation model called BERTa\'u. BERTa\'u is an uncased BERT-base trained from scratch with data from the Ita\'u virtual assistant chatbot solution. Our novel contribution is that BERTa\'u pretrained language model requires less data, reached state-of-the-art performance in three NLP tasks, and generates a smaller and lighter model that makes the deployment feasible. We developed three tasks to validate our model: information retrieval with Frequently Asked Questions (FAQ) from Ita\'u bank, sentiment analysis from our virtual assistant data, and a NER solution. All proposed tasks are real-world solutions in production on our environment and the usage of a specialist model proved to be effective when compared to Google BERT multilingual and the DPRQuestionEncoder from Facebook, available at Hugging Face. The BERTa\'u improves the performance in 22% of FAQ Retrieval MRR metric, 2.1% in Sentiment Analysis F1 score, 4.4% in NER F1 score and can also represent the same sequence in up to 66% fewer tokens when compared to "shelf models".
翻訳日:2021-01-31 18:25:51 公開日:2021-01-28
# SwingBot:動的スイングアップマニピュレーションのための手持ちの触覚探索から物理的特徴を学ぶ

SwingBot: Learning Physical Features from In-hand Tactile Exploration for Dynamic Swing-up Manipulation ( http://arxiv.org/abs/2101.11812v1 )

ライセンス: Link先を確認
Chen Wang, Shaoxiong Wang, Branden Romero, Filipe Veiga, Edward Adelson(参考訳) いくつかのロボット操作タスクは、操作対象の物理的性質の変化に非常に敏感である。 そのようなタスクの1つは、重力または腕の加速度を使用してオブジェクトを操作し、質量、質量の中心、および摩擦情報の重要性を高めます。 触覚探索によって保持された物体の物理的特徴を学習できるロボットであるswingbotを提案する。 2つの探索行動(傾きと揺れ)は、物理的特徴埋め込み空間を作るために使用される触覚情報を提供する。 この埋め込みにより、SwingBotは、これまで見えない物体上で動的にスイングアップ操作を行うロボットによって達成されたスイング角を予測することができる。 これらの予測を用いて、所望のスイングアップ角度に対する最適制御パラメータを探索することができる。 学習された物理機能により、エンドツーエンドの自己監視学習パイプラインは、見えない物体を揺るがす精度を大幅に向上させることができます。 また、同様のダイナミクスを持つ物体は埋め込み空間上で互いに近接しており、埋め込みは特定の物理的性質の値に切り離すことができることを示す。

Several robot manipulation tasks are extremely sensitive to variations of the physical properties of the manipulated objects. One such task is manipulating objects by using gravity or arm accelerations, increasing the importance of mass, center of mass, and friction information. We present SwingBot, a robot that is able to learn the physical features of a held object through tactile exploration. Two exploration actions (tilting and shaking) provide the tactile information used to create a physical feature embedding space. With this embedding, SwingBot is able to predict the swing angle achieved by a robot performing dynamic swing-up manipulations on a previously unseen object. Using these predictions, it is able to search for the optimal control parameters for a desired swing-up angle. We show that with the learned physical features our end-to-end self-supervised learning pipeline is able to substantially improve the accuracy of swinging up unseen objects. We also show that objects with similar dynamics are closer to each other on the embedding space and that the embedding can be disentangled into values of specific physical properties.
翻訳日:2021-01-31 18:25:04 公開日:2021-01-28
# PIG-Net: 3Dポイントクラウドセグメンテーションのためのインセプションベースのディープラーニングアーキテクチャ

PIG-Net: Inception based Deep Learning Architecture for 3D Point Cloud Segmentation ( http://arxiv.org/abs/2101.11987v1 )

ライセンス: Link先を確認
Sindhu Hegde and Shankar Gangisetty(参考訳) 3次元オブジェクトの表面幾何の単純かつコンパクトな表現であるポイントクラウドは、分類と分割タスクのためのディープラーニングネットワークの進化によって人気が高まっている。 人間とは異なり、物体のセグメントを分析するために機械を教えることは困難な作業であり、さまざまな機械ビジョンアプリケーションに非常に不可欠です。 本稿では,PIG-Netと呼ばれるインセプションに基づく深層ネットワークアーキテクチャを提案し,その局所的および大域的幾何学的詳細を効果的に特徴付けることで,3次元点雲のセグメンテーションとラベリングの問題に対処する。 pig-netでは、提案するインセプション層を用いて変換入力点から局所的な特徴を抽出し、特徴変換によりアライメントする。 これらのローカル機能はグローバル平均プーリング層を使用して集約され、グローバル機能を得る。 最後に、連結したローカルおよびグローバル機能を畳み込み層に供給し、3Dポイントクラウドをセグメント化します。 本研究では,2つの最先端データセットであるShapeNet [1] と PartNet [2] 上で,PIG-Net アーキテクチャの徹底的な実験的解析を行う。 アブレーション研究により,ネットワークの有効性を評価する。

Point clouds, being the simple and compact representation of surface geometry of 3D objects, have gained increasing popularity with the evolution of deep learning networks for classification and segmentation tasks. Unlike human, teaching the machine to analyze the segments of an object is a challenging task and quite essential in various machine vision applications. In this paper, we address the problem of segmentation and labelling of the 3D point clouds by proposing a inception based deep network architecture called PIG-Net, that effectively characterizes the local and global geometric details of the point clouds. In PIG-Net, the local features are extracted from the transformed input points using the proposed inception layers and then aligned by feature transform. These local features are aggregated using the global average pooling layer to obtain the global features. Finally, feed the concatenated local and global features to the convolution layers for segmenting the 3D point clouds. We perform an exhaustive experimental analysis of the PIG-Net architecture on two state-of-the-art datasets, namely, ShapeNet [1] and PartNet [2]. We evaluate the effectiveness of our network by performing ablation study.
翻訳日:2021-01-31 18:24:27 公開日:2021-01-28
# 継続学習のための自己注意型メタラーニング

Self-Attention Meta-Learner for Continual Learning ( http://arxiv.org/abs/2101.12136v1 )

ライセンス: Link先を確認
Ghada Sokar, Decebal Constantin Mocanu, Mykola Pechenizkiy(参考訳) 連続学習は、ニューラルネットワークで複数のタスクを順次学習できるインテリジェントなエージェントを提供することを目指しています。 その主な挑戦的な、壊滅的な忘れの1つは、非定常分布で学習するニューラルネットワークの非最適能力によって引き起こされます。 現在のアプローチのほとんどの設定では、エージェントはランダムに初期化パラメータから始まり、将来のタスクに対する学習された表現の有用性に関係なく、現在のタスクをマスターするように最適化される。 さらに、将来のタスクは、この知識の一部が学習に役に立たないかもしれないが、事前に学習した知識を全て使用する。 これは特に以前のタスクのデータにアクセスできない場合に、タスク間の干渉を引き起こす。 本稿では,タスクの順序を学習し,破滅的な忘れを回避しつつ,継続学習の事前知識を学習する,自己認識メタラーナー(SAM)という新しい手法を提案する。 SAMには、将来のタスクごとに特定の関連する表現を選択することを学ぶ注意メカニズムが組み込まれています。 各タスクは選択した知識の上に特定の表現ブランチを構築し、タスク間の干渉を避ける。 提案手法をタスク非依存推論における分割CIFAR-10/100および分割MNISTベンチマーク上で評価する。 SAMによって学習された選択表現の上部に構築することで,いくつかの最先端学習手法よりも優れた性能を達成できることを実証的に示す。 また、メタアテンション機構は、入力データに対応する情報的特徴を増強し、タスク非依存推論における正しいターゲットを識別する役割も示す。 最後に、SAMを出発点として採用すると、既存の一般的な連続学習手法が性能の向上を実証する。

Continual learning aims to provide intelligent agents capable of learning multiple tasks sequentially with neural networks. One of its main challenging, catastrophic forgetting, is caused by the neural networks non-optimal ability to learn in non-stationary distributions. In most settings of the current approaches, the agent starts from randomly initialized parameters and is optimized to master the current task regardless of the usefulness of the learned representation for future tasks. Moreover, each of the future tasks uses all the previously learned knowledge although parts of this knowledge might not be helpful for its learning. These cause interference among tasks, especially when the data of previous tasks is not accessible. In this paper, we propose a new method, named Self-Attention Meta-Learner (SAM), which learns a prior knowledge for continual learning that permits learning a sequence of tasks, while avoiding catastrophic forgetting. SAM incorporates an attention mechanism that learns to select the particular relevant representation for each future task. Each task builds a specific representation branch on top of the selected knowledge, avoiding the interference between tasks. We evaluate the proposed method on the Split CIFAR-10/100 and Split MNIST benchmarks in the task agnostic inference. We empirically show that we can achieve a better performance than several state-of-the-art methods for continual learning by building on the top of selected representation learned by SAM. We also show the role of the meta-attention mechanism in boosting informative features corresponding to the input data and identifying the correct target in the task agnostic inference. Finally, we demonstrate that popular existing continual learning methods gain a performance boost when they adopt SAM as a starting point.
翻訳日:2021-01-31 18:23:46 公開日:2021-01-28
# スパース監督による注意誘導対話状態追跡

Attention Guided Dialogue State Tracking with Sparse Supervision ( http://arxiv.org/abs/2101.11958v1 )

ライセンス: Link先を確認
Shuailong Liang, Lahari Poddar, Gyuri Szarvas(参考訳) 既存のダイアログ状態追跡(DST)アプローチはターンレベルのダイアログ状態アノテーションに依存しており、大規模な取得にはコストがかかる。 コールセンタでは、予約やサブスクリプションの管理といったタスクに対して、ユーザ目標をカスタマーサービスエージェントが発行するアクション(例えばAPIコール)に関連付けることができる。 これらのアクションログは大量に利用可能で、対話状態の学習に利用できます。 しかし、ターンレベルのアノテーションとは異なり、そのようなログされたアクションは対話全体でしか利用できず、DSTモデルに対する弱い監督形態のみを提供する。 スパースラベルでDSTを効率的に学習するため,最先端エンコーダデコーダモデルを拡張した。 モデルは対話履歴のスロット認識表現を学習し、関連するターンに着目してデコーダを誘導する。 本稿では,2つの公開マルチドメインDSTデータセット(MultiWOZとSchema Guided Dialogue)について,両設定で結果を示す。 ターンレベルとまばらな監督によるトレーニング。 提案手法は,両設定のベースラインを改良する。 さらに重要なのは、スパースな監督で訓練された私たちのモデルは、よりデータとコスト効率が高くながら、完全に監視されたベースラインのパフォーマンスに競争力があります。

Existing approaches to Dialogue State Tracking (DST) rely on turn level dialogue state annotations, which are expensive to acquire in large scale. In call centers, for tasks like managing bookings or subscriptions, the user goal can be associated with actions (e.g.~API calls) issued by customer service agents. These action logs are available in large volumes and can be utilized for learning dialogue states. However, unlike turn-level annotations, such logged actions are only available sparsely across the dialogue, providing only a form of weak supervision for DST models. To efficiently learn DST with sparse labels, we extend a state-of-the-art encoder-decoder model. The model learns a slot-aware representation of dialogue history, which focuses on relevant turns to guide the decoder. We present results on two public multi-domain DST datasets (MultiWOZ and Schema Guided Dialogue) in both settings i.e. training with turn-level and with sparse supervision. The proposed approach improves over baseline in both settings. More importantly, our model trained with sparse supervision is competitive in performance to fully supervised baselines, while being more data and cost efficient.
翻訳日:2021-01-31 18:22:59 公開日:2021-01-28
# 係り受け解析における構文核 ---多言語探索

Syntactic Nuclei in Dependency Parsing -- A Multilingual Exploration ( http://arxiv.org/abs/2101.11959v1 )

ライセンス: Link先を確認
Ali Basirat and Joakim Nivre(参考訳) 構文的依存解析の標準モデルは、依存関係に入る基本単位として単語を取る。 本論文では,Tesni\`{e}reによって提案された核のより抽象的な概念を用いて,これらのモデルを強化することのメリットについて検討する。 我々は、核の概念をUniversal Dependenciesのフレームワークで定義する方法と、コンポジション関数を使って遷移ベースの依存性パーサにこの概念を認識させる方法を示す。 12言語の実験では、核組成が解析精度の小さいが有意な改善をもたらすことが示されている。 さらなる分析により、改良は主に、名目修飾子、調整の関係、主述語、直接対象を含む少数の依存関係に関係していることが明らかとなった。

Standard models for syntactic dependency parsing take words to be the elementary units that enter into dependency relations. In this paper, we investigate whether there are any benefits from enriching these models with the more abstract notion of nucleus proposed by Tesni\`{e}re. We do this by showing how the concept of nucleus can be defined in the framework of Universal Dependencies and how we can use composition functions to make a transition-based dependency parser aware of this concept. Experiments on 12 languages show that nucleus composition gives small but significant improvements in parsing accuracy. Further analysis reveals that the improvement mainly concerns a small number of dependency relations, including nominal modifiers, relations of coordination, main predicates, and direct objects.
翻訳日:2021-01-31 18:22:18 公開日:2021-01-28
# Twitterにおけるスタンス検出のための多言語データセットの半自動生成

Semi-automatic Generation of Multilingual Datasets for Stance Detection in Twitter ( http://arxiv.org/abs/2101.11978v1 )

ライセンス: Link先を確認
Elena Zotova, Rodrigo Agerri, German Rigau(参考訳) 人気のソーシャルメディアネットワークは、ユーザーが表現した意見や態度を研究するのに最適な環境を提供します。 twitterのようなソーシャルメディアでのやりとりは多くの自然言語で起こるが、自然言語処理分野におけるスタンス検出(特定の話題に関して表現された位置や態度)の研究は、主に英語で行われている。 最近、他の言語で注釈付きデータを開発する取り組みが行われていますが、スタンス検出に関する多言語とクロスリンガルの研究を促進するためのリソースが不足しています。 これは部分的には、ソーシャルメディアテキストのコーパスを手動で注釈付けすることが難しく、遅く、コストがかかるプロセスであるという事実による。 さらに、スタンスは非常にドメインとトピック特有の現象であるため、注釈付きデータの必要性が特に要求される。 その結果、手作業でラベル付けされたリソースのほとんどは、比較的小さなサイズとスキュークラス分布によって妨げられる。 本稿では,Twitterにおける姿勢検出のための多言語データセットを得る手法を提案する。 ツイートごとに手動でアノテートするのではなく、ユーザーベースの情報を利用して大量のツイートを半自動ラベル付けします。 経験的モノリンガルおよびクロスリンガル実験および定性分析は、私たちの方法は、大規模でバランスの取れた多言語ラベル付きコーポラを構築するのに前述の困難を克服するのに役立ちます。 本手法は,他の自然言語処理タスクやドメインに対して,ラベル付きソーシャルメディアデータを容易に生成できると考えられる。

Popular social media networks provide the perfect environment to study the opinions and attitudes expressed by users. While interactions in social media such as Twitter occur in many natural languages, research on stance detection (the position or attitude expressed with respect to a specific topic) within the Natural Language Processing field has largely been done for English. Although some efforts have recently been made to develop annotated data in other languages, there is a telling lack of resources to facilitate multilingual and crosslingual research on stance detection. This is partially due to the fact that manually annotating a corpus of social media texts is a difficult, slow and costly process. Furthermore, as stance is a highly domain- and topic-specific phenomenon, the need for annotated data is specially demanding. As a result, most of the manually labeled resources are hindered by their relatively small size and skewed class distribution. This paper presents a method to obtain multilingual datasets for stance detection in Twitter. Instead of manually annotating on a per tweet basis, we leverage user-based information to semi-automatically label large amounts of tweets. Empirical monolingual and cross-lingual experimentation and qualitative analysis show that our method helps to overcome the aforementioned difficulties to build large, balanced and multilingual labeled corpora. We believe that our method can be easily adapted to easily generate labeled social media data for other Natural Language Processing tasks and domains.
翻訳日:2021-01-31 18:21:42 公開日:2021-01-28
# Neural Few-Shot Text Classification Reality Check

A Neural Few-Shot Text Classification Reality Check ( http://arxiv.org/abs/2101.12073v1 )

ライセンス: Link先を確認
Thomas Dopierre, Christophe Gravier, Wilfried Logerais(参考訳) 現代の分類モデルは、注釈付きデータの量が少ないと苦労する傾向があります。 この問題を解決するために、いくつかのニューラルな数発の分類モデルが登場し、コンピュータビジョンと自然言語処理の両方において、時間とともに大きな進歩をもたらした。 後者では、そのようなモデルはトランスフォーマーの出現前に固定語埋め込みに依存していた。 さらに、Computer Visionで使用されるいくつかのモデルはまだNLPアプリケーションでテストされていません。 本稿では,これらのモデルを全て比較し,まず画像処理分野のモデルをNLPに適応させ,次にトランスにアクセスできるようにした。 次に,多数のクラスを持つことで知られるインテント検出タスクにおいて,同じトランスフォーマーベースのエンコーダを備えたモデルをテストする。 提案手法はarscデータセット上でほぼ等しく振る舞うが,最も最近かつ最も優れた競合であると思われるインテント検出タスクは,(すべてトランスフォーマーへのアクセスが与えられているが)旧型や単純型よりもパフォーマンスが悪くなる。 また、単純なベースラインが驚くほど強いことも示しています。 すべての新しい開発モデル、および評価フレームワークは、一般公開されています。

Modern classification models tend to struggle when the amount of annotated data is scarce. To overcome this issue, several neural few-shot classification models have emerged, yielding significant progress over time, both in Computer Vision and Natural Language Processing. In the latter, such models used to rely on fixed word embeddings before the advent of transformers. Additionally, some models used in Computer Vision are yet to be tested in NLP applications. In this paper, we compare all these models, first adapting those made in the field of image processing to NLP, and second providing them access to transformers. We then test these models equipped with the same transformer-based encoder on the intent detection task, known for having a large number of classes. Our results reveal that while methods perform almost equally on the ARSC dataset, this is not the case for the Intent Detection task, where the most recent and supposedly best competitors perform worse than older and simpler ones (while all are given access to transformers). We also show that a simple baseline is surprisingly strong. All the new developed models, as well as the evaluation framework, are made publicly available.
翻訳日:2021-01-31 18:20:59 公開日:2021-01-28
# 遅延予算に基づく文選択システムにおける文脈のモデル化

Modeling Context in Answer Sentence Selection Systems on a Latency Budget ( http://arxiv.org/abs/2101.12093v1 )

ライセンス: Link先を確認
Rujun Han, Luca Soldaini, Alessandro Moschitti(参考訳) 回答文選択(AS2)は、オープンドメインの質問回答(QA)システムを設計するための効率的なアプローチです。 低レイテンシを実現するため、従来のAS2モデルは質問応答ペアを個別にスコアし、各潜在的な回答が抽出された文書から情報を無視する。 対照的に、機械読解タスク用に設計されたより計算的に高価なモデルは、通常、入力として1つ以上の通路を受け取ります。 本稿では,AS2モデルに文脈情報を効率的に組み込む手法を提案する。 回答候補ごとに、まず教師なしの類似技術を使用してソース文書から関連する文を抽出し、次にAS2用に微調整された効率的なトランスフォーマーアーキテクチャに供給します。 マルチウェイアテンションアーキテクチャを利用してコンテキストを効率的にエンコードする私たちのベストなアプローチは、AS2の非コンテキスト状態よりも6%から11%改善し、システムのレイテンシに最小限の影響を与えます。 この研究のすべての実験は英語で行われた。

Answer Sentence Selection (AS2) is an efficient approach for the design of open-domain Question Answering (QA) systems. In order to achieve low latency, traditional AS2 models score question-answer pairs individually, ignoring any information from the document each potential answer was extracted from. In contrast, more computationally expensive models designed for machine reading comprehension tasks typically receive one or more passages as input, which often results in better accuracy. In this work, we present an approach to efficiently incorporate contextual information in AS2 models. For each answer candidate, we first use unsupervised similarity techniques to extract relevant sentences from its source document, which we then feed into an efficient transformer architecture fine-tuned for AS2. Our best approach, which leverages a multi-way attention architecture to efficiently encode context, improves 6% to 11% over noncontextual state of the art in AS2 with minimal impact on system latency. All experiments in this work were conducted in English.
翻訳日:2021-01-31 18:20:17 公開日:2021-01-28
# LOME: 大規模オントロジー多言語抽出

LOME: Large Ontology Multilingual Extraction ( http://arxiv.org/abs/2101.12175v1 )

ライセンス: Link先を確認
Patrick Xia, Guanghui Qin, Siddharth Vashishtha, Yunmo Chen, Tongfei Chen, Chandler May, Craig Harman, Kyle Rawlins, Aaron Steven White, Benjamin Van Durme(参考訳) 本稿では,多言語情報抽出システムlomeを提案する。 入力としてテキスト文書が与えられると、コアシステムはテキストエンティティとイベント参照のスパンをフレームネット(baker et al., 1998)パーサで識別する。 その後、コア参照解決、きめ細かいエンティティタイピング、イベント間の時間的関係予測を行う。 これにより、システムはイベントとエンティティに焦点を当てた知識グラフを構築する。 さらに、関係抽出など、他のタイプのアノテーションにもサードパーティモジュールを適用できます。 当社の(多言語)ファーストパーティモジュールは、(多言語)最新技術に匹敵するか、競争力があります。 我々は、xlm-r (conneau et al., 2020) のような多言語エンコーダを用いてこれを実現し、多言語トレーニングデータを活用する。 LOMEはDocker Hub上のDockerコンテナとして利用できる。 さらに、システムの軽量バージョンは、Webデモとしてアクセスできます。

We present LOME, a system for performing multilingual information extraction. Given a text document as input, our core system identifies spans of textual entity and event mentions with a FrameNet (Baker et al., 1998) parser. It subsequently performs coreference resolution, fine-grained entity typing, and temporal relation prediction between events. By doing so, the system constructs an event and entity focused knowledge graph. We can further apply third-party modules for other types of annotation, like relation extraction. Our (multilingual) first-party modules either outperform or are competitive with the (monolingual) state-of-the-art. We achieve this through the use of multilingual encoders like XLM-R (Conneau et al., 2020) and leveraging multilingual training data. LOME is available as a Docker container on Docker Hub. In addition, a lightweight version of the system is accessible as a web demo.
翻訳日:2021-01-31 18:19:41 公開日:2021-01-28
# 説得のための戦略的議論対話--説得の信念と懸念のモデル化に基づく枠組みと実験

Strategic Argumentation Dialogues for Persuasion: Framework and Experiments Based on Modelling the Beliefs and Concerns of the Persuadee ( http://arxiv.org/abs/2101.11870v1 )

ライセンス: Link先を確認
Emmanuel Hadoux and Anthony Hunter and Sylwia Polberg(参考訳) 説得は人間の知性の重要かつ複雑な側面である。 対話を通じて行われる場合、良い議論の展開、それゆえ反論は、説得に成功する能力に明らかに大きな影響を与える。 議論が特定の対話で良いかどうかを決定するための2つの重要な寸法は、意図した聴衆が議論と反論を信じる程度であり、議論が意図した聴衆の懸念に与える影響である。 本稿では,その信念と懸念をモデル化し,これらのモデルを用いて説得対話における移動の選択を最適化するための枠組みを提案する。 我々のアプローチはモンテカルロ木探索に基づいており、リアルタイムに最適化できる。 我々は、この技術に基づく自動説得システムが、その戦略における信念や懸念を考慮しないベースラインシステムよりも優れていることを示す、人間の参加者による研究の実証結果を提供する。

Persuasion is an important and yet complex aspect of human intelligence. When undertaken through dialogue, the deployment of good arguments, and therefore counterarguments, clearly has a significant effect on the ability to be successful in persuasion. Two key dimensions for determining whether an argument is good in a particular dialogue are the degree to which the intended audience believes the argument and counterarguments, and the impact that the argument has on the concerns of the intended audience. In this paper, we present a framework for modelling persuadees in terms of their beliefs and concerns, and for harnessing these models in optimizing the choice of move in persuasion dialogues. Our approach is based on the Monte Carlo Tree Search which allows optimization in real-time. We provide empirical results of a study with human participants showing that our automated persuasion system based on this technology is superior to a baseline system that does not take the beliefs and concerns into account in its strategy.
翻訳日:2021-01-31 18:19:06 公開日:2021-01-28
# ヒューリスティックNMSの除去による簡易な物体検出

Object Detection Made Simpler by Eliminating Heuristic NMS ( http://arxiv.org/abs/2101.11782v1 )

ライセンス: Link先を確認
Qiang Zhou and Chaohui Yu and Chunhua Shen and Zhibin Wang and Hao Li(参考訳) FCOS検出モデル[Tian et al.]のようなワンステージオブジェクト検出器へのネットワーク変更を最小限に抑えた、シンプルなNMSフリーのエンドツーエンドオブジェクト検出フレームワークを紹介します。 2019]. 従来の1段検出器と同等かそれ以上に検出精度が向上した。 ほぼ同じ推論速度で検出を行うが、さらに単純化され、推論中に後処理のNMS(non-maximum suppress)が排除される。 ネットワークが画像内の各接地対象インスタンスの予測のために1つの正のサンプルのみを識別することができる場合、NMSは不要になります。 これは、各インスタンスに対して単一の正のサンプルを自動的に選択するためにコンパクトなpssヘッドを取り付けることで可能となる(図参照)。 1). 学習目的は1対1のラベル割り当てと1対1のラベル割り当ての両方を含むため、いくつかのトレーニング例のラベルには矛盾があり、学習を困難にします。 ストップグレード操作を用いることで,この問題に対処し,検出器を訓練できることを示す。 COCOデータセットでは, NMS後処理によるFCOSベースライン検出器と, 最新のエンドツーエンドNMSフリー検出器と比較して, 簡便な設計が優れている。 当社の広範なアブレーション研究は、設計選択の合理性を正当化します。

We show a simple NMS-free, end-to-end object detection framework, of which the network is a minimal modification to a one-stage object detector such as the FCOS detection model [Tian et al. 2019]. We attain on par or even improved detection accuracy compared with the original one-stage detector. It performs detection at almost the same inference speed, while being even simpler in that now the post-processing NMS (non-maximum suppression) is eliminated during inference. If the network is capable of identifying only one positive sample for prediction for each ground-truth object instance in an image, then NMS would become unnecessary. This is made possible by attaching a compact PSS head for automatic selection of the single positive sample for each instance (see Fig. 1). As the learning objective involves both one-to-many and one-to-one label assignments, there is a conflict in the labels of some training examples, making the learning challenging. We show that by employing a stop-gradient operation, we can successfully tackle this issue and train the detector. On the COCO dataset, our simple design achieves superior performance compared to both the FCOS baseline detector with NMS post-processing and the recent end-to-end NMS-free detectors. Our extensive ablation studies justify the rationale of the design choices.
翻訳日:2021-01-31 18:18:31 公開日:2021-01-28
# 検出器自身による提案の増強

Augmenting Proposals by the Detector Itself ( http://arxiv.org/abs/2101.11789v1 )

ライセンス: Link先を確認
Xiaopei Wan, Zhenhua Guo, Chao He, Yujiu Yang, Fangbo Tao(参考訳) RoIの箱の頭部のための十分な良質の提案が長い間2段階および多段階の目的の探知器に妨げられ、多くの前の仕事はRPNの性能を改善するか、または地上の真実から提案を手動で作り出すことによってそれを解決しようとします。 しかし、これらの手法は大きなトレーニングと推論コストを必要とするか、あるいはほとんど改善しない。 本論文では,検出器自体による提案を増強し,高品質で提案を生成できる,APDIという新しいトレーニング手法を設計する。 さらに、APDIはIoUヘッドをRoIボックスヘッドに統合することを可能にする。 また、ハイパーパラメータは追加されず、将来の研究やダウンストリームタスクに有用である。 COCOデータセットに関する広範な実験は、私たちの方法が複数のバックボーンを持つ高速R-CNNに少なくとも2.7 APの改善をもたらすことを示し、APDIはGA-RPNやカスケードRPNなどの高度なRPNと協力して余分な利益を得ることができます。 さらに、カスケードR-CNNに大幅な改善をもたらします。

Lacking enough high quality proposals for RoI box head has impeded two-stage and multi-stage object detectors for a long time, and many previous works try to solve it via improving RPN's performance or manually generating proposals from ground truth. However, these methods either need huge training and inference costs or bring little improvements. In this paper, we design a novel training method named APDI, which means augmenting proposals by the detector itself and can generate proposals with higher quality. Furthermore, APDI makes it possible to integrate IoU head into RoI box head. And it does not add any hyperparameter, which is beneficial for future research and downstream tasks. Extensive experiments on COCO dataset show that our method brings at least 2.7 AP improvements on Faster R-CNN with various backbones, and APDI can cooperate with advanced RPNs, such as GA-RPN and Cascade RPN, to obtain extra gains. Furthermore, it brings significant improvements on Cascade R-CNN.
翻訳日:2021-01-31 18:17:49 公開日:2021-01-28
# doc2ppt: 科学文書からの自動プレゼンテーションスライド生成

DOC2PPT: Automatic Presentation Slides Generation from Scientific Documents ( http://arxiv.org/abs/2101.11796v1 )

ライセンス: Link先を確認
Tsu-Jui Fu, William Yang Wang, Daniel McDuff, Yale Song(参考訳) プレゼンテーション資料の作成には,重要な概念を要約し,論理的かつ視覚的に整理するための複雑なマルチモーダル推論技術が必要である。 機械はこの面倒なプロセスをエミュレートできるか? 文書からスライド生成のための新しいタスクとアプローチを紹介します。 これを解決するには、文書の要約、画像とテキストの検索、スライド構造、レイアウト予測を伴い、キー要素をプレゼンテーションに適した形式で配置する。 エンドツーエンドでタスクに取り組むための階層的シーケンス・ツー・シーケンスアプローチを提案する。 提案手法では,文書やスライド内の固有構造を利用して,パラフレーズとレイアウト予測モジュールを組み込んでスライドを生成する。 この領域の研究を加速するために、実験で使用される6Kペアドドキュメントとスライドデッキに関するデータセットをリリースします。 提案手法は,強いベースラインを上回り,リッチコンテンツとアライメントされた画像のスライドを生成する。

Creating presentation materials requires complex multimodal reasoning skills to summarize key concepts and arrange them in a logical and visually pleasing manner. Can machines learn to emulate this laborious process? We present a novel task and approach for document-to-slide generation. Solving this involves document summarization, image and text retrieval, slide structure, and layout prediction to arrange key elements in a form suitable for presentation. We propose a hierarchical sequence-to-sequence approach to tackle our task in an end-to-end manner. Our approach exploits the inherent structures within documents and slides and incorporates paraphrasing and layout prediction modules to generate slides. To help accelerate research in this domain, we release a dataset about 6K paired documents and slide decks used in our experiments. We show that our approach outperforms strong baselines and produces slides with rich content and aligned imagery.
翻訳日:2021-01-31 18:17:11 公開日:2021-01-28
# ランダムラベルを用いたニューラルアーキテクチャ検索

Neural Architecture Search with Random Labels ( http://arxiv.org/abs/2101.11834v1 )

ライセンス: Link先を確認
Xuanyang Zhang, Pengfei Hou, Xiangyu Zhang, Jian Sun(参考訳) 本稿では、ランダムラベル(RLNAS)による探索というニューラルアーキテクチャ探索(NAS)パラダイムの新しい変種について検討する。 ランダムラベルは各候補アーキテクチャのパフォーマンスに関する情報が少ないため、ほとんどの既存のNASアルゴリズムでは直感に反してタスクが聞こえる。 そこで我々は,検索中にランダムラベルのみを必要とする,収束の容易性仮説に基づく新しいNASフレームワークを提案する。 アルゴリズムには2つのステップがある: まず、ランダムなラベルを使ってスーパーネットを訓練する; 第二に、スーパーネットから、トレーニング中に重みが最も大きく変化するサブネットワークを抽出する。 大規模な実験は複数のデータセットで評価される。 NAS-Bench-201とImageNet)と複数の検索スペース(例) DARTSライクとMobileNetライク)。 非常に驚くべきことに、RLNASはPC-DARTS、Single Path One-Shotなどの最先端のNAS法と比較して、同等の結果を達成しています。 われわれの発見がNASの本質に関する新たな理解を刺激することを期待している。

In this paper, we investigate a new variant of neural architecture search (NAS) paradigm -- searching with random labels (RLNAS). The task sounds counter-intuitive for most existing NAS algorithms since random label provides few information on the performance of each candidate architecture. Instead, we propose a novel NAS framework based on ease-of-convergence hypothesis, which requires only random labels during searching. The algorithm involves two steps: first, we train a SuperNet using random labels; second, from the SuperNet we extract the sub-network whose weights change most significantly during the training. Extensive experiments are evaluated on multiple datasets (e.g. NAS-Bench-201 and ImageNet) and multiple search spaces (e.g. DARTS-like and MobileNet-like). Very surprisingly, RLNAS achieves comparable or even better results compared with state-of-the-art NAS methods such as PC-DARTS, Single Path One-Shot, even though the counterparts utilize full ground truth labels for searching. We hope our finding could inspire new understandings on the essential of NAS.
翻訳日:2021-01-31 18:16:37 公開日:2021-01-28
# COMPAS: Few-Shot Classificationのための構成部分共有による表現学習

COMPAS: Representation Learning with Compositional Part Sharing for Few-Shot Classification ( http://arxiv.org/abs/2101.11878v1 )

ライセンス: Link先を確認
Ju He, Adam Kortylewski, Alan Yuille(参考訳) 少数の画像分類は、2つの連続学習プロセスで構成されています。1)メタラーニング段階では、モデルは一連のトレーニングクラスから知識ベースを取得します。 2) メタテスト中, 獲得した知識は, ごく少数の例から見知らぬクラスを認識するのに使用される。 人間のオブジェクトの合成表現に着想を得て、オブジェクトを部分の集合とその空間構成として明示的に表現するニューラルネットワークアーキテクチャを訓練する。 特にメタラーニングでは,部分表現の辞書と部分活性化マップの辞書からなる知識ベースを訓練し,部分の頻繁な空間活性化パターンを符号化する。 両方の辞書の要素は、トレーニングクラスで共有される。 メタテスト中、未知のクラスの表現は、知識ベースから部分表現と部分活性化マップを用いて学習される。 最後に、各カテゴリで最も重要な部分を強化するために注意機構が使用される。 我々は,MiniImageNet,ticred ImageNet,CIFAR-FS,FC 100を用いた数ショット分類のための合成学習フレームワークの価値を実証した。

Few-shot image classification consists of two consecutive learning processes: 1) In the meta-learning stage, the model acquires a knowledge base from a set of training classes. 2) During meta-testing, the acquired knowledge is used to recognize unseen classes from very few examples. Inspired by the compositional representation of objects in humans, we train a neural network architecture that explicitly represents objects as a set of parts and their spatial composition. In particular, during meta-learning, we train a knowledge base that consists of a dictionary of part representations and a dictionary of part activation maps that encode frequent spatial activation patterns of parts. The elements of both dictionaries are shared among the training classes. During meta-testing, the representation of unseen classes is learned using the part representations and the part activation maps from the knowledge base. Finally, an attention mechanism is used to strengthen those parts that are most important for each category. We demonstrate the value of our compositional learning framework for a few-shot classification using miniImageNet, tieredImageNet, CIFAR-FS, and FC100, where we achieve state-of-the-art performance.
翻訳日:2021-01-31 18:15:58 公開日:2021-01-28
# セマンティックセグメンテーションのためのクロスイメージピクセルコントラストの探索

Exploring Cross-Image Pixel Contrast for Semantic Segmentation ( http://arxiv.org/abs/2101.11939v1 )

ライセンス: Link先を確認
Wenguan Wang, Tianfei Zhou, Fisher Yu, Jifeng Dai, Ender Konukoglu, Luc Van Gool(参考訳) 現在のセマンティックセグメンテーション手法は、個々の画像内のピクセル間の依存関係(例えば、拡張畳み込み、ニューラルアテンションなど)や構造対応最適化基準(例えば、IoUのような損失)によってのみ「局所的」コンテキストをマイニングすることに焦点を当てている。 しかし、それらはトレーニングデータの「グローバル」コンテキスト、すなわち異なる画像のピクセル間の豊富な意味的関係を無視します。 教師なしコントラスト表現学習の最近の進歩に触発されて,完全教師付きセグメンテーションにおけるセグメンテーションのための画素単位のコントラスト表現フレームワークを提案する。 コアのアイデアは、同じセマンティッククラスに属するピクセル埋め込みを、異なるクラスからの埋め込みよりも類似するように強制することです。 セマンティックセグメンテーションのためのピクセル単位のメートル法学習パラダイムを提起し、フィールドで長い間無視されてきたラベル付きピクセルの構造を明示的に探求する。 テスト中に余分なオーバーヘッドを伴わずに既存のセグメンテーションフレームワークに懸命に組み込むことができる。 有名なセグメンテーションモデル(DeepLabV3、HRNet、OCRなど)とバックボーン(ResNet、HR-Netなど)によって、当社の手法はさまざまなデータセット(Cityscapes、PASCAL-Context、COCO-Stuffなど)で一貫したパフォーマンス向上を実現します。 この作業は、コミュニティが完全に監視されたセマンティックセグメンテーションにおける現在のデファクトトレーニングパラダイムを再考するのを奨励することを期待しています。

Current semantic segmentation methods focus only on mining "local" context, i.e., dependencies between pixels within individual images, by context-aggregation modules (e.g., dilated convolution, neural attention) or structure-aware optimization criteria (e.g., IoU-like loss). However, they ignore "global" context of the training data, i.e., rich semantic relations between pixels across different images. Inspired by the recent advance in unsupervised contrastive representation learning, we propose a pixel-wise contrastive framework for semantic segmentation in the fully supervised setting. The core idea is to enforce pixel embeddings belonging to a same semantic class to be more similar than embeddings from different classes. It raises a pixel-wise metric learning paradigm for semantic segmentation, by explicitly exploring the structures of labeled pixels, which are long ignored in the field. Our method can be effortlessly incorporated into existing segmentation frameworks without extra overhead during testing. We experimentally show that, with famous segmentation models (i.e., DeepLabV3, HRNet, OCR) and backbones (i.e., ResNet, HR-Net), our method brings consistent performance improvements across diverse datasets (i.e., Cityscapes, PASCAL-Context, COCO-Stuff). We expect this work will encourage our community to rethink the current de facto training paradigm in fully supervised semantic segmentation.
翻訳日:2021-01-31 18:15:19 公開日:2021-01-28
# tokens-to-token vit: training vision transformers from scratch on imagenet

Tokens-to-Token ViT: Training Vision Transformers from Scratch on ImageNet ( http://arxiv.org/abs/2101.11986v1 )

ライセンス: Link先を確認
Li Yuan, Yunpeng Chen, Tao Wang, Weihao Yu, Yujun Shi, Francis EH Tay, Jiashi Feng, Shuicheng Yan(参考訳) 言語モデリングに人気があるトランスフォーマーは、画像分類のためのビジョントランスフォーマー(ViT)など、近年では視覚タスクの解決のために研究されている。 ViTモデルは、各画像を一定長さのトークン列に分割し、次に複数のトランスフォーマー層を適用して、分類のためのグローバルな関係をモデル化する。 しかし、ViTは中規模データセット(イメージネットなど)でスクラッチからトレーニングされた場合、CNNと比較してパフォーマンスが劣る。 1)入力画像の単純なトークン化は隣接画素間の重要な局所構造(エッジ、ラインなど)のモデル化に失敗し、そのトレーニングサンプル効率が低下すること、2) vitの冗長な注意バックボーン設計は、固定された計算予算と限られたトレーニングサンプルの機能が限られていることに起因している。 To overcome such limitations, we propose a new Tokens-To-Token Vision Transformers (T2T-ViT), which introduces 1) a layer-wise Tokens-to-Token (T2T) transformation to progressively structurize the image to tokens by recursively aggregating neighboring Tokens into one Token (Tokens-to-Token), such that local structure presented by surrounding tokens can be modeled and tokens length can be reduced; 2) an efficient backbone with a deep-narrow structure for vision transformers motivated by CNN architecture design after extensive study. 特に、T2T-ViT はバニラ ViT のパラメータ数と MAC を 200 % 削減し、ImageNet でゼロから訓練すると 2.5 % 以上の改善を達成します。 また、ResNetsを上回り、ImageNetで直接トレーニングする際にMobileNetsと匹敵するパフォーマンスを実現します。 例えば、ResNet50と同等のサイズのT2T-ViTは、ImageNet上で80.7\%のtop-1精度を達成できる。 コード: https://github.com/y itu-opensource/T2T-V iT)

Transformers, which are popular for language modeling, have been explored for solving vision tasks recently, e.g., the Vision Transformers (ViT) for image classification. The ViT model splits each image into a sequence of tokens with fixed length and then applies multiple Transformer layers to model their global relation for classification. However, ViT achieves inferior performance compared with CNNs when trained from scratch on a midsize dataset (e.g., ImageNet). We find it is because: 1) the simple tokenization of input images fails to model the important local structure (e.g., edges, lines) among neighboring pixels, leading to its low training sample efficiency; 2) the redundant attention backbone design of ViT leads to limited feature richness in fixed computation budgets and limited training samples. To overcome such limitations, we propose a new Tokens-To-Token Vision Transformers (T2T-ViT), which introduces 1) a layer-wise Tokens-to-Token (T2T) transformation to progressively structurize the image to tokens by recursively aggregating neighboring Tokens into one Token (Tokens-to-Token), such that local structure presented by surrounding tokens can be modeled and tokens length can be reduced; 2) an efficient backbone with a deep-narrow structure for vision transformers motivated by CNN architecture design after extensive study. Notably, T2T-ViT reduces the parameter counts and MACs of vanilla ViT by 200\%, while achieving more than 2.5\% improvement when trained from scratch on ImageNet. It also outperforms ResNets and achieves comparable performance with MobileNets when directly training on ImageNet. For example, T2T-ViT with ResNet50 comparable size can achieve 80.7\% top-1 accuracy on ImageNet. (Code: https://github.com/y itu-opensource/T2T-V iT)
翻訳日:2021-01-31 18:14:30 公開日:2021-01-28
# トポロジー正規化によるドメイン適応

Domain Adaptation by Topology Regularization ( http://arxiv.org/abs/2101.12102v1 )

ライセンス: Link先を確認
Deborah Weeks and Samuel Rivera(参考訳) ディープラーニングは、目標認識を補助する主要なアプローチとなっている。 通常、これらの手法は大量のラベル付きトレーニングデータを必要とするが、ドメイン適応(DA)または転送学習(TL)により、ラベル付き(ソース)データセットから興味のある(学習対象)データセットに知識を転送することができる。 DAにより、ネットワークはソースとターゲット間の分散ミスマッチを克服し、ターゲットドメインの一般化が不十分になります。 daテクニックは、ソースとターゲット間の分岐計測を最小化し、ソースからターゲットへの知識の転送を可能にすることで、これらの分布を調整する。 これらのアルゴリズムは近年大きく進歩しているが、ほとんどはソースとターゲットの整合においてグローバルデータ多様体構造を明示的に活用していない。 本稿では,TLに永続的ホモロジーと呼ばれるトポロジ的データ解析(TDA)手法を適用し,グローバルなデータ構造を活用することを提案する。 本稿では,ドメイン逆転(DAd)畳み込みニューラルネットワーク(CNN)アーキテクチャにおける永続的ホモロジーの利用について検討する。 実験では、持続性のみを並べることは移動には不十分であるが、位相特異点の寿命とともに考慮されなければならない。 さらに,長寿命はロバストな判別的特徴を示し,データ構造がより良好であることを見出した。 これらの正規化手法を使わずにベースライン上に示すように、DAに対する既存の発散最小化に基づくアプローチが位相構造を改善することを発見した。 これらの実験は、TLタスクのパフォーマンスを高めるために、トポロジカルな構造をどのように活用できるかを強調したい。

Deep learning has become the leading approach to assisted target recognition. While these methods typically require large amounts of labeled training data, domain adaptation (DA) or transfer learning (TL) enables these algorithms to transfer knowledge from a labelled (source) data set to an unlabelled but related (target) data set of interest. DA enables networks to overcome the distribution mismatch between the source and target that leads to poor generalization in the target domain. DA techniques align these distributions by minimizing a divergence measurement between source and target, making the transfer of knowledge from source to target possible. While these algorithms have advanced significantly in recent years, most do not explicitly leverage global data manifold structure in aligning the source and target. We propose to leverage global data structure by applying a topological data analysis (TDA) technique called persistent homology to TL. In this paper, we examine the use of persistent homology in a domain adversarial (DAd) convolutional neural network (CNN) architecture. The experiments show that aligning persistence alone is insufficient for transfer, but must be considered along with the lifetimes of the topological singularities. In addition, we found that longer lifetimes indicate robust discriminative features and more favorable structure in data. We found that existing divergence minimization based approaches to DA improve the topological structure, as indicated over a baseline without these regularization techniques. We hope these experiments highlight how topological structure can be leveraged to boost performance in TL tasks.
翻訳日:2021-01-31 18:13:37 公開日:2021-01-28
# マルチトラックプールを用いたリアルタイムマルチオブジェクトトラッキングのための識別的外観モデル

Discriminative Appearance Modeling with Multi-track Pooling for Real-time Multi-object Tracking ( http://arxiv.org/abs/2101.12159v1 )

ライセンス: Link先を確認
Chanho Kim, Li Fuxin, Mazen Alotaibi, James M. Rehg(参考訳) マルチオブジェクトトラッキングでは、トラッカーはそのメモリにシーン内の各オブジェクトの外観とモーション情報を維持します。 このメモリは、トラックと検出の一致を見つけるために利用され、マッチング結果に基づいて更新される。 多くのアプローチでは、各ターゲットを分離してモデル化し、シーン内のすべてのターゲットを一緒にメモリを更新するために使用できない。 シーンに類似したオブジェクトがある場合、これは問題となる可能性がある。 本稿では,新しいマルチトラックプーリングモジュールを用いて,メモリ更新中のすべてのトラックを同時に考慮し,空間的なオーバーヘッドを小さくする問題を解く。 さらに,オンライン上でハードトラッキングエピソードを生成するマルチトラックプーリングに適応したトレーニング戦略を提案する。 以上の結果から,これらの技術の組み合わせは強力な差別的外見モデルとなり,グリーディデータアソシエーションを生かしてオンライン追跡性能を達成できることが示唆された。 我々の実験は、パブリックマルチオブジェクト追跡(MOT)データセット上でのリアルタイム、最先端のパフォーマンスを実証した。

In multi-object tracking, the tracker maintains in its memory the appearance and motion information for each object in the scene. This memory is utilized for finding matches between tracks and detections and is updated based on the matching result. Many approaches model each target in isolation and lack the ability to use all the targets in the scene to jointly update the memory. This can be problematic when there are similar looking objects in the scene. In this paper, we solve the problem of simultaneously considering all tracks during memory updating, with only a small spatial overhead, via a novel multi-track pooling module. We additionally propose a training strategy adapted to multi-track pooling which generates hard tracking episodes online. We show that the combination of these innovations results in a strong discriminative appearance model, enabling the use of greedy data association to achieve online tracking performance. Our experiments demonstrate real-time, state-of-the-art performance on public multi-object tracking (MOT) datasets.
翻訳日:2021-01-31 18:12:52 公開日:2021-01-28
# 自動車の道徳的・社会的影響

Moral and Social Ramifications of Autonomous Vehicles ( http://arxiv.org/abs/2101.11775v1 )

ライセンス: Link先を確認
Veljko Dubljevi\'c (1), Sean Douglas (1), Jovan Milojevich (2), Nirav Ajmeri (3), William A. Bauer (1), George F. List (1) and Munindar P. Singh (1) ((1) North Carolina State University, (2) Oklahoma State University, (3) University of Bristol)(参考訳) 自動運転車(AV)は、特に説明責任、尊厳、正義に関する重要な社会的および倫理的な懸念を提起します。 私たちは、AV技術がプロフェッショナルおよびセミプロフェッショナルドライバーの生活と生活にどのように影響を与えるかから生じる特定の懸念に焦点を当てています。 そのような懸念の以前の研究は専門家の意見に焦点を当てていますが、私たちはこれらの倫理的および社会的課題をドライバー自身の視点から理解するよう努めています。 そこで我々は,半構造化インタビューに基づく質的研究手法を採用した。 これは、調査などの表面的な方法のバイアスを回避することによって、ステークホルダーのコア懸念を深く理解するのに役立つ確立された社会科学方法論です。 運転者は、avが交通システムに大きな影響を与えるという専門家の意見に同意する一方で、生活の見通しを理解し、運転職が不十分で職業が保護に値するものではないという提案を否定する。 ドライバーが専門家とどう違うかを示すことで、私たちの研究はavとaiや他の先進技術との差を広げています。 以上の結果から,新たな技術が倫理的に導入されるためには,ステークホルダーの質的研究が不可欠であることが示唆された。

Autonomous Vehicles (AVs) raise important social and ethical concerns, especially about accountability, dignity, and justice. We focus on the specific concerns arising from how AV technology will affect the lives and livelihoods of professional and semi-professional drivers. Whereas previous studies of such concerns have focused on the opinions of experts, we seek to understand these ethical and societal challenges from the perspectives of the drivers themselves. To this end, we adopted a qualitative research methodology based on semi-structured interviews. This is an established social science methodology that helps understand the core concerns of stakeholders in depth by avoiding the biases of superficial methods such as surveys. We find that whereas drivers agree with the experts that AVs will significantly impact transportation systems, they are apprehensive about the prospects for their livelihoods and dismiss the suggestions that driving jobs are unsatisfying and their profession does not merit protection. By showing how drivers differ from the experts, our study has ramifications beyond AVs to AI and other advanced technologies. Our findings suggest that qualitative research applied to the relevant, especially disempowered, stakeholders is essential to ensuring that new technologies are introduced ethically.
翻訳日:2021-01-31 18:12:17 公開日:2021-01-28
# 組合せオークションにおける平衡学習--擬次力学による近似ベイズナッシュ平衡計算

Equilibrium Learning in Combinatorial Auctions: Computing Approximate Bayesian Nash Equilibria via Pseudogradient Dynamics ( http://arxiv.org/abs/2101.11946v1 )

ライセンス: Link先を確認
Stefan Heidekr\"uger, Paul Sutterer, Nils Kohring, Maximilian Fichtl, and Martin Bichler(参考訳) 市場メカニズムとしての組合せオークション(CA)の適用は実際には普及していますが、ベイズナッシュ平衡(BNE)は理解が不十分です。 解析解は、問題が可搬偏微分方程式 (pde) として再定式化できるいくつかのケースでのみ知られている。 一般の場合、BNEの発見は計算が難しいことが知られている。 オークションにおけるBNEの数値計算に関するこれまでの研究は、これらのPDEを明示的に解いたり、戦略空間におけるポイントワイズ最適応答を計算したり、制限されたサブゲームを反復的に解いたりしていた。 本研究では,戦略をニューラルネットワークとして表現し,自己遊びにおける勾配ダイナミクスに基づく政策イテレーションを適用する,汎用的かつスケーラブルなマルチエージェント均衡学習手法を提案する。 ほとんどのオークションは元ポスト微分不可能であるため、勾配は使用できないか誤解を招く可能性がある。 勾配力学は一般に NE への収束を保証できないことはよく知られているが、多種多様なオークションにおいて近似 BNE への高速で堅牢な収束を観察し、収束のための十分条件を示す。

Applications of combinatorial auctions (CA) as market mechanisms are prevalent in practice, yet their Bayesian Nash equilibria (BNE) remain poorly understood. Analytical solutions are known only for a few cases where the problem can be reformulated as a tractable partial differential equation (PDE). In the general case, finding BNE is known to be computationally hard. Previous work on numerical computation of BNE in auctions has relied either on solving such PDEs explicitly, calculating pointwise best-responses in strategy space, or iteratively solving restricted subgames. In this study, we present a generic yet scalable alternative multi-agent equilibrium learning method that represents strategies as neural networks and applies policy iteration based on gradient dynamics in self-play. Most auctions are ex-post nondifferentiable, so gradients may be unavailable or misleading, and we rely on suitable pseudogradient estimates instead. Although it is well-known that gradient dynamics cannot guarantee convergence to NE in general, we observe fast and robust convergence to approximate BNE in a wide variety of auctions and present a sufficient condition for convergence
翻訳日:2021-01-31 18:11:39 公開日:2021-01-28
# 逐次的社会的ジレンマにおけるチューナブルエージェントの効果の検討

Exploring the Impact of Tunable Agents in Sequential Social Dilemmas ( http://arxiv.org/abs/2101.11967v1 )

ライセンス: Link先を確認
David O'Callaghan and Patrick Mannion(参考訳) 強化学習エージェントを開発する場合、標準的なアプローチは、単一の固定報酬関数に対して可能な限り最適な固定ポリシーに収束するようにエージェントを訓練することです。 将来、異なるエージェントの振る舞いが必要な場合、この方法で訓練されたエージェントは通常、完全にまたは部分的に再訓練され、貴重な時間とリソースを浪費しなければならない。 本研究では,多目的強化学習を活用し,調整可能なエージェントを創り出す。 再トレーニングを必要とせずに、デザイナーの好みに応じてさまざまな振る舞いを適用できるエージェント。 この手法を、個人と集団の合理性の間に固有の緊張がある一連の社会的ジレンマ、設定に適用する。 このような設定で一つの固定ポリシーを学習すると、学習が完了すると相手の戦略が変わると大きな不利になる。 本研究は, 調整可能なエージェント・フレームワークにより, 逐次的社会的ジレンマにおける協調行動と競争行動の適応が容易であり, トレーニングを必要とせず, 幅広い行動や対戦戦略に対応できるように, 単一の訓練されたエージェント・モデルを調整できることを実証的に実証した。

When developing reinforcement learning agents, the standard approach is to train an agent to converge to a fixed policy that is as close to optimal as possible for a single fixed reward function. If different agent behaviour is required in the future, an agent trained in this way must normally be either fully or partially retrained, wasting valuable time and resources. In this study, we leverage multi-objective reinforcement learning to create tunable agents, i.e. agents that can adopt a range of different behaviours according to the designer's preferences, without the need for retraining. We apply this technique to sequential social dilemmas, settings where there is inherent tension between individual and collective rationality. Learning a single fixed policy in such settings leaves one at a significant disadvantage if the opponents' strategies change after learning is complete. In our work, we demonstrate empirically that the tunable agents framework allows easy adaption between cooperative and competitive behaviours in sequential social dilemmas without the need for retraining, allowing a single trained agent model to be adjusted to cater for a wide range of behaviours and opponent strategies.
翻訳日:2021-01-31 18:10:57 公開日:2021-01-28
# 非定常マルコフ政策による遅延環境における行動

Acting in Delayed Environments with Non-Stationary Markov Policies ( http://arxiv.org/abs/2101.11992v1 )

ライセンス: Link先を確認
Esther Derman, Gal Dalal, Shie Mannor(参考訳) 標準マルコフ決定プロセス(mdp)の定式化は、アクションが選択された直後に実行されるという仮定にかかっている。 しかし、それはしばしば非現実的であり、ロボット操作、クラウドコンピューティング、金融などのアプリケーションで壊滅的な失敗につながる可能性があります。 MDPの学習と計画のためのフレームワークを紹介し、意思決定者が$m$ステップの遅延で実行されるアクションをコミットします。 状態が最後の$m$のコミットアクションに連結されたブルートフォースステート拡張ベースラインは、ポリシーの繰り返しを示すように、指数関数的な複雑さに悩まされます。 そして、実行遅延により、元の状態空間におけるマルコフポリシーは最大報酬を得るのに十分であるが、非定常であることを証明する。 定常マルコフポリシーについては、一般に準最適であることを示す。 そこで我々は,非定常型Q学習型モデルベースアルゴリズムを考案し,状態拡張に頼らずに遅延実行タスクを解く。 表型、物理的、およびアタリ領域に関する実験では、遅延を無視するか、状態-拡張の闘争に依存している標準アプローチまたは発散のために失敗する一方、かなりの遅延でも高速にハイパフォーマンスに収束することが明らかになった。 コードはhttps://github.com/g aldl/rl_delay_basic. gitで入手できる。

The standard Markov Decision Process (MDP) formulation hinges on the assumption that an action is executed immediately after it was chosen. However, assuming it is often unrealistic and can lead to catastrophic failures in applications such as robotic manipulation, cloud computing, and finance. We introduce a framework for learning and planning in MDPs where the decision-maker commits actions that are executed with a delay of $m$ steps. The brute-force state augmentation baseline where the state is concatenated to the last $m$ committed actions suffers from an exponential complexity in $m$, as we show for policy iteration. We then prove that with execution delay, Markov policies in the original state-space are sufficient for attaining maximal reward, but need to be non-stationary. As for stationary Markov policies, we show they are sub-optimal in general. Consequently, we devise a non-stationary Q-learning style model-based algorithm that solves delayed execution tasks without resorting to state-augmentation. Experiments on tabular, physical, and Atari domains reveal that it converges quickly to high performance even for substantial delays, while standard approaches that either ignore the delay or rely on state-augmentation struggle or fail due to divergence. The code is available at https://github.com/g aldl/rl_delay_basic. git.
翻訳日:2021-01-31 18:10:14 公開日:2021-01-28
# カバレッジ分析によるディープニューラルネットワークの信頼性向上

Increasing the Confidence of Deep Neural Networks by Coverage Analysis ( http://arxiv.org/abs/2101.12100v1 )

ライセンス: Link先を確認
Giulio Rossolini, Alessandro Biondi, Giorgio Carlo Buttazzo(参考訳) 機械学習アルゴリズムとディープニューラルネットワークのいくつかの認識と制御タスクにおける優れたパフォーマンスは、自動運転ロボットや自動運転車などの安全クリティカルなアプリケーションでそのような技術を採用する業界を推し進めています。 しかし、現在、深層学習手法をより信頼し、予測可能で、安全で、敵の攻撃に対して安全なものにするために、いくつかの課題を解決する必要がある。 ディープニューラルネットワークの信頼性を改善するためにいくつかの方法が提案されているが、そのほとんどは特定の対向的な例のクラスに適合しており、訓練サンプルから大きく逸脱する他のコーナーケースや安全でない入力を検出することができない。 本稿では,異なる安全でない入力に対するモデルのロバスト性を高めるために,カバレッジパラダイムに基づく軽量な監視アーキテクチャを提案する。 特に、4つのカバレッジ分析手法が提案され、複数の検出ロジックを評価するためのアーキテクチャでテストされている。 実験の結果,提案手法は,実行時間とメモリ要求の制限を伴い,強力な逆例と分散入力の両方を検出するのに有効であることがわかった。

The great performance of machine learning algorithms and deep neural networks in several perception and control tasks is pushing the industry to adopt such technologies in safety-critical applications, as autonomous robots and self-driving vehicles. At present, however, several issues need to be solved to make deep learning methods more trustworthy, predictable, safe, and secure against adversarial attacks. Although several methods have been proposed to improve the trustworthiness of deep neural networks, most of them are tailored for specific classes of adversarial examples, hence failing to detect other corner cases or unsafe inputs that heavily deviate from the training samples. This paper presents a lightweight monitoring architecture based on coverage paradigms to enhance the model robustness against different unsafe inputs. In particular, four coverage analysis methods are proposed and tested in the architecture for evaluating multiple detection logics. Experimental results show that the proposed approach is effective in detecting both powerful adversarial examples and out-of-distribution inputs, introducing limited extra-execution time and memory requirements.
翻訳日:2021-01-31 18:09:31 公開日:2021-01-28
# 個別臓器移植割り当てのための$\mathbf{\mathit{Matching}}$表現の学習

Learning $\mathbf{\mathit{Matching}}$ Representations for Individualized Organ Transplantation Allocation ( http://arxiv.org/abs/2101.11769v1 )

ライセンス: Link先を確認
Can Xu, Ahmed M. Alaa, Ioana Bica, Brent D. Ershoff, Maxime Cannesson, Mihaela van der Schaar(参考訳) 臓器移植は終末期の病気を治療する最後の手段であるが、移植の成功の確率はドナーと受け手の互換性に大きく依存する。 現在の医療実践はドナー・レプリエントマッチングのための粗い規則に依存しているが、臓器の互換性の基礎となる複雑な要因に関するドメイン知識が不足している。 本稿では,臓器のアロケーションと移植結果の観察データを用いて,臓器マッチングのためのデータ駆動ルールの学習問題を定式化する。 この問題は、2つの機能空間(ドナーと受信者)をマッチングすることを含む標準の教師付き学習セットアップから出発し、データに観察されていない非実用一致の下での移植結果を推定する必要がある。 これらの問題に対処するために,本モデルでは,ドナー応答性を予測するための表現学習に基づくモデルを提案する。このモデルでは,クラスタドナー特徴の表現を学習し,ドナー不変変換を受け手特徴に適用して,特定のドナー応答性特徴インスタンスの結果を予測する。 半合成および実世界のデータセットに関する実験は、私たちのモデルが人間の専門家によって実行される最先端の割り当て方法とポリシーを上回っていることを示しています。

Organ transplantation is often the last resort for treating end-stage illness, but the probability of a successful transplantation depends greatly on compatibility between donors and recipients. Current medical practice relies on coarse rules for donor-recipient matching, but is short of domain knowledge regarding the complex factors underlying organ compatibility. In this paper, we formulate the problem of learning data-driven rules for organ matching using observational data for organ allocations and transplant outcomes. This problem departs from the standard supervised learning setup in that it involves matching the two feature spaces (i.e., donors and recipients), and requires estimating transplant outcomes under counterfactual matches not observed in the data. To address these problems, we propose a model based on representation learning to predict donor-recipient compatibility; our model learns representations that cluster donor features, and applies donor-invariant transformations to recipient features to predict outcomes for a given donor-recipient feature instance. Experiments on semi-synthetic and real-world datasets show that our model outperforms state-of-art allocation methods and policies executed by human experts.
翻訳日:2021-01-31 18:08:52 公開日:2021-01-28
# データの欠如による確率時系列の推定

Inference of stochastic time series with missing data ( http://arxiv.org/abs/2101.11816v1 )

ライセンス: Link先を確認
Sangwon Lee and Vipul Periwal and Junghyo Jo(参考訳) 時系列からダイナミクスを推測することは、データ分析の重要な目的である。 特に不完全データから確率力学を推測することは困難である。 E-stepは欠落したデータポイントを復元し、M-stepは復元されたデータの基盤となるネットワークモデルを推論する。 キネティックイジングモデルによって生成された合成データを用いて,このアルゴリズムが欠落したデータ点の復元や基礎となるモデルの推定に有効であることを確認した。 emアルゴリズムの最初のイテレーションでは、モデル推論はデータポイントの欠如よりも観測されたデータポイントとのモデルデータ一貫性を示す。 しかし、繰り返し続けるにつれて、欠落したデータポイントはモデルデータの一貫性が向上します。 観測されたデータポイントと欠落したデータポイントの整合性を要求することは、最も正確なモデル推論をオーバーシュートするのを防ぐために、イテレーションの効果的な停止基準となる。 この停止基準でこのEMアルゴリズムを用いて、実際の神経活動の時系列データから欠落したデータポイントと基盤となるネットワークを推定する。 本手法は,これまで適応に最適化されていない時間相関や発火統計などのニューロン活動の集団的特性を回復する。

Inferring dynamics from time series is an important objective in data analysis. In particular, it is challenging to infer stochastic dynamics given incomplete data. We propose an expectation maximization (EM) algorithm that iterates between alternating two steps: E-step restores missing data points, while M-step infers an underlying network model of restored data. Using synthetic data generated by a kinetic Ising model, we confirm that the algorithm works for restoring missing data points as well as inferring the underlying model. At the initial iteration of the EM algorithm, the model inference shows better model-data consistency with observed data points than with missing data points. As we keep iterating, however, missing data points show better model-data consistency. We find that demanding equal consistency of observed and missing data points provides an effective stopping criterion for the iteration to prevent overshooting the most accurate model inference. Armed with this EM algorithm with this stopping criterion, we infer missing data points and an underlying network from a time-series data of real neuronal activities. Our method recovers collective properties of neuronal activities, such as time correlations and firing statistics, which have previously never been optimized to fit.
翻訳日:2021-01-31 18:07:44 公開日:2021-01-28
# スパースオンライン学習における低複雑性近似ベイズロジスティック回帰

Low Complexity Approximate Bayesian Logistic Regression for Sparse Online Learning ( http://arxiv.org/abs/2101.12113v1 )

ライセンス: Link先を確認
Gil I. Shamir and Wojciech Szpankowski(参考訳) 理論的には、ベイズ法はオンラインロジスティック回帰に対する後悔の限界を低くすることができる。 しかし実際には、このようなテクニックは特に大きな機能セットでは実現できないかもしれない。 膨大なスパース特徴集合に対して、理論上の利点を減少させる様々な近似を用いる必要がある。 しばしば、超パラメータを持つ確率勾配法を適用し、ある種の代理損失を調整し、ベイズ法の理論上の優位性を破る。 混合を近似するために定義されるサロゲート損失はモンテカルロサンプリングのような手法を必要とし、例えば計算量を増加させる。 疎度なオンラインロジスティックおよびプロビット回帰に対する低複雑性解析近似を提案する。 変分推論や他の手法とは異なり, 解析的閉形式を用い, 計算量を大幅に減少させる。 Gaussian Mixturesのような密なソリューションとは異なり、私たちのメソッドは複雑さを増すことなく巨大な機能セットでスパース問題を可能にします。 解析的閉形式を用いることで、確率勾配法をサロゲート損失に適用したり、学習と正規化ハイパーパラメータのチューニングとバランスをとる必要もない。 実験結果は、より計算にかかわる手法のパフォーマンスを上回ります。 このような手法と同様に、我々の手法も特徴や例による不確かさの度合いを明らかにしている。

Theoretical results show that Bayesian methods can achieve lower bounds on regret for online logistic regression. In practice, however, such techniques may not be feasible especially for very large feature sets. Various approximations that, for huge sparse feature sets, diminish the theoretical advantages, must be used. Often, they apply stochastic gradient methods with hyper-parameters that must be tuned on some surrogate loss, defeating theoretical advantages of Bayesian methods. The surrogate loss, defined to approximate the mixture, requires techniques as Monte Carlo sampling, increasing computations per example. We propose low complexity analytical approximations for sparse online logistic and probit regressions. Unlike variational inference and other methods, our methods use analytical closed forms, substantially lowering computations. Unlike dense solutions, as Gaussian Mixtures, our methods allow for sparse problems with huge feature sets without increasing complexity. With the analytical closed forms, there is also no need for applying stochastic gradient methods on surrogate losses, and for tuning and balancing learning and regularization hyper-parameters. Empirical results top the performance of the more computationally involved methods. Like such methods, our methods still reveal per feature and per example uncertainty measures.
翻訳日:2021-01-31 18:07:05 公開日:2021-01-28
# 確率勾配の老化における帰納規則化の起源について

On the Origin of Implicit Regularization in Stochastic Gradient Descent ( http://arxiv.org/abs/2101.12176v1 )

ライセンス: Link先を確認
Samuel L. Smith, Benoit Dherin, David G. T. Barrett and Soham De(参考訳) 無限小学習率について、確率的勾配降下 (sgd) は全バッチ損失関数上の勾配流の経路に従う。 しかし,テスト精度を最大化する学習率はしばしば学習損失を最小限にする学習率よりも大きいため,この一般化の利点は収束限界では説明できない。 この現象を解釈するために、ランダムなシャフリングを持つSGDの場合、学習率が小さくて有限である場合、平均SGD反復も勾配流の経路の近くに留まることを証明します。 この修正された損失は、元の損失関数と、ミニバッチ勾配のノルムをペナルティ化する暗黙の正規化からなる。 軽度の仮定では、バッチサイズが小さい場合には、暗黙の正規化項のスケールは、学習率とバッチサイズとの比率に比例する。 損失に暗黙の正則化器を明示的に含めることで、学習率が小さい場合にテスト精度を高めることを実証的に検証する。

For infinitesimal learning rates, stochastic gradient descent (SGD) follows the path of gradient flow on the full batch loss function. However moderately large learning rates can achieve higher test accuracies, and this generalization benefit is not explained by convergence bounds, since the learning rate which maximizes test accuracy is often larger than the learning rate which minimizes training loss. To interpret this phenomenon we prove that for SGD with random shuffling, the mean SGD iterate also stays close to the path of gradient flow if the learning rate is small and finite, but on a modified loss. This modified loss is composed of the original loss function and an implicit regularizer, which penalizes the norms of the minibatch gradients. Under mild assumptions, when the batch size is small the scale of the implicit regularization term is proportional to the ratio of the learning rate to the batch size. We verify empirically that explicitly including the implicit regularizer in the loss can enhance the test accuracy when the learning rate is small.
翻訳日:2021-01-31 18:06:27 公開日:2021-01-28
# 新規ポテンシャル3CL$^{\text{pro}}$とPL$^{\text{pro}}$阻害剤の自動設計

Automatic design of novel potential 3CL$^{\text{pro}}$ and PL$^{\text{pro}}$ inhibitors ( http://arxiv.org/abs/2101.11890v1 )

ライセンス: Link先を確認
Timothy Atkinson, Saeed Saremi, Faustino Gomez, Jonathan Masci(参考訳) SARS-CoV-1およびSARS-CoV-2の新規阻害剤の設計を目的として、特定の望ましい特性を有する分子を同定するプロパティ予測器、既知のトレーニング分子と与えられた分子の統計的類似性を近似するエネルギーモデル、および分子探索方法の3つの構成要素からなる一般分子最適化フレームワークである分子ニューラルアッセイサーチ(MONAS)を提案する。 この研究では、これらのコンポーネントは、それぞれ、グラフニューラルネットワーク(GNNs)、Deep Energy Estimator Networks(DEEN)、およびモンテカルロツリーサーチ(MCTS)でインスタンス化される。 この実装は、GNNがSARS-CoV-1阻害剤であると判断した120万分子(40万分子のうち)を同定するために使用され、同時に、GNNの訓練に用いられるデータセットに統計的に近接している。

With the goal of designing novel inhibitors for SARS-CoV-1 and SARS-CoV-2, we propose the general molecule optimization framework, Molecular Neural Assay Search (MONAS), consisting of three components: a property predictor which identifies molecules with specific desirable properties, an energy model which approximates the statistical similarity of a given molecule to known training molecules, and a molecule search method. In this work, these components are instantiated with graph neural networks (GNNs), Deep Energy Estimator Networks (DEEN) and Monte Carlo tree search (MCTS), respectively. This implementation is used to identify 120K molecules (out of 40-million explored) which the GNN determined to be likely SARS-CoV-1 inhibitors, and, at the same time, are statistically close to the dataset used to train the GNN.
翻訳日:2021-01-31 18:05:48 公開日:2021-01-28
# シンボリックテンポラル知識を深層シーケンシャルモデルに組み込む

Embedding Symbolic Temporal Knowledge into Deep Sequential Models ( http://arxiv.org/abs/2101.11981v1 )

ライセンス: Link先を確認
Yaqi Xie, Fan Zhou, Harold Soh(参考訳) シーケンスや時系列はロボットのタスク、例えば行動認識や模倣学習でしばしば発生する。 近年、深層ニューラルネットワーク(DNN)は、十分なトレーニングデータと計算資源を与えられたシーケンスを処理するための効果的なデータ駆動手法として出現している。 しかし、データに制限がある場合、ロジック/ルールベースのメソッドのような単純なモデルは驚くほどうまく機能します。 しかし、DNNとは異なり、これらの「構造化」モデルは拡張が困難であり、生の非構造化データではうまく動作しない。 本研究では,フレキシブルなDNNを学習するが,利用可能な時間的知識を利用する。 我々のアプローチは、線形時間論理(LTL)として表現された記号的知識を埋め込み、これらの埋め込みを用いて深層モデルの訓練を導くことである。 具体的には,グラフニューラルネットワークを用いてLTL式から生成したオートマトンのセマンティックな埋め込みを構築する。 実験では、これらの学習された埋め込みは、シーケンシャルアクション認識や模倣学習などの下流のロボットタスクの改善につながる可能性があります。

Sequences and time-series often arise in robot tasks, e.g., in activity recognition and imitation learning. In recent years, deep neural networks (DNNs) have emerged as an effective data-driven methodology for processing sequences given sufficient training data and compute resources. However, when data is limited, simpler models such as logic/rule-based methods work surprisingly well, especially when relevant prior knowledge is applied in their construction. However, unlike DNNs, these "structured" models can be difficult to extend, and do not work well with raw unstructured data. In this work, we seek to learn flexible DNNs, yet leverage prior temporal knowledge when available. Our approach is to embed symbolic knowledge expressed as linear temporal logic (LTL) and use these embeddings to guide the training of deep models. Specifically, we construct semantic-based embeddings of automata generated from LTL formula via a Graph Neural Network. Experiments show that these learnt embeddings can lead to improvements in downstream robot tasks such as sequential action recognition and imitation learning.
翻訳日:2021-01-31 18:05:07 公開日:2021-01-28
# Edge Federated Learning via Unit-Modulus Over-The-Air Computation (Extended Version)

Edge Federated Learning Via Unit-Modulus Over-The-Air Computation (Extended Version) ( http://arxiv.org/abs/2101.12051v1 )

ライセンス: Link先を確認
Shuai Wang, Yuncong Hong, Rui Wang, Qi Hao, Yik-Chung Wu, and Derrick Wing Kwan Ng(参考訳) Edge Federated Learning(FL)は、分散データセットから無線通信を通じてグローバルパラメトリックモデルをトレーニングする、新興機械学習パラダイムである。 本稿では,ローカルモデルパラメータを同時にアップロードし,アナログビームフォーミングによりグローバルモデルパラメータを更新する,効率的なエッジフェデレーション学習を容易にするためのUM-AirCompフレームワークを提案する。 提案するフレームワークは、高度なベースバンド信号処理を回避し、通信遅延や実装コストの低減につながる。 UM-AirCompのトレーニング損失境界を導出し,非凸非滑らかな損失境界を最小化するために,2つの低複素性アルゴリズムであるPAM(Palse alternating Minimization)とAGP(Accelerated gradient projection)を提案する。 シミュレーションの結果, PAMアルゴリズムを用いたUM-AirCompフレームワークは, モデルパラメータの推定, トレーニング損失, テスト誤差の平均二乗誤差を小さくするだけでなく, 他のベンチマーク手法よりもはるかに短い実行時間を必要とすることがわかった。 さらに,AGPアルゴリズムを用いたUM-AirCompフレームワークは,既存の最適化アルゴリズムと比較して計算複雑性を桁違いに低減し,良好な性能を実現する。 最後に,車両間自動走行シミュレーションプラットフォームにおけるUM-AirCompの実装を実演する。 ニューラルネットワークはスパーサーモデルパラメータを含むため、自律運転タスクは他のタスクよりもモデルパラメータエラーに敏感であることが判明した。

Edge federated learning (FL) is an emerging machine learning paradigm that trains a global parametric model from distributed datasets via wireless communications. This paper proposes a unit-modulus over-the-air computation (UM-AirComp) framework to facilitate efficient edge federated learning, which simultaneously uploads local model parameters and updates global model parameters via analog beamforming. The proposed framework avoids sophisticated baseband signal processing, leading to low communication delays and implementation costs. A training loss bound of UM-AirComp is derived and two low-complexity algorithms, termed penalty alternating minimization (PAM) and accelerated gradient projection (AGP), are proposed to minimize the nonconvex nonsmooth loss bound. Simulation results show that the proposed UM-AirComp framework with PAM algorithm not only achieves a smaller mean square error of model parameters' estimation, training loss, and testing error, but also requires a significantly shorter run time than that of other benchmark schemes. Moreover, the proposed UM-AirComp framework with AGP algorithm achieves satisfactory performance while reduces the computational complexity by orders of magnitude compared with existing optimization algorithms. Finally, we demonstrate the implementation of UM-AirComp in a vehicle-to-everythin g autonomous driving simulation platform. It is found that autonomous driving tasks are more sensitive to model parameter errors than other tasks since their neural networks are more sophisticated containing sparser model parameters.
翻訳日:2021-01-31 18:04:29 公開日:2021-01-28
# プライバシー保護CNNのスピードアップのためのReLUカウントの削減

Reducing ReLU Count for Privacy-Preserving CNN Speedup ( http://arxiv.org/abs/2101.11835v1 )

ライセンス: Link先を確認
Inbar Helbitz, Shai Avidan(参考訳) プライバシー保護機械学習アルゴリズムは、分類精度とデータプライバシーのバランスをとらなければならない。 これは、Convolutional Neural Networks(CNN)などの暗号および機械学習ツールの組み合わせを使用して行うことができます。 CNNは通常、畳み込み層または線形層と、ReLUのような非線形関数の2種類からなる。 これらのタイプは、異なる暗号ツールを使用して効率的に実装できます。 しかし、これらのツールは異なる表現を必要とし、それらの切り替えには時間と費用がかかります。 最近の研究は、ReLUが通信帯域の大部分を担っていることを示唆している。 ReLUは通常、各ピクセル(またはアクティベーション)の場所で適用されます。 ReLU運用の共有を提案いたします。 具体的には、あるアクティベーションのRELU決定を他のアクティベーションによって使用することができ、そのようなアクティベーションのグループのためのRELUを決定するさまざまな方法と異なる方法を検討する。 いくつかのデータセットでの実験により、最大3桁のReLU操作数を削減でき、その結果、通信帯域幅を50%以上削減できることが明らかになった。

Privacy-Preserving Machine Learning algorithms must balance classification accuracy with data privacy. This can be done using a combination of cryptographic and machine learning tools such as Convolutional Neural Networks (CNN). CNNs typically consist of two types of operations: a convolutional or linear layer, followed by a non-linear function such as ReLU. Each of these types can be implemented efficiently using a different cryptographic tool. But these tools require different representations and switching between them is time-consuming and expensive. Recent research suggests that ReLU is responsible for most of the communication bandwidth. ReLU is usually applied at each pixel (or activation) location, which is quite expensive. We propose to share ReLU operations. Specifically, the ReLU decision of one activation can be used by others, and we explore different ways to group activations and different ways to determine the ReLU for such a group of activations. Experiments on several datasets reveal that we can cut the number of ReLU operations by up to three orders of magnitude and, as a result, cut the communication bandwidth by more than 50%.
翻訳日:2021-01-31 18:03:42 公開日:2021-01-28
# 生成型adversarial networkの隠れたタスク:ganトレーニングにおける代替的視点

The Hidden Tasks of Generative Adversarial Networks: An Alternative Perspective on GAN Training ( http://arxiv.org/abs/2101.11863v1 )

ライセンス: Link先を確認
Romann M. Weber(参考訳) 本稿では、GAN(Generative Adversarial Network)のトレーニングについて、GANジェネレータのトレーニングステップが2つの暗黙のサブプロブレムに分解されることを示す。 第一に、判別器は、およそ逆分類器ラベルによって生成される「逆例」の形で、ジェネレータに新しいターゲットデータを提供する。 第二に、これらの例は、ネットワークのトレーニングに指定された主な損失に関係なく、最小二乗回帰によってジェネレータを更新するターゲットとして使用される。 主たる理論的結果を実験的に検証し、これらのサブ問題を明確にすることで可能な代替トレーニング方法の意味を議論する。 また、ネットワーク内の誘導バイアスの単純な表現も紹介し、その回帰目標に対する発電機の出力を記述することに適用します。

We present an alternative perspective on the training of generative adversarial networks (GANs), showing that the training step for a GAN generator decomposes into two implicit sub-problems. In the first, the discriminator provides new target data to the generator in the form of "inverse examples" produced by approximately inverting classifier labels. In the second, these examples are used as targets to update the generator via least-squares regression, regardless of the main loss specified to train the network. We experimentally validate our main theoretical result and discuss implications for alternative training methods that are made possible by making these sub-problems explicit. We also introduce a simple representation of inductive bias in networks, which we apply to describing the generator's output relative to its regression targets.
翻訳日:2021-01-31 18:03:04 公開日:2021-01-28
# 野生における連続学習のためのメタ例による一般化

Generalising via Meta-Examples for Continual Learning in the Wild ( http://arxiv.org/abs/2101.12081v1 )

ライセンス: Link先を確認
Alessia Bertugli, Stefano Vincenzi, Simone Calderara, Andrea Passerini(参考訳) ニューラルネットワークの迅速かつ継続的な学習は、いまだに野心的な課題である。 実際、現実世界のアプリケーションの多くは、通常はデータが少ないため、ニューラルネットワークが輝いている学習環境を反映していない。 このギャップを狭めるために、FUSION - Few-shot UnSupervIsed cONtinual learning - これは、非バランスなタスクの実際の分布とフローをシミュレートし、「野生で学習する」ニューラルネットワークに対処することを目的とした新しい戦略です。 MEML - Meta-Example Meta-Learning - 破滅的な忘れを同時に軽減し、新しいタスクの一般化と将来の学習を好む新しいモジュール。 メタ最適化における機能の再利用を促進するため,本モデルは,自己認識機構を用いて達成された集約表現を利用して,タスク毎の1つの内部ループを利用する。 MEMLの一般化能力をさらに強化するために、様々な拡張タスクを作成し、最も難しいタスクを最適化する手法を採用して拡張する。 数ショットの学習ベンチマークによる実験結果から,我々のモデルはFUSIONと完全教師付きケースの両方において,他のベースラインを超えていることが判明した。 また、標準の継続的学習において、最先端のアプローチを一貫して上回る動作についても検討します。

Learning quickly and continually is still an ambitious task for neural networks. Indeed, many real-world applications do not reflect the learning setting where neural networks shine, as data are usually few, mostly unlabelled and come as a stream. To narrow this gap, we introduce FUSION - Few-shot UnSupervIsed cONtinual learning - a novel strategy which aims to deal with neural networks that "learn in the wild", simulating a real distribution and flow of unbalanced tasks. We equip FUSION with MEML - Meta-Example Meta-Learning - a new module that simultaneously alleviates catastrophic forgetting and favours the generalisation and future learning of new tasks. To encourage features reuse during the meta-optimisation, our model exploits a single inner loop per task, taking advantage of an aggregated representation achieved through the use of a self-attention mechanism. To further enhance the generalisation capability of MEML, we extend it by adopting a technique that creates various augmented tasks and optimises over the hardest. Experimental results on few-shot learning benchmarks show that our model exceeds the other baselines in both FUSION and fully supervised case. We also explore how it behaves in standard continual learning consistently outperforming state-of-the-art approaches.
翻訳日:2021-01-31 18:02:28 公開日:2021-01-28
# グラフマッチングのための融合移動

Fusion Moves for Graph Matching ( http://arxiv.org/abs/2101.12085v1 )

ライセンス: Link先を確認
Lisa Hutschenreiter, Stefan Haller, Lorenz Feineis, Carsten Rother, Dagmar Kainm\"uller, Bogdan Savchynskyy(参考訳) グラフマッチングとしても知られる二次代入問題に対する近似アルゴリズムに寄与する。 マルチラベル離散マルコフ確率場のための融合移動法の成功に触発され,グラフマッチングへの適用性を検討した。 特に,コンピュータビジョンやバイオイメージングの分野で優れた成果を最近示した,最先端のラグランジュ双対法と効率的に組み合わせることができることを示す。 さまざまなグラフマッチングデータセットに対する経験的評価が示すように、fusionの動きは、得られたソリューションの速度と品質の観点から、これらのメソッドのパフォーマンスを著しく改善します。 したがって、この組み合わせはグラフマッチングのための最先端の解法をもたらす。

We contribute to approximate algorithms for the quadratic assignment problem also known as graph matching. Inspired by the success of the fusion moves technique developed for multilabel discrete Markov random fields, we investigate its applicability to graph matching. In particular, we show how it can be efficiently combined with the dedicated state-of-the-art Lagrange dual methods that have recently shown superior results in computer vision and bio-imaging applications. As our empirical evaluation on a wide variety of graph matching datasets suggests, fusion moves notably improve performance of these methods in terms of speed and quality of the obtained solutions. Hence, this combination results in a state-of-the-art solver for graph matching.
翻訳日:2021-01-31 18:01:45 公開日:2021-01-28
# 雑音二元系ニューラルネットワークにおける情報収縮とその意義

Information contraction in noisy binary neural networks and its implications ( http://arxiv.org/abs/2101.11750v1 )

ライセンス: Link先を確認
Chuteng Zhou, Quntao Zhuang, Matthew Mattina, Paul N. Whatmough(参考訳) ニューラルネットワークは、大規模画像分類、オブジェクト検出、自然言語処理タスクにおいて最先端のパフォーマンスを達成する機械学習モデルとして重要になっている。 本稿では、各ニューロンが不正確な出力を生じる確率がゼロでないノイズの多いバイナリニューラルネットワークについて検討する。 これらの騒がしいモデルは、生物学的、物理的、電子的な文脈から生じ、物理的世界に関連する重要な種類のモデルを構成する。 直感的には、そのようなシステムのニューロン数は、同じレベルの表現力と計算信頼性を維持しながらノイズを補うために増加する必要がある。 私たちの重要な発見は、ノイズの多いニューラルネットワークの必要な数のニューロンの境界が低くなっていることです。 この下限を証明するために、我々は情報理論のアプローチを採用し、二進対称チャネルに対するエバンス・シュルマンの結果を一般チャネルに一般化するだけでなく、ネットワークにおけるエンドツーエンドの情報収縮を推定する際のタイツネスを大幅に改善する、新しい強データ処理不等式(SDPI)を得る。 我々のSDPIは、ニューラルネットワークやセルオートマトンなど、さまざまな情報処理システムに適用できる。 雑音付きバイナリニューラルネットワークにおけるspdiの適用により,提案手法の有効性を検証し,ノイズレスニューラルネットワークの確立された理解とは大きく異なる雑音型ニューラルネットワークに対する深さ幅トレードオフを示唆する。 さらに、SDPIを適用してフォールトトレラント細胞オートマトンを研究し、エラー訂正オーバーヘッドと緩和時間の境界を得る。 本稿では,情報理論のレンズを通して,雑音情報処理システムの新たな理解を提供する。

Neural networks have gained importance as the machine learning models that achieve state-of-the-art performance on large-scale image classification, object detection and natural language processing tasks. In this paper, we consider noisy binary neural networks, where each neuron has a non-zero probability of producing an incorrect output. These noisy models may arise from biological, physical and electronic contexts and constitute an important class of models that are relevant to the physical world. Intuitively, the number of neurons in such systems has to grow to compensate for the noise while maintaining the same level of expressive power and computation reliability. Our key finding is a lower bound for the required number of neurons in noisy neural networks, which is first of its kind. To prove this lower bound, we take an information theoretic approach and obtain a novel strong data processing inequality (SDPI), which not only generalizes the Evans-Schulman results for binary symmetric channels to general channels, but also improves the tightness drastically when applied to estimate end-to-end information contraction in networks. Our SDPI can be applied to various information processing systems, including neural networks and cellular automata. Applying the SPDI in noisy binary neural networks, we obtain our key lower bound and investigate its implications on network depth-width trade-offs, our results suggest a depth-width trade-off for noisy neural networks that is very different from the established understanding regarding noiseless neural networks. Furthermore, we apply the SDPI to study fault-tolerant cellular automata and obtain bounds on the error correction overheads and the relaxation time. This paper offers new understanding of noisy information processing systems through the lens of information theory.
翻訳日:2021-01-31 18:01:14 公開日:2021-01-28
# 深層学習による側頭部x線画像の年代推定

Chronological age estimation of lateral cephalometric radiographs with deep learning ( http://arxiv.org/abs/2101.11805v1 )

ライセンス: Link先を確認
Ningtao Liu(参考訳) 従来の手動年齢推定法は,X線画像の多種性に基づく重要な作業である。 最近の研究では、側方頭部計測(lc)画像が年齢の推定に利用できることが示されている。 しかし、これらの手法は、手動で画像の特徴を測定し、経験や得点に基づいて年齢推定を行う。 したがって、これらの方法は時間的かつ労働集約的であり、主観的意見に影響される。 本研究では,LC画像に基づく年齢推定を自動的に行うことができるサリエンシーマップ型年齢推定手法を提案する。 一方,画像中の各領域の年齢推定の重要性も示せるため,この手法の解釈性が向上することは間違いない。 本手法は4歳から40歳までの3014個のLC画像で試験を行った。 実験結果のmeaは1.250で、データが少ない年齢層でかなり良い結果が得られるため、最先端ベンチマークの結果よりも少ない。 また, lc画像における年齢推定に高い寄与を持つ各領域で訓練を行い, これらの異なる領域が年齢推定タスクに与える影響を検証した。 その結果,特にデータ量が少ない場合において,側頭頂部X線像の経時的年代推定法が時間的年代推定作業に有効であることが示唆された。 また,従来のディープラーニングと比較して,本手法は解釈可能である。

The traditional manual age estimation method is crucial labor based on many kinds of the X-Ray image. Some current studies have shown that lateral cephalometric(LC) images can be used to estimate age. However, these methods are based on manually measuring some image features and making age estimates based on experience or scoring. Therefore, these methods are time-consuming and labor-intensive, and the effect will be affected by subjective opinions. In this work, we propose a saliency map-enhanced age estimation method, which can automatically perform age estimation based on LC images. Meanwhile, it can also show the importance of each region in the image for age estimation, which undoubtedly increases the method's Interpretability. Our method was tested on 3014 LC images from 4 to 40 years old. The MEA of the experimental result is 1.250, which is less than the result of the state-of-the-art benchmark because it performs significantly better in the age group with fewer data. Besides, our model is trained in each area with a high contribution to age estimation in LC images, so the effect of these different areas on the age estimation task was verified. Consequently, we conclude that the proposed saliency map enhancements chronological age estimation method of lateral cephalometric radiographs can work well in chronological age estimation task, especially when the amount of data is small. Besides, compared with traditional deep learning, our method is also interpretable.
翻訳日:2021-01-31 18:00:25 公開日:2021-01-28
# ニューラル粒子画像速度測定

Neural Particle Image Velocimetry ( http://arxiv.org/abs/2101.11950v1 )

ライセンス: Link先を確認
Nikolay Stulov and Michael Chertkov(参考訳) 過去数十年間、流体の実験的解析のための光学的および粒子ベースの計測技術において大きな進歩を遂げてきた。 粒子速度測定(Particle Image Velocimetry, PIV)技術は, 流体中に注入された粒子の経時的スナップショットから, 流れパラメータの同定に広く用いられている。 この計算は、参照フレーム内の粒子間の近接測定による実験データの後処理として実行される。 しかし、データは極端な速度と体積で現れるため、粒子の運動性や密度が増加するにつれて、後処理のステップが問題になる。 さらに、既存のPIVアルゴリズムは、フローのスパース推定を提供するか、オンライン使用を阻止する大規模な計算時間フレームを必要とする。 そこで本稿の目的は,PIVデータから微粒速度場を推定するためのオンラインアルゴリズムを開発することである。 データが一対のイメージを構成するため、この問題を解決するためにコンピュータビジョン手法を用いる。 本稿では,この問題に適応した畳み込みニューラルネットワーク,すなわち,コンピュータビジョンにおけるエンドツーエンド光フロー推定のために最近提案されたボリューム対応ネットワーク(vcn)を提案する。 ネットワークは、合成データと実フローデータの両方を含むデータセット上で、徹底的にトレーニングされ、テストされる。 実験結果は、ニューラルネットワークに基づく他の手法と同様に、従来の手法と比較して分析され、比較される。 解析の結果,提案手法は現場における他の最先端手法と同等の精度を保ちながら,効率の向上を図っている。 また,新たに構築したVCNスキームが,速度勾配と速度勾配の物理的に関係のある統計を再現していることを確認する。

In the past decades, great progress has been made in the field of optical and particle-based measurement techniques for experimental analysis of fluid flows. Particle Image Velocimetry (PIV) technique is widely used to identify flow parameters from time-consecutive snapshots of particles injected into the fluid. The computation is performed as post-processing of the experimental data via proximity measure between particles in frames of reference. However, the post-processing step becomes problematic as the motility and density of the particles increases, since the data emerges in extreme rates and volumes. Moreover, existing algorithms for PIV either provide sparse estimations of the flow or require large computational time frame preventing from on-line use. The goal of this manuscript is therefore to develop an accurate on-line algorithm for estimation of the fine-grained velocity field from PIV data. As the data constitutes a pair of images, we employ computer vision methods to solve the problem. In this work, we introduce a convolutional neural network adapted to the problem, namely Volumetric Correspondence Network (VCN) which was recently proposed for the end-to-end optical flow estimation in computer vision. The network is thoroughly trained and tested on a dataset containing both synthetic and real flow data. Experimental results are analyzed and compared to that of conventional methods as well as other recently introduced methods based on neural networks. Our analysis indicates that the proposed approach provides improved efficiency also keeping accuracy on par with other state-of-the-art methods in the field. We also verify through a-posteriori tests that our newly constructed VCN schemes are reproducing well physically relevant statistics of velocity and velocity gradients.
翻訳日:2021-01-31 17:59:41 公開日:2021-01-28
# ノイズロバスト性向上によるランダムグラフマッチング

Random Graph Matching with Improved Noise Robustness ( http://arxiv.org/abs/2101.11783v1 )

ライセンス: Link先を確認
Cheng Mao, Mark Rudelson, and Konstantin Tikhomirov(参考訳) ネットワークアライメントとも呼ばれるグラフマッチングは、与えられた2つのグラフの頂点セット間のバイジェクションを見つけ、エッジを最大にアライメントすることを意味します。 この基本的な計算問題は、コンピュータビジョンや生物学などの複数の分野で頻繁に発生します。 近年、確率モデルの下でのグラフマッチングの効率的なアルゴリズムの研究が数多く行われている。 本研究では, グラフマッチングの新しいアルゴリズムを提案し, エッジ相関 1-\alpha$ を持つ2つの Erd\H{o}s-R\'enyi グラフに対して, このアルゴリズムは $\alpha \le 1 / (\log \log n)^C$ が各グラフの頂点数で, C$ は正の普遍定数を表す。 これは前作で達成した $\alpha \le 1 / (\log n)^C$ の条件を改善する。

Graph matching, also known as network alignment, refers to finding a bijection between the vertex sets of two given graphs so as to maximally align their edges. This fundamental computational problem arises frequently in multiple fields such as computer vision and biology. Recently, there has been a plethora of work studying efficient algorithms for graph matching under probabilistic models. In this work, we propose a new algorithm for graph matching and show that, for two Erd\H{o}s-R\'enyi graphs with edge correlation $1-\alpha$, our algorithm recovers the underlying matching with high probability when $\alpha \le 1 / (\log \log n)^C$, where $n$ is the number of vertices in each graph and $C$ denotes a positive universal constant. This improves the condition $\alpha \le 1 / (\log n)^C$ achieved in previous work.
翻訳日:2021-01-31 17:59:00 公開日:2021-01-28
# Federated Multi-Armed Bandits

Federated Multi-Armed Bandits ( http://arxiv.org/abs/2101.12204v1 )

ライセンス: Link先を確認
Chengshuai Shi and Cong Shen(参考訳) federated multi-armed bandits(fmab)は、教師付き学習におけるfederated learning(fl)フレームワークと並行する新しいバンディットパラダイムである。 認知無線やレコメンデーションシステムにおける実践的な応用にインスパイアされ、FLに類似した特徴を享受している。 本稿では,fmabの汎用的枠組みを提案し,2種類のフェデレートバンディットモデルについて検討する。 まず,不均質な局所モデルが未知分布から大域モデルのランダムな実現である近似モデルについて検討する。 このモデルは、有限局所モデルが完全に知られているとしても、グローバルモデルは確実に学習されないため、クライアントサンプリングの新たな不確実性をもたらす。 さらに、この不確実性は、サブオプティマティリティギャップの知識なしに優先度を定量化することはできません。 我々は、腕とクライアントの両方のサンプリングの不確実性を考慮した新しい「二重 UCB」原理を構築するフェデレートダブル UCB (Fed2-UCB) を提案することにより、近似モデルを解く。 通信コストを明示的に考慮しながら,O(log(T))の後悔を実現する上で,新たなクライアントを徐々に認めることが重要であることを示す。 大域的バンディットモデルが異種局所モデルの正確な平均であるような正確なモデルは、特別の場合として研究される。 やや意外なことに、順序-最適の後悔は、更新周期を慎重に選択したクライアントの数から独立して達成できることが示されています。 合成データと実世界のデータの両方を用いた実験は、理論解析と提案アルゴリズムの有効性と効率を実証する。

Federated multi-armed bandits (FMAB) is a new bandit paradigm that parallels the federated learning (FL) framework in supervised learning. It is inspired by practical applications in cognitive radio and recommender systems, and enjoys features that are analogous to FL. This paper proposes a general framework of FMAB and then studies two specific federated bandit models. We first study the approximate model where the heterogeneous local models are random realizations of the global model from an unknown distribution. This model introduces a new uncertainty of client sampling, as the global model may not be reliably learned even if the finite local models are perfectly known. Furthermore, this uncertainty cannot be quantified a priori without knowledge of the suboptimality gap. We solve the approximate model by proposing Federated Double UCB (Fed2-UCB), which constructs a novel "double UCB" principle accounting for uncertainties from both arm and client sampling. We show that gradually admitting new clients is critical in achieving an O(log(T)) regret while explicitly considering the communication cost. The exact model, where the global bandit model is the exact average of heterogeneous local models, is then studied as a special case. We show that, somewhat surprisingly, the order-optimal regret can be achieved independent of the number of clients with a careful choice of the update periodicity. Experiments using both synthetic and real-world datasets corroborate the theoretical analysis and demonstrate the effectiveness and efficiency of the proposed algorithms.
翻訳日:2021-01-31 17:58:18 公開日:2021-01-28
# 補間分類器は間違いが少ない

Interpolating Classifiers Make Few Mistakes ( http://arxiv.org/abs/2101.11815v1 )

ライセンス: Link先を確認
Tengyuan Liang, Benjamin Recht(参考訳) 本稿では,最小ノルム補間分類器 (MNIC) の後悔と一般化に関する基礎的検討を行う。 MNICは、有限データセット上のラベルパターンを完全に補間する最小のKernel Hilbert Spaceノルムの関数である。 我々は、MNIC と全てのデータセットを保持する正規化された変種に対する誤りを導出する。 この境界は行列逆数の基本的性質から従う。 データが独立かつ同一に分散しているという仮定の下で、誤り境界は、mnicが補間解のノルムに比例し、データ点の数に逆比例する速度で一般化することを意味する。 このレートは、マージン分類器とパーセプトロンの類似率と一致する。 補間分類器のノルムが有界であるか、あるいは$n$のレートサブ線形で成長する可算生成モデルを導出する。 また,人口階層の条件分布が全変量で十分に分離可能である限り,MNICは急速に一般化することを示した。

This paper provides elementary analyses of the regret and generalization of minimum-norm interpolating classifiers (MNIC). The MNIC is the function of smallest Reproducing Kernel Hilbert Space norm that perfectly interpolates a label pattern on a finite data set. We derive a mistake bound for MNIC and a regularized variant that holds for all data sets. This bound follows from elementary properties of matrix inverses. Under the assumption that the data is independently and identically distributed, the mistake bound implies that MNIC generalizes at a rate proportional to the norm of the interpolating solution and inversely proportional to the number of data points. This rate matches similar rates derived for margin classifiers and perceptrons. We derive several plausible generative models where the norm of the interpolating classifier is bounded or grows at a rate sublinear in $n$. We also show that as long as the population class conditional distributions are sufficiently separable in total variation, then MNIC generalizes with a fast rate.
翻訳日:2021-01-31 17:57:31 公開日:2021-01-28