このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20211016となっている論文です。

PDF登録状況(公開日: 20211016)

TitleAuthorsAbstract論文公表日・翻訳日
# (参考訳) デュエルバンドの統計的結果 [全文訳有]

Statistical Consequences of Dueling Bandits ( http://arxiv.org/abs/2111.00870v1 )

ライセンス: CC BY 4.0
Nayan Saxena, Pan Chen, Emmy Liu(参考訳) マルチアームバンディットフレームワークは、研究者が教育的介入を評価するためにしばしば用いられてきたが、近年の研究では、学生が異なる選択肢間の選好による質的フィードバックを提供し、デュエル・バンディットフレームワークをより適したものにすることがより有益であることが示されている。 本稿では,従来の一様サンプリング法とデュエルリングバンディット法を比較して,この枠組み下でのデータの統計的品質を考察し,デュリングバンディットアルゴリズムが累積後悔最小化でうまく機能するが,ある種の状況下ではタイプiの誤差率の増大と電力の低減につながることを見出した。 これらの結果を通じて,デュエルバンドアルゴリズムを用いて適応実験を行う際の課題と機会について考察する。

Multi-Armed-Bandit frameworks have often been used by researchers to assess educational interventions, however, recent work has shown that it is more beneficial for a student to provide qualitative feedback through preference elicitation between different alternatives, making a dueling bandits framework more appropriate. In this paper, we explore the statistical quality of data under this framework by comparing traditional uniform sampling to a dueling bandit algorithm and find that dueling bandit algorithms perform well at cumulative regret minimisation, but lead to inflated Type-I error rates and reduced power under certain circumstances. Through these results we provide insight into the challenges and opportunities in using dueling bandit algorithms to run adaptive experiments.
翻訳日:2021-11-07 15:07:54 公開日:2021-10-16
# 分類問題に対する進化的相関認識特徴選択法

An Evolutionary Correlation-aware Feature Selection Method for Classification Problems ( http://arxiv.org/abs/2110.13082v1 )

ライセンス: Link先を確認
Motahare Namakin, Modjtaba Rouhani, Mostafa Sabzekar(参考訳) 人口ベース最適化アルゴリズムは特徴選択問題において有望な結果をもたらした。 しかし、主な課題は、高時間の複雑さである。 さらに、機能間の相互作用は、分類性能に直接影響を与えるFS問題におけるもう一つの大きな課題である。 本稿では,分布アルゴリズムの3つの目標を満たした推定手法を提案する。 第一に,提案手法はedaの拡張として,提案手法が提案する更新手順に基づき,適応関数に基づいて競争し,アルゴリズム中に進化するイテレーション毎に2個のみを生成する。 第二に、各イテレーションにおける個人の機能数を決定するためのガイド技術を提供する。 その結果、最終ソリューションの選択された特徴の数は、進化過程中に最適化される。 2つの利点はアルゴリズムの収束速度を向上させることである。 第3に,本論文の主な貢献として,各特徴の重要性を考えることに加えて,提案手法では特徴間の相互作用を考察できる。 これにより、補完的な特徴に対処でき、その結果分類性能が向上する。 そこで本研究では,2つの特徴の同時確率分布を考慮した条件付き確率スキームを提案する。 導入された確率は相関した特徴をうまく検出する。 相関した特徴を持つ合成データセットの実験結果から,これらの特徴に直面する提案手法の有効性が証明された。 さらに、UCIレポジトリから得られた13の実世界のデータセットの結果は、いくつかの最先端手法と比較して提案手法の優位性を示している。

The population-based optimization algorithms have provided promising results in feature selection problems. However, the main challenges are high time complexity. Moreover, the interaction between features is another big challenge in FS problems that directly affects the classification performance. In this paper, an estimation of distribution algorithm is proposed to meet three goals. Firstly, as an extension of EDA, the proposed method generates only two individuals in each iteration that compete based on a fitness function and evolve during the algorithm, based on our proposed update procedure. Secondly, we provide a guiding technique for determining the number of features for individuals in each iteration. As a result, the number of selected features of the final solution will be optimized during the evolution process. The two mentioned advantages can increase the convergence speed of the algorithm. Thirdly, as the main contribution of the paper, in addition to considering the importance of each feature alone, the proposed method can consider the interaction between features. Thus, it can deal with complementary features and consequently increase classification performance. To do this, we provide a conditional probability scheme that considers the joint probability distribution of selecting two features. The introduced probabilities successfully detect correlated features. Experimental results on a synthetic dataset with correlated features prove the performance of our proposed approach facing these types of features. Furthermore, the results on 13 real-world datasets obtained from the UCI repository show the superiority of the proposed method in comparison with some state-of-the-art approaches.
翻訳日:2021-10-31 09:26:31 公開日:2021-10-16
# (参考訳) 重み付きチェビシェフ多目的ベイズ最適化によるブラックボックス設計問題における未知ユートピア推定の柔軟性

A Nested Weighted Tchebycheff Multi-Objective Bayesian Optimization Approach for Flexibility of Unknown Utopia Estimation in Expensive Black-box Design Problems ( http://arxiv.org/abs/2110.11070v1 )

ライセンス: CC BY 4.0
Arpan Biswas, Claudio Fuentes, Christopher Hoyle(参考訳) 本研究では,重み付きtchebycheffの高価なブラックボックス多目的関数の不確かさパラメータを推定するために,モデル群から回帰モデル選択手順を構築するネスト重み付きtchebycheff多目的ベイズ最適化フレームワークを提案する。 既存の研究では、事前選択回帰モデルを用いたキャリブレーションにより、獲得関数の定式化において未知のユートピアを推定しようとする、重み付きTchebycheff MOBOアプローチが実証されている。 しかし、既存のMOBOモデルは、ガイドされたサンプルデータから適切な回帰モデルを選択する柔軟性に欠けており、MOBOの進行の繰り返しに不適合または過度に適合し、全体的なMOBO性能を低下させる。 これは、事前のモデルが一般に最良のモデルを保証するには複雑すぎるため、wtb moboが導いた現在のトレーニングデータに適合するさまざまな予測モデルのポートフォリオを検討する動機となります。 提案手法は, 温度-圧力の一定負荷下でのマルチモーダルベンチマーク問題と薄管設計を最適化し, クリープ疲労のリスクと設計コストを最小化する。 最後に、ネスト重み付きTchebycheff MOBOモデルの性能をパラメータ推定の精度、パレート最適解、関数評価コストに関して異なるMOBOフレームワークと比較する。 この方法は最適モデル選択のためにポートフォリオ内の様々な予測モデルのファミリーを考えるのに十分な一般化であり、全体的な設計アーキテクチャは、高次元(複数機能)のブラックボックス問題を解くことができ、ユートピアの事前の知識を必要とする他のグローバルな基準多目的最適化手法にも拡張できる。

We propose a nested weighted Tchebycheff Multi-objective Bayesian optimization framework where we build a regression model selection procedure from an ensemble of models, towards better estimation of the uncertain parameters of the weighted-Tchebycheff expensive black-box multi-objective function. In existing work, a weighted Tchebycheff MOBO approach has been demonstrated which attempts to estimate the unknown utopia in formulating acquisition function, through calibration using a priori selected regression model. However, the existing MOBO model lacks flexibility in selecting the appropriate regression models given the guided sampled data and therefore, can under-fit or over-fit as the iterations of the MOBO progress, reducing the overall MOBO performance. As it is too complex to a priori guarantee a best model in general, this motivates us to consider a portfolio of different families of predictive models fitted with current training data, guided by the WTB MOBO; the best model is selected following a user-defined prediction root mean-square-error-ba sed approach. The proposed approach is implemented in optimizing a multi-modal benchmark problem and a thin tube design under constant loading of temperature-pressure , with minimizing the risk of creep-fatigue failure and design cost. Finally, the nested weighted Tchebycheff MOBO model performance is compared with different MOBO frameworks with respect to accuracy in parameter estimation, Pareto-optimal solutions and function evaluation cost. This method is generalized enough to consider different families of predictive models in the portfolio for best model selection, where the overall design architecture allows for solving any high-dimensional (multiple functions) complex black-box problems and can be extended to any other global criterion multi-objective optimization methods where prior knowledge of utopia is required.
翻訳日:2021-10-24 11:50:37 公開日:2021-10-16
# (参考訳) Summ^N:長文対話と文書の多段階要約フレームワーク [全文訳有]

Summ^N: A Multi-Stage Summarization Framework for Long Input Dialogues and Documents ( http://arxiv.org/abs/2110.10150v1 )

ライセンス: CC BY 4.0
Yusen Zhang, Ansong Ni, Ziming Mao, Chen Henry Wu, Chenguang Zhu, Budhaditya Deb, Ahmed H. Awadallah, Dragomir Radev, Rui Zhang(参考訳) テキスト要約は、読者が文書、ニュース、インタビュー、ミーティングから重要な情報を収集するのに役立つ。 しかし、ほとんどの最先端の事前学習された言語モデルは、要約問題領域でよく見られる長いテキストを効率的に処理できない。 本稿では,従来のlmsの最大コンテキスト長よりも長い入力テキストに対して,シンプルでフレキシブルで効果的な多段階フレームワークであるsumm^nを提案する。 Summ^N はまず複数の段階で粗い要約を生成し、それからそれらに基づいて最終きめ細かい要約を生成する。 このフレームワークは、LMコンテキストサイズを固定しつつステージ数を調整することにより、任意の長さの入力テキストを処理することができる。 さらに、文書と対話の両方を扱うことができ、基盤となるバックボーンの抽象的な要約モデルの上に使用することができる。 実験の結果, Summ^Nは, SummScreenの3つの長集合要約データセット AMI, ICSI, QMSum, および, 新たに提案した長集合要約データセット GovReport において, ROUGEスコアを改良することにより, 従来の最先端手法よりも大幅に優れていた。 私たちのデータとコードはhttps://github.com/c hatc/summ-nで利用可能です。

Text summarization is an essential task to help readers capture salient information from documents, news, interviews, and meetings. However, most state-of-the-art pretrained language models are unable to efficiently process long text commonly seen in the summarization problem domain. In this paper, we propose Summ^N, a simple, flexible, and effective multi-stage framework for input texts that are longer than the maximum context lengths of typical pretrained LMs. Summ^N first generates the coarse summary in multiple stages and then produces the final fine-grained summary based on them. The framework can process input text of arbitrary length by adjusting the number of stages while keeping the LM context size fixed. Moreover, it can deal with both documents and dialogues and can be used on top of any underlying backbone abstractive summarization model. Our experiments demonstrate that Summ^N significantly outperforms previous state-of-the-art methods by improving ROUGE scores on three long meeting summarization datasets AMI, ICSI, and QMSum, two long TV series datasets from SummScreen, and a newly proposed long document summarization dataset GovReport. Our data and code are available at https://github.com/c hatc/Summ-N.
翻訳日:2021-10-24 11:49:15 公開日:2021-10-16
# (参考訳) 不変言語モデリング [全文訳有]

Invariant Language Modeling ( http://arxiv.org/abs/2110.08413v1 )

ライセンス: CC BY 4.0
Maxime Peyrard, Sarvjeet Singh Ghotra, Martin Josifoski, Vidhan Agarwal, Barun Patra, Dean Carignan, Emre Kiciman, Robert West(参考訳) 現代の事前訓練言語モデルは、NLPパイプラインの重要なコンポーネントである。 しかし、それらは散発的な相関関係、ドメイン外一般化の貧弱さ、バイアスに苦しむ。 因果機械学習の最近の進歩,特に不変リスク最小化(IRM)パラダイムに着想を得て,複数の環境においてより一般化された不変表現の学習フレームワークである不変言語モデリングを提案する。 特に、IRM(IRM-games)のゲーム理論的な実装を言語モデルに適用し、各環境がラウンドロビン方式でモデルのサブセットを更新することで、環境固有の損失を最適化するために競合する特定のトレーニングスケジュールから不変性を生じる。 一連の制御された実験において、我々は方法の能力を示す。 (i)構造化ノイズを除去。 (二)グローバルパフォーマンスに影響を与えることなく、特定の刺激的相関を無視し、 (iii)ドメイン外一般化の改善。 これらの利点は、標準的なトレーニングに比べて計算オーバーヘッドが無視でき、局所的な損失を変更する必要はなく、どんな言語モデルアーキテクチャにも適用できる。 私たちはこのフレームワークが言語モデルにおける急激な相関とバイアスを軽減するのに役立つと信じています。

Modern pretrained language models are critical components of NLP pipelines. Yet, they suffer from spurious correlations, poor out-of-domain generalization, and biases. Inspired by recent progress in causal machine learning, in particular the invariant risk minimization (IRM) paradigm, we propose invariant language modeling, a framework for learning invariant representations that generalize better across multiple environments. In particular, we adapt a game-theoretic implementation of IRM (IRM-games) to language models, where the invariance emerges from a specific training schedule in which all the environments compete to optimize their own environment-specific loss by updating subsets of the model in a round-robin fashion. In a series of controlled experiments, we demonstrate the ability of our method to (i) remove structured noise, (ii) ignore specific spurious correlations without affecting global performance, and (iii) achieve better out-of-domain generalization. These benefits come with a negligible computational overhead compared to standard training, do not require changing the local loss, and can be applied to any language model architecture. We believe this framework is promising to help mitigate spurious correlations and biases in language models.
翻訳日:2021-10-21 21:02:45 公開日:2021-10-16
# (参考訳) Open Domain Question Answering over Virtual Documents: an Unified Approach for Data and Text [全文訳有]

Open Domain Question Answering over Virtual Documents: A Unified Approach for Data and Text ( http://arxiv.org/abs/2110.08417v1 )

ライセンス: CC BY 4.0
Kaixin Ma, Hao Cheng, Xiaodong Liu, Eric Nyberg, Jianfeng Gao(参考訳) データとテキストの両方に普遍的なインターフェースが期待できるため、データからテキストへの生成は近年ますます人気が高まっている。 しかし、変換されたデータを接地や推論に使用するなど、ダウンストリームタスクへのアプリケーションに焦点を当てた以前の作業はほとんどない。 本研究では,このギャップを解消し,知識集約型アプリケーション,すなわちオープンドメイン質問応答(qa)のための構造化知識をエンコードする手段として,データ・ツー・テキスト法を用いる。 具体的には,wikipedia と wikidata のトリプルテーブルを拡張知識ソースとして使用する,オープンドメイン qa over data と text のための言語化文字読み出しフレームワークを提案する。 UDT-QA(Unified Data and Text QA)は,知識インデックスの拡大を効果的に活用できることを示す。 特に,本手法は自然問題に関する単一モデルの現状を定めている。 さらに,本分析は,適応型とホットスワップ型の両方の回答推論において,言語知識が望ましいことを示唆している。

Due to its potential for a universal interface over both data and text, data-to-text generation is becoming increasingly popular recently. However, few previous work has focused on its application to downstream tasks, e.g. using the converted data for grounding or reasoning. In this work, we aim to bridge this gap and use the data-to-text method as a means for encoding structured knowledge for knowledge-intensive applications, i.e. open-domain question answering (QA). Specifically, we propose a verbalizer-retriever -reader framework for open-domain QA over data and text where verbalized tables from Wikipedia and triples from Wikidata are used as augmented knowledge sources. We show that our Unified Data and Text QA, UDT-QA, can effectively benefit from the expanded knowledge index, leading to large gains over text-only baselines. Notably, our approach sets the single-model state-of-the-art on Natural Questions. Furthermore, our analyses indicate that verbalized knowledge is preferred for answer reasoning for both adapted and hot-swap settings.
翻訳日:2021-10-21 20:41:31 公開日:2021-10-16
# (参考訳) 圧縮された大規模言語モデルは何を忘れるのか? モデル圧縮におけるロバスト性問題 [全文訳有]

What do Compressed Large Language Models Forget? Robustness Challenges in Model Compression ( http://arxiv.org/abs/2110.08419v1 )

ライセンス: CC BY 4.0
Mengnan Du, Subhabrata Mukherjee, Yu Cheng, Milad Shokouhi, Xia Hu, Ahmed Hassan Awadallah(参考訳) 最近の研究は、下流タスクの圧縮モデル性能を改善することに焦点を当てたBERTのようなプレトレーニング言語モデル(PLM)の圧縮に重点を置いている。 しかし、これらのモデルの一般化性と堅牢性に対する圧縮の影響を分析する研究は行われていない。 この目的のために, 知識蒸留やプルーニングを含む2つの一般的なモデル圧縮手法について検討し, 圧縮されたモデルが, 対向テストセット上でのPLMよりもかなり頑健であることを示す。 さらなる分析により、圧縮されたモデルは簡単なサンプルに過剰に適合し、ハードサンプルにはあまり一般化しないことが示された。 さらにこの観測を利用して,サンプルの不確実性に基づくモデル圧縮の正規化戦略を開発する。 いくつかの自然言語理解タスクの実験結果から,圧縮モデルの逆一般化と分散タスク性能の両方を改善するための緩和フレームワークが実証された。

Recent works have focused on compressing pre-trained language models (PLMs) like BERT where the major focus has been to improve the compressed model performance for downstream tasks. However, there has been no study in analyzing the impact of compression on the generalizability and robustness of these models. Towards this end, we study two popular model compression techniques including knowledge distillation and pruning and show that compressed models are significantly less robust than their PLM counterparts on adversarial test sets although they obtain similar performance on in-distribution development sets for a task. Further analysis indicates that the compressed models overfit on the easy samples and generalize poorly on the hard ones. We further leverage this observation to develop a regularization strategy for model compression based on sample uncertainty. Experimental results on several natural language understanding tasks demonstrate our mitigation framework to improve both the adversarial generalization as well as in-distribution task performance of the compressed models.
翻訳日:2021-10-21 20:22:04 公開日:2021-10-16
# (参考訳) データセットの難易度に関する情報理論 [全文訳有]

Information-Theoreti c Measures of Dataset Difficulty ( http://arxiv.org/abs/2110.08420v1 )

ライセンス: CC BY 4.0
Kawin Ethayarajh, Yejin Choi, Swabha Swayamdipta(参考訳) データセットの難しさを推定するには、通常、最先端のモデルを人間と比較する必要がある。 このフレームワークは非公式なだけでなく、各インスタンスの難しさや、特定のモデルにとってどんな属性が難しいかをほとんど理解していない。 これらの問題に対処するために,データ集合の難易度を$\textit{usable information}$ の欠如としてフレーミングする,情報理論的な視点を提案する。 利用可能な情報を測定することはパフォーマンスを測定するのと同じくらい簡単であるが、理論上の利点がある。 後者では、異なるモデルw.r.tを同じデータセットで比較できるだけでなく、前者は異なるデータセットw.r.tを同じモデルで比較できる。 次に、個々のインスタンスの難易度を測定するために、$\textit{pointwise}$ $\mathcal{V}-$$\textit{information}$ (PVI)を導入します。 使用可能な情報を測定する前に入力を操作することで、データセットが与えられたモデルにとって簡単または難しいことを、$\textit{why}$で理解できます。

Estimating the difficulty of a dataset typically involves comparing state-of-the-art models to humans; the bigger the performance gap, the harder the dataset is said to be. Not only is this framework informal, but it also provides little understanding of how difficult each instance is, or what attributes make it difficult for a given model. To address these problems, we propose an information-theoreti c perspective, framing dataset difficulty as the absence of $\textit{usable information}$. Measuring usable information is as easy as measuring performance, but has certain theoretical advantages. While the latter only allows us to compare different models w.r.t the same dataset, the former also allows us to compare different datasets w.r.t the same model. We then introduce $\textit{pointwise}$ $\mathcal{V}-$$\textit{information}$ (PVI) for measuring the difficulty of individual instances, where instances with higher PVI are easier for model $\mathcal{V}$. By manipulating the input before measuring usable information, we can understand $\textit{why}$ a dataset is easy or difficult for a given model, which we use to discover annotation artefacts in widely-used benchmarks.
翻訳日:2021-10-21 20:05:55 公開日:2021-10-16
# (参考訳) 整数プログラムのバックドアを見つける:Monte Carlo Tree Searchフレームワーク [全文訳有]

Finding Backdoors to Integer Programs: A Monte Carlo Tree Search Framework ( http://arxiv.org/abs/2110.08423v1 )

ライセンス: CC BY 4.0
Elias B. Khalil, Pashootan Vaezipoor, Bistra Dilkina(参考訳) Mixed Integer Linear Programming (MIP) では、(強い)バックドアは、インスタンスの整数変数の小さなサブセットで、以下の性質を持つ: 分岐とバウンドの手順では、バックドアの変数のみに分岐することで、インスタンスをグローバルな最適性に解決することができる。 広く使われているmipベンチマークセットや特定の問題ファミリーのための事前計算されたバックドアのデータセットを構築することで、mipの新規な構造的性質に関する新たな質問が可能になる。 既存のバックドア発見アルゴリズムは様々な方法で候補変数のサブセットをサンプリングすることに依存しており、MIPLIB2003 や MIPLIB2010 のバックドアの存在を実証している。 しかし、これらのアルゴリズムは探索と搾取の不均衡のために、そのタスクで一貫して成功するには不足している。 MIPのバックドアを見つけるためのモンテカルロ木探索フレームワークBaMCTSを提案する。 広範なアルゴリズム工学、従来のmip概念とのハイブリダイゼーション、cplexソルバとの密接な統合により、この手法はmiplib2017インスタンスのベースラインよりも優れており、より頻繁により効率的にバックドアを見つけることができる。

In Mixed Integer Linear Programming (MIP), a (strong) backdoor is a "small" subset of an instance's integer variables with the following property: in a branch-and-bound procedure, the instance can be solved to global optimality by branching only on the variables in the backdoor. Constructing datasets of pre-computed backdoors for widely used MIP benchmark sets or particular problem families can enable new questions around novel structural properties of a MIP, or explain why a problem that is hard in theory can be solved efficiently in practice. Existing algorithms for finding backdoors rely on sampling candidate variable subsets in various ways, an approach which has demonstrated the existence of backdoors for some instances from MIPLIB2003 and MIPLIB2010. However, these algorithms fall short of consistently succeeding at the task due to an imbalance between exploration and exploitation. We propose BaMCTS, a Monte Carlo Tree Search framework for finding backdoors to MIPs. Extensive algorithmic engineering, hybridization with traditional MIP concepts, and close integration with the CPLEX solver have enabled our method to outperform baselines on MIPLIB2017 instances, finding backdoors more frequently and more efficiently.
翻訳日:2021-10-21 19:46:22 公開日:2021-10-16
# (参考訳) EncT5:非自己回帰タスクのための微調整T5エンコーダ [全文訳有]

EncT5: Fine-tuning T5 Encoder for Non-autoregressive Tasks ( http://arxiv.org/abs/2110.08426v1 )

ライセンス: CC BY 4.0
Frederick Liu, Siamak Shakeri, Hongkun Yu, Jing Li(参考訳) エンコーダ-デコーダトランスフォーマーアーキテクチャは、t5モデルの登場で最近普及している。 また、言語モデルタスクの事前トレーニングにおいてBERTのようなアーキテクチャよりも、汎用性からトレーニングに数ヶ月を要するような大規模なモデルの方が好ましい。 より多くのタスクに一般化することができるが、事前訓練されたモデルによる分類と回帰タスクの微調整に提案されているエンコーダ-デコーダアーキテクチャが最も効率的かどうかは明らかではない。 本研究では,t5などのプリトレーニングエンコーダ・デコーダモデルについて検討する。 特に,事前に訓練したエンコーダ・デコーダT5モデルを,エンコーダ層を用いて効率的に微調整する手法として, \textbf{EncT5}を提案する。 実験の結果, T5 のパラメータの半分未満の \textbf{EncT5} は GLUE ベンチマークの T5 モデルと同様の性能を示すことがわかった。 提案手法は,事前学習したエンコーダデコーダモデルにも容易に適用できると考えている。

Encoder-decoder transformer architectures have become popular recently with the advent of T5 models. It is also more favorable over architectures like BERT for pre-training on language model task when it comes to large scale models which could take months to train given it's generality. While being able to generalize to more tasks, it is not evident if the proposed encoder-decoder architecture is the most efficient for fine-tuning on classification and regression tasks given the pre-trained model. In this work, we study fine-tuning pre-trained encoder-decoder models such as T5. Particularly, we propose \textbf{EncT5} as a way to efficiently fine-tune pre-trained encoder-decoder T5 models for classification and regression tasks by using the encoder layers. Our experimental results show that \textbf{EncT5} with less than half of the parameters of T5 performs similarly to T5 models on GLUE benchmark. We believe our proposed approach can be easily applied to any pre-trained encoder-decoder model.
翻訳日:2021-10-21 19:29:21 公開日:2021-10-16
# (参考訳) メタデータのシェーピング: テールのための自然言語アノテーション [全文訳有]

Metadata Shaping: Natural Language Annotations for the Tail ( http://arxiv.org/abs/2110.08430v1 )

ライセンス: CC BY 4.0
Simran Arora, Sen Wu, Enci Liu, Christopher Re(参考訳) 言語モデル(LM)は目覚ましい進歩を遂げているが、トレーニングデータから稀な言語パターンへの一般化に苦慮している。 希少なエンティティや事実が検索やパーソナルアシスタントシステムなどの一般的なアプリケーションに提出されるクエリで一般的であるため、希少なエンティティ上の知識を確実に取得するlmsの能力向上は、重要な先行研究で研究されている課題である。 既存のアプローチがLMアーキテクチャを主に変更したり、有用なエンティティ知識を注入するための補助的な目的を導入したりしていることに気付き、基礎となるLMアーキテクチャを使ってこれらのアーキテクチャの品質にどの程度の幅で適合できるかを尋ねます。 本稿では,エンティティ記述やカテゴリタグといった利用可能なメタデータを,情報理論の指標に基づいた例に付加する手法であるメタデータシェーピングを提案する。 直感的には、人気のあるエンティティに対応するメタデータがレアエンティティのメタデータと重複している場合、LMは類似のポピュラーエンティティから学んだパターンを使用して、レアエンティティについてより良い推論を行うことができる。 標準的なエンティティリッチタスク(TACRED、FewRel、OpenEntity)では、LMの変更はないが、メタデータのシェーピングはBERTベースラインを最大5.3F1ポイント越え、最先端の結果と競合する。 さらに、テールと人気のあるエンティティを含む例では、改善が最大10倍になることを示す。

Language models (LMs) have made remarkable progress, but still struggle to generalize beyond the training data to rare linguistic patterns. Since rare entities and facts are prevalent in the queries users submit to popular applications such as search and personal assistant systems, improving the ability of LMs to reliably capture knowledge over rare entities is a pressing challenge studied in significant prior work. Noticing that existing approaches primarily modify the LM architecture or introduce auxiliary objectives to inject useful entity knowledge, we ask to what extent we could match the quality of these architectures using a base LM architecture, and only changing the data? We propose metadata shaping, a method in which readily available metadata, such as entity descriptions and categorical tags, are appended to examples based on information theoretic metrics. Intuitively, if metadata corresponding to popular entities overlap with metadata for rare entities, the LM may be able to better reason about the rare entities using patterns learned from similar popular entities. On standard entity-rich tasks (TACRED, FewRel, OpenEntity), with no changes to the LM whatsoever, metadata shaping exceeds the BERT-baseline by up to 5.3 F1 points, and achieves or competes with state-of-the-art results. We further show the improvements are up to 10x larger on examples containing tail versus popular entities.
翻訳日:2021-10-21 19:20:16 公開日:2021-10-16
# (参考訳) 随伴手法によるメタラーニング [全文訳有]

Meta-Learning with Adjoint Methods ( http://arxiv.org/abs/2110.08432v1 )

ライセンス: CC BY 4.0
Shibo Li, Zheng Wang, Akil Narayan, Robert Kirby, Shandian Zhe(参考訳) Model Agnostic Meta-Learning (MAML) は、タスクのファミリーの優れた初期化を見つけるために広く使われている。 その成功にもかかわらず、MAMLにおける重要な課題は、計算グラフが急速に爆発し、計算コストが非常に高価であるため、サンプリングされたタスクに対する長い訓練軌道の初期化の勾配を計算することである。 この問題に対処するため,Adjoint MAML (A-MAML)を提案する。 我々は、内部最適化における勾配降下を通常の微分方程式(ode)の進化と考える。 初期化による検証損失の勾配を効率よく計算するために、アジョイント法を用いて、共役な後向きODEを構築する。 初期化の勾配w.r.tを得るには、標準ODEソルバを2回だけ実行する必要がある -- 一つは、サンプリングされたタスクの勾配フローの長い軌跡を進化させる前向きな時間であり、もう一つは後ろ向きで、随伴ODEを解く。 我々は、中間計算グラフの作成や拡張、アグレッシブ近似の採用、あるいはトレーニング損失に近似正則化を課す必要はない。 われわれのアプローチは安価で正確で、異なる軌道長に適応できる。 合成および実世界のメタ学習における我々のアプローチの利点を実証する。

Model Agnostic Meta-Learning (MAML) is widely used to find a good initialization for a family of tasks. Despite its success, a critical challenge in MAML is to calculate the gradient w.r.t the initialization of a long training trajectory for the sampled tasks, because the computation graph can rapidly explode and the computational cost is very expensive. To address this problem, we propose Adjoint MAML (A-MAML). We view gradient descent in the inner optimization as the evolution of an Ordinary Differential Equation (ODE). To efficiently compute the gradient of the validation loss w.r.t the initialization, we use the adjoint method to construct a companion, backward ODE. To obtain the gradient w.r.t the initialization, we only need to run the standard ODE solver twice -- one is forward in time that evolves a long trajectory of gradient flow for the sampled task; the other is backward and solves the adjoint ODE. We need not create or expand any intermediate computational graphs, adopt aggressive approximations, or impose proximal regularizers in the training loss. Our approach is cheap, accurate, and adaptable to different trajectory lengths. We demonstrate the advantage of our approach in both synthetic and real-world meta-learning tasks.
翻訳日:2021-10-21 19:01:00 公開日:2021-10-16
# (参考訳) オンラインターゲットq-learning with reverse experience replay: 線形mdpのための最適ポリシーの探索

Online Target Q-learning with Reverse Experience Replay: Efficiently finding the Optimal Policy for Linear MDPs ( http://arxiv.org/abs/2110.08440v1 )

ライセンス: CC BY 4.0
Naman Agarwal, Syomantak Chaudhuri, Prateek Jain, Dheeraj Nagaraj, Praneeth Netrapalli(参考訳) Q-learningは一般的な強化学習(RL)アルゴリズムであり、関数近似 \citep{mnih2015human} で広く使われている。 対照的に、既存の理論的結果はQ学習に関する悲観的である。 例えば \citep{baird 1995residual} は、線形 MDP に対する線型関数近似でさえ Q-学習は収束しないことを示した。 さらに、同期更新を伴う表型mdpにおいても、q-learningは準最適サンプル複雑性 \citep{li2021q,azar2013mini max} を持つことが示されている。 本研究の目的は,q-learningの実践的成功と比較的悲観的な理論結果とのギャップを埋めることである。 私たちの研究の出発点は、実際、q-learningは2つの重要な変更で使われているという観察です。 (i)オンラインネットワークとターゲットネットワーク(online target learning, otl)と呼ばれる2つのネットワークによるトレーニング、及び (ii)experience replay (ER) \citep{mnih2015human}。 Q-ラーニングの実践的成功に重要な役割を果たすことが観察されているが、これらの2つの修正がQ-ラーニングの収束挙動をどのように改善するかについての理論的理解は文献に欠落している。 q-learning と otl と \emph{reverse} experience replay (rer) を慎重に組み合わせ,新しい手法 q-rex と q-rexdare (q-rex + data reuse) を提案する。 Q-Rex は線形 MDP に対して,線形近似(ZIBEL) によるゼロ固有なベルマン誤差を持つ MDP に対して,より効率的に最適条件を導出し,サンプルの複雑性を非漸近的に制限することを示し,これは標準仮定の下での MDP のクラスに対するQ-ラーニング手法における最初の結果である。 さらに,q-rexdareは表式設定においてほぼ最適のサンプル複雑性を達成し,既往の結果を改良できることを実証した。

Q-learning is a popular Reinforcement Learning (RL) algorithm which is widely used in practice with function approximation \citep{mnih2015human}. In contrast, existing theoretical results are pessimistic about Q-learning. For example, \citep{baird1995residual} shows that Q-learning does not converge even with linear function approximation for linear MDPs. Furthermore, even for tabular MDPs with synchronous updates, Q-learning was shown to have sub-optimal sample complexity \citep{li2021q,azar2013mini max}. The goal of this work is to bridge the gap between practical success of Q-learning and the relatively pessimistic theoretical results. The starting point of our work is the observation that in practice, Q-learning is used with two important modifications: (i) training with two networks, called online network and target network simultaneously (online target learning, or OTL) , and (ii) experience replay (ER) \citep{mnih2015human}. While they have been observed to play a significant role in the practical success of Q-learning, a thorough theoretical understanding of how these two modifications improve the convergence behavior of Q-learning has been missing in literature. By carefully combining Q-learning with OTL and \emph{reverse} experience replay (RER) (a form of experience replay), we present novel methods Q-Rex and Q-RexDaRe (Q-Rex + data reuse). We show that Q-Rex efficiently finds the optimal policy for linear MDPs (or more generally for MDPs with zero inherent Bellman error with linear approximation (ZIBEL)) and provide non-asymptotic bounds on sample complexity -- the first such result for a Q-learning method for this class of MDPs under standard assumptions. Furthermore, we demonstrate that Q-RexDaRe in fact achieves near optimal sample complexity in the tabular setting, improving upon the existing results for vanilla Q-learning.
翻訳日:2021-10-21 18:42:56 公開日:2021-10-16
# (参考訳) 聴衆はどのくらいよく知っていますか。 読者対応質問生成 [全文訳有]

How Well Do You Know Your Audience? Reader-aware Question Generation ( http://arxiv.org/abs/2110.08445v1 )

ライセンス: CC BY 4.0
Ian Stewart, Rada Mihalcea(参考訳) 執筆時には、読者からの質問を予想する必要があるが、異なるタイプの読者は、まったく異なるタイプの質問をすることがある。 誰かが問題に関するアドバイスを書いている場合、ドメインの専門家はどんな質問をしますか。 本稿では,読者認識型質問生成の課題に対処する。 私たちはソーシャルメディアから新しい質問と投稿のデータセットを収集し、記事の読者に関する背景情報を追加します。 予測分析と記述的差異に基づいて、専門家や初心者など、さまざまな読者が常に異なるタイプの質問をしていることが分かる。 次に、読者の先行行動に基づく離散的かつ連続的な読者表現を含む、様々な種類の読者背景を組み込んだテキスト生成モデルを開発する。 読者認識モデルがテキストのみのモデルよりわずかに優れている場合、特に記事が異なるグループの読者から非常に異なる質問を引き付ける場合において、いくつかのケースにおいて示している。 私たちの仕事は、作家が異なる読者の情報ニーズを予想するのに役立つ可能性がある。

When writing, a person may need to anticipate questions from their readers, but different types of readers may ask very different types of questions. If someone is writing for advice about a problem, what question will a domain expert ask, and is this different from how a novice might react? In this paper, we address the task of reader-aware question generation. We collect a new data set of questions and posts from social media, augmented with background information about the post readers. Based on predictive analysis and descriptive differences, we find that different readers, such as experts and novices, consistently ask different types of questions. We next develop several text generation models that incorporate different types of reader background, including discrete and continuous reader representations based on the readers' prior behavior. We demonstrate that reader-aware models can perform on par or slightly better than the text-only model in some cases, particularly in cases where a post attracts very different questions from readers of different groups. Our work has the potential to help writers anticipate the information needs of different readers.
翻訳日:2021-10-21 18:41:02 公開日:2021-10-16
# (参考訳) 手続きを記憶するだけでなく、パターンを探す: 数学の単語問題を解くためのコントラスト学習 [全文訳有]

Seeking Patterns, Not just Memorizing Procedures: Contrastive Learning for Solving Math Word Problems ( http://arxiv.org/abs/2110.08464v1 )

ライセンス: CC BY 4.0
Zhongli Li, Wenxuan Zhang, Chao Yan, Qingyu Zhou, Chao Li, Hongzhi Liu, Yunbo Cao(参考訳) 数学語問題(MWP)の解法は、自然言語の物語における量的関係を発見する必要がある。 最近の研究は、既存のモデルが文脈から手順を記憶し、MWPを解くための浅いヒューリスティックに依存していることを示している。 本稿では,この問題を考察し,MWPパターンの全体的理解の欠如が原因であると主張している。 まず,ニューラルネットワークが意味論からのみパターンを理解する方法を検証し,プロトタイプ方程式が同一であれば,ほとんどの問題はより近い表現となり,それら以外の表現や他のプロトタイプに近い表現は間違った解を生み出す傾向があることを観察する。 そこで我々は,ニューラルネットワークがパターンの発散を知覚する,対照的な学習手法を提案する。 プロトタイプ式を木に変換し,類似した木構造を求めることで,対照的な例を収集する。 解法モデルは、収集したサンプルに対して補助目的を持って訓練され、類似のプロトタイプを近づけて問題を表現する。 我々は中国語のデータセットMath23kと英語のデータセットMathQAで実験を行った。 本手法は単言語および多言語設定における性能を大幅に改善する。

Math Word Problem (MWP) solving needs to discover the quantitative relationships over natural language narratives. Recent work shows that existing models memorize procedures from context and rely on shallow heuristics to solve MWPs. In this paper, we look at this issue and argue that the cause is a lack of overall understanding of MWP patterns. We first investigate how a neural network understands patterns only from semantics, and observe that, if the prototype equations are the same, most problems get closer representations and those representations apart from them or close to other prototypes tend to produce wrong solutions. Inspired by it, we propose a contrastive learning approach, where the neural network perceives the divergence of patterns. We collect contrastive examples by converting the prototype equation into a tree and seeking similar tree structures. The solving model is trained with an auxiliary objective on the collected examples, resulting in the representations of problems with similar prototypes being pulled closer. We conduct experiments on the Chinese dataset Math23k and the English dataset MathQA. Our method greatly improves the performance in monolingual and multilingual settings.
翻訳日:2021-10-21 18:25:52 公開日:2021-10-16
# (参考訳) マルチモーダルニューロイメージング融合学習のためのヘテロジニアスグラフベースフレームワーク [全文訳有]

A Heterogeneous Graph Based Framework for Multimodal Neuroimaging Fusion Learning ( http://arxiv.org/abs/2110.08465v1 )

ライセンス: CC BY 4.0
Gen Shi, Yifan Zhu, Wenjin Liu, Xuesong Li(参考訳) 本稿では,マルチモーダルニューロイメージング融合学習(hgm)のためのヘテロジニアスグラフニューラルネットワークを提案する。 従来のGNNベースのモデルは、通常、脳ネットワークは単一タイプのノードとエッジを持つ均質なグラフであると仮定する。 しかし、膨大な文献は、特に2つの半球の間の人間の脳の不均一性を示している。 一様脳ネットワークは複雑な脳状態をモデル化するには不十分である。 そこで本研究では,脳ネットワークをマルチタイプノード(左右半球ノード)とマルチタイプエッジ(すなわち、半球内エッジと半球間エッジ)からなる不均質グラフとしてモデル化する。 また,ヘテロジノウ脳ネットワークに基づく自己教師型事前学習戦略を提案し,複雑なモデルと小さなサンプルサイズによるオーバーフィッティング問題に対処する。 本研究の結果は, 疾患予測タスクにおける他のマルチモーダル手法よりも, 提案モデルの方が優れていることを示す。 また, アブレーション実験により, 事前学習戦略を持つモデルが, 限られたトレーニングサンプルサイズの問題を軽減できることを示した。

Here, we present a Heterogeneous Graph neural network for Multimodal neuroimaging fusion learning (HGM). Traditional GNN-based models usually assume the brain network is a homogeneous graph with single type of nodes and edges. However, vast literatures have shown the heterogeneity of the human brain especially between the two hemispheres. Homogeneous brain network is insufficient to model the complicated brain state. Therefore, in this work we firstly model the brain network as heterogeneous graph with multi-type nodes (i.e., left and right hemispheric nodes) and multi-type edges (i.e., intra- and inter-hemispheric edges). Besides, we also propose a self-supervised pre-training strategy based on heterogeneou brain network to address the overfitting problem due to the complex model and small sample size. Our results on two datasets show the superiority of proposed model over other multimodal methods for disease prediction task. Besides, ablation experiments show that our model with pre-training strategy can alleviate the problem of limited training sample size.
翻訳日:2021-10-21 18:15:01 公開日:2021-10-16
# (参考訳) データ-テキスト生成のための自己学習による構成一般化の改善 [全文訳有]

Improving Compositional Generalization with Self-Training for Data-to-Text Generation ( http://arxiv.org/abs/2110.08467v1 )

ライセンス: CC BY 4.0
Sanket Vaibhav Mehta, Jinfeng Rao, Yi Tay, Mihir Kale, Ankur Parikh, Hongtao Zhong, Emma Strubell(参考訳) データからテキストへの生成は、構造化された意味表現から流麗な自然言語応答を生成することに焦点を当てる。 このような表現は合成的であり、自然言語における豊かな意味論を表現する様々な方法で原子意味スキーマの組み合わせを可能にする。 近年、事前訓練された言語モデル (LM) はデータ・テキスト・タスクにおいて顕著な成果を上げている。 本研究では,データ・テキスト・タスクにおける現在の最先端生成モデルの合成一般化を体系的に研究する。 構成気象データセットの構造シフトをシミュレートすることにより,t5モデルが未知の構造に一般化できないことを示した。 次に,テンプレートに基づく入力表現がモデル性能を大幅に向上させ,モデルスケールが一般化の欠如を自明に解決しないことを示す。 モデルの性能をさらに向上するために,擬似応答選択のための微調整ブレルートを用いた自己学習に基づくアプローチを提案する。 マイナショット気象とマルチドメインsgdデータセットに関する広範囲な実験により,提案手法の強みが示された。

Data-to-text generation focuses on generating fluent natural language responses from structured semantic representations. Such representations are compositional, allowing for the combination of atomic meaning schemata in various ways to express the rich semantics in natural language. Recently, pretrained language models (LMs) have achieved impressive results on data-to-text tasks, though it remains unclear the extent to which these LMs generalize to new semantic representations. In this work, we systematically study the compositional generalization of current state-of-the-art generation models in data-to-text tasks. By simulating structural shifts in the compositional Weather dataset, we show that T5 models fail to generalize to unseen structures. Next, we show that template-based input representations greatly improve the model performance and model scale does not trivially solve the lack of generalization. To further improve the model's performance, we propose an approach based on self-training using finetuned BLEURT for pseudo-response selection. Extensive experiments on the few-shot Weather and multi-domain SGD datasets demonstrate strong gains of our method.
翻訳日:2021-10-21 18:02:34 公開日:2021-10-16
# (参考訳) テキストアドベンチャーゲームにおけるより良い一般化のためのケースベース推論 [全文訳有]

Case-based Reasoning for Better Generalization in Text-Adventure Games ( http://arxiv.org/abs/2110.08470v1 )

ライセンス: CC BY 4.0
Mattia Atzeni, Shehzaad Dhuliawala, Keerthiram Murugesan, Mrinmaya Sachan(参考訳) テキストベースのゲーム(TBG)は、基礎言語理解と一般化やサンプル効率といった問題の研究を推進するための有望な環境として登場した。 TBGには様々なアーキテクチャや学習方式の深層強化学習法(RL)が提案されている。 しかし、これらの手法は、特に分布シフト下では、効率的に一般化できない。 深いrlアプローチからの脱却において,本稿では,エージェントを訓練し,トレーニング分布から一般化するために,ケースベース推論に触発された一般的な手法を提案する。 ケースベースの推論器は、過去にエージェントと世界との相互作用からポジティブな経験の事例を収集し、後に収集した経験を再利用して効率的に行動する。 この方法は、tbgsの文献において、既存のオンポリシー神経剤と組み合わせて適用することができる。 実験の結果,提案手法は既存の手法を一貫して改善し,優れた分散一般化を達成し,広く利用されている環境で新たな最先端結果を得ることができた。

Text-based games (TBG) have emerged as promising environments for driving research in grounded language understanding and studying problems like generalization and sample efficiency. Several deep reinforcement learning (RL) methods with varying architectures and learning schemes have been proposed for TBGs. However, these methods fail to generalize efficiently, especially under distributional shifts. In a departure from deep RL approaches, in this paper, we propose a general method inspired by case-based reasoning to train agents and generalize out of the training distribution. The case-based reasoner collects instances of positive experiences from the agent's interaction with the world in the past and later reuses the collected experiences to act efficiently. The method can be applied in conjunction with any existing on-policy neural agent in the literature for TBGs. Our experiments show that the proposed approach consistently improves existing methods, obtains good out-of-distribution generalization, and achieves new state-of-the-art results on widely used environments.
翻訳日:2021-10-21 17:48:35 公開日:2021-10-16
# (参考訳) 字幕上への高速投射とバイオインフォマティクスのスパース回帰への応用 [全文訳有]

Fast Projection onto the Capped Simplex withApplications to Sparse Regression in Bioinformatics ( http://arxiv.org/abs/2110.08471v1 )

ライセンス: CC BY 4.0
Andersen Ang, Jianzhu Ma, Nianjun Liu, Kun Huang, Yijie Wang(参考訳) ベクトルを、超平面によって切断された超キューブであるいわゆる k-キャッピング・シンプレックスに投影する問題を考える。 有界要素を持つn次元入力ベクトルに対して,ニュートン法に基づく単純なアルゴリズムは,従来のソートベース手法に比べて計算コストがはるかに低いo(n)前後の複雑性で,高い精度で投影問題を解くことができることがわかった。 我々は,その方法の部分的説明と正当化の理論を提供する。 提案アルゴリズムは,大規模データセット上で高い精度でプロジェクション問題の解を生成できることを示すとともに,実行時(100万変数以上の入力ベクトルのCPU時間に対して,商用ソフトウェアよりも約6~8倍高速)で最先端の手法を大幅に上回っていることを示す。 さらに,バイオインフォマティクス問題における疎回帰問題に対する提案アルゴリズムの有効性について述べる。 gwasデータセット(シングルヌクレオチド多型1,500,000)の実証結果から,提案手法を用いて投影型準ニュートン法(pqn)を高速化した場合,pqnアルゴリズムは大規模回帰問題に対処でき,現在の手法よりも効率的(約3~6倍高速)であることが示された。

We consider the problem of projecting a vector onto the so-called k-capped simplex, which is a hyper-cube cut by a hyperplane. For an n-dimensional input vector with bounded elements, we found that a simple algorithm based on Newton's method is able to solve the projection problem to high precision with a complexity roughly about O(n), which has a much lower computational cost compared with the existing sorting-based methods proposed in the literature. We provide a theory for partial explanation and justification of the method. We demonstrate that the proposed algorithm can produce a solution of the projection problem with high precision on large scale datasets, and the algorithm is able to significantly outperform the state-of-the-art methods in terms of runtime (about 6-8 times faster than a commercial software with respect to CPU time for input vector with 1 million variables or more). We further illustrate the effectiveness of the proposed algorithm on solving sparse regression in a bioinformatics problem. Empirical results on the GWAS dataset (with 1,500,000 single-nucleotide polymorphisms) show that, when using the proposed method to accelerate the Projected Quasi-Newton (PQN) method, the accelerated PQN algorithm is able to handle huge-scale regression problem and it is more efficient (about 3-6 times faster) than the current state-of-the-art methods.
翻訳日:2021-10-21 17:07:51 公開日:2021-10-16
# (参考訳) FedMM:Federed Adversarial Domain Adaptationのためのサドルポイント最適化

FedMM: Saddle Point Optimization for Federated Adversarial Domain Adaptation ( http://arxiv.org/abs/2110.08477v1 )

ライセンス: CC BY 4.0
Yan Shen and Jian Du and Hao Zhang and Benyu Zhang and Zhanghexuan Ji and Mingchen Gao(参考訳) フェデレーションされたドメイン適応は、クライアント間でラベルの不均衡の頻度が高いため、ユニークな分散ミニマックストレーニングタスクであり、各クライアントはグローバルモデルをトレーニングするために必要なラベルのサブセットのみを見ることができる。 この問題に対処するため,フェデレーションドメイン適応問題に特化して設計されたFedMMと呼ばれる分散ミニマックスオプティマイザを提案する。 それぞれのクライアントが異なるラベルクラスを持ち、一部のクライアントが教師なしのタスクしか持たない極端なケースでもうまく機能します。 我々はFedMMがドメインシフトした教師なしデータで定常点への収束を保証することを証明した。 様々なベンチマークデータセットにおいて、fedmmは、勾配降下上昇法(gda)アルゴリズムに基づくフェデレーションオプティマイザよりも、重要な通信の節約または大幅な精度向上を一貫して達成していることを示している。 例えば、scratchからのトレーニングでは、他のgdaベースのフェデレーション平均メソッドよりも、同じ通信ラウンドよりも約20〜$$の精度で優れており、さまざまなネットワークで5.4〜9〜$の精度向上で、事前トレーニングされたモデルからのトレーニングを一貫して上回っています。

Federated adversary domain adaptation is a unique distributed minimax training task due to the prevalence of label imbalance among clients, with each client only seeing a subset of the classes of labels required to train a global model. To tackle this problem, we propose a distributed minimax optimizer referred to as FedMM, designed specifically for the federated adversary domain adaptation problem. It works well even in the extreme case where each client has different label classes and some clients only have unsupervised tasks. We prove that FedMM ensures convergence to a stationary point with domain-shifted unsupervised data. On a variety of benchmark datasets, extensive experiments show that FedMM consistently achieves either significant communication savings or significant accuracy improvements over federated optimizers based on the gradient descent ascent (GDA) algorithm. When training from scratch, for example, it outperforms other GDA based federated average methods by around $20\%$ in accuracy over the same communication rounds; and it consistently outperforms when training from pre-trained models with an accuracy improvement from $5.4\%$ to $9\%$ for different networks.
翻訳日:2021-10-21 16:49:52 公開日:2021-10-16
# (参考訳) シミュレーションとグラフ畳み込みネットワークによる学習協力とオンライン計画 [全文訳有]

Learning Cooperation and Online Planning Through Simulation and Graph Convolutional Network ( http://arxiv.org/abs/2110.08480v1 )

ライセンス: CC0 1.0
Rafid Ameer Mahmud, Fahim Faisal, Saaduddin Mahmud, Md. Mosaddek Khan(参考訳) マルチエージェントマルコフ決定プロセス(MMDP)は,マルチエージェント協調環境における逐次決定アルゴリズムのモデル化に有効である。 集中型および分散型計画に基づく多くのアルゴリズムがこの領域で開発されている。 しかし、動的に変化する環境は、状態と共同動作空間の指数的なサイズと相まって、これらのアルゴリズムが効率とスケーラビリティの両方を提供するのが難しくなる。 近年,集中型計画アルゴリズム FV-MCTS-MP と分散型計画アルゴリズム \textit{Alternate maximization with Behavioural Cloning} (ABC) は,MMDP の解法において顕著な性能を発揮している。 しかし,動的に変化する環境に適応できず,エージェント間のコミュニケーションの欠如を考慮できない。 このような背景から,マルチエージェント協調環境のためのシミュレーションベースのオンライン計画アルゴリズム「SiCLOP」を導入する。 具体的には、SiCLOPはモンテカルロ木探索(MCTS)を補完し、コーディネーショングラフ(CG)とグラフニューラルネットワーク(GCN)を用いて協調学習を行い、MMDP問題のリアルタイム解を提供する。 また、アクション空間を効果的に刈り取ることによりスケーラビリティも向上する。 さらに、FV-MCTS-MPやABCとは異なり、SiCLOPはトランスファーラーニングをサポートし、学習エージェントが異なる環境で動作できるようにする。 また,マルチエージェント設定の文脈におけるアルゴリズムの収束性についても理論的に論じる。 最後に、我々の広範な実証結果から、SiCLOPは最先端のオンライン計画アルゴリズムよりも大幅に優れています。

Multi-agent Markov Decision Process (MMDP) has been an effective way of modelling sequential decision making algorithms for multi-agent cooperative environments. A number of algorithms based on centralized and decentralized planning have been developed in this domain. However, dynamically changing environment, coupled with exponential size of the state and joint action space, make it difficult for these algorithms to provide both efficiency and scalability. Recently, Centralized planning algorithm FV-MCTS-MP and decentralized planning algorithm \textit{Alternate maximization with Behavioural Cloning} (ABC) have achieved notable performance in solving MMDPs. However, they are not capable of adapting to dynamically changing environments and accounting for the lack of communication among agents, respectively. Against this background, we introduce a simulation based online planning algorithm, that we call SiCLOP, for multi-agent cooperative environments. Specifically, SiCLOP tailors Monte Carlo Tree Search (MCTS) and uses Coordination Graph (CG) and Graph Neural Network (GCN) to learn cooperation and provides real time solution of a MMDP problem. It also improves scalability through an effective pruning of action space. Additionally, unlike FV-MCTS-MP and ABC, SiCLOP supports transfer learning, which enables learned agents to operate in different environments. We also provide theoretical discussion about the convergence property of our algorithm within the context of multi-agent settings. Finally, our extensive empirical results show that SiCLOP significantly outperforms the state-of-the-art online planning algorithms.
翻訳日:2021-10-21 16:47:49 公開日:2021-10-16
# (参考訳) 良いプロンプトは、数百万のパラメータに値するか? 視覚言語モデルのための低リソースプロンプト学習 [全文訳有]

A Good Prompt Is Worth Millions of Parameters? Low-resource Prompt-based Learning for Vision-Language Models ( http://arxiv.org/abs/2110.08484v1 )

ライセンス: CC BY 4.0
Woojeong Jin, Yu Cheng, Yelong Shen, Weizhu Chen, Xiang Ren(参考訳) 大規模な事前学習型視覚言語(VL)モデルは、少数の例で新しいタスクを学習したり、微調整なしで新しいタスクに一般化することができる。 しかし、これらの巨大なVLモデルは、極めて巨大なモデルサイズと推論速度の遅いために、現実世界のアプリケーションにはデプロイが困難である。 本研究では,視覚言語タスクのプロンプトベース学習者である fewvlm を提案する。 本稿では,プレフィックス言語モデリング (PrefixLM) とマスク言語モデリング (MaskedLM) を併用したシーケンス・ツー・シーケンス・トランスフォーマモデルを事前学習し,VQAと画像キャプションにおけるゼロショットと少数ショットのパフォーマンス向上のための簡単なプロンプトを導入する。 5つのVQAおよびキャプションデータセットの実験結果から、\method\xspaceは、ゼロショットVQAv2において、我々のより31倍大きいFrozenを18.2%上回り、246$\times$大きなPICaに匹敵する結果が得られる。 その結果,(1) プロンプトはゼロショット性能に大きく影響するが,少数ショット性能にはほとんど影響しない,(2) MaskedLM は少数ショット VQA タスクを支援する一方で,PrefixLM はキャプション性能を向上し,(3) トレーニングセットのサイズが小さくなると性能が著しく向上することがわかった。

Large pretrained vision-language (VL) models can learn a new task with a handful of examples or generalize to a new task without fine-tuning. However, these gigantic VL models are hard to deploy for real-world applications due to their impractically huge model size and slow inference speed. In this work, we propose FewVLM, a few-shot prompt-based learner on vision-language tasks. We pretrain a sequence-to-sequence Transformer model with both prefix language modeling (PrefixLM) and masked language modeling (MaskedLM), and introduce simple prompts to improve zero-shot and few-shot performance on VQA and image captioning. Experimental results on five VQA and captioning datasets show that \method\xspace outperforms Frozen which is 31 times larger than ours by 18.2% point on zero-shot VQAv2 and achieves comparable results to a 246$\times$ larger model, PICa. We observe that (1) prompts significantly affect zero-shot performance but marginally affect few-shot performance, (2) MaskedLM helps few-shot VQA tasks while PrefixLM boosts captioning performance, and (3) performance significantly increases when training set size is small.
翻訳日:2021-10-21 16:36:00 公開日:2021-10-16
# (参考訳) マルチモーダル指導マニュアルのシークエンシングによる手続き知識の理解 [全文訳有]

Understanding Procedural Knowledge by Sequencing Multimodal Instructional Manuals ( http://arxiv.org/abs/2110.08486v1 )

ライセンス: CC BY 4.0
Te-Lin Wu, Alex Spangher, Pegah Alipoormolabashi, Marjorie Freedman, Ralph Weischedel, Nanyun Peng(参考訳) 順序のないイベントを順序付けする能力は、実世界のタスク手順を理解する上で必須のスキルであり、テキストと画像の組み合わせによって伝達されることが多いため、時間的共通感覚とマルチモーダル情報の徹底的な理解を必要とすることが多い。 このような機能はシーケンシャルなタスク計画やマルチソース命令の要約といったアプリケーションには不可欠です。 人間は、無秩序なマルチモーダル手続き命令を推論し、シーケンシングすることができるが、現在の機械学習モデルがそのような必須の能力を持っているかどうかは、まだ疑問の余地がある。 本研究では,一般的なオンライン指導マニュアルからデータセットをキュレートし,包括的な人間アノテーションを収集することで,非順序のマルチモーダル命令を推論しシーケンシングするモデルの能力を評価する。 モデルの性能は人間より著しく劣るだけでなく、マルチモーダル情報の有効利用も不可能である。 マルチモーダルイベントシーケンシングにおける機械の性能を向上させるために,テキストと画像の逐次アライメント特性を利用した逐次性対応事前学習手法を提案する。

The ability to sequence unordered events is an essential skill to comprehend and reason about real world task procedures, which often requires thorough understanding of temporal common sense and multimodal information, as these procedures are often communicated through a combination of texts and images. Such capability is essential for applications such as sequential task planning and multi-source instruction summarization. While humans are capable of reasoning about and sequencing unordered multimodal procedural instructions, whether current machine learning models have such essential capability is still an open question. In this work, we benchmark models' capability of reasoning over and sequencing unordered multimodal instructions by curating datasets from popular online instructional manuals and collecting comprehensive human annotations. We find models not only perform significantly worse than humans but also seem incapable of efficiently utilizing the multimodal information. To improve machines' performance on multimodal event sequencing, we propose sequentiality-aware pretraining techniques that exploit the sequential alignment properties of both texts and images, resulting in > 5% significant improvements.
翻訳日:2021-10-21 16:20:37 公開日:2021-10-16
# (参考訳) ディープラーニングを用いたリモートセンシングのためのグレイスケールアルゴリズム [全文訳有]

Grayscale Based Algorithm for Remote Sensing with Deep Learning ( http://arxiv.org/abs/2110.08493v1 )

ライセンス: CC BY 4.0
Sai Ganesh CS, Aouthithiye Barathwaj SR Y, R. Azhagumurugan, R. Swethaa S(参考訳) リモートセンシングは、物理的に接触することなくターゲットの画像を取得することである。 近年,画像取得期間の短縮によりリモートセンシングデータが広く好まれている。 地上目標のリモートセンシングは、衛星取得から異なる媒体を通して光の伝播に影響を与える様々な要因により、より困難である。 複数の畳み込みニューラルネットワークベースのアルゴリズムがリモートセンシングの分野で実装されている。 教師付き学習(supervised learning)は、トレーニングの前にクラスに従ってデータをラベル付けする機械学習テクニックである。 ターゲットをより正確に検出・分類するために、バウンディングとアンカーボックスに基づくアルゴリズムであるyolov3が採用されている。 大気中を旅する光の影響に対処するため、グレイスケールをベースとしたYOLOv3構成を導入する。 レイリー散乱効果の予測と解法のために、RGBベースのグレースケールアルゴリズムを提案する。 取得した画像は、ターゲット検出のためのグレースケールベースのYOLO3アルゴリズムで分析、訓練される。 その結果, 従来のYOLOv3手法よりも精度が高く, 効果的に目標を検知できることがわかった。

Remote sensing is the image acquisition of a target without having physical contact with it. Nowadays remote sensing data is widely preferred due to its reduced image acquisition period. The remote sensing of ground targets is more challenging because of the various factors that affect the propagation of light through different mediums from a satellite acquisition. Several Convolutional Neural Network-based algorithms are being implemented in the field of remote sensing. Supervised learning is a machine learning technique where the data is labelled according to their classes prior to the training. In order to detect and classify the targets more accurately, YOLOv3, an algorithm based on bounding and anchor boxes is adopted. In order to handle the various effects of light travelling through the atmosphere, Grayscale based YOLOv3 configuration is introduced. For better prediction and for solving the Rayleigh scattering effect, RGB based grayscale algorithms are proposed. The acquired images are analysed and trained with the grayscale based YOLO3 algorithm for target detection. The results show that the grayscale-based method can sense the target more accurately and effectively than the traditional YOLOv3 approach.
翻訳日:2021-10-21 15:57:07 公開日:2021-10-16
# (参考訳) PRIMER:多文書要約のためのピラミッドベースマスケ文事前学習 [全文訳有]

PRIMER: Pyramid-based Masked Sentence Pre-training for Multi-document Summarization ( http://arxiv.org/abs/2110.08499v1 )

ライセンス: CC BY 4.0
Wen Xiao, Iz Beltagy, Giuseppe Carenini, Arman Cohan(参考訳) 最近提案された事前学習世代モデルは,単一文書要約ベンチマークにおいて高い性能を示す。 しかし、その多くは汎用目的の事前学習であり、主に単一の文書入力を処理することを目的としている。 本稿では,データセット固有のアーキテクチャと大量のラベル付きデータの必要性を低減し,要約に焦点を当てたマルチドキュメント表現のための事前学習モデル primer を提案する。 具体的には、適切な入力変換とグローバルな注意を多文書入力に当てはめるLongformerアーキテクチャを採用し、Gap Sentence Generationの目的を用いて、エンティティピラミッドと呼ばれるクラスタ全体の健全な文を選択することで、関連するドキュメントのクラスタをまたいだ情報の選択と集約をモデルに教える。 zero-shot, few-shot, full-supervised設定の3つの異なるドメインから6つのマルチドキュメント要約データセットを広範囲に実験した結果、私たちのモデルであるprimerは、これらの設定のほとんどにおいて、現在の最先端のモデルを大きなマージンで上回っている。 コードと事前トレーニングされたモデルはhttps://github.com/a llenai/primerでリリース

Recently proposed pre-trained generation models achieve strong performance on single-document summarization benchmarks. However, most of them are pre-trained with general-purpose objectives and mainly aim to process single document inputs. In this paper, we propose PRIMER, a pre-trained model for multi-document representation with focus on summarization that reduces the need for dataset-specific architectures and large amounts of fine-tuning labeled data. Specifically, we adopt the Longformer architecture with proper input transformation and global attention to fit for multi-document inputs, and we use Gap Sentence Generation objective with a new strategy to select salient sentences for the whole cluster, called Entity Pyramid, to teach the model to select and aggregate information across a cluster of related documents. With extensive experiments on 6 multi-document summarization datasets from 3 different domains on the zero-shot, few-shot, and full-supervised settings, our model, PRIMER, outperforms current state-of-the-art models on most of these settings with large margins. Code and pre-trained models are released at https://github.com/a llenai/PRIMER
翻訳日:2021-10-21 15:49:38 公開日:2021-10-16
# (参考訳) 話す前に考える: 自尊心を使って、応答生成のための暗黙のコモンセンス知識を生成する [全文訳有]

Think Before You Speak: Using Self-talk to Generate Implicit Commonsense Knowledge for Response Generation ( http://arxiv.org/abs/2110.08501v1 )

ライセンス: CC BY 4.0
Pei Zhou, Karthik Gopalakrishnan, Behnam Hedayatnia, Seokhwan Kim, Jay Pujara, Xiang Ren, Yang Liu, Dilek Hakkani-Tur(参考訳) 常識のような暗黙の知識は、人間の会話を流動化する鍵となる。 現在の神経応答生成(rg)モデルはエンドツーエンドで訓練され、未発表の暗黙の知識を省く。 本稿では,まず暗黙のコモンセンス知識を生成し,その後に外部化知識を参照して応答を生成する自己トーク手法を提案する。 我々は、知識に沿った対話を収集し、暗黙の知識を表現し、知識と反応を引き出す様々な選択を分析する。 本稿では,知識品質,知識応答接続,応答品質の3つの評価要素を導入し,広範囲な人的評価を行う。 実験結果から,暗黙の知識を明示的に生成することで,知識基盤プロセスの外部化を行う自己学習モデルは,エンド・ツー・エンドのRGモデルと比較して,より情報的,具体的,そして常識に従う応答も生み出すことが示された。 また,人間による評価から,自己語モデルが75%の確率で高品質な知識を生み出すことがわかった。 我々の研究成果は、暗黙の常識知識をモデリングし、知識のあるRGモデルを訓練するための様々なアプローチのさらなる研究を促すことを願っている。

Implicit knowledge, such as common sense, is key to fluid human conversations. Current neural response generation (RG) models are trained end-to-end, omitting unstated implicit knowledge. In this paper, we present a self-talk approach that first generates the implicit commonsense knowledge and then generates response by referencing the externalized knowledge, all using one generative model. We analyze different choices to collect knowledge-aligned dialogues, represent implicit knowledge, and elicit knowledge and responses. We introduce three evaluation aspects: knowledge quality, knowledge-response connection, and response quality and perform extensive human evaluations. Our experimental results show that compared with end-to-end RG models, self-talk models that externalize the knowledge grounding process by explicitly generating implicit knowledge also produce responses that are more informative, specific, and follow common sense. We also find via human evaluation that self-talk models generate high-quality knowledge around 75% of the time. We hope that our findings encourage further work on different approaches to modeling implicit commonsense knowledge and training knowledgeable RG models.
翻訳日:2021-10-21 15:29:47 公開日:2021-10-16
# (参考訳) ユークリッドおよび指向性製品空間におけるモードとリッジの推定:平均シフトアプローチ

Mode and Ridge Estimation in Euclidean and Directional Product Spaces: A Mean Shift Approach ( http://arxiv.org/abs/2110.08505v1 )

ライセンス: CC BY 4.0
Yikun Zhang and Yen-Chi Chen(参考訳) データセットから推定される局所モードとリッジラインのセットは、データ生成分布の重要な要約特性である。 本研究では,2つ以上のユークリッド/方向性距離空間を持つ製品空間における点クラウドデータから局所モードとリッジを推定することを検討する。 具体的には、よく知られた(部分空間制約付き)平均シフトアルゴリズムを製品空間設定に一般化し、そのような一般化におけるいくつかの落とし穴を照明する。 提案手法のアルゴリズム収束を導出し,実装に関する実践的ガイドラインを提供し,シミュレーションデータと実データの両方での有効性を示す。

The set of local modes and the ridge lines estimated from a dataset are important summary characteristics of the data-generating distribution. In this work, we consider estimating the local modes and ridges from point cloud data in a product space with two or more Euclidean/directiona l metric spaces. Specifically, we generalize the well-known (subspace constrained) mean shift algorithm to the product space setting and illuminate some pitfalls in such generalization. We derive the algorithmic convergence of the proposed method, provide practical guidelines on the implementation, and demonstrate its effectiveness on both simulated and real datasets.
翻訳日:2021-10-21 15:10:09 公開日:2021-10-16
# (参考訳) ユニバーサルチューリングマシンから何が学べますか?

What can we learn from universal Turing machines? ( http://arxiv.org/abs/2110.08511v1 )

ライセンス: CC BY 4.0
Maurice Margenstern(参考訳) 本稿では,我々が教育的ユニバーサルチューリングマシンと呼ぶものを構築する。 我々は,生物現象との比較を,そのエンコーディングと作業から導出することができるのかを理解することを試みる。

In the present paper, we construct what we call a pedagogical universal Turing machine. We try to understand which comparisons with biological phenomena can be deduced from its encoding and from its working.
翻訳日:2021-10-21 15:05:35 公開日:2021-10-16
# (参考訳) AugmentedCode: コード検索モデルにおける自然言語リソースの効果の検討 [全文訳有]

AugmentedCode: Examining the Effects of Natural Language Resources in Code Retrieval Models ( http://arxiv.org/abs/2110.08512v1 )

ライセンス: CC BY 4.0
Mehdi Bahrami, N.C. Shrikanth, Yuji Mizobuchi, Lei Liu, Masahiro Fukuyori, Wei-Peng Chen, Kazuki Munakata(参考訳) コード検索は、自然言語処理とソフトウェアエンジニアリング技術の両方に依存する自然言語クエリを通じて、ソフトウェアエンジニアがコード検索を可能にする。 スニペットコードから関数コードへのコード検索にはいくつかの試みがある。 本稿では,コード内の既存の情報を活用するAugmented Code(AugmentedCode)検索を導入し,コード検索モデルの性能を向上させるために拡張プログラミング言語を構築する。 我々はPythonの大規模なコーパスをキュレートし、CodeSearchNetとCodeBERTでそれぞれ0.73と0.96の平均相互ランク(MRR)を上回り、拡張プログラミング言語のフレームワークと結果をデモした。 HuggingFace at https://huggingface. co/Fujitsu/AugCode では、パフォーマンスの優れた拡張コード検索モデルが公開されており、デモビデオが https://youtu.be/mnZ rUTANjGs で公開されている。

Code retrieval is allowing software engineers to search codes through a natural language query, which relies on both natural language processing and software engineering techniques. There have been several attempts on code retrieval from searching snippet codes to function codes. In this paper, we introduce Augmented Code (AugmentedCode) retrieval which takes advantage of existing information within the code and constructs augmented programming language to improve the code retrieval models' performance. We curated a large corpus of Python and showcased the the framework and the results of augmented programming language which outperforms on CodeSearchNet and CodeBERT with a Mean Reciprocal Rank (MRR) of 0.73 and 0.96, respectively. The outperformed fine-tuned augmented code retrieval model is published in HuggingFace at https://huggingface. co/Fujitsu/AugCode and a demonstration video is available at: https://youtu.be/mnZ rUTANjGs .
翻訳日:2021-10-21 15:04:40 公開日:2021-10-16
# (参考訳) ピアレビュー討論における談話構造に関するデータセット [全文訳有]

A Dataset for Discourse Structure in Peer Review Discussions ( http://arxiv.org/abs/2110.08520v1 )

ライセンス: CC BY 4.0
Neha Nayak Kennard, Tim O'Gorman, Akshay Sharma, Chhandak Bagchi, Matthew Clinton, Pranay Kumar Yelugam, Rajarshi Das, Hamed Zamani, Andrew McCallum(参考訳) 科学的評価の基礎は、ピアレビューの労働集約的なプロセスである。 この重要なタスクでは、参加者は大量の高度な技術的テキストを消費し、解釈する必要がある。 rebuttalsからの談話はレビューの品質と解釈に光を当てることができる。 さらに、レビュアーや著者が採用する議論戦略の理解は、地域の議長や他の意思決定者にとって有用なシグナルを提供する。 本稿では,20k文のラベル付きデータセットを英語で506対のレビュー・リビュー・ペアに収録し,専門家が注釈を付けた。 既存のデータセットは様々なスキームを用いてレビュー文のサブセットに注釈を付けるが、我々は既存のラベル集合を合成し、リビュータル文の細かな注釈を含むように拡張し、レビュー者の批判に対する著者のスタンスとそれに対処するコミットメントを特徴付ける。 さらに,各属性文の文脈記述を含め,レビュー文とリビュー文の両方で「textit{every}」文を注釈付けする。

At the foundation of scientific evaluation is the labor-intensive process of peer review. This critical task requires participants to consume and interpret vast amounts of highly technical text. We show that discourse cues from rebuttals can shed light on the quality and interpretation of reviews. Further, an understanding of the argumentative strategies employed by the reviewers and authors provides useful signal for area chairs and other decision makers. This paper presents a new labeled dataset of 20k sentences contained in 506 review-rebuttal pairs in English, annotated by experts. While existing datasets annotate a subset of review sentences using various schemes, ours synthesizes existing label sets and extends them to include fine-grained annotation of the rebuttal sentences, characterizing the authors' stance towards the reviewers' criticisms and their commitment to addressing them. Further, we annotate \textit{every} sentence in both the review and the rebuttal, including a description of the context for each rebuttal sentence.
翻訳日:2021-10-21 14:56:50 公開日:2021-10-16
# (参考訳) 事前学習言語モデルにおけるデバイアス手法の有効性に関する実証的研究 [全文訳有]

An Empirical Survey of the Effectiveness of Debiasing Techniques for Pre-Trained Language Models ( http://arxiv.org/abs/2110.08527v1 )

ライセンス: CC BY 4.0
Nicholas Meade, Elinor Poole-Dayan, Siva Reddy(参考訳) 最近の研究によると、事前学習された言語モデルは、訓練されたテキストコーパスから社会的偏見を捉えている。 このような偏見を緩和する技術開発に注目が集まっている。 本研究では,最近提案された5つのデバイアス(CDA,Dropout,Iterati ve Nullspace Projection,Self-Debi as,SentenceDebias)に関する実証調査を行った。 3つの異なるバイアスベンチマークを用いて各手法の有効性を定量化するとともに、これらの手法がモデル言語モデリング能力に与える影響と、下流のNLUタスクの性能を計測する。 その結果,(1)cdaと自己デバイアスは最も高いデバイアス技術であり,(2)現在のデバイアス技術はジェンダーバイアスを超えるほど一般化していないこと,(3)デバイアス戦略を用いたステレオセットやカラスペアなどのバイアスベンチマークの改善は,一般的に言語モデリング能力の低下を伴うこと,およびバイアス緩和が有効であるかどうかの判断が困難であること,などが確認された。

Recent work has shown that pre-trained language models capture social biases from the text corpora they are trained on. This has attracted attention to developing techniques that mitigate such biases. In this work, we perform a empirical survey of five recently proposed debiasing techniques: Counterfactual Data Augmentation (CDA), Dropout, Iterative Nullspace Projection, Self-Debias, and SentenceDebias. We quantify the effectiveness of each technique using three different bias benchmarks while also measuring the impact of these techniques on a model's language modeling ability, as well as its performance on downstream NLU tasks. We experimentally find that: (1) CDA and Self-Debias are the strongest of the debiasing techniques, obtaining improved scores on most of the bias benchmarks (2) Current debiasing techniques do not generalize well beyond gender bias; And (3) improvements on bias benchmarks such as StereoSet and CrowS-Pairs by using debiasing strategies are usually accompanied by a decrease in language modeling ability, making it difficult to determine whether the bias mitigation is effective.
翻訳日:2021-10-21 14:46:06 公開日:2021-10-16
# (参考訳) スパース蒸留:大きなモデルを用いたテキスト分類の高速化 [全文訳有]

Sparse Distillation: Speeding Up Text Classification by Using Bigger Models ( http://arxiv.org/abs/2110.08536v1 )

ライセンス: CC BY-SA 4.0
Qinyuan Ye, Madian Khabsa, Mike Lewis, Sinong Wang, Xiang Ren, Aaron Jaech(参考訳) 最先端のトランスフォーマーモデルを軽量な学生モデルに蒸留することは、推論時の計算コストを削減する効果的な方法である。 しかし、改良された推論速度は、特定の時間に敏感なアプリケーションにはまだ満足できないかもしれない。 本稿では,学生モデルの設計空間における新しい領域を探索することにより,推論速度の限界をさらに推し進めることを目的とする。 より具体的には、トランスフォーマーベースのテキスト分類器を10億パラメータに蒸留することを検討する。 実験の結果,6つのテキスト分類タスクの収集において,学生モデルがロベルタ規模の教師性能の97%を保持できることが判明した。 一方、学生モデルは教師モデルと比較して、GPUとCPUの両方で最大600倍のスピードアップを達成する。 さらなる調査により、当社のパイプラインはプライバシ保護とドメインの一般化設定でも有効であることが分かりました。

Distilling state-of-the-art transformer models into lightweight student models is an effective way to reduce computation cost at inference time. However, the improved inference speed may be still unsatisfactory for certain time-sensitive applications. In this paper, we aim to further push the limit of inference speed by exploring a new area in the design space of the student model. More specifically, we consider distilling a transformer-based text classifier into a billion-parameter, sparsely-activated student model with a embedding-averaging architecture. Our experiments show that the student models retain 97% of the RoBERTa-Large teacher performance on a collection of six text classification tasks. Meanwhile, the student model achieves up to 600x speed-up on both GPUs and CPUs, compared to the teacher models. Further investigation shows that our pipeline is also effective in privacy-preserving and domain generalization settings.
翻訳日:2021-10-21 14:31:14 公開日:2021-10-16
# (参考訳) ゼロショット相互依存解析のための部分構造分布予測 [全文訳有]

Substructure Distribution Projection for Zero-Shot Cross-Lingual Dependency Parsing ( http://arxiv.org/abs/2110.08538v1 )

ライセンス: CC BY 4.0
Haoyue Shi, Kevin Gimpel, Karen Livescu(参考訳) 本稿では,サブ構造分布を別々に投影することで,サブ構造分布を別の領域に投影する手法であるサブ構造分布予測(SubDP)を提案する。 ターゲットドメインのモデルは、投影された分布をソフトシルバーラベルとしてトレーニングすることができる。 我々は,SubDPをゼロショットの言語間依存関係解析,依存関係弧をサブ構造として評価し,ソース言語(s)の依存性弧分布をターゲット言語(s)に投影し,対象言語パーサをトレーニングして結果の分布に適合させる。 人間の努力を伴う唯一のアノテーションであるイングリッシュ・ツリーバンクの場合、subdpは8つの異なるターゲット言語にまたがるユニバーサル・依存関係 v2.2 (nivre et al., 2020) テストのすべての以前の作業よりもラベル付きアタッチメントスコアが向上し、また8言語中6言語で最高のラベル付きアタッチメントスコアが達成される。 さらに、SubDPはゼロショットの言語間の依存関係解析を、より広範囲のターゲット言語にまたがるほとんど(例:50)の教師付きビットクストペアで改善している。

We present substructure distribution projection (SubDP), a technique that projects a distribution over structures in one domain to another, by projecting substructure distributions separately. Models for the target domains can be then trained, using the projected distributions as soft silver labels. We evaluate SubDP on zero-shot cross-lingual dependency parsing, taking dependency arcs as substructures: we project the predicted dependency arc distributions in the source language(s) to target language(s), and train a target language parser to fit the resulting distributions. When an English treebank is the only annotation that involves human effort, SubDP achieves better unlabeled attachment score than all prior work on the Universal Dependencies v2.2 (Nivre et al., 2020) test set across eight diverse target languages, as well as the best labeled attachment score on six out of eight languages. In addition, SubDP improves zero-shot cross-lingual dependency parsing with very few (e.g., 50) supervised bitext pairs, across a broader range of target languages.
翻訳日:2021-10-21 14:16:24 公開日:2021-10-16
# (参考訳) エージェントと対話して複雑な課題を解決するための学習 [全文訳有]

Learning to Solve Complex Tasks by Talking to Agents ( http://arxiv.org/abs/2110.08542v1 )

ライセンス: CC BY 4.0
Tushar Khot and Kyle Richardson and Daniel Khashabi and Ashish Sabharwal(参考訳) 人間はしばしば、より単純なサブタスクを解決できるaiアシスタントのような既存のエージェントと(自然言語で)相互作用することで複雑な問題を解決する。 これらのエージェント自体は、広範なリソースとプライベートに保持されたデータを使用して構築される強力なシステムである。 対照的に、一般的なNLPベンチマークはタスク毎に自己充足型モデルを開発することを目的としている。 このギャップに対処し、既存のエージェントを基盤とする‘グリーン’aiシステムへの研究を促進するために、さまざまな能力を持つ4つのエージェントに対して‘トーク’によって解決されるように設計された、3種類の複雑な推論タスクを含む、commaqaと呼ばれる新しいベンチマークを提案する。 既存のエージェントを活用できない最先端のブラックボックスモデルは、エージェントの内部知識や金の事実管理へのアクセスを与えられた場合でも、CommaQA(マッチスコアは40ptsにしか達しない)に苦しむことを示す。 一方で、ゴールド問題分解監督を用いたモデルは、エージェントの利用を学習することで、コンマカを高い精度(96\%以上の正確な一致)で解くことができる。 しかし、これらの追加の監督モデルでさえ、構成一般化テストセットを解くことはできない。 最後に、既存のエージェントと通信することで複雑なタスクを解決するための学習の終わりは未解決であり、commaqaがこのようなシステムの開発を可能にする新しいベンチマークになることを願っている。

Humans often solve complex problems by interacting (in natural language) with existing agents, such as AI assistants, that can solve simpler sub-tasks. These agents themselves can be powerful systems built using extensive resources and privately held data. In contrast, common NLP benchmarks aim for the development of self-sufficient models for every task. To address this gap and facilitate research towards ``green'' AI systems that build upon existing agents, we propose a new benchmark called CommaQA that contains three kinds of complex reasoning tasks that are designed to be solved by ``talking'' to four agents with different capabilities. We demonstrate that state-of-the-art black-box models, which are unable to leverage existing agents, struggle on CommaQA (exact match score only reaches 40pts) even when given access to the agents' internal knowledge and gold fact supervision. On the other hand, models using gold question decomposition supervision can indeed solve CommaQA to a high accuracy (over 96\% exact match) by learning to utilize the agents. Even these additional supervision models, however, do not solve our compositional generalization test set. Finally the end-goal of learning to solve complex tasks by communicating with existing agents \emph{without relying on any additional supervision} remains unsolved and we hope CommaQA serves as a novel benchmark to enable the development of such systems.
翻訳日:2021-10-21 13:50:53 公開日:2021-10-16
# (参考訳) HRKD:クロスドメイン言語モデル圧縮のための階層的関係知識蒸留 [全文訳有]

HRKD: Hierarchical Relational Knowledge Distillation for Cross-domain Language Model Compression ( http://arxiv.org/abs/2110.08551v1 )

ライセンス: CC BY 4.0
Chenhe Dong, Yaliang Li, Ying Shen, Minghui Qiu(参考訳) 多くの自然言語処理タスクにおいて、大規模事前学習言語モデル(PLM)は従来のニューラルネットワーク手法と比較して圧倒的な性能を示した。 それでも、その巨大なモデルサイズと低い推論速度は、実際にリソース制限されたデバイスへのデプロイを妨げている。 本稿では, PLMを知識蒸留で圧縮することを目標とし, 階層的および領域的関係情報の両方を抽出する階層的関係知識蒸留法を提案する。 具体的には、モデル能力と転送可能性を高めるために、メタラーニングのアイデアを活用し、異なるドメイン間の関係情報をキャプチャするためにドメイン関係グラフをセットアップします。 また,各領域において最も代表的なプロトタイプを動的に選択するために,階層的比較集約機構を提案する。 公開マルチドメインデータセットに対する大規模な実験は、HRKD法の優れた性能と強力な数ショット学習能力を示す。 再現性のために、コードはhttps://github.com/c heneydon/hrkdでリリースします。

On many natural language processing tasks, large pre-trained language models (PLMs) have shown overwhelming performances compared with traditional neural network methods. Nevertheless, their huge model size and low inference speed have hindered the deployment on resource-limited devices in practice. In this paper, we target to compress PLMs with knowledge distillation, and propose a hierarchical relational knowledge distillation (HRKD) method to capture both hierarchical and domain relational information. Specifically, to enhance the model capability and transferability, we leverage the idea of meta-learning and set up domain-relational graphs to capture the relational information across different domains. And to dynamically select the most representative prototypes for each domain, we propose a hierarchical compare-aggregate mechanism to capture hierarchical relationships. Extensive experiments on public multi-domain datasets demonstrate the superior performance of our HRKD method as well as its strong few-shot learning ability. For reproducibility, we release the code at https://github.com/c heneydon/hrkd.
翻訳日:2021-10-21 12:56:56 公開日:2021-10-16
# (参考訳) 制約付き強化学習によるニューラルネットワークのプルーニング [全文訳有]

Neural Network Pruning Through Constrained Reinforcement Learning ( http://arxiv.org/abs/2110.08558v1 )

ライセンス: CC BY 4.0
Shehryar Malik, Muhammad Umair Haider, Omer Iqbal, Murtaza Taj(参考訳) ネットワークプルーニングは、性能低下が最小となるように(プルーニング)ニューロンを取り除くことにより、ニューラルネットワークのサイズを減らす。 伝統的なプルーニングアプローチは、しばしば退屈で準最適であるニューロンの有用性を定量化するためにメトリクスを設計することに焦点を当てている。 近年のアプローチでは、個々のニューロンがどれだけ有用かを自動的に学習するために補助ネットワークを訓練することに重点を置いている。 本研究では,ニューラルネットワークをプルーニングするための汎用手法を提案する。 提案手法は,任意の非微分可能関数に対して,事前定義された計算予算を尊重するためにニューラルネットワークをpruneすることができる。 さらに、これらの関数を異なる入力に対して評価できる能力のみを仮定するので、事前に完全に指定する必要はない。 そこで我々は,制約付き強化学習アルゴリズムによる新しい刈り取り戦略を提案する。 標準画像分類データセットにおける最先端手法との比較により,本手法の有効性を実証する。 具体的には、vggの様々なバリエーションにおける総パラメータの83-92.90を削減し、元のネットワークと同等または優れた性能を達成する。 また、ResNet18上で75.09のパラメータの削減を実現しました。

Network pruning reduces the size of neural networks by removing (pruning) neurons such that the performance drop is minimal. Traditional pruning approaches focus on designing metrics to quantify the usefulness of a neuron which is often quite tedious and sub-optimal. More recent approaches have instead focused on training auxiliary networks to automatically learn how useful each neuron is however, they often do not take computational limitations into account. In this work, we propose a general methodology for pruning neural networks. Our proposed methodology can prune neural networks to respect pre-defined computational budgets on arbitrary, possibly non-differentiable, functions. Furthermore, we only assume the ability to be able to evaluate these functions for different inputs, and hence they do not need to be fully specified beforehand. We achieve this by proposing a novel pruning strategy via constrained reinforcement learning algorithms. We prove the effectiveness of our approach via comparison with state-of-the-art methods on standard image classification datasets. Specifically, we reduce 83-92.90 of total parameters on various variants of VGG while achieving comparable or better performance than that of original networks. We also achieved 75.09 reduction in parameters on ResNet18 without incurring any loss in accuracy.
翻訳日:2021-10-21 12:41:43 公開日:2021-10-16
# (参考訳) FrugalScore: 自動テキスト生成のためのチーパ、ライター、高速な評価基準 [全文訳有]

FrugalScore: Learning Cheaper, Lighter and Faster Evaluation Metricsfor Automatic Text Generation ( http://arxiv.org/abs/2110.08559v1 )

ライセンス: CC BY 4.0
Moussa Kamal Eddine and Guokan Shang and Antoine J.-P. Tixier and Michalis Vazirgiannis(参考訳) 高速で信頼性の高い評価指標が研究開発の進展の鍵となる。 従来の自然言語生成メトリクスは高速だが、信頼性はあまり低い。 逆に、大きな事前訓練された言語モデルに基づく新しいメトリクスは、はるかに信頼性が高いが、かなりの計算資源を必要とする。 本稿では,高価なNLGメトリックの固定・低コストバージョンを学習する手法であるFrugalScoreを提案する。 bertscore と moverscore による要約と翻訳の実験では、frugalscore は元のメトリクスと同等であり(時にはより優れている)、数桁のパラメータが小さく、数倍高速であることが示された。 frugalscoreは、学習したメトリクス、タスク、変種を平均して96.8%のパフォーマンスを保ち、24倍の速度で動作し、元の指標の35分の1のパラメータを持つ。 トレーニング済みのメトリクスを公開して、NLPコミュニティ全体、特に限られたリソースを持つ研究者や実践者に利益をもたらします。

Fast and reliable evaluation metrics are key to R&D progress. While traditional natural language generation metrics are fast, they are not very reliable. Conversely, new metrics based on large pretrained language models are much more reliable, but require significant computational resources. In this paper, we propose FrugalScore, an approach to learn a fixed, low cost version of any expensive NLG metric, while retaining most of its original performance. Experiments with BERTScore and MoverScore on summarization and translation show that FrugalScore is on par with the original metrics (and sometimes better), while having several orders of magnitude less parameters and running several times faster. On average over all learned metrics, tasks, and variants, FrugalScore retains 96.8% of the performance, runs 24 times faster, and has 35 times less parameters than the original metrics. We make our trained metrics publicly available, to benefit the entire NLP community and in particular researchers and practitioners with limited resources.
翻訳日:2021-10-21 12:32:20 公開日:2021-10-16
# (参考訳) 確率最適化のためのNys-Curve: Nystr\ [全文訳有]

Nys-Curve: Nystr\"om-Approximated Curvature for Stochastic Optimization ( http://arxiv.org/abs/2110.08577v1 )

ライセンス: CC BY 4.0
Hardik Tankaria, Dinesh Singh, Makoto Yamada(参考訳) 準ニュートン法は一般に正則方程式を用いてヘッセンを近似することで曲率情報を提供する。 しかし、セカント方程式は一階微分(英語版)を用いることでニュートン段階に近いものとなる。 本研究では,線形収束率を持つ凸関数の大規模リスク最小化のための,ニュートンステップに基づく近似確率最適化アルゴリズムを提案する。 具体的には、$k\ll d$ の変数をランダムに選択した部分列 Hessian ($d\times k$) を計算し、次に \textit{Nystr\"om method} を使って、完全な Hessian 行列をよりよく近似する。 繰り返し毎の計算複雑性をさらに軽減するため、Hessianあるいはその逆を計算したり保存したりすることなく、更新ステップ(\Delta\boldsymbol{w}$)を直接計算する。 さらに,部分ヘシアンを計算してもかなりの時間を要するような大規模シナリオに対処するために,分布保存(DP)サブサンプリングを用いて部分ヘシアンを計算した。 DPサブサンプリングは、同様の1次および2次分布統計を持つ$p$サブサンプルを生成し、各エポックにおける1つのサブサンプルをラウンドロビン方式で選択し、部分ヘッセンを計算する。 近似ヘシアンと確率勾配勾配と確率分散還元勾配を統合し,ロジスティック回帰問題を解く。 数値実験により,提案手法は,最先端の1次法や確率的準ニュートン法と競合する性能を持つNewton\textquotesle s法の近似値を得ることができた。

The quasi-Newton methods generally provide curvature information by approximating the Hessian using the secant equation. However, the secant equation becomes insipid in approximating the Newton step owing to its use of the first-order derivatives. In this study, we propose an approximate Newton step-based stochastic optimization algorithm for large-scale empirical risk minimization of convex functions with linear convergence rates. Specifically, we compute a partial column Hessian of size ($d\times k$) with $k\ll d$ randomly selected variables, then use the \textit{Nystr\"om method} to better approximate the full Hessian matrix. To further reduce the computational complexity per iteration, we directly compute the update step ($\Delta\boldsymbol{w}$) without computing and storing the full Hessian or its inverse. Furthermore, to address large-scale scenarios in which even computing a partial Hessian may require significant time, we used distribution-preserv ing (DP) sub-sampling to compute a partial Hessian. The DP sub-sampling generates $p$ sub-samples with similar first and second-order distribution statistics and selects a single sub-sample at each epoch in a round-robin manner to compute the partial Hessian. We integrate our approximated Hessian with stochastic gradient descent and stochastic variance-reduced gradients to solve the logistic regression problem. The numerical experiments show that the proposed approach was able to obtain a better approximation of Newton\textquotesing le s method with performance competitive with the state-of-the-art first-order and the stochastic quasi-Newton methods.
翻訳日:2021-10-21 12:15:19 公開日:2021-10-16
# (参考訳) 衛星画像を用いたリモートセンシング林業の自動化 [全文訳有]

Automated Remote Sensing Forest Inventory Using Satelite Imagery ( http://arxiv.org/abs/2110.08590v1 )

ライセンス: CC BY 4.0
Abduragim Shtanchaev, Artur Bille, Olga Sutyrina, Sara Elelimy(参考訳) ロシア、カナダ、アメリカのような多くの国では、森林を持続的に管理するために、頑丈で詳細な樹木種の在庫が不可欠である。 大規模森林目録への適用には無人航空機(uav)画像に基づくアプローチは適用できないため,衛星画像における機械学習アルゴリズムの利用が注目されている。 衛星画像の品質は比較的低いが、追加のスペクトルチャネルは樹冠分類タスクに十分な情報を提供する。 ツリークラウンが既に検出されていると仮定すると、オートエンコーダが生成したツリークラウンの埋め込みを、古典的な機械学習アルゴリズムを訓練するためのデータセットとして使用する。 我々は、従来の畳み込みニューラルネットワーク(CNN)のエンドツーエンド分類器に対するオートエンコーダ(AE)ベースのアプローチを比較した。

For many countries like Russia, Canada, or the USA, a robust and detailed tree species inventory is essential to manage their forests sustainably. Since one can not apply unmanned aerial vehicle (UAV) imagery-based approaches to large-scale forest inventory applications, the utilization of machine learning algorithms on satellite imagery is a rising topic of research. Although satellite imagery quality is relatively low, additional spectral channels provide a sufficient amount of information for tree crown classification tasks. Assuming that tree crowns are detected already, we use embeddings of tree crowns generated by Autoencoders as a data set to train classical Machine Learning algorithms. We compare our Autoencoder (AE) based approach to traditional convolutional neural networks (CNN) end-to-end classifiers.
翻訳日:2021-10-21 11:52:35 公開日:2021-10-16
# (参考訳) n-stage Latent Dirichletallocation : LDAの新しいアプローチ [全文訳有]

n-stage Latent Dirichlet Allocation: A Novel Approach for LDA ( http://arxiv.org/abs/2110.08591v1 )

ライセンス: CC0 1.0
Zekeriya Anil Guven, Banu Diri, Tolgahan Cakaloglu(参考訳) 近年,データ量の増加に伴い,データ分析が問題となっている。 この問題をテキストデータで解くために、自然言語処理に多くのモデルや手法が使われている。 トピックモデリング分野は、これらの方法の1つです。 トピックモデリングはテキスト文書の意味構造を決定することができる。 Latent Dirichlet Allocation (LDA) はトピックモデリング手法で最も一般的な手法である。 本稿では, LDA法をより効果的に活用できるn段LDA法について詳述する。 この方法の正の効果は、英語とトルコ語の研究によって実証されている。 本手法は辞書における単語数の削減に重点を置いているため,言語に依存しない使用が可能となる。 メソッドのオープンソースコードと例にアクセスできる。 https://github.com/a nil1055/n-stage_lda

Nowadays, data analysis has become a problem as the amount of data is constantly increasing. In order to overcome this problem in textual data, many models and methods are used in natural language processing. The topic modeling field is one of these methods. Topic modeling allows determining the semantic structure of a text document. Latent Dirichlet Allocation (LDA) is the most common method among topic modeling methods. In this article, the proposed n-stage LDA method, which can enable the LDA method to be used more effectively, is explained in detail. The positive effect of the method has been demonstrated by the applied English and Turkish studies. Since the method focuses on reducing the word count in the dictionary, it can be used language-independent ly. You can access the open-source code of the method and the example: https://github.com/a nil1055/n-stage_LDA
翻訳日:2021-10-21 11:42:21 公開日:2021-10-16
# (参考訳) 衛星画像のニューラルネットワーク分類による不法投棄現場のマッピング [全文訳有]

Mapping illegal waste dumping sites with neural-network classification of satellite imagery ( http://arxiv.org/abs/2110.08599v1 )

ライセンス: CC BY 4.0
Devesa, Maria Roberta and Vazquez Brust, H. Antonio(参考訳) 公衆衛生と居住環境の質は都市計画の重要な目標である。 近年、不法投棄サイトによる社会的・環境的な影響が深刻化しており、意思決定に利用可能な情報が少ない状況下で、世界南部の都市が直面する最も深刻な問題となっている。 ダンピングサイトの位置を特定し、時間とともにその進化を追跡するために、機械学習ドメインからデータ駆動モデルを採用し、衛星画像を分析する。 これにより、地理空間的なオープンデータ、高解像度衛星画像、およびブエノスアイレスの小さなゴミ捨て場セットで機械学習アルゴリズムを訓練するためのオープンソースツールの可用性が高まり、そして、高速かつ低コストで、広範囲にわたる他のサイトの位置を予測することができます。 本研究は, dymaxion labsとfundaci\'on bunge y bornの協力により, この手法を活用し, 地域における不法投棄施設の立地を総合的に把握したものである。

Public health and habitat quality are crucial goals of urban planning. In recent years, the severe social and environmental impact of illegal waste dumping sites has made them one of the most serious problems faced by cities in the Global South, in a context of scarce information available for decision making. To help identify the location of dumping sites and track their evolution over time we adopt a data-driven model from the machine learning domain, analyzing satellite images. This allows us to take advantage of the increasing availability of geo-spatial open-data, high-resolution satellite imagery, and open source tools to train machine learning algorithms with a small set of known waste dumping sites in Buenos Aires, and then predict the location of other sites over vast areas at high speed and low cost. This case study shows the results of a collaboration between Dymaxion Labs and Fundaci\'on Bunge y Born to harness this technique in order to create a comprehensive map of potential locations of illegal waste dumping sites in the region.
翻訳日:2021-10-21 11:35:21 公開日:2021-10-16
# (参考訳) 電波画像用畳み込み型深層雑音自動エンコーダ [全文訳有]

Convolutional Deep Denoising Autoencoders for Radio Astronomical Images ( http://arxiv.org/abs/2110.08618v1 )

ライセンス: CC BY 4.0
Claudio Gheller and Franco Vazza(参考訳) 本稿では,最新の電波望遠鏡の合成画像に畳み込み復号化オートエンコーダと呼ばれる機械学習手法を適用し,無線宇宙ウェブの特徴として予測されるかすかな拡散電波源を検出することを目的とした。 提案手法では,無作為な楽器ノイズの低減と,アパーチャ合成技術によるサイドローブなどのスプリアスの最小化を両立することを目的としている。 本手法の有効性と精度は,様々な種類の入力画像に対して,その計算性能とともに解析される。 具体的な注意は、訓練のための現実的なモック観察を作成し、宇宙論的数値シミュレーションの結果を利用して、150mhzでの lofar hba 8時間観測に対応する画像を生成することに費やされている。 このオートエンコーダは,器用感度の限界で,かすかな物体を識別し抽出する複雑な画像に効果的に雑音を与えることができる。 この手法は大規模データセット上で効率よくスケールでき、高性能な計算ソリューションを完全自動化された方法で利用することができる。 画像のセグメンテーションを正確に実行し、拡散源の低輝度の郊外を識別し、ノイズの多い電波観測で隠された拡張物体を検出するための有効な解決策であることが証明される。

We apply a Machine Learning technique known as Convolutional Denoising Autoencoder to denoise synthetic images of state-of-the-art radio telescopes, with the goal of detecting the faint, diffused radio sources predicted to characterise the radio cosmic web. In our application, denoising is intended to address both the reduction of random instrumental noise and the minimisation of additional spurious artefacts like the sidelobes, resulting from the aperture synthesis technique. The effectiveness and the accuracy of the method are analysed for different kinds of corrupted input images, together with its computational performance. Specific attention has been devoted to create realistic mock observations for the training, exploiting the outcomes of cosmological numerical simulations, to generate images corresponding to LOFAR HBA 8 hours observations at 150 MHz. Our autoencoder can effectively denoise complex images identifying and extracting faint objects at the limits of the instrumental sensitivity. The method can efficiently scale on large datasets, exploiting high performance computing solutions, in a fully automated way (i.e. no human supervision is required after training). It can accurately perform image segmentation, identifying low brightness outskirts of diffused sources, proving to be a viable solution for detecting challenging extended objects hidden in noisy radio observations.
翻訳日:2021-10-21 11:28:22 公開日:2021-10-16
# (参考訳) ノイズNona-Bayer再建に対する逆向き空間非対称注意法 [全文訳有]

SAGAN: Adversarial Spatial-asymmetric Attention for Noisy Nona-Bayer Reconstruction ( http://arxiv.org/abs/2110.08619v1 )

ライセンス: CC BY 4.0
S M A Sharif, Rizwan Ali Naqvi, Mithun Biswas(参考訳) Nona-Bayer Color Filter Array (CFA) パターンは、伝統的なベイアパターンの最も有効な代替品の1つである。 このような非Bayer CFAパターンは、大きな利点にもかかわらず、ノイズの多いセンサデータからRGBイメージを再構成しながら視覚的アーチファクトを生成することができる。 本研究では,ノイズの多いnona-bayer cfaからrgb画像再構成の課題を包括的に解決する。 両方向変換と大カーネルグローバルアテンションを共同で学習し,視覚的アーチファクトを減らすための空間非対称アテンションモジュールを提案する。 提案モジュールと逆学習を組み合わせることで,Nona-Bayer CFAから可視画像を生成する。 提案手法の有効性を検証し,最新の画像再構成法と比較した。 実験の結果,提案手法はノイズの多いNona-Bayer CFAからRGB画像を再構成できることがわかった。 また, 質的, 定量的に比較すれば, 最先端画像再構成法を上回ることができる。 コード:https://github.com/ sharif-apu/SAGAN_BMV C21。

Nona-Bayer colour filter array (CFA) pattern is considered one of the most viable alternatives to traditional Bayer patterns. Despite the substantial advantages, such non-Bayer CFA patterns are susceptible to produce visual artefacts while reconstructing RGB images from noisy sensor data. This study addresses the challenges of learning RGB image reconstruction from noisy Nona-Bayer CFA comprehensively. We propose a novel spatial-asymmetric attention module to jointly learn bi-direction transformation and large-kernel global attention to reduce the visual artefacts. We combine our proposed module with adversarial learning to produce plausible images from Nona-Bayer CFA. The feasibility of the proposed method has been verified and compared with the state-of-the-art image reconstruction method. The experiments reveal that the proposed method can reconstruct RGB images from noisy Nona-Bayer CFA without producing any visually disturbing artefacts. Also, it can outperform the state-of-the-art image reconstruction method in both qualitative and quantitative comparison. Code available: https://github.com/s harif-apu/SAGAN_BMVC 21.
翻訳日:2021-10-21 10:48:09 公開日:2021-10-16
# (参考訳) 深部畳み込みニューラルネットワークを用いた複雑媒体の学習速度モデル [全文訳有]

Learning velocity model for complex media with deep convolutional neural networks ( http://arxiv.org/abs/2110.08626v1 )

ライセンス: CC BY-SA 4.0
A. Stankevich, I. Nechepurenko, A. Shevchenko, L. Gremyachikh, A. Ustyuzhanin, A. Vasyukov(参考訳) 本稿では境界測定に基づく複雑な媒体の速度モデル取得の問題について考察する。 音響モデルはメディアを記述するために使用される。 提案した結果と過去の成果を直接比較するために,オープンソースの速度分布データセットを使用した。 グリッド特性数値手法を用いてフォワードモデリングを行う。 逆問題は深い畳み込みニューラルネットワークを用いて解く。 速度プロファイルと基底真理の定量的対応を測定するための構造的類似性指標の改善のために, unetアーキテクチャの修正を提案する。 我々は拡張度を評価し,結果の統計的意義を示す。

The paper considers the problem of velocity model acquisition for a complex media based on boundary measurements. The acoustic model is used to describe the media. We used an open-source dataset of velocity distributions to compare the presented results with the previous works directly. Forward modeling is performed using the grid-characteristic numerical method. The inverse problem is solved using deep convolutional neural networks. Modifications for a baseline UNet architecture are proposed to improve both structural similarity index measure quantitative correspondence of the velocity profiles with the ground truth. We evaluate our enhancements and demonstrate the statistical significance of the results.
翻訳日:2021-10-21 10:37:26 公開日:2021-10-16
# (参考訳) 確率帯域におけるレギュレット最小化とベストアーム識別のパレートフロンティアについて [全文訳有]

On the Pareto Frontier of Regret Minimization and Best Arm Identification in Stochastic Bandits ( http://arxiv.org/abs/2110.08627v1 )

ライセンス: CC BY 4.0
Zixin Zhong, Wang Chi Cheung, Vincent Y. F. Tan(参考訳) 確率的包帯における2つの根尖目標のパレートフロンティア、すなわち、後悔の最小化(RM)とベストアーム識別(BAI)を固定地平線で検討した。 RMとBAIの双方にとって, エクスプロイトと探索のバランスは重要であるが, 後者の目的を達成するためには, 探索がより重要である。 これを正確にするために、まずbobw-lil'ucb$({\gamma})$アルゴリズムを設計・解析し、${\gamma}$の異なる値の下でrmまたはbaiのオーダーワイズ最適性能を達成する。 補完的に、RMとBAIの両方の目的に対して最適なアルゴリズムを同時に実行できないことを示す。 より正確には、与えられたBAI失敗確率を持つ任意のアルゴリズムによって達成可能な後悔に対する非自明な下界を確立する。 この分析は、いくつかのレジームにおいて、BoBW-lil'UCB$({\gamma})$ はパレート最適性を定数あるいは小項まで達成していることを示している。 さらに、難しい事例に適用した場合、BoBW-lil'UCB は RM と BAI のために固定された信頼度で設計された近接競合 UCB$_{\alpha}$ (Degenne et al., 2019) より優れることを示した。

We study the Pareto frontier of two archetypal objectives in stochastic bandits, namely, regret minimization (RM) and best arm identification (BAI) with a fixed horizon. It is folklore that the balance between exploitation and exploration is crucial for both RM and BAI, but exploration is more critical in achieving the optimal performance for the latter objective. To make this precise, we first design and analyze the BoBW-lil'UCB$({\gamma})$ algorithm, which achieves order-wise optimal performance for RM or BAI under different values of ${\gamma}$. Complementarily, we show that no algorithm can simultaneously perform optimally for both the RM and BAI objectives. More precisely, we establish non-trivial lower bounds on the regret achievable by any algorithm with a given BAI failure probability. This analysis shows that in some regimes BoBW-lil'UCB$({\gamma})$ achieves Pareto-optimality up to constant or small terms. Numerical experiments further demonstrate that when applied to difficult instances, BoBW-lil'UCB outperforms a close competitor UCB$_{\alpha}$ (Degenne et al., 2019), which is designed for RM and BAI with a fixed confidence.
翻訳日:2021-10-21 10:29:00 公開日:2021-10-16
# (参考訳) 自動運転システムの重要なシナリオを見つける:体系的文献レビュー

Finding Critical Scenarios for Automated Driving Systems: A Systematic Literature Review ( http://arxiv.org/abs/2110.08664v1 )

ライセンス: CC BY 4.0
Xinhai Zhang, Jianbo Tao, Kaige Tan, Martin T\"orngren, Jos\'e Manuel Gaspar S\'anchez, Muhammad Rusyadi Ramli, Xin Tao, Magnus Gyllenhammar, Franz Wotawa, Naveen Mohan, Mihai Nica, Hermann Felbinger(参考訳) シナリオベースのアプローチは、自動走行システムの研究開発に多大な注目を集めている。 運転環境の複雑さと不確実性、運転タスク自体の複雑さのため、ADSやADASが遭遇する可能性のある運転シナリオの数は事実上無限である。 したがって、シナリオの特定、特に考慮されていない場合に許容できないリスクを課す重要なシナリオを判断することが不可欠である。 重要なシナリオは、特に設計、検証、検証の取り組みをサポートし、安全ケースの基礎として重要である。 本稿では,自律運転の文脈における系統的な文献レビューの結果について述べる。 主な貢献は次の通りである。 (i) シナリオ識別のための包括的分類法の導入 (ii)2017年から2020年の間に86の論文を包含した分類学に基づく最新の研究の概要を述べる。 (iii)さらなる研究のためのオープンイシューと方向性の特定。 提供される分類学は、問題定義(理由)、解決策(シナリオを導き出す方法)、確立されたシナリオの評価を含む3つの主要な視点から構成される。 さらに,包括性,実践性,シナリオ空間の爆発の観点から,オープンな研究課題について議論する。

Scenario-based approaches have been receiving a huge amount of attention in research and engineering of automated driving systems. Due to the complexity and uncertainty of the driving environment, and the complexity of the driving task itself, the number of possible driving scenarios that an ADS or ADAS may encounter is virtually infinite. Therefore it is essential to be able to reason about the identification of scenarios and in particular critical ones that may impose unacceptable risk if not considered. Critical scenarios are particularly important to support design, verification and validation efforts, and as a basis for a safety case. In this paper, we present the results of a systematic literature review in the context of autonomous driving. The main contributions are: (i) introducing a comprehensive taxonomy for critical scenario identification methods; (ii) giving an overview of the state-of-the-art research based on the taxonomy encompassing 86 papers between 2017 and 2020; and (iii) identifying open issues and directions for further research. The provided taxonomy comprises three main perspectives encompassing the problem definition (the why), the solution (the methods to derive scenarios), and the assessment of the established scenarios. In addition, we discuss open research issues considering the perspectives of coverage, practicability, and scenario space explosion.
翻訳日:2021-10-21 09:52:30 公開日:2021-10-16
# (参考訳) 機械学習を用いた超音波エラストグラフィの高速ひずみ推定とフレーム選択 [全文訳有]

Fast Strain Estimation and Frame Selection in Ultrasound Elastography using Machine Learning ( http://arxiv.org/abs/2110.08668v1 )

ライセンス: CC BY 4.0
Abdelrahman Zayed and Hassan Rivaz(参考訳) 超音波エラストグラフィーは、組織の内部または外部の力による組織変形をモニタリングすることで、組織の機械的特性を決定することを目的としている。 組織変形は、超音波ラジオ周波数(RF)信号から推定され、しばしば時間遅延推定(TDE)と呼ばれる。 2つのrfフレームi1,i2が与えられると、i1における各サンプルの位置がi2における新しい位置へ変化することを示す変位画像を計算することができる。 TDEにおける2つの重要な課題は、高い計算複雑性と適切なRFフレームを選択することの難しさである。 多くのRFフレームは、情報歪画像の抽出に許容できる変形を有していないか、非相関であり、変形を確実に推定できないため、適切なフレームを選択することが重要である。 本稿では,大規模なトレーニングデータベースの変位場について主成分分析(PCA)を行い,準静電エラストグラフィーで12の変位モードを学習する手法を提案する。 推定段階では, 動的計画法 (dp) を用いて試料の約1%の初期変位推定値を計算し, このスパース変位を12個の変位モードの線形結合に分解する。 本手法では, 画像全体の変位を主成分の線形結合によっても記述できると仮定した。 次に,global ultrasound elastography (glue) 法を用いて,正確な変位像を得る結果の微調整を行った。 我々はPCA-GLUEと呼ぶ手法をDPよりも10倍以上高速に計算し,同じ結果を得た。 本稿では,PCA-GLUE で計算した重みベクトルを多層パーセプトロン(MLP)分類器の入力として利用することにより,ひずみ推定のためのフレーム対 I1 と I2 の適合性を決定する。

Ultrasound Elastography aims to determine the mechanical properties of the tissue by monitoring tissue deformation due to internal or external forces. Tissue deformations are estimated from ultrasound radio frequency (RF) signals and are often referred to as time delay estimation (TDE). Given two RF frames I1 and I2, we can compute a displacement image which shows the change in the position of each sample in I1 to a new position in I2. Two important challenges in TDE include high computational complexity and the difficulty in choosing suitable RF frames. Selecting suitable frames is of high importance because many pairs of RF frames either do not have acceptable deformation for extracting informative strain images or are decorrelated and deformation cannot be reliably estimated. Herein, we introduce a method that learns 12 displacement modes in quasi-static elastography by performing Principal Component Analysis (PCA) on displacement fields of a large training database. In the inference stage, we use dynamic programming (DP) to compute an initial displacement estimate of around 1% of the samples, and then decompose this sparse displacement into a linear combination of the 12 displacement modes. Our method assumes that the displacement of the whole image could also be described by this linear combination of principal components. We then use the GLobal Ultrasound Elastography (GLUE) method to fine-tune the result yielding the exact displacement image. Our method, which we call PCA-GLUE, is more than 10 times faster than DP in calculating the initial displacement map while giving the same result. Our second contribution in this paper is determining the suitability of the frame pair I1 and I2 for strain estimation, which we achieve by using the weight vector that we calculated for PCA-GLUE as an input to a multi-layer perceptron (MLP) classifier.
翻訳日:2021-10-21 09:51:25 公開日:2021-10-16
# (参考訳) ガウス鍵を混合した変圧器 [全文訳有]

Transformer with a Mixture of Gaussian Keys ( http://arxiv.org/abs/2110.08678v1 )

ライセンス: CC BY 4.0
Tam Nguyen, Tan M. Nguyen, Dung Le, Khuong Nguyen, Anh Tran, Richard G. Baraniuk, Nhat Ho and Stanley J. Osher(参考訳) マルチヘッドアテンション(Multi-head attention)は、自然言語処理(NLP)やコンピュータビジョンタスクにまたがる優れたパフォーマンスを実現する最先端のトランスフォーマーの原動力である。 多くのアプリケーションにおいて、これらのアテンションヘッドは冗長な埋め込みを学習し、そのほとんどはモデルの性能を劣化させることなく取り除くことができる。 そこで,本研究では,ガウス鍵(transformer-mgk)とガウス鍵(transformer-mgk)を混合した変圧器を提案する。 これらの混合鍵はガウス混合モデルに従い、各注意ヘッドは入力シーケンスの異なる部分に集中することができる。 従来のトランスフォーマーに比べて、transformer-mgkはトレーニングと推論を高速化し、パラメータを少なくし、計算にフラップを少なくし、タスク間で同等あるいは優れた精度を実現している。 Transformer-MGKは、線形注意で簡単に拡張できる。 我々は,Transformer-MGKの利点を,非常に長いシーケンスを含む言語モデリングやタスクを含む様々な実践的応用で実証的に実証した。 wikitext-103とlong range arenaベンチマークでは、4つのヘッドを持つtransformer-mgkが8つのヘッドを持つベースライントランスフォーマーと同等かそれ以上の性能を達成した。

Multi-head attention is a driving force behind state-of-the-art transformers which achieve remarkable performance across a variety of natural language processing (NLP) and computer vision tasks. It has been observed that for many applications, those attention heads learn redundant embedding, and most of them can be removed without degrading the performance of the model. Inspired by this observation, we propose Transformer with a Mixture of Gaussian Keys (Transformer-MGK), a novel transformer architecture that replaces redundant heads in transformers with a mixture of keys at each head. These mixtures of keys follow a Gaussian mixture model and allow each attention head to focus on different parts of the input sequence efficiently. Compared to its conventional transformer counterpart, Transformer-MGK accelerates training and inference, has fewer parameters, and requires less FLOPs to compute while achieving comparable or better accuracy across tasks. Transformer-MGK can also be easily extended to use with linear attentions. We empirically demonstrate the advantage of Transformer-MGK in a range of practical applications including language modeling and tasks that involve very long sequences. On the Wikitext-103 and Long Range Arena benchmark, Transformer-MGKs with 4 heads attain comparable or better performance to the baseline transformers with 8 heads.
翻訳日:2021-10-21 09:32:40 公開日:2021-10-16
# DFW-PP:動的特徴量に基づくソーシャルメディアコンテンツの人気予測

DFW-PP: Dynamic Feature Weighting based Popularity Prediction for Social Media Content ( http://arxiv.org/abs/2110.08510v1 )

ライセンス: Link先を確認
Viswanatha Reddy G, Chaitanya B S N V, Prathyush P, Sumanth M, Mrinalini C, Dileep Kumar P, Snehasis Mukherjee(参考訳) ソーシャルメディアプラットフォームの人気が高まる中、ユーザーのエンゲージメントを研究することが重要となり、これはマーケティング戦略やビジネスモデルの重要な側面である。 ソーシャルメディアプラットフォーム上でのコンテンツの過度な飽和は、コンテンツの人気に影響を与える重要な要因を特定するよう私たちを説得してきた。 これは、オンラインで視聴できる謙虚なコンテンツの1オタだけがターゲットのオーディエンスから注目を集めているという事実に由来する。 いくつかの機械学習技術を用いて、人気予測の分野で包括的な研究が行われている。 しかし,メディアコンテンツの社会的重要性を分析する上で,改善の余地は依然として大きいと考えられる。 DFW-PPフレームワークを提案し、時間とともに異なる特徴の重要性を学習する。 さらに,ログ正規化を適用して特徴量の分布の歪度を制御する手法を提案する。 提案手法は,有望な結果を示すベンチマークデータセットを用いて実験を行った。 コードはhttps://github.com/c haitnayabasava/DFW-P Pで公開される。

The increasing popularity of social media platforms makes it important to study user engagement, which is a crucial aspect of any marketing strategy or business model. The over-saturation of content on social media platforms has persuaded us to identify the important factors that affect content popularity. This comes from the fact that only an iota of the humongous content available online receives the attention of the target audience. Comprehensive research has been done in the area of popularity prediction using several Machine Learning techniques. However, we observe that there is still significant scope for improvement in analyzing the social importance of media content. We propose the DFW-PP framework, to learn the importance of different features that vary over time. Further, the proposed method controls the skewness of the distribution of the features by applying a log-log normalization. The proposed method is experimented with a benchmark dataset, to show promising results. The code will be made publicly available at https://github.com/c haitnayabasava/DFW-P P.
翻訳日:2021-10-19 21:33:15 公開日:2021-10-16
# hydra: 大規模多モデルディープラーニングのためのシステム

Hydra: A System for Large Multi-Model Deep Learning ( http://arxiv.org/abs/2110.08633v1 )

ライセンス: Link先を確認
Kabir Nagrecha, Arun Kumar(参考訳) 単一のGPUのメモリに収まらないディープラーニング(DL)モデルのトレーニングは、ユーザがモデル並列実行を採用するために複数のGPUの調達を強制する、面倒なプロセスである。 残念ながら、ニューラルネットワークアーキテクチャのシーケンシャルな依存関係は、効率のよいマルチデバイストレーニングをブロックすることが多い。 我々は,トランスフォーマーやCNNといったモデルを対象として,DRAMとGPUメモリ間でレイヤ群やシャードを移動させることで,任意の規模のモデルを1つのGPU上でもトレーニングすることが可能な「モデル流出」を提案する。 次に,タスクとモデル並列性の新しいハイブリッド,新しいシャードスケジューリングヒューリスティック,レイテンシを隠蔽する'ダブルバッファリング'といった,モデル選択などのマルチモデルトレーニングワークロードの効率を上げるためにスレーピングを活用する新しいテクニックを提案する。 我々はこのアイデアをHYDRAと呼ぶシステムにプロトタイプ化し、大きなDLモデルのシームレスなシングルモデルとマルチモデルトレーニングをサポートする。 実際のベンチマークワークロードによる実験によると、HYDRAは通常のモデル並列処理よりも7倍高速で、パイプライン並列処理のための最先端の産業ツールよりも50%高速である。

Training deep learning (DL) models that do not fit into the memory of a single GPU is a vexed process, forcing users to procure multiple GPUs to adopt model-parallel execution. Unfortunately, sequential dependencies in neural architectures often block efficient multi-device training, leading to suboptimal performance. We present 'model spilling', a technique aimed at models such as Transformers and CNNs to move groups of layers, or shards, between DRAM and GPU memory, thus enabling arbitrarily large models to be trained even on just one GPU. We then present a set of novel techniques leveraging spilling to raise efficiency for multi-model training workloads such as model selection: a new hybrid of task- and model-parallelism, a new shard scheduling heuristic, and 'double buffering' to hide latency. We prototype our ideas into a system we call HYDRA to support seamless single-model and multi-model training of large DL models. Experiments with real benchmark workloads show that HYDRA is over 7x faster than regular model parallelism and over 50% faster than state-of-the-art industrial tools for pipeline parallelism.
翻訳日:2021-10-19 21:33:00 公開日:2021-10-16
# TESDA: ディープニューラルネットワークにおける攻撃の統計的検出を可能にする変換

TESDA: Transform Enabled Statistical Detection of Attacks in Deep Neural Networks ( http://arxiv.org/abs/2110.08447v1 )

ライセンス: Link先を確認
Chandramouli Amarnath (Georgia Tech), Aishwarya H. Balwani (Georgia Tech), Kwondo Ma (Georgia Tech), Abhijit Chatterjee (Georgia Tech)(参考訳) ディープニューラルネットワーク(DNN)は、画像分類などのコンピュータビジョンタスクの事実上の選択である。 しかしながら、その複雑さと“ブラックボックス”の性質は、さまざまなセキュリティ脅威に対して、デプロイされているシステムを脆弱にします。 このような脅威、特に安全性に批判的な実世界のアプリケーションを特定することは最も重要であるが、それでも非常にオープンな問題である。 本稿では,DNNの中間層特性の分布に生じる相違点を利用した,低オーバーヘッド,フレキシブル,統計的に基盤とした攻撃検出手法であるTESDAを提案する。 従来の作業とは異なり、動作の相違を検出するために、リアルタイムに動作する専用のハードウェアも、トロイの木馬トリガーの存在も必要ありません。 我々は,複数のアーキテクチャ,データセット,多様な攻撃にまたがる手法の有用性と実用性を実証的に確立し,運用オーバヘッドを最大1~2%に抑えながら,95%以上の検出カバレッジを一貫して達成した。

Deep neural networks (DNNs) are now the de facto choice for computer vision tasks such as image classification. However, their complexity and "black box" nature often renders the systems they're deployed in vulnerable to a range of security threats. Successfully identifying such threats, especially in safety-critical real-world applications is thus of utmost importance, but still very much an open problem. We present TESDA, a low-overhead, flexible, and statistically grounded method for {online detection} of attacks by exploiting the discrepancies they cause in the distributions of intermediate layer features of DNNs. Unlike most prior work, we require neither dedicated hardware to run in real-time, nor the presence of a Trojan trigger to detect discrepancies in behavior. We empirically establish our method's usefulness and practicality across multiple architectures, datasets and diverse attacks, consistently achieving detection coverages of above 95% with operation count overheads as low as 1-2%.
翻訳日:2021-10-19 21:02:40 公開日:2021-10-16
# 新たな運動量ステップを持つ適応アルゴリズムの理論的および実証的研究と確率的非凸最適化のためのシフト更新

A theoretical and empirical study of new adaptive algorithms with additional momentum steps and shifted updates for stochastic non-convex optimization ( http://arxiv.org/abs/2110.08531v1 )

ライセンス: Link先を確認
Cristian Daniel Alecsa(参考訳) 本稿では,確率的非凸最適化問題に対するモーメント項を含む適応アルゴリズムを提案する。 定常点へのほぼ確実な収束と、選択された最終イテレーションに対する有限時間地平線解析について検討し、最悪の繰り返しの複雑さについても検討する。 勾配の2乗ユークリッドノルムの期待値を推定し、我々が実行する理論的解析をニューラルネットワークトレーニングのための様々な計算シミュレーションによって支援する。

In the following paper we introduce new adaptive algorithms endowed with momentum terms for stochastic non-convex optimization problems. We investigate the almost sure convergence to stationary points, along with a finite-time horizon analysis with respect to a chosen final iteration, and we also inspect the worst-case iteration complexity. An estimate for the expectation of the squared Euclidean norm of the gradient is given and the theoretical analysis that we perform is assisted by various computational simulations for neural network training.
翻訳日:2021-10-19 21:02:22 公開日:2021-10-16
# 動的グラフエコー状態ネットワーク

Dynamic Graph Echo State Networks ( http://arxiv.org/abs/2110.08565v1 )

ライセンス: Link先を確認
Domenico Tortorella, Alessio Micheli(参考訳) 動的時間グラフは、ソーシャルネットワークユーザ間の相互作用や感染拡大など、エンティティ間の進化的な関係を表す。 動的時間グラフの効率的な処理のためのグラフエコー状態ネットワークの拡張を提案し、そのエコー状態特性に十分な条件と貯水池レイアウトの影響を実験的に解析する。 頂点相互作用の全履歴を保持する必要のある時間グラフカーネルと比較して、我々のモデルは、トレーニングを必要とせずに各時点に更新される動的グラフのベクトルエンコーディングを提供する。 実験は12の拡散過程分類タスクにおける近似時間グラフカーネルに匹敵する精度を示す。

Dynamic temporal graphs represent evolving relations between entities, e.g. interactions between social network users or infection spreading. We propose an extension of graph echo state networks for the efficient processing of dynamic temporal graphs, with a sufficient condition for their echo state property, and an experimental analysis of reservoir layout impact. Compared to temporal graph kernels that need to hold the entire history of vertex interactions, our model provides a vector encoding for the dynamic graph that is updated at each time-step without requiring training. Experiments show accuracy comparable to approximate temporal graph kernels on twelve dissemination process classification tasks.
翻訳日:2021-10-19 21:02:13 公開日:2021-10-16
# Swin-Transformer と Transformer を用いた胸部X線画像のCOVID-19検出

COVID-19 Detection in Chest X-ray Images Using Swin-Transformer and Transformer in Transformer ( http://arxiv.org/abs/2110.08427v1 )

ライセンス: Link先を確認
Juntao Jiang and Shuyi Lin(参考訳) 新型コロナウイルス感染症(COVID-19)は世界中に広がり、深刻な被害を受けている。 胸部X線画像は新型コロナウイルスの診断に広く使われており、人工知能法は効率と精度を高めるのに役立つ。 胸部xr新型コロナウイルスの検出と責任データ科学(ee-rds)会議2021において、胸部x線像をcovid-19、肺炎、正常(健康)の3種類に分類し、0.9475の精度を達成した。

The Coronavirus Disease 2019 (COVID-19) has spread globally and caused serious damages. Chest X-ray images are widely used for COVID-19 diagnosis and Artificial Intelligence method can assist to increase the efficiency and accuracy. In the Challenge of Chest XR COVID-19 detection in Ethics and Explainability for Responsible Data Science (EE-RDS) conference 2021, we proposed a method which combined Swin Transformer and Transformer in Transformer to classify chest X-ray images as three classes: COVID-19, Pneumonia and Normal (healthy) and achieved 0.9475 accuracy on test set.
翻訳日:2021-10-19 18:17:09 公開日:2021-10-16
# 画像品質評価のための局所適応構造とテクスチャ類似性

Locally Adaptive Structure and Texture Similarity for Image Quality Assessment ( http://arxiv.org/abs/2110.08521v1 )

ライセンス: Link先を確認
Keyan Ding, Yi Liu, Xueyi Zou, Shiqi Wang, Kede Ma(参考訳) フルリファレンス画像品質評価(IQA)の最新の進歩は、深部表現に基づく構造とテクスチャの類似性の統合である。 しかし、結果のDeep Image Structure and Texture similarity (DISTS) は、自然の写真画像が局所的に構造化され、空間と規模にわたってテクスチャ化されているという事実を無視して、かなりグローバルな品質測定を行う。 本稿では,A-DISTSと呼ぶ全参照IQAの局所適応構造とテクスチャ類似度指数について述べる。 具体的には、異なるスケールでテクスチャ領域をローカライズするために、分散指数と呼ばれる単一の統計的特徴に依存する。 推定確率(ひとつのパッチはテクスチャ)は、局所構造とテクスチャ測定を適応的にプールするために使用される。 その結果、A-DISTSは局所的な画像コンテンツに適応し、教師付きトレーニングのための高価な人間の知覚スコアを欠いている。 A-DISTSの利点は、10個のIQAデータベース上の人間データと相関し、単一画像超解像法を最適化する点にある。

The latest advances in full-reference image quality assessment (IQA) involve unifying structure and texture similarity based on deep representations. The resulting Deep Image Structure and Texture Similarity (DISTS) metric, however, makes rather global quality measurements, ignoring the fact that natural photographic images are locally structured and textured across space and scale. In this paper, we describe a locally adaptive structure and texture similarity index for full-reference IQA, which we term A-DISTS. Specifically, we rely on a single statistical feature, namely the dispersion index, to localize texture regions at different scales. The estimated probability (of one patch being texture) is in turn used to adaptively pool local structure and texture measurements. The resulting A-DISTS is adapted to local image content, and is free of expensive human perceptual scores for supervised training. We demonstrate the advantages of A-DISTS in terms of correlation with human data on ten IQA databases and optimization of single image super-resolution methods.
翻訳日:2021-10-19 18:16:53 公開日:2021-10-16
# 深部画像のデバンドリング

Deep Image Debanding ( http://arxiv.org/abs/2110.08569v1 )

ライセンス: Link先を確認
Raymond Zhou, Shahrukh Athar, Zhongling Wang, and Zhou Wang(参考訳) バンドリングや偽輪郭は、超高精細度、高ダイナミックレンジ、広色域の視覚的コンテンツにおいて、影響がさらに顕著な、不快な視覚的アーティファクトであり、ますます人気が高まっている。 このようなコンテンツやバンド化による品質期待の高まりは、視力の低下につながるため、バンド化除去や解体の領域が最重要視されている。 既存の解体アプローチは主に知識駆動である。 画像処理とコンピュータビジョンの他の領域でディープラーニングが広く成功しているにも関わらず、データ駆動デバンド化アプローチは驚くほど欠落している。 本研究では,画像に対する深層学習に基づくバンドングアーティファクト除去手法を開発し,deep debanding network (deepdeband) と名づける最初の試みの一つである。 そのトレーニングのために,51,490組のプリスティーヌおよびバンド画像パッチによる大規模データセットを構築した。 パフォーマンス評価の結果、deepdebandは画像のバンドングアーティファクトを大幅に削減し、定量的および視覚的に既存の方法を上回ることに成功した。

Banding or false contour is an annoying visual artifact whose impact is even more pronounced in ultra high definition, high dynamic range, and wide colour gamut visual content, which is becoming increasingly popular. Since users associate a heightened expectation of quality with such content and banding leads to deteriorated visual quality-of-experienc e, the area of banding removal or debanding has taken paramount importance. Existing debanding approaches are mostly knowledge-driven. Despite the widespread success of deep learning in other areas of image processing and computer vision, data-driven debanding approaches remain surprisingly missing. In this work, we make one of the first attempts to develop a deep learning based banding artifact removal method for images and name it deep debanding network (deepDeband). For its training, we construct a large-scale dataset of 51,490 pairs of corresponding pristine and banded image patches. Performance evaluation shows that deepDeband is successful at greatly reducing banding artifacts in images, outperforming existing methods both quantitatively and visually.
翻訳日:2021-10-19 18:16:34 公開日:2021-10-16
# MIMOレーダを用いたFew-Shot Learning Approach for Human-ID

A MIMO Radar-based Few-Shot Learning Approach for Human-ID ( http://arxiv.org/abs/2110.08595v1 )

ライセンス: Link先を確認
Pascal Weller, Fady Aziz, Sherif Abdulatif, Urs Schneider, Marco F. Huber(参考訳) 深層学習に基づく人間識別のためのレーダーは、関心の高まりの研究領域となっている。 マイクロドップラー(\(\upmu\)-d)は周期的な四肢の運動を捉えることで歩行行動を反映できることが示されている。 主な側面の1つは、リアルタイムおよびトレーニングデータセットサイズ制約を考慮して、含められたクラスの数を最大化することである。 本稿では,Multi-Input-multipl e-output (MIMO) レーダーを用いて,高度角速度(\(\upmu\)-\(\omega\ ))のマイクロモーションスペクトログラムを定式化する。 新たに作成したスペクトログラムを一般に使用される \(\upmu\)-d に結合する効果について検討した。 非拘束的な実歩行運動に対応するため、適応サイクルセグメンテーションフレームワークを使用し、半歩行サイクル(\(\approx\) 0.5 s)でメトリック学習ネットワークを訓練する。 各種クラス (5--20) の効果, データセットサイズ, 観測時間窓1--2 sの変化について検討した。 22名の被験者の非拘束歩行データセットをレーダに対して異なるアスペクトアングルで収集する。 提案した数ショット学習(FSL)アプローチは、被験者毎のトレーニングデータのわずか2分で11.3 %の分類誤差を達成する。

Radar for deep learning-based human identification has become a research area of increasing interest. It has been shown that micro-Doppler (\(\upmu\)-D) can reflect the walking behavior through capturing the periodic limbs' micro-motions. One of the main aspects is maximizing the number of included classes while considering the real-time and training dataset size constraints. In this paper, a multiple-input-multi ple-output (MIMO) radar is used to formulate micro-motion spectrograms of the elevation angular velocity (\(\upmu\)-\(\omega\ )). The effectiveness of concatenating this newly-formulated spectrogram with the commonly used \(\upmu\)-D is investigated. To accommodate for non-constrained real walking motion, an adaptive cycle segmentation framework is utilized and a metric learning network is trained on half gait cycles (\(\approx\) 0.5 s). Studies on the effects of various numbers of classes (5--20), different dataset sizes, and varying observation time windows 1--2 s are conducted. A non-constrained walking dataset of 22 subjects is collected with different aspect angles with respect to the radar. The proposed few-shot learning (FSL) approach achieves a classification error of 11.3 % with only 2 min of training data per subject.
翻訳日:2021-10-19 18:16:15 公開日:2021-10-16
# 概念モデリングと人工知能:補完的世界からの相互利益

Conceptual Modeling and Artificial Intelligence: Mutual Benefits from Complementary Worlds ( http://arxiv.org/abs/2110.08637v1 )

ライセンス: Link先を確認
Dominik Bork(参考訳) 概念モデリング(CM)は、研究中のシステムの複雑さを減らすために抽象化を適用する(例:現実の抜粋)。 概念モデリングプロセスの結果として、人間の解釈可能で形式化された表現(概念モデル)が導出され、人間間の理解とコミュニケーション、機械による処理が可能となる。 人工知能(AI)アルゴリズムは、パターンを識別したり、データのエンティティを分類するために、複雑な現実(通常大量のデータで表される)にも適用される。 両方のアプローチの共通点とは別に、結果を見ることで大きな違いが観察できる。 概念モデルは理解可能で再現可能で明示的な知識表現であるが、AI技術はブラックボックスとして機能しながら与えられた入力から出力を効率的に導き出すことができる。 AIソリューションは包括性と再現性に欠けることが多い。 AIシステムの開発者でさえ、なぜ特定のアウトプットが導出されるのかを説明できません。 Conceptual Modeling meets Artificial Intelligence (CMAI)ワークショップでは、これまでのところ、主にCMとAIの分離された分野にアプローチする2つの交差点に取り組むことに興味があります。 ワークショップでは、多様体の相互利益が実現できるという仮定を取り入れた 一 概念モデリング(CM)がAIにどのような貢献ができるか、及び 二 その他に、人工知能(ai)がcmにどんな貢献をすることができるか。

Conceptual modeling (CM) applies abstraction to reduce the complexity of a system under study (e.g., an excerpt of reality). As a result of the conceptual modeling process a human interpretable, formalized representation (i.e., a conceptual model) is derived which enables understanding and communication among humans, and processing by machines. Artificial Intelligence (AI) algorithms are also applied to complex realities (regularly represented by vast amounts of data) to identify patterns or to classify entities in the data. Aside from the commonalities of both approaches, a significant difference can be observed by looking at the results. While conceptual models are comprehensible, reproducible, and explicit knowledge representations, AI techniques are capable of efficiently deriving an output from a given input while acting as a black box. AI solutions often lack comprehensiveness and reproducibility. Even the developers of AI systems can't explain why a certain output is derived. In the Conceptual Modeling meets Artificial Intelligence (CMAI) workshop, we are interested in tackling the intersection of the two, thus far, mostly isolated approached disciplines of CM and AI. The workshop embraces the assumption, that manifold mutual benefits can be realized by i) investigating what Conceptual Modeling (CM) can contribute to AI, and ii) the other way around, what Artificial Intelligence (AI) can contribute to CM.
翻訳日:2021-10-19 17:46:15 公開日:2021-10-16
# プライバシー保護型モバイルクラウドセンシングのためのブロックチェーンとフェデレーションエッジ学習

Blockchain and Federated Edge Learning for Privacy-Preserving Mobile Crowdsensing ( http://arxiv.org/abs/2110.08671v1 )

ライセンス: Link先を確認
Qin Hu, Zhilin Wang, Minghui Xu, and Xiuzhen Cheng(参考訳) 大規模な作業員の移動性を数えるモバイルクラウドセンシング(mcs)は、要求者が柔軟性と低コストで様々なセンシングタスクをこなすのに役立つ。 しかし、従来のMCSでは、生データ送信のための通信リソースの大量消費と、データストレージと計算能力の高要求により、MCSの使用が制限されたリソースを要求される可能性がある。 mcsの広範な適用を容易にするために,我々は,ブロックチェーン技術を活用した新しいmcs学習フレームワークと,フェデレーション学習(fl)に基づくエッジインテリジェンスの新たな概念を提案する。 ブロックチェーンベースのMCSとブロックチェーンベースのFLに関する研究はいくつかあるが、リソース制約のある要求者の収容や、要求者と労働者の学習プロセスへの関与によるプライバシー問題に対する対処に関して、MCSの本質的な課題を解決できない。 ギャップを埋めるために、4つの主要な手順、すなわちタスクの公開、データセンシングと提出、最終結果の返却の学習、支払いの決済と割り当ては、悪意のあるエッジサーバや不正な要求者といった内部および外部の脅威に対処するために設計されている。 具体的には,モバイル機器のデータプライバシをエッジサーバに忠実に保持することを保証するための機構設計に基づくデータ提出ルール,分散学習プロセスを確保するためのコンソーシアムブロックチェーンベースのfl,要求者からのフルペイメントを実現するための協調強化制御戦略などが提案されている。 設計したスキームの性能を評価するために,広範なシミュレーションを行った。

Mobile crowdsensing (MCS) counting on the mobility of massive workers helps the requestor accomplish various sensing tasks with more flexibility and lower cost. However, for the conventional MCS, the large consumption of communication resources for raw data transmission and high requirements on data storage and computing capability hinder potential requestors with limited resources from using MCS. To facilitate the widespread application of MCS, we propose a novel MCS learning framework leveraging on blockchain technology and the new concept of edge intelligence based on federated learning (FL), which involves four major entities, including requestors, blockchain, edge servers and mobile devices as workers. Even though there exist several studies on blockchain-based MCS and blockchain-based FL, they cannot solve the essential challenges of MCS with respect to accommodating resource-constrained requestors or deal with the privacy concerns brought by the involvement of requestors and workers in the learning process. To fill the gaps, four main procedures, i.e., task publication, data sensing and submission, learning to return final results, and payment settlement and allocation, are designed to address major challenges brought by both internal and external threats, such as malicious edge servers and dishonest requestors. Specifically, a mechanism design based data submission rule is proposed to guarantee the data privacy of mobile devices being truthfully preserved at edge servers; consortium blockchain based FL is elaborated to secure the distributed learning process; and a cooperation-enforcin g control strategy is devised to elicit full payment from the requestor. Extensive simulations are carried out to evaluate the performance of our designed schemes.
翻訳日:2021-10-19 17:44:09 公開日:2021-10-16
# トレーニングダイナミクスを活用した深層アクティブラーニング

Deep Active Learning by Leveraging Training Dynamics ( http://arxiv.org/abs/2110.08611v1 )

ライセンス: Link先を確認
Haonan Wang, Wei Huang, Andrew Margenot, Hanghang Tong, Jingrui He(参考訳) アクティブラーニング理論と手法は、古典的統計学の設定で広く研究されてきた。 しかし、深層アクティブラーニング、すなわちディープラーニングモデルを用いたアクティブラーニングは、理論的な正当性のない経験的基準に基づいているため、アプリケーションへのメリットを提供していない場合、大きな疑問が持たれている。 本稿では,一般化性能とトレーニングダイナミクスの関係を探ることにより,学習ダイナミクスを最大化するためにサンプルを選択する理論駆動型深層アクティブラーニング手法(dynamical)を提案する。 特に,訓練の収束速度と一般化性能は,超広範条件下で正の相関関係にあることを証明し,訓練ダイナミクスの最大化が一般化性能の向上につながることを示す。 さらに,大規模深層ニューラルネットワークとデータセットにスケールアップするために,部分集合選択問題に対する2つの緩和を導入し,多項式から定数までの時間の複雑さを低減した。 経験的結果は、動的は他のベースラインを一貫して上回るだけでなく、大きなディープラーニングモデルでもうまくスケールすることを示している。 私たちの研究が、ディープネットワークの理論的な知見と、ディープラーニングアプリケーションにおける実践的な影響を橋渡しする試みを刺激することを期待しています。

Active learning theories and methods have been extensively studied in classical statistical learning settings. However, deep active learning, i.e., active learning with deep learning models, is usually based on empirical criteria without solid theoretical justification, thus suffering from heavy doubts when some of those fail to provide benefits in applications. In this paper, by exploring the connection between the generalization performance and the training dynamics, we propose a theory-driven deep active learning method (dynamicAL) which selects samples to maximize training dynamics. In particular, we prove that convergence speed of training and the generalization performance is positively correlated under the ultra-wide condition and show that maximizing the training dynamics leads to a better generalization performance. Further on, to scale up to large deep neural networks and data sets, we introduce two relaxations for the subset selection problem and reduce the time complexity from polynomial to constant. Empirical results show that dynamicAL not only outperforms the other baselines consistently but also scales well on large deep learning models. We hope our work inspires more attempts in bridging the theoretical findings of deep networks and practical impacts in deep active learning applications.
翻訳日:2021-10-19 17:12:59 公開日:2021-10-16
# グラフ分割のための深層学習とスペクトル埋め込み

Deep Learning and Spectral Embedding for Graph Partitioning ( http://arxiv.org/abs/2110.08614v1 )

ライセンス: Link先を確認
Alice Gatti, Zhixiong Hu, Tess Smidt, Esmond G. Ng, Pieter Ghysels(参考訳) 本稿では,グラフニューラルネットワークに基づくグラフ分割分割アルゴリズムを提案する。 グラフの各ノードに対して、ネットワークは各パーティションの確率を出力する。 グラフニューラルネットワークは、埋め込み相と分割相の2つのモジュールから構成される。 埋め込み位相は、まずスペクトルグラフ理論に着想を得た損失関数を最小化する。 分割モジュールは、正規化されたカットの期待値に対応する損失関数によって訓練される。 ニューラルネットワークのどちらの部分も、重いエッジマッチングを用いたセージ畳み込み層とグラフ粗さに依存しています。 ニューラルネットワークのマルチレベル構造は、マルチグリッドアルゴリズムにインスパイアされている。 我々のアプローチは、より大きなグラフに非常によく一般化し、metis、scotch、spectral partitioningに匹敵するパーティション品質を持ち、metisやspectral partitioningに比べてランタイムが短い。

We present a graph bisection and partitioning algorithm based on graph neural networks. For each node in the graph, the network outputs probabilities for each of the partitions. The graph neural network consists of two modules: an embedding phase and a partitioning phase. The embedding phase is trained first by minimizing a loss function inspired by spectral graph theory. The partitioning module is trained through a loss function that corresponds to the expected value of the normalized cut. Both parts of the neural network rely on SAGE convolutional layers and graph coarsening using heavy edge matching. The multilevel structure of the neural network is inspired by the multigrid algorithm. Our approach generalizes very well to bigger graphs and has partition quality comparable to METIS, Scotch and spectral partitioning, with shorter runtime compared to METIS and spectral partitioning.
翻訳日:2021-10-19 17:12:36 公開日:2021-10-16
# GradSign: 理論的洞察によるモデルパフォーマンス推論

GradSign: Model Performance Inference with Theoretical Insights ( http://arxiv.org/abs/2110.08616v1 )

ライセンス: Link先を確認
Zhihao Zhang, Zhihao Jia(参考訳) neural architecture search (nas) の重要な課題は、統計学的に正確で計算効率の良いものを見つけるために、幅広いネットワークの予測性能を素早く推測することである。 このタスクをモデル性能推論(MPI)と呼ぶ。 効率的なMPIの現在の実践は、ネットワークの初期化時の勾配を利用してその性能を推定する勾配に基づく手法である。 しかし、既存の勾配に基づく手法はヒューリスティックな指標にのみ依存しており、設計を統合するために必要な理論的基盤が欠如している。 理論的な洞察を伴うモデル性能推定のための正確でシンプルで柔軟な指標であるGradSignを提案する。 GradSignの背後にある重要なアイデアは、個々のトレーニングサンプルの粒度で異なるネットワークの最適化ランドスケープを分析するための量 {\Psi} である。 理論的には、ネットワークのトレーニングと真の人口損失の両方が、合理的な仮定の下では {\Psi} によって比例的に上界であることが示される。 さらに、ランダム初期化状態で評価されたネットワークの勾配を用いて、精度が高く簡単な {\Psi} 近似である GradSign を設計する。 3つのトレーニングデータセットにわたる7つのNASベンチマークの評価は、GradSignが現実世界のネットワークによく一般化し、Spearman's {\rho} と Kendall's Tau によって評価された MPI の最先端勾配ベースの手法を一貫して上回っていることを示している。 さらに、GradSignを4つの既存のNASアルゴリズムに統合し、GradSign支援NASアルゴリズムが3つの実世界のタスクにおいて、最高の発見ネットワークの精度を最大0.3%、1.1%、1.0%改善することで、彼らのバニラアルゴリズムよりも優れていることを示す。

A key challenge in neural architecture search (NAS) is quickly inferring the predictive performance of a broad spectrum of networks to discover statistically accurate and computationally efficient ones. We refer to this task as model performance inference (MPI). The current practice for efficient MPI is gradient-based methods that leverage the gradients of a network at initialization to infer its performance. However, existing gradient-based methods rely only on heuristic metrics and lack the necessary theoretical foundations to consolidate their designs. We propose GradSign, an accurate, simple, and flexible metric for model performance inference with theoretical insights. The key idea behind GradSign is a quantity {\Psi} to analyze the optimization landscape of different networks at the granularity of individual training samples. Theoretically, we show that both the network's training and true population losses are proportionally upper-bounded by {\Psi} under reasonable assumptions. In addition, we design GradSign, an accurate and simple approximation of {\Psi} using the gradients of a network evaluated at a random initialization state. Evaluation on seven NAS benchmarks across three training datasets shows that GradSign generalizes well to real-world networks and consistently outperforms state-of-the-art gradient-based methods for MPI evaluated by Spearman's {\rho} and Kendall's Tau. Additionally, we integrate GradSign into four existing NAS algorithms and show that the GradSign-assisted NAS algorithms outperform their vanilla counterparts by improving the accuracies of best-discovered networks by up to 0.3%, 1.1%, and 1.0% on three real-world tasks.
翻訳日:2021-10-19 17:12:22 公開日:2021-10-16
# Back to Reality: パターン駆動モデリングを活用して、順応可能な依存性学習を可能にする

Back to Reality: Leveraging Pattern-driven Modeling to Enable Affordable Sentiment Dependency Learning ( http://arxiv.org/abs/2110.08604v1 )

ライセンス: Link先を確認
Heng Yang, Biqing Zeng, Mayi Xu, Tianxing Wang(参考訳) Aspect-based Sentiment Classification (ABSC)は、従来の感情分析の課題である。 複数の側面の感情極性の潜在的な相関、すなわち感情依存の扱いが困難であるため、最近の人気作品では感情依存解析を導く構文情報を利用する傾向がある。 しかし、構文情報(例えば構文依存木)は通常、隣接する行列の操作の観点から高価な計算資源を占有する。 代わりに、ほとんどの感情依存が隣り合う側面の間で起こることを発見した場合に、感情クラスタと同じ感情を持つ連続的な側面を定義する。 そこで本研究では,モデル依存学習の指針となる感情パターン(SP)を提案する。 その後、感情クラスタにおける感情依存の学習に焦点をあてるローカル感情集約(LSA)機構を導入する。 LSAは、追加の依存性マトリックスの構築とモデリングがないため、既存の依存性ツリーベースモデルよりも効率的である。 さらに,感情依存度を計測するために,アグリゲーションウィンドウ構築のための差分重み付けを提案する。 4つの公開データセットの実験により、我々のモデルは、特に学習感情クラスタの改善とともに最先端のパフォーマンスを達成することが示された。

Aspect-based Sentiment Classification (ABSC) is a challenging sub-task of traditional sentiment analysis. Due to the difficulty of handling potential correlations among sentiment polarities of multiple aspects, i.e., sentiment dependency, recent popular works tend to exploit syntactic information guiding sentiment dependency parsing. However, syntax information (e.g., syntactic dependency trees) usually occupies expensive computational resources in terms of the operation of the adjacent matrix. Instead, we define the consecutive aspects with the same sentiment as the sentiment cluster in the case that we find that most sentiment dependency occurs between adjacent aspects. Motivated by this finding, we propose the sentiment patterns (SP) to guide the model dependency learning. Thereafter, we introduce the local sentiment aggregating (LSA) mechanism to focus on learning the sentiment dependency in the sentiment cluster. The LSA is more efficient than existing dependency tree-based models due to the absence of additional dependency matrix constructing and modeling. Furthermore, we propose differential weighting for aggregation window building to measure the importance of sentiment dependency. Experiments on four public datasets show that our models achieve state-of-the-art performance with especially improvement on learning sentiment cluster.
翻訳日:2021-10-19 16:42:55 公開日:2021-10-16
# マクロアクションによるデモを通してUIナビゲーションを学ぶ

Learning UI Navigation through Demonstrations composed of Macro Actions ( http://arxiv.org/abs/2110.08653v1 )

ライセンス: Link先を確認
Wei Li(参考訳) UIナビゲーションが可能なエージェントを確実に構築するフレームワークを開発した。 状態空間は生のピクセルからocrやアイコン検出などの画面理解から抽出されたui要素の集合へと単純化される。 アクションスペースはUI要素といくつかのグローバルアクションに制限される。 アクションはタスク用にカスタマイズでき、各アクションはステータスチェックで条件付けられた基本的な操作のシーケンスである。 このような設計により、DQfDおよびBCエージェントを少数の実演エピソードで訓練することができる。 我々は,人間のデモの必要な数を大幅に削減するデモ拡張を提案する。 DQfDをカスタマイズして、スクリーンショットに集められたデモを、まれなケースのデモカバレッジを容易にするようにしました。 デモは、以前のバージョンのエージェントの評価中に失敗したケースに対してのみ収集される。 評価、デモ収集、トレーニングを10回ループすることで、初期状態や視聴パラメータがランダム化された80以上のアプリやwebサイトにおいて、エージェントは検索タスクで98.7\%の成功率に達する。

We have developed a framework to reliably build agents capable of UI navigation. The state space is simplified from raw-pixels to a set of UI elements extracted from screen understanding, such as OCR and icon detection. The action space is restricted to the UI elements plus a few global actions. Actions can be customized for tasks and each action is a sequence of basic operations conditioned on status checks. With such a design, we are able to train DQfD and BC agents with a small number of demonstration episodes. We propose demo augmentation that significantly reduces the required number of human demonstrations. We made a customization of DQfD to allow demos collected on screenshots to facilitate the demo coverage of rare cases. Demos are only collected for the failed cases during the evaluation of the previous version of the agent. With 10s of iterations looping over evaluation, demo collection, and training, the agent reaches a 98.7\% success rate on the search task in an environment of 80+ apps and websites where initial states and viewing parameters are randomized.
翻訳日:2021-10-19 16:39:03 公開日:2021-10-16
# 二層グラフを用いた単体画像からの3次元人体形状復元

Joint 3D Human Shape Recovery from A Single Imag with Bilayer-Graph ( http://arxiv.org/abs/2110.08472v1 )

ライセンス: Link先を確認
Xin Yu, Jeroen van Baar, Siheng Chen(参考訳) 画像から3次元の人間の形状とポーズを推定する能力は多くの文脈で有用である。 近年,グラフ畳み込みネットワークを用いたアプローチが研究され,有望な結果が得られた。 3d形状が無向グラフであるメッシュによって表現されているという事実は、グラフ畳み込みネットワークをこの問題に自然に適合させる。 しかし、グラフ畳み込みネットワークは表現力に制限がある。 グラフ内のノードからの情報は接続された隣人に渡され、情報の伝播には連続したグラフ畳み込みが必要である。 この限界を克服するため,我々はデュアルスケールグラフアプローチを提案する。 密なグラフから得られた粗いグラフを用いて、人間の3次元のポーズを推定し、密なグラフを使って3次元の形状を推定する。 粗グラフの情報は、密度グラフと比較して長い距離で伝播することができる。 さらに、ポーズに関する情報は、局所的な形状の詳細を復元し、その逆を導くことができる。 粗いグラフと密接なグラフとの接続はグラフであり、異なるスケールのグラフ間で情報を交換するためにグラフ融合ブロックを導入する。 我々は、エンドツーエンドのモデルをトレーニングし、いくつかの評価データセットに対して最先端の結果が得られることを示す。

The ability to estimate the 3D human shape and pose from images can be useful in many contexts. Recent approaches have explored using graph convolutional networks and achieved promising results. The fact that the 3D shape is represented by a mesh, an undirected graph, makes graph convolutional networks a natural fit for this problem. However, graph convolutional networks have limited representation power. Information from nodes in the graph is passed to connected neighbors, and propagation of information requires successive graph convolutions. To overcome this limitation, we propose a dual-scale graph approach. We use a coarse graph, derived from a dense graph, to estimate the human's 3D pose, and the dense graph to estimate the 3D shape. Information in coarse graphs can be propagated over longer distances compared to dense graphs. In addition, information about pose can guide to recover local shape detail and vice versa. We recognize that the connection between coarse and dense is itself a graph, and introduce graph fusion blocks to exchange information between graphs with different scales. We train our model end-to-end and show that we can achieve state-of-the-art results for several evaluation datasets.
翻訳日:2021-10-19 16:36:25 公開日:2021-10-16
# 次元感情認識のためのハイブリッドミューティモダル融合

Hybrid Mutimodal Fusion for Dimensional Emotion Recognition ( http://arxiv.org/abs/2110.08495v1 )

ライセンス: Link先を確認
Ziyu Ma, Fuyan Ma, Bin Sun, Shutao Li(参考訳) 本稿では,Multimodal Sentiment Challenge (MuSe) 2021のMuSe-Stress sub-challengeとMuSe-Physio sub-challengeのソリューションを幅広く紹介する。 MuSe-Stress sub-challengeの目標は、音声-視覚的記録から、感情的覚醒とヴァレンスを時間連続的に予測することであり、MuSe-Physio sub-challengeの目標は、心理生理的覚醒のレベルを予測することである。 a)人間の注釈が混ざり合っていること b) ストレスを受けた人々からのガルバニック皮膚反応(electrormal activity(eda)とも呼ばれる) 音声-視覚テキストUlm-Trier Social Stressデータセットの新たなサブセットであるUlm-TSSTデータセットは、Trier Social Stress Test (TSST)誘導ストレス状況において、ドイツ話者を特徴付ける。 MuSe-Stressのサブチャレンジでは、ソリューションを3つの側面で強調する。 1)音声・視覚的特徴と生体信号的特徴は感情状態認識に使用される。 2)自己アテンション機構を備えたLong Short-Term Memory(LSTM)を用いて,特徴系列内の複雑な時間的依存関係をキャプチャする。 3)マルチモーダルシーケンスに散在する補完的情報を活用し,モデルの認識性能をさらに高めるために,後期融合戦略が採用されている。 提案モデルでは,各テストセットでそれぞれ0.6159と0.4609のCCCを達成し,それぞれ上位3位にランク付けした。 MuSe-Physio sub-challengeでは、まず複数のモードから音声視覚特徴と生体信号特徴を抽出する。 次に、自己アテンション機構を備えたLSTMモジュールとGCNNとLSTMネットワークを用いて、シーケンス内の複雑な時間的依存関係をモデル化する。 最後に、後期核融合戦略を用いる。 提案手法は,テストセットで0.5412のCCを達成し,上位3位にランク付けする。

In this paper, we extensively present our solutions for the MuSe-Stress sub-challenge and the MuSe-Physio sub-challenge of Multimodal Sentiment Challenge (MuSe) 2021. The goal of MuSe-Stress sub-challenge is to predict the level of emotional arousal and valence in a time-continuous manner from audio-visual recordings and the goal of MuSe-Physio sub-challenge is to predict the level of psycho-physiological arousal from a) human annotations fused with b) galvanic skin response (also known as Electrodermal Activity (EDA)) signals from the stressed people. The Ulm-TSST dataset which is a novel subset of the audio-visual textual Ulm-Trier Social Stress dataset that features German speakers in a Trier Social Stress Test (TSST) induced stress situation is used in both sub-challenges. For the MuSe-Stress sub-challenge, we highlight our solutions in three aspects: 1) the audio-visual features and the bio-signal features are used for emotional state recognition. 2) the Long Short-Term Memory (LSTM) with the self-attention mechanism is utilized to capture complex temporal dependencies within the feature sequences. 3) the late fusion strategy is adopted to further boost the model's recognition performance by exploiting complementary information scattered across multimodal sequences. Our proposed model achieves CCC of 0.6159 and 0.4609 for valence and arousal respectively on the test set, which both rank in the top 3. For the MuSe-Physio sub-challenge, we first extract the audio-visual features and the bio-signal features from multiple modalities. Then, the LSTM module with the self-attention mechanism, and the Gated Convolutional Neural Networks (GCNN) as well as the LSTM network are utilized for modeling the complex temporal dependencies in the sequence. Finally, the late fusion strategy is used. Our proposed method also achieves CCC of 0.5412 on the test set, which ranks in the top 3.
翻訳日:2021-10-19 16:36:07 公開日:2021-10-16
# 注意薄いボリュームを有するマルチビューステレオネットワーク

Multi-View Stereo Network with attention thin volume ( http://arxiv.org/abs/2110.08556v1 )

ライセンス: Link先を確認
Zihang Wan(参考訳) 複数のRGB画像から深度値を推定するための効率的なマルチビューステレオ(MVS)ネットワークを提案する。 近年の研究では、実空間における幾何学的関係をニューラルネットワークにマッピングすることがmvs問題の重要なトピックであることが示されている。 特に、これらの手法は、優れたコストボリュームを構築することにより、異なるビュー間の対応を表現する方法に焦点を当てている。 本稿では,過去の経験を吸収することに基づいて,より完全なコストボリューム構築手法を提案する。 まず、入力画像から支配的な情報を完全集約し、長距離依存を正確にモデル化し、参照特徴を選択的に集約するセルフアテンション機構を導入する。 第2に,特徴集約に対するグループワイド相関を導入し,メモリと計算負荷を大幅に削減する。 一方、この手法は異なる特徴チャネル間の情報相互作用を強化する。 このアプローチにより、より軽量で効率的なコストボリュームが構築される。 最後に、不確実性推定の助けを借りて、粗大な戦略に従い、深度サンプリング範囲のスケールを拡大する。 さらに,前回のステップを組み合わせることで,注意の薄いボリュームを得る。 本モデルの性能を示すために,定量的および定性的実験を行った。

We propose an efficient multi-view stereo (MVS) network for infering depth value from multiple RGB images. Recent studies have shown that mapping the geometric relationship in real space to neural network is an essential topic of the MVS problem. Specifically, these methods focus on how to express the correspondence between different views by constructing a nice cost volume. In this paper, we propose a more complete cost volume construction approach based on absorbing previous experience. First of all, we introduce the self-attention mechanism to fully aggregate the dominant information from input images and accurately model the long-range dependency, so as to selectively aggregate reference features. Secondly, we introduce the group-wise correlation to feature aggregation, which greatly reduces the memory and calculation burden. Meanwhile, this method enhances the information interaction between different feature channels. With this approach, a more lightweight and efficient cost volume is constructed. Finally we follow the coarse to fine strategy and refine the depth sampling range scale by scale with the help of uncertainty estimation. We further combine the previous steps to get the attention thin volume. Quantitative and qualitative experiments are presented to demonstrate the performance of our model.
翻訳日:2021-10-19 16:35:32 公開日:2021-10-16
# ASFormer: アクションセグメンテーションのためのトランスフォーマー

ASFormer: Transformer for Action Segmentation ( http://arxiv.org/abs/2110.08568v1 )

ライセンス: Link先を確認
Fangqiu Yi and Hongyu Wen and Tingting Jiang(参考訳) アクションセグメンテーションタスクのアルゴリズムは通常、時間モデルを使用して各フレームで発生しているアクションを1分間の日々の活動で予測する。 近年の研究では、逐次データ中の要素間の関係をモデル化するトランスフォーマーの可能性を示している。 しかしながら、小さなトレーニングセットによる帰納バイアスの欠如、長い入力シーケンスの処理の欠如、複数のアクションセグメント間の時間的関係を利用して初期予測を洗練するためのデコーダアーキテクチャの制限など、アクションセグメンテーションタスクにトランスフォーマーを直接適用する場合、いくつかの大きな懸念がある。 これらの問題に対処するために,ASFormerというアクションセグメンテーションタスクのための効率的なトランスフォーマーベースモデルを設計した。 (i)特徴の局所性が高いため、局所接続インダクティブプリエントを明示的に導入している。 信頼された範囲内で仮説空間を制約し、アクションセグメンテーションタスクが小さなトレーニングセットで適切なターゲット関数を学習するのに有益である。 (ii)長い入力列を効率的に扱う事前定義された階層表現パターンを適用する。 (iii)エンコーダからの初期予測を洗練するためにデコーダを慎重に設計する。 3つの公開データセットに対する大規模な実験により,本手法の有効性が示された。 コードは \url{https://github.com/C hinaYi/ASFormer} で入手できる。

Algorithms for the action segmentation task typically use temporal models to predict what action is occurring at each frame for a minute-long daily activity. Recent studies have shown the potential of Transformer in modeling the relations among elements in sequential data. However, there are several major concerns when directly applying the Transformer to the action segmentation task, such as the lack of inductive biases with small training sets, the deficit in processing long input sequence, and the limitation of the decoder architecture to utilize temporal relations among multiple action segments to refine the initial predictions. To address these concerns, we design an efficient Transformer-based model for action segmentation task, named ASFormer, with three distinctive characteristics: (i) We explicitly bring in the local connectivity inductive priors because of the high locality of features. It constrains the hypothesis space within a reliable scope, and is beneficial for the action segmentation task to learn a proper target function with small training sets. (ii) We apply a pre-defined hierarchical representation pattern that efficiently handles long input sequences. (iii) We carefully design the decoder to refine the initial predictions from the encoder. Extensive experiments on three public datasets demonstrate that effectiveness of our methods. Code is available at \url{https://github.com/C hinaYi/ASFormer}.
翻訳日:2021-10-19 16:35:17 公開日:2021-10-16
# 移動前の探索: 身体的ナビゲーションのためのパス推定とメモリリコールフレームワーク

Explore before Moving: A Feasible Path Estimation and Memory Recalling Framework for Embodied Navigation ( http://arxiv.org/abs/2110.08571v1 )

ライセンス: Link先を確認
Yang Wu, Shirui Feng, Guanbin Li, Liang Lin(参考訳) 具体的質問応答(Embodied QA)のような具体的タスクでは、エージェントが環境を探索し、シーン内の特定のオブジェクトに関連する特定の質問に答えるために手がかりを集める必要がある。 このようなタスクのソリューションは通常、ナビゲータとビジュアルQ&Aモジュールの2つのステージを含む。 本稿では,既存のナビゲーションアルゴリズムが経験や常識を欠くという課題に着目し,ロボットが未知の環境に出現した場合の目標探索に支障をきたす。 未知の場面で目標を達成するために,複数の実行可能な経路を移動前に2回思考する人間の能力に触発され,経路推定およびメモリリコール(pemr)フレームワークと呼ばれる経路計画手法を提案する。 pemrには、人間の方向感覚を模倣した3dナビゲーション情報を収集するための実現可能な経路を推定する視覚特徴抽出モジュール、"look ahead"プロセスが含まれている。 PEMRには、機能抽出器が収集した過去の経験を十分に活用することを目的とした、メモリリコール機構である ``look behind' プロセスがある。 最後に、ナビゲータがより正確な事前のエキスパートエクスペリエンスを学ぶように促すために、オリジナルのベンチマークデータセットを改善し、ナビゲーションと質問応答モジュールの両方を診断するための一連の評価メトリクスを提供する。 EmbodiedQAナビゲーションタスクにおけるPEMRの強力な実験結果を示す。

An embodied task such as embodied question answering (EmbodiedQA), requires an agent to explore the environment and collect clues to answer a given question that related with specific objects in the scene. The solution of such task usually includes two stages, a navigator and a visual Q&A module. In this paper, we focus on the navigation and solve the problem of existing navigation algorithms lacking experience and common sense, which essentially results in a failure finding target when robot is spawn in unknown environments. Inspired by the human ability to think twice before moving and conceive several feasible paths to seek a goal in unfamiliar scenes, we present a route planning method named Path Estimation and Memory Recalling (PEMR) framework. PEMR includes a "looking ahead" process, \textit{i.e.} a visual feature extractor module that estimates feasible paths for gathering 3D navigational information, which is mimicking the human sense of direction. PEMR contains another process ``looking behind'' process that is a memory recall mechanism aims at fully leveraging past experience collected by the feature extractor. Last but not the least, to encourage the navigator to learn more accurate prior expert experience, we improve the original benchmark dataset and provide a family of evaluation metrics for diagnosing both navigation and question answering modules. We show strong experimental results of PEMR on the EmbodiedQA navigation task.
翻訳日:2021-10-19 16:34:56 公開日:2021-10-16
# インテリジェントビデオ編集:ビデオエディタにおけるモダンな発話顔生成アルゴリズムの導入

Intelligent Video Editing: Incorporating Modern Talking Face Generation Algorithms in a Video Editor ( http://arxiv.org/abs/2110.08580v1 )

ライセンス: Link先を確認
Anchit Gupta, Faizan Farooq Khan, Rudrabha Mukhopadhyay, Vinay P. Namboodiri, C. V. Jawahar(参考訳) 本稿では,OpenShotをベースとした顔画像編集アルゴリズムを付加機能として提案する。 我々のエディターは、現代的なリップ同期アルゴリズムを対話的に適用するための使いやすいインタフェースを提供する。 唇の同期は別として、このエディターは音声と顔の再現を使って表現力のあるしゃべり顔を生成する。 手動制御は、現代の合成ビデオ生成アルゴリズムの利点を欠くことなく、ビデオ編集の全体的な体験を改善する。 この制御により、映画シーン、インタビュー、テレビ番組、その他の視覚的コンテンツをリップシンクできる。 さらに,音声コンテンツから講義を自動的に翻訳する機能,教授の唇の同期,スライドなどの背景コンテンツも提供する。 それと同時に、背景コンテンツと翻訳音声の同期という重要な側面にも取り組みます。 提案する編集者の有用性を人間による評価によって定量的に評価する。 評価の結果, 編集作業の効率が向上し, 映像生成品質が向上した。 ツールを明確に説明した補足資料をデモビデオに添付し,複数の結果を示した。

This paper proposes a video editor based on OpenShot with several state-of-the-art facial video editing algorithms as added functionalities. Our editor provides an easy-to-use interface to apply modern lip-syncing algorithms interactively. Apart from lip-syncing, the editor also uses audio and facial re-enactment to generate expressive talking faces. The manual control improves the overall experience of video editing without missing out on the benefits of modern synthetic video generation algorithms. This control enables us to lip-sync complex dubbed movie scenes, interviews, television shows, and other visual content. Furthermore, our editor provides features that automatically translate lectures from spoken content, lip-sync of the professor, and background content like slides. While doing so, we also tackle the critical aspect of synchronizing background content with the translated speech. We qualitatively evaluate the usefulness of the proposed editor by conducting human evaluations. Our evaluations show a clear improvement in the efficiency of using human editors and an improved video generation quality. We attach demo videos with the supplementary material clearly explaining the tool and also showcasing multiple results.
翻訳日:2021-10-19 16:34:30 公開日:2021-10-16
# 半教師型脳腫瘍分割のためのスーパーピクセルを用いた擬似ラベルリファインメント

Pseudo-label refinement using superpixels for semi-supervised brain tumour segmentation ( http://arxiv.org/abs/2110.08589v1 )

ライセンス: Link先を確認
Bethany H. Thompson, Gaetano Di Caterina, Jeremy P. Voisey(参考訳) 限定アノテーションを用いたニューラルネットワークのトレーニングは、医療領域において重要な問題である。 深層ニューラルネットワーク(dnn)は通常、許容可能なパフォーマンスを達成するために、大きな注釈付きデータセットを必要とするが、医療領域では、専門家の放射線学者からかなりの時間を要するため、特に取得が困難である。 半教師付き学習は、大量の未学習データを活用しながら、注釈付きデータが少ないセグメンテーションを学習することでこの問題を克服することを目的としている。 しかし、擬似ラベルを用いた最もよく知られている手法は、その性能を劣化させる不正確な擬似ラベルに対して脆弱である。 本稿では,隣接画素の有意義なクラスタであるスーパーピクセルに基づくフレームワークを提案し,擬似ラベルの精度を改善し,この問題に対処する。 我々のフレームワークは,スーパーピクセルと半教師付き学習を組み合わせることで,スーパーピクセルマップの特徴とエッジを用いて,トレーニング中に擬似ラベルを精査する。 本手法は脳腫瘍領域分割作業のためのマルチモーダル磁気共鳴画像(MRI)データセットを用いて評価する。 本手法は,アノテータ負荷が減少し,アノテータ患者が5人しかいない場合に,標準的な半教師付き擬似ラベリングベースラインよりも優れた性能を示す。 dsc=0.824 と dsc=0.707 をそれぞれ全腫瘍コア領域と腫瘍コア領域に分類した。

Training neural networks using limited annotations is an important problem in the medical domain. Deep Neural Networks (DNNs) typically require large, annotated datasets to achieve acceptable performance which, in the medical domain, are especially difficult to obtain as they require significant time from expert radiologists. Semi-supervised learning aims to overcome this problem by learning segmentations with very little annotated data, whilst exploiting large amounts of unlabelled data. However, the best-known technique, which utilises inferred pseudo-labels, is vulnerable to inaccurate pseudo-labels degrading the performance. We propose a framework based on superpixels - meaningful clusters of adjacent pixels - to improve the accuracy of the pseudo labels and address this issue. Our framework combines superpixels with semi-supervised learning, refining the pseudo-labels during training using the features and edges of the superpixel maps. This method is evaluated on a multimodal magnetic resonance imaging (MRI) dataset for the task of brain tumour region segmentation. Our method demonstrates improved performance over the standard semi-supervised pseudo-labelling baseline when there is a reduced annotator burden and only 5 annotated patients are available. We report DSC=0.824 and DSC=0.707 for the test set whole tumour and tumour core regions respectively.
翻訳日:2021-10-19 16:34:15 公開日:2021-10-16
# DPC:クロス・セルフ・コンストラクションによる教師なしディープポイント対応

DPC: Unsupervised Deep Point Correspondence via Cross and Self Construction ( http://arxiv.org/abs/2110.08636v1 )

ライセンス: Link先を確認
Itai Lang, Dvir Ginzburg, Shai Avidan, Dan Raviv(参考訳) 本稿では, 形状構造に基づく点雲間のリアルタイム非剛性密度対応法を提案する。 提案手法はディープポイント対応 (DPC) と呼ばれ, 従来の手法と比較してトレーニングデータのごく一部を必要とし, より優れた一般化能力を示す。 これまで、密度対応問題に対する2つの主要なアプローチが提案されてきた。 1つはスペクトルベースのアプローチで、合成データセットの優れた結果を得るが、実際のシナリオでは不安定でありながら、形状と長い推論処理時間のメッシュ接続が必要である。 2つめは、エンコーダ-デコーダフレームワークを使用して、不規則な入力から一致したアライメントのために順序付けられたポイントクラウドをレグレッションする空間的アプローチである。 残念ながら、デコーダは大量のトレーニングデータを必要とし、データセット間の評価においてうまく一般化するのに苦労するため、かなりの欠点をもたらす。 DPCの新規性はデコーダコンポーネントの欠如にある。 代わりに、潜在類似性と入力座標自身を使って点クラウドを構築し、対応を決定し、デコーダによって行われる座標回帰を置き換える。 広範な実験により,最近の最先端対応手法と比較して,提案手法が性能向上に繋がることが示された。 私たちのコードはhttps://github.com/d virginz/DPCで公開されています。

We present a new method for real-time non-rigid dense correspondence between point clouds based on structured shape construction. Our method, termed Deep Point Correspondence (DPC), requires a fraction of the training data compared to previous techniques and presents better generalization capabilities. Until now, two main approaches have been suggested for the dense correspondence problem. The first is a spectral-based approach that obtains great results on synthetic datasets but requires mesh connectivity of the shapes and long inference processing time while being unstable in real-world scenarios. The second is a spatial approach that uses an encoder-decoder framework to regress an ordered point cloud for the matching alignment from an irregular input. Unfortunately, the decoder brings considerable disadvantages, as it requires a large amount of training data and struggles to generalize well in cross-dataset evaluations. DPC's novelty lies in its lack of a decoder component. Instead, we use latent similarity and the input coordinates themselves to construct the point cloud and determine correspondence, replacing the coordinate regression done by the decoder. Extensive experiments show that our construction scheme leads to a performance boost in comparison to recent state-of-the-art correspondence methods. Our code is publicly available at https://github.com/d virginz/DPC.
翻訳日:2021-10-19 16:33:04 公開日:2021-10-16
# チャレージング・インポスタと多彩なデモグラフィックによる顔検証

Face Verification with Challenging Imposters and Diversified Demographics ( http://arxiv.org/abs/2110.08667v1 )

ライセンス: Link先を確認
Adrian Popescu (1), Liviu-Daniel \c{S}tefan (2), J\'er\^ome Deshayes-Chossart (1), Bogdan Ionescu (2) ((1) Universit\'e Paris-Saclay, CEA, List, Palaiseau, France, (2) University Politehnica of Bucharest, Romania)(参考訳) face verificationは、同一または異なるアイデンティティを含む真正と偽の対を区別することを目的としている。 近年報告されたパフォーマンスは、タスクが実際に解決されているという印象を与える。 ここでは、この問題を再考し、既存の評価データセットは2つの過剰な設計選択を用いて構築されていると論じる。 まず、イモスタペアを形成するための通常のアイデンティティ選択は、実際には、挑戦的なインポスタを検出するために検証が必要であるため、それほど難しくはない。 第2に、既存のデータセットの基盤となる層は、世界中の人々の顔特性の多様性を考慮に入れていないことが多い。 これらの制限を軽減するために、$FaVCI2D$データセットを導入します。 インポスタペアは、人口統計学的に多様なアイデンティティのプールから選択された視覚的に類似した顔を含むため、難しい。 データセットには、結果の詳細な分析を容易にするために、性別、国、年齢に関するメタデータも含まれている。 $FaVCI2D$は、自由に配布可能なリソースから生成される。 既存のデータセットで100\%近いパフォーマンスを提供する最先端のディープモデルによる実験は、favci2d$の大幅なパフォーマンス低下を示しており、開始仮説を確認しています。 また,近年出現した法的・倫理的課題についても分析し,顔分析研究の進展を妨げた。 これらの課題に対処する一連の設計選択を導入し、データセットの構成と使用をより持続的で公平なものにします。 favci2d$は、~\url{https://github.com/a imultimedialab/favci 2d-face-verification -with-challenging-im posters-and-diversif ied-demographics}で利用可能である。

Face verification aims to distinguish between genuine and imposter pairs of faces, which include the same or different identities, respectively. The performance reported in recent years gives the impression that the task is practically solved. Here, we revisit the problem and argue that existing evaluation datasets were built using two oversimplifying design choices. First, the usual identity selection to form imposter pairs is not challenging enough because, in practice, verification is needed to detect challenging imposters. Second, the underlying demographics of existing datasets are often insufficient to account for the wide diversity of facial characteristics of people from across the world. To mitigate these limitations, we introduce the $FaVCI2D$ dataset. Imposter pairs are challenging because they include visually similar faces selected from a large pool of demographically diversified identities. The dataset also includes metadata related to gender, country and age to facilitate fine-grained analysis of results. $FaVCI2D$ is generated from freely distributable resources. Experiments with state-of-the-art deep models that provide nearly 100\% performance on existing datasets show a significant performance drop for $FaVCI2D$, confirming our starting hypothesis. Equally important, we analyze legal and ethical challenges which appeared in recent years and hindered the development of face analysis research. We introduce a series of design choices which address these challenges and make the dataset constitution and usage more sustainable and fairer. $FaVCI2D$ is available at~\url{https://github.com/A IMultimediaLab/FaVCI 2D-Face-Verification -with-Challenging-Im posters-and-Diversif ied-Demographics}.
翻訳日:2021-10-19 16:32:43 公開日:2021-10-16
# 深層学習と多線形特徴空間に基づく加速度法

An Acceleration Method Based on Deep Learning and Multilinear Feature Space ( http://arxiv.org/abs/2110.08679v1 )

ライセンス: Link先を確認
Michel Vinagreiro Edson Kitani Armando Lagana Leopoldo Yoshioka(参考訳) コンピュータビジョンは高度な援助システムにおいて重要な役割を果たす。 ほとんどのコンピュータビジョンシステムはDeep Convolutional Neural Networks (Deep CNN)アーキテクチャに基づいている。 しかし、CNNアルゴリズムを実行するための高い計算資源が要求されている。 そのため、計算を高速化する手法が研究課題となっている。 文献で見つかったアーキテクチャの削減に関するいくつかの研究は、組み込みリアルタイムシステムアプリケーションにはまだ満足な結果が得られていない。 本稿では,大規模CNNアーキテクチャからの学習を伝達するマルチ線形特徴空間(MFS)法に基づく代替手法を提案する。 提案手法はCNNを用いて特徴マップを生成するが,複雑性低減手法として機能しない。 トレーニングプロセスの後、生成された特徴マップを使用してベクトル特徴空間を生成する。 新しいベクトル空間を使って、新しいサンプルの投影を行い、それらを分類します。 提案手法であるamfcは,事前学習したcnnからの転送学習を用いて,新しいサンプル画像の分類時間を最小精度の損失で短縮する。 本手法は,実験の基盤となるCNNアーキテクチャとしてVGG-16モデルを用いるが,類似のCNNモデルでは動作しない。 車両画像データベースとドイツ交通信号認識ベンチマークを用いて,元のVGG-16モデルの分類時刻をAMFC法と比較し,平均17倍高速であることを確認した。 高速な分類時間は、大規模なcnnアーキテクチャを必要とする組み込みアプリケーションの計算とメモリ要求を削減する。

Computer vision plays a crucial role in Advanced Assistance Systems. Most computer vision systems are based on Deep Convolutional Neural Networks (deep CNN) architectures. However, the high computational resource to run a CNN algorithm is demanding. Therefore, the methods to speed up computation have become a relevant research issue. Even though several works on architecture reduction found in the literature have not yet been achieved satisfactory results for embedded real-time system applications. This paper presents an alternative approach based on the Multilinear Feature Space (MFS) method resorting to transfer learning from large CNN architectures. The proposed method uses CNNs to generate feature maps, although it does not work as complexity reduction approach. After the training process, the generated features maps are used to create vector feature space. We use this new vector space to make projections of any new sample to classify them. Our method, named AMFC, uses the transfer learning from pre-trained CNN to reduce the classification time of new sample image, with minimal accuracy loss. Our method uses the VGG-16 model as the base CNN architecture for experiments; however, the method works with any similar CNN model. Using the well-known Vehicle Image Database and the German Traffic Sign Recognition Benchmark, we compared the classification time of the original VGG-16 model with the AMFC method, and our method is, on average, 17 times faster. The fast classification time reduces the computational and memory demands in embedded applications requiring a large CNN architecture.
翻訳日:2021-10-19 16:32:15 公開日:2021-10-16
# 低リソースセマンティクス解析のためのプロンプトチューニングのパワー

The Power of Prompt Tuning for Low-Resource Semantic Parsing ( http://arxiv.org/abs/2110.08525v1 )

ライセンス: Link先を確認
Nathan Schucher, Siva Reddy, Harm de Vries(参考訳) プロンプトチューニングは、多くの言語タスクに事前学習された言語モデルを適用する効果的な方法として最近登場した。 本稿では,自然言語の発話を形式的意味表現にマッピングする作業である意味解析のプロンプトチューニングについて検討する。 大型のT5モデルでは (i)低データ環境において、微調整を大幅に上回るチューニングを迅速に行うこと。 (ii) 正規化 -- つまり表現の自然化 -- はパフォーマンスをほとんど改善しない。 この最後の結果は、大きなT5モデルが事前学習分布から遠く離れたシーケンスを生成するように変調できることを示唆している。

Prompt tuning has recently emerged as an effective method for adapting pre-trained language models to a number of language tasks. In this paper, we investigate prompt tuning for semantic parsing, the task of mapping natural language utterances onto formal meaning representations. For large T5 models we find (i) that prompt tuning significantly outperforms fine-tuning in the low data regime and (ii) that canonicalization -- i.e. naturalizing the meaning representations -- barely improves performance. This last result is surprising as it suggests that large T5 models can be modulated to generate sequences that are far from the pre-training distribution.
翻訳日:2021-10-19 16:00:23 公開日:2021-10-16
# プロKD : 教師の足跡に追従した進行性蒸留

Pro-KD: Progressive Distillation by Following the Footsteps of the Teacher ( http://arxiv.org/abs/2110.08532v1 )

ライセンス: Link先を確認
Mehdi Rezagholizadeh, Aref Jafari, Puneeth Salad, Pranav Sharma, Ali Saheb Pasand, Ali Ghodsi(参考訳) 神経モデルのスケールが拡大するにつれて、知識蒸留(kd)は、神経モデル圧縮の顕著なツールとして注目を集める。 しかし、文献には、KDの難解な限界を示す直感的な観察がある。 ポイントは、教師の最高のチェックポイントが、必ずしもKDの学生を訓練する最高の教師であるとは限らないことである。 ですから,1つの重要な疑問は,蒸留のための教師の最適なチェックポイントを見つける方法だ。 教師のチェックポイントを検索することは、非常に退屈で計算コストのかかるプロセスであり、これは \textit{checkpoint-search problem} と呼ばれる。 さらに、より大きな教師が必ずしも「textit{capacity-gap}」問題と呼ばれるKDのより良い教師であるとは限らないという見方もある。 この課題に対処するため,本研究では,1人の成熟した完全学習教師の蒸留のみに頼るのではなく,教師のトレーニングフットプリントに従うことにより,生徒の円滑なトレーニングパスを定義するプログレッシブ・ナレッジ・蒸留(pro-kd)技術を紹介する。 本手法は,キャパシティギャップ問題とチェックポイント探索問題の軽減に非常に有効であることを示す。 我々は,画像分類(CIFAR-10とCIFAR-100),GLUEベンチマークの自然言語理解タスク,BERTモデルを用いた質問応答(SQuAD 1.1と2.0)など,さまざまなタスクを対象とした総合的な実験を行い,最新技術よりも優れた結果を得た。

With ever growing scale of neural models, knowledge distillation (KD) attracts more attention as a prominent tool for neural model compression. However, there are counter intuitive observations in the literature showing some challenging limitations of KD. A case in point is that the best performing checkpoint of the teacher might not necessarily be the best teacher for training the student in KD. Therefore, one important question would be how to find the best checkpoint of the teacher for distillation? Searching through the checkpoints of the teacher would be a very tedious and computationally expensive process, which we refer to as the \textit{checkpoint-search problem}. Moreover, another observation is that larger teachers might not necessarily be better teachers in KD which is referred to as the \textit{capacity-gap} problem. To address these challenging problems, in this work, we introduce our progressive knowledge distillation (Pro-KD) technique which defines a smoother training path for the student by following the training footprints of the teacher instead of solely relying on distilling from a single mature fully-trained teacher. We demonstrate that our technique is quite effective in mitigating the capacity-gap problem and the checkpoint search problem. We evaluate our technique using a comprehensive set of experiments on different tasks such as image classification (CIFAR-10 and CIFAR-100), natural language understanding tasks of the GLUE benchmark, and question answering (SQuAD 1.1 and 2.0) using BERT-based models and consistently got superior results over state-of-the-art techniques.
翻訳日:2021-10-19 16:00:14 公開日:2021-10-16
# Lifelong Pretraining: 新たなコーパスへの言語モデルの継続的な適応

Lifelong Pretraining: Continually Adapting Language Models to Emerging Corpora ( http://arxiv.org/abs/2110.08534v1 )

ライセンス: Link先を確認
Xisen Jin, Dejiao Zhang, Henghui Zhu, Wei Xiao, Shang-Wen Li, Xiaokai Wei, Andrew Arnold, Xiang Ren(参考訳) 事前訓練された言語モデル(PTLM)は、通常、大きな静的コーパス上で学習され、様々な下流タスクのためにさらに微調整される。 しかし、現実世界に配備された場合、PTLMベースのモデルは、PTLMが最初にトレーニングしたデータから逸脱した新しいドメインや、配布外情報を含む新たなデータを扱う必要がある。 本稿では,ptlmを継続的に更新して新たなデータに適応させる,生涯にわたる言語モデルの事前学習課題について検討する。 ドメインインクリメンタルな研究用ペーパーストリームと時系列順序付けされたツイートストリーム上で,ptlmを連続学習アルゴリズムで段階的に事前学習し,下流のタスクパフォーマンス(微調整後)を追跡し,新しい知識の獲得と学習知識の保存能力を分析する。 本実験は,ロジット蒸留を最も効果的に行うことにより,学習アルゴリズムが知識保存を改善することを示す。 さらに、連続事前学習は、下流タスクのトレーニングとテストが異なる時間ステップから引き出される場合の一般化を改善するが、同じ時間ステップの場合には改善しないことを示す。 私たちの問題定式化、方法、分析は、言語モデルの継続的な事前学習への将来の研究を刺激すると信じています。

Pretrained language models (PTLMs) are typically learned over a large, static corpus and further fine-tuned for various downstream tasks. However, when deployed in the real world, a PTLM-based model must deal with data from a new domain that deviates from what the PTLM was initially trained on, or newly emerged data that contains out-of-distribution information. In this paper, we study a lifelong language model pretraining challenge where a PTLM is continually updated so as to adapt to emerging data. Over a domain-incremental research paper stream and a chronologically ordered tweet stream, we incrementally pretrain a PTLM with different continual learning algorithms, and keep track of the downstream task performance (after fine-tuning) to analyze its ability of acquiring new knowledge and preserving learned knowledge. Our experiments show continual learning algorithms improve knowledge preservation, with logit distillation being the most effective approach. We further show that continual pretraining improves generalization when training and testing data of downstream tasks are drawn from different time steps, but do not improve when they are from the same time steps. We believe our problem formulation, methods, and analysis will inspire future studies towards continual pretraining of language models.
翻訳日:2021-10-19 15:59:49 公開日:2021-10-16
# recall-then-verifyフレームワークによるマルチアンワーオープンドメイン問題への取り組み

Tackling Multi-Answer Open-Domain Questions via a Recall-then-Verify Framework ( http://arxiv.org/abs/2110.08544v1 )

ライセンス: Link先を確認
Zhihong Shao and Minlie Huang(参考訳) オープンドメインの質問はオープンで曖昧であり、複数の有効な答えをもたらす。 既存のアプローチでは、読者が上位のエビデンスを読んで答えを予測する、rerank-then-readフレームワークが一般的である。 According to our empirical analyses, this framework is faced with three problems: to leverage the power of a large reader, the reranker is forced to select only a few relevant passages that cover diverse answers, which is non-trivial due to unknown effect on the reader's performance; the small reading budget also prevents the reader from making use of valuable retrieved evidence filtered out by the reranker; besides, as the reader generates predictions all at once based on all selected evidence, it may learn pathological dependencies among answers, i.e., whether to predict an answer may also depend on evidence of the other answers. これらの問題を回避するため,我々は,検索された証拠をよりよく活用し,同じメモリ制約下での大規模モデルのパワーを活用できるように,各回答の推論プロセスを分離したリコール・then-verifyフレームワークを用いて,複数回答のオープンドメイン問題に取り組むことを提案する。 当社のフレームワークは,2つのマルチアンワーデータセットで新たな最先端結果を達成し,oracle rerankerを備えたrerank-then-readシステムよりもはるかに多くのゴールド回答を予測します。

Open domain questions are likely to be open-ended and ambiguous, leading to multiple valid answers. Existing approaches typically adopt the rerank-then-read framework, where a reader reads top-ranking evidence to predict answers. According to our empirical analyses, this framework is faced with three problems: to leverage the power of a large reader, the reranker is forced to select only a few relevant passages that cover diverse answers, which is non-trivial due to unknown effect on the reader's performance; the small reading budget also prevents the reader from making use of valuable retrieved evidence filtered out by the reranker; besides, as the reader generates predictions all at once based on all selected evidence, it may learn pathological dependencies among answers, i.e., whether to predict an answer may also depend on evidence of the other answers. To avoid these problems, we propose to tackle multi-answer open-domain questions with a recall-then-verify framework, which separates the reasoning process of each answer so that we can make better use of retrieved evidence while also leveraging the power of large models under the same memory constraint. Our framework achieves new state-of-the-art results on two multi-answer datasets, and predicts significantly more gold answers than a rerank-then-read system with an oracle reranker.
翻訳日:2021-10-19 15:59:27 公開日:2021-10-16
# ゼロショットニューラルマシン翻訳における多言語事前学習の活用に向けて

Towards Making the Most of Multilingual Pretraining for Zero-Shot Neural Machine Translation ( http://arxiv.org/abs/2110.08547v1 )

ライセンス: Link先を確認
Guanhua Chen, Shuming Ma, Yun Chen, Dongdong Zhang, Jia Pan, Wenping Wang, Furu Wei(参考訳) 本稿では,多言語事前学習,適切な微調整法,および複数の補助言語からの大規模並列データセットがゼロショット翻訳において重要であることを示す。 このアイデアに従い、100のソース言語をサポートするが、6つのソース言語からの並列データセットで一度トレーニングされる強力な多国間nmtモデルであるsixt++を提案する。 sixt++はデコーダ埋め込みとフルエンコーダをxlm-r largeで初期化し、エンコーダとデコーダ層を単純な2段階のトレーニング戦略でトレーニングする。 SixT++は、多英翻訳において素晴らしいパフォーマンスを実現している。 CRISSとm2m-100は、それぞれ7.2と5.0BLEUの2つの強い多言語NMTシステムより大幅に優れていた。 さらに、SixT++は低リソース言語のための教師なしNMTモデルを開発するために、さらに微調整できるモデルパラメータのセットを提供する。 低リソース言語の単言語データに対するバックトランスレーションにより、ネパール語とシンハル語の現在最先端の非教師なしメソッドを英語への翻訳と翻訳の両方で上回っている。

This paper demonstrates that multilingual pretraining, a proper fine-tuning method and a large-scale parallel dataset from multiple auxiliary languages are all critical for zero-shot translation, where the NMT model is tested on source languages unseen during supervised training. Following this idea, we present SixT++, a strong many-to-English NMT model that supports 100 source languages but is trained once with a parallel dataset from only six source languages. SixT++ initializes the decoder embedding and the full encoder with XLM-R large, and then trains the encoder and decoder layers with a simple two-stage training strategy. SixT++ achieves impressive performance on many-to-English translation. It significantly outperforms CRISS and m2m-100, two strong multilingual NMT systems, with an average gain of 7.2 and 5.0 BLEU respectively. Additionally, SixT++ offers a set of model parameters that can be further fine-tuned to develop unsupervised NMT models for low-resource languages. With back-translation on monolingual data of low-resource language, it outperforms all current state-of-the-art unsupervised methods on Nepali and Sinhal for both translating into and from English.
翻訳日:2021-10-19 15:59:04 公開日:2021-10-16
# PAGnol:フランスの超大型生産モデル

PAGnol: An Extra-Large French Generative Model ( http://arxiv.org/abs/2110.08554v1 )

ライセンス: Link先を確認
Julien Launay, E.L. Tommasone, Baptiste Pannier, Fran\c{c}ois Boniface, Am\'elie Chatelain, Alessandro Cappelli, Iacopo Poli, Djam\'e Seddah(参考訳) 様々な言語で、様々なアーキテクチャの訓練済みの大規模なモデルへのアクセスは、NLPの民主化の中心である。 本稿では,フランスのGPTモデルのコレクションであるPAGnolを紹介する。 スケーリング法則を用いて,13倍のモデルであるCamemBERTと同じ計算予算でPAGnol-XL(1.5Bパラメータ)を効率的に訓練する。 PAGnol-XLはフランス語で訓練された最大のモデルである。 PAGnolの大規模化と性能向上を図り、フランスの超大規模モデルの能力を探求する計画である。 この最初のリリースでは、PAGnolに基づく事前トレーニングとスケーリングの計算に焦点を当てます。 私たちは、フランス語の計算にスケーリング法則を適合させ、それを英語のそれと比較します。 プレトレーニングデータセットは,OSCARなどの一般的なデータセットが低品質な攻撃テキストに結びついているため,出力の品質を著しく規定する。 我々は,フランス語における弁別的および生成的タスクに関するモデルを評価し,他の最先端のフランス語および多言語モデルと比較し,抽象要約タスクにおいて芸術の水準に到達した。 我々の研究は、公開のgenCI Jean Zayスーパーコンピュータで行われ、Largeまでのモデルが公開されています。

Access to large pre-trained models of varied architectures, in many different languages, is central to the democratization of NLP. We introduce PAGnol, a collection of French GPT models. Using scaling laws, we efficiently train PAGnol-XL (1.5B parameters) with the same computational budget as CamemBERT, a model 13 times smaller. PAGnol-XL is the largest model trained to date for the French language. We plan to train increasingly large and performing versions of PAGnol, exploring the capabilities of French extreme-scale models. For this first release, we focus on the pre-training and scaling calculations underlining PAGnol. We fit a scaling law for compute for the French language, and compare it with its English counterpart. We find the pre-training dataset significantly conditions the quality of the outputs, with common datasets such as OSCAR leading to low-quality offensive text. We evaluate our models on discriminative and generative tasks in French, comparing to other state-of-the-art French and multilingual models, and reaching the state of the art in the abstract summarization task. Our research was conducted on the public GENCI Jean Zay supercomputer, and our models up to the Large are made publicly available.
翻訳日:2021-10-19 15:58:40 公開日:2021-10-16
# エンティティリネームに対する理解モデル読解のロバスト性について

On the Robustness of Reading Comprehension Models to Entity Renaming ( http://arxiv.org/abs/2110.08555v1 )

ライセンス: Link先を確認
Jun Yan, Yang Xiao, Sagnik Mukherjee, Bill Yuchen Lin, Robin Jia, Xiang Ren(参考訳) 私たちは、mrc(machine reading comprehension)モデルのエンティティリネームへの堅牢性について研究しています。 このような失敗は、モデルが質問に答えるためにエンティティ知識に過度に依存していることを示し、それゆえ、世界の変化に関する事実や、新しいエンティティに関する質問がある場合、不十分に一般化する可能性がある。 モデルロバスト性を体系的に監査するために,一般的な英語名から他言語への名前,任意の文字列まで,さまざまなソースから人名に置き換える,汎用的でスケーラブルな手法を提案する。 4つのデータセットと3つの事前訓練されたモデルアーキテクチャにまたがって、MCCモデルはエンティティが改名されると常に悪化する。 SpanBERTは、スパンレベルのマスキングで事前訓練されているが、未摂動テストデータに類似した精度を持つにもかかわらず、RoBERTaよりも堅牢である。 そこで我々は, 連続事前学習の目的として, スパンレベルおよびエンティティレベルのマスキングを実験し, MRCモデルのロバスト性をさらに向上できることを示した。

We study the robustness of machine reading comprehension (MRC) models to entity renaming -- do models make more wrong predictions when answer entities have different names? Such failures would indicate that models are overly reliant on entity knowledge to answer questions, and therefore may generalize poorly when facts about the world change or questions are asked about novel entities. To systematically audit model robustness, we propose a general and scalable method to replace person names with names from a variety of sources, ranging from common English names to names from other languages to arbitrary strings. Across four datasets and three pretrained model architectures, MRC models consistently perform worse when entities are renamed, with particularly large accuracy drops on datasets constructed via distant supervision. We also find large differences between models: SpanBERT, which is pretrained with span-level masking, is more robust than RoBERTa, despite having similar accuracy on unperturbed test data. Inspired by this, we experiment with span-level and entity-level masking as a continual pretraining objective and find that they can further improve the robustness of MRC models.
翻訳日:2021-10-19 15:58:21 公開日:2021-10-16
# 超低リソース言語への多言語非教師付きシーケンスセグメンテーション転送

Multilingual unsupervised sequence segmentation transfers to extremely low-resource languages ( http://arxiv.org/abs/2110.08415v1 )

ライセンス: Link先を確認
C.M. Downey, Shannon Drizin, Levon Haroutunian, Shivin Thukral(参考訳) マスキングセグメント言語モデル(downey et al., 2021)を多言語で事前学習することにより,教師なしシーケンスセグメンテーション性能を極めて低リソース言語に移行できることを示す。 さらに,対象言語と類型的に類似する(しかし系統学的に無関係である)低リソース言語の集合体上でトレーニングすることで,この移行が可能となることを示す。 実験では、アメリカ先住民族の10の言語(AmericasNLP, Mager et al., 2021)からマヤ語K'iche'に移行した。 我々は,本モデルを単言語ベースラインと比較し,マルチリンガル事前学習手法により,ゼロショット性能20.6 F1を含むターゲットデータセットサイズに対して,より一貫性のあるセグメンテーション品質が得られることを示す。 これらの結果は、Bird (2020) が提案したスパース転写フレームワークのような、人間のような言語単位を含む低リソースのNLPパイプラインに有望な意味を持つ。

We show that unsupervised sequence-segmentatio n performance can be transferred to extremely low-resource languages by pre-training a Masked Segmental Language Model (Downey et al., 2021) multilingually. Further, we show that this transfer can be achieved by training over a collection of low-resource languages that are typologically similar (but phylogenetically unrelated) to the target language. In our experiments, we transfer from a collection of 10 Indigenous American languages (AmericasNLP, Mager et al., 2021) to K'iche', a Mayan language. We compare our model to a monolingual baseline, and show that the multilingual pre-trained approach yields much more consistent segmentation quality across target dataset sizes, including a zero-shot performance of 20.6 F1, and exceeds the monolingual performance in 9/10 experimental settings. These results have promising implications for low-resource NLP pipelines involving human-like linguistic units, such as the sparse transcription framework proposed by Bird (2020).
翻訳日:2021-10-19 15:46:05 公開日:2021-10-16
# Prix-LM:多言語知識ベース構築のための事前訓練

Prix-LM: Pretraining for Multilingual Knowledge Base Construction ( http://arxiv.org/abs/2110.08443v1 )

ライセンス: Link先を確認
Wenxuan Zhou, Fangyu Liu, Ivan Vuli\'c, Nigel Collier, Muhao Chen(参考訳) 知識ベース(KB)には、多くの構造化された世界と常識的な知識が含まれている。 そのため、分散テキストベースの情報を補完し、様々な下流作業を容易にすることが多い。 彼らの手作業による構成はリソースと時間を要するため、最近の取り組みでは、kbs用の単言語知識ファクトを生成するために、大規模な事前学習言語モデル(plm)を活用している。 しかし、このような手法は多言語KBの構築と強化には試みられていない。 幅広い応用に加えて、このような多言語kbは単言語(例えば英語)kbよりも豊かな複合知識を提供できる。 異なる言語で表現された知識は相補的で、不均等に分散している可能性がある:これは、高リソース言語で利用可能な知識は低リソース言語に転送できることを意味する。 これを実現するためには、共有/統一空間における多言語知識の表現が不可欠である。 そこで本研究では,多言語KB構築と完成のための統合フレームワークである Prix-LM を提案する。 既存の多言語kbから抽出した単言語三重項とクロス言語リンクの2種類の知識を活用し,因果言語モデリング目標を用いて多言語言語エンコーダxlm-rをチューニングする。 Prix-LMは有用な多言語およびKBベースの事実知識を単一のモデルに統合する。 複数の言語におけるリンク予測、言語間リンク、バイリンガル語彙誘導などの標準的なエンティティ関連タスクの実験は、その効果を実証し、タスク特化ベースラインの強みを報告した。

Knowledge bases (KBs) contain plenty of structured world and commonsense knowledge. As such, they often complement distributional text-based information and facilitate various downstream tasks. Since their manual construction is resource- and time-intensive, recent efforts have tried leveraging large pretrained language models (PLMs) to generate additional monolingual knowledge facts for KBs. However, such methods have not been attempted for building and enriching multilingual KBs. Besides wider application, such multilingual KBs can provide richer combined knowledge than monolingual (e.g., English) KBs. Knowledge expressed in different languages may be complementary and unequally distributed: this implies that the knowledge available in high-resource languages can be transferred to low-resource ones. To achieve this, it is crucial to represent multilingual knowledge in a shared/unified space. To this end, we propose a unified framework, Prix-LM, for multilingual KB construction and completion. We leverage two types of knowledge, monolingual triples and cross-lingual links, extracted from existing multilingual KBs, and tune a multilingual language encoder XLM-R via a causal language modeling objective. Prix-LM integrates useful multilingual and KB-based factual knowledge into a single model. Experiments on standard entity-related tasks, such as link prediction in multiple languages, cross-lingual entity linking and bilingual lexicon induction, demonstrate its effectiveness, with gains reported over strong task-specialised baselines.
翻訳日:2021-10-19 15:45:44 公開日:2021-10-16
# 学習を高速化する良い例:低リソースNERのための単純なデモベースの学習

Good Examples Make A Faster Learner: Simple Demonstration-based Learning for Low-resource NER ( http://arxiv.org/abs/2110.08454v1 )

ライセンス: Link先を確認
Dong-Ho Lee, Mahak Agarwal, Akshen Kadakia, Jay Pujara and Xiang Ren(参考訳) 最近のプロンプトベース学習の進歩は、clozeスタイルの言語プロンプトを用いて、数少ないテキスト分類タスクにおいて印象的な結果を示している。 エンティティタイプを予測するために手動で設計されたテンプレートを使用するnerのプロンプトベースの学習の試みがある。 しかし、これらの2段階の方法は、(エンティティスパン検出からの)エラーの伝播、コストのかかるすべての可能なテキストスパンのプロンプト、文中の異なるスパンのラベルを予測する際の相互依存性の無視などに悩まされる可能性がある。 本稿では,いくつかのタスクデモを用いてプロンプト(学習コンテキスト)を増強する,nerのための簡易なデモンストレーションベース学習手法を提案する。 このようなデモンストレーションは、低リソース設定下でのタスクの学習を支援するとともに、すべてのトークンのスパン検出と分類を共同で実現する。 本稿では,エンティティタイプ毎に適切なエンティティ例を選択するエンティティ指向デモンストレーションと,同様のインスタンス例を取得するインスタンス指向デモンストレーションについて検討する。 実験により、各エンティティタイプ毎のエンティティの例を示すと、その例文とともに、ドメイン内設定とドメイン間設定の両方のパフォーマンスを1~3F1スコアで改善できることがわかった。

Recent advances in prompt-based learning have shown impressive results on few-shot text classification tasks by using cloze-style language prompts. There have been attempts on prompt-based learning for NER which use manually designed templates to predict entity types. However, these two-step methods may suffer from error propagation (from entity span detection), need to prompt for all possible text spans which is costly, and neglect the interdependency when predicting labels for different spans in a sentence. In this paper, we present a simple demonstration-based learning method for NER, which augments the prompt (learning context) with a few task demonstrations. Such demonstrations help the model learn the task better under low-resource settings and allow for span detection and classification over all tokens jointly. Here, we explore entity-oriented demonstration which selects an appropriate entity example per each entity type, and instance-oriented demonstration which retrieves a similar instance example. Through extensive experiments, we find empirically that showing entity example per each entity type, along with its example sentence, can improve the performance both in in-domain and cross-domain settings by 1-3 F1 score.
翻訳日:2021-10-19 15:43:32 公開日:2021-10-16
# 知識強化事前学習言語モデル:理解論的調査

Knowledge Enhanced Pretrained Language Models: A Compreshensive Survey ( http://arxiv.org/abs/2110.08455v1 )

ライセンス: Link先を確認
Xiaokai Wei, Shen Wang, Dejiao Zhang, Parminder Bhatia, Andrew Arnold(参考訳) 事前学習型言語モデル(PLM)は,大規模テキストコーパス上で情報的文脈表現を学習することで,新たなパラダイムを確立した。 この新たなパラダイムは、自然言語処理の分野全体に革命をもたらし、様々なNLPタスクに対する新しい最先端のパフォーマンスを設定した。 しかしながら、PLMは特定の知識/成果をトレーニングコーパスから保存することができるが、その知識の認識はまだまだ十分ではない。 この問題に対処するため, PLM への知識統合は近年, 非常に活発な研究領域となり, 様々なアプローチが開発されている。 本稿では,この急速に成長する分野である知識強化事前学習言語モデル(KE-PLM)に関する文献を包括的に調査する。 既存の作業の分類に3つの分類法を導入します。 また, KE-PLM がバニラPLM よりも優れた性能を示した NLU および NLG の応用についても検討した。 最後に,KE-PLMに直面する課題と今後の研究の方向性について論じる。

Pretrained Language Models (PLM) have established a new paradigm through learning informative contextualized representations on large-scale text corpus. This new paradigm has revolutionized the entire field of natural language processing, and set the new state-of-the-art performance for a wide variety of NLP tasks. However, though PLMs could store certain knowledge/facts from training corpus, their knowledge awareness is still far from satisfactory. To address this issue, integrating knowledge into PLMs have recently become a very active research area and a variety of approaches have been developed. In this paper, we provide a comprehensive survey of the literature on this emerging and fast-growing field - Knowledge Enhanced Pretrained Language Models (KE-PLMs). We introduce three taxonomies to categorize existing work. Besides, we also survey the various NLU and NLG applications on which KE-PLM has demonstrated superior performance over vanilla PLMs. Finally, we discuss challenges that face KE-PLMs and also promising directions for future research.
翻訳日:2021-10-19 15:43:11 公開日:2021-10-16
# Retrieval Augmentationによる制御可能な意味解析

Controllable Semantic Parsing via Retrieval Augmentation ( http://arxiv.org/abs/2110.08458v1 )

ライセンス: Link先を確認
Panupong Pasupat and Yuan Zhang and Kelvin Guu(参考訳) セマンティック解析の実用的なアプリケーションでは、新しいドメインでのクエリの処理を可能にしたり、特定のターゲットクエリに対する予測を変更するなど、パーサの動作を迅速に変更したい場合が多い。 対象行動を示す新たなトレーニング例を導入することができるが、高価なモデル再トレーニングなしでこのような行動変化を実施できるメカニズムが望ましい。 そこで我々は,Exemplar Retrieval (CASPER) を用いた制御Able Semantic Parserを提案する。 入力クエリが与えられると、パーサは検索インデックスから関連する例を検索し、クエリに拡張し、生成型seq2seqモデルを適用して出力パースを生成する。 検索インデックスを操作したり、拡張クエリがどのように構築されているかを操作することで、パーサの振る舞いを操作できる。 MTOPデータセットでは、標準設定における最先端の達成に加えて、CASPERが新しいドメインのクエリを解析したり、特定のパターンに適応したり、モデルをさらに再トレーニングすることなく、新しいセマンティックスキーマに適応できることを示す。

In practical applications of semantic parsing, we often want to rapidly change the behavior of the parser, such as enabling it to handle queries in a new domain, or changing its predictions on certain targeted queries. While we can introduce new training examples exhibiting the target behavior, a mechanism for enacting such behavior changes without expensive model re-training would be preferable. To this end, we propose ControllAble Semantic Parser via Exemplar Retrieval (CASPER). Given an input query, the parser retrieves related exemplars from a retrieval index, augments them to the query, and then applies a generative seq2seq model to produce an output parse. The exemplars act as a control mechanism over the generic generative model: by manipulating the retrieval index or how the augmented query is constructed, we can manipulate the behavior of the parser. On the MTOP dataset, in addition to achieving state-of-the-art on the standard setup, we show that CASPER can parse queries in a new domain, adapt the prediction toward the specified patterns, or adapt to new semantic schemas without having to further re-train the model.
翻訳日:2021-10-19 15:42:55 公開日:2021-10-16
# 圧縮デコーダに基づく言語モデルの一検討

A Short Study on Compressing Decoder-Based Language Models ( http://arxiv.org/abs/2110.08460v1 )

ライセンス: Link先を確認
Tianda Li, Yassir El Mesbahi, Ivan Kobyzev, Ahmad Rashid, Atif Mahmud, Nithin Anchuri, Habib Hajimolahoseini, Yang Liu, Mehdi Rezagholizadeh(参考訳) 事前訓練された言語モデル(PLM)は、幅広い自然言語処理(NLP)タスクで成功している。 しかし、PLMの最先端技術は、エッジデバイスで使用するには極めて大きい。 その結果,モデル圧縮の話題はNLPコミュニティで注目を集めている。 既存の研究の多くは、エンコーダベースのモデル(tiny-BERT, distilBERT, distilRoBERTaなど)の圧縮に重点を置いているが、私たちの知る限り、デコーダベースのモデル(GPT-2など)の圧縮についてはあまり研究されていない。 私たちの論文は、このギャップを埋めようとしている。 具体的には2つの方向を探索します 1)DistilGPT-2の微調整を改善するため,現状の知識蒸留技術を採用している。 2) 減圧層を用いた圧縮GPT-2モデルをプレトレーニングし, 蒸留法と比較した(DistilGPT2)。 圧縮モデルのトレーニング時間は DistilGPT-2 よりも大幅に少ないが,下流タスクの微調整では性能が向上する。 また,データクリーニングがモデル性能に与える影響を実証する。

Pre-trained Language Models (PLMs) have been successful for a wide range of natural language processing (NLP) tasks. The state-of-the-art of PLMs, however, are extremely large to be used on edge devices. As a result, the topic of model compression has attracted increasing attention in the NLP community. Most of the existing works focus on compressing encoder-based models (tiny-BERT, distilBERT, distilRoBERTa, etc), however, to the best of our knowledge, the compression of decoder-based models (such as GPT-2) has not been investigated much. Our paper aims to fill this gap. Specifically, we explore two directions: 1) we employ current state-of-the-art knowledge distillation techniques to improve fine-tuning of DistilGPT-2. 2) we pre-train a compressed GPT-2 model using layer truncation and compare it against the distillation-based method (DistilGPT2). The training time of our compressed model is significantly less than DistilGPT-2, but it can achieve better performance when fine-tuned on downstream tasks. We also demonstrate the impact of data cleaning on model performance.
翻訳日:2021-10-19 15:42:37 公開日:2021-10-16
# 多言語コモンセンス推論における知識の活用

Leveraging Knowledge in Multilingual Commonsense Reasoning ( http://arxiv.org/abs/2110.08462v1 )

ライセンス: Link先を確認
Yuwei Fang, Shuohang Wang, Yichong Xu, Ruochen Xu, Siqi Sun, Chenguang Zhu, Michael Zeng(参考訳) commonsense reasoning (csr) では、モデルが一般的な世界知識を備える必要がある。 csrは言語に依存しないプロセスであるが、ほとんどの包括的知識ソースは、人気のある言語、特に英語ではほとんどない。 したがって,多言語共通文推論 (XCSR) を効果的に行う方法は不明である。 本研究では,翻訳翻訳(TRT)戦略を用いて,英語の知識ソースを活用することを提案する。 多言語コモンセンスの質問や選択に対して,知識ソースからの翻訳や検索を通じて関連する知識を収集する。 得られた知識は対象言語に翻訳され、可視的知識の注意を通して事前訓練された多言語モデルに統合される。 そして、4つの英語知識ソースを多種多様なフォーマットでより包括的な知識のカバレッジを提供する。 XCSRベンチマークの広範な結果は、XCSRベンチマークデータセット(X-CSQAとX-CODAH)よりも3.3および3.6ポイント高いゼロショットとトランスレーショナルトレインの両方の設定において、外部知識を持つTRTが多言語コモンセンス推論を大幅に改善できることを示した。

Commonsense reasoning (CSR) requires the model to be equipped with general world knowledge. While CSR is a language-agnostic process, most comprehensive knowledge sources are in few popular languages, especially English. Thus, it remains unclear how to effectively conduct multilingual commonsense reasoning (XCSR) for various languages. In this work, we propose to utilize English knowledge sources via a translate-retrieve-t ranslate (TRT) strategy. For multilingual commonsense questions and choices, we collect related knowledge via translation and retrieval from the knowledge sources. The retrieved knowledge is then translated into the target language and integrated into a pre-trained multilingual language model via visible knowledge attention. Then we utilize a diverse of 4 English knowledge sources to provide more comprehensive coverage of knowledge in different formats. Extensive results on the XCSR benchmark demonstrate that TRT with external knowledge can significantly improve multilingual commonsense reasoning in both zero-shot and translate-train settings, outperforming 3.3 and 3.6 points over the previous state-of-the-art on XCSR benchmark datasets (X-CSQA and X-CODAH).
翻訳日:2021-10-19 15:42:19 公開日:2021-10-16
# 会話モデルの安全性について:分類学、データセット、ベンチマーク

On the Safety of Conversational Models: Taxonomy, Dataset, and Benchmark ( http://arxiv.org/abs/2110.08466v1 )

ライセンス: Link先を確認
Hao Sun, Guangxuan Xu, Jiawen Deng, Jiale Cheng, Chujie Zheng, Hao Zhou, Nanyun Peng, Xiaoyan Zhu, Minlie Huang(参考訳) 対話安全問題は、神経会話モデルの実世界の展開を厳しく制限し、近年は大きな研究関心を集めている。 本稿では,人間とボットの対話設定に特有の安全でない行動を捉え,先行研究で未検討の文脈に敏感な安全でない行動に焦点をあてた対話安全分類法を提案する。 この方向の研究を促進するために、コンテキストに敏感な6つのアンセーフカテゴリのデータセットであるDiaSafetyをコンパイルする。 実験によると、既存の発話レベルの安全ガードツールは、データセット上で壊滅的に失敗する。 改善策として,文脈レベルの対話安全分類器を訓練し,文脈に敏感な対話不安全検出のための強固なベースラインを提供する。 分類器を用いて,一般的な会話モデル上での安全性評価を行い,既存の対話システムがいまだ文脈に敏感な安全性問題に留まっていることを示す。

Dialogue safety problems severely limit the real-world deployment of neural conversational models and attract great research interests recently. We propose a taxonomy for dialogue safety specifically designed to capture unsafe behaviors that are unique in human-bot dialogue setting, with focuses on context-sensitive unsafety, which is under-explored in prior works. To spur research in this direction, we compile DiaSafety, a dataset of 6 unsafe categories with rich context-sensitive unsafe examples. Experiments show that existing utterance-level safety guarding tools fail catastrophically on our dataset. As a remedy, we train a context-level dialogue safety classifier to provide a strong baseline for context-sensitive dialogue unsafety detection. With our classifier, we perform safety evaluations on popular conversational models and show that existing dialogue systems are still stuck in context-sensitive safety problems.
翻訳日:2021-10-19 15:41:57 公開日:2021-10-16
# MarkupLM: 視覚豊かな文書理解のためのテキストとマークアップ言語の事前学習

MarkupLM: Pre-training of Text and Markup Language for Visually-rich Document Understanding ( http://arxiv.org/abs/2110.08518v1 )

ライセンス: Link先を確認
Junlong Li, Yiheng Xu, Lei Cui, Furu Wei(参考訳) テキスト、レイアウト、画像によるマルチモーダル事前トレーニングは、ビジュアルリッチドキュメント理解(VrDU)、特にスキャンされた文書画像のような固定レイアウト文書において大きな進歩を遂げている。 しかし、レイアウト情報が固定されておらず、視覚化のためにインタラクティブで動的にレンダリングする必要があるデジタル文書が多数存在するため、既存のレイアウトベースの事前学習アプローチは適用が容易ではない。 本稿では,html/xml ベースの文書などのバックボーンとしてマークアップ言語を用いた文書理解タスクに対して,テキストとマークアップ情報を事前学習する markuplm を提案する。 実験の結果,事前学習したMarkupLMは,複数の文書理解タスクにおいて,既存の強力なベースラインモデルよりも大幅に優れていた。 事前トレーニングされたモデルとコードはhttps://aka.ms/marku plm.comで公開される。

Multimodal pre-training with text, layout, and image has made significant progress for Visually-rich Document Understanding (VrDU), especially the fixed-layout documents such as scanned document images. While, there are still a large number of digital documents where the layout information is not fixed and needs to be interactively and dynamically rendered for visualization, making existing layout-based pre-training approaches not easy to apply. In this paper, we propose MarkupLM for document understanding tasks with markup languages as the backbone such as HTML/XML-based documents, where text and markup information is jointly pre-trained. Experiment results show that the pre-trained MarkupLM significantly outperforms the existing strong baseline models on several document understanding tasks. The pre-trained model and code will be publicly available at https://aka.ms/marku plm.
翻訳日:2021-10-19 15:41:40 公開日:2021-10-16
# 二重目的正規化とプライバシ予算検索とリサイクルによる騒音改善プライバシ保護実証リスク最小化

Noise-Augmented Privacy-Preserving Empirical Risk Minimization with Dual-purpose Regularizer and Privacy Budget Retrieval and Recycling ( http://arxiv.org/abs/2110.08676v1 )

ライセンス: Link先を確認
Yinan Li and Fang Liu(参考訳) 本稿では,プライバシー保証の異なるEMMを解消するNAPP-ERM(Noss-Augmen ted Privacy-Preserving Empirical Risk Minimization)を提案する。 既存のプライバシー保護型EMMアプローチは、ターゲットの正規化の上に強い凸性を達成するため、l2項の使用によって過正規化される可能性がある。 NAPP-ERMは、現在のアプローチを改良し、適切に設計された拡張データを通じて目標正規化を反復的に実現し、単一の適応重み付き2目的l2正規化器を介して強い凸性を提供することにより、過正規化を緩和する。 対象の正規化が可変選択の場合,プライバシとスパーシティの両保証を同時に実現する新しい正規化器を提案する。 最後に,ermのdpが当初計画されていたよりも低いプライバシコストで保証されるように,また,注入されたdpノイズを低減し,dp-ermの有用性を向上させるためにerm最適化手順に再利用するように,強い凸性要求が満たされた時にプライバシ予算を回収する戦略を提案する。 実装の観点からは、NAPP-ERMはノイズ増大したデータに対して非摂動オブジェクト関数を最適化することで実現でき、それによって既存のツールを非私的EMM最適化に活用することができる。 NAPP-ERMによる過剰規則化と民間予算の回収による変動選択と予測の緩和効果を広範囲にわたる実験により説明する。

We propose Noise-Augmented Privacy-Preserving Empirical Risk Minimization (NAPP-ERM) that solves ERM with differential privacy guarantees. Existing privacy-preserving ERM approaches may be subject to over-regularization with the employment of an l2 term to achieve strong convexity on top of the target regularization. NAPP-ERM improves over the current approaches and mitigates over-regularization by iteratively realizing target regularization through appropriately designed augmented data and delivering strong convexity via a single adaptively weighted dual-purpose l2 regularizer. When the target regularization is for variable selection, we propose a new regularizer that achieves both privacy and sparsity guarantees simultaneously. Finally, we propose a strategy to retrieve privacy budget when the strong convexity requirement is met, which can be returned to users such that the DP of ERM is guaranteed at a lower privacy cost than originally planned, or be recycled to the ERM optimization procedure to reduce the injected DP noise and improve the utility of DP-ERM. From an implementation perspective, NAPP-ERM can be achieved by optimizing a non-perturbed object function given noise-augmented data and can thus leverage existing tools for non-private ERM optimization. We illustrate through extensive experiments the mitigation effect of the over-regularization and private budget retrieval by NAPP-ERM on variable selection and prediction.
翻訳日:2021-10-19 15:39:37 公開日:2021-10-16
# 深層学習によるct画像中の静脈内コントラストの検出

Deep learning-based detection of intravenous contrast in computed tomography scans ( http://arxiv.org/abs/2110.08424v1 )

ライセンス: Link先を確認
Zezhong Ye, Jack M. Qian, Ahmed Hosny, Roman Zeleznik, Deborah Plana, Jirapat Likitlersuang, Zhongyi Zhang, Raymond H. Mak, Hugo J. W. L. Aerts, Benjamin H. Kann(参考訳) 目的:ctスキャンにおける静脈内コントラスト(iv)の同定は、モデルの開発とテストのためのデータキュレーションの重要なコンポーネントである。 現在、IVコントラストは画像メタデータに乏しく、臨床の専門家による手動補正とアノテーションが必要であり、画像解析とアルゴリズムの展開に大きな障壁が提示されている。 我々は、CTスキャン内でIVコントラストを特定するために、畳み込みニューラルネットワーク(CNN)ベースのディープラーニング(DL)プラットフォームを開発し、検証しようとした。 方法: 頭部, 頸部 (HN) および肺がん患者のCTスキャンの独立したデータセットを用いて, 臨床専門医が手動で注記した1,979個のCTスキャンから133,480個の軸方向2Dスキャンスライスを行った。 5種類の異なるDLモデルを採用し,HNトレーニングデータセットを用いてスライスレベルのコントラスト検出を行った。 モデル性能は、ホールドアウトセットと、他の機関の独立した検証セットで評価された。 DLモデルは胸部CTデータに基づいて微調整され、胸部CTデータセットで外部検証された。 結果:IVコントラストのDICOMメタデータタグが1,496スキャン(75.6%)で欠落または誤検出された。 EfficientNetB4ベースのモデルでは、全体的な検出性能が最も優れていた。 HNスキャンでは、AUCは内部検証セット(n = 216)で0.996、外部検証セット(n = 595)では1.0であった。 胸部ctの微調整されたモデルでは、内部検証セット (n = 53) に対する auc: 1.0 と外部検証セット (n = 402) に対する auc: 0.980 が得られた。 結論: DLモデルでは, HNおよび胸部CTにおけるIVコントラストをほぼ完全に検出できた。

Purpose: Identifying intravenous (IV) contrast use within CT scans is a key component of data curation for model development and testing. Currently, IV contrast is poorly documented in imaging metadata and necessitates manual correction and annotation by clinician experts, presenting a major barrier to imaging analyses and algorithm deployment. We sought to develop and validate a convolutional neural network (CNN)-based deep learning (DL) platform to identify IV contrast within CT scans. Methods: For model development and evaluation, we used independent datasets of CT scans of head, neck (HN) and lung cancer patients, totaling 133,480 axial 2D scan slices from 1,979 CT scans manually annotated for contrast presence by clinical experts. Five different DL models were adopted and trained in HN training datasets for slice-level contrast detection. Model performances were evaluated on a hold-out set and on an independent validation set from another institution. DL models was then fine-tuned on chest CT data and externally validated on a separate chest CT dataset. Results: Initial DICOM metadata tags for IV contrast were missing or erroneous in 1,496 scans (75.6%). The EfficientNetB4-based model showed the best overall detection performance. For HN scans, AUC was 0.996 in the internal validation set (n = 216) and 1.0 in the external validation set (n = 595). The fine-tuned model on chest CTs yielded an AUC: 1.0 for the internal validation set (n = 53), and AUC: 0.980 for the external validation set (n = 402). Conclusion: The DL model could accurately detect IV contrast in both HN and chest CT scans with near-perfect performance.
翻訳日:2021-10-19 15:37:31 公開日:2021-10-16
# BAPGAN : GANによる大腿骨・咽頭X線像の骨年齢変化

BAPGAN: GAN-based Bone Age Progression of Femur and Phalange X-ray Images ( http://arxiv.org/abs/2110.08509v1 )

ライセンス: Link先を確認
Shinji Nakazawa, Changhee Han, Joe Hasei, Ryuichi Nakahara, Toshifumi Ozaki(参考訳) 畳み込みニューラルネットワークは、様々な形態や身体領域における内分泌学、遺伝学、成長障害の研究において骨年齢評価において重要な役割を果たしている。 しかし, 骨関連疾患の診断, 臨床知識取得, 博物館教育など, 有意義な応用にもかかわらず, 骨年齢の進歩・回帰に取り組む研究者はいない。 そこで本研究では, 骨年齢進行生成適応ネットワーク (BAPGAN) を用いて, 同一性や現実性を維持しつつ, 大腿骨・顔面X線像の進行・回復を図る。 本稿では,Frechet Inception Distance,2名の専門整形外科医による視覚チューリングテスト,t-Distributed Stochastic Neighbor EmbeddingによるBAPGANの臨床効果を徹底的に確認する。

Convolutional Neural Networks play a key role in bone age assessment for investigating endocrinology, genetic, and growth disorders under various modalities and body regions. However, no researcher has tackled bone age progression/regressi on despite its valuable potential applications: bone-related disease diagnosis, clinical knowledge acquisition, and museum education. Therefore, we propose Bone Age Progression Generative Adversarial Network (BAPGAN) to progress/regress both femur/phalange X-ray images while preserving identity and realism. We exhaustively confirm the BAPGAN's clinical potential via Frechet Inception Distance, Visual Turing Test by two expert orthopedists, and t-Distributed Stochastic Neighbor Embedding.
翻訳日:2021-10-19 15:37:00 公開日:2021-10-16
# MAAD:運転における「意識」のモデルとデータセット

MAAD: A Model and Dataset for "Attended Awareness" in Driving ( http://arxiv.org/abs/2110.08610v1 )

ライセンス: Link先を確認
Deepak Gopinath, Guy Rosman, Simon Stent, Katsuya Terahata, Luke Fletcher, Brenna Argall, John Leonard(参考訳) 本研究では,環境に対する参加者の意識を推定する計算モデルを提案する。 参加者の認識は,近年の歴史において,その人物が身体的に認識している可能性の高いダイナミックなシーンの一部と定義する。 本モデルでは,映像と雑音による視線推定の形式で入力シーン情報として捉え,視力評価,洗練された視線推定,入場者の視線推定を出力する。 このモデルをテストするために,23人の被験者による24.5時間の視線シーケンスを含む高精度視線追跡装置を用いた新しいデータセットを作成した。 データセットには、スキャンパスの観察に基づいて、被験者のアウェアネスに対するサードパーティのアノテーションも含まれている。 我々のモデルでは,制御された環境下での参加者の意識を合理的に推定することが可能であり,将来は実際の自我中心の運転データに拡張して,安全システムにおけるより効果的な事前警告を可能にし,ドライバーのパフォーマンスを向上する可能性がある。 また,当社のデータセットと既存のsaliencyデータセットの両方を用いて,saliency, gaze calibration, denoisingのタスクにおけるモデルの有効性を実証した。 モデルとデータセットはhttps://github.com/T oyotaResearchInstitu te/att-aware/で公開しています。

We propose a computational model to estimate a person's attended awareness of their environment. We define attended awareness to be those parts of a potentially dynamic scene which a person has attended to in recent history and which they are still likely to be physically aware of. Our model takes as input scene information in the form of a video and noisy gaze estimates, and outputs visual saliency, a refined gaze estimate, and an estimate of the person's attended awareness. In order to test our model, we capture a new dataset with a high-precision gaze tracker including 24.5 hours of gaze sequences from 23 subjects attending to videos of driving scenes. The dataset also contains third-party annotations of the subjects' attended awareness based on observations of their scan path. Our results show that our model is able to reasonably estimate attended awareness in a controlled setting, and in the future could potentially be extended to real egocentric driving data to help enable more effective ahead-of-time warnings in safety systems and thereby augment driver performance. We also demonstrate our model's effectiveness on the tasks of saliency, gaze calibration, and denoising, using both our dataset and an existing saliency dataset. We make our model and dataset available at https://github.com/T oyotaResearchInstitu te/att-aware/.
翻訳日:2021-10-19 15:35:44 公開日:2021-10-16
# 都市環境におけるエンド・ツー・エンド自動運転のための生成的逆模倣学習

Generative Adversarial Imitation Learning for End-to-End Autonomous Driving on Urban Environments ( http://arxiv.org/abs/2110.08586v1 )

ライセンス: Link先を確認
Gustavo Claudio Karl Couto and Eric Aislan Antonelo(参考訳) 自律運転は複雑な作業であり、1989年に最初の自動運転車ALVINNから、教師付き学習アプローチや行動クローン(BC)によって取り組まれている。 BCでは、ニューラルネットワークは、専門家、すなわち人間のドライバーによるトレーニングセットを構成する状態-作用ペアで訓練される。 しかし、このような模倣学習は、ナビゲーション軌跡の異なる瞬間に取られる行動の間に生じる時間的依存関係を考慮してはいない。 これらのタスクは、報酬関数を定義する必要がある強化学習(RL)アルゴリズムによってよりうまく処理される。 一方,gail(generative adversarial imitation learning)のような模倣学習に対する近年のアプローチでは,報酬関数を明示的に定義することなくポリシをトレーニングすることが可能であり,エージェントは専門家の訓練セット上で,試行錯誤によって学習することができる。 本研究では,都市シナリオの現実的カルラシミュレーション環境における車両の自律走行のためのガイルの2つのバリエーションを提案する。 どちらも同じネットワークアーキテクチャを使用し、3つの前面カメラからの高次元画像入力と、その速度を表す9つの連続的な入力、スパース軌道からの次の点と高レベルの駆動指令を処理する。 両モデルとも, 訓練終了後の開始から終了まで, 専門家の軌道を模倣できることを示したが, BCで強化したGAIL損失関数は, 収束時間や訓練安定性の点で, 前者よりも優れていた。

Autonomous driving is a complex task, which has been tackled since the first self-driving car ALVINN in 1989, with a supervised learning approach, or behavioral cloning (BC). In BC, a neural network is trained with state-action pairs that constitute the training set made by an expert, i.e., a human driver. However, this type of imitation learning does not take into account the temporal dependencies that might exist between actions taken in different moments of a navigation trajectory. These type of tasks are better handled by reinforcement learning (RL) algorithms, which need to define a reward function. On the other hand, more recent approaches to imitation learning, such as Generative Adversarial Imitation Learning (GAIL), can train policies without explicitly requiring to define a reward function, allowing an agent to learn by trial and error directly on a training set of expert trajectories. In this work, we propose two variations of GAIL for autonomous navigation of a vehicle in the realistic CARLA simulation environment for urban scenarios. Both of them use the same network architecture, which process high dimensional image input from three frontal cameras, and other nine continuous inputs representing the velocity, the next point from the sparse trajectory and a high-level driving command. We show that both of them are capable of imitating the expert trajectory from start to end after training ends, but the GAIL loss function that is augmented with BC outperforms the former in terms of convergence time and training stability.
翻訳日:2021-10-19 15:31:48 公開日:2021-10-16
# 音響知識伝達のための潜在変数学習のための変分ベイズ的アプローチ

A Variational Bayesian Approach to Learning Latent Variables for Acoustic Knowledge Transfer ( http://arxiv.org/abs/2110.08598v1 )

ライセンス: Link先を確認
Hu Hu, Sabato Marco Siniscalchi, Chao-Han Huck Yang, Chin-Hui Lee(参考訳) 本稿では,深部ニューラルネットワーク(DNN)モデルにおける潜伏変数の分布を学習するための変分ベイズ(VB)アプローチを提案し,学習条件と試験条件の音響的ミスマッチに対処する。 モデルパラメータの多さを推定する上で,次元の呪いを負うリスクを伴って,従来の最大点推定を行う代わりに,VB推論フレームワークを用いてDNNの管理可能な変数数を推定することに注力する。 モデル転送を実現するために、ソース領域から学習した知識を潜在変数の事前分布にエンコードし、ベイズ的意味では、ターゲット領域からの適応データの小さなセットと最適に結合して対応する後方分布を近似する。 音響シーン分類におけるデバイス適応実験の結果,提案手法によりターゲット装置の精度が向上し,13種類の知識伝達アルゴリズムを一貫して上回る結果が得られた。

We propose a variational Bayesian (VB) approach to learning distributions of latent variables in deep neural network (DNN) models for cross-domain knowledge transfer, to address acoustic mismatches between training and testing conditions. Instead of carrying out point estimation in conventional maximum a posteriori estimation with a risk of having a curse of dimensionality in estimating a huge number of model parameters, we focus our attention on estimating a manageable number of latent variables of DNNs via a VB inference framework. To accomplish model transfer, knowledge learnt from a source domain is encoded in prior distributions of latent variables and optimally combined, in a Bayesian sense, with a small set of adaptation data from a target domain to approximate the corresponding posterior distributions. Experimental results on device adaptation in acoustic scene classification show that our proposed VB approach can obtain good improvements on target devices, and consistently outperforms 13 state-of-the-art knowledge transfer algorithms.
翻訳日:2021-10-19 15:31:21 公開日:2021-10-16
# ASRのための統一話者適応手法

A Unified Speaker Adaptation Approach for ASR ( http://arxiv.org/abs/2110.08545v1 )

ライセンス: Link先を確認
Yingzhu Zhao, Chongjia Ni, Cheung-Chi Leung, Shafiq Joty, Eng Siong Chng, Bin Ma(参考訳) トランスフォーマーモデルは自動音声認識(ASR)にうまく使われ、最先端の結果が得られる。 しかし、その性能は、トレーニングとテストデータの話者ミスマッチの影響を受け続けている。 対象話者データを用いた学習モデルのさらなる微調整は、適応のための最も自然なアプローチであるが、多くの計算が必要であり、既存の話者を破滅的に忘れてしまう可能性がある。 本研究では,特徴適応とモデル適応からなる統一話者適応手法を提案する。 特徴適応には、話者iベクターを用いて永続メモリを形成することにより、未確認話者をより一般化する話者認識型永続メモリモデルを用いる。 モデル適応のために、我々はモデルアーキテクチャを変更することなく、ターゲットとなる話者に適応するために新しい段階的なプルーニング法を用いています。 具体的には、モデルエンコーダのパラメータを一定のスパーシティレベルまで徐々に減少させ、プルーニングパラメータを適応に使用し、アンプルーニングパラメータを凍結して元のモデル性能を維持する。 librispeechデータセットの実験を行う。 提案手法は2.74-6.52%の単語誤り率(WER)を一般話者適応に還元する。 対象話者適応において,提案手法は20.58%の相対的なWER削減率でベースラインを上回り,2.54%の精度でファインタニング法を上回った。 さらに,低リソース適応データ(例えば1発話)を用いて,数エポックのトレーニングで平均6.53%改善することができた。

Transformer models have been used in automatic speech recognition (ASR) successfully and yields state-of-the-art results. However, its performance is still affected by speaker mismatch between training and test data. Further finetuning a trained model with target speaker data is the most natural approach for adaptation, but it takes a lot of compute and may cause catastrophic forgetting to the existing speakers. In this work, we propose a unified speaker adaptation approach consisting of feature adaptation and model adaptation. For feature adaptation, we employ a speaker-aware persistent memory model which generalizes better to unseen test speakers by making use of speaker i-vectors to form a persistent memory. For model adaptation, we use a novel gradual pruning method to adapt to target speakers without changing the model architecture, which to the best of our knowledge, has never been explored in ASR. Specifically, we gradually prune less contributing parameters on model encoder to a certain sparsity level, and use the pruned parameters for adaptation, while freezing the unpruned parameters to keep the original model performance. We conduct experiments on the Librispeech dataset. Our proposed approach brings relative 2.74-6.52% word error rate (WER) reduction on general speaker adaptation. On target speaker adaptation, our method outperforms the baseline with up to 20.58% relative WER reduction, and surpasses the finetuning method by up to relative 2.54%. Besides, with extremely low-resource adaptation data (e.g., 1 utterance), our method could improve the WER by relative 6.53% with only a few epochs of training.
翻訳日:2021-10-19 15:11:46 公開日:2021-10-16
# 高速サンプリングとパイプラインによるグラフニューラルネットワークの学習と推論の高速化

Accelerating Training and Inference of Graph Neural Networks with Fast Sampling and Pipelining ( http://arxiv.org/abs/2110.08450v1 )

ライセンス: Link先を確認
Tim Kaler, Nickolas Stathas, Anne Ouyang, Alexandros-Stavros Iliopoulos, Tao B. Schardl, Charles E. Leiserson, Jie Chen(参考訳) グラフニューラルネットワーク(gnns)のトレーニングと推論のパフォーマンス向上は、一般的なニューラルネットワークでは珍しくない課題に直面している。 ミニバッチの作成には、ネットワーク層に沿ったマルチホップグラフ近傍の指数関数的な成長のために、多くの計算とデータ移動が必要です。 このようなユニークな課題は、システム設計の多様な選択をもたらす。 我々は,分散マルチGPU環境における周辺サンプリングによるミニバッチトレーニングの実施を好んで論じる。 本稿では,これらのボトルネックを軽減するための一連の改良点として,パフォーマンスエンジニアリングによる近傍サンプリング,共有メモリ並列化戦略,GPU計算によるバッチ転送のパイプライン化などを挙げる。 また,サンプリングによる推論を支援する実験分析を行い,試験精度が実質的に損なわれていないことを示す。 このような観察はトレーニングと推論を統一し、モデルの実装を単純化する。 我々は,複数のベンチマークデータセットとGNNアーキテクチャによる総合的な実験結果を報告し,ogbn-papers100Mデータセットに対して,標準的なPyTorch-Geometric実装よりも3倍の高速化を実現し,さらに16GPUで8倍の並列高速化を実現した。 これにより、サンプリングファンアウト(15, 10, 5)で3層グラフSAGEモデルをトレーニングし、エポック毎に2.0秒、ファンアウト(20, 20)で推論すると2.4秒、テスト精度は64.58%となる。

Improving the training and inference performance of graph neural networks (GNNs) is faced with a challenge uncommon in general neural networks: creating mini-batches requires a lot of computation and data movement due to the exponential growth of multi-hop graph neighborhoods along network layers. Such a unique challenge gives rise to a diverse set of system design choices. We argue in favor of performing mini-batch training with neighborhood sampling in a distributed multi-GPU environment, under which we identify major performance bottlenecks hitherto under-explored by developers: mini-batch preparation and transfer. We present a sequence of improvements to mitigate these bottlenecks, including a performance-engineer ed neighborhood sampler, a shared-memory parallelization strategy, and the pipelining of batch transfer with GPU computation. We also conduct an empirical analysis that supports the use of sampling for inference, showing that test accuracies are not materially compromised. Such an observation unifies training and inference, simplifying model implementation. We report comprehensive experimental results with several benchmark data sets and GNN architectures, including a demonstration that, for the ogbn-papers100M data set, our system SALIENT achieves a speedup of 3x over a standard PyTorch-Geometric implementation with a single GPU and a further 8x parallel speedup with 16 GPUs. Therein, training a 3-layer GraphSAGE model with sampling fanout (15, 10, 5) takes 2.0 seconds per epoch and inference with fanout (20, 20, 20) takes 2.4 seconds, attaining test accuracy 64.58%.
翻訳日:2021-10-19 15:08:55 公開日:2021-10-16
# ストリーミング決定木と森林

Streaming Decision Trees and Forests ( http://arxiv.org/abs/2110.08483v1 )

ライセンス: Link先を確認
Haoyin Xu, Jayanta Dey, Sambit Panda, Joshua T. Vogelstein(参考訳) 機械学習は、現代のデータをうまく活用し、物理的および生物医学的な発見を含む、無数の現実世界の問題に対する計算ソリューションを提供した。 現在、評価者はすべてのサンプルと継続的な更新を必要とする状況で、両方のシナリオを処理できる。 しかし、バッチデータタスクの主要な手法であるバッチ決定木とランダムフォレストに基づくストリーミングアルゴリズムの改善の余地はまだ残っている。 本稿では,ストリーム決定木(SDT)とストリーム決定林(SDF)という,バッチ木を拡張してモデルを検証するための,最も単純な部分的適合アルゴリズムについて検討する。 参考までに、既存のストリーミングツリー(hoeffding treeとmondrian forests)とバッチ推定器の両方が実験に含まれている。 これら3つのタスクにおいて、SDFは高い精度を連続的に生成する一方、既存の推定器は空間制限や精度の変動に遭遇する。 このように、我々のストリーミングツリーや森林はさらなる改善の可能性を秘めており、分布のドリフトや移動学習といった問題を解決するのに良い候補である。

Machine learning has successfully leveraged modern data and provided computational solutions to innumerable real-world problems, including physical and biomedical discoveries. Currently, estimators could handle both scenarios with all samples available and situations requiring continuous updates. However, there is still room for improvement on streaming algorithms based on batch decision trees and random forests, which are the leading methods in batch data tasks. In this paper, we explore the simplest partial fitting algorithm to extend batch trees and test our models: stream decision tree (SDT) and stream decision forest (SDF) on three classification tasks of varying complexities. For reference, both existing streaming trees (Hoeffding trees and Mondrian forests) and batch estimators are included in the experiments. In all three tasks, SDF consistently produces high accuracy, whereas existing estimators encounter space restraints and accuracy fluctuations. Thus, our streaming trees and forests show great potential for further improvements, which are good candidates for solving problems like distribution drift and transfer learning.
翻訳日:2021-10-19 15:08:28 公開日:2021-10-16
# 生涯のトポロジカルビジュアルナビゲーション

Lifelong Topological Visual Navigation ( http://arxiv.org/abs/2110.08488v1 )

ライセンス: Link先を確認
Rey Reza Wiyatno, Anqi Xu, and Liam Paull(参考訳) ロボットが視覚だけを使ってナビゲートする能力は、その単純さから魅力的である。 従来の視覚に基づくナビゲーションアプローチでは、事前の地図作成ステップが必要で、失敗しがちだった。 新しい学習ベースのビジュアルナビゲーション技術は、地図への依存を減らし、ナビゲーションのための画像入力から直接ポリシーを学ぶ。 現在、2つの主要なパラダイムがある: 明示的な写像表現を完全に前向きにするエンドツーエンドのアプローチと、空間のゆるい接続を維持するトポロジカルアプローチである。 しかしながら、エンドツーエンドの手法は長距離ナビゲーションタスクでは苦労する傾向にあるが、トポロジカルマップベースのソリューションはグラフの急激なエッジによって失敗しがちである。 本研究では,長年のナビゲーション性能を向上させるグラフ更新戦略を用いた,学習に基づくトポロジカルなビジュアルナビゲーション手法を提案する。 画像に基づくトポロジグラフを構築するためのサンプリングベースの計画アルゴリズムから着想を得た結果,スペーサーグラフはベースライン法に比べてナビゲーション性能が高い。 また、固定トレーニング環境から学習するコントローラとは異なり、ロボットが配置される実環境からの比較的小さなデータセットを用いて、モデルを微調整できることを示す。 実環境におけるシステムの性能をさらに評価する。

The ability for a robot to navigate with only the use of vision is appealing due to its simplicity. Traditional vision-based navigation approaches required a prior map-building step that was arduous and prone to failure, or could only exactly follow previously executed trajectories. Newer learning-based visual navigation techniques reduce the reliance on a map and instead directly learn policies from image inputs for navigation. There are currently two prevalent paradigms: end-to-end approaches forego the explicit map representation entirely, and topological approaches which still preserve some loose connectivity of the space. However, while end-to-end methods tend to struggle in long-distance navigation tasks, topological map-based solutions are prone to failure due to spurious edges in the graph. In this work, we propose a learning-based topological visual navigation method with graph update strategies that improve lifelong navigation performance over time. We take inspiration from sampling-based planning algorithms to build image-based topological graphs, resulting in sparser graphs yet with higher navigation performance compared to baseline methods. Also, unlike controllers that learn from fixed training environments, we show that our model can be finetuned using a relatively small dataset from the real-world environment where the robot is deployed. We further assess performance of our system in real-world deployments.
翻訳日:2021-10-19 15:08:12 公開日:2021-10-16
# DPNAS: 異なるプライバシーを持つディープラーニングのためのニューラルネットワーク検索

DPNAS: Neural Architecture Search for Deep Learningwith Differential Privacy ( http://arxiv.org/abs/2110.08557v1 )

ライセンス: Link先を確認
Anda Cheng, Jiaxing Wang, Xi Sheryl Zhang, Qiang Chen, Peisong Wang, Jian Cheng(参考訳) 意味のある差分プライバシー(DP)のためのディープニューラルネットワーク(DNN)のトレーニングは、モデルの有用性を著しく低下させる。 本稿では,DNNのアーキテクチャが私的深層学習の文脈におけるモデルユーティリティに多大な影響を与えていることを実証する。 この欠如を鑑みて,我々は,DPNASと呼ばれるプライベートディープラーニングのためのモデル自動設計にニューラルアーキテクチャサーチを利用する,最初のフレームワークを提案する。 アーキテクチャ検索とプライベート学習を統合するため,新しい検索空間を微妙に設計し,候補モデルを学習するためのDP対応手法を提案する。 提案手法の有効性を実証的に検証する。 例えば、プライバシ予算が$(\epsilon, \delta)=(3, 1\times10^{-5})$である場合には、mnistで$8.57\%、fashionmnistで$8.09\%、cifar-10で$8.33\%となる。 さらに、生成したアーキテクチャを研究することにより、プライベートな学習に適したDNNを設計する際の興味深い発見をいくつか提供する。

Training deep neural networks (DNNs) for meaningful differential privacy (DP) guarantees severely degrades model utility. In this paper, we demonstrate that the architecture of DNNs has a significant impact on model utility in the context of private deep learning, whereas its effect is largely unexplored in previous studies. In light of this missing, we propose the very first framework that employs neural architecture search to automatic model design for private deep learning, dubbed as DPNAS. To integrate private learning with architecture search, we delicately design a novel search space and propose a DP-aware method for training candidate models. We empirically certify the effectiveness of the proposed framework. The searched model DPNASNet achieves state-of-the-art privacy/utility trade-offs, e.g., for the privacy budget of $(\epsilon, \delta)=(3, 1\times10^{-5})$, our model obtains test accuracy of $98.57\%$ on MNIST, $88.09\%$ on FashionMNIST, and $68.33\%$ on CIFAR-10. Furthermore, by studying the generated architectures, we provide several intriguing findings of designing private-learning-fri endly DNNs, which can shed new light on model design for deep learning with differential privacy.
翻訳日:2021-10-19 15:07:51 公開日:2021-10-16
# 頑健な多エージェント深部強化学習のための局所アドバンテージアクター批判

Local Advantage Actor-Critic for Robust Multi-Agent Deep Reinforcement Learning ( http://arxiv.org/abs/2110.08642v1 )

ライセンス: Link先を確認
Yuchen Xiao, Xueguang Lyu, Christopher Amato(参考訳) 政策勾配法は, マルチエージェント強化学習において普及しているが, 環境確率性や探索エージェント(非定常性)の存在により, 高いばらつきに悩まされている。 その結果、上記の2つの問題を効率的に解くことができるだけでなく、様々なタスクを解くのに十分な頑健さを持つ方法が必要となる。 そこで本研究では,Robost Local Advantage (ROLA) Actor-Criticと呼ばれるマルチエージェントポリシー勾配法を提案する。 ROLAは、各エージェントが局所的批評家として個別の行動価値関数を学習し、集中的批評家に基づく新しい集中型トレーニングアプローチを通じて、非定常性を改善する。 この局所的批評家を用いて、各エージェントは基準線を計算し、ポリシー勾配推定のばらつきを減らし、暗黙的に信用代入を改善する他のエージェントの選択よりも期待される有利なアクション値をもたらす。 ROLAを様々なベンチマークで評価し、最先端のマルチエージェントポリシー勾配アルゴリズムよりも頑健さと有効性を示す。

Policy gradient methods have become popular in multi-agent reinforcement learning, but they suffer from high variance due to the presence of environmental stochasticity and exploring agents (i.e., non-stationarity), which is potentially worsened by the difficulty in credit assignment. As a result, there is a need for a method that is not only capable of efficiently solving the above two problems but also robust enough to solve a variety of tasks. To this end, we propose a new multi-agent policy gradient method, called Robust Local Advantage (ROLA) Actor-Critic. ROLA allows each agent to learn an individual action-value function as a local critic as well as ameliorating environment non-stationarity via a novel centralized training approach based on a centralized critic. By using this local critic, each agent calculates a baseline to reduce variance on its policy gradient estimation, which results in an expected advantage action-value over other agents' choices that implicitly improves credit assignment. We evaluate ROLA across diverse benchmarks and show its robustness and effectiveness over a number of state-of-the-art multi-agent policy gradient algorithms.
翻訳日:2021-10-19 15:07:27 公開日:2021-10-16
# ガウス過程帯域に対する敵対的攻撃

Adversarial Attacks on Gaussian Process Bandits ( http://arxiv.org/abs/2110.08449v1 )

ライセンス: Link先を確認
Eric Han and Jonathan Scarlett(参考訳) ガウス過程(gaussian process, gp)は、ブラックボックス関数の逐次最適化に使用される広く採用されているツールである。 GPバンディットに関する最近の研究は、ランダムノイズを超えて、敵攻撃に頑健なアルゴリズムを考案することを提案した。 本稿では,攻撃者の立場から,攻撃者の強さと事前情報に異なる前提を持つ様々な敵攻撃手法を提案する。 我々の目標は,GPバンディットに対する敵攻撃を理論的・実践的両面から理解することである。 GP-UCBアルゴリズムと関連する除去アルゴリズムに対するターゲット攻撃に主眼を置いており、関数を逆摂動することで別の関数を$\tilde{f}$とし、任意の領域に$\mathcal{R}_{\rm target}$を最適に生成する。 我々の理論的分析に基づいて、ホワイトボックス攻撃(通称$f$)とブラックボックス攻撃(未知の$f$)の両方を考案し、前者は減算攻撃とクリッピング攻撃、後者は攻撃的な減算攻撃を含む。 GP帯域に対する敵攻撃は、攻撃予算が低い場合でもアルゴリズムを$\mathcal{R}_{\rmターゲットに強制することに成功し、実数および合成関数に対する攻撃の性能と効率を比較する。

Gaussian processes (GP) are a widely-adopted tool used to sequentially optimize black-box functions, where evaluations are costly and potentially noisy. Recent works on GP bandits have proposed to move beyond random noise and devise algorithms robust to adversarial attacks. In this paper, we study this problem from the attacker's perspective, proposing various adversarial attack methods with differing assumptions on the attacker's strength and prior information. Our goal is to understand adversarial attacks on GP bandits from both a theoretical and practical perspective. We focus primarily on targeted attacks on the popular GP-UCB algorithm and a related elimination-based algorithm, based on adversarially perturbing the function $f$ to produce another function $\tilde{f}$ whose optima are in some region $\mathcal{R}_{\rm target}$. Based on our theoretical analysis, we devise both white-box attacks (known $f$) and black-box attacks (unknown $f$), with the former including a Subtraction attack and Clipping attack, and the latter including an Aggressive subtraction attack. We demonstrate that adversarial attacks on GP bandits can succeed in forcing the algorithm towards $\mathcal{R}_{\rm target}$ even with a low attack budget, and we compare our attacks' performance and efficiency on several real and synthetic functions.
翻訳日:2021-10-19 15:00:44 公開日:2021-10-16
# 木状グラフ上の高次元イジングモデルに対するラッソのモデル選択整合性について

On Model Selection Consistency of Lasso for High-Dimensional Ising Models on Tree-like Graphs ( http://arxiv.org/abs/2110.08500v1 )

ライセンス: Link先を確認
Xiangming Meng and Tomoyuki Obuchi and Yoshiyuki Kabashima(参考訳) 本稿では,近隣の最小絶対収縮・選択演算子(Lasso)を用いた高次元イジングモデル選択の問題を考える。 イジングモデルの集団共分散行列上のいくつかの穏やかなコヒーレンス条件の下では、パラ磁性相の任意の木状グラフに対して、サンプルサイズ$n=\omega{(d^3\log{p})} で一貫したモデル選択が達成され、ここで$p$ は変数の数、$d$ はノード次数である。 同じ条件がサンプル共分散行列に直接課されると、縮小されたサンプルサイズ $n=\omega{(d^2\log{p})}$ suffices が示される。 Lassoとの一貫性のあるモデル選択のための十分な条件は、サンプル複雑性のスケーリングにおいて$\ell_1$-regularized logistic regressionと同じである。 ラッソの人気と効率性を考えると、厳密な分析は、イジングモデル選択における実践的利用の理論的裏付けとなる。

We consider the problem of high-dimensional Ising model selection using neighborhood-based least absolute shrinkage and selection operator (Lasso). It is rigorously proved that under some mild coherence conditions on the population covariance matrix of the Ising model, consistent model selection can be achieved with sample sizes $n=\Omega{(d^3\log{p})}$ for any tree-like graph in the paramagnetic phase, where $p$ is the number of variables and $d$ is the maximum node degree. When the same conditions are imposed directly on the sample covariance matrices, it is shown that a reduced sample size $n=\Omega{(d^2\log{p})}$ suffices. The obtained sufficient conditions for consistent model selection with Lasso are the same in the scaling of the sample complexity as that of $\ell_1$-regularized logistic regression. Given the popularity and efficiency of Lasso, our rigorous analysis provides a theoretical backing for its practical use in Ising model selection.
翻訳日:2021-10-19 15:00:18 公開日:2021-10-16
# 不確かさを伴う非線形力学系学習のための物理誘導ディープマルコフモデル

Physics-guided Deep Markov Models for Learning Nonlinear Dynamical Systems with Uncertainty ( http://arxiv.org/abs/2110.08607v1 )

ライセンス: Link先を確認
Wei Liu, Zhilu Lai, Kiran Bacsa, Eleni Chatzi(参考訳) 本稿では,物理誘導ディープマルコフモデル(PgDMM)と呼ばれる確率論的物理誘導フレームワークを提案する。 このフレームワークは、測定データから非線形力学系の特性と潜時構造を推定することを目的としており、潜時変数の正確な推測を行うのは通常困難である。 最近表面化した選択肢は、近似推論を実行するために変分推論を活用することである。 このようなスキームでは、システムの遷移関数と放出関数はフィードフォワードニューラルネットワーク(ディープジェネレーティブモデル)を介してパラメータ化される。 しかしながら、ニューラルネットワーク関数の一般化された多用途な定式化のため、学習された潜在空間は物理的解釈や構造化表現を欠くことが多い。 これを解決するために、Deep Markov Modelsを用いて物理学に基づく状態空間モデルをブリッジし、非線形力学系の教師なし学習と同定のためのハイブリッドモデリングフレームワークを提供する。 特に、遷移過程は、物理ベースのモデルと監視対象の実際の力学系との相違を学習することを目的として、付加的なニューラルネットワークコンポーネントによって強化された物理ベースのモデルとしてモデル化することができる。 提案手法は,潜在空間の側面に物理駆動の制約を課すことにより,力学系の駆動物理を維持しながら,ディープラーニングの表現力を利用する。 本稿では,このような融合の利点を,数値シミュレーションの例と非線形システムの実験的ケーススタディで実証する。 以上より, 応用トランジッション・エミッション関数に関わる物理モデルでは, より構造化され, 物理的に解釈可能な潜在空間が必須であり, 一般化と予測能力に必須であることを示す。

In this paper, we propose a probabilistic physics-guided framework, termed Physics-guided Deep Markov Model (PgDMM). The framework is especially targeted to the inference of the characteristics and latent structure of nonlinear dynamical systems from measurement data, where it is typically intractable to perform exact inference of latent variables. A recently surfaced option pertains to leveraging variational inference to perform approximate inference. In such a scheme, transition and emission functions of the system are parameterized via feed-forward neural networks (deep generative models). However, due to the generalized and highly versatile formulation of neural network functions, the learned latent space is often prone to lack physical interpretation and structured representation. To address this, we bridge physics-based state space models with Deep Markov Models, thus delivering a hybrid modeling framework for unsupervised learning and identification for nonlinear dynamical systems. Specifically, the transition process can be modeled as a physics-based model enhanced with an additive neural network component, which aims to learn the discrepancy between the physics-based model and the actual dynamical system being monitored. The proposed framework takes advantage of the expressive power of deep learning, while retaining the driving physics of the dynamical system by imposing physics-driven restrictions on the side of the latent space. We demonstrate the benefits of such a fusion in terms of achieving improved performance on illustrative simulation examples and experimental case studies of nonlinear systems. Our results indicate that the physics-based models involved in the employed transition and emission functions essentially enforce a more structured and physically interpretable latent space, which is essential to generalization and prediction capabilities.
翻訳日:2021-10-19 14:59:57 公開日:2021-10-16
# ロバスト波形に基づく音響モデルに向けて

Towards Robust Waveform-Based Acoustic Models ( http://arxiv.org/abs/2110.08634v1 )

ライセンス: Link先を確認
Dino Oglic, Zoran Cvetkovic, Peter Sollich, Steve Renals, and Bin Yu(参考訳) 本研究では,実験条件とトレーニング条件のミスマッチを特徴とする,ロバストな音響モデル学習手法を提案する。 この問題は、目に見えない環境でうまく機能する必要がある音声認識システムの展開において、最重要事項である。 このアプローチは,入力空間上の経験的密度を定義するデルタ関数を,トレーニングサンプル近傍の限界人口密度の近似値に置き換えることで,トレーニング中のリスク推定を改善することを目的とした,ビクタナルリスク最小化の例である。 より具体的には、訓練サンプルを中心とした地域地区はガウスの混合を用いて近似できると仮定し、これが学習過程に堅牢な帰納バイアスを組み込むことができることを理論的に実証する。 データ拡張スキームを用いて個々の混合成分を暗黙的に特徴付け、音響モデルにおける突発的相関の共通源に対処する。 標準特徴抽出技術(例えば、FBANKとMFCCの特徴)と関連付けられている情報損失によるロバスト性への潜在的な影響を避けるため、波形に基づく設定に焦点をあてる。 提案手法は, 標準リスク最小化原理を用いた訓練と比較して, 分布外一般化が150%向上し, 未発見の騒音条件に一般化できることを示す。 さらに,実験発話の音響条件(即ち,最適ビクチン密度)に適合するように設計した学習サンプルを用いて学習したモデルと比較し,競合性能を示す。

We propose an approach for learning robust acoustic models in adverse environments, characterized by a significant mismatch between training and test conditions. This problem is of paramount importance for the deployment of speech recognition systems that need to perform well in unseen environments. Our approach is an instance of vicinal risk minimization, which aims to improve risk estimates during training by replacing the delta functions that define the empirical density over the input space with an approximation of the marginal population density in the vicinity of the training samples. More specifically, we assume that local neighborhoods centered at training samples can be approximated using a mixture of Gaussians, and demonstrate theoretically that this can incorporate robust inductive bias into the learning process. We characterize the individual mixture components implicitly via data augmentation schemes, designed to address common sources of spurious correlations in acoustic models. To avoid potential confounding effects on robustness due to information loss, which has been associated with standard feature extraction techniques (e.g., FBANK and MFCC features), we focus our evaluation on the waveform-based setting. Our empirical results show that the proposed approach can generalize to unseen noise conditions, with 150% relative improvement in out-of-distribution generalization compared to training using the standard risk minimization principle. Moreover, the results demonstrate competitive performance relative to models learned using a training sample designed to match the acoustic conditions characteristic of test utterances (i.e., optimal vicinal densities).
翻訳日:2021-10-19 14:59:29 公開日:2021-10-16
# 記憶のないクラスインクリメンタル学習のためのデータセット知識伝達

Dataset Knowledge Transfer for Class-Incremental Learning without Memory ( http://arxiv.org/abs/2110.08421v1 )

ライセンス: Link先を確認
Habib Slim, Eden Belouadah, Adrian Popescu and Darian Onchis(参考訳) インクリメンタル学習により、人工知能はシーケンシャルデータから学習できる。 ディープニューラルネットワークを活用することで重要な進歩を遂げたが、漸進的な学習は非常に難しい。 これは特に過去のデータの記憶が許されず、破滅的な忘れ物が強い負の効果を持つ場合である。 我々は,過去のクラスと新しいクラスの予測を比較検討する手法である予測バイアス補正を適用することで,記憶のないクラス増進学習に取り組む。 過去のクラスのサンプルが必要なため、メモリが許可され、メモリなしで直接使用できない場合に提案された。 本稿では、参照とターゲットデータセット間のバイアス補正パラメータの転送を可能にする2段階の学習プロセスを提案する。 バイアス補正はまず、関連する検証メモリを持つ参照データセットにオフラインで最適化される。 得られた補正パラメータは、メモリが使用できないターゲットデータセットに転送される。 2つめの貢献は、通常の過去と新しいクラスモデリングではなく、インクリメンタルな状態ごとにパラメータを学習することでバイアス補正の微妙なモデリングを導入することである。 提案したデータセットの知識伝達は、メモリなしで機能するインクリメンタルメソッドに適用できる。 その効果を既存の4つの方法に適用して検証する。 4つのターゲットデータセットと異なる構成による評価は、事実上計算とメモリのオーバーヘッドがなく、一貫した改善を示している。

Incremental learning enables artificial agents to learn from sequential data. While important progress was made by exploiting deep neural networks, incremental learning remains very challenging. This is particularly the case when no memory of past data is allowed and catastrophic forgetting has a strong negative effect. We tackle class-incremental learning without memory by adapting prediction bias correction, a method which makes predictions of past and new classes more comparable. It was proposed when a memory is allowed and cannot be directly used without memory, since samples of past classes are required. We introduce a two-step learning process which allows the transfer of bias correction parameters between reference and target datasets. Bias correction is first optimized offline on reference datasets which have an associated validation memory. The obtained correction parameters are then transferred to target datasets, for which no memory is available. The second contribution is to introduce a finer modeling of bias correction by learning its parameters per incremental state instead of the usual past vs. new class modeling. The proposed dataset knowledge transfer is applicable to any incremental method which works without memory. We test its effectiveness by applying it to four existing methods. Evaluation with four target datasets and different configurations shows consistent improvement, with practically no computational and memory overhead.
翻訳日:2021-10-19 14:32:24 公開日:2021-10-16
# BNAS v2:実証的改善を伴うバイナリネットワークの学習アーキテクチャ

BNAS v2: Learning Architectures for Binary Networks with Empirical Improvements ( http://arxiv.org/abs/2110.08562v1 )

ライセンス: Link先を確認
Dahyun Kim, Kunal Pratap Singh, Jonghyun Choi(参考訳) ほとんどのバイナリネットワークのバックボーンアーキテクチャは、resnetファミリのような有名な浮動小数点(fp)アーキテクチャである。 本稿では、FPネットワーク用に設計されたアーキテクチャがバイナリネットワークにとって最適ではないかどうかを問うため、バイナリネットワークの新しい検索空間と新しい検索目的を定義することにより、バイナリネットワーク(BNAS)のアーキテクチャを探索することを提案する。 具体的には,このセルベース探索法に基づいて,バイナリ層タイプの新たな検索空間を定義し,新しいセルテンプレートを設計し,それをプレースホルダとして使用する代わりにゼロイズ層の有用性を再発見し,提案する。 新しい検索目的は、より優れたバイナリアーキテクチャを学ぶために、早期検索を多様化する。 本手法は,バイナリネットワーク固有の量子化誤差にもかかわらず,安定したトレーニング曲線でアーキテクチャを探索する。 定量的分析により,検索したアーキテクチャは最先端のバイナリネットワークで使用されるアーキテクチャよりも優れており,アーキテクチャの変更以外の様々な技術を用いた最先端のバイナリネットワークに匹敵する性能を示す。 さらに,検索したアーキテクチャのトレーニング手法の改善も提案する。 探索アーキテクチャの新しいトレーニングスキームにより、従来の手法を非自明なマージンで上回り、バイナリネットワークによる最先端の性能を実現する。

Backbone architectures of most binary networks are well-known floating point (FP) architectures such as the ResNet family. Questioning that the architectures designed for FP networks might not be the best for binary networks, we propose to search architectures for binary networks (BNAS) by defining a new search space for binary architectures and a novel search objective. Specifically, based on the cell based search method, we define the new search space of binary layer types, design a new cell template, and rediscover the utility of and propose to use the Zeroise layer instead of using it as a placeholder. The novel search objective diversifies early search to learn better performing binary architectures. We show that our method searches architectures with stable training curves despite the quantization error inherent in binary networks. Quantitative analyses demonstrate that our searched architectures outperform the architectures used in state-of-the-art binary networks and outperform or perform on par with state-of-the-art binary networks that employ various techniques other than architectural changes. In addition, we further propose improvements to the training scheme of our searched architectures. With the new training scheme for our searched architectures, we achieve the state-of-the-art performance by binary networks by outperforming all previous methods by non-trivial margins.
翻訳日:2021-10-19 14:32:03 公開日:2021-10-16
# 等変離散正規化流れ

Equivariant Discrete Normalizing Flows ( http://arxiv.org/abs/2110.08649v1 )

ライセンス: Link先を確認
Avishek Joey Bose and Ivan Kobyzev(参考訳) 生成的モデリングの核心は、ある変換法則への不変性や同値性を通じて自己を示す自然対称性としてしばしばモデル化される観測データを生み出す基礎的要因を明らかにすることである。 しかし、現在のアプローチは、等変ベクトル場の構築を必要とする連続正規化フローの形式主義に反し、自然画像のような従来の高次元生成モデリング領域への単純な適用を阻害している。 本稿では,離散層を用いた等変正規化フローの構築に着目する。 まず、コンパクト空間上の作用を持つコンパクト群に対する同値写像の存在を理論的に証明する。 我々はさらに2つの新しい同変フローを導入する: $g$-結合フローと$g$-residualフローで、同変写像を持つ古典結合と残留フローを所定の群 $g$ に高める。 我々の構成である$G$-Residual Flowsも普遍的であり、$G$-equivariant diffeomorphismが$G$-Residual Flowによって正確にマッピング可能であることを証明している。 最後に、CIFAR-10のような画像データセットに関する実験で理論的な洞察を初めて補完し、$G$-Equivariant Discrete 正規化フローを示すことで、データの効率が向上し、収束が早くなり、推定値が改善します。

At its core, generative modeling seeks to uncover the underlying factors that give rise to observed data that can often be modelled as the natural symmetries that manifest themselves through invariances and equivariances to certain transformations laws. However, current approaches are couched in the formalism of continuous normalizing flows that require the construction of equivariant vector fields -- inhibiting their simple application to conventional higher dimensional generative modelling domains like natural images. In this paper we focus on building equivariant normalizing flows using discrete layers. We first theoretically prove the existence of an equivariant map for compact groups whose actions are on compact spaces. We further introduce two new equivariant flows: $G$-coupling Flows and $G$-Residual Flows that elevate classical Coupling and Residual Flows with equivariant maps to a prescribed group $G$. Our construction of $G$-Residual Flows are also universal, in the sense that we prove an $G$-equivariant diffeomorphism can be exactly mapped by a $G$-residual flow. Finally, we complement our theoretical insights with experiments -- for the first time -- on image datasets like CIFAR-10 and show $G$-Equivariant Discrete Normalizing flows lead to increased data efficiency, faster convergence, and improved likelihood estimates.
翻訳日:2021-10-19 14:16:04 公開日:2021-10-16
# 積極的学習におけるマージン条件の違いによる利得決定

Nuances in Margin Conditions Determine Gains in Active Learning ( http://arxiv.org/abs/2110.08418v1 )

ライセンス: Link先を確認
Samory Kpotufe, Gan Yuan, Yunfan Zhao(参考訳) 滑らかな回帰関数を持つ非パラメトリック分類を考えると、$E[Y|X]$におけるマージンの概念が能動学習と受動学習の両方において高速または遅い速度を決定することはよく知られている。 ここでは2つの設定を著しく区別する。 すなわち,ベイズ分類器の独自性,受動的学習の速度に明らかな影響を与えないマージン概念の良質なニュアンスが,アクティブ学習者が受動的学習率を上回ることができるかどうかを判断する。 特に Audibert-Tsybakov のマージン条件(非一般ベイズ分類器の一般的な状況が許容される)では、X$ のマージンが均一に近い一般的な研究環境では、アクティブな学習者は受動的学習に勝ることができない。 その結果,非パラメトリック設定の受動率よりもアクティブ率の方が向上する,という過去の文献からの通常の直観は否定された。

We consider nonparametric classification with smooth regression functions, where it is well known that notions of margin in $E[Y|X]$ determine fast or slow rates in both active and passive learning. Here we elucidate a striking distinction between the two settings. Namely, we show that some seemingly benign nuances in notions of margin -- involving the uniqueness of the Bayes classifier, and which have no apparent effect on rates in passive learning -- determine whether or not any active learner can outperform passive learning rates. In particular, for Audibert-Tsybakov&#x 27;s margin condition (allowing general situations with non-unique Bayes classifiers), no active learner can gain over passive learning in commonly studied settings where the marginal on $X$ is near uniform. Our results thus negate the usual intuition from past literature that active rates should improve over passive rates in nonparametric settings.
翻訳日:2021-10-19 14:11:38 公開日:2021-10-16
# torchesegeta: 画像に基づくディープラーニングモデルの解釈性と説明可能性のためのフレームワーク

TorchEsegeta: Framework for Interpretability and Explainability of Image-based Deep Learning Models ( http://arxiv.org/abs/2110.08429v1 )

ライセンス: Link先を確認
Soumick Chatterjee, Arnab Das, Chirag Mandal, Budhaditya Mukhopadhyay, Manish Vipinraj, Aniruddh Shukla, Rajatha Nagaraja Rao, Chompunuch Sarasaen, Oliver Speck and Andreas N\"urnberger(参考訳) 臨床医はしばしば、自動化された画像処理アプローチ、特にディープラーニングに基づく手法を適用することに非常に懐疑的である。 この理由の1つは、これらのアプローチのブラックボックスの性質と、自動導出決定の洞察の欠如という本質的な問題である。 本稿では,これらの手法に対する信頼度を高めるために,アルゴリズムの決定に最も影響を及ぼす解剖学的領域を表現することによって,深層学習アルゴリズムの結果を解釈し,説明するための手法を提案する。 さらに本研究は,深層学習モデルに様々な解釈可能性と説明可能性技術を適用し,臨床医が臨床所見を照合するための視覚的解釈と説明を生成するための統一フレームワークであるtorchesegetaを提案する。 さらに、このような手法への信頼を得るのに役立つだろう。 このフレームワークは、現在分類モデルに焦点を当てている既存の解釈可能性と説明可能性の技術に基づいており、それらをセグメンテーションタスクに拡張している。 さらに,これらの手法は体積解析のための3次元モデルに適用されている。 提案手法は不確かさと感度の指標を用いて視覚的な説明を定量的に比較する方法を提供する。 このフレームワークは、データサイエンティストがモデルに対するポストホックな解釈と説明を行い、より説明しやすいツールを開発し、そのモデルに対する信頼を高めるために臨床医に調査結果を提示するために使うことができる。 提案手法は,ヒト脳の磁気共鳴血管造影(MRA)画像に基づいて訓練された血管分割モデルのユースケースシナリオに基づいて評価された。 異なるモデルと解釈可能性法の比較研究の定量的および定性的な結果を示す。 さらに,本稿では,既存の解釈可能性と説明可能性について概説する。

Clinicians are often very sceptical about applying automatic image processing approaches, especially deep learning based methods, in practice. One main reason for this is the black-box nature of these approaches and the inherent problem of missing insights of the automatically derived decisions. In order to increase trust in these methods, this paper presents approaches that help to interpret and explain the results of deep learning algorithms by depicting the anatomical areas which influence the decision of the algorithm most. Moreover, this research presents a unified framework, TorchEsegeta, for applying various interpretability and explainability techniques for deep learning models and generate visual interpretations and explanations for clinicians to corroborate their clinical findings. In addition, this will aid in gaining confidence in such methods. The framework builds on existing interpretability and explainability techniques that are currently focusing on classification models, extending them to segmentation tasks. In addition, these methods have been adapted to 3D models for volumetric analysis. The proposed framework provides methods to quantitatively compare visual explanations using infidelity and sensitivity metrics. This framework can be used by data scientists to perform post-hoc interpretations and explanations of their models, develop more explainable tools and present the findings to clinicians to increase their faith in such models. The proposed framework was evaluated based on a use case scenario of vessel segmentation models trained on Time-of-fight (TOF) Magnetic Resonance Angiogram (MRA) images of the human brain. Quantitative and qualitative results of a comparative study of different models and interpretability methods are presented. Furthermore, this paper provides an extensive overview of several existing interpretability and explainability methods.
翻訳日:2021-10-19 14:06:09 公開日:2021-10-16
# 制御可能な画像キャプションのための自己注釈訓練

Self-Annotated Training for Controllable Image Captioning ( http://arxiv.org/abs/2110.08446v1 )

ライセンス: Link先を確認
Zhangzi Zhu, Tianlei Wang, and Hong Qu(参考訳) Controllable Image Captioning (CIC)タスクは、指定された制御信号に条件付きキャプションを生成することを目的としている。 本稿では,CICを2つの側面から改善する。 1) 既存の強化訓練手法は, 意味構造よりも内容に焦点を絞った精度に基づく報酬が主眼を置いているため, 構造関連CICモデルには適用できない。 強化訓練の欠如は、モデルがより正確で制御可能な文を生成するのを防ぐ。 本稿では,構造関連CICモデルに対する新たな強化トレーニング手法を提案する。 自己アノテーション学習(SAT)では,入力制御信号に実際の出力文を一致させるように再帰的なサンプリング機構(RSM)が設計されている。 MSCOCOで行った大規模な実験により、我々のSAT法は長さ制御タスクでは118.6から130.1、テンソル制御タスクでは132.2から142.7、CIDEr-Dスコアでは99$\%以上の精度を維持しながら、CIDEr-DのC-Transformer(XE)を改善した。 2) 文品質という新しい制御信号を導入する。 CICモデルは、必要に応じて異なる品質レベルのキャプションを生成することができる。 実験により、基底的真理のキャプションの追加情報がなければ、最高レベルの文品質で制御されたモデルは、ベースラインモデルよりもはるかに精度が向上することが示された。

The Controllable Image Captioning (CIC) task aims to generate captions conditioned on designated control signals. In this paper, we improve CIC from two aspects: 1) Existing reinforcement training methods are not applicable to structure-related CIC models due to the fact that the accuracy-based reward focuses mainly on contents rather than semantic structures. The lack of reinforcement training prevents the model from generating more accurate and controllable sentences. To solve the problem above, we propose a novel reinforcement training method for structure-related CIC models: Self-Annotated Training (SAT), where a recursive sampling mechanism (RSM) is designed to force the input control signal to match the actual output sentence. Extensive experiments conducted on MSCOCO show that our SAT method improves C-Transformer (XE) on CIDEr-D score from 118.6 to 130.1 in the length-control task and from 132.2 to 142.7 in the tense-control task, while maintaining more than 99$\%$ matching accuracy with the control signal. 2) We introduce a new control signal: sentence quality. Equipped with it, CIC models are able to generate captions of different quality levels as needed. Experiments show that without additional information of ground truth captions, models controlled by the highest level of sentence quality perform much better in accuracy than baseline models.
翻訳日:2021-10-19 14:05:42 公開日:2021-10-16
# 映像キャプションのための視覚注意二重ストリームデコーダ

Visual-aware Attention Dual-stream Decoder for Video Captioning ( http://arxiv.org/abs/2110.08578v1 )

ライセンス: Link先を確認
Zhixin Sun, Xian Zhong, Shuqin Chen, Lin Li, and Luo Zhong(参考訳) ビデオキャプションは、視覚的および言語的コヒーレンスを必要とするため、異なる視覚部分をキャプチャし、文章で記述する困難なタスクである。 現在のビデオキャプション方式の注意機構は、各フレームに重みを割り当てることを学び、デコーダを動的に推進する。 This may not explicitly model the correlation and the temporal coherence of the visual features extracted in the sequence frames.To generate semantically coherent sentences, we propose a new Visual-aware Attention (VA) model, which concatenates dynamic changes of temporal sequence frames with the words at the previous moment, as the input of attention mechanism to extract sequence features.In addition, the prevalent approaches widely use the teacher-forcing (TF) learning during training, where the next token is generated conditioned on the previous ground-truth tokens. 以前に生成されたトークンのセマンティック情報は失われる。 Therefore, we design a self-forcing (SF) stream that takes the semantic information in the probability distribution of the previous token as input to enhance the current token.The Dual-stream Decoder (DD) architecture unifies the TF and SF streams, generating sentences to promote the annotated captioning for both streams.Meanwhile, with the Dual-stream Decoder utilized, the exposure bias problem is alleviated, caused by the discrepancy between the training and testing in the TF learning.The effectiveness of the proposed Visual-aware Attention Dual-stream Decoder (VADD) is demonstrated through the result of experimental studies on Microsoft video description (MSVD) corpus and MSR-Video to text (MSR-VTT) datasets.

Video captioning is a challenging task that captures different visual parts and describes them in sentences, for it requires visual and linguistic coherence. The attention mechanism in the current video captioning method learns to assign weight to each frame, promoting the decoder dynamically. This may not explicitly model the correlation and the temporal coherence of the visual features extracted in the sequence frames.To generate semantically coherent sentences, we propose a new Visual-aware Attention (VA) model, which concatenates dynamic changes of temporal sequence frames with the words at the previous moment, as the input of attention mechanism to extract sequence features.In addition, the prevalent approaches widely use the teacher-forcing (TF) learning during training, where the next token is generated conditioned on the previous ground-truth tokens. The semantic information in the previously generated tokens is lost. Therefore, we design a self-forcing (SF) stream that takes the semantic information in the probability distribution of the previous token as input to enhance the current token.The Dual-stream Decoder (DD) architecture unifies the TF and SF streams, generating sentences to promote the annotated captioning for both streams.Meanwhile, with the Dual-stream Decoder utilized, the exposure bias problem is alleviated, caused by the discrepancy between the training and testing in the TF learning.The effectiveness of the proposed Visual-aware Attention Dual-stream Decoder (VADD) is demonstrated through the result of experimental studies on Microsoft video description (MSVD) corpus and MSR-Video to text (MSR-VTT) datasets.
翻訳日:2021-10-19 14:05:20 公開日:2021-10-16
# 限界における動的対人訓練データの解析

Analyzing Dynamic Adversarial Training Data in the Limit ( http://arxiv.org/abs/2110.08514v1 )

ライセンス: Link先を確認
Eric Wallace, Adina Williams, Robin Jia, Douwe Kiela(参考訳) 幅広いテスト入力で堅牢なモデルを作成するために、トレーニングデータセットには、さまざまな現象にまたがるさまざまな例を含めるべきである。 dynamic adversarial data collection (dadc)は、アノテーションが継続的に改善するモデルに挑戦する例を作るもので、このような多様なトレーニングセットを生成するためのアプローチとしてpromiseを持っている。 1-3ラウンドでDADCを実行することは、モデルがいくつかのエラータイプを修正するのに役立つが、必ずしも敵対的なテストデータを超えたより良い一般化につながるとは限らない。 多くのラウンドでDADCを実行することで、さまざまなラウンドがタスク関連現象の多くをカバーできるため、トレーニング時間のメリットが最大になる、と私たちは主張する。 本研究は, 長期DADCの最初の研究であり, 20ラウンドのNLIサンプルを, 対角的アプローチと非対角的アプローチの両方を用いて, 少数の前提項に対して収集する。 DADCの例でトレーニングされたモデルでは、専門家が計算したテストセットのエラーが26%少なくなります。 分析の結果,DADCはより困難で,語彙的にも構文的にも多様であり,非逆例と比較してアノテーションのアーティファクトが少ない例が得られた。

To create models that are robust across a wide range of test inputs, training datasets should include diverse examples that span numerous phenomena. Dynamic adversarial data collection (DADC), where annotators craft examples that challenge continually improving models, holds promise as an approach for generating such diverse training sets. Prior work has shown that running DADC over 1-3 rounds can help models fix some error types, but it does not necessarily lead to better generalization beyond adversarial test data. We argue that running DADC over many rounds maximizes its training-time benefits, as the different rounds can together cover many of the task-relevant phenomena. We present the first study of longer-term DADC, where we collect 20 rounds of NLI examples for a small set of premise paragraphs, with both adversarial and non-adversarial approaches. Models trained on DADC examples make 26% fewer errors on our expert-curated test set compared to models trained on non-adversarial data. Our analysis shows that DADC yields examples that are more difficult, more lexically and syntactically diverse, and contain fewer annotation artifacts compared to non-adversarial examples.
翻訳日:2021-10-19 14:03:18 公開日:2021-10-16
# シャープネスアウェアの最小化が言語モデルの一般化を改善

Sharpness-Aware Minimization Improves Language Model Generalization ( http://arxiv.org/abs/2110.08529v1 )

ライセンス: Link先を確認
Dara Bahri and Hossein Mobahi and Yi Tay(参考訳) 超人レベルの能力の保証は、GPT-3やT5のような言語モデルに大きな関心を惹き付けており、この研究は、新しいモデルアーキテクチャ、トレーニングタスク、損失目標を中心に、モデル能力とデータセットサイズをスケールアップする大きなエンジニアリング努力とともに、大きく発展してきた。 最適化の改善を通じてこれらのモデルの一般化を改善するための作業は、比較的少ない。 本研究では,平らな最小値への収束を促す最適化手法であるSharpness-Aware Minimization (SAM) が,計算オーバーヘッドを伴わずに言語モデルの一般化を大幅に改善できることを示す。 SAMは,SuperGLUE,GLUE,Web Questions,Natural Questions,Trivia QA,TyDiQAの性能向上を図っている。

The allure of superhuman-level capabilities has led to considerable interest in language models like GPT-3 and T5, wherein the research has, by and large, revolved around new model architectures, training tasks, and loss objectives, along with substantial engineering efforts to scale up model capacity and dataset size. Comparatively little work has been done to improve the generalization of these models through better optimization. In this work, we show that Sharpness-Aware Minimization (SAM), a recently proposed optimization procedure that encourages convergence to flatter minima, can substantially improve the generalization of language models without much computational overhead. We show that SAM is able to boost performance on SuperGLUE, GLUE, Web Questions, Natural Questions, Trivia QA, and TyDiQA, with particularly large gains when training data for these tasks is limited.
翻訳日:2021-10-19 14:02:56 公開日:2021-10-16
# 文表現のコントラスト学習を支援する仮想拡張

Virtual Augmentation Supported Contrastive Learning of Sentence Representations ( http://arxiv.org/abs/2110.08552v1 )

ライセンス: Link先を確認
Dejiao Zhang, Wei Xiao, Henghui Zhu, Xiaofei Ma, Andrew O. Arnold(参考訳) 著しい成功にもかかわらず、対照的な表現学習はドメイン固有の知識を使って注意深く設計されたデータ拡張に依存している。 この課題は自然言語処理において拡大され、自然言語の離散的性質のためにデータ拡張に関する一般的な規則は存在しない。 本稿では,VaSCL(Virtual Augmentation Supported Contrastive Learning of sentence representations)を提案する。 データ拡張は、基本的に各トレーニングインスタンスの近傍を構成するという解釈から始まり、我々はその地区を利用して効果的なデータ拡張を生成する。 コントラスト学習の大規模訓練バッチサイズを活用することで、表現空間におけるk-nearest in-batch近傍を通して、インスタンスの近傍を近似する。 次に、この近傍でインスタンス識別タスクを定義し、敵対的なトレーニング方法で仮想拡張を生成します。 下流タスクにおけるVasCLの性能にアクセスし、教師なしの文表現学習のための新しい最先端技術を設定する。

Despite profound successes, contrastive representation learning relies on carefully designed data augmentations using domain specific knowledge. This challenge is magnified in natural language processing where no general rules exist for data augmentation due to the discrete nature of natural language. We tackle this challenge by presenting a Virtual augmentation Supported Contrastive Learning of sentence representations (VaSCL). Originating from the interpretation that data augmentation essentially constructs the neighborhoods of each training instance, we in turn utilize the neighborhood to generate effective data augmentations. Leveraging the large training batch size of contrastive learning, we approximate the neighborhood of an instance via its K-nearest in-batch neighbors in the representation space. We then define an instance discrimination task within this neighborhood, and generate the virtual augmentation in an adversarial training manner. We access the performance of VaSCL on a wide range of downstream tasks, and set a new state-of-the-art for unsupervised sentence representation learning.
翻訳日:2021-10-19 14:00:16 公開日:2021-10-16
# マルチモーダル対話応答生成

Multimodal Dialogue Response Generation ( http://arxiv.org/abs/2110.08515v1 )

ライセンス: Link先を確認
Qingfeng Sun, Yujing Wang, Can Xu, Kai Zheng, Yaming Yang, Huang Hu, Fei Xu, Jessica Zhang, Xiubo Geng, Daxin Jiang(参考訳) 画像による応答は、インテリジェントな会話エージェントにとって重要な能力として認識されている。 しかし、既存の作品は、検索ベースの方法に依存するが生成方法を無視するマルチモーダル対話モデルのみに焦点を当てている。 このギャップを埋めるために,まず対話履歴を入力として,テキストシーケンスや画像を応答として生成するマルチモーダル対話生成モデルを提案する。 このようなモデルを学ぶには、取得が難しいテキストと画像の両方を含むマルチモーダル対話を必要とすることが多い。 実際の課題に触発されて、限られた訓練例のみが利用できるという自然な仮定の下で、マルチモーダル対話生成を考える。 このような低リソース環境では、生成モデル全体のマルチモーダル対話に依存するパラメータを分離するために、新しい対話エージェントであるDivterを考案する。 これにより、モデルの主要な部分は、多数のテキストのみの対話とテキストイメージペアから学習でき、限られたトレーニング例を使用してパラメータ全体を適切に適合させることができる。 本手法は,自動評価と人間評価の両方において最先端の成果を達成し,有益なテキストと高分解能画像応答を生成できることを示す。

Responsing with image has been recognized as an important capability for an intelligent conversational agent. Yet existing works only focus on exploring the multimodal dialogue models which depend on retrieval-based methods, but neglecting generation methods. To fill in the gaps, we first present a multimodal dialogue generation model, which takes the dialogue history as input, then generates a textual sequence or an image as response. Learning such a model often requires multimodal dialogues containing both texts and images which are difficult to obtain. Motivated by the challenge in practice, we consider multimodal dialogue generation under a natural assumption that only limited training examples are available. In such a low-resource setting, we devise a novel conversational agent, Divter, in order to isolate parameters that depend on multimodal dialogues from the entire generation model. By this means, the major part of the model can be learned from a large number of text-only dialogues and text-image pairs respectively, then the whole parameters can be well fitted using the limited training examples. Extensive experiments demonstrate our method achieves state-of-the-art results in both automatic and human evaluation, and can generate informative text and high-resolution image responses.
翻訳日:2021-10-19 13:31:34 公開日:2021-10-16
# PHLトリプレット生成を用いた教師なし自然言語推論

Unsupervised Natural Language Inference Using PHL Triplet Generation ( http://arxiv.org/abs/2110.08438v1 )

ライセンス: Link先を確認
Neeraj Varshney, Pratyay Banerjee, Tejas Gokhale, Chitta Baral(参考訳) トランスフォーマーベースのモデルは、トレーニングデータセットのトレーニングによって、さまざまな自然言語推論(NLI)ベンチマークで印象的なパフォーマンスを達成した。 しかし、トレーニングサンプルが入手できない場合や、それらを集めるのに時間を要する場合もあります。 本稿では,この課題に対処し,非教師なしnliについて探索的研究を行う。 我々は,学習に利用可能なラベルなしデータの程度が異なるPH,P,NPHの3つの困難な条件下でNLIを調査した。 そこで,提案手法では,文変換のセットを利用してnliモデルの学習にphl(前提,仮説,ラベル)三重項を収集し,人間の注釈付き学習データセットの必要性を回避した手続きデータ生成手法を提案する。 総合的な実験により、このアプローチは66.75%、65.9%、65.39%のPH、P、NPH設定の精度を達成し、既存のベースラインを上回ります。 さらに、トレーニングデータセット(500サンプル)の0.1%程度でモデルを微調整すると、同じ500インスタンスでトレーニングされたモデルよりも12.2%精度が向上します。

Transformer-based models have achieved impressive performance on various Natural Language Inference (NLI) benchmarks, when trained on respective training datasets. However, in certain cases, training samples may not be available or collecting them could be time-consuming and resource-intensive. In this work, we address this challenge and present an explorative study on unsupervised NLI, a paradigm in which no human-annotated training samples are available. We investigate NLI under three challenging settings: PH, P, and NPH that differ in the extent of unlabeled data available for learning. As a solution, we propose a procedural data generation approach that leverages a set of sentence transformations to collect PHL (Premise, Hypothesis, Label) triplets for training NLI models, bypassing the need for human-annotated training datasets. Comprehensive experiments show that this approach results in accuracies of 66.75%, 65.9%, 65.39% in PH, P, NPH settings respectively, outperforming all existing baselines. Furthermore, fine-tuning our models with as little as ~0.1% of the training dataset (500 samples) leads to 12.2% higher accuracy than the model trained from scratch on the same 500 instances.
翻訳日:2021-10-19 13:30:51 公開日:2021-10-16
# ASR4REAL: 音声モデルの拡張ベンチマーク

ASR4REAL: An extended benchmark for speech models ( http://arxiv.org/abs/2110.08583v1 )

ライセンス: Link先を確認
Morgane Riviere, Jade Copet, Gabriel Synnaeve(参考訳) LibrispeechやSwitchboardのような一般的なASRベンチマークは、それらが表す設定やスピーカーの多様性に制限されている。 モデルにおけるバイアスや弱点の発見を目的とした,実生活条件に適合するベンチマークのセットを紹介する。 その結果,近年のモデルでは男女差がみられていないものの,アクセントによる重要なパフォーマンスの相違や,話者の社会経済的地位によってさらに重要な結果が得られていることがわかった。 最後に、すべてのテストされたモデルは、会話型音声でテストすると強いパフォーマンス低下を示し、この正確な文脈では、共通のクロールのような大きなデータセットでトレーニングされた言語モデルでさえ、会話型言語モデルを開発することの重要性を再現する重要な効果を示さないように思える。

Popular ASR benchmarks such as Librispeech and Switchboard are limited in the diversity of settings and speakers they represent. We introduce a set of benchmarks matching real-life conditions, aimed at spotting possible biases and weaknesses in models. We have found out that even though recent models do not seem to exhibit a gender bias, they usually show important performance discrepancies by accent, and even more important ones depending on the socio-economic status of the speakers. Finally, all tested models show a strong performance drop when tested on conversational speech, and in this precise context even a language model trained on a dataset as big as Common Crawl does not seem to have significant positive effect which reiterates the importance of developing conversational language models
翻訳日:2021-10-19 13:24:03 公開日:2021-10-16
# 弱い修正対象検出のためのLSTMネットワークによる比較提案拡張

Contrastive Proposal Extension with LSTM Network for Weakly Supervised Object Detection ( http://arxiv.org/abs/2110.07511v2 )

ライセンス: Link先を確認
Pei Lv, Suqi Hu, Tianran Hao, Haohan Ji, Lisha Cui, Haoyi Fan, Mingliang Xu and Changsheng Xu(参考訳) 画像レベルのラベルしか使用せず、膨大なアノテーションコストを節約できるため、WSOD(Weakly supervised Object Detection)が注目されている。 ほとんどのWSODメソッドは、インスタンス分類問題とみなす基本的なフレームワークとしてMIL(Multiple Instance Learning)を使用します。 しかし、MILに基づくこれらの手法は、対応する完全領域、すなわち不完全性ではなく、異なるインスタンスの最も区別された領域にのみ収束する傾向にある。 人によって物事を観察する習慣に触発されて,初期提案と拡張提案を比較して,その初期提案を最適化する手法を提案する。 具体的には、複数方向のコントラスト付き提案拡張(D-CPE)で構成されるコントラスト型提案拡張(CPE)と、LSTMネットワークと対応するデコーダに基づくエンコーダを含むD-CPEの新たな戦略を提案する。 まず、MILにおける初期提案の境界は、適切に設計された順序に従って異なる位置に拡張される。 次に、cpeはエンコーダを用いてそれらの特徴セマンティクスを抽出することで拡張提案と初期提案を比較し、初期提案の整合性を計算して初期提案のスコアを最適化する。 これらの対照的な文脈意味論は、基本的なwsodを導いて悪い提案を抑圧し、良い提案のスコアを改善する。 さらに、単純な2ストリームネットワークをデコーダとして設計し、LSTMの時間符号化を制限し、さらにWSODの性能を向上させる。 PASCAL VOC 2007 と VOC 2012 と MS-COCO のデータセットを用いた実験により,本手法は最先端の結果を得た。

Weakly supervised object detection (WSOD) has attracted more and more attention since it only uses image-level labels and can save huge annotation costs. Most of the WSOD methods use Multiple Instance Learning (MIL) as their basic framework, which regard it as an instance classification problem. However, these methods based on MIL tends to converge only on the most discriminate regions of different instances, rather than their corresponding complete regions, that is, insufficient integrity. Inspired by the habit of observing things by the human, we propose a new method by comparing the initial proposals and the extension ones to optimize those initial proposals. Specifically, we propose one new strategy for WSOD by involving contrastive proposal extension (CPE), which consists of multiple directional contrastive proposal extensions (D-CPE), and each D-CPE contains encoders based on LSTM network and corresponding decoders. Firstly, the boundary of initial proposals in MIL is extended to different positions according to well-designed sequential order. Then, CPE compares the extended proposal and the initial proposal by extracting the feature semantics of them using the encoders, and calculates the integrity of the initial proposal to optimize the score of the initial proposal. These contrastive contextual semantics will guide the basic WSOD to suppress bad proposals and improve the scores of good ones. In addition, a simple two-stream network is designed as the decoder to constrain the temporal coding of LSTM and improve the performance of WSOD further. Experiments on PASCAL VOC 2007, VOC 2012 and MS-COCO datasets show that our method has achieved the state-of-the-art results.
翻訳日:2021-10-19 11:23:09 公開日:2021-10-16