このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。 技術的な詳細は開発者のBlogで紹介します。

下表は最大1000000件を表示しています。

PDF登録状況(最新1000000件)


TitleAuthorsAbstract論文公表日・翻訳日
# (参考訳) ニューラル言語モデルと人間におけるインクリメンタル処理の目標評価 [全文訳有]

A Targeted Assessment of Incremental Processing in Neural LanguageModels and Humans ( http://arxiv.org/abs/2106.03232v1 )

ライセンス: CC BY 4.0
Ethan Gotlieb Wilcox, Pranali Vani, Roger P. Levy(参考訳) 本研究では,16種類の構文テストスイートを対象としたバイワード反応時間データ収集による,人間とニューラル言語モデルにおけるインクリメンタル処理の大規模化比較を行った。 人間の反応時間データは、Interpolated Maze Taskと呼ばれる新しいオンライン実験パラダイムに由来する。 人間の反応時間と、4つの現代言語モデルに対するバイワード確率を異なるアーキテクチャで比較し、さまざまなデータセットサイズで訓練する。 多くの現象を通して、人間と言語モデルの両方が、人間とモデル「正確性」スコア(la marvinとlinzen(2018))がほぼ等しい非文法文領域で処理困難度が増大していることが分かる。 しかし,言語モデルの出力は人間の方向と一致しているが,文法文と非文法文の漸進的処理困難度の差を系統的に過小評価している。 特に、モデルが構文的違反に遭遇すると、人間のデータで観察された長い反応時間を正確に予測することができない。 これらの結果は、現代言語モデルが構文違反に対する感受性のために人間のようなパフォーマンスに近づいているかどうかを問うものである。

We present a targeted, scaled-up comparison of incremental processing in humans and neural language models by collecting by-word reaction time data for sixteen different syntactic test suites across a range of structural phenomena. Human reaction time data comes from a novel online experimental paradigm called the Interpolated Maze task. We compare human reaction times to by-word probabilities for four contemporary language models, with different architectures and trained on a range of data set sizes. We find that across many phenomena, both humans and language models show increased processing difficulty in ungrammatical sentence regions with human and model `accuracy' scores (a la Marvin and Linzen(2018)) about equal. However, although language model outputs match humans in direction, we show that models systematically under-predict the difference in magnitude of incremental processing difficulty between grammatical and ungrammatical sentences. Specifically, when models encounter syntactic violations they fail to accurately predict the longer reaction times observed in the human data. These results call into question whether contemporary language models are approaching human-like performance for sensitivity to syntactic violations.
公開日:2021-06-06
翻訳日:2021-06-13 08:35:18
# (参考訳) ソーシャルネットワークにおける距離予測のための事前学習oracle [全文訳有]

A Pre-training Oracle for Predicting Distances in Social Networks ( http://arxiv.org/abs/2106.03233v1 )

ライセンス: CC BY 4.0
Gunjan Mahindre and Randy Paffenroth and Anura Jayasumana and Rasika Karkare(参考訳) 本稿では,実世界のソーシャルネットワークにおける距離予測手法を提案する。 欠落距離の予測は難しい問題であるので、2段階のアプローチを取る。 合成ネットワークファミリーの構造パラメータは、まず実世界のネットワークの小さな測定セットから推定され、これらの合成ネットワークは予測ニューラルネットワークを事前訓練するために使用される。 モデルではまず,任意に大規模なトレーニングデータセットを生成するために,最も適切な合成グラフパラメータを探索するので,我々はこの手法を"Oracle Search Pre-training" (OSP) と呼ぶ。 例えば、多くの現実世界のネットワークはノードの次数分布にパワーロー構造を示すため、適切なパワーローグラフパラメータを推定できるならば、パワーローモデルは所望のオラクルの基盤を提供して合成事前学習ネットワークを生成することができる。 そこで,本研究では,実世界のfacebook,eメール,および爆弾ネットワークのトレーニング実験を行い,ospが事前トレーニングを行わずにモデルを上回ること,不正確なパラメータで事前トレーニングされたモデル,および低ランク行列補完などの距離予測スキームを示す。 特に,ソーシャルネットワークからのサンプル距離の1%しか持たない1ホップ未満の予測誤差を達成する。 OSPは、合成トレーニングデータを生成する適切なモデルを選択することで、ランダムネットワークなどの他のドメインに容易に拡張することができ、多くの異なるネットワーク学習問題に影響を与えることを約束する。

In this paper, we propose a novel method to make distance predictions in real-world social networks. As predicting missing distances is a difficult problem, we take a two-stage approach. Structural parameters for families of synthetic networks are first estimated from a small set of measurements of a real-world network and these synthetic networks are then used to pre-train the predictive neural networks. Since our model first searches for the most suitable synthetic graph parameters which can be used as an "oracle" to create arbitrarily large training data sets, we call our approach "Oracle Search Pre-training" (OSP). For example, many real-world networks exhibit a Power law structure in their node degree distribution, so a Power law model can provide a foundation for the desired oracle to generate synthetic pre-training networks, if the appropriate Power law graph parameters can be estimated. Accordingly, we conduct experiments on real-world Facebook, Email, and Train Bombing networks and show that OSP outperforms models without pre-training, models pre-trained with inaccurate parameters, and other distance prediction schemes such as Low-rank Matrix Completion. In particular, we achieve a prediction error of less than one hop with only 1% of sampled distances from the social network. OSP can be easily extended to other domains such as random networks by choosing an appropriate model to generate synthetic training data, and therefore promises to impact many different network learning problems.
公開日:2021-06-06
翻訳日:2021-06-13 08:19:50
# (参考訳) 不変リスク最小化のためのより良いユニットテストの呼び出し [全文訳有]

A call for better unit testing for invariant risk minimisation ( http://arxiv.org/abs/2106.03234v1 )

ライセンス: CC BY 4.0
Chunyang Xiao, Pranava Madhyastha(参考訳) 本稿では,Arjovskyらによって導入された線形化IRM(IRMv1)フレームワークに関する制御研究について述べる。 (2020). IRMv1(とその変種)フレームワークは、最適回帰器の小さな変更で不安定になる可能性がある。 これは、すべてのトレーニング環境が混ざり合った場合のグローバル最小値に単純に収束するermと比較しても、新しい環境への一般化を悪化させる可能性がある。 IRMv1セットアップにおけるスケーリングの状況についても強調する。 これらの観察は、irmへの進歩を測定する上で、厳密な評価とユニットテストの重要性を強調している。

In this paper we present a controlled study on the linearized IRM framework (IRMv1) introduced in Arjovsky et al. (2020). We show that IRMv1 (and its variants) framework can be potentially unstable under small changes to the optimal regressor. This can, notably, lead to worse generalisation to new environments, even compared with ERM which converges simply to the global minimum for all training environments mixed up all together. We also highlight the isseus of scaling in the the IRMv1 setup. These observations highlight the importance of rigorous evaluation and importance of unit-testing for measuring progress towards IRM.
公開日:2021-06-06
翻訳日:2021-06-13 08:06:53
# (参考訳) CNNにおける研究バイアスと二酸化炭素排出量削減の重要性 [全文訳有]

Highlighting the Importance of Reducing Research Bias and Carbon Emissions in CNNs ( http://arxiv.org/abs/2106.03242v1 )

ライセンス: CC BY 4.0
Ahmed Badar, Arnav Varma, Adrian Staniec, Mahmoud Gamal, Omar Magdy, Haris Iqbal, Elahe Arani and Bahram Zonooz(参考訳) 畳み込みニューラルネットワーク(cnns)は,コンピュータビジョンにおける大きな課題に対処する上で,一般的である。 研究者は新しいcnnアーキテクチャを考案するだけでなく、既存のアーキテクチャのパフォーマンスを改善するためのさまざまな技術も研究している。 しかし、単純さ、汎用性、比較の公正性、エネルギー効率といった重要な変数を無視しながら、性能改善を過度に強調する傾向がある。 建築設計と評価においてこれらの変数を見渡すことは、研究バイアスと環境影響を著しく否定する結果となった。 さらに、これは、ディープラーニングモデルを使用して気候変動に取り組む研究のポジティブな影響を弱める可能性がある。 本稿では,各手法のセグメンテーションと分類における有用性を評価するため,提案手法の多岐にわたる公平な実証研究を行う。 私たちの発見は、モデル設計(occamのrazor)の複雑さよりも単純さを優先することの重要性を裏付けています。 さらに, 簡易な標準化により, 環境への影響が著しく減少し, 性能が低下することが示唆された。 我々は、研究バイアスや二酸化炭素排出量の問題を緩和するために、CNNの設計と評価を再考する必要があることを強調する。

Convolutional neural networks (CNNs) have become commonplace in addressing major challenges in computer vision. Researchers are not only coming up with new CNN architectures but are also researching different techniques to improve the performance of existing architectures. However, there is a tendency to over-emphasize performance improvement while neglecting certain important variables such as simplicity, versatility, the fairness of comparisons, and energy efficiency. Overlooking these variables in architectural design and evaluation has led to research bias and a significantly negative environmental impact. Furthermore, this can undermine the positive impact of research in using deep learning models to tackle climate change. Here, we perform an extensive and fair empirical study of a number of proposed techniques to gauge the utility of each technique for segmentation and classification. Our findings restate the importance of favoring simplicity over complexity in model design (Occam's Razor). Furthermore, our results indicate that simple standardized practices can lead to a significant reduction in environmental impact with little drop in performance. We highlight that there is a need to rethink the design and evaluation of CNNs to alleviate the issue of research bias and carbon emissions.
公開日:2021-06-06
翻訳日:2021-06-13 08:00:23
# (参考訳) パフォーマンス保証によるニューラルアクティブラーニング [全文訳有]

Neural Active Learning with Performance Guarantees ( http://arxiv.org/abs/2106.03243v1 )

ライセンス: CC BY 4.0
Pranjal Awasthi, Christoph Dann, Claudio Gentile, Ayush Sekhari, Zhilei Wang(参考訳) 本研究では,非パラメトリック環境におけるストリーミング環境におけるアクティブラーニングの問題点について検討する。 我々は最近提案されたニューラル・タンジェント・カーネル(NTK)近似ツールを用いて、アルゴリズムが操作する特徴空間と学習したモデルを上から計算する適切なニューラル埋め込みを構築する。 ラベル要求しきい値の形状は学習する関数の複雑さと密接に関連しているため、事前の知識に依存しないアルゴリズムのバージョンも導出する。 このアルゴリズムは、結果として生じるオンラインモデル選択問題を解決するために後悔のバランスの仕組みに依存しており、計算効率が高い。 ラベル付け関数の複雑さに依存する累積的後悔と要求されたラベル数に関する共同保証を実証する。 線形の場合、これらは標準統計学習環境におけるラベル複雑性の関数として一般化誤差の既知のミニマックス結果の回復を保証する。

We investigate the problem of active learning in the streaming setting in non-parametric regimes, where the labels are stochastically generated from a class of functions on which we make no assumptions whatsoever. We rely on recently proposed Neural Tangent Kernel (NTK) approximation tools to construct a suitable neural embedding that determines the feature space the algorithm operates on and the learned model computed atop. Since the shape of the label requesting threshold is tightly related to the complexity of the function to be learned, which is a-priori unknown, we also derive a version of the algorithm which is agnostic to any prior knowledge. This algorithm relies on a regret balancing scheme to solve the resulting online model selection problem, and is computationally efficient. We prove joint guarantees on the cumulative regret and number of requested labels which depend on the complexity of the labeling function at hand. In the linear case, these guarantees recover known minimax results of the generalization error as a function of the label complexity in a standard statistical learning setting.
公開日:2021-06-06
翻訳日:2021-06-13 07:33:09
# (参考訳) ウィンドウラベルランキングを用いた抽出研究スライド生成 [全文訳有]

Extractive Research Slide Generation Using Windowed Labeling Ranking ( http://arxiv.org/abs/2106.03246v1 )

ライセンス: CC0 1.0
Athar Sefid, Jian Wu, Prasenjit Mitra, Lee Giles(参考訳) 科学論文や技術論文の内容を説明するプレゼンテーションスライドは、その作品を提示するための効率的かつ効果的な方法です。 しかし、手動でプレゼンテーションスライドを生成するのは労力がかかります。 本研究では,会議報告サイトから編集された5,000組の紙スリッドペアのコーパスに基づいて,科学論文のスライドを自動生成する手法を提案する。 本手法の文ラベリングモジュールは,抽出要約のためのニューラルネットワークモデルであるsummarunnerに基づいている。 本アルゴリズムは,文書全体の意味的類似性に基づいて文をランク付けする代わりに,文ウィンドウ内の意味的特徴と語彙的特徴を組み合わせることにより,文の重要性と新しさを測定する。 提案手法は,ROUGEスコアにおいて有意差でSummaRuNNerを含むいくつかのベースライン手法より優れている。

Presentation slides describing the content of scientific and technical papers are an efficient and effective way to present that work. However, manually generating presentation slides is labor intensive. We propose a method to automatically generate slides for scientific papers based on a corpus of 5000 paper-slide pairs compiled from conference proceedings websites. The sentence labeling module of our method is based on SummaRuNNer, a neural sequence model for extractive summarization. Instead of ranking sentences based on semantic similarities in the whole document, our algorithm measures importance and novelty of sentences by combining semantic and lexical features within a sentence window. Our method outperforms several baseline methods including SummaRuNNer by a significant margin in terms of ROUGE score.
公開日:2021-06-06
翻訳日:2021-06-13 06:48:05
# (参考訳) Tabular Data: ディープラーニングは必要なすべてではない [全文訳有]

Tabular Data: Deep Learning is Not All You Need ( http://arxiv.org/abs/2106.03253v1 )

ライセンス: CC BY 4.0
Ravid Shwartz-Ziv and Amitai Armon(参考訳) AutoMLシステムの主要な要素は、タスクの種類ごとに使用されるモデルのタイプを設定することである。 表データの分類や回帰問題では、通常、ツリーアンサンブルモデル(XGBoostなど)の使用が推奨される。 しかし、最近、いくつかのユースケースでXGBoostより優れていると主張する表型データのためのディープラーニングモデルが提案されている。 本稿では,新しい深層モデルと各種データセットのxgboostを厳密に比較することにより,これらの深層モデルが表データに推奨される選択肢であるかどうかを検討する。 その精度を体系的に比較するだけでなく、チューニングや計算も検討する。 我々の研究によると、XGBoostは、深層モデルを提案する論文で使用されるデータセットを含む、これらの深層モデルよりも優れている。 また、XGBoostはずっと少ないチューニングを必要とします。 ポジティブな側面として、深層モデルとxgboostのアンサンブルは、xgboost単独よりもこれらのデータセットで優れたパフォーマンスを示す。

A key element of AutoML systems is setting the types of models that will be used for each type of task. For classification and regression problems with tabular data, the use of tree ensemble models (like XGBoost) is usually recommended. However, several deep learning models for tabular data have recently been proposed, claiming to outperform XGBoost for some use-cases. In this paper, we explore whether these deep models should be a recommended option for tabular data, by rigorously comparing the new deep models to XGBoost on a variety of datasets. In addition to systematically comparing their accuracy, we consider the tuning and computation they require. Our study shows that XGBoost outperforms these deep models across the datasets, including datasets used in the papers that proposed the deep models. We also demonstrate that XGBoost requires much less tuning. On the positive side, we show that an ensemble of the deep models and XGBoost performs better on these datasets than XGBoost alone.
公開日:2021-06-06
翻訳日:2021-06-13 06:41:26
# (参考訳) 列変換における潜在アライメントのモデル化のための構造的順序付け [全文訳有]

Structured Reordering for Modeling Latent Alignments in Sequence Transduction ( http://arxiv.org/abs/2106.03257v2 )

ライセンス: CC BY 4.0
Bailin Wang, Mirella Lapata and Ivan Titov(参考訳) 多くのドメインで成功しているにもかかわらず、ニューラルモデルは、異なるディストリビューションから列車とテスト例が引き出される設定で苦労している。 特に、人間とは対照的に、従来のシーケンシャル・ツー・シークエンス(seq2seq)モデルは、訓練で見られる概念(例えばテキストセグメント)の新しい組み合わせを表す文を体系的に一般化することができない。 伝統的な文法形式は、入力セグメントと出力セグメントの間のアライメントを暗黙的にエンコードすることでこのような設定で優れているが、スケールや保守は困難である。 文法を設計する代わりに、セグメント間アライメントを直接、ニューラルセク2セックモデル内の離散構造付き潜在変数としてモデル化する。 アライメントの大きな空間を効率的に探究するために、中央コンポーネントが"it separable} 置換を生成する神経再順序付けモジュールであるリオーダーファーストアライメント・アライメント・アライメント・アライメント・アライメントフレームワークを導入する。 本稿では,分離可能な置換の正確な辺縁推論を行う効率的な動的プログラミングアルゴリズムを提案する。 結果のSeq2seqモデルは、合成問題やNLPタスク(セマンティックパーシングや機械翻訳)の標準モデルよりも体系的な一般化が優れている。

Despite success in many domains, neural models struggle in settings where train and test examples are drawn from different distributions. In particular, in contrast to humans, conventional sequence-to-sequence (seq2seq) models fail to generalize systematically, i.e., interpret sentences representing novel combinations of concepts (e.g., text segments) seen in training. Traditional grammar formalisms excel in such settings by implicitly encoding alignments between input and output segments, but are hard to scale and maintain. Instead of engineering a grammar, we directly model segment-to-segment alignments as discrete structured latent variables within a neural seq2seq model. To efficiently explore the large space of alignments, we introduce a reorder-first align-later framework whose central component is a neural reordering module producing {\it separable} permutations. We present an efficient dynamic programming algorithm performing exact marginal inference of separable permutations, and, thus, enabling end-to-end differentiable training of our model. The resulting seq2seq model exhibits better systematic generalization than standard models on synthetic problems and NLP tasks (i.e., semantic parsing and machine translation).
公開日:2021-06-08
翻訳日:2021-06-13 06:30:59
# (参考訳) 列変換における潜在アライメントのモデル化のための構造的順序付け [全文訳有]

Structured Reordering for Modeling Latent Alignments in Sequence Transduction ( http://arxiv.org/abs/2106.03257v1 )

ライセンス: CC BY 4.0
Bailin Wang, Mirella Lapata and Ivan Titov(参考訳) 多くのドメインで成功しているにもかかわらず、ニューラルモデルは、異なるディストリビューションから列車とテスト例が引き出される設定で苦労している。 特に、人間とは対照的に、従来のシーケンシャル・ツー・シークエンス(seq2seq)モデルは、訓練で見られる概念(例えばテキストセグメント)の新しい組み合わせを表す文を体系的に一般化することができない。 伝統的な文法形式は、入力セグメントと出力セグメントの間のアライメントを暗黙的にエンコードすることでこのような設定で優れているが、スケールや保守は困難である。 文法を設計する代わりに、セグメント間アライメントを直接、ニューラルセク2セックモデル内の離散構造付き潜在変数としてモデル化する。 アライメントの大きな空間を効率的に探究するために、中央コンポーネントが"it separable} 置換を生成する神経再順序付けモジュールであるリオーダーファーストアライメント・アライメント・アライメント・アライメント・アライメントフレームワークを導入する。 本稿では,分離可能な置換の正確な辺縁推論を行う効率的な動的プログラミングアルゴリズムを提案する。 結果のSeq2seqモデルは、合成問題やNLPタスク(セマンティックパーシングや機械翻訳)の標準モデルよりも体系的な一般化が優れている。

Despite success in many domains, neural models struggle in settings where train and test examples are drawn from different distributions. In particular, in contrast to humans, conventional sequence-to-sequence (seq2seq) models fail to generalize systematically, i.e., interpret sentences representing novel combinations of concepts (e.g., text segments) seen in training. Traditional grammar formalisms excel in such settings by implicitly encoding alignments between input and output segments, but are hard to scale and maintain. Instead of engineering a grammar, we directly model segment-to-segment alignments as discrete structured latent variables within a neural seq2seq model. To efficiently explore the large space of alignments, we introduce a reorder-first align-later framework whose central component is a neural reordering module producing {\it separable} permutations. We present an efficient dynamic programming algorithm performing exact marginal inference of separable permutations, and, thus, enabling end-to-end differentiable training of our model. The resulting seq2seq model exhibits better systematic generalization than standard models on synthetic problems and NLP tasks (i.e., semantic parsing and machine translation).
公開日:2021-06-06
翻訳日:2021-06-13 06:15:45
# (参考訳) EventDrop: イベントベースの学習のためのデータ拡張 [全文訳有]

EventDrop: data augmentation for event-based learning ( http://arxiv.org/abs/2106.05836v1 )

ライセンス: CC BY 4.0
Fuqiang Gu, Weicong Sng, Xuke Hu, Fangwen Yu(参考訳) 従来のセンサ(例えば、高ダイナミックレンジ、低レイテンシ、低消費電力)に対するイベントセンシングの利点は、イベントデータに対する機械学習の研究を刺激している。 典型的なセットアップでは、離散イベントと非同期イベントは最初、標準のディープネットワークを適用可能なフレームライクなテンソルに変換される。 しかし、特にイベントデータセットが従来のデータセット(例: imagenet)に比べて小さいため、過剰フィッティングは依然として課題である。 本稿では,深層モデルの一般化を改善するため,非同期イベントデータを拡張するための新しい手法であるEventDropを紹介する。 様々な戦略で選択されたイベントをドロップすることで、トレーニングデータの多様性を高めることができる(例えば、様々なレベルの閉塞をシミュレートする)。 現実的には、EventDropは実装が簡単で、計算コストも低い。 2つのイベントデータセット(N-Caltech101とN-Cars)の実験は、EventDropがさまざまなディープネットワークにおける一般化性能を大幅に改善できることを示した。

The advantages of event-sensing over conventional sensors (e.g., higher dynamic range, lower time latency, and lower power consumption) have spurred research into machine learning for event data. Unsurprisingly, deep learning has emerged as a competitive methodology for learning with event sensors; in typical setups, discrete and asynchronous events are first converted into frame-like tensors on which standard deep networks can be applied. However, over-fitting remains a challenge, particularly since event datasets remain small relative to conventional datasets (e.g., ImageNet). In this paper, we introduce EventDrop, a new method for augmenting asynchronous event data to improve the generalization of deep models. By dropping events selected with various strategies, we are able to increase the diversity of training data (e.g., to simulate various levels of occlusion). From a practical perspective, EventDrop is simple to implement and computationally low-cost. Experiments on two event datasets (N-Caltech101 and N-Cars) demonstrate that EventDrop can significantly improve the generalization performance across a variety of deep networks.
公開日:2021-06-07
翻訳日:2021-06-13 06:00:30
# (参考訳) DMIDAS:長期マルチ水平時系列予測のための深層混合データサンプリング回帰 [全文訳有]

DMIDAS: Deep Mixed Data Sampling Regression for Long Multi-Horizon Time Series Forecasting ( http://arxiv.org/abs/2106.05860v1 )

ライセンス: CC BY 4.0
Cristian Challu, Kin G. Olivares, Gus Welter, Artur Dubrawski(参考訳) ニューラル予測は大規模システムの精度を大幅に向上させたが、非常に長い水平線を予測することは難しい課題である。 2つの一般的な問題は予測のボラティリティと計算複雑性であり、スムーズな正規化と混合データサンプリング技術を多層パーセプトロンアーキテクチャ(NBEATS)に組み込むことで対処する。 提案手法であるDMIDASを,長期間の予測地平線(約1000タイムスタンプ)を有する高周波医療・電気価格データ上で検証し,その予測精度を最先端モデルに比べて5%向上させ,NBEATSのパラメータ数を約70%削減する。

Neural forecasting has shown significant improvements in the accuracy of large-scale systems, yet predicting extremely long horizons remains a challenging task. Two common problems are the volatility of the predictions and their computational complexity; we addressed them by incorporating smoothness regularization and mixed data sampling techniques to a well-performing multi-layer perceptron based architecture (NBEATS). We validate our proposed method, DMIDAS, on high-frequency healthcare and electricity price data with long forecasting horizons (~1000 timestamps) where we improve the prediction accuracy by 5% over state-of-the-art models, reducing the number of parameters of NBEATS by nearly 70%.
公開日:2021-06-07
翻訳日:2021-06-13 05:48:16
# (参考訳) バッグングとブースティングを併用した最適混合確率モデル [全文訳有]

A Bagging and Boosting Based Convexly Combined Optimum Mixture Probabilistic Model ( http://arxiv.org/abs/2106.05840v1 )

ライセンス: CC BY-SA 4.0
Mian Arif Shams Adnan, H. M. Miraz Mahmud(参考訳) 混合分布に関するこれまでの研究と異なり, バグングおよびブースティングに基づく凸混合混合確率モデルが提案されている。 このモデルは、最大p値を与える最適確率モデルを得るための反復探索の結果である。

Unlike previous studies on mixture distributions, a bagging and boosting based convexly combined mixture probabilistic model has been suggested. This model is a result of iteratively searching for obtaining the optimum probabilistic model that provides the maximum p value.
公開日:2021-06-08
翻訳日:2021-06-13 05:39:38
# (参考訳) 未知のサービスレートを有する待ち行列システムのためのジョブディスパッチポリシー

Job Dispatching Policies for Queueing Systems with Unknown Service Rates ( http://arxiv.org/abs/2106.04707v2 )

ライセンス: CC BY 4.0
Tuhinangshu Choudhury, Gauri Joshi, Weina Wang, Sanjay Shakkottai(参考訳) すべてのジョブを保持する中央キューが存在しないマルチサーバキューシステムでは、ジョブディスパッチポリシを使用して、ひとつのサーバのキューにジョブを割り当てる。 join-the-shortest-qu eue や shortest expected delay のような古典的なジョブディスパッチポリシーは、サーバのサービスレートとキューの長さがディスパッチタに知られていると仮定している。 そこで本研究では,サービスレートや待ち行列の長さの知識を必要とせず,ジョブのディスパッチの問題に取り組む。 この問題は、ジョブをすべてのサーバに送信してサービスレートを見積もることと、現在知られている最速のサーバを活用して、待ち行列の遅延を最小化する、という、新たなエクスプロイテーショントレードオフを提示する。 我々は,監視職の退社からサービス率を学習するバンディットに基づく探索政策を提案する。 有限のアクションセットのうち1つだけが最適である標準的なマルチアームバンディット問題とは異なり、最適なポリシーでは各サーバに送信されるジョブの最適な割合を特定する必要がある。 提案手法の有効性を実証するために,後悔の分析とシミュレーションを行った。

In multi-server queueing systems where there is no central queue holding all incoming jobs, job dispatching policies are used to assign incoming jobs to the queue at one of the servers. Classic job dispatching policies such as join-the-shortest-qu eue and shortest expected delay assume that the service rates and queue lengths of the servers are known to the dispatcher. In this work, we tackle the problem of job dispatching without the knowledge of service rates and queue lengths, where the dispatcher can only obtain noisy estimates of the service rates by observing job departures. This problem presents a novel exploration-exploita tion trade-off between sending jobs to all the servers to estimate their service rates, and exploiting the currently known fastest servers to minimize the expected queueing delay. We propose a bandit-based exploration policy that learns the service rates from observed job departures. Unlike the standard multi-armed bandit problem where only one out of a finite set of actions is optimal, here the optimal policy requires identifying the optimal fraction of incoming jobs to be sent to each server. We present a regret analysis and simulations to demonstrate the effectiveness of the proposed bandit-based exploration policy.
公開日:2021-06-10
翻訳日:2021-06-13 05:35:11
# (参考訳) ゼロサムゲームにおけるオープンエンド学習のための行動と反応の多様性の統一 [全文訳有]

Unifying Behavioral and Response Diversity for Open-ended Learning in Zero-sum Games ( http://arxiv.org/abs/2106.04958v2 )

ライセンス: CC BY 4.0
Xiangyu Liu, Hangtian Jia, Ying Wen, Yaodong Yang, Yujing Hu, Yingfeng Chen, Changjie Fan, Zhipeng Hu(参考訳) 戦略の多様性の測定と促進は、戦略サイクルが存在する強力な非推移力学を持つゲームの解決に不可欠であり、一貫した勝者は存在しない(Rock-Paper-Scissors など)。 オープンエンド学習による多様なポリシーのプールを維持することは魅力的なソリューションであり、悪用されるのを避けるために自動カリキュラムを生成することができる。 しかし、従来のオープンエンド学習アルゴリズムでは、多様性の定義が広く受け入れられておらず、多様なポリシーの構築と評価が困難である。 本稿では,マルチエージェント・オープンディビジョン学習における多様性の統一尺度として,行動多様性(bd)と応答多様性(rd)の両方に基づいて,マルコフゲームにすべての要素を含める手法を提案する。 軌道分布レベルでは、状態-作用空間におけるBDを占有率の差として再定義する。 報酬力学では、異なる相手に遭遇する際のポリシーの応答を通じて多様性を特徴付けるRDを提案する。 また、現在の多様性対策の多くは、BDまたはRDのカテゴリの1つに該当するが、両方ではないことを示す。 この統一ダイバーシティ尺度を用いて,オープンエンド学習における最善の回答を求める際,対応する多様性促進目標と人口有効性を設計する。 我々は,行列ゲーム,非推移混合モデル,複雑な‘textit{Google Research Football}環境などの比較的単純なゲームにおいて,本手法の有効性を検証する。 提案手法によって得られた人口は,行列ゲームおよび非推移混合モデルにおいて,最も低い利用可能性,最も高い人口効果,および,各種レベルの対戦相手と対話する場合の最大の目標差を明らかにした。

Measuring and promoting policy diversity is critical for solving games with strong non-transitive dynamics where strategic cycles exist, and there is no consistent winner (e.g., Rock-Paper-Scissors) . With that in mind, maintaining a pool of diverse policies via open-ended learning is an attractive solution, which can generate auto-curricula to avoid being exploited. However, in conventional open-ended learning algorithms, there are no widely accepted definitions for diversity, making it hard to construct and evaluate the diverse policies. In this work, we summarize previous concepts of diversity and work towards offering a unified measure of diversity in multi-agent open-ended learning to include all elements in Markov games, based on both Behavioral Diversity (BD) and Response Diversity (RD). At the trajectory distribution level, we re-define BD in the state-action space as the discrepancies of occupancy measures. For the reward dynamics, we propose RD to characterize diversity through the responses of policies when encountering different opponents. We also show that many current diversity measures fall in one of the categories of BD or RD but not both. With this unified diversity measure, we design the corresponding diversity-promoting objective and population effectivity when seeking the best responses in open-ended learning. We validate our methods in both relatively simple games like matrix game, non-transitive mixture model, and the complex \textit{Google Research Football} environment. The population found by our methods reveals the lowest exploitability, highest population effectivity in matrix game and non-transitive mixture model, as well as the largest goal difference when interacting with opponents of various levels in \textit{Google Research Football}.
公開日:2021-06-10
翻訳日:2021-06-13 05:33:24
# (参考訳) 損失関数に基づく二階jensen不等式とその粒子変動推論への応用

Loss function based second-order Jensen inequality and its application to particle variational inference ( http://arxiv.org/abs/2106.05010v2 )

ライセンス: CC BY 4.0
Futoshi Futami, Tomoharu Iwata, Naonori Ueda, Issei Sato, and Masashi Sugiyama(参考訳) 後続分布による確率関数の期待値として得られたベイズモデル平均化は,予測,不確実性の評価,モデル選択に広く用いられている。 後方分布の情報を効率的に捉えるための様々なアプローチが開発されており、その1つは、アンサンブル学習と同じ方法で個々のモデルの多様性を確保するために相互作用を伴う一連のモデルの最適化である。 代表的なアプローチは粒子変動推論 (pvi) であり、モデルの集合を後続分布に対する経験的近似として用いる。 PVIは各モデルを反復的に更新し、最適化されたモデルの多様性を保証する。 しかし、その有望な性能にもかかわらず、この反発の理論的理解と一般化能力との関係は未だ不明である。 本稿では,PAC-ベイジアン解析の観点からこの問題に対処する。 まず、損失関数に基づく反発項を持つ新しい二階ジェンセン不等式を提供する。 反発項により、標準のジェンセン不等式よりも厳密である。 次に,新しい一般化誤差バウンドを導出し,モデルの多様性を増すことによりその誤差を低減できることを示す。 最後に、一般化誤差を直接的に最適化する新しいPVIを導出する。 数値実験により,提案したPVIの性能は既存手法と良好に比較できることを示した。

Bayesian model averaging, obtained as the expectation of a likelihood function by a posterior distribution, has been widely used for prediction, evaluation of uncertainty, and model selection. Various approaches have been developed to efficiently capture the information in the posterior distribution; one such approach is the optimization of a set of models simultaneously with interaction to ensure the diversity of the individual models in the same way as ensemble learning. A representative approach is particle variational inference (PVI), which uses an ensemble of models as an empirical approximation for the posterior distribution. PVI iteratively updates each model with a repulsion force to ensure the diversity of the optimized models. However, despite its promising performance, a theoretical understanding of this repulsion and its association with the generalization ability remains unclear. In this paper, we tackle this problem in light of PAC-Bayesian analysis. First, we provide a new second-order Jensen inequality, which has the repulsion term based on the loss function. Thanks to the repulsion term, it is tighter than the standard Jensen inequality. Then, we derive a novel generalization error bound and show that it can be reduced by enhancing the diversity of models. Finally, we derive a new PVI that optimizes the generalization error bound directly. Numerical experiments demonstrate that the performance of the proposed PVI compares favorably with existing methods in the experiment.
公開日:2021-06-10
翻訳日:2021-06-13 05:09:38
# (参考訳) 複雑な原因の操作:調停の実用的見方 [全文訳有]

Operationalizing Complex Causes: A Pragmatic View of Mediation ( http://arxiv.org/abs/2106.05074v2 )

ライセンス: CC0 1.0
Limor Gultchin, David S. Watson, Matt J. Kusner, Ricardo Silva(参考訳) 複雑な対象(テキスト,画像,ゲノムなど)に対する因果応答推定の問題について検討する。 この設定では、古典的な \emph{atomic} の介入がしばしば利用できない(例えば、文字、ピクセル、DNA塩基対)。 代わりに、間接的な介入や\emph{crude}介入(例えば、書き込みプログラムへの登録、シーンの変更、遺伝子治療の適用など)しかアクセスできません。 本研究では,この問題を形式化し,初期解を提供する。 候補媒介者の収集を前提として、(a)粗介入の因果反応を予測するための2段階の方法、(b)粗介入の媒介者を特定するための試験手順を提案する。 シミュレーションと実世界のインスパイアされた実例を用いて, 新たな治療体制の限られたデータを用いて, 粗介入の効果を効率的に推定できることを実証した。

We examine the problem of causal response estimation for complex objects (e.g., text, images, genomics). In this setting, classical \emph{atomic} interventions are often not available (e.g., changes to characters, pixels, DNA base-pairs). Instead, we only have access to indirect or \emph{crude} interventions (e.g., enrolling in a writing program, modifying a scene, applying a gene therapy). In this work, we formalize this problem and provide an initial solution. Given a collection of candidate mediators, we propose (a) a two-step method for predicting the causal responses of crude interventions; and (b) a testing procedure to identify mediators of crude interventions. We demonstrate, on a range of simulated and real-world-inspired examples, that our approach allows us to efficiently estimate the effect of crude interventions with limited data from new treatment regimes.
公開日:2021-06-10
翻訳日:2021-06-13 05:08:18
# (参考訳) HASI: ハードウェアによる確率推論 - 敵対的機械学習攻撃に対する防御 [全文訳有]

HASI: Hardware-Accelerated Stochastic Inference, A Defense Against Adversarial Machine Learning Attacks ( http://arxiv.org/abs/2106.05825v1 )

ライセンス: CC BY 4.0
Mohammad Hossein Samavatian, Saikat Majumdar, Kristin Barber, Radu Teodorescu(参考訳) DNNは、入力を慎重に操作して誤分類を引き起こすいわゆる敵攻撃に弱いことが知られている。 既存の防御は主にソフトウェアベースで、高いオーバーヘッドやその他の制限がある。 本稿では,確率推論と呼ばれる手法を用いて,対向入力を検出するハードウェアアクセラレーションディフェンスHASIを提案する。 hasiは推論時にモデルにノイズを注意深く注入し、モデルの応答を使用して、逆入力と良性入力を区別する。 その結果,平均87%の敵検出率が最先端の手法検出率を上回り,はるかに低いオーバーヘッドを示した。 ソフトウェアのみのGPU実装における14X-20Xオーバーヘッドと比較して,確率的推論のパフォーマンスへの影響を,保護されていないベースラインと比較して1.58X-2Xに低減するソフトウェア/ハードウェアアクセラレーションの共設計を実証する。

DNNs are known to be vulnerable to so-called adversarial attacks, in which inputs are carefully manipulated to induce misclassification. Existing defenses are mostly software-based and come with high overheads or other limitations. This paper presents HASI, a hardware-accelerated defense that uses a process we call stochastic inference to detect adversarial inputs. HASI carefully injects noise into the model at inference time and used the model's response to differentiate adversarial inputs from benign ones. We show an adversarial detection rate of average 87% which exceeds the detection rate of the state-of-the-art approaches, with a much lower overhead. We demonstrate a software/hardware-ac celerated co-design, which reduces the performance impact of stochastic inference to 1.58X-2X relative to the unprotected baseline, compared to 14X-20X overhead for a software-only GPU implementation.
公開日:2021-06-09
翻訳日:2021-06-13 04:45:28
# (参考訳) 医用画像分類における再考伝達学習 [全文訳有]

Rethink Transfer Learning in Medical Image Classification ( http://arxiv.org/abs/2106.05152v2 )

ライセンス: CC BY 4.0
Le Peng, Hengyue Liang, Taihui Li, Ju Sun(参考訳) 深層畳み込みニューラルネットワーク(DCNN)を用いた伝達学習(TL)は医用画像分類(MIC)において成功している。 MICは一般的にDCNNの下位層で学習される低層および中層機能にのみ依存するため、現在のプラクティスは混乱している。 この直感に従うと、MICにおけるTLの現在の戦略を疑問視する。 本稿では,異なるtl戦略を用いて,胸部x線データ集合の分類のための浅層と深層ネットワークの実験的比較を行った。 私たちは、ディープモデルは必ずしも好ましくないことに気付き、微調整されたディープモデルは、特にデータ貧弱な状況において、ほとんどの場合、最高のパフォーマンスを得る。 プロジェクトWebページ:https://sun-umn.git hub.io/Transfer-Lear ning-in-Medical-Imag ing/キーワード:転送学習、医用画像分類、特徴階層、医用画像、評価指標、不均衡データ

Transfer learning (TL) with deep convolutional neural networks (DCNNs) has proved successful in medical image classification (MIC). However, the current practice is puzzling, as MIC typically relies only on low- and/or mid-level features that are learned in the bottom layers of DCNNs. Following this intuition, we question the current strategies of TL in MIC. In this paper, we perform careful experimental comparisons between shallow and deep networks for classification on two chest x-ray datasets, using different TL strategies. We find that deep models are not always favorable, and finetuning truncated deep models almost always yields the best performance, especially in data-poor regimes. Project webpage: https://sun-umn.gith ub.io/Transfer-Learn ing-in-Medical-Imagi ng/ Keywords: Transfer learning, Medical image classification, Feature hierarchy, Medical imaging, Evaluation metrics, Imbalanced data
公開日:2021-06-10
翻訳日:2021-06-13 04:32:59
# (参考訳) CaloFlow: 正規化フローによるキャロリメータショーアの高速かつ高精度生成

CaloFlow: Fast and Accurate Generation of Calorimeter Showers with Normalizing Flows ( http://arxiv.org/abs/2106.05285v1 )

ライセンス: CC BY 4.0
Claudius Krause and David Shih(参考訳) 正規化フローに基づく高速検出器シミュレーションフレームワークであるCaloFlowを紹介する。 計算量の多いgeant4シミュレーションや、gansやvaesに基づく最先端の高速シミュレーションフレームワークの代替として、フローの正規化が極めて高い忠実度で多チャンネルのカロリメータシャワーを再現できることを初めて実証した。 実際の画像と実際の画像とを区別するために訓練された分類器の性能について,通常のヒストグラムやカロリーメータシャワーの画像に加えて,生成モデルの品質を判断する新たな指標を導入する。 GAN生成した画像は100%精度で分類器で識別でき、CaloFlowから生成された画像は多くの場合、分類器を騙すことができる。 より広い範囲において、フローの正規化は、他の最先端のアプローチ(gansとvaes)と比較していくつかの利点を提供している。 正規化フローはまた、データと潜伏空間の間の単射マッピングを提供し、例えば展開を検知するためのシミュレーション以外の応用を与えることができる。

We introduce CaloFlow, a fast detector simulation framework based on normalizing flows. For the first time, we demonstrate that normalizing flows can reproduce many-channel calorimeter showers with extremely high fidelity, providing a fresh alternative to computationally expensive GEANT4 simulations, as well as other state-of-the-art fast simulation frameworks based on GANs and VAEs. Besides the usual histograms of physical features and images of calorimeter showers, we introduce a new metric for judging the quality of generative modeling: the performance of a classifier trained to differentiate real from generated images. We show that GAN-generated images can be identified by the classifier with 100% accuracy, while images generated from CaloFlow are able to fool the classifier much of the time. More broadly, normalizing flows offer several advantages compared to other state-of-the-art approaches (GANs and VAEs), including: tractable likelihoods; stable and convergent training; and principled model selection. Normalizing flows also provide a bijective mapping between data and the latent space, which could have other applications beyond simulation, for example, to detector unfolding.
公開日:2021-06-09
翻訳日:2021-06-13 04:18:07
# (参考訳) Grover's Algorithm for Question Answering [全文訳有]

Grover's Algorithm for Question Answering ( http://arxiv.org/abs/2106.05299v1 )

ライセンス: CC BY 4.0
A. D. Correia, M. Moortgat, H. T. C. Stoof(参考訳) グロバーのアルゴリズムはよく知られた量子検索アルゴリズムであり、二次的なスピードアップでデータベース内の正しい項目を見つけることができる。 本稿では,グローバーのアルゴリズムを,英語の自然言語問題に対する正解を求める問題に適用し,量子自然言語処理の分野の拡大に寄与する。 テンソル収縮として解釈できる文法を用いて、各単語は量子回路への入力として機能する量子状態として表現される。 本稿では、単語の表現を縮めるために量子計測を導入し、その結果、より大きなテキスト断片を表現する。 このフレームワークを使用すると、質問の表現が発見され、同じ量子重ね合わせで可能な全ての答えが含まれ、特定の質問に無関係で正しい回答を検出できるオラクルの構築が可能になる。 さらに, 量子重ね合わせにおいても, 様々な意味を保ちながら, ある種のあいまいなフレーズを処理できることを示す。

Grover's algorithm, a well-know quantum search algorithm, allows one to find the correct item in a database, with quadratic speedup. In this paper we adapt Grover's algorithm to the problem of finding a correct answer to a natural language question in English, thus contributing to the growing field of Quantum Natural Language Processing. Using a grammar that can be interpreted as tensor contractions, each word is represented as a quantum state that serves as input to the quantum circuit. We here introduce a quantum measurement to contract the representations of words, resulting in the representation of larger text fragments. Using this framework, a representation for the question is found that contains all the possible answers in equal quantum superposition, and allows for the building of an oracle that can detect a correct answer, being agnostic to the specific question. Furthermore, we show that our construction can deal with certain types of ambiguous phrases by keeping the various different meanings in quantum superposition.
公開日:2021-06-09
翻訳日:2021-06-13 04:16:49
# (参考訳) 動的マスクを用いた時系列予測の解説 [全文訳有]

Explaining Time Series Predictions with Dynamic Masks ( http://arxiv.org/abs/2106.05303v1 )

ライセンス: CC BY 4.0
Jonathan Crabb\'e, Mihaela van der Schaar(参考訳) 機械学習モデルの予測についてどのように説明できるのか? データが多変量時系列として構造化されている場合、この質問は時間依存と多数の入力を具現化する説明の必要性などの追加の困難を生じさせる。 これらの課題に対処するため,動的マスク (Dynamask) を提案する。 この方法は、入力シーケンスに摂動マスクを嵌合させることにより、各時間ステップ毎に各特徴のインスタンス単位の重要スコアを生成する。 データの時間依存性を取り入れるために、dynamaskは動的摂動演算子の効果を研究している。 多数の入力に対処するために,特徴選択を同義に(必要以上の特徴を選ばない)かつ(情報理論と平行して記述することで詳述する)正当性を持たせる手法を提案する。 合成データと実世界のデータを用いて,dynamaskの動的基盤とparsimonyによって,機能の重要性の識別が時間とともに改善されることを実証する。 dynamaskのモジュール性は、時系列が豊富である医療や金融といった分野において、幅広い機械学習モデルの透明性を高めるためのプラグインとして理想的です。

How can we explain the predictions of a machine learning model? When the data is structured as a multivariate time series, this question induces additional difficulties such as the necessity for the explanation to embody the time dependency and the large number of inputs. To address these challenges, we propose dynamic masks (Dynamask). This method produces instance-wise importance scores for each feature at each time step by fitting a perturbation mask to the input sequence. In order to incorporate the time dependency of the data, Dynamask studies the effects of dynamic perturbation operators. In order to tackle the large number of inputs, we propose a scheme to make the feature selection parsimonious (to select no more feature than necessary) and legible (a notion that we detail by making a parallel with information theory). With synthetic and real-world data, we demonstrate that the dynamic underpinning of Dynamask, together with its parsimony, offer a neat improvement in the identification of feature importance over time. The modularity of Dynamask makes it ideal as a plug-in to increase the transparency of a wide range of machine learning models in areas such as medicine and finance, where time series are abundant.
公開日:2021-06-09
翻訳日:2021-06-13 03:55:28
# (参考訳) DiffCloth:ドライ摩擦接触による微分可能な衣服シミュレーション [全文訳有]

DiffCloth: Differentiable Cloth Simulation with Dry Frictional Contact ( http://arxiv.org/abs/2106.05306v1 )

ライセンス: CC BY 4.0
Yifei Li, Tao Du, Kui Wu, Jie Xu, Wojciech Matusik(参考訳) 衣服シミュレーションには、コンピュータアニメーション、衣服デザイン、ロボット支援ドレッシングなど幅広い応用がある。 本稿では,布に関するアプリケーションにおいて,さらなる勾配情報の提供が容易な,微分可能な布シミュレータを提案する。 我々の微分可能シミュレータは、プロジェクティブダイナミクスに基づく最先端の布シミュレータを拡張し、シノリニ・クーロン法により制御されるドライ摩擦接触を持つ。 このフォワード・シミュレーション・フレームワークに接触した勾配を導出し、従来の微分可能シミュレーション作業にインスパイアされたヤコビ反復による計算を高速化する。 我々の知る限り、最初の微分可能な布シミュレータをクーロン摩擦法則で提示する。 本稿では,システム同定,操作,逆設計,実対simタスクなど,様々なアプリケーションにおけるシミュレータの有効性を実証する。 我々の応用の多くは、以前の微分可能な布シミュレータでは実証されていない。 本シミュレータからの勾配情報により,標準的な勾配フリー手法よりも相当な高速化を観測できる,効率的な勾配ベースのタスクソルバを実現する。

Cloth simulation has wide applications including computer animation, garment design, and robot-assisted dressing. In this work, we present a differentiable cloth simulator whose additional gradient information facilitates cloth-related applications. Our differentiable simulator extends the state-of-the-art cloth simulator based on Projective Dynamics and with dry frictional contact governed by the Signorini-Coulomb law. We derive gradients with contact in this forward simulation framework and speed up the computation with Jacobi iteration inspired by previous differentiable simulation work. To our best knowledge, we present the first differentiable cloth simulator with the Coulomb law of friction. We demonstrate the efficacy of our simulator in various applications, including system identification, manipulation, inverse design, and a real-to-sim task. Many of our applications have not been demonstrated in previous differentiable cloth simulators. The gradient information from our simulator enables efficient gradient-based task solvers from which we observe a substantial speedup over standard gradient-free methods.
公開日:2021-06-09
翻訳日:2021-06-13 03:29:24
# (参考訳) Rendering-based Visibility Model を用いたロバスト協調知覚のための視覚センサポーズ最適化 [全文訳有]

Visual Sensor Pose Optimisation Using Rendering-based Visibility Models for Robust Cooperative Perception ( http://arxiv.org/abs/2106.05308v1 )

ライセンス: CC BY 4.0
Eduardo Arnold, Sajjad Mozaffari, Mehrdad Dianati, Paul Jennings(参考訳) 視覚センサネットワークは、複雑な道路区間における自律運転のためのインフラストラクチャサポートなど、様々な知覚アプリケーションで使用できる。 このようなネットワークにおけるセンサのポーズは、その環境やオブジェクトのカバレッジを直接決定し、オブジェクト検出やトラッキングといったアプリケーションのパフォーマンスに影響を与える。 既存のセンサは、地表面のカバレッジを最大化するか、ターゲットオブジェクトの可視性を様々な可視性を示すことができないバイナリ変数として考えるかのどちらかである。 このような定式化は、オクルージョンを考慮しないため、対象オブジェクトの可視性を保証することができない。 本稿では,複数対象対象物体の視認性を最大化する勾配強調法と整数計画法に基づく2つの新しいセンサポーズ最適化手法を提案する。 どちらの手法も、ターゲットオブジェクトに関するピクセルレベルの可視性情報を提供するレンダリングエンジンに基づく現実的な可視性モデルを考える。 提案手法は複雑な環境下で評価され,文献上の既存手法と比較した。 評価結果は,対象物体の視認性を明確にモデル化することは,乱雑な環境下での閉塞を避けるために重要であることを示している。 さらに,両手法はオブジェクトの可視性という点で既存手法よりも優れていた。

Visual Sensor Networks can be used in a variety of perception applications such as infrastructure support for autonomous driving in complex road segments. The pose of the sensors in such networks directly determines the coverage of the environment and objects therein, which impacts the performance of applications such as object detection and tracking. Existing sensor pose optimisation methods in the literature either maximise the coverage of ground surfaces, or consider the visibility of the target objects as binary variables, which cannot represent various degrees of visibility. Such formulations cannot guarantee the visibility of the target objects as they fail to consider occlusions. This paper proposes two novel sensor pose optimisation methods, based on gradient-ascent and Integer Programming techniques, which maximise the visibility of multiple target objects in cluttered environments. Both methods consider a realistic visibility model based on a rendering engine that provides pixel-level visibility information about the target objects. The proposed methods are evaluated in a complex environment and compared to existing methods in the literature. The evaluation results indicate that explicitly modelling the visibility of target objects is critical to avoid occlusions in cluttered environments. Furthermore, both methods significantly outperform existing methods in terms of object visibility.
公開日:2021-06-09
翻訳日:2021-06-13 02:32:23
# (参考訳) 産業制御ネットワークサイバーセキュリティオーケストレーションのための強化学習 [全文訳有]

Reinforcement Learning for Industrial Control Network Cyber Security Orchestration ( http://arxiv.org/abs/2106.05332v1 )

ライセンス: CC BY 4.0
John Mern, Kyle Hatch, Ryan Silva, Jeff Brush, Mykel J. Kochenderfer(参考訳) サイバー攻撃からコンピュータネットワークを守るには、ネットワーク操作の中断を最小限に抑えながら、妥協の完全な指標に基づいて複数のノードをまたがる行動を調整する必要がある。 高度な攻撃は、実行数ヶ月前に観測可能な信号がほとんどないまま進行する可能性がある。 結果として生じる逐次決定問題は、大きな観測と行動空間と長い時間軸を持ち、既存の手法では解決が難しい。 本稿では,大規模産業制御ネットワークにおけるサイバーセキュリティオーケストレーション問題を解決するために,深層強化学習をスケールする手法を提案する。 本稿では,保護下のネットワークサイズに不変な,サイズ複雑度を有する注意型ニューラルアーキテクチャを提案する。 早期探査の難しさを克服するための予習カリキュラムが提示される。 実験により,提案手法は,学習サンプルの複雑さと,ベースライン法よりも収束したポリシー性能の両方を大幅に改善することを示した。

Defending computer networks from cyber attack requires coordinating actions across multiple nodes based on imperfect indicators of compromise while minimizing disruptions to network operations. Advanced attacks can progress with few observable signals over several months before execution. The resulting sequential decision problem has large observation and action spaces and a long time-horizon, making it difficult to solve with existing methods. In this work, we present techniques to scale deep reinforcement learning to solve the cyber security orchestration problem for large industrial control networks. We propose a novel attention-based neural architecture with size complexity that is invariant to the size of the network under protection. A pre-training curriculum is presented to overcome early exploration difficulty. Experiments show in that the proposed approaches greatly improve both the learning sample complexity and converged policy performance over baseline methods in simulation.
公開日:2021-06-09
翻訳日:2021-06-13 02:05:08
# (参考訳) 後方サンプリングによる確率的最短経路モデルのオンライン学習 [全文訳有]

Online Learning for Stochastic Shortest Path Model via Posterior Sampling ( http://arxiv.org/abs/2106.05335v1 )

ライセンス: CC BY 4.0
Mehdi Jafarnia-Jahromi, Liyu Chen, Rahul Jain, Haipeng Luo(参考訳) 吸収状態を持つ未知のMDPとしてモデル化された確率的短経路問題(SSP)に対するオンライン強化学習の問題点を考察する。 SSP問題に対する単純な後方サンプリングに基づく強化学習アルゴリズムであるPSRL-SSPを提案する。 アルゴリズムはエポックで動作します。 各エポックの開始時に、未知のモデルダイナミクスの後方分布からサンプルを抽出し、そのエポックの間、この描画されたサンプルに対する最適なポリシーに従う。 エポックは、現在のエポックにおけるゴール状態への訪問回数が前のエポックの訪問回数を超えるか、またはいずれかのステート-アクションペアへの訪問回数が倍になる場合に完了する。 ここで、$b_\star$は、最適なポリシーの期待されるコストの上限であり、$s$は、状態空間のサイズであり、$a$は、アクション空間のサイズであり、$k$は、エピソードの数である。 このアルゴリズムは、事前分布の知識のみを必要とし、チューニングするハイパーパラメータを持たない。 この種の後方サンプリングアルゴリズムとしては初めてであり、これまで提案されていたオプティミズムに基づくアルゴリズムよりも優れていた。

We consider the problem of online reinforcement learning for the Stochastic Shortest Path (SSP) problem modeled as an unknown MDP with an absorbing state. We propose PSRL-SSP, a simple posterior sampling-based reinforcement learning algorithm for the SSP problem. The algorithm operates in epochs. At the beginning of each epoch, a sample is drawn from the posterior distribution on the unknown model dynamics, and the optimal policy with respect to the drawn sample is followed during that epoch. An epoch completes if either the number of visits to the goal state in the current epoch exceeds that of the previous epoch, or the number of visits to any of the state-action pairs is doubled. We establish a Bayesian regret bound of $O(B_\star S\sqrt{AK})$, where $B_\star$ is an upper bound on the expected cost of the optimal policy, $S$ is the size of the state space, $A$ is the size of the action space, and $K$ is the number of episodes. The algorithm only requires the knowledge of the prior distribution, and has no hyper-parameters to tune. It is the first such posterior sampling algorithm and outperforms numerically previously proposed optimism-based algorithms.
公開日:2021-06-09
翻訳日:2021-06-13 01:49:22
# (参考訳) DESCGEN: 抽象エンティティ記述を生成するための遠隔監視データセット [全文訳有]

DESCGEN: A Distantly Supervised Datasetfor Generating Abstractive Entity Descriptions ( http://arxiv.org/abs/2106.05365v1 )

ライセンス: CC BY 4.0
Weijia Shi, Mandar Joshi, Luke Zettlemoyer(参考訳) エンティティの短いテキスト記述は、キー属性の要約を提供し、エンティティリンクや質問応答といったタスクの背景知識の有用な情報源であることが示されている。 しかし,内容やスタイルが異なる複数のソースに関連情報が散在することが多いため,エンティティ記述の生成は,特に新しいロングテールエンティティに対しては困難である。 descgenを紹介する: 複数のドキュメントにまたがる言及を考えると、目標はエンティティの概要記述を生成することです。 descgenはwikipediaとfandomの37kのエンティティ記述で構成されており、それぞれに平均9つの証拠文書がある。 ドキュメントはwikipediaとfandomエンティティページへのエンティティリンクとハイパーリンクの組み合わせを使って収集され、高品質な遠隔監視を提供する。 結果として得られる要約は、既存のデータセットよりも抽象的で、新しいエンティティや新興エンティティを記述する上での課題に対して、より優れたプロキシを提供する。 また,2段階の抽出-then-generateベースラインを提案し,最先端モデルと人間のパフォーマンスの間に大きなギャップ(ルージュlの19.9%)があることを示し,そのデータが将来の大きな作業をサポートすることを示唆する。

Short textual descriptions of entities provide summaries of their key attributes and have been shown to be useful sources of background knowledge for tasks such as entity linking and question answering. However, generating entity descriptions, especially for new and long-tail entities, can be challenging since relevant information is often scattered across multiple sources with varied content and style. We introduce DESCGEN: given mentions spread over multiple documents, the goal is to generate an entity summary description. DESCGEN consists of 37K entity descriptions from Wikipedia and Fandom, each paired with nine evidence documents on average. The documents were collected using a combination of entity linking and hyperlinks to the Wikipedia and Fandom entity pages, which together provide high-quality distant supervision. The resulting summaries are more abstractive than those found in existing datasets and provide a better proxy for the challenge of describing new and emerging entities. We also propose a two-stage extract-then-generat e baseline and show that there exists a large gap (19.9% in ROUGE-L) between state-of-the-art models and human performance, suggesting that the data will support significant future work.
公開日:2021-06-09
翻訳日:2021-06-13 01:04:21
# (参考訳) 確率線形帯域のパラメータと特徴選択 [全文訳有]

Parameter and Feature Selection in Stochastic Linear Bandits ( http://arxiv.org/abs/2106.05378v1 )

ライセンス: CC BY 4.0
Ahmadreza Moradipari, Yasin Abbasi-Yadkori, Mahnoosh Alizadeh, Mohammad Ghavamzadeh(参考訳) 確率線形バンディット (lb) におけるモデル選択設定について検討した。 最初の設定では、LB問題の報酬パラメータは、$\mathbb R^d$の重なり合うボールとして表される$M$モデルから任意に選択される。 しかし、エージェントは不特定モデル(すなわちボールの中心と半径の推定値)にしかアクセスできない。 この設定をパラメータ選択と呼ぶ。 第2の設定では、機能選択 (feature selection) と呼ばれ、lb問題の期待される報酬は、少なくとも$m$フィーチャマップ (models) の少なくとも1つの線形スパンにある。 各設定に対して,帯域幅から全情報問題への削減に基づくアルゴリズムを開発し,解析する。 これにより、真のモデルが知られている場合よりも悪くはない($\sqrt{\log m}$ factor まで)後悔の限界を得ることができる。 パラメータ選択アルゴリズムはoful型であり,特徴選択アルゴリズムはsquarecbアルゴリズムに基づいている。 また,パラメータ選択アルゴリズムの後悔は,モデルの誤特定と対数的にスケールすることを示した。

We study two model selection settings in stochastic linear bandits (LB). In the first setting, the reward parameter of the LB problem is arbitrarily selected from $M$ models represented as (possibly) overlapping balls in $\mathbb R^d$. However, the agent only has access to misspecified models, i.e., estimates of the centers and radii of the balls. We refer to this setting as parameter selection. In the second setting, which we refer to as feature selection, the expected reward of the LB problem is in the linear span of at least one of $M$ feature maps (models). For each setting, we develop and analyze an algorithm that is based on a reduction from bandits to full-information problems. This allows us to obtain regret bounds that are not worse (up to a $\sqrt{\log M}$ factor) than the case where the true model is known. Our parameter selection algorithm is OFUL-style and the one for feature selection is based on the SquareCB algorithm. We also show that the regret of our parameter selection algorithm scales logarithmically with model misspecification.
公開日:2021-06-09
翻訳日:2021-06-13 00:49:45
# (参考訳) メタラーニングによる継続学習のための再利用可能な知識の最適化 [全文訳有]

Optimizing Reusable Knowledge for Continual Learning via Metalearning ( http://arxiv.org/abs/2106.05390v1 )

ライセンス: CC BY 4.0
Julio Hurtado, Alain Raymond-Saez and Alvaro Soto(参考訳) 時間の経過とともにタスクを学習する際、人工知能ニューラルネットワークは、Catastrophic Forgetting (CF)と呼ばれる問題に悩まされる。 これは、古い情報を忘れた新しいタスクのトレーニング中にネットワークの重みが上書きされたときに発生する。 この問題に対処するために,新しいタスクを学習する際にオーバーライトする代わりに,重み付け再利用性を促進する新しい手法であるmeta reusable knowledge or markを提案する。 具体的には、MARKはタスク間の共有重みのセットを保持する。 これらの共有重みは、新しいタスクを学ぶために使われるだけでなく、モデルが新しいタスクを学ぶときに新しい知識に富む共通知識ベース(KB)として考えます。 MARKの主要なコンポーネントは2つだ。 一方、メタラーニングアプローチは、KBを新たな知識で漸進的に強化し、タスク間の重み付け可能性を高めるための重要なメカニズムを提供する。 一方、訓練可能なマスクのセットは、各タスクを解決するためにkbに関連する重みの中から選択するキーメカニズムを提供する。 markを用いて,20スプライト・ミニイメージネットデータセットにおいて,平均精度で最高性能の手法を10%以上上回り,パラメータ数の55%でほぼゼロの忘れやすさを達成している。 さらに、アブレーション研究は、markが各タスクで選択的に使用される再利用可能な知識を学習している証拠を与える。

When learning tasks over time, artificial neural networks suffer from a problem known as Catastrophic Forgetting (CF). This happens when the weights of a network are overwritten during the training of a new task causing forgetting of old information. To address this issue, we propose MetA Reusable Knowledge or MARK, a new method that fosters weight reusability instead of overwriting when learning a new task. Specifically, MARK keeps a set of shared weights among tasks. We envision these shared weights as a common Knowledge Base (KB) that is not only used to learn new tasks, but also enriched with new knowledge as the model learns new tasks. Key components behind MARK are two-fold. On the one hand, a metalearning approach provides the key mechanism to incrementally enrich the KB with new knowledge and to foster weight reusability among tasks. On the other hand, a set of trainable masks provides the key mechanism to selectively choose from the KB relevant weights to solve each task. By using MARK, we achieve state of the art results in several popular benchmarks, surpassing the best performing methods in terms of average accuracy by over 10% on the 20-Split-MiniImageNe t dataset, while achieving almost zero forgetfulness using 55% of the number of parameters. Furthermore, an ablation study provides evidence that, indeed, MARK is learning reusable knowledge that is selectively used by each task.
公開日:2021-06-09
翻訳日:2021-06-12 23:36:45
# (参考訳) 非線形ニューラルネットワークの細粒度システム同定 [全文訳有]

Fine-Grained System Identification of Nonlinear Neural Circuits ( http://arxiv.org/abs/2106.05400v1 )

ライセンス: CC BY 4.0
Dawna Bagherian, James Gornet, Jeremy Bernstein, Yu-Li Ni, Yisong Yue, and Markus Meister(参考訳) 高次元合成関数の疎非線形モデル回復問題について検討する。 我々の研究は、収集された測定データを用いて生体神経回路のきめ細かいモデルを復元する神経科学の新たな機会に動機付けられている。 神経科学における利用可能なドメイン知識に導かれ、トレーニングデータを生成する基礎となる生体回路を回復できる条件を探索する。 結果は理論的・実用的双方の関心の見識を示唆する。 最も注目すべきは、重み付けに対する符号制約がシステムの回復に必要条件であることであり、理論上は識別可能性保証と、シミュレーションされた生物学的回路の両方で確立する。 マウス網膜から収集したデータを用いた網膜神経節細胞回路のケーススタディにより,本手法の実用化の可能性を示した。

We study the problem of sparse nonlinear model recovery of high dimensional compositional functions. Our study is motivated by emerging opportunities in neuroscience to recover fine-grained models of biological neural circuits using collected measurement data. Guided by available domain knowledge in neuroscience, we explore conditions under which one can recover the underlying biological circuit that generated the training data. Our results suggest insights of both theoretical and practical interests. Most notably, we find that a sign constraint on the weights is a necessary condition for system recovery, which we establish both theoretically with an identifiability guarantee and empirically on simulated biological circuits. We conclude with a case study on retinal ganglion cell circuits using data collected from mouse retina, showcasing the practical potential of this approach.
公開日:2021-06-09
翻訳日:2021-06-12 23:22:08
# (参考訳) 社会的学習における認知 : マルチエージェント強化学習の視点から [全文訳有]

Deception in Social Learning: A Multi-Agent Reinforcement Learning Perspective ( http://arxiv.org/abs/2106.05402v1 )

ライセンス: CC BY 4.0
Paul Chelarescu(参考訳) マルチエージェント強化学習(Multi-Agent Reinforcement Learning)の枠組みの中で、ソーシャルラーニング(Social Learning)は、エージェントが他のエージェントの報酬機能を再形成することを可能にする新しいアルゴリズムのクラスである。 しかし、この新しい修正により、エージェント同士の学習プロセスに前例のないアクセスが可能となり、エージェントが実際に最善ではないポリシーを採用することに騙されていることに気づかない場合には、操作のリスクが大幅に増大する。 本研究は、問題ステートメントを導入し、重要な概念を定義し、既存の証拠を批判的に評価し、今後の研究で解決すべき課題に対処する。

Within the framework of Multi-Agent Reinforcement Learning, Social Learning is a new class of algorithms that enables agents to reshape the reward function of other agents with the goal of promoting cooperation and achieving higher global rewards in mixed-motive games. However, this new modification allows agents unprecedented access to each other's learning process, which can drastically increase the risk of manipulation when an agent does not realize it is being deceived into adopting policies which are not actually in its own best interest. This research review introduces the problem statement, defines key concepts, critically evaluates existing evidence and addresses open problems that should be addressed in future research.
公開日:2021-06-09
翻訳日:2021-06-12 23:02:09
# (参考訳) ゼロタイムムダ:初期エグジットニューラルネットワークにおけるリサイクル予測 [全文訳有]

Zero Time Waste: Recycling Predictions in Early Exit Neural Networks ( http://arxiv.org/abs/2106.05409v1 )

ライセンス: CC BY 4.0
Maciej Wo{\l}czyk, Bartosz W\'ojcik, Klaudia Ba{\l}azy, Igor Podolak, Jacek Tabor, Marek \'Smieja, Tomasz Trzci\'nski(参考訳) 大規模ディープラーニングモデルの処理時間を短縮する問題は、多くの現実世界アプリケーションにおいて根本的な課題である。 早期終了メソッドは、ニューラルネットワークの中間層に追加の内部分類器(IC)を追加することで、この目標に向かっている。 ICは簡単な例の予測を素早く返し、結果としてモデル全体の平均推測時間を短縮することができる。 しかし、特定のICが答えを早期に返さない場合、その予測は破棄され、その計算は事実上無駄にされる。 そこで本研究では,(1)IC間の直接接続を付加し,(2)前の出力をアンサンブル的な方法で組み合わせることで,各ICが前者から返却した予測を再利用する手法であるZero Time Waste (ZTW)を紹介する。 我々は、ZTWが最近提案された他の早期出口法よりもはるかに精度が良いことを実証するために、さまざまなデータセットやアーキテクチャにわたって広範な実験を行った。

The problem of reducing processing time of large deep learning models is a fundamental challenge in many real-world applications. Early exit methods strive towards this goal by attaching additional Internal Classifiers (ICs) to intermediate layers of a neural network. ICs can quickly return predictions for easy examples and, as a result, reduce the average inference time of the whole model. However, if a particular IC does not decide to return an answer early, its predictions are discarded, with its computations effectively being wasted. To solve this issue, we introduce Zero Time Waste (ZTW), a novel approach in which each IC reuses predictions returned by its predecessors by (1) adding direct connections between ICs and (2) combining previous outputs in an ensemble-like manner. We conduct extensive experiments across various datasets and architectures to demonstrate that ZTW achieves a significantly better accuracy vs. inference time trade-off than other recently proposed early exit methods.
公開日:2021-06-09
翻訳日:2021-06-12 22:40:21
# (参考訳) DASVDD: 異常検出のためのDeep Autoencoding Support Vector Data Descriptor [全文訳有]

DASVDD: Deep Autoencoding Support Vector Data Descriptor for Anomaly Detection ( http://arxiv.org/abs/2106.05410v1 )

ライセンス: CC BY 4.0
Hadi Hojjati, Narges Armanfard(参考訳) 通常のデータのみを訓練したモデルを用いて、正常サンプルから異常を検出することを目的とした半教師付き異常検出は、過去10年間、活発な研究分野であった。 ディープラーニングの最近の進歩、特に生成的敵ネットワークとオートエンコーダにより、研究者は効率的な深部異常検出法を設計した。 既存の作品では、オートエンコーダのようなニューラルネットワークを使用して、データを扱いやすい新しい表現にマッピングし、異常検出アルゴリズムを適用するのが一般的である。 本稿では,自動エンコーダのパラメータを協調的に学習し,その潜在表現上で囲む超球の体積を最小化する手法であるdasvddを提案する。 本研究では,オートエンコーダの再構成誤差と,囲む超球の中心からサンプルの低次元表現距離を組み合わせた,カスタマイズされた異常スコアを提案する。 トレーニング中の正規データに対するこの異常スコアの最小化は、正規データの基礎となる分布を学習するのに役立ちます。 異常スコアに再構成誤差を含めると、DASVDDは、提案されたDASVDDモデルは、全ての入力を潜在表現の定数点にマッピングする自明な解に収束しないため、共通の超球崩壊問題に悩まされない。 異なる領域のベンチマークデータセットにおける実験的評価により、提案手法は、異なる異常クラスにおける堅牢で正確な性能を維持しつつ、一般的に使用される最先端の異常検出アルゴリズムのほとんどを上回ることが示された。

Semi-supervised anomaly detection, which aims to detect anomalies from normal samples using a model that is solely trained on normal data, has been an active field of research in the past decade. With recent advancements in deep learning, particularly generative adversarial networks and autoencoders, researchers have designed efficient deep anomaly detection methods. Existing works commonly use neural networks such as an autoencoder to map the data into a new representation that is easier to work with and then apply an anomaly detection algorithm. In this paper, we propose a method, DASVDD, that jointly learns the parameters of an autoencoder while minimizing the volume of an enclosing hyper-sphere on its latent representation. We propose a customized anomaly score which is a combination of autoencoder's reconstruction error and distance of the lower-dimensional representation of a sample from the center of the enclosing hyper-sphere. Minimizing this anomaly score on the normal data during training aids us in learning the underlying distribution of normal data. Including the reconstruction error in the anomaly score ensures that DASVDD does not suffer from the common hyper-sphere collapse issue since the proposed DASVDD model does not converge to the trivial solution of mapping all inputs to a constant point in the latent representation. Experimental evaluations on several benchmark datasets from different domains show that the proposed method outperforms most of the commonly used state-of-the-art anomaly detection algorithms while maintaining robust and accurate performance across different anomaly classes.
公開日:2021-06-09
翻訳日:2021-06-12 22:23:15
# (参考訳) 言語表現空間における低次元構造は脳反応に反映される [全文訳有]

Low-Dimensional Structure in the Space of Language Representations is Reflected in Brain Responses ( http://arxiv.org/abs/2106.05426v1 )

ライセンス: CC BY 4.0
Richard Antonello, Javier Turek, Vy Vo, and Alexander Huth(参考訳) ニューラルネットワークモデル、翻訳モデル、言語タグ付けタスクによって学習される表現は、どの程度関連しているか? 本稿では,コンピュータビジョンからエンコーダ-デコーダ変換学習手法を適用し,言語タスクを訓練した各種ネットワークの隠れ表現から抽出した100種類の特徴空間の構造について検討する。 本手法は,言語モデルと翻訳モデルが単語の埋め込み,構文的・意味的タスク,将来の単語埋め込みを円滑に補間する低次元構造を明らかにする。 この低次元構造を言語表現埋め込みと呼び、様々なNLPタスクのために言語処理に必要な表現間の関係を符号化する。 この表現埋め込みは、個々の特徴空間が、fmriで記録された自然言語刺激に対する人間の脳の反応にどの程度うまくマッピングできるかを予測することができる。 さらに、この構造の主要な次元は、脳の自然言語処理階層を強調するメトリクスの作成に利用できることが判明した。 これは、埋め込みが脳の自然言語表現構造の一部を捉えることを示唆している。

How related are the representations learned by neural language models, translation models, and language tagging tasks? We answer this question by adapting an encoder-decoder transfer learning method from computer vision to investigate the structure among 100 different feature spaces extracted from hidden representations of various networks trained on language tasks. This method reveals a low-dimensional structure where language models and translation models smoothly interpolate between word embeddings, syntactic and semantic tasks, and future word embeddings. We call this low-dimensional structure a language representation embedding because it encodes the relationships between representations needed to process language for a variety of NLP tasks. We find that this representation embedding can predict how well each individual feature space maps to human brain responses to natural language stimuli recorded using fMRI. Additionally, we find that the principal dimension of this structure can be used to create a metric which highlights the brain's natural language processing hierarchy. This suggests that the embedding captures some part of the brain's natural language representation structure.
公開日:2021-06-09
翻訳日:2021-06-12 22:10:44
# (参考訳) deep direct volume rendering: 例示画像からの視覚的特徴マッピングの学習 [全文訳有]

Deep Direct Volume Rendering: Learning Visual Feature Mappings From Exemplary Images ( http://arxiv.org/abs/2106.05429v1 )

ライセンス: CC BY-SA 4.0
Jakob Weiss, Nassir Navab(参考訳) ボリュームレンダリングは三次元スカラーデータグリッドを可視化する重要な技術であり、科学や医学的な画像データに一般的に用いられている。 直接ボリュームレンダリング(英: Direct Volume Rendering, DVR)は、ボリュームデータのためのアルゴリズムである。 ニューラルレンダリングは、ディープニューラルネットワークを使用して逆レンダリングタスクを解決し、DVRに似たテクニックを適用する。 しかし、科学的ボリュームデータのレンダリングには成功していない。 本稿では,DVRアルゴリズムへのディープニューラルネットワークの統合を可能にするDVRの一般化であるDeep Direct Volume Rendering(DeepDVR)を紹介する。 色空間におけるレンダリングを概念化し、深層アーキテクチャを用いて特徴抽出と分類のための暗黙マッピングを学習し、明示的な特徴設計と手作りの伝達関数を置き換える。 私たちの一般化は、画像空間の例からエンドツーエンドでトレーニングできる新しいボリュームレンダリングアーキテクチャを導出し、より優れた分類強度を提供しながら、手動で多次元転送関数を定義し、微調整する必要をなくすのに役立ちます。 さらに,DeepDVRモデルのトレーニングを加速し,その有効性を実験で検証する段階的アニール方式を提案する。 我々は,(1)手動で調整した1ボリュームの参照画像から最適化されたレンダリングを学習すること,(2)シェーディングやセマンティックカラー化などの高度な視覚化概念を学習すること,の2つの例でアーキテクチャを検証する。 DVRパイプラインの明示的なモデリングによる深部ボリュームレンダリングアーキテクチャは,対象画像からの科学的ボリュームレンダリングタスクのエンドツーエンド学習を効果的に実現する。

Volume Rendering is an important technique for visualizing three-dimensional scalar data grids and is commonly employed for scientific and medical image data. Direct Volume Rendering (DVR) is a well established and efficient rendering algorithm for volumetric data. Neural rendering uses deep neural networks to solve inverse rendering tasks and applies techniques similar to DVR. However, it has not been demonstrated successfully for the rendering of scientific volume data. In this work, we introduce Deep Direct Volume Rendering (DeepDVR), a generalization of DVR that allows for the integration of deep neural networks into the DVR algorithm. We conceptualize the rendering in a latent color space, thus enabling the use of deep architectures to learn implicit mappings for feature extraction and classification, replacing explicit feature design and hand-crafted transfer functions. Our generalization serves to derive novel volume rendering architectures that can be trained end-to-end directly from examples in image space, obviating the need to manually define and fine-tune multidimensional transfer functions while providing superior classification strength. We further introduce a novel stepsize annealing scheme to accelerate the training of DeepDVR models and validate its effectiveness in a set of experiments. We validate our architectures on two example use cases: (1) learning an optimized rendering from manually adjusted reference images for a single volume and (2) learning advanced visualization concepts like shading and semantic colorization that generalize to unseen volume data. We find that deep volume rendering architectures with explicit modeling of the DVR pipeline effectively enable end-to-end learning of scientific volume rendering tasks from target images.
公開日:2021-06-09
翻訳日:2021-06-12 21:49:30
# (参考訳) クロスモーダル離散表現学習 [全文訳有]

Cross-Modal Discrete Representation Learning ( http://arxiv.org/abs/2106.05438v1 )

ライセンス: CC BY 4.0
Alexander H. Liu, SouYoung Jin, Cheng-I Jeff Lai, Andrew Rouditchenko, Aude Oliva, James Glass(参考訳) 表現学習の最近の進歩は、ビデオ、テキスト、音声といった異なるモダリティからの情報を単一の高レベル埋め込みベクトルで表現する能力を示している。 本研究では,視覚的対象や話し言葉によって表現される概念や出来事など,さまざまなモダリティにまたがる詳細な粒度を捉えた表現を学習できる自己教師型学習フレームワークを提案する。 私たちのフレームワークは、異なるモダリティ間で共有されるベクトル量子化によって生成される離散埋め込み空間に依存しています。 共有埋め込み空間を超えて、異なるビュー(モダリティ)からの表現を離散埋め込み空間上の同様の分布に強制するクロスモーダルコードマッチングの目的を提案し、クロスモーダルオブジェクト/アクションのローカライゼーションを直接の監督なしに行えるようにする。 実験の結果,提案手法は,高レベルな要約表現(例えば,ビデオ/文/波形)を補完することで,クロスモーダル検索タスクの性能を向上させることができることがわかった。 また、離散化表現は個々のクラスタを用いて、モーダル性にまたがる同じ意味概念を表現する。

Recent advances in representation learning have demonstrated an ability to represent information from different modalities such as video, text, and audio in a single high-level embedding vector. In this work we present a self-supervised learning framework that is able to learn a representation that captures finer levels of granularity across different modalities such as concepts or events represented by visual objects or spoken words. Our framework relies on a discretized embedding space created via vector quantization that is shared across different modalities. Beyond the shared embedding space, we propose a Cross-Modal Code Matching objective that forces the representations from different views (modalities) to have a similar distribution over the discrete embedding space such that cross-modal objects/actions localization can be performed without direct supervision. In our experiments we show that the proposed discretized multi-modal fine-grained representation (e.g., pixel/word/frame) can complement high-level summary representations (e.g., video/sentence/wavef orm) for improved performance on cross-modal retrieval tasks. We also observe that the discretized representation uses individual clusters to represent the same semantic concept across modalities.
公開日:2021-06-10
翻訳日:2021-06-12 21:28:08
# (参考訳) 騒音・フレーム認識クラスタリングによる教師なし映像人物の再識別 [全文訳有]

Unsupervised Video Person Re-identification via Noise and Hard frame Aware Clustering ( http://arxiv.org/abs/2106.05441v1 )

ライセンス: CC BY 4.0
Pengyu Xie, Xin Xu, Zheng Wang, and Toshihiko Yamasaki(参考訳) 教師なしビデオベース人物識別(re-ID)手法は、画像ベースよりもビデオトラッカーからリッチな特徴を抽出する。 最先端の手法はクラスタリングを利用して擬似ラベルを取得し、反復的にモデルをトレーニングする。 しかし、トラックレット内の2種類のフレームの影響を過小評価している: 1) 検出エラーや重閉塞によるノイズフレームがトラックレット内に存在し、クラスタリング中に信頼できないラベルが割り当てられる可能性がある; 2) トラックレットには、ポーズの変化や部分閉塞による硬いフレームが含まれており、識別が難しい。 本稿では,ノイズ・ハードフレーム・アウェア・クラスタリング(NHAC)手法を提案する。 NHACはグラフトリミングモジュールとノード再サンプリングモジュールで構成される。 グラフトリミングモジュールは、ノイズフレームノードを除去して安定したグラフを取得し、クラスタリング精度を向上させる。 ノード再サンプリングモジュールは、ハードフレームノードのトレーニングを強化し、豊富なトラックレット情報を学ぶ。 2つのビデオベースデータセットで実施された実験は、教師なしのre-ID設定の下で提案されたNHACの有効性を示す。

Unsupervised video-based person re-identification (re-ID) methods extract richer features from video tracklets than image-based ones. The state-of-the-art methods utilize clustering to obtain pseudo-labels and train the models iteratively. However, they underestimate the influence of two kinds of frames in the tracklet: 1) noise frames caused by detection errors or heavy occlusions exist in the tracklet, which may be allocated with unreliable labels during clustering; 2) the tracklet also contains hard frames caused by pose changes or partial occlusions, which are difficult to distinguish but informative. This paper proposes a Noise and Hard frame Aware Clustering (NHAC) method. NHAC consists of a graph trimming module and a node re-sampling module. The graph trimming module obtains stable graphs by removing noise frame nodes to improve the clustering accuracy. The node re-sampling module enhances the training of hard frame nodes to learn rich tracklet information. Experiments conducted on two video-based datasets demonstrate the effectiveness of the proposed NHAC under the unsupervised re-ID setting.
公開日:2021-06-10
翻訳日:2021-06-12 21:05:31
# (参考訳) 神経自己回帰配列モデリングにおけるモード回復 [全文訳有]

Mode recovery in neural autoregressive sequence modeling ( http://arxiv.org/abs/2106.05459v1 )

ライセンス: CC BY 4.0
Ilia Kulikov, Sean Welleck, Kyunghyun Cho(参考訳) 広く使われているにもかかわらず、最近の研究では、トレーニング後の短いシーケンスへの不当に高い親和性や復号時の無限に長いシーケンスなど、最大限に訓練された神経自己回帰配列モデルの予期せぬ、望ましくない特性を明らかにしている。 そこで本研究では,新たに提案したモード回復コストを用いて,地中構造,経験的,学習的,復号化的分布の完全な学習連鎖を通して,分布のモード,あるいは局所的な最大値がどのように維持されているかを検討する。 我々は,(1)lstmベースの構造化分布,(2)シーケンスの確率がその内容に依存しない非構造化分布,(3)半構造化分布と呼ばれるこれら2つの生成物という,3つの種類の基底-真実分布を構築可能なテストベッドを設計した。 本研究は予期せぬ結果と予期せぬ結果の両方を明らかにする。 まず、データ収集から始めると、モード回復コストは地中構造分布に強く依存し、半構造分布に最もコストがかかる。 第2に, 地中構造分布によるモード回復コストは, データ収集に比べて増加または減少し, 半構造的地中構造分布で最大のコスト劣化が発生する。 最後に,学習した分布からモードを復元する復号誘導分布の能力は,学習連鎖の早い段階で行った選択に大きく影響される。 将来的な研究は、潜在性と周辺を完全に理解し、神経自己回帰配列モデルをさらに改善するために、学習連鎖全体を考慮しなければならないと結論づける。

Despite its wide use, recent studies have revealed unexpected and undesirable properties of neural autoregressive sequence models trained with maximum likelihood, such as an unreasonably high affinity to short sequences after training and to infinitely long sequences at decoding time. We propose to study these phenomena by investigating how the modes, or local maxima, of a distribution are maintained throughout the full learning chain of the ground-truth, empirical, learned and decoding-induced distributions, via the newly proposed mode recovery cost. We design a tractable testbed where we build three types of ground-truth distributions: (1) an LSTM based structured distribution, (2) an unstructured distribution where probability of a sequence does not depend on its content, and (3) a product of these two which we call a semi-structured distribution. Our study reveals both expected and unexpected findings. First, starting with data collection, mode recovery cost strongly relies on the ground-truth distribution and is most costly with the semi-structured distribution. Second, after learning, mode recovery cost from the ground-truth distribution may increase or decrease compared to data collection, with the largest cost degradation occurring with the semi-structured ground-truth distribution. Finally, the ability of the decoding-induced distribution to recover modes from the learned distribution is highly impacted by the choices made earlier in the learning chain. We conclude that future research must consider the entire learning chain in order to fully understand the potentials and perils and to further improve neural autoregressive sequence models.
公開日:2021-06-10
翻訳日:2021-06-12 20:56:09
# (参考訳) 十分条件分布のメトロポレートサンプリング法における下限

Lower Bounds on Metropolized Sampling Methods for Well-Conditioned Distributions ( http://arxiv.org/abs/2106.05480v1 )

ライセンス: CC BY 4.0
Yin Tat Lee, Ruoqi Shen, Kevin Tian(参考訳) 我々は,よく調和した分布に適用した場合,最も一般的なサンプリング手法であるメトロポリス調整ランゲヴィンアルゴリズム (MALA) と,跳躍フロッグ積分器を用いたマルチステップハミルトンモンテカルロ (HMC) の性能を低くする。 私たちの主な結果は、指数関数的に温かいスタートからmalaの混合時間に関する$\widetilde{\omega}(\kappa d)$のほぼタイトな下限であり、アルゴリズム的な結果のラインを対数因子に一致させ、chewi etのオープン質問に答えます。 アル また, HMC の任意の段数における緩和時間には, 次元への多項式依存が必要であり, ステップ数を変化させることで得られるゲインを束縛できることも示している。 我々のHMC分析は、跳躍積分とチェビシェフ多項式の間の新しい関係を導いており、これは独立した関心を持つかもしれない。

We give lower bounds on the performance of two of the most popular sampling methods in practice, the Metropolis-adjusted Langevin algorithm (MALA) and multi-step Hamiltonian Monte Carlo (HMC) with a leapfrog integrator, when applied to well-conditioned distributions. Our main result is a nearly-tight lower bound of $\widetilde{\Omega}(\kappa d)$ on the mixing time of MALA from an exponentially warm start, matching a line of algorithmic results up to logarithmic factors and answering an open question of Chewi et. al. We also show that a polynomial dependence on dimension is necessary for the relaxation time of HMC under any number of leapfrog steps, and bound the gains achievable by changing the step count. Our HMC analysis draws upon a novel connection between leapfrog integration and Chebyshev polynomials, which may be of independent interest.
公開日:2021-06-10
翻訳日:2021-06-12 20:44:17
# (参考訳) SignalNet: 低分解能正弦波分解・推定ネットワーク [全文訳有]

SignalNet: A Low Resolution Sinusoid Decomposition and Estimation Network ( http://arxiv.org/abs/2106.05490v1 )

ライセンス: CC BY 4.0
Ryan Dreifuerst, Robert W. Heath Jr(参考訳) 正弦波の検出と推定は、センシングと通信に関連する多くのアプリケーションのための基本的な信号処理タスクである。 この設定のためにアルゴリズムが提案されているが、量子化は批判的であるが、しばしばモデリング効果を無視している。 無線通信では、低解像度データコンバータを用いた推定が広帯域受信機における消費電力削減に関係している。 同様に、イメージングとスペクトルセンシングにおける低分解能サンプリングは効率的なデータ収集を可能にする。 本研究では,正弦波の数を検出し,そのパラメータを量子化イン相および二次サンプルから推定するニューラルネットワークアーキテクチャであるsignalnetを提案する。 ネットワーク内のドメイン知識として内部に信号再構成を組み込んで学習を強化し,従来のアルゴリズムを平均二乗誤差とシャンファー誤差で上回った。 基礎となるデータ分布と比較してネットワークの結果を比較するための最悪の学習しきい値を導入する。 このしきい値は、ニューラルネットワークが従来の方法よりも優れている理由と、入力と出力の分布の間の学習された関係について洞察を与える。 シミュレーションでは、3ビットデータでは常にしきい値を超えることができるが、1ビットデータではしきい値を超えないことが多い。 学習しきい値を用いて、1ビットの場合、データから特徴を学習するのではなく、分布損失を最小限に抑える方法を学ぶ。

The detection and estimation of sinusoids is a fundamental signal processing task for many applications related to sensing and communications. While algorithms have been proposed for this setting, quantization is a critical, but often ignored modeling effect. In wireless communications, estimation with low resolution data converters is relevant for reduced power consumption in wideband receivers. Similarly, low resolution sampling in imaging and spectrum sensing allows for efficient data collection. In this work, we propose SignalNet, a neural network architecture that detects the number of sinusoids and estimates their parameters from quantized in-phase and quadrature samples. We incorporate signal reconstruction internally as domain knowledge within the network to enhance learning and surpass traditional algorithms in mean squared error and Chamfer error. We introduce a worst-case learning threshold for comparing the results of our network relative to the underlying data distributions. This threshold provides insight into why neural networks tend to outperform traditional methods and into the learned relationships between the input and output distributions. In simulation, we find that our algorithm is always able to surpass the threshold for three-bit data but often cannot exceed the threshold for one-bit data. We use the learning threshold to explain, in the one-bit case, how our estimators learn to minimize the distributional loss, rather than learn features from the data.
公開日:2021-06-10
翻訳日:2021-06-12 20:42:57
# (参考訳) ERMAS:マルチエージェントシミュレーションにおけるリワード関数-レアルギャップのロバスト化 [全文訳有]

ERMAS: Becoming Robust to Reward Function Sim-to-Real Gaps in Multi-Agent Simulations ( http://arxiv.org/abs/2106.05492v1 )

ライセンス: CC BY 4.0
Eric Zhao, Alexander R. Trott, Caiming Xiong, Stephan Zheng(参考訳) マルチエージェントシミュレーションは、合理的エージェントと相互作用する学習ポリシーのためのスケーラブルな環境を提供する。 しかし、そのようなポリシーは、エージェントが非モデル化された不合理性と不特定報酬関数のためにシミュレーションされたものと異なる実世界への一般化に失敗する可能性がある。 Epsilon-Robust Multi-Agent Simulation (ERMAS)は、AIポリシーを学習するための堅牢な最適化フレームワークである。 エージェントの行動におけるマルチエージェントの頑健性に関する既存の概念は、エージェントの報酬関数における摂動に関する新しい頑健性目的に対処する。 ERMASは、最悪の場合のエプシロン平衡として形式化された他のエージェントからの最適行動を予測することによって、この堅牢性を提供する。 経済シミュレーションにおいて,ERMASは繰り返しビマトリクスゲームや最適課税問題に対して堅牢な政策を採っていることを実証的に示す。 特に、AIエコノミスト(Zheng et al., 2020)が提起する2段階のRL問題において、ERMASは、エージェントリスク回避の変化に対して堅牢な税制政策を学び、複雑な時空間シミュレーションにおいて最大15%の社会福祉を改善する。

Multi-agent simulations provide a scalable environment for learning policies that interact with rational agents. However, such policies may fail to generalize to the real-world where agents may differ from simulated counterparts due to unmodeled irrationality and misspecified reward functions. We introduce Epsilon-Robust Multi-Agent Simulation (ERMAS), a robust optimization framework for learning AI policies that are robust to such multiagent sim-to-real gaps. While existing notions of multi-agent robustness concern perturbations in the actions of agents, we address a novel robustness objective concerning perturbations in the reward functions of agents. ERMAS provides this robustness by anticipating suboptimal behaviors from other agents, formalized as the worst-case epsilon-equilibrium. We show empirically that ERMAS yields robust policies for repeated bimatrix games and optimal taxation problems in economic simulations. In particular, in the two-level RL problem posed by the AI Economist (Zheng et al., 2020) ERMAS learns tax policies that are robust to changes in agent risk aversion, improving social welfare by up to 15% in complex spatiotemporal simulations.
公開日:2021-06-10
翻訳日:2021-06-12 20:22:12
# (参考訳) 連続状態空間における変化の遅いモデルベース強化学習問題に対するハイパースペース近傍の動的プログラミング [全文訳有]

Hyperspace Neighbor Penetration Approach to Dynamic Programming for Model-Based Reinforcement Learning Problems with Slowly Changing Variables in A Continuous State Space ( http://arxiv.org/abs/2106.05497v1 )

ライセンス: CC BY 4.0
Vincent Zha, Ivey Chiu, Alexandre Guilbault, and Jaime Tatis(参考訳) 連続状態空間における変数のゆるやかな変化は強化学習の重要なカテゴリであり、温度や湿度などの気候制御システムのモデル化など、多くの領域で応用されている。 時間とともにゆっくり変化します しかし、近年の研究ではこの問題に対処していない。 状態空間を離散化する動的プログラミングとタイル符号化のような、ある変種を持つ古典的な手法は、非常に粒度の細かいグリッドシステムを確立するのに計算コストがかかるか不可能であるため、各遷移ステップの小さな変化を捉えることができないため、ゆっくりと変化する変数を扱うことができない。 本稿では,その問題を解決するHyperspace Neighbor Peretration(HNP)アプローチを提案する。 HNPは、各遷移ステップで状態の部分的な「貫通」を、グリッド化されたハイパースペース内の隣接するハイパータイルにキャプチャするので、変更をキャプチャするために、遷移をタイル間とする必要はない。 したがって、HNPは非常に粗いグリッドシステムが可能であり、計算が実現可能である。 HNP は局所空間における遷移関数の概線型性を仮定するが、これは一般に満足される。 要約すると、HNPは強化学習においてゆっくりと変化する変数を扱う場合、古典的な方法よりも桁違いに効率的である。 我々はNHPの産業的実装を大成功を収めた。

Slowly changing variables in a continuous state space constitute an important category of reinforcement learning and see its application in many domains, such as modeling a climate control system where temperature, humidity, etc. change slowly over time. However, this subject is less addressed in recent studies. Classical methods with certain variants, such as Dynamic Programming with Tile Coding which discretizes the state space, fail to handle slowly changing variables because those methods cannot capture the tiny changes in each transition step, as it is computationally expensive or impossible to establish an extremely granular grid system. In this paper, we introduce a Hyperspace Neighbor Penetration (HNP) approach that solves the problem. HNP captures in each transition step the state's partial "penetration" into its neighboring hyper-tiles in the gridded hyperspace, thus does not require the transition to be inter-tile in order for the change to be captured. Therefore, HNP allows for a very coarse grid system, which makes the computation feasible. HNP assumes near linearity of the transition function in a local space, which is commonly satisfied. In summary, HNP can be orders of magnitude more efficient than classical method in handling slowly changing variables in reinforcement learning. We have made an industrial implementation of NHP with a great success.
公開日:2021-06-10
翻訳日:2021-06-12 20:03:04
# (参考訳) 脆弱なAI、因果融合、悪いメンタルモデル:XAIプログラムにおける課題と成功 [全文訳有]

Brittle AI, Causal Confusion, and Bad Mental Models: Challenges and Successes in the XAI Program ( http://arxiv.org/abs/2106.05506v1 )

ライセンス: CC BY 4.0
Jeff Druce, James Niehaus, Vanessa Moody, David Jensen, Michael L. Littman(参考訳) ディープラーニングアーキテクチャによって実現される人工知能の進歩は否定できない。 いくつかのケースでは、ディープニューラルネットワーク駆動モデルが、ベンチマーク自律タスクにおける人間レベルのパフォーマンスを上回っている。 しかし、これらのエージェントの基本的なポリシーは容易に解釈できない。 実際、基礎となる深層モデルを考えると、観測から行動へのマッピングを合理的に複雑なエージェントに対して直接理解することは不可能である。 これらのAIシステムの「ブラックボックスを開く」技術を開発したが、性能を犠牲にせず、DARPA XAIプログラムの基本的な目標であった。 1) 説明はシナリオに合わせて高度に調整する必要がある; 2) 一見ハイパフォーマンスなRLエージェントの多くは極めて脆弱で、説明ができない; 3) 因果的モデルは豊かな説明を許すが、どのように提示するかは必ずしも簡単ではない; 4) 人間の被験者がAIの驚くほど間違った精神モデルを持っている; そして、これらのモデルはしばしば破ることが難しい。 本稿では,これらの情報の起源,増幅情報,今後の課題の提案について述べる。

The advances in artificial intelligence enabled by deep learning architectures are undeniable. In several cases, deep neural network driven models have surpassed human level performance in benchmark autonomy tasks. The underlying policies for these agents, however, are not easily interpretable. In fact, given their underlying deep models, it is impossible to directly understand the mapping from observations to actions for any reasonably complex agent. Producing this supporting technology to "open the black box" of these AI systems, while not sacrificing performance, was the fundamental goal of the DARPA XAI program. In our journey through this program, we have several "big picture" takeaways: 1) Explanations need to be highly tailored to their scenario; 2) many seemingly high performing RL agents are extremely brittle and are not amendable to explanation; 3) causal models allow for rich explanations, but how to present them isn't always straightforward; and 4) human subjects conjure fantastically wrong mental models for AIs, and these models are often hard to break. This paper discusses the origins of these takeaways, provides amplifying information, and suggestions for future work.
公開日:2021-06-10
翻訳日:2021-06-12 19:52:22
# (参考訳) 教師なしドメイン適応のためのクロスドメインコントラスト学習 [全文訳有]

Cross-domain Contrastive Learning for Unsupervised Domain Adaptation ( http://arxiv.org/abs/2106.05528v1 )

ライセンス: CC BY 4.0
Rui Wang, Zuxuan Wu, Zejia Weng, Jingjing Chen, Guo-Jun Qi, Yu-Gang Jiang(参考訳) 教師なしドメイン適応(UDA)は、完全にラベル付けされたソースドメインから異なるラベル付けされていないターゲットドメインに学習した知識を転送することを目的としている。 既存のUDAメソッドの多くは、ドメイン間の特徴距離を最小化することで、ドメイン不変の特徴表現を学習する。 本研究は, 自己教師型学習の対比に基づいて, 特徴を整列させ, トレーニングとテストセットのドメイン差を低減する。 両ドメインが共有する同じカテゴリの集合を探索し、ドメインアライメントのためのシンプルで効果的なフレームワークCDCLを紹介します。 特に、ある領域からのアンカーイメージが与えられたとき、異なるカテゴリのアンカー画像に対して同じクラスからクロスドメインのサンプルまでの距離を最小化する。 ターゲットラベルは利用できないため、慎重に初期化したクラスタリングベースのアプローチを用いて擬似ラベルを生成する。 さらに、CDCLは一般的なフレームワークであり、トレーニング中にソースデータが利用できないようなデータフリーな設定に、最小限の変更で適応可能であることを実証する。 我々は、広く使われている2つのドメイン適応ベンチマーク(office-31とvisda-2017)の実験を行い、cdclが両方のデータセットで最先端のパフォーマンスを達成することを実証する。

Unsupervised domain adaptation (UDA) aims to transfer knowledge learned from a fully-labeled source domain to a different unlabeled target domain. Most existing UDA methods learn domain-invariant feature representations by minimizing feature distances across domains. In this work, we build upon contrastive self-supervised learning to align features so as to reduce the domain discrepancy between training and testing sets. Exploring the same set of categories shared by both domains, we introduce a simple yet effective framework CDCL, for domain alignment. In particular, given an anchor image from one domain, we minimize its distances to cross-domain samples from the same class relative to those from different categories. Since target labels are unavailable, we use a clustering-based approach with carefully initialized centers to produce pseudo labels. In addition, we demonstrate that CDCL is a general framework and can be adapted to the data-free setting, where the source data are unavailable during training, with minimal modification. We conduct experiments on two widely used domain adaptation benchmarks, i.e., Office-31 and VisDA-2017, and demonstrate that CDCL achieves state-of-the-art performance on both datasets.
公開日:2021-06-10
翻訳日:2021-06-12 19:42:33
# (参考訳) CALTeC:コラボレーションインテリジェンスのためのコンテンツ適応線形テンソル補完 [全文訳有]

CALTeC: Content-Adaptive Linear Tensor Completion for Collaborative Intelligence ( http://arxiv.org/abs/2106.05531v1 )

ライセンス: CC BY 4.0
Ashiv Dhondea, Robert A. Cohen, Ivan V. Baji\'c(参考訳) コラボレーティブインテリジェンスでは、人工知能(AI)モデルは通常、エッジデバイスとクラウドの間で分割される。 エッジサブモデルによって生成された特徴テンソルは、不完全な通信チャネルを介してクラウドに送られる。 クラウド側では、パケット損失のために機能テンソルの一部が失われる可能性がある。 本稿では,不足する特徴データを復元するために,コンテンツ適応線形テンソル補完(caltec)と呼ばれる手法を提案する。 提案手法は高速でデータ適応性があり,事前学習を必要としない。

In collaborative intelligence, an artificial intelligence (AI) model is typically split between an edge device and the cloud. Feature tensors produced by the edge sub-model are sent to the cloud via an imperfect communication channel. At the cloud side, parts of the feature tensor may be missing due to packet loss. In this paper we propose a method called Content-Adaptive Linear Tensor Completion (CALTeC) to recover the missing feature data. The proposed method is fast, data-adaptive, does not require pre-training, and produces better results than existing methods for tensor data recovery in collaborative intelligence.
公開日:2021-06-10
翻訳日:2021-06-12 19:31:13
# (参考訳) 自己校正畳み込みGANに基づく超解像再構成 [全文訳有]

Super-Resolution Image Reconstruction Based on Self-Calibrated Convolutional GAN ( http://arxiv.org/abs/2106.05545v1 )

ライセンス: CC BY 4.0
Yibo Guo, Haidi Wang, Yiming Fan, Shunyao Li, Mingliang Xu(参考訳) コンピュータビジョンにおけるディープラーニングの効果的な応用により、超高解像度画像再構成の研究においてブレークスルーが生まれている。 しかし、画像特徴に対するニューラルネットワーク抽出の不十分さは、新たに再構成された画像の劣化を引き起こす可能性があると多くの研究が指摘している。 一方、生成した写真は過剰なスムーシングのため、しばしば人工的すぎる。 上記の問題を解決するために,新たな自己校正畳み込み生成対向ネットワークを提案する。 ジェネレータは特徴抽出と画像再構成で構成される。 特徴抽出は4つの部分を含む自己結合畳み込みを使用し、各部分には特定の機能がある。 受容場の範囲を広げるだけでなく、長距離空間およびチャネル間依存性も得ることができる。 そして、画像再構成を行い、最終的に超解像を再構成する。 ssim評価手法を用いて set5, set14, bsd100 を含む様々なデータセットについて徹底的な実験を行った。 その結果,提案ネットワークの有効性が実証された。

With the effective application of deep learning in computer vision, breakthroughs have been made in the research of super-resolution images reconstruction. However, many researches have pointed out that the insufficiency of the neural network extraction on image features may bring the deteriorating of newly reconstructed image. On the other hand, the generated pictures are sometimes too artificial because of over-smoothing. In order to solve the above problems, we propose a novel self-calibrated convolutional generative adversarial networks. The generator consists of feature extraction and image reconstruction. Feature extraction uses self-calibrated convolutions, which contains four portions, and each portion has specific functions. It can not only expand the range of receptive fields, but also obtain long-range spatial and inter-channel dependencies. Then image reconstruction is performed, and finally a super-resolution image is reconstructed. We have conducted thorough experiments on different datasets including set5, set14 and BSD100 under the SSIM evaluation method. The experimental results prove the effectiveness of the proposed network.
公開日:2021-06-10
翻訳日:2021-06-12 19:22:32
# (参考訳) 非自己回帰翻訳のためのプログレッシブマルチグラニュラリティトレーニング [全文訳有]

Progressive Multi-Granularity Training for Non-Autoregressive Translation ( http://arxiv.org/abs/2106.05546v1 )

ライセンス: CC0 1.0
Liang Ding, Longyue Wang, Xuebo Liu, Derek F. Wong, Dacheng Tao, Zhaopeng Tu(参考訳) 非自己回帰翻訳(NAT)は、ターゲットシーケンス全体を予測することで推論プロセスを著しく加速する。 しかし、最近の研究では、NATは一対多翻訳のような高度な知識の学習に弱いことが示されている。 モードは様々な粒度に分けることができ、そこから容易に学習できると我々は主張する。 本研究では,NATモデルが文と比較して,単語やフレーズなど,より細粒度の低い知識を学習する傾向があることを実証的に示す。 そこで本研究では,NATの進行的多粒度学習を提案する。 具体的には、トレーニングデータを最大限に活用するために、文レベルの例を3つのタイプに分類する。 言葉、句、文、そして訓練が進むにつれて、我々は徐々に粒度を増す。 ルーマニア語・英語・ドイツ語・中国語・日英語における実験により,本手法が句の翻訳精度とモデルの並べ替え能力を改善し,natベースラインに対する翻訳品質の向上を実現した。 また,より決定論的なききめ細かな知識が性能をさらに向上させることを示す。

Non-autoregressive translation (NAT) significantly accelerates the inference process via predicting the entire target sequence. However, recent studies show that NAT is weak at learning high-mode of knowledge such as one-to-many translations. We argue that modes can be divided into various granularities which can be learned from easy to hard. In this study, we empirically show that NAT models are prone to learn fine-grained lower-mode knowledge, such as words and phrases, compared with sentences. Based on this observation, we propose progressive multi-granularity training for NAT. More specifically, to make the most of the training data, we break down the sentence-level examples into three types, i.e. words, phrases, sentences, and with the training goes, we progressively increase the granularities. Experiments on Romanian-English, English-German, Chinese-English, and Japanese-English demonstrate that our approach improves the phrase translation accuracy and model reordering ability, therefore resulting in better translation quality against strong NAT baselines. Also, we show that more deterministic fine-grained knowledge can further enhance performance.
公開日:2021-06-10
翻訳日:2021-06-12 19:11:52
# (参考訳) BLEU, Flavours of Success: The Case of MultiWOZ [全文訳有]

Shades of BLEU, Flavours of Success: The Case of MultiWOZ ( http://arxiv.org/abs/2106.05555v1 )

ライセンス: CC BY 4.0
Tom\'a\v{s} Nekvinda and Ond\v{r}ej Du\v{s}ek(参考訳) マルチウォズデータセット(budzianowski et al., 2018)はタスク指向対話システムのコンテキスト対応答能力のベンチマークによく使われている。 本研究では,このデータセットで使用される3つのコーパスベースメトリクス,すなわちbleuスコアとinform & success rateのデータの事前処理とレポートにおける不整合を特定する。 我々は,マルチウォズベンチマークの問題点として,不十分な前処理,不十分な評価指標,厳格なデータベースなどを挙げた。 7つのエンドツーエンドと6つのポリシー最適化モデルを再評価し,それらのスコアを直接比較できないことを示した。 将来のシステムの比較を容易にするために、我々はスタンドアロンの標準評価スクリプトをリリースする。 また、今後の作業においてコーパスベースのベンチマークに関する基本的な推奨事項も提示する。

The MultiWOZ dataset (Budzianowski et al.,2018) is frequently used for benchmarking context-to-response abilities of task-oriented dialogue systems. In this work, we identify inconsistencies in data preprocessing and reporting of three corpus-based metrics used on this dataset, i.e., BLEU score and Inform & Success rates. We point out a few problems of the MultiWOZ benchmark such as unsatisfactory preprocessing, insufficient or under-specified evaluation metrics, or rigid database. We re-evaluate 7 end-to-end and 6 policy optimization models in as-fair-as-possible setups, and we show that their reported scores cannot be directly compared. To facilitate comparison of future systems, we release our stand-alone standardized evaluation scripts. We also give basic recommendations for corpus-based benchmarking in future works.
公開日:2021-06-10
翻訳日:2021-06-12 19:03:21
# (参考訳) 相互作用粒子の平均場方程式における相互作用核の識別可能性 [全文訳有]

Identifiability of interaction kernels in mean-field equations of interacting particles ( http://arxiv.org/abs/2106.05565v1 )

ライセンス: CC BY 4.0
Quanjun Lang and Fei Lu(参考訳) 粒子系における平均場方程式における相互作用核の同定可能性について検討した。 鍵となるのは、確率損失函数が一意の最小値を持つ函数空間を特定することである。 2つの再生カーネルヒルベルト空間(RKHS)の任意の部分空間に同一性があることを証明し、その再生成カーネルはシステムに固有のものであり、データ適応的であることを示す。 さらに、2つのアンビエント l2 空間に対する同一性は、再生核に関連する積分作用素が厳密に正であることと同値である。 したがって、逆問題は一般に悪用される。 また,計算実践における識別可能性の重要性についても論じる。

We study the identifiability of the interaction kernels in mean-field equations for intreacting particle systems. The key is to identify function spaces on which a probabilistic loss functional has a unique minimizer. We prove that identifiability holds on any subspace of two reproducing kernel Hilbert spaces (RKHS), whose reproducing kernels are intrinsic to the system and are data-adaptive. Furthermore, identifiability holds on two ambient L2 spaces if and only if the integral operators associated with the reproducing kernels are strictly positive. Thus, the inverse problem is ill-posed in general. We also discuss the implications of identifiability in computational practice.
公開日:2021-06-10
翻訳日:2021-06-12 18:45:40
# (参考訳) AGGGEN: 生成中の順序付けと集約 [全文訳有]

AGGGEN: Ordering and Aggregating while Generating ( http://arxiv.org/abs/2106.05580v1 )

ライセンス: CC BY 4.0
Xinnuo Xu, Ond\v{r}ej Du\v{s}ek, Verena Rieser, Ioannis Konstas(参考訳) 本稿では、入力順序付けと入力集約という2つの明示的な文計画段階を再導入するデータ-テキストモデルであるAGGGENについて述べる。 AGGGENは、入力表現とターゲットテキスト間の(意味的な事実を介して)潜在的アライメントを学習することによって、テキストを生成すると同時に、文計画を実行する。 WebNLGとE2Eの課題データによる実験では、ファクトベースのアライメントを使用することで、私たちのアプローチはより解釈可能で、表現力があり、ノイズに対して頑健で、制御が容易であり、一方、頻度の観点からはエンドツーエンドシステムの利点を保っている。 私たちのコードはhttps://github.com/x innuoxu/agggenで利用可能です。

We present AGGGEN (pronounced 'again'), a data-to-text model which re-introduces two explicit sentence planning stages into neural data-to-text systems: input ordering and input aggregation. In contrast to previous work using sentence planning, our model is still end-to-end: AGGGEN performs sentence planning at the same time as generating text by learning latent alignments (via semantic facts) between input representation and target text. Experiments on the WebNLG and E2E challenge data show that by using fact-based alignments our approach is more interpretable, expressive, robust to noise, and easier to control, while retaining the advantages of end-to-end systems in terms of fluency. Our code is available at https://github.com/X innuoXu/AggGen.
公開日:2021-06-10
翻訳日:2021-06-12 18:13:45
# (参考訳) AUGNLG: 自己学習データ拡張による自然言語生成 [全文訳有]

AUGNLG: Few-shot Natural Language Generation using Self-trained Data Augmentation ( http://arxiv.org/abs/2106.05589v1 )

ライセンス: CC BY 4.0
Xinnuo Xu, Guoyin Wang, Young-Bum Kim, Sungjin Lee(参考訳) 自然言語生成(NLG)はタスク指向対話システムにおいて重要な要素であり、構造化された意味表現(MR)を自然言語に変換する。 数百以上の意図と数千のスロットを持つ大規模会話システムでは、テンプレートベースのアプローチもモデルベースのアプローチもスケーラブルではない。 近年,ニューラルnlgsはトランスファー学習の活用を始め,数ショット設定で有望な結果を示した。 本稿では,自己学習型ニューラル検索モデルと数ショット学習型NLUモデルを組み合わせた新しいデータ拡張手法であるAUGNLGを提案し,オープンドメインテキストからMR-to-Textデータを自動的に生成する。 提案方式はBLEUとSlot Error Rateの両方でFewShotWOZデータの最先端の手法よりも優れている。 さらに、FewShotSGDデータの改善結果を確認し、システムの主要コンポーネントに関する包括的な分析結果を提供する。 私たちのコードとデータはhttps://github.com/x innuoxu/augnlg.comから入手できます。

Natural Language Generation (NLG) is a key component in a task-oriented dialogue system, which converts the structured meaning representation (MR) to the natural language. For large-scale conversational systems, where it is common to have over hundreds of intents and thousands of slots, neither template-based approaches nor model-based approaches are scalable. Recently, neural NLGs started leveraging transfer learning and showed promising results in few-shot settings. This paper proposes AUGNLG, a novel data augmentation approach that combines a self-trained neural retrieval model with a few-shot learned NLU model, to automatically create MR-to-Text data from open-domain texts. The proposed system mostly outperforms the state-of-the-art methods on the FewShotWOZ data in both BLEU and Slot Error Rate. We further confirm improved results on the FewShotSGD data and provide comprehensive analysis results on key components of our system. Our code and data are available at https://github.com/X innuoXu/AugNLG.
公開日:2021-06-10
翻訳日:2021-06-12 17:49:25
# (参考訳) ThompsonがMixture Priorでサンプリング [全文訳有]

Thompson Sampling with a Mixture Prior ( http://arxiv.org/abs/2106.05608v1 )

ライセンス: CC BY 4.0
Joey Hong, Branislav Kveton, Manzil Zaheer, Mohammad Ghavamzadeh, Craig Boutilier(参考訳) 混合分布から不確実な環境をサンプリングするオンライン意思決定問題におけるトンプソンサンプリング(TS)について検討した。 これは、学習エージェントが異なるクラスの問題に直面しているマルチタスク設定に関係します。 この構造を,MixTSと呼ばれる前駆体でTSを初期化して自然に組み込むとともに,その前駆体でTSの後悔を分析するための新しい一般的な手法を開発した。 本研究では,MixTS に対するベイズ残差を線形帯域と表型マルコフ決定過程(MDPs)の両方で導出する手法を提案する。 我々の後悔の限界は問題の構造を反映し、前の各コンポーネントのコンポーネントの数と信頼性の幅に依存する。 最後に,MixTSの合成実験および実世界の実験における実証実験の有効性を示す。

We study Thompson sampling (TS) in online decision-making problems where the uncertain environment is sampled from a mixture distribution. This is relevant to multi-task settings, where a learning agent is faced with different classes of problems. We incorporate this structure in a natural way by initializing TS with a mixture prior -- dubbed MixTS -- and develop a novel, general technique for analyzing the regret of TS with such priors. We apply this technique to derive Bayes regret bounds for MixTS in both linear bandits and tabular Markov decision processes (MDPs). Our regret bounds reflect the structure of the problem and depend on the number of components and confidence width of each component of the prior. Finally, we demonstrate the empirical effectiveness of MixTS in both synthetic and real-world experiments.
公開日:2021-06-10
翻訳日:2021-06-12 17:30:36
# (参考訳) gnnautoscale: 履歴埋め込みによるスケーラブルで表現豊かなグラフニューラルネットワーク [全文訳有]

GNNAutoScale: Scalable and Expressive Graph Neural Networks via Historical Embeddings ( http://arxiv.org/abs/2106.05609v1 )

ライセンス: CC BY 4.0
Matthias Fey, Jan E. Lenssen, Frank Weichert, Jure Leskovec(参考訳) 本稿では,任意のメッセージパスGNNを大規模グラフに拡張するためのフレームワークであるGNNAutoScale(GAS)を提案する。 GASは、事前のトレーニングイテレーションからの履歴埋め込みを利用して計算グラフのサブツリー全体を掘り起こし、データをドロップすることなく入力ノードサイズに対して一定のGPUメモリ消費をもたらす。 既存の手法はエッジのサブサンプリングや非トレーニング可能な伝搬によるメッセージパッシングの表現力を弱めるが,本手法は元のGNNの表現力を確実に維持することができる。 歴史的埋め込みの近似誤差境界を提供することでこれを達成し、実際にそれらを締め付ける方法を示す。 実験により,PyTorch Geometric の使い勝手のよい拡張である PyGAS が高速かつメモリ効率に優れ,表現的ノード表現を学習し,非スケーリンググラフの性能によく似ており,大規模グラフ上での最先端の性能に達することを示す。

We present GNNAutoScale (GAS), a framework for scaling arbitrary message-passing GNNs to large graphs. GAS prunes entire sub-trees of the computation graph by utilizing historical embeddings from prior training iterations, leading to constant GPU memory consumption in respect to input node size without dropping any data. While existing solutions weaken the expressive power of message passing due to sub-sampling of edges or non-trainable propagations, our approach is provably able to maintain the expressive power of the original GNN. We achieve this by providing approximation error bounds of historical embeddings and show how to tighten them in practice. Empirically, we show that the practical realization of our framework, PyGAS, an easy-to-use extension for PyTorch Geometric, is both fast and memory-efficient, learns expressive node representations, closely resembles the performance of their non-scaling counterparts, and reaches state-of-the-art performance on large-scale graphs.
公開日:2021-06-10
翻訳日:2021-06-12 16:22:50
# (参考訳) リアルタイム・モバイル・エンドテキスト検出・認識のための文脈自由テキストスポッター [全文訳有]

Context-Free TextSpotter for Real-Time and Mobile End-to-End Text Detection and Recognition ( http://arxiv.org/abs/2106.05611v1 )

ライセンス: CC BY 4.0
Ryota Yoshihashi, Tomohiro Tanaka, Kenji Doi, Takumi Fujino, and Naoaki Yamashita(参考訳) モバイルプラットフォームへのシーンテキストスポッティングシステムの導入では,低計算の軽量モデルが望ましい。 概念上、エンドツーエンド(e2e)テキストスポッティングは、1つのモデルでテキストの検出と認識を行うため、このような目的に適している。 しかし、現在の最先端のE2E法は、精度を追求するために重い特徴抽出器、繰り返しシーケンスモデリング、複雑な形状整合器に頼っている。 E2Eテキストスポッティングでベルやホイッスルを使わずにどこまで行くことができるのか? そこで本研究では、単純な畳み込みと、Context-Free TextSpotterと呼ばれるポストプロセスからなるテキストスポッティング手法を提案する。 標準ベンチマークを用いた実験によれば、コンテキストフリーのtextspotterは、300万のパラメータしか持たないgpu上でリアルタイムテキストスポッティングを実現している。 さらに,当社のテキストスポッターが安価なスマートフォン上で動作できることを実証し,スタンドアロンのocrアプリケーション構築に有用であることを示す。

In the deployment of scene-text spotting systems on mobile platforms, lightweight models with low computation are preferable. In concept, end-to-end (E2E) text spotting is suitable for such purposes because it performs text detection and recognition in a single model. However, current state-of-the-art E2E methods rely on heavy feature extractors, recurrent sequence modellings, and complex shape aligners to pursue accuracy, which means their computations are still heavy. We explore the opposite direction: How far can we go without bells and whistles in E2E text spotting? To this end, we propose a text-spotting method that consists of simple convolutions and a few post-processes, named Context-Free TextSpotter. Experiments using standard benchmarks show that Context-Free TextSpotter achieves real-time text spotting on a GPU with only three million parameters, which is the smallest and fastest among existing deep text spotters, with an acceptable transcription quality degradation compared to heavier ones. Further, we demonstrate that our text spotter can run on a smartphone with affordable latency, which is valuable for building stand-alone OCR applications.
公開日:2021-06-10
翻訳日:2021-06-12 15:45:41
# (参考訳) SVMA:単眼の3次元人物位置推定のためのGANモデル [全文訳有]

SVMA: A GAN-based model for Monocular 3D Human Pose Estimation ( http://arxiv.org/abs/2106.05616v1 )

ライセンス: CC0 1.0
Yicheng Deng, Yongqi Sun, Jiahui Zhu(参考訳) 2Dジョイントから3D人間のポーズを復元することは、特にビデオやマルチビュー情報なしでは、非常に制約のない問題である。 1枚の画像から抽出した2次元関節位置から3次元人間のポーズを復元するための教師なしGANモデルを提案する。 我々のモデルは、単純な2D-3D対応ではなく、GANを用いて2Dポーズから3Dポーズへの分布のマッピングを学習する。 再投射制約を考慮すると,本モデルはカメラを推定し,推定された3次元ポーズを元の2次元ポーズに再投射することができる。 この再プロジェクション法に基づいて、生成されたポーズを回転させて「新しい」2Dポーズを取得し、その後に「新しい」3Dポーズと「新しい」カメラを推定するために重量共有ジェネレータを使用する。 以上の推定プロセスを通じて,訓練中の単視点多角一貫性損失を定義し,多視点一貫性をシミュレートすることができる。つまり,単視点の2角度から推定した3次元ポーズとカメラを混合してリッチな2次元再投影を生成でき,同じ3次元ポーズから再投影された2次元再投影は一貫性を持つべきである。 また,Human3.6Mによる実験結果から,本手法は最先端の手法を全て上回り,MPI-INF-3DHPによる手法は最先端の手法を約15.0%上回ることがわかった。

Recovering 3D human pose from 2D joints is a highly unconstrained problem, especially without any video or multi-view information. We present an unsupervised GAN-based model to recover 3D human pose from 2D joint locations extracted from a single image. Our model uses a GAN to learn the mapping of distribution from 2D poses to 3D poses, not the simple 2D-3D correspondence. Considering the reprojection constraint, our model can estimate the camera so that we can reproject the estimated 3D pose to the original 2D pose. Based on this reprojection method, we can rotate and reproject the generated pose to get our "new" 2D pose and then use a weight sharing generator to estimate the "new" 3D pose and a "new" camera. Through the above estimation process, we can define the single-view-multi-an gle consistency loss during training to simulate multi-view consistency, which means the 3D poses and cameras estimated from two angles of a single view should be able to be mixed to generate rich 2D reprojections, and the 2D reprojections reprojected from the same 3D pose should be consistent. The experimental results on Human3.6M show that our method outperforms all the state-of-the-art methods, and results on MPI-INF-3DHP show that our method outperforms state-of-the-art by approximately 15.0%.
公開日:2021-06-10
翻訳日:2021-06-12 15:27:20
# (参考訳) スキャンされた歴史的写真の野生における日時推定:画像検索によるアプローチ [全文訳有]

Date Estimation in the Wild of Scanned Historical Photos: An Image Retrieval Approach ( http://arxiv.org/abs/2106.05618v1 )

ライセンス: CC BY-SA 4.0
Adri\`a Molina and Pau Riba and Lluis Gomez and Oriol Ramos-Terrades and Josep Llad\'os(参考訳) 本稿では,史料からの古写真年代推定手法を提案する。 主な貢献は、検索タスクとして日付推定を定式化することであり、クエリが与えられた場合、検索した画像は推定日付類似度でランク付けされる。 それらの埋め込み表現が近いほど、その日付が近い。 分類器や回帰器を学習するニューラルネットワークを設計する従来のモデルとは対照的に,nDCGランキング尺度に基づく学習目標を提案する。 我々は,dew公開データベースを用いた日付推定と日付センシティブ画像検索の2つのタスクにおいて,ベースライン手法を克服した手法の性能を実験的に評価した。

This paper presents a novel method for date estimation of historical photographs from archival sources. The main contribution is to formulate the date estimation as a retrieval task, where given a query, the retrieved images are ranked in terms of the estimated date similarity. The closer are their embedded representations the closer are their dates. Contrary to the traditional models that design a neural network that learns a classifier or a regressor, we propose a learning objective based on the nDCG ranking metric. We have experimentally evaluated the performance of the method in two different tasks: date estimation and date-sensitive image retrieval, using the DEW public database, overcoming the baseline methods.
公開日:2021-06-10
翻訳日:2021-06-12 15:16:12
# (参考訳) 機械翻訳における教師なし事前学習目標の検討 [全文訳有]

Exploring Unsupervised Pretraining Objectives for Machine Translation ( http://arxiv.org/abs/2106.05634v1 )

ライセンス: CC BY 4.0
Christos Baziotis, Ivan Titov, Alexandra Birch, Barry Haddow(参考訳) 教師なしの言語間事前学習は、大きな並列データの必要性を大幅に減らし、ニューラルマシン翻訳(NMT)において大きな成果を上げている。 ほとんどのアプローチは、入力の一部をマスキングしてデコーダで再構成することで、シーケンス・ツー・シーケンスアーキテクチャにマスク付き言語モデリング(MLM)を適用する。 本研究では,マスキングを実文に似た入力を生成する代替目的と体系的に比較し,文脈に基づく単語の並べ替えを行う。 英語$\leftrightarrow$ger man, english$\leftrightar row$nepali, english$\leftrightar row$sinhala単言語データを用いたモデルの事前学習を行い,nmtで評価した。 半教師NMTでは、事前訓練対象の変化は、微調整された性能に驚くほど小さな違いをもたらすが、教師なしNMTはそれに対してはるかに敏感である。 これらの結果を理解するために, 一連のプローブを用いて事前学習したモデルを徹底的に検討し, 異なる方法で情報をエンコードし, 使用することを確認する。 並列データの微調整は、強い言語間能力を持つモデルも必要とする教師なしNMTとは対照的に、強いデコーダなど、ほとんどのモデルで共有される少数の特性に主に敏感である。

Unsupervised cross-lingual pretraining has achieved strong results in neural machine translation (NMT), by drastically reducing the need for large parallel data. Most approaches adapt masked-language modeling (MLM) to sequence-to-sequence architectures, by masking parts of the input and reconstructing them in the decoder. In this work, we systematically compare masking with alternative objectives that produce inputs resembling real (full) sentences, by reordering and replacing words based on their context. We pretrain models with different methods on English$\leftrightar row$German, English$\leftrightar row$Nepali and English$\leftrightar row$Sinhala monolingual data, and evaluate them on NMT. In (semi-) supervised NMT, varying the pretraining objective leads to surprisingly small differences in the finetuned performance, whereas unsupervised NMT is much more sensitive to it. To understand these results, we thoroughly study the pretrained models using a series of probes and verify that they encode and use information in different ways. We conclude that finetuning on parallel data is mostly sensitive to few properties that are shared by most models, such as a strong decoder, in contrast to unsupervised NMT that also requires models with strong cross-lingual abilities.
公開日:2021-06-10
翻訳日:2021-06-12 15:06:04
# (参考訳) U2++: 音声認識のための双方向双方向統合モデル [全文訳有]

U2++: Unified Two-pass Bidirectional End-to-end Model for Speech Recognition ( http://arxiv.org/abs/2106.05642v1 )

ライセンス: CC0 1.0
Di Wu, Binbin Zhang, Chao Yang, Zhendong Peng, Wenjing Xia, Xiaoyu Chen, Xin Lei(参考訳) 音声認識のための統合ストリーミングと非ストリーミング2パスモデル(U2)は、ストリーミング能力、精度、リアルタイム係数(RTF)、レイテンシにおいて優れたパフォーマンスを示している。 本稿では,U2の精度向上のための拡張版であるU2++を提案する。 U2++の中核となる考え方は、トレーニング時にラベル配列の前方および後方情報を同時に使用し、よりリッチな情報を学び、復号時の前方と後方の予測を組み合わせてより正確な認識結果を与えることである。 また、u2++モデルをより正確かつ堅牢にするためのspecsubと呼ばれる新しいデータ拡張手法も提案しました。 実験の結果,U2++はU2に比べて学習時の収束速度が向上し,復号法に対する堅牢性が向上し,単語誤り率の減少率が5\%であることがわかった。 AISHELL-1の実験では、非ストリーミングセットアップで4.63\%の文字エラー率(CER)、U2++で320msのレイテンシを持つストリーミングセットアップで5.05\%を達成する。 我々の知る限りでは、5.05\%はAISHELL-1テストセットで最も多く発行されたストリーミング結果である。

The unified streaming and non-streaming two-pass (U2) end-to-end model for speech recognition has shown great performance in terms of streaming capability, accuracy, real-time factor (RTF), and latency. In this paper, we present U2++, an enhanced version of U2 to further improve the accuracy. The core idea of U2++ is to use the forward and the backward information of the labeling sequences at the same time at training to learn richer information, and combine the forward and backward prediction at decoding to give more accurate recognition results. We also proposed a new data augmentation method called SpecSub to help the U2++ model to be more accurate and robust. Our experiments show that, compared with U2, U2++ shows faster convergence at training, better robustness to the decoding method, as well as consistent 5\% - 8\% word error rate reduction gain over U2. On the experiment of AISHELL-1, we achieve a 4.63\% character error rate (CER) with a non-streaming setup and 5.05\% with a streaming setup with 320ms latency by U2++. To the best of our knowledge, 5.05\% is the best-published streaming result on the AISHELL-1 test set.
公開日:2021-06-10
翻訳日:2021-06-12 14:42:13
# (参考訳) 物理組立のための視覚スコープ操作 [全文訳有]

Visual scoping operations for physical assembly ( http://arxiv.org/abs/2106.05654v1 )

ライセンス: CC BY-SA 4.0
Felix J Binder, Marcelo M Mattar, David Kirsh, Judith E Fan(参考訳) 計画は難しい。 サブゴールの使用は計画をより扱いやすいものにするが、これらのサブゴールの選択は計算コストがかかる。 選択の計算オーバーヘッドを最小限に抑えながら、サブゴールを使用する計画のメリットを享受できるアルゴリズムは何でしょうか? 空間領域を次のサブゴールとして交互に定義し、それを達成するためのアクションを選択することにより、計画と行動を切り離す戦略であるビジュアルスコーピングを提案する。 視覚的スコーピングアルゴリズムを,前もって全てのサブゴールを計画することと,副ゴールなしで計画することの2つの基本ラインに対して,様々な物理組立問題に対して評価した。 視覚的スコーピングは,計算コストのごく一部しか必要とせず,サブゴールプランナーに匹敵するタスク性能を達成できることがわかった。 これらの結果は、人間が複雑な計画問題の解決に認知資源を効率的に活用する方法の理解に寄与する。

Planning is hard. The use of subgoals can make planning more tractable, but selecting these subgoals is computationally costly. What algorithms might enable us to reap the benefits of planning using subgoals while minimizing the computational overhead of selecting them? We propose visual scoping, a strategy that interleaves planning and acting by alternately defining a spatial region as the next subgoal and selecting actions to achieve it. We evaluated our visual scoping algorithm on a variety of physical assembly problems against two baselines: planning all subgoals in advance and planning without subgoals. We found that visual scoping achieves comparable task performance to the subgoal planner while requiring only a fraction of the total computational cost. Together, these results contribute to our understanding of how humans might make efficient use of cognitive resources to solve complex planning problems.
公開日:2021-06-10
翻訳日:2021-06-12 14:32:35
# (参考訳) MST:視覚表現のためのマスク付きセルフスーパーバイザートランス [全文訳有]

MST: Masked Self-Supervised Transformer for Visual Representation ( http://arxiv.org/abs/2106.05656v1 )

ライセンス: CC BY 4.0
Zhaowen Li, Zhiyang Chen, Fan Yang, Wei Li, Yousong Zhu, Chaoyang Zhao, Rui Deng, Liwei Wu, Rui Zhao, Ming Tang, Jinqiao Wang(参考訳) Transformerは自然言語処理(NLP)における自己教師型事前学習に広く使われており、大きな成功を収めている。 しかし、視覚的自己指導学習では十分に研究されていない。 一方、従来の手法では、グローバルな視点から高レベルな特徴と学習表現のみを考慮し、局所的な特徴に着目した下流密集予測タスクに転送できない可能性がある。 本稿では,世界的意味情報を保存しつつ,画像の局所的文脈を明示的に捉えることができるマスク付き自己教師付きトランスフォーマー手法であるmstを提案する。 具体的には,nlp の masked language modeling (mlm) に着想を得たマルチヘッド・セルフアテンションマップに基づくマスキングトークン戦略を提案し,自己教師付き学習の重要な構造を損なうことなく,局所パッチのトークンを動的にマスキングする。 さらに重要なことに、マスクされたトークンと残りのトークンは、画像の空間情報を保存し、下流の密集した予測タスクにより親しみやすいグローバル画像デコーダによってさらに復元される。 複数のデータセットに対する実験により,提案手法の有効性と汎用性を示した。 例えば、mstは、線形評価による300エポック事前トレーニングのみを使用して、deit-sで76.9%のtop-1精度を達成している。 密集予測タスクでは、MS COCOオブジェクト検出では42.7% mAP、Cityscapesセグメンテーションでは74.04% mIoU、100エポシック事前トレーニングでは74.04% mIoUを達成した。

Transformer has been widely used for self-supervised pre-training in Natural Language Processing (NLP) and achieved great success. However, it has not been fully explored in visual self-supervised learning. Meanwhile, previous methods only consider the high-level feature and learning representation from a global perspective, which may fail to transfer to the downstream dense prediction tasks focusing on local features. In this paper, we present a novel Masked Self-supervised Transformer approach named MST, which can explicitly capture the local context of an image while preserving the global semantic information. Specifically, inspired by the Masked Language Modeling (MLM) in NLP, we propose a masked token strategy based on the multi-head self-attention map, which dynamically masks some tokens of local patches without damaging the crucial structure for self-supervised learning. More importantly, the masked tokens together with the remaining tokens are further recovered by a global image decoder, which preserves the spatial information of the image and is more friendly to the downstream dense prediction tasks. The experiments on multiple datasets demonstrate the effectiveness and generality of the proposed method. For instance, MST achieves Top-1 accuracy of 76.9% with DeiT-S only using 300-epoch pre-training by linear evaluation, which outperforms supervised methods with the same epoch by 0.4% and its comparable variant DINO by 1.0\%. For dense prediction tasks, MST also achieves 42.7% mAP on MS COCO object detection and 74.04% mIoU on Cityscapes segmentation only with 100-epoch pre-training.
公開日:2021-06-10
翻訳日:2021-06-12 14:21:00
# (参考訳) ディープニューラルネットワークは敵画像に注意を失う [全文訳有]

Deep neural network loses attention to adversarial images ( http://arxiv.org/abs/2106.05657v1 )

ライセンス: CC BY 4.0
Shashank Kotyan and Danilo Vasconcellos Vargas(参考訳) 敵アルゴリズムは様々なタスクにおいてニューラルネットワークに対して有効であることが示されている。 いくつかの逆アルゴリズムは、画像分類タスクにおいて、画像内のすべてのピクセルを最小限に摂動する。 対照的に、いくつかのアルゴリズムはピクセルを強く摂動する。 しかし、なぜこれらの対立するサンプルが互いにこれほど多様なのかについては、ほとんど情報がない。 最近、Vargasら。 敵のサンプルの存在は ニューラルネットワーク内の 塩分濃度の相反によるものかもしれない 本研究では,Saliency Maps (SM) と Gradient-weighted Class Activation Maps (Grad-CAM) を原型および少数種の逆数サンプルから解析し,相反する正則性仮説を検証した。 また、元のサンプルと比較して、異なる対向サンプルがニューラルネットワークの注意を歪めているかを分析する。 Pixel Attackの場合、摂動ピクセルはネットワークの注意を自分自身に呼び出すか、それらから注意を逸らすかを示す。 同時に、投影された勾配降下は、ニューラルネットワーク内の中間層が正しいクラスに注意を払わないように画素を摂動させる。 また,どちらの攻撃もサリエンシマップとアクティベーションマップに異なる影響を及ぼすことを示した。 したがって、ある攻撃に対して成功した防衛部隊が、他の攻撃に対して脆弱なままである理由に光を当てる。 この分析によって、敵のサンプルの存在と効果の理解が向上し、コミュニティがより堅牢なニューラルネットワークを開発することを期待する。

Adversarial algorithms have shown to be effective against neural networks for a variety of tasks. Some adversarial algorithms perturb all the pixels in the image minimally for the image classification task in image classification. In contrast, some algorithms perturb few pixels strongly. However, very little information is available regarding why these adversarial samples so diverse from each other exist. Recently, Vargas et al. showed that the existence of these adversarial samples might be due to conflicting saliency within the neural network. We test this hypothesis of conflicting saliency by analysing the Saliency Maps (SM) and Gradient-weighted Class Activation Maps (Grad-CAM) of original and few different types of adversarial samples. We also analyse how different adversarial samples distort the attention of the neural network compared to original samples. We show that in the case of Pixel Attack, perturbed pixels either calls the network attention to themselves or divert the attention from them. Simultaneously, the Projected Gradient Descent Attack perturbs pixels so that intermediate layers inside the neural network lose attention for the correct class. We also show that both attacks affect the saliency map and activation maps differently. Thus, shedding light on why some defences successful against some attacks remain vulnerable against other attacks. We hope that this analysis will improve understanding of the existence and the effect of adversarial samples and enable the community to develop more robust neural networks.
公開日:2021-06-10
翻訳日:2021-06-12 14:05:53
# (参考訳) 次世代機械学習による宇宙船の診断システム [全文訳有]

Next-Gen Machine Learning Supported Diagnostic Systems for Spacecraft ( http://arxiv.org/abs/2106.05659v1 )

ライセンス: CC BY 4.0
Athanasios Vlontzos, Gabriel Sutherland, Siddha Ganju, Frank Soboczenski(参考訳) 将来の短期または長期の宇宙ミッションは、通信障害による新しい世代の監視と診断システムと、特別な乗組員や機器の制限を必要とする。 機械学習がサポートする診断システムは、医療および技術応用に有効なソリューションである。 今後のミッションに照らして、このようなシステムの課題と適用性について論じ、将来の宇宙運用のための次世代医療診断システムの実例を概説する。 さらに、宇宙船上での機械学習モデルの生成と利用を成功させるために、アプローチの推奨と制約を提案する。

Future short or long-term space missions require a new generation of monitoring and diagnostic systems due to communication impasses as well as limitations in specialized crew and equipment. Machine learning supported diagnostic systems present a viable solution for medical and technical applications. We discuss challenges and applicability of such systems in light of upcoming missions and outline an example use case for a next-generation medical diagnostic system for future space operations. Additionally, we present approach recommendations and constraints for the successful generation and use of machine learning models aboard a spacecraft.
公開日:2021-06-10
翻訳日:2021-06-12 13:54:52
# (参考訳) 対応駆動型単眼3次元カテゴリー再構築 [全文訳有]

To The Point: Correspondence-drive n monocular 3D category reconstruction ( http://arxiv.org/abs/2106.05662v1 )

ライセンス: CC BY 4.0
Filippos Kokkinos and Iasonas Kokkinos(参考訳) 本稿では,弱い監督から学んだ2次元から3次元の対応を利用して,単一の画像から3次元オブジェクトを再構成する手法であるTTPについて述べる。 3dテンプレート頂点に対応する2d位置をまず回帰させ、次に3d形状投影により2d位置を最適に説明する剛性カメラ変換及び非剛性テンプレート変形を共同で推定し、2d画像から3d形状を復元する。 3D-2D対応を頼りにすることで,CNNによるカメラポーズの回帰と非剛性変形を置き換え,より高精度な3D再構成を実現する。 我々は,この最適化を微分可能な層として扱い,システム全体をエンドツーエンドでトレーニングする。 本稿では,複数のカテゴリの体系的定量的改善を報告し,多様な形状,ポーズ,テクスチャ予測例からなる質的結果を提供する。 プロジェクトwebサイト: https://fkokkinos.gi thub.io/to_the_point /

We present To The Point (TTP), a method for reconstructing 3D objects from a single image using 2D to 3D correspondences learned from weak supervision. We recover a 3D shape from a 2D image by first regressing the 2D positions corresponding to the 3D template vertices and then jointly estimating a rigid camera transform and non-rigid template deformation that optimally explain the 2D positions through the 3D shape projection. By relying on 3D-2D correspondences we use a simple per-sample optimization problem to replace CNN-based regression of camera pose and non-rigid deformation and thereby obtain substantially more accurate 3D reconstructions. We treat this optimization as a differentiable layer and train the whole system in an end-to-end manner. We report systematic quantitative improvements on multiple categories and provide qualitative results comprising diverse shape, pose and texture prediction examples. Project website: https://fkokkinos.gi thub.io/to_the_point /.
公開日:2021-06-10
翻訳日:2021-06-12 13:45:21
# (参考訳) GraphiT: トランスフォーマーのグラフ構造をエンコードする [全文訳有]

GraphiT: Encoding Graph Structure in Transformers ( http://arxiv.org/abs/2106.05667v1 )

ライセンス: CC BY 4.0
Gr\'egoire Mialon, Dexiong Chen, Margot Selosse, Julien Mairal(参考訳) 従来のグラフニューラルネットワーク(GNN)で学習した表現よりも、グラフをノードの特徴の集合として見ることができ、構造的および位置的情報をトランスフォーマーアーキテクチャに組み込むことが可能であることを示す。 我々のモデルであるGraphiTは,グラフ上の正定値カーネルに基づく自己注意スコアにおける相対的な位置符号化戦略と,短距離パスなどの局所的なサブ構造を列挙して符号化することで,そのような情報を符号化する。 我々はこれらの2つの概念を多くの分類タスクと回帰タスクで徹底的に評価し、それぞれの有効性と組み合わせの有効性を独立に示す。 標準ベンチマークでよく機能するだけでなく,予測を説明するグラフモチーフを解釈するための自然な可視化機構も認めており,解釈が重要である科学的応用の候補として潜在的に有力である。 コードはhttps://github.com/i nria-thoth/graphit。

We show that viewing graphs as sets of node features and incorporating structural and positional information into a transformer architecture is able to outperform representations learned with classical graph neural networks (GNNs). Our model, GraphiT, encodes such information by (i) leveraging relative positional encoding strategies in self-attention scores based on positive definite kernels on graphs, and (ii) enumerating and encoding local sub-structures such as paths of short length. We thoroughly evaluate these two ideas on many classification and regression tasks, demonstrating the effectiveness of each of them independently, as well as their combination. In addition to performing well on standard benchmarks, our model also admits natural visualization mechanisms for interpreting graph motifs explaining the predictions, making it a potentially strong candidate for scientific applications where interpretation is important. Code available at https://github.com/i nria-thoth/GraphiT.
公開日:2021-06-10
翻訳日:2021-06-12 13:26:00
# (参考訳) ロボットピッキングのための水中物体検出のデータセットとベンチマーク [全文訳有]

A Dataset And Benchmark Of Underwater Object Detection For Robot Picking ( http://arxiv.org/abs/2106.05681v1 )

ライセンス: CC BY 4.0
Chongwei Liu, Haojie Li, Shuchang Wang, Ming Zhu, Dong Wang, Xin Fan and Zhihui Wang(参考訳) ロボットピッキングのための水中物体検出は、多くの関心を集めている。 しかし、いくつかの問題により未解決の問題である。 以下に示す課題に対処することで、より現実的なものにするためのステップを踏み出します。 まず、現在利用可能なデータセットは基本的にテストセットアノテーションを欠いているため、研究者は他のSOTAと比較しなければならない(トレーニングセットから)。 他の方法のトレーニングはワークロードの増加につながり、研究者によって異なるデータセットが分割されるため、異なるアルゴリズムのパフォーマンスを比較するための統一ベンチマークは存在しない。 第二に、これらのデータセットには他にも欠点があり、例えば、多くの類似した画像や不完全なラベルがある。 これらの課題に向けて、すべての関連するデータセットの収集と再アノテーションに基づいて、データセット、検出水中オブジェクト(DUO)および対応するベンチマークを導入します。 DUOはより合理的な注釈を持つ多様な水中画像のコレクションを含んでいる。 対応するベンチマークは、JETSON AGX XAVIERを使用して検出速度を評価し、ロボット組み込み環境をシミュレートする、学術研究および産業応用のためのSOTA(MDtection framework)の効率と精度の指標を提供する。

Underwater object detection for robot picking has attracted a lot of interest. However, it is still an unsolved problem due to several challenges. We take steps towards making it more realistic by addressing the following challenges. Firstly, the currently available datasets basically lack the test set annotations, causing researchers must compare their method with other SOTAs on a self-divided test set (from the training set). Training other methods lead to an increase in workload and different researchers divide different datasets, resulting there is no unified benchmark to compare the performance of different algorithms. Secondly, these datasets also have other shortcomings, e.g., too many similar images or incomplete labels. Towards these challenges we introduce a dataset, Detecting Underwater Objects (DUO), and a corresponding benchmark, based on the collection and re-annotation of all relevant datasets. DUO contains a collection of diverse underwater images with more rational annotations. The corresponding benchmark provides indicators of both efficiency and accuracy of SOTAs (under the MMDtection framework) for academic research and industrial applications, where JETSON AGX XAVIER is used to assess detector speed to simulate the robot-embedded environment.
公開日:2021-06-10
翻訳日:2021-06-12 13:09:22
# (参考訳) 平衡シナプスを有する単一信号ニューロンの時空間スパイク-パタン選択性 [全文訳有]

Spatiotemporal Spike-Pattern Selectivity in Single Mixed-Signal Neurons with Balanced Synapses ( http://arxiv.org/abs/2106.05686v1 )

ライセンス: CC BY 4.0
Mattias Nilsson, Foteini Liwicki, and Fredrik Sandin(参考訳) 超低消費電力推論と学習のための混合信号ニューロモルフィックプロセッサの可能性を実現するには、その不均一なアナログ回路とスパース、時間ベースの情報符号化と処理の効率的な利用が必要である。 本研究では,stcネットワークにおけるspike-timing-based spatiotemporal receptive fields (spike-timing-based spatiotemporal receptive fields of output-neurons in the spatiotemporal correlator (stc)について検討した。 ハードウェアニューロンの5次元受容場を一様分布からランダムに入力スパイクパターンをサンプリングすることによってマッピングした混合信号DYNAP-SEニューロモルフィックプロセッサを用いたループ内ハードウェア実験を行った。 バランスの取れたシナプス要素がランダムにプログラムされると、いくつかのニューロンは異なる受容野を示す。 さらに,同種アナログシナプス回路の異なるサブセットを活性化することにより,ニューロンが特定の時空間的特徴を検出するように調整されたことを実証した。 バランスの取れたシナプス要素のエネルギー散逸は、かつての遅延ベースのニューロモルフィックハードウェア実装よりも1桁低い(0.65 nJ 対 9.3 nJ 対 スパイク)。 そこで本研究では,不均質なシナプス回路をstcネットワーク層のリソース効率の高い実装に活用し,機能チューニングのための離散的な機構としてシナプスアドレス再プログラミングを可能にする方法を示す。

Realizing the potential of mixed-signal neuromorphic processors for ultra-low-power inference and learning requires efficient use of their inhomogeneous analog circuitry as well as sparse, time-based information encoding and processing. Here, we investigate spike-timing-based spatiotemporal receptive fields of output-neurons in the Spatiotemporal Correlator (STC) network, for which we used excitatory-inhibitor y balanced disynaptic inputs instead of dedicated axonal or neuronal delays. We present hardware-in-the-loop experiments with a mixed-signal DYNAP-SE neuromorphic processor, in which five-dimensional receptive fields of hardware neurons were mapped by randomly sampling input spike-patterns from a uniform distribution. We find that, when the balanced disynaptic elements are randomly programmed, some of the neurons display distinct receptive fields. Furthermore, we demonstrate how a neuron was tuned to detect a particular spatiotemporal feature, to which it initially was non-selective, by activating a different subset of the inhomogeneous analog synaptic circuits. The energy dissipation of the balanced synaptic elements is one order of magnitude lower per lateral connection (0.65 nJ vs 9.3 nJ per spike) than former delay-based neuromorphic hardware implementations. Thus, we show how the inhomogeneous synaptic circuits could be utilized for resource-efficient implementation of STC network layers, in a way that enables synapse-address reprogramming as a discrete mechanism for feature tuning.
公開日:2021-06-10
翻訳日:2021-06-12 13:00:52
# (参考訳) ハイパーグラフ学習のための学習可能なハイパーグラフラプラシアン [全文訳有]

Learnable Hypergraph Laplacian for Hypergraph Learning ( http://arxiv.org/abs/2106.05701v1 )

ライセンス: CC BY 4.0
Jiying Zhang, Yuzhao Chen, Xi Xiao, Runiu Lu, Shu-Tao Xia(参考訳) HyperGraph Convolutional Neural Networks (HGCNN) は、グラフ構造化データに保存された高次関係をモデル化する可能性を示した。 しかし、既存の畳み込みフィルタの多くは、事前に定義された初期ハイパーグラフトポロジーによって局所化され決定され、実世界データにおける暗黙的および長期的関係の探索を怠る。 本稿では,hgcnnの表現力を向上させる汎用プラグイン・イン・プレイモジュールとして機能する,適応型ハイパーグラフ構造構築のための最初の学習ベース手法であるhypergraph laplacian adaptor(herald)を提案する。 具体的には,ハイパーノードとハイパーエッジの隣接関係をエンドツーエンドで適応的に最適化し,タスク認識ハイパーグラフを学習する。 さらにヘラルドは、非局所的な対ノード関係を捉えるために自己アテンション機構を用いる。 ノード分類とグラフ分類タスクのための多種多様なハイパーグラフデータセットに対する大規模な実験により,本手法が一貫した性能向上を実現し,その有効性と一般化能力を示した。

HyperGraph Convolutional Neural Networks (HGCNNs) have demonstrated their potential in modeling high-order relations preserved in graph structured data. However, most existing convolution filters are localized and determined by the pre-defined initial hypergraph topology, neglecting to explore implicit and long-ange relations in real-world data. In this paper, we propose the first learning-based method tailored for constructing adaptive hypergraph structure, termed HypERgrAph Laplacian aDaptor (HERALD), which serves as a generic plug-in-play module for improving the representational power of HGCNNs. Specifically, HERALD adaptively optimizes the adjacency relationship between hypernodes and hyperedges in an end-to-end manner and thus the task-aware hypergraph is learned. Furthermore, HERALD employs the self-attention mechanism to capture the non-local paired-nodes relation. Extensive experiments on various popular hypergraph datasets for node classification and graph classification tasks demonstrate that our approach obtains consistent and considerable performance enhancement, proving its effectiveness and generalization ability.
公開日:2021-06-10
翻訳日:2021-06-12 12:48:23
# (参考訳) FEVEROUS:非構造化情報に対するFact extract and Verification [全文訳有]

FEVEROUS: Fact Extraction and VERification Over Unstructured and Structured information ( http://arxiv.org/abs/2106.05707v1 )

ライセンス: CC BY-SA 4.0
Rami Aly, Zhijiang Guo, Michael Schlichtkrull, James Thorne, Andreas Vlachos, Christos Christodoulopoulos, Oana Cocarascu, Arpit Mittal(参考訳) ファクト検証は、誤情報を検出する重要な方法の1つであるため、機械学習や自然言語処理のコミュニティで多くの注目を集めている。 このタスクの既存の大規模ベンチマークは主にテキストソースに焦点を当てている。 構造化されていない情報は、テーブルのような構造化されたフォーマットで利用可能な豊富な情報を無視します。 本稿では,87,026件の検証済みクレームからなる新しいデータセットとベンチマークであるFact extract and VERification Over Unstructured and Structured Information (FEVEROUS)を紹介する。 それぞれのクレームには、ウィキペディアの表の文やセルの形での証拠と、この証拠が評決に達するのに十分な情報を提供していないかどうかを示すラベルが添付されている。 さらに、データセットに存在するバイアスを追跡し最小化するための取り組みを詳述し、例えばモデルによって悪用される可能性がある。 証拠を使わずにラベルを予測できるのです 最後に,テキストと表に対するクレームを検証するためのベースラインを開発し,クレームの正しい証拠と18%の判定を予測した。

Fact verification has attracted a lot of attention in the machine learning and natural language processing communities, as it is one of the key methods for detecting misinformation. Existing large-scale benchmarks for this task have focused mostly on textual sources, i.e. unstructured information, and thus ignored the wealth of information available in structured formats, such as tables. In this paper we introduce a novel dataset and benchmark, Fact Extraction and VERification Over Unstructured and Structured information (FEVEROUS), which consists of 87,026 verified claims. Each claim is annotated with evidence in the form of sentences and/or cells from tables in Wikipedia, as well as a label indicating whether this evidence supports, refutes, or does not provide enough information to reach a verdict. Furthermore, we detail our efforts to track and minimize the biases present in the dataset and could be exploited by models, e.g. being able to predict the label without using evidence. Finally, we develop a baseline for verifying claims against text and tables which predicts both the correct evidence and verdict for 18% of the claims.
公開日:2021-06-10
翻訳日:2021-06-12 12:38:19
# (参考訳) DNNに基づくトポロジ最適化:空間不変性とニューラルタンジェントカーネル [全文訳有]

DNN-Based Topology Optimisation: Spatial Invariance and Neural Tangent Kernel ( http://arxiv.org/abs/2106.05710v1 )

ライセンス: CC BY 4.0
Benjamin Dupuis and Arthur Jacot(参考訳) 完全連結ニューラルネットワークによって生成される密度場を用いてSIMP法について検討し,その座標を入力とする。 広帯域幅では,DNNを用いた場合,従来のSIMPのフィルタリング手法と同様のフィルタ効果が得られ,Nutral Tangent Kernel (NTK) によるフィルタが記述される。 しかし、このフィルターは翻訳下で不変ではなく、視覚的アーティファクトと非最適形状をもたらす。 入力座標の埋め込みを2つ提案し、NTKとフィルタの空間的不変性を(近似的に)引き起こす。 理論的観測を実証的に確認し,ネットワークのアーキテクチャによるフィルタサイズの影響について検討する。 我々の解は他の座標ベースの生成方法にも容易に適用できる。

We study the SIMP method with a density field generated by a fully-connected neural network, taking the coordinates as inputs. In the large width limit, we show that the use of DNNs leads to a filtering effect similar to traditional filtering techniques for SIMP, with a filter described by the Neural Tangent Kernel (NTK). This filter is however not invariant under translation, leading to visual artifacts and non-optimal shapes. We propose two embeddings of the input coordinates, which lead to (approximate) spatial invariance of the NTK and of the filter. We empirically confirm our theoretical observations and study how the filter size is affected by the architecture of the network. Our solution can easily be applied to any other coordinates-based generation method.
公開日:2021-06-10
翻訳日:2021-06-12 12:12:06
# (参考訳) Wasserstein 距離を用いた分布ロバストな規範解析 [全文訳有]

Distributionally Robust Prescriptive Analytics with Wasserstein Distance ( http://arxiv.org/abs/2106.05724v1 )

ライセンス: CC BY 4.0
Tianyu Wang, Ningyuan Chen and Chun Wang(参考訳) 規範的分析では、決定者は$(X, Y)$の歴史的サンプルを観察し、$Y$は不確実な問題パラメータであり、$X$は共同分布を知らずに同時共変量である。 追加の共変量観測の$x$が与えられた場合、この観測の目標は、コストが$\mathbb{E}[c(z,Y)|X=x]$を最小化する決定の$z$条件を選択することである。 本稿では,ヒストリデータに関するnadaraya-watson kernel estimatorに基づいてy|x=x$の公称分布を構築する,wassersteinambiguit y setに基づく新しい分布的ロバストなアプローチを提案する。 名目分布はwasserstein距離の下で実際の条件分布に収束することを示す。 我々は,フレームワークの外部保証と計算可搬性を確立する。 newsvendor問題とポートフォリオ最適化に関する総合的かつ実証的な実験を通じて,提案フレームワークの性能と実用的価値を実証する。

In prescriptive analytics, the decision-maker observes historical samples of $(X, Y)$, where $Y$ is the uncertain problem parameter and $X$ is the concurrent covariate, without knowing the joint distribution. Given an additional covariate observation $x$, the goal is to choose a decision $z$ conditional on this observation to minimize the cost $\mathbb{E}[c(z,Y)|X=x]$. This paper proposes a new distributionally robust approach under Wasserstein ambiguity sets, in which the nominal distribution of $Y|X=x$ is constructed based on the Nadaraya-Watson kernel estimator concerning the historical data. We show that the nominal distribution converges to the actual conditional distribution under the Wasserstein distance. We establish the out-of-sample guarantees and the computational tractability of the framework. Through synthetic and empirical experiments about the newsvendor problem and portfolio optimization, we demonstrate the strong performance and practical value of the proposed framework.
公開日:2021-06-10
翻訳日:2021-06-12 11:47:18
# (参考訳) 等価ポリシーを用いた協調型マルチエージェント学習の公平性 [全文訳有]

Fairness for Cooperative Multi-Agent Learning with Equivariant Policies ( http://arxiv.org/abs/2106.05727v1 )

ライセンス: CC BY 4.0
Niko A. Grupen, Bart Selman, Daniel D. Lee(参考訳) 協調型マルチエージェント学習のレンズを通して公平性を研究する。 私たちの仕事は、チーム報酬の最小化が個々のチームメンバーに不公平な結果をもたらすという実証的な証拠によって動機付けられています。 マルチエージェント・コンテキストにおける公平性に対処するために、マルチエージェント・ラーニングのためのグループベースフェアネス尺度であるteam fairnessを導入する。 次に、チームフェアネスをポリシー最適化に取り入れます -- 公正さを平等性(Fair-E)を通じて導入します。 次に,fair-e のソフト・コンストラクティブ版として等分散正規化 (fair-er) によってフェアネスを導入することにより,fair-er が fair-e よりも高い有用性に到達し,公平性のない政策よりも公正な結果が得られることを示した。 最後に,マルチエージェント設定におけるフェアネスユーティリティトレードオフについて検討する。

We study fairness through the lens of cooperative multi-agent learning. Our work is motivated by empirical evidence that naive maximization of team reward yields unfair outcomes for individual team members. To address fairness in multi-agent contexts, we introduce team fairness, a group-based fairness measure for multi-agent learning. We then incorporate team fairness into policy optimization -- introducing Fairness through Equivariance (Fair-E), a novel learning strategy that achieves provably fair reward distributions. We then introduce Fairness through Equivariance Regularization (Fair-ER) as a soft-constraint version of Fair-E and show that Fair-ER reaches higher levels of utility than Fair-E and fairer outcomes than policies with no equivariance. Finally, we investigate the fairness-utility trade-off in multi-agent settings.
公開日:2021-06-10
翻訳日:2021-06-12 11:25:34
# (参考訳) 畳み込みニューラルネットワークを用いた顔マスク検出 [全文訳有]

Face mask detection using convolution neural network ( http://arxiv.org/abs/2106.05728v1 )

ライセンス: CC BY 4.0
Riya Shah Rutva Shah(参考訳) 近年では、異なるウイルスの大きなファミリーであるコロナウイルスは、人間全体にとって非常に一般的で伝染性があり、危険になっている。 ウイルスの液滴を異なる表面に残し、他の人が吸っても感染をキャッチする感染口を吐き出すことで、ヒトからヒトに拡散する。 そのため、この状況から自分と周りの人々を守ることがとても重要になっています。 ソーシャルディスタンシング、手洗い、2時間ごとに手洗い、消毒剤の使用、社会的距離の維持、マスク着用などの予防措置を採ることができる。 マスクを身に着けることの公的な利用は、今や世界中で非常に一般的になっている。 それ以来、インドで最も影響を受け、壊滅的な状況は、人口が極端に少ないことによる。 そこで本稿では,オフィスや出勤者の多い職場でフェイスマスクが装着されているかどうかを検知する手法を提案する。 畳み込みニューラルネットワークも同様に使用しました。 このモデルは実世界のデータセットでトレーニングされ、ライブビデオストリーミングで高い精度でテストされる。 さらに、ハイパーパラメータの異なるモデルの精度と、フレームの距離や位置の異なる複数の人物の精度について検討する。

In the recent times, the Coronaviruses that are a big family of different viruses have become very common, contagious and dangerous to the whole human kind. It spreads human to human by exhaling the infection breath, which leaves droplets of the virus on different surface which is then inhaled by other person and catches the infection too. So it has become very important to protect ourselves and the people around us from this situation. We can take precautions such as social distancing, washing hands every two hours, using sanitizer, maintaining social distance and the most important wearing a mask. Public use of wearing a masks has become very common everywhere in the whole world now. From that the most affected and devastating condition is of India due to its extreme population in small area. This paper proposes a method to detect the face mask is put on or not for offices, or any other work place with a lot of people coming to work. We have used convolutional neural network for the same. The model is trained on a real world dataset and tested with live video streaming with a good accuracy. Further the accuracy of the model with different hyper parameters and multiple people at different distance and location of the frame is done.
公開日:2021-06-10
翻訳日:2021-06-12 11:09:53
# (参考訳) リアルタイム画像編集のためのPivotal Tuning [全文訳有]

Pivotal Tuning for Latent-based Editing of Real Images ( http://arxiv.org/abs/2106.05744v1 )

ライセンス: CC BY-SA 4.0
Daniel Roich, Ron Mokady, Amit H. Bermano, and Daniel Cohen-Or(参考訳) 近年,事前学習したStyleGANの生成能力を活用した高度な顔編集技術が提案されている。 このようにして画像を編集するには、事前に訓練されたジェネレータのドメインに最初に画像を投影(あるいは反転)する必要がある。 しかし、スタイルガンの潜在空間は、歪曲と編集性の間に固有のトレードオフを生じさせる。 元の外観を保ち 属性のいくつかを 確実に変更することです 実際には、ジェネレータの領域外にある顔に対して、ID保存の顔潜在空間編集を適用することは依然として困難である。 本稿では,このギャップを橋渡しする手法を提案する。 我々の技術はジェネレータを少し変更し、ドメイン外の画像を忠実にドメイン内の潜在コードにマッピングする。 重要なアイデアはpivotal tuning – ドメイン内の潜在領域の編集品質を保ちながら、その表現されたアイデンティティと外観を変更する、簡単なトレーニングプロセスだ。 Pivotal Tuning Inversion (PTI)では、初期反転潜時コードはピボットとして機能し、その周りでジェネレータを微調整する。 同時に、正規化用語は、その効果を局所的に含むために、近隣のアイデンティティをそのまま保持する。 この手術訓練プロセスは、編集能力に影響を与えることなく、ほとんど同一性を表す外観の特徴を変えることになる。 測定値の反転と編集を行い,最先端の手法に好適なスコアを示す。 さらに,高度な編集(ポーズ,年齢,表情など)を,知名度や認識可能な多数の画像に適用することにより,この手法を定性的に実証する。 最後に, ヘビーメイクアップ, 精巧なヘアスタイル, ヘッドウェアなど, 難易度の高い症例に対するレジリエンスを実証した。

Recently, a surge of advanced facial editing techniques have been proposed that leverage the generative power of a pre-trained StyleGAN. To successfully edit an image this way, one must first project (or invert) the image into the pre-trained generator's domain. As it turns out, however, StyleGAN's latent space induces an inherent tradeoff between distortion and editability, i.e. between maintaining the original appearance and convincingly altering some of its attributes. Practically, this means it is still challenging to apply ID-preserving facial latent-space editing to faces which are out of the generator's domain. In this paper, we present an approach to bridge this gap. Our technique slightly alters the generator, so that an out-of-domain image is faithfully mapped into an in-domain latent code. The key idea is pivotal tuning - a brief training process that preserves the editing quality of an in-domain latent region, while changing its portrayed identity and appearance. In Pivotal Tuning Inversion (PTI), an initial inverted latent code serves as a pivot, around which the generator is fined-tuned. At the same time, a regularization term keeps nearby identities intact, to locally contain the effect. This surgical training process ends up altering appearance features that represent mostly identity, without affecting editing capabilities. We validate our technique through inversion and editing metrics, and show preferable scores to state-of-the-art methods. We further qualitatively demonstrate our technique by applying advanced edits (such as pose, age, or expression) to numerous images of well-known and recognizable identities. Finally, we demonstrate resilience to harder cases, including heavy make-up, elaborate hairstyles and/or headwear, which otherwise could not have been successfully inverted and edited by state-of-the-art methods.
公開日:2021-06-10
翻訳日:2021-06-12 11:05:41
# (参考訳) 残留エンコーダと正規化流れによるマルチスピーカーtts韻律分散の改善 [全文訳有]

Improving multi-speaker TTS prosody variance with a residual encoder and normalizing flows ( http://arxiv.org/abs/2106.05762v1 )

ライセンス: CC BY 4.0
Iv\'an Vall\'es-P\'erez, Julian Roth, Grzegorz Beringer, Roberto Barra-Chicote, Jasha Droppo(参考訳) テキスト対音声システムは最近、人間の発話とほとんど区別がつかない品質を達成した。 しかし、それらのシステムの韻律は一般に自然発声よりも平坦であり、表現力の低いサンプルを生成する。 自然性を改善し、より可変的な合成を生成するために、テキスト対音声システムでは話者idと韻律の絡み合いが不可欠である。 本稿では,フロー正規化話者埋め込みにTacotron2のようなアーキテクチャを条件付け,韻律による文内変動をモデル化する新たな学習潜時分布を基準エンコーダに置き換えることで,絡み合う問題にアプローチする新しいニューラルテキスト音声合成モデルを提案する。 参照エンコーダの依存性を取り除くことで、この種のシステムで発生する話者推論問題は消失し、推論時により独特な合成が生成される。 新しいモデルでは, 話者の明瞭度を低下させることなく, 数量的韻律特徴のセットにおいて, ベースラインよりもはるかに高い韻律分散を実現する。 最後に、正規化話者埋め込みにより、よりリッチな話者補間が可能となり、新しい補間話者の特異性を大幅に向上する。

Text-to-speech systems recently achieved almost indistinguishable quality from human speech. However, the prosody of those systems is generally flatter than natural speech, producing samples with low expressiveness. Disentanglement of speaker id and prosody is crucial in text-to-speech systems to improve on naturalness and produce more variable syntheses. This paper proposes a new neural text-to-speech model that approaches the disentanglement problem by conditioning a Tacotron2-like architecture on flow-normalized speaker embeddings, and by substituting the reference encoder with a new learned latent distribution responsible for modeling the intra-sentence variability due to the prosody. By removing the reference encoder dependency, the speaker-leakage problem typically happening in this kind of systems disappears, producing more distinctive syntheses at inference time. The new model achieves significantly higher prosody variance than the baseline in a set of quantitative prosody features, as well as higher speaker distinctiveness, without decreasing the speaker intelligibility. Finally, we observe that the normalized speaker embeddings enable much richer speaker interpolations, substantially improving the distinctiveness of the new interpolated speakers.
公開日:2021-06-10
翻訳日:2021-06-12 10:50:08
# (参考訳) 生存データをクラスタリングするための深い変分アプローチ

A Deep Variational Approach to Clustering Survival Data ( http://arxiv.org/abs/2106.05763v1 )

ライセンス: CC BY 4.0
Laura Manduchi, Ri\v{c}ards Marcinkevi\v{c}s, Michela C. Massi, Verena Gotta, Timothy M\"uller, Flavio Vasella, Marian C. Neidert, Marc Pfister and Julia E. Vogt(参考訳) 生存分析は医療分野で大きな注目を集めており、多くの広範囲の応用がある。 複雑な依存関係を持つ非構造化データの時間対イベント予測に様々な機械学習手法が導入されたが、サバイバルデータのクラスタリングは未探索の問題のままである。 後者は、異なる生成機構によって生存が制御される患者サブポピュレーションの発見に特に有用であり、精密医学における重要な問題である。 そこで本研究では,変動型深層クラスタリングにおけるクラスタ生存データに対する新しい確率的アプローチを提案する。 提案手法は,説明変数と潜在的に検閲された生存時間の両方の分布を明らかにするために,深い生成モデルを用いる。 本モデルとサバイバルクラスタリングに関する関連する研究を比較し,合成,半合成,実世界のデータセットの総合実験を行った。 提案手法は,クラスタの同定に優れ,一致指数と相対絶対誤差の観点から生存時間を予測できる。 さらに本手法の有用性を実証するため,これまでの臨床所見と一致した血液透析患者の観察的コホートから有意義なクラスターを同定した。

Survival analysis has gained significant attention in the medical domain and has many far-reaching applications. Although a variety of machine learning methods have been introduced for tackling time-to-event prediction in unstructured data with complex dependencies, clustering of survival data remains an under-explored problem. The latter is particularly helpful in discovering patient subpopulations whose survival is regulated by different generative mechanisms, a critical problem in precision medicine. To this end, we introduce a novel probabilistic approach to cluster survival data in a variational deep clustering setting. Our proposed method employs a deep generative model to uncover the underlying distribution of both the explanatory variables and the potentially censored survival times. We compare our model to the related work on survival clustering in comprehensive experiments on a range of synthetic, semi-synthetic, and real-world datasets. Our proposed method performs better at identifying clusters and is competitive at predicting survival times in terms of the concordance index and relative absolute error. To further demonstrate the usefulness of our approach, we show that our method identifies meaningful clusters from an observational cohort of hemodialysis patients that are consistent with previous clinical findings.
公開日:2021-06-10
翻訳日:2021-06-11 21:49:30
# (参考訳) 特許領域における表現学習のための言語情報マスキング [全文訳有]

Linguistically Informed Masking for Representation Learning in the Patent Domain ( http://arxiv.org/abs/2106.05768v1 )

ライセンス: CC BY 4.0
Sophia Althammer, Mark Buckley, Sebastian Hofst\"atter, Allan Hanbury(参考訳) ドメイン特化言語モデルは、類似性マッチング、エンティティ認識、情報検索など、ドメイン特化下流タスクに対してかなりの効果を発揮している。 しかし、そのようなモデルを高度に特定の言語領域に適用するには、事前訓練されたモデルのドメイン適応が必要である。 本稿では,特許の言語パターンにドメイン適応型事前学習を集中させる,経験的動機付け型言語インフォームドマスキング(LIM)手法を提案する。 特許, 科学, 汎用言語間の関連性の違いを定量化し, LIMによるドメイン適応が, IPC分類と類似性マッチングという2つの独立した下流タスクにおいて, 特許言語のドメイン適応表現の性能を評価することによって, 体系的に改良された表現をもたらすことを示す。 特許ドメインに対するドメイン適応において,異なる情報ソースからの学習のバランスが与える影響を実証する。 ソースコードとドメイン適応型プレトレーニング済みの特許言語モデルをhttps://github.com/s ophiaalthammer/paten t-lim.comで公開しています。

Domain-specific contextualized language models have demonstrated substantial effectiveness gains for domain-specific downstream tasks, like similarity matching, entity recognition or information retrieval. However successfully applying such models in highly specific language domains requires domain adaptation of the pre-trained models. In this paper we propose the empirically motivated Linguistically Informed Masking (LIM) method to focus domain-adaptative pre-training on the linguistic patterns of patents, which use a highly technical sublanguage. We quantify the relevant differences between patent, scientific and general-purpose language and demonstrate for two different language models (BERT and SciBERT) that domain adaptation with LIM leads to systematically improved representations by evaluating the performance of the domain-adapted representations of patent language on two independent downstream tasks, the IPC classification and similarity matching. We demonstrate the impact of balancing the learning from different information sources during domain adaptation for the patent domain. We make the source code as well as the domain-adaptive pre-trained patent language models publicly available at https://github.com/s ophiaalthammer/paten t-lim.
公開日:2021-06-10
翻訳日:2021-06-11 21:48:29
# (参考訳) 深部暗黙的表面点予測ネットワーク [全文訳有]

Deep Implicit Surface Point Prediction Networks ( http://arxiv.org/abs/2106.05779v1 )

ライセンス: CC BY 4.0
Rahul Venkatesh, Tejan Karmali, Sarthak Sharma, Aurobrata Ghosh, L\'aszl\'o A. Jeni, R. Venkatesh Babu, Maneesh Singh(参考訳) 暗黙の関数としての3次元形状の深い神経表現は、メッシュと点雲を用いた明示的な表現によって直面する解像度-メモリトレードオフを超える高忠実度モデルを生成することが示されている。 しかし、そのようなアプローチのほとんどは閉じた形を表現することに焦点を当てている。 非符号距離関数(UDF)に基づくアプローチは、最近オープン形状とクローズ形状の両方を表すための有望な代替として提案されている。 しかし、UDFの勾配が表面でなくなるため、視覚やグラフィックスにおける多くの下流アプリケーションに必要な正規や接面のような局所的な(微分)幾何学的性質を推定することは困難である。 これらのプロパティを低メモリフットプリントで効率的に計算するには、さらに課題がある。 本稿では, 近接面点 (csp) 表現と呼ばれる新しい階層の暗黙表現を用いて, 曲面をモデル化する新しい手法を提案する。 CSPにより、任意の位相(開あるいは閉)の複素曲面を高い忠実度で表現できることが示される。 また、局所幾何学的性質の正確かつ効率的な計算を可能にする。 さらに、3D表面をレンダリングするスフィアトレーシングのような下流アルゴリズムを効率よく実装し、メッシュベースの明示的な表現を作成できることを示す。 shapenetデータセットの広範な実験的評価は、上記の貢献が最先端の成果を上回っていることを検証している。

Deep neural representations of 3D shapes as implicit functions have been shown to produce high fidelity models surpassing the resolution-memory trade-off faced by the explicit representations using meshes and point clouds. However, most such approaches focus on representing closed shapes. Unsigned distance function (UDF) based approaches have been proposed recently as a promising alternative to represent both open and closed shapes. However, since the gradients of UDFs vanish on the surface, it is challenging to estimate local (differential) geometric properties like the normals and tangent planes which are needed for many downstream applications in vision and graphics. There are additional challenges in computing these properties efficiently with a low-memory footprint. This paper presents a novel approach that models such surfaces using a new class of implicit representations called the closest surface-point (CSP) representation. We show that CSP allows us to represent complex surfaces of any topology (open or closed) with high fidelity. It also allows for accurate and efficient computation of local geometric properties. We further demonstrate that it leads to efficient implementation of downstream algorithms like sphere-tracing for rendering the 3D surface as well as to create explicit mesh-based representations. Extensive experimental evaluation on the ShapeNet dataset validate the above contributions with results surpassing the state-of-the-art.
公開日:2021-06-10
翻訳日:2021-06-11 21:30:48
# (参考訳) Transformed CNNs:自己注意で事前学習した畳み込み層をリキャストする [全文訳有]

Transformed CNNs: recasting pre-trained convolutional layers with self-attention ( http://arxiv.org/abs/2106.05795v1 )

ライセンス: CC BY 4.0
St\'ephane d'Ascoli, Levent Sagun, Giulio Biroli, Ari Morcos(参考訳) ビジョントランスフォーマー(ViT)は近年,畳み込みネットワーク(CNN)の強力な代替手段として登場した。 ハイブリッドモデルはこれらの2つのアーキテクチャ間のギャップを埋めようとしているが、それらが依存する自己注意層は特に大きな空間解像度において強力な計算ボトルネックを引き起こす。 本研究では,これらの層を畳み込み層として初期化することにより,これらの層を訓練するのに要する時間を短縮する手法を検討する。 これにより、任意の事前学習されたCNNからTransformed CNN(T-CNN)と呼ばれる機能的に同一のハイブリッドモデルへの移行を円滑に行うことができる。 わずか50回の微調整で、結果として得られたT-CNNはCNN(ResNet50-RSではImageNet-1kで+2.2%、ImageNet-Cでは+11%)よりも大幅に性能が向上した。 我々は、T-CNNが学習した表現を分析し、畳み込みと自己意識の間の実りある相互作用について深い洞察を提供する。 最後に、部分的に訓練されたCNNからT-CNNを初期化する実験を行い、トレーニング時間を短縮しつつ、スクラッチからトレーニングした対応するハイブリッドモデルよりも優れた性能が得られることを示した。

Vision Transformers (ViT) have recently emerged as a powerful alternative to convolutional networks (CNNs). Although hybrid models attempt to bridge the gap between these two architectures, the self-attention layers they rely on induce a strong computational bottleneck, especially at large spatial resolutions. In this work, we explore the idea of reducing the time spent training these layers by initializing them as convolutional layers. This enables us to transition smoothly from any pre-trained CNN to its functionally identical hybrid model, called Transformed CNN (T-CNN). With only 50 epochs of fine-tuning, the resulting T-CNNs demonstrate significant performance gains over the CNN (+2.2% top-1 on ImageNet-1k for a ResNet50-RS) as well as substantially improved robustness (+11% top-1 on ImageNet-C). We analyze the representations learnt by the T-CNN, providing deeper insights into the fruitful interplay between convolutions and self-attention. Finally, we experiment initializing the T-CNN from a partially trained CNN, and find that it reaches better performance than the corresponding hybrid model trained from scratch, while reducing training time.
公開日:2021-06-10
翻訳日:2021-06-11 21:13:10
# (参考訳) 無限不均衡下における線形分類器

Linear Classifiers Under Infinite Imbalance ( http://arxiv.org/abs/2106.05797v1 )

ライセンス: CC BY 4.0
Paul Glasserman, Mike Li(参考訳) 無限不均衡極限における二項分類における線形判別関数の挙動について検討し,一方のクラスのサンプルサイズは拘束されずに増大し,他方のサンプルサイズは固定されたままである。 分類器の係数は、重み関数によって指定された期待損失を最小化する。 重み関数の広いクラスでは、インターセプタは発散するが、係数ベクトルの残りの部分は無限不均衡の下で有限の極限を持ち、ロジスティック回帰に関する先行研究が拡張される。 極限は重み関数の左尾に依存し、有界、漸近多項式、漸近指数の3つの場合を区別する。 制限係数ベクトルは、ある最悪の選択肢に対して最適化されるという意味で、ロバスト性や保守性を反映する。 有界および多項式の場合、極限は少数類に対するアップサンプリング分布の暗黙の選択と等価である。 我々はこれらのアイデアを信用リスク設定に適用し、特に高感度および高特異性領域のパフォーマンスに重点を置いている。

We study the behavior of linear discriminant functions for binary classification in the infinite-imbalance limit, where the sample size of one class grows without bound while the sample size of the other remains fixed. The coefficients of the classifier minimize an expected loss specified through a weight function. We show that for a broad class of weight functions, the intercept diverges but the rest of the coefficient vector has a finite limit under infinite imbalance, extending prior work on logistic regression. The limit depends on the left tail of the weight function, for which we distinguish three cases: bounded, asymptotically polynomial, and asymptotically exponential. The limiting coefficient vectors reflect robustness or conservatism properties in the sense that they optimize against certain worst-case alternatives. In the bounded and polynomial cases, the limit is equivalent to an implicit choice of upsampling distribution for the minority class. We apply these ideas in a credit risk setting, with particular emphasis on performance in the high-sensitivity and high-specificity regions.
公開日:2021-06-10
翻訳日:2021-06-11 20:55:21
# (参考訳) 共同行動分布を用いた多エージェント強化学習における情報表現 [全文訳有]

Informative Policy Representations in Multi-Agent Reinforcement Learning via Joint-Action Distributions ( http://arxiv.org/abs/2106.05802v1 )

ライセンス: CC BY 4.0
Yifan Yu, Haobin Jiang, Zongqing Lu(参考訳) 多エージェント強化学習において、他のエージェントの行動によって引き起こされる環境の非定常性は、エージェントが独立して良い政策を学ぶのに重大な困難を生じさせた。 非定常性に対処する一つの方法はエージェントモデリングであり、エージェントは他のエージェントのポリシーの影響を考慮に入れる。 既存の作業の多くは、他のエージェントの行動や目標を予測したり、政策を区別したりすることに依存している。 しかし、このようなモデリングはポリシー間の類似点と相違点を同時に捉えることができず、不明瞭なポリシーに一般化する際に有用な情報を提供できない。 そこで本研究では,インタラクションでサンプリングされた協調行動分布を用いて,他のエージェントのポリシーの表現を学習する一般的な手法を提案する。 政策間の類似性や相違は、共同行動分布から推定される政策距離によって自然に捉えられ、学習された表現に故意に反映される。 政策表象に基づくエージェントは、目に見えないエージェントにうまく一般化することができる。 提案手法は,未確認エージェントに直面する場合,既存のマルチエージェントタスクよりも優れていることを示す。

In multi-agent reinforcement learning, the inherent non-stationarity of the environment caused by other agents' actions posed significant difficulties for an agent to learn a good policy independently. One way to deal with non-stationarity is agent modeling, by which the agent takes into consideration the influence of other agents' policies. Most existing work relies on predicting other agents' actions or goals, or discriminating between their policies. However, such modeling fails to capture the similarities and differences between policies simultaneously and thus cannot provide useful information when generalizing to unseen policies. To address this, we propose a general method to learn representations of other agents' policies via the joint-action distributions sampled in interactions. The similarities and differences between policies are naturally captured by the policy distance inferred from the joint-action distributions and deliberately reflected in the learned representations. Agents conditioned on the policy representations can well generalize to unseen agents. We empirically demonstrate that our method outperforms existing work in multi-agent tasks when facing unseen agents.
公開日:2021-06-10
翻訳日:2021-06-11 20:54:23
# (参考訳) 変分ベイのための量子自然勾配 [全文訳有]

Quantum Natural Gradient for Variational Bayes ( http://arxiv.org/abs/2106.05807v1 )

ライセンス: CC BY 4.0
Anna Lopatnikova and Minh-Ngoc Tran(参考訳) 変分ベイズ(VB)は機械学習と統計学において重要な手法であり、最近のベイズ深層学習の成功を支えている。 自然勾配は効率的なVB推定の必須成分であるが、高次元では計算コストが禁じられている。 本稿では,自然勾配計算のスケーリング性を向上させるためのハイブリッド量子古典アルゴリズムを提案する。 このアルゴリズムはHarrow, Hassidim, Lloyd [Phys] による線形システムアルゴリズムからの行列逆変換を利用する。 Rev Lett! 103, 15 (2009)] (HHL)。 逆行列はスパースであり、古典的量子古典的ハンドオフは計算効率を維持するのに十分な経済的であり、VBの自然勾配の問題がHHLの理想的な応用であることを示す。 標準条件下では、量子自然勾配を持つvbアルゴリズムが収束することが保証される。

Variational Bayes (VB) is a critical method in machine learning and statistics, underpinning the recent success of Bayesian deep learning. The natural gradient is an essential component of efficient VB estimation, but it is prohibitively computationally expensive in high dimensions. We propose a hybrid quantum-classical algorithm to improve the scaling properties of natural gradient computation and make VB a truly computationally efficient method for Bayesian inference in highdimensional settings. The algorithm leverages matrix inversion from the linear systems algorithm by Harrow, Hassidim, and Lloyd [Phys. Rev. Lett. 103, 15 (2009)] (HHL). We demonstrate that the matrix to be inverted is sparse and the classical-quantum-cl assical handoffs are sufficiently economical to preserve computational efficiency, making the problem of natural gradient for VB an ideal application of HHL. We prove that, under standard conditions, the VB algorithm with quantum natural gradient is guaranteed to converge.
公開日:2021-06-10
翻訳日:2021-06-11 20:12:37
# (参考訳) 正規化周波数による特徴選択の簡潔化 [全文訳有]

A concise method for feature selection via normalized frequencies ( http://arxiv.org/abs/2106.05814v1 )

ライセンス: CC BY 4.0
Song Tan, Xia He(参考訳) 特徴選択は、機械学習モデルを構築する上で重要な部分である。 データから冗長あるいは誤解を招く機能を排除することによって、機械学習モデルは、計算リソースの需要を減らしながら、より良いパフォーマンスを達成することができる。 メタヒューリスティックアルゴリズムは主に、Swarmインテリジェンスアルゴリズムや進化アルゴリズムのような特徴選択を実装するために使用される。 しかし、それらは相対的な複雑さと遅さの欠点に苦しんでいる。 本稿では,普遍的特徴選択のための簡潔な手法を提案する。 提案手法はフィルタ法とラッパー法の融合を利用したものである。 この方法は、データセットを前処理するためにワンホットエンコーディングを使用し、ランダムフォレストを分類器として利用する。 提案手法では、正規化周波数を用いて各特徴に値を割り当て、最適な特徴部分集合を見つける。 さらに,実験の出発点として,相互情報の出力を活用する新しい手法を提案する。 提案手法の評価には,侵入検出分野における実世界の2つのデータセットを用いた。 評価の結果,提案手法は精度,精度,リコール,f-score,aucの点で最先端関連作品よりも優れていた。

Feature selection is an important part of building a machine learning model. By eliminating redundant or misleading features from data, the machine learning model can achieve better performance while reducing the demand on com-puting resources. Metaheuristic algorithms are mostly used to implement feature selection such as swarm intelligence algorithms and evolutionary algorithms. However, they suffer from the disadvantage of relative complexity and slowness. In this paper, a concise method is proposed for universal feature selection. The proposed method uses a fusion of the filter method and the wrapper method, rather than a combination of them. In the method, one-hoting encoding is used to preprocess the dataset, and random forest is utilized as the classifier. The proposed method uses normalized frequencies to assign a value to each feature, which will be used to find the optimal feature subset. Furthermore, we propose a novel approach to exploit the outputs of mutual information, which allows for a better starting point for the experiments. Two real-world dataset in the field of intrusion detection were used to evaluate the proposed method. The evaluation results show that the proposed method outperformed several state-of-the-art related works in terms of accuracy, precision, recall, F-score and AUC.
公開日:2021-06-10
翻訳日:2021-06-11 19:55:42
# (参考訳) グラフコントラスト学習改善のための逆グラフ拡張 [全文訳有]

Adversarial Graph Augmentation to Improve Graph Contrastive Learning ( http://arxiv.org/abs/2106.05819v1 )

ライセンス: CC BY 4.0
Susheel Suresh, Pan Li, Cong Hao, Jennifer Neville(参考訳) グラフニューラルネットワーク(gnn)の自己教師付き学習は,実世界のグラフ/ネットワークデータにおけるラベル不足の問題から,非常に必要とされている。 グラフコントラスト学習(GCL)は、GNNを訓練して、異なる拡張形式における同じグラフの表現間の対応を最大化することにより、ラベルを使わずに堅牢で転送可能なGNNが得られる。 しかし、従来のGCLによって訓練されたGNNは、冗長なグラフ特徴をキャプチャするリスクがしばしばあるため、不安定であり、下流タスクでサブパーのパフォーマンスを提供する。 本稿では,GCLにおける逆グラフ拡張戦略を最適化することにより,GNNがトレーニング中に冗長な情報を捕捉することを回避できる新しい原理であるAD-GCLを提案する。 ad-gclを理論的な説明と組み合わせ、訓練可能なエッジドロップグラフ拡張に基づく実用的なインスタンス化を設計する。 我々は、AD-GCL法を最先端のGCL法と比較し、分子特性の回帰と分類、およびソーシャルネットワーク分類のタスクに関する18種類のベンチマークデータセットを用いて、教師なし学習における最大14\%、転送時の6\%、および半教師付き学習環境における3\%のパフォーマンス向上を実験的に検証した。

Self-supervised learning of graph neural networks (GNN) is in great need because of the widespread label scarcity issue in real-world graph/network data. Graph contrastive learning (GCL), by training GNNs to maximize the correspondence between the representations of the same graph in its different augmented forms, may yield robust and transferable GNNs even without using labels. However, GNNs trained by traditional GCL often risk capturing redundant graph features and thus may be brittle and provide sub-par performance in downstream tasks. Here, we propose a novel principle, termed adversarial-GCL (AD-GCL), which enables GNNs to avoid capturing redundant information during the training by optimizing adversarial graph augmentation strategies used in GCL. We pair AD-GCL with theoretical explanations and design a practical instantiation based on trainable edge-dropping graph augmentation. We experimentally validate AD-GCL by comparing with the state-of-the-art GCL methods and achieve performance gains of up-to $14\%$ in unsupervised, $6\%$ in transfer, and $3\%$ in semi-supervised learning settings overall with 18 different benchmark datasets for the tasks of molecule property regression and classification, and social network classification.
公開日:2021-06-10
翻訳日:2021-06-11 19:24:52
# (参考訳) GroupBERT: 効率的なグループ構造を持つ拡張トランスフォーマーアーキテクチャ [全文訳有]

GroupBERT: Enhanced Transformer Architecture with Efficient Grouped Structures ( http://arxiv.org/abs/2106.05822v1 )

ライセンス: CC BY-SA 4.0
Ivan Chelombiev, Daniel Justus, Douglas Orr, Anastasia Dietrich, Frithjof Gressmann, Alexandros Koliousis, Carlo Luschi(参考訳) 注意に基づく言語モデルは最先端自然言語処理システムにおいて重要な要素となっている。 しかし、これらのモデルには、長い訓練時間、厳密な演算、大きなパラメータ数のために、かなりの計算要求がある。 本研究では,トランスフォーマー層の構造を改良し,より効率的なアーキテクチャを実現する。 まず、自己認識モジュールを補完する畳み込みモジュールを追加し、局所的およびグローバルな相互作用の学習を分離する。 第二に,モデル表現性を維持しつつ,密なフィードフォワード層と畳み込みの計算コストを削減するために群変換に依存する。 得られたアーキテクチャを言語表現学習に適用し、異なるスケールのBERTモデルと比較して優れた性能を示す。 さらに,浮動小数点演算(FLOP)と時間・ツー・トレインの両面で,効率の向上を強調した。

Attention based language models have become a critical component in state-of-the-art natural language processing systems. However, these models have significant computational requirements, due to long training times, dense operations and large parameter count. In this work we demonstrate a set of modifications to the structure of a Transformer layer, producing a more efficient architecture. First, we add a convolutional module to complement the self-attention module, decoupling the learning of local and global interactions. Secondly, we rely on grouped transformations to reduce the computational cost of dense feed-forward layers and convolutions, while preserving the expressivity of the model. We apply the resulting architecture to language representation learning and demonstrate its superior performance compared to BERT models of different scales. We further highlight its improved efficiency, both in terms of floating-point operations (FLOPs) and time-to-train.
公開日:2021-06-10
翻訳日:2021-06-11 18:46:15
# (参考訳) 知識ベースタスク指向対話システムのためのテンプレート誘導型ハイブリッドポインタネットワーク [全文訳有]

A Template-guided Hybrid Pointer Network for Knowledge-basedTask- oriented Dialogue Systems ( http://arxiv.org/abs/2106.05830v1 )

ライセンス: CC BY 4.0
Dingmin Wang, Ziyao Chen, Wanwei He, Li Zhong, Yunzhe Tao, Min Yang(参考訳) 既存のニューラルネットワークベースのタスク指向対話システムは、エンコーダ-デコーダパラダイムに従っており、デコーダは純粋にソーステキストに依存して、不安定で可読性の悪い単語列を生成する。 従来のテンプレート・ベース・ジェネレーション・アプローチにインスパイアされた,知識に基づくタスク指向対話システムのためのテンプレート誘導型ハイブリッド・ポインター・ネットワークを提案する。 具体的には,ゲッティング機構を備えたメモリポインタネットワークモデルの設計を行い,得られた回答と接地応答とのセマンティック相関を十分に活用する。 4つのタスク指向データセットについて評価を行い,1つのシミュレーションデータセットと3つの手動生成データセットについて検討した。 実験の結果, 提案手法は, 異なる自動評価指標に対して, 最先端手法よりも有意に優れた性能が得られることがわかった。

Most existing neural network based task-oriented dialogue systems follow encoder-decoder paradigm, where the decoder purely depends on the source texts to generate a sequence of words, usually suffering from instability and poor readability. Inspired by the traditional template-based generation approaches, we propose a template-guided hybrid pointer network for the knowledge-based task-oriented dialogue system, which retrieves several potentially relevant answers from a pre-constructed domain-specific conversational repository as guidance answers, and incorporates the guidance answers into both the encoding and decoding processes. Specifically, we design a memory pointer network model with a gating mechanism to fully exploit the semantic correlation between the retrieved answers and the ground-truth response. We evaluate our model on four widely used task-oriented datasets, including one simulated and three manually created datasets. The experimental results demonstrate that the proposed model achieves significantly better performance than the state-of-the-art methods over different automatic evaluation metrics.
公開日:2021-06-10
翻訳日:2021-06-11 18:30:39
# (参考訳) 蛍光顕微鏡画像におけるセルインスタンスセグメンテーション改善のための完全畳み込みネットワークにおける形態素情報を強制する [全文訳有]

Enforcing Morphological Information in Fully Convolutional Networks to Improve Cell Instance Segmentation in Fluorescence Microscopy Images ( http://arxiv.org/abs/2106.05843v1 )

ライセンス: CC BY 4.0
Willard Zamora-Cardenas, Mauro Mendez, Saul Calderon-Ramirez, Martin Vargas, Gerardo Monge, Steve Quiros, David Elizondo, David Elizondo, Miguel A. Molina-Cabello(参考訳) 蛍光顕微鏡画像における細胞インスタンスのセグメンテーションは、がんのダイナミックスや予後に欠かせないものになりつつある。 がんダイナミクスから抽出されたデータは、増殖のような異なる代謝過程を理解し、正確にモデル化することができる。 これにより、カスタマイズされたより正確ながん治療が可能になる。 しかし、さらなる細胞追跡と行動解析に必要な正確な細胞インスタンスのセグメンテーションは、高い細胞濃度と重なり合うエッジを持つシナリオでは依然として困難である。 本稿では,よく知られたU-Netアーキテクチャに基づく新しいセルインスタンス分割手法を提案する。 画素毎の形態情報の学習を強制するために、奥行きトランスフォーマー(ddt)がバックボーンモデルとして機能する。 DDT出力はその後、トップモデルのトレーニングに使用される。 以下のトップモデルが考慮される: 3つのクラス(前景、背景およびセル境界)、u-net、および流域変換。 その結果,従来のU-Netアーキテクチャよりも性能が向上することが示唆された。 これは、形態素情報を完全な畳み込みモデルに注入するというアイデアに関する興味深い研究ラインを開く。

Cell instance segmentation in fluorescence microscopy images is becoming essential for cancer dynamics and prognosis. Data extracted from cancer dynamics allows to understand and accurately model different metabolic processes such as proliferation. This enables customized and more precise cancer treatments. However, accurate cell instance segmentation, necessary for further cell tracking and behavior analysis, is still challenging in scenarios with high cell concentration and overlapping edges. Within this framework, we propose a novel cell instance segmentation approach based on the well-known U-Net architecture. To enforce the learning of morphological information per pixel, a deep distance transformer (DDT) acts as a back-bone model. The DDT output is subsequently used to train a top-model. The following top-models are considered: a three-class (\emph{e.g.,} foreground, background and cell border) U-net, and a watershed transform. The obtained results suggest a performance boost over traditional U-Net architectures. This opens an interesting research line around the idea of injecting morphological information into a fully convolutional model.
公開日:2021-06-10
翻訳日:2021-06-11 18:15:31
# (参考訳) 群同変部分サンプリング [全文訳有]

Group Equivariant Subsampling ( http://arxiv.org/abs/2106.05886v1 )

ライセンス: CC BY 4.0
Jin Xu, Hyunjik Kim, Tom Rainforth, Yee Whye Teh(参考訳) サブサンプリングは、プールやストライド畳み込みの形で畳み込みニューラルネットワーク(CNN)で使われ、特徴写像の空間次元を小さくし、受容野が深さとともに指数関数的に成長できるようにする。 しかし、そのような部分サンプリング操作は、変換同変である畳み込みとは異なり、翻訳同変ではないことが知られている。 ここではまず,完全翻訳同変cnnの構築に使用できる翻訳同変部分サンプリング/アップサンプリング層について紹介する。 次にこれらの層を一般群への変換を超えて一般化し、したがって群同変部分サンプリング/アップサンプリングを提案する。 これらの層を用いて群同変オートエンコーダ(GAE)を構築し、低次元同変表現を学習する。 我々は、表現が入力の翻訳と回転と実際に同値であることのイメージを経験的に検証し、その結果、見つからない位置と向きによく一般化する。 さらに,マルチオブジェクトデータセット上でオブジェクト中心表現を学習するモデルにおいて,gaesを用いて,非同値なベースラインと比較して,データ効率と分解性が向上することを示す。

Subsampling is used in convolutional neural networks (CNNs) in the form of pooling or strided convolutions, to reduce the spatial dimensions of feature maps and to allow the receptive fields to grow exponentially with depth. However, it is known that such subsampling operations are not translation equivariant, unlike convolutions that are translation equivariant. Here, we first introduce translation equivariant subsampling/upsampli ng layers that can be used to construct exact translation equivariant CNNs. We then generalise these layers beyond translations to general groups, thus proposing group equivariant subsampling/upsampli ng. We use these layers to construct group equivariant autoencoders (GAEs) that allow us to learn low-dimensional equivariant representations. We empirically verify on images that the representations are indeed equivariant to input translations and rotations, and thus generalise well to unseen positions and orientations. We further use GAEs in models that learn object-centric representations on multi-object datasets, and show improved data efficiency and decomposition compared to non-equivariant baselines.
公開日:2021-06-10
翻訳日:2021-06-11 18:04:28
# (参考訳) ロバスト応答ランキングと評価のための対向負反応の合成 [全文訳有]

Synthesizing Adversarial Negative Responses for Robust Response Ranking and Evaluation ( http://arxiv.org/abs/2106.05894v1 )

ライセンス: CC BY 4.0
Prakhar Gupta, Yulia Tsvetkov, Jeffrey P. Bigham(参考訳) オープンドメインニューラルダイアログモデルは、応答のランキングと評価タスクにおいて高い性能を達成した。 これらのタスクは、対話コンテキストで与えられる応答のバイナリ分類として定式化され、モデルは通常、コンテキスト応答の内容の類似性に基づいて予測を学習する。 しかし、コンテンツ類似性への過度な依存は、モデルが不整合、不正確な時間表現、そして応答の適切性や一貫性に重要な要素の存在に敏感になる。 本稿では,コンテンツ類似性を超えた特徴のランキングと評価を支援するために,逆ネガティブトレーニングデータの自動作成手法を提案する。 より堅牢な対話システムをトレーニングするためのネガティブな例を生成するマスク・アンド・フィルとキーワード誘導アプローチを提案する。 これらの生成した逆応答は、文脈と高い内容の類似性を持つが、不整合性、不適切、あるいは流動性がない。 私たちのアプローチは完全にデータ駆動であり、既存のモデルやデータセットに簡単に組み込むことができます。 複数のデータセットにまたがる分類、ランキング、評価タスクの実験により、我々のアプローチは、トレーニング対話システムに有益なネガティブな例を提供する上で、強いベースラインを上回ります。

Open-domain neural dialogue models have achieved high performance in response ranking and evaluation tasks. These tasks are formulated as a binary classification of responses given in a dialogue context, and models generally learn to make predictions based on context-response content similarity. However, over-reliance on content similarity makes the models less sensitive to the presence of inconsistencies, incorrect time expressions and other factors important for response appropriateness and coherence. We propose approaches for automatically creating adversarial negative training data to help ranking and evaluation models learn features beyond content similarity. We propose mask-and-fill and keyword-guided approaches that generate negative examples for training more robust dialogue systems. These generated adversarial responses have high content similarity with the contexts but are either incoherent, inappropriate or not fluent. Our approaches are fully data-driven and can be easily incorporated in existing models and datasets. Experiments on classification, ranking and evaluation tasks across multiple datasets demonstrate that our approaches outperform strong baselines in providing informative negative examples for training dialogue systems.
公開日:2021-06-10
翻訳日:2021-06-11 17:33:07
# (参考訳) 双対多目的マニピュレーションにおける固有正則化としての遠絡注意 [全文訳有]

Disentangled Attention as Intrinsic Regularization for Bimanual Multi-Object Manipulation ( http://arxiv.org/abs/2106.05907v1 )

ライセンス: CC BY 4.0
Minghao Zhang, Pingcheng Jian, Yi Wu, Huazhe Xu, Xiaolong Wang(参考訳) 本稿では,スパース報酬を伴う複数のオブジェクト上での複雑な双方向ロボット操作タスクの解決に対処する。 このような複雑なタスクは、異なるロボットによって同時または順次に実現可能なサブタスクに分解され、効率性が向上する。 従来の強化学習アプローチは、主にサブタスクの構成性をモデル化することに焦点を当てていたが、特に2つのロボットの協調戦略を学ぶ際には、2つの基本的な問題は無視されている。 この2つの課題に取り組むために,2つのロボットが分離したサブタスクとオブジェクトに焦点を合わせるための本質的な正規化を提供する,disentangled attentionと呼ばれる新しい手法を提案する。 本手法を4つの双方向操作タスクで評価する。 実験の結果,提案する本質的正則化は,すべての基準よりもはるかに効果的な協調戦略をもたらすため,支配を回避し,政策の対立を低減できることがわかった。 ビデオ付きプロジェクトページはhttps://mehooz.githu b.io/bimanual-attent ion。

We address the problem of solving complex bimanual robot manipulation tasks on multiple objects with sparse rewards. Such complex tasks can be decomposed into sub-tasks that are accomplishable by different robots concurrently or sequentially for better efficiency. While previous reinforcement learning approaches primarily focus on modeling the compositionality of sub-tasks, two fundamental issues are largely ignored particularly when learning cooperative strategies for two robots: (i) domination, i.e., one robot may try to solve a task by itself and leaves the other idle; (ii) conflict, i.e., one robot can easily interrupt another's workspace when executing different sub-tasks simultaneously. To tackle these two issues, we propose a novel technique called disentangled attention, which provides an intrinsic regularization for two robots to focus on separate sub-tasks and objects. We evaluate our method on four bimanual manipulation tasks. Experimental results show that our proposed intrinsic regularization successfully avoids domination and reduces conflicts for the policies, which leads to significantly more effective cooperative strategies than all the baselines. Our project page with videos is at https://mehooz.githu b.io/bimanual-attent ion.
公開日:2021-06-10
翻訳日:2021-06-11 17:08:25
# (参考訳) anatomy x-net : 胸部疾患分類のための半教師付き畳み込みニューラルネットワーク [全文訳有]

Anatomy X-Net: A Semi-Supervised Anatomy Aware Convolutional Neural Network for Thoracic Disease Classification ( http://arxiv.org/abs/2106.05915v1 )

ライセンス: CC BY 4.0
Uday Kamal, Mohammad Zunaed, Nusrat Binta Nizam, Taufiq Hasan(参考訳) 深層学習法を用いた胸部x線写真からの胸部疾患の検出は,過去10年間,活発に研究されてきた。 これまでの手法のほとんどは、モデルの予測に重要な貢献をした空間領域を同定することで、画像の病的な臓器に焦点を当てようとするものである。 対照的に、専門家の放射線学者は、これらの領域が異常かどうかを決定する前に、まず顕著な解剖学的構造を見つける。 したがって、ディープラーニングモデルに解剖学的知識を統合することで、自動疾患分類が大幅に改善される可能性がある。 本研究は,事前同定された解剖領域によって誘導される空間的特徴を優先する解剖学的アウェアメントベースアーキテクチャanatomy x-netを提案する。 臓器レベルのアノテーションを含むjsrtデータセットを用いた半教師あり学習法を用いて,nihおよびchexpertデータセットの解剖学的分節マスク(肺と心臓用)を得る。 提案する解剖学 x-net では,事前学習された densenet-121 を,解剖学的注意学習のためのコヒーシブフレームワークとして anatomy aware attention (aaa) と probabilistic weighted average pooling (pwap) という2つの構造モジュールを備えたバックボーンネットワークとして使用する。 提案手法は,AUCスコア0.8439のNIHテストセットに新たな最先端性能を設定し,解剖学的セグメンテーション知識を用いて胸部疾患分類を改善することの有効性を示した。 さらに、Anatomy X-NetはStanford CheXpertデータセット上で平均0.9020のAUCを生成し、提案フレームワークの一般化可能性を示す既存の手法を改善した。

Thoracic disease detection from chest radiographs using deep learning methods has been an active area of research in the last decade. Most previous methods attempt to focus on the diseased organs of the image by identifying spatial regions responsible for significant contributions to the model's prediction. In contrast, expert radiologists first locate the prominent anatomical structures before determining if those regions are anomalous. Therefore, integrating anatomical knowledge within deep learning models could bring substantial improvement in automatic disease classification. This work proposes an anatomy-aware attention-based architecture named Anatomy X-Net, that prioritizes the spatial features guided by the pre-identified anatomy regions. We leverage a semi-supervised learning method using the JSRT dataset containing organ-level annotation to obtain the anatomical segmentation masks (for lungs and heart) for the NIH and CheXpert datasets. The proposed Anatomy X-Net uses the pre-trained DenseNet-121 as the backbone network with two corresponding structured modules, the Anatomy Aware Attention (AAA) and Probabilistic Weighted Average Pooling (PWAP), in a cohesive framework for anatomical attention learning. Our proposed method sets new state-of-the-art performance on the official NIH test set with an AUC score of 0.8439, proving the efficacy of utilizing the anatomy segmentation knowledge to improve the thoracic disease classification. Furthermore, the Anatomy X-Net yields an averaged AUC of 0.9020 on the Stanford CheXpert dataset, improving on existing methods that demonstrate the generalizability of the proposed framework.
公開日:2021-06-10
翻訳日:2021-06-11 16:46:35
# (参考訳) PARP:自己教師付き音声認識のためのプーン, 調整, 再プーン

PARP: Prune, Adjust and Re-Prune for Self-Supervised Speech Recognition ( http://arxiv.org/abs/2106.05933v1 )

ライセンス: CC BY 4.0
Cheng-I Jeff Lai, Yang Zhang, Alexander H. Liu, Shiyu Chang, Yi-Lun Liao, Yung-Sung Chuang, Kaizhi Qian, Sameer Khurana, David Cox, James Glass(参考訳) 最近の音声自己教師付き学習(speech ssl)の研究は、並列データ制限付き自動音声認識(asr)のためのリッチで転送可能な表現の学習におけるスケールの利点を実証した。 そして、より優れた低リソースASR性能を実現することができる事前訓練された音声SSLモデルにおけるスパースおよびトランスファー可能なサブネットワークの存在を調査することは自然である。 しかし、LTH(Lottery Ticket hypothesis)のような広く採用されているプルーニング手法を直接適用することは、計算コストにおいて最適ではない。 さらに、LTHの予測に反して、発見されたサブネットは、元の高密度ネットワークと比較して最小の性能向上をもたらす。 本研究では,より優れたASR性能を実現するためにサブネットワークの探索と微調整を行う Prune-Adjust-Re-Prun e (PARP) を提案する。 PARPは、サブネットワークが事前トレーニングタスクで実行されているという驚くべき観察にインスパイアされ、下流のASRタスクで大きなパフォーマンス向上を達成するために、わずかに調整される必要がある。 低リソース英語と多言語ASRの広範な実験は、(1)訓練済み音声SSLにはスパースサブネットが存在し、(2)ベースラインプルーニング法よりも計算上の優位性と性能が向上していることを示している。 LMデコード無しの10min Librispeechスプリットでは、PARPはwav2vec 2.0からサブネットワークを発見し、完全なモデルに比べて10.9%/12.6%のWERが減少する。 PARPは,言語間マスキングにおける性能劣化を軽減し,単一のサブネットワークを1回の実行で10言語で発見する可能性を実証する。

Recent work on speech self-supervised learning (speech SSL) demonstrated the benefits of scale in learning rich and transferable representations for Automatic Speech Recognition (ASR) with limited parallel data. It is then natural to investigate the existence of sparse and transferrable subnetworks in pre-trained speech SSL models that can achieve even better low-resource ASR performance. However, directly applying widely adopted pruning methods such as the Lottery Ticket Hypothesis (LTH) is suboptimal in the computational cost needed. Moreover, contrary to what LTH predicts, the discovered subnetworks yield minimal performance gain compared to the original dense network. In this work, we propose Prune-Adjust- Re-Prune (PARP), which discovers and finetunes subnetworks for much better ASR performance, while only requiring a single downstream finetuning run. PARP is inspired by our surprising observation that subnetworks pruned for pre-training tasks only needed to be slightly adjusted to achieve a sizeable performance boost in downstream ASR tasks. Extensive experiments on low-resource English and multi-lingual ASR show (1) sparse subnetworks exist in pre-trained speech SSL, and (2) the computational advantage and performance gain of PARP over baseline pruning methods. On the 10min Librispeech split without LM decoding, PARP discovers subnetworks from wav2vec 2.0 with an absolute 10.9%/12.6% WER decrease compared to the full model. We demonstrate PARP mitigates performance degradation in cross-lingual mask transfer, and investigate the possibility of discovering a single subnetwork for 10 spoken languages in one run.
公開日:2021-06-10
翻訳日:2021-06-11 16:28:13
# (参考訳) 公平な正規化フロー [全文訳有]

Fair Normalizing Flows ( http://arxiv.org/abs/2106.05937v1 )

ライセンス: CC BY 4.0
Mislav Balunovi\'c, Anian Ruoss, Martin Vechev(参考訳) 公正表現学習は、センシティブなデータを符号化することで下流予測子の公平性を保証する魅力的なアプローチである。 残念なことに、近年の研究では、強い敵の予測器は、これらの表現から感度特性を回復することで、いまだに不公平であることを示した。 本研究では,FNF(Fair Normalizing Flows)という,学習表現に対する厳密な公正性を保証する新しい手法を提案する。 具体的には,感度群に対する確率密度を推定できる実用的な設定を考える。 鍵となる考え方は、異なる群の潜在表現間の統計的距離を最小化するために訓練された正規化フローとしてエンコーダをモデル化することである。 FNFの主な利点は、その正確な確率計算により、潜在的に逆下流予測器の最大不公平性の保証が得られることである。 我々は,FNFが様々なグループフェアネスの概念と,解釈可能性や伝達学習などの魅力的な特性を,様々な課題のある実世界のデータセット上で実施する効果を実験的に実証した。

Fair representation learning is an attractive approach that promises fairness of downstream predictors by encoding sensitive data. Unfortunately, recent work has shown that strong adversarial predictors can still exhibit unfairness by recovering sensitive attributes from these representations. In this work, we present Fair Normalizing Flows (FNF), a new approach offering more rigorous fairness guarantees for learned representations. Specifically, we consider a practical setting where we can estimate the probability density for sensitive groups. The key idea is to model the encoder as a normalizing flow trained to minimize the statistical distance between the latent representations of different groups. The main advantage of FNF is that its exact likelihood computation allows us to obtain guarantees on the maximum unfairness of any potentially adversarial downstream predictor. We experimentally demonstrate the effectiveness of FNF in enforcing various group fairness notions, as well as other attractive properties such as interpretability and transfer learning, on a variety of challenging real-world datasets.
公開日:2021-06-10
翻訳日:2021-06-11 16:27:02
# (参考訳) Implicit-PDF:回転多様体上の確率分布の非パラメトリック表現 [全文訳有]

Implicit-PDF: Non-Parametric Representation of Probability Distributions on the Rotation Manifold ( http://arxiv.org/abs/2106.05965v1 )

ライセンス: CC BY 4.0
Kieran Murphy, Carlos Esteves, Varun Jampani, Srikumar Ramalingam, Ameesh Makadia(参考訳) 単一画像のポーズ推定は多くの視覚やロボティクスのタスクにおいて基本的な問題であり、既存のディープラーニングアプローチは、完全にモデリングやハンドリングに苦しむ:i)予測の不確実性、i)複数の(時には無限)正しいポーズを持つ対称オブジェクト。 そこで本研究では,SO(3)上の任意の非パラメトリック分布を推定する手法を提案する。 私たちのキーとなるアイデアは、入力画像と候補ポーズの確率を推定するニューラルネットワークで、分布を暗黙的に表現することです。 グリッドサンプリングや勾配上昇は最も可能性の高いポーズを見つけるために用いられるが、任意のポーズで確率を評価することもでき、対称性や不確実性についての推論を可能にする。 これは多様体上の分布を表現する最も一般的な方法であり、豊かな表現力を示すために、対称でほぼ対称な物体のデータセットを導入する。 ポーズの不確実性に関する監督は必要ありません -- モデルでは、例毎に1つのポーズのみをトレーニングします。 それにもかかわらず、我々の暗黙のモデルは、3dポーズ上の複雑な分布を扱うために非常に表現力があり、標準の非曖昧な環境で正確なポーズ推定を得て、pascal3d+とmodelnet10-so(3)ベンチマークで最先端のパフォーマンスを達成しています。

Single image pose estimation is a fundamental problem in many vision and robotics tasks, and existing deep learning approaches suffer by not completely modeling and handling: i) uncertainty about the predictions, and ii) symmetric objects with multiple (sometimes infinite) correct poses. To this end, we introduce a method to estimate arbitrary, non-parametric distributions on SO(3). Our key idea is to represent the distributions implicitly, with a neural network that estimates the probability given the input image and a candidate pose. Grid sampling or gradient ascent can be used to find the most likely pose, but it is also possible to evaluate the probability at any pose, enabling reasoning about symmetries and uncertainty. This is the most general way of representing distributions on manifolds, and to showcase the rich expressive power, we introduce a dataset of challenging symmetric and nearly-symmetric objects. We require no supervision on pose uncertainty -- the model trains only with a single pose per example. Nonetheless, our implicit model is highly expressive to handle complex distributions over 3D poses, while still obtaining accurate pose estimation on standard non-ambiguous environments, achieving state-of-the-art performance on Pascal3D+ and ModelNet10-SO(3) benchmarks.
公開日:2021-06-10
翻訳日:2021-06-11 16:03:53
# (参考訳) 映像予測のための量子条件COT-GAN [全文訳有]

Quantized Conditional COT-GAN for Video Prediction ( http://arxiv.org/abs/2106.05658v1 )

ライセンス: CC BY 4.0
Tianlin Xu and Beatrice Acciaio(参考訳) 因果的最適輸送(COT)は、古典的最適輸送問題に時間的因果性制約を課し、経路空間上の分布間の距離の新しい概念を自然に生成する。 逐次学習にCOT理論を最初に応用したのは、Xuらである。 (2020)では,逐次データ生成に最適化された暗黙的生成モデルを学習するための逆アルゴリズムとしてCOT-GANを導入した。 Xuなどを参照。 (2020年)本論文の貢献は2倍である。 まず,シーケンス予測に適した条件付きCOT-GANを開発する。 これは、データセットが過去の進化の観察からシーケンスがどのように進化するかを学ぶために現在使用されていることを意味する。 第2に,backhoffらによる特定種類の量子化を通じて,経験的尺度の修正を行うことにより,収束結果を改善する。 (2020). 得られた量子化条件付きCOT-GANアルゴリズムをビデオ予測に応用した。

Causal Optimal Transport (COT) results from imposing a temporal causality constraint on classic optimal transport problems, which naturally generates a new concept of distances between distributions on path spaces. The first application of the COT theory for sequential learning was given in Xu et al. (2020), where COT-GAN was introduced as an adversarial algorithm to train implicit generative models optimized for producing sequential data. Relying on Xu et al. (2020), the contribution of the present paper is twofold. First, we develop a conditional version of COT-GAN suitable for sequence prediction. This means that the dataset is now used in order to learn how a sequence will evolve given the observation of its past evolution. Second, we improve on the convergence results by working with modifications of the empirical measures via a specific type of quantization due to Backhoff et al. (2020). The resulting quantized conditional COT-GAN algorithm is illustrated with an application for video prediction.
公開日:2021-06-10
翻訳日:2021-06-11 15:11:02
# 計画のためのベクトル量子化モデル

Vector Quantized Models for Planning ( http://arxiv.org/abs/2106.04615v2 )

ライセンス: Link先を確認
Sherjil Ozair, Yazhe Li, Ali Razavi, Ioannis Antonoglou, A\"aron van den Oord, Oriol Vinyals(参考訳) モデルベースRLの分野での最近の発展は、特に計画が不可欠である様々な環境で成功している。 しかし、そのような成功は決定論的完全観測環境に限定されている。 確率的かつ部分的に観測可能な環境を扱う新しいアプローチを提案する。 我々の重要な洞察は、確率的環境におけるアクションの複数の影響を捉えるために離散オートエンコーダを使用することである。 エージェントの動作と環境の応答を表す離散的潜在変数の両方を計画するためにモンテカルロ木探索の確率的変種を用いる。 本手法は, 対戦相手が環境の一部と見なされるチェスの確率論的解釈において, オフライン版の MuZero を著しく上回っている。 また,大規模な視覚観察と部分観測が可能な1対1の3D環境であるDeepMind Labにアプローチを拡大することを示す。

Recent developments in the field of model-based RL have proven successful in a range of environments, especially ones where planning is essential. However, such successes have been limited to deterministic fully-observed environments. We present a new approach that handles stochastic and partially-observable environments. Our key insight is to use discrete autoencoders to capture the multiple possible effects of an action in a stochastic environment. We use a stochastic variant of Monte Carlo tree search to plan over both the agent's actions and the discrete latent variables representing the environment's response. Our approach significantly outperforms an offline version of MuZero on a stochastic interpretation of chess where the opponent is considered part of the environment. We also show that our approach scales to DeepMind Lab, a first-person 3D environment with large visual observations and partial observability.
公開日:2021-06-10
翻訳日:2021-06-11 14:49:30
# 視覚トランスフォーマーにおけるスパーシティの追求:エンドツーエンド探索

Chasing Sparsity in Vision Transformers: An End-to-End Exploration ( http://arxiv.org/abs/2106.04533v2 )

ライセンス: Link先を確認
Tianlong Chen, Yu Cheng, Zhe Gan, Lu Yuan, Lei Zhang, Zhangyang Wang(参考訳) ビジョン・トランスフォーマー(ViT)は最近爆発的な人気を博したが、その巨大なモデルサイズとトレーニングコストは依然として大きなものだ。 通常の訓練後の刈り取りは、しばしば高い訓練予算を伴います。 対照的に,本稿では,学習メモリのオーバヘッドと推論複雑性の両方を,実現可能な精度を犠牲にすることなく削減することを目的としている。 われわれは、ViTsに「端から端まで」スパーシリティを統合する統一的なアプローチを採り入れた、先駆的な包括的探査をローンチし報告する。 具体的には、完全なViTをトレーニングする代わりに、固定された小さなパラメータ予算を維持しながら、スパースサブネットワークを動的に抽出し、訓練する。 提案手法はモデルパラメータを協調的に最適化し,トレーニングを通じて接続性を探究し,最終的に1つの疎ネットワークを最終的な出力とする。 このアプローチは、非構造化から構造化されたスパース性へとシームレスに拡張され、後者は、vits内の自己愛の頭を導くことを検討する。 さらなる効率向上のために、我々は新しい学習可能なトークンセレクタを差し込み、現在最も重要なパッチを適応的に決定することで、データとアーキテクチャの疎結合をさらに発見する。 多様なViTバックボーンを持つImageNetの広範な結果から,計算コストを大幅に削減し,ほぼ不備な一般化を実現する提案の有効性が検証された。 おそらく最も驚くべきことに、提案されたスパース(コ-)トレーニングは、それを妥協するよりも、ViTの精度を向上し、スパースを「無料ランチ」にすることができる。 例えば、sparsified deit-small at (5%, 50%) sparsity for (data, architecture)、0.28% top-1の精度向上、49.32%のフロップと4.40%の実行時間の節約を実現しています。 私たちのコードはhttps://github.com/V ITA-Group/SViTE.comで公開されています。

Vision transformers (ViTs) have recently received explosive popularity, but their enormous model sizes and training costs remain daunting. Conventional post-training pruning often incurs higher training budgets. In contrast, this paper aims to trim down both the training memory overhead and the inference complexity, without sacrificing the achievable accuracy. We launch and report the first-of-its-kind comprehensive exploration, on taking a unified approach of integrating sparsity in ViTs "from end to end". Specifically, instead of training full ViTs, we dynamically extract and train sparse subnetworks, while sticking to a fixed small parameter budget. Our approach jointly optimizes model parameters and explores connectivity throughout training, ending up with one sparse network as the final output. The approach is seamlessly extended from unstructured to structured sparsity, the latter by considering to guide the prune-and-grow of self-attention heads inside ViTs. For additional efficiency gains, we further co-explore data and architecture sparsity, by plugging in a novel learnable token selector to adaptively determine the currently most vital patches. Extensive results on ImageNet with diverse ViT backbones validate the effectiveness of our proposals which obtain significantly reduced computational cost and almost unimpaired generalization. Perhaps most surprisingly, we find that the proposed sparse (co-)training can even improve the ViT accuracy rather than compromising it, making sparsity a tantalizing "free lunch". For example, our sparsified DeiT-Small at (5%, 50%) sparsity for (data, architecture), improves 0.28% top-1 accuracy, and meanwhile enjoys 49.32% FLOPs and 4.40% running time savings. Our codes are available at https://github.com/V ITA-Group/SViTE.
公開日:2021-06-09
翻訳日:2021-06-11 14:49:18
# 4次元人体運動のマルチフレームシーケンス生成

Multi-frame sequence generator of 4D human body motion ( http://arxiv.org/abs/2106.04387v2 )

ライセンス: Link先を確認
Marsot Mathieu, Wuhrer Stefanie, Franco Jean-Sebastien, Durocher Stephane(参考訳) 本研究では,時間的および空間的に密集した4次元人体運動の発生問題について検討する。 一方、メッシュ表現のような高密度な3次元モデルに対する時間枠の静的適合問題として生成モデルが広く研究されており、時間的側面は生成モデルから外されている。 一方、マーカーベースのキャプチャー表現のような疎密な人間のモデルには時間的生成モデルが存在するが、我々の知識は高密度な3次元形状に拡張されたわけではない。 本稿では,このギャップを生成的オートエンコーダベースのフレームワークで橋渡しし,形態,翻訳・回転を含む大域的ロコモーション,複数フレームの時間運動を単一潜在空間ベクトルとして符号化する。 一般化と因子化能力を評価するため、我々はAMASSの循環移動サブセットにモデルを訓練し、より広範囲なモーションキャプチャーを提供する高密度表面モデルを活用する。 本研究は,低誤差境界内における人間の移動の4次元配列の再構成と,異なる多フレーム配列と移動型を表す潜在ベクトル間の潜時空間補間の有用性を検証した。 また,最初のロコモーションフレームから将来のフレームを4次元人力で予測する手法の利点を説明し,人間の運動の現実的な時空間的特徴を学習するモデルに有望な能力を示す。 このモデルにより,空間的および時間的にスパースなデータの補完が可能となることを示す。

We examine the problem of generating temporally and spatially dense 4D human body motion. On the one hand generative modeling has been extensively studied as a per time-frame static fitting problem for dense 3D models such as mesh representations, where the temporal aspect is left out of the generative model. On the other hand, temporal generative models exist for sparse human models such as marker-based capture representations, but have not to our knowledge been extended to dense 3D shapes. We propose to bridge this gap with a generative auto-encoder-based framework, which encodes morphology, global locomotion including translation and rotation, and multi-frame temporal motion as a single latent space vector. To assess its generalization and factorization abilities, we train our model on a cyclic locomotion subset of AMASS, leveraging the dense surface models it provides for an extensive set of motion captures. Our results validate the ability of the model to reconstruct 4D sequences of human locomotions within a low error bound, and the meaningfulness of latent space interpolation between latent vectors representing different multi-frame sequences and locomotion types. We also illustrate the benefits of the approach for 4D human motion prediction of future frames from initial human locomotion frames, showing promising abilities of our model to learn realistic spatio-temporal features of human motion. We show that our model allows for data completion of both spatially and temporally sparse data.
公開日:2021-06-10
翻訳日:2021-06-11 14:48:45
# 位置保存注意による有能な物体ランク付け

Salient Object Ranking with Position-Preserved Attention ( http://arxiv.org/abs/2106.05047v2 )

ライセンス: Link先を確認
Hao Fang, Daoxin Zhang, Yi Zhang, Minghao Chen, Jiawei Li, Yao Hu, Deng Cai and Xiaofei He(参考訳) インスタンスセグメンテーションは、オブジェクトが画像のどこにいるかを検出するが、それらの関係を理解するのは難しい。 私たちは典型的な関係、相対的な正当性に注意を払う。 密接に関連するタスクであるsalient object detectionは、複数のオブジェクトを識別するのは難しいが、視覚的なsalient領域をハイライトするバイナリマップを予測する。 後処理による2つのタスクの直接結合もパフォーマンスの低下につながる。 現在、相対的正当性の研究が欠如しており、コンテンツ対応画像トリミング、ビデオ要約、画像ラベリングといった実用的応用が制限されている。 本稿では,検出された各対象の順位を視覚的な順に割り当てるsaient object ranking (sor)タスクについて検討する。 本稿では,SORタスクの最初のエンドツーエンドフレームワークを提案し,マルチタスク学習方式で解決する。 このフレームワークはインスタンスセグメンテーションと適切なオブジェクトランキングを同時に処理する。 このフレームワークでは、sorブランチは独立で柔軟性があり、異なる検出メソッドと連携できるため、プラグインとして簡単に使用できます。 また、SORブランチ用に調整されたPPAモジュールも導入する。 位置埋め込みステージと特徴相互作用ステージで構成される。 正当性比較における位置の重要性を考慮すると、ROIプーリング動作における物体の絶対座標を保存し、第1段階における意味的特徴と位置情報を融合する。 特徴対話の段階では,提案の文脈化表現の獲得に注意機構を適用し,相対的な順位の予測を行う。 ASRデータセットで大規模な実験が行われた。 ベルとホイッスルがなければ,提案手法は従来の最先端手法よりも優れる。 コードは一般公開される予定だ。

Instance segmentation can detect where the objects are in an image, but hard to understand the relationship between them. We pay attention to a typical relationship, relative saliency. A closely related task, salient object detection, predicts a binary map highlighting a visually salient region while hard to distinguish multiple objects. Directly combining two tasks by post-processing also leads to poor performance. There is a lack of research on relative saliency at present, limiting the practical applications such as content-aware image cropping, video summary, and image labeling. In this paper, we study the Salient Object Ranking (SOR) task, which manages to assign a ranking order of each detected object according to its visual saliency. We propose the first end-to-end framework of the SOR task and solve it in a multi-task learning fashion. The framework handles instance segmentation and salient object ranking simultaneously. In this framework, the SOR branch is independent and flexible to cooperate with different detection methods, so that easy to use as a plugin. We also introduce a Position-Preserved Attention (PPA) module tailored for the SOR branch. It consists of the position embedding stage and feature interaction stage. Considering the importance of position in saliency comparison, we preserve absolute coordinates of objects in ROI pooling operation and then fuse positional information with semantic features in the first stage. In the feature interaction stage, we apply the attention mechanism to obtain proposals' contextualized representations to predict their relative ranking orders. Extensive experiments have been conducted on the ASR dataset. Without bells and whistles, our proposed method outperforms the former state-of-the-art method significantly. The code will be released publicly available.
公開日:2021-06-10
翻訳日:2021-06-11 14:48:22
# 文脈帯域における固定予算ベストアーム同定:静的適応アルゴリズム

Fixed-Budget Best-Arm Identification in Contextual Bandits: A Static-Adaptive Algorithm ( http://arxiv.org/abs/2106.04763v2 )

ライセンス: Link先を確認
MohammadJavad Azizi, Branislav Kveton and Mohammad Ghavamzadeh(参考訳) 固定予算設定における文脈的バンディットにおけるbest-arm identification(bai)の問題について検討する。 段階的に進行し,各段階における最適アームの固定分数を除去できる汎用逐次除去アルゴリズムを提案する。 この設計は静的および適応的な割り当ての強みを生かしている。 このアルゴリズムを線形モデルで解析し,先行研究よりも優れた誤差境界を求める。 また,一般化線形モデル (glms) にも適用し,その誤差を限定した。 これは固定予算設定におけるGLMに対する最初のBAIアルゴリズムである。 我々の膨大な数値実験により、我々のアルゴリズムは芸術の状態を上回ります。

We study the problem of best-arm identification (BAI) in contextual bandits in the fixed-budget setting. We propose a general successive elimination algorithm that proceeds in stages and eliminates a fixed fraction of suboptimal arms in each stage. This design takes advantage of the strengths of static and adaptive allocations. We analyze the algorithm in linear models and obtain a better error bound than prior work. We also apply it to generalized linear models (GLMs) and bound its error. This is the first BAI algorithm for GLMs in the fixed-budget setting. Our extensive numerical experiments show that our algorithm outperforms the state of art.
公開日:2021-06-10
翻訳日:2021-06-11 14:47:58
# ベイジアンベルマン作用素

Bayesian Bellman Operators ( http://arxiv.org/abs/2106.05012v2 )

ライセンス: Link先を確認
Matthew Fellows, Kristian Hartikainen, Shimon Whiteson(参考訳) ベイズ強化学習(RL)の新たな視点を導入し、既存のアプローチでは遷移分布やQ-関数よりも後方を推測するが、ベルマン作用素の不確かさを特徴付ける。 当社のbayesian bellman operator(bbo)フレームワークは、ブートストラップが導入されたとき、モデルフリーアプローチが実際にベルマン演算子の後方を推測し、値関数ではないという洞察によって動機付けられたものです。 本稿では,BBOを用いてモデルフリーベイズRLの厳密な理論的解析を行い,その関係性をよりよく理解する。 ベイズ解は近似推論が使用されるときでさえ、頻繁な rl 解と一致し、収束性が成り立つ条件が導かれることが証明される。 実証的に、BBOフレームワークから派生したアルゴリズムは、最先端の正規化アクター批判アルゴリズムが破滅的に失敗する継続的制御タスクを解くことができる洗練された深層探査特性を持つことを示した。

We introduce a novel perspective on Bayesian reinforcement learning (RL); whereas existing approaches infer a posterior over the transition distribution or Q-function, we characterise the uncertainty in the Bellman operator. Our Bayesian Bellman operator (BBO) framework is motivated by the insight that when bootstrapping is introduced, model-free approaches actually infer a posterior over Bellman operators, not value functions. In this paper, we use BBO to provide a rigorous theoretical analysis of model-free Bayesian RL to better understand its relationshipto established frequentist RL methodologies. We prove that Bayesian solutions are consistent with frequentist RL solutions, even when approximate inference isused, and derive conditions for which convergence properties hold. Empirically, we demonstrate that algorithms derived from the BBO framework have sophisticated deep exploration properties that enable them to solve continuous control tasks at which state-of-the-art regularised actor-critic algorithms fail catastrophically
公開日:2021-06-10
翻訳日:2021-06-11 14:47:51
# 常にキャッチできる:シグネチャの有無に関わらず、逆のパッチ対象を検出する

We Can Always Catch You: Detecting Adversarial Patched Objects WITH or WITHOUT Signature ( http://arxiv.org/abs/2106.05261v2 )

ライセンス: Link先を確認
Bin Liang and Jiachun Li and Jianjun Huang(参考訳) 近年,ディープラーニングに基づく物体検出は,敵パッチ攻撃に対して脆弱であることが証明されている。 特別に製作されたパッチを持った攻撃者は、物理的な世界でさえ最先端の人検知器、例えばYOLOから身を隠すことができる。 このような攻撃は、監視カメラから逃れるなど、深刻なセキュリティ上の脅威を引き起こす可能性がある。 本稿では,対象物検出に対する敵対的パッチ攻撃に対する検出問題について深く検討する。 まず、可視化説明の観点から、既存の敵パッチの活用可能なシグネチャを特定する。 高速シグネチャベースの防御手法を提案し,有効性を示した。 第2に,改良パッチ生成アルゴリズムの設計を行い,シグネチャベースの手法が将来出現する技術によってバイパスされるリスクを明らかにする。 新たに生成された敵パッチは、提案された署名ベースの防御を回避できる。 最後に,攻撃固有の事前知識ではなく,内部コンテンツセマンティクスの一貫性に基づく新たな署名非依存検出手法を提案する。 基本的直観は、対向物体が局所的に現れるが、入力画像で世界中に消えてしまうことである。 実験により,シグネチャ非依存手法が既存および改良された攻撃を効果的に検出できることが示されている。 また、攻撃固有の事前知識がなくても、予期せぬ攻撃やその他の種類の攻撃を検出する一般的な方法であることが証明されている。 提案する2つの検出方法は,異なるシナリオで適用可能であり,これらを組み合わせることで包括的に保護できると信じている。

Recently, the object detection based on deep learning has proven to be vulnerable to adversarial patch attacks. The attackers holding a specially crafted patch can hide themselves from the state-of-the-art person detectors, e.g., YOLO, even in the physical world. This kind of attack can bring serious security threats, such as escaping from surveillance cameras. In this paper, we deeply explore the detection problems about the adversarial patch attacks to the object detection. First, we identify a leverageable signature of existing adversarial patches from the point of the visualization explanation. A fast signature-based defense method is proposed and demonstrated to be effective. Second, we design an improved patch generation algorithm to reveal the risk that the signature-based way may be bypassed by the techniques emerging in the future. The newly generated adversarial patches can successfully evade the proposed signature-based defense. Finally, we present a novel signature-independen t detection method based on the internal content semantics consistency rather than any attack-specific prior knowledge. The fundamental intuition is that the adversarial object can appear locally but disappear globally in an input image. The experiments demonstrate that the signature-independen t method can effectively detect the existing and improved attacks. It has also proven to be a general method by detecting unforeseen and even other types of attacks without any attack-specific prior knowledge. The two proposed detection methods can be adopted in different scenarios, and we believe that combining them can offer a comprehensive protection.
公開日:2021-06-10
翻訳日:2021-06-11 14:47:34
# 構造スペクトル特徴とニューラルネットワークを用いた原理ハイパーエッジ予測

Principled Hyperedge Prediction with Structural Spectral Features and Neural Networks ( http://arxiv.org/abs/2106.04292v3 )

ライセンス: Link先を確認
Changlin Wan, Muhan Zhang, Wei Hao, Sha Cao, Pan Li, Chi Zhang(参考訳) hypergraphは、現実世界の複雑なデータの多角的関係を記述するフレームワークを提供する。 高次関係の予測、すなわちハイパーエッジは、複雑な相互作用を完全に理解するための根本的な問題となる。 グラフニューラルネットワーク(GNN)の開発は、対関係を持つ通常のグラフの解析を大幅に進歩させた。 しかし、これらの手法はハイパーグラフの場合に容易に拡張できない。 本稿では,エッジとノードレベルのあいまいさを原則として高次データを表現するgnnの課題を一般化する。 これらの課題を克服するために,2部グラフニューラルネットワークと構造的特徴を用いたSNALSを提案する。 SNALSは、その局所環境によってハイパーエッジの結合相互作用をキャプチャし、それらの接続のスペクトル情報を収集して取得する。 その結果、SNALSは最新のGNNモデルと比較して30%近い性能向上を達成した。 さらに,SNALSを用いて3次元ゲノム構造データ上での遺伝的高次相互作用を予測した。 SNALSは、異なる染色体間で一貫して高い予測精度を示し、既存の文献でさらに検証された4方向遺伝子相互作用の新しい発見を生んだ。

Hypergraph offers a framework to depict the multilateral relationships in real-world complex data. Predicting higher-order relationships, i.e hyperedge, becomes a fundamental problem for the full understanding of complicated interactions. The development of graph neural network (GNN) has greatly advanced the analysis of ordinary graphs with pair-wise relations. However, these methods could not be easily extended to the case of hypergraph. In this paper, we generalize the challenges of GNN in representing higher-order data in principle, which are edge- and node-level ambiguities. To overcome the challenges, we present SNALS that utilizes bipartite graph neural network with structural features to collectively tackle the two ambiguity issues. SNALS captures the joint interactions of a hyperedge by its local environment, which is retrieved by collecting the spectrum information of their connections. As a result, SNALS achieves nearly 30% performance increase compared with most recent GNN-based models. In addition, we applied SNALS to predict genetic higher-order interactions on 3D genome organization data. SNALS showed consistently high prediction accuracy across different chromosomes, and generated novel findings on 4-way gene interaction, which is further validated by existing literature.
公開日:2021-06-10
翻訳日:2021-06-11 14:47:14
# ソーシャルメディアを利用したCOVID-19パンデミックのサーベイランス:ノースカロライナ州におけるReddit調査

Surveillance of COVID-19 Pandemic using Social Media: A Reddit Study in North Carolina ( http://arxiv.org/abs/2106.04515v3 )

ライセンス: Link先を確認
Christopher Whitfield, Yang Liu, Mohd Anwar(参考訳) 新型コロナウイルス(COVID-19)パンデミックは人々の生活や行動の様々な側面を変えてきた。 この段階では、マスクを着用したり、距離を観察したり、手を洗ったりといった緩和策を採用する以外に、病気の自然進行を制御する方法はない。 さらに、ソーシャルディスタンシングにおいて、ソーシャルメディアは人々をつなげ、感情を表現するためのプラットフォームを提供する上で重要な役割を果たす。 本研究では,ソーシャルメディアを活用し,緩和策と検出戦略の取組を調査し,パンデミックに関する問題や懸念を捉えた。 特に、研究課題として、「Redditの投稿で自然言語処理を使用することで、新型コロナウイルスのパンデミックに対する公衆の取り組みや懸念について、どの程度のことが学べるか? ノースカロライナの4大サブレディットコミュニティから6ヶ月にわたって新型コロナウイルス関連の投稿を抽出した後、ノイズの多いデータをきれいにするためにNLPベースの前処理を行いました。 redditコーパス上でトピックモデリングを行うために,独自の名前付きエンティティ認識 (ner) システムと潜在ディリクレ割り当て (lda) 方式を採用した。 我々は,「マスク」,「フル」,「テスト」が,「個人保護装置」,「症状」,「テスト」の各カテゴリーにおいて,最も多い名義であることを示した。 また、最も議論されたトピックは、テスト、マスク、雇用に関連することも確認した。 緩和策は、すべてのサブredditで最も一般的な議論テーマである。

Coronavirus disease (COVID-19) pandemic has changed various aspects of people's lives and behaviors. At this stage, there are no other ways to control the natural progression of the disease than adopting mitigation strategies such as wearing masks, watching distance, and washing hands. Moreover, at this time of social distancing, social media plays a key role in connecting people and providing a platform for expressing their feelings. In this study, we tap into social media to surveil the uptake of mitigation and detection strategies, and capture issues and concerns about the pandemic. In particular, we explore the research question, "how much can be learned regarding the public uptake of mitigation strategies and concerns about COVID-19 pandemic by using natural language processing on Reddit posts?" After extracting COVID-related posts from the four largest subreddit communities of North Carolina over six months, we performed NLP-based preprocessing to clean the noisy data. We employed a custom Named-entity Recognition (NER) system and a Latent Dirichlet Allocation (LDA) method for topic modeling on a Reddit corpus. We observed that 'mask', 'flu', and 'testing' are the most prevalent named-entities for "Personal Protective Equipment", "symptoms", and "testing" categories, respectively. We also observed that the most discussed topics are related to testing, masks, and employment. The mitigation measures are the most prevalent theme of discussion across all subreddits.
公開日:2021-06-10
翻訳日:2021-06-11 14:46:57
# 単一サーバのプライベートリニア変換: 共同プライバシケース

Single-Server Private Linear Transformation: The Joint Privacy Case ( http://arxiv.org/abs/2106.05220v2 )

ライセンス: Link先を確認
Anoosheh Heidarzadeh, Nahid Esmati, and Alex Sprintson(参考訳) 本稿では,プライベート情報検索とプライベート線形計算の問題を一般化するPLT(Private Linear Transformation)の問題を紹介する。 PLTの問題には、1つ以上のリモートサーバが$K$メッセージを格納している(IDコピー)ことと、$D$サブセットの独立線形結合を$L$で計算したいユーザが含まれている。 ユーザの目的は、サーバから最小限の情報量をダウンロードし、計算に必要な$D$メッセージのIDを保護することで、計算を実行することである。 本研究では,計算に必要な$D$メッセージのIDを共同で保護しなければならない場合,PLT問題の単一サーバ設定に焦点を当てる。 必要となる$L$線形結合の係数行列が最大距離分離(MDS)符号を生成するかどうかによって、2つの異なるモデルを考える。 両方のモデルのキャパシティは$l/(k-d+l)$で与えられることが証明され、キャパシティはすべての実行可能ダウンロード率の上限として定義される。 逆証明は、線形代数的および情報理論的議論に基づいて、PLTスキームと線形符号の接続を確立する。 また、検討中の各モデルに対する達成可能性スキームも提示する。

This paper introduces the problem of Private Linear Transformation (PLT) which generalizes the problems of private information retrieval and private linear computation. The PLT problem includes one or more remote server(s) storing (identical copies of) $K$ messages and a user who wants to compute $L$ independent linear combinations of a $D$-subset of messages. The objective of the user is to perform the computation by downloading minimum possible amount of information from the server(s), while protecting the identities of the $D$ messages required for the computation. In this work, we focus on the single-server setting of the PLT problem when the identities of the $D$ messages required for the computation must be protected jointly. We consider two different models, depending on whether the coefficient matrix of the required $L$ linear combinations generates a Maximum Distance Separable (MDS) code. We prove that the capacity for both models is given by $L/(K-D+L)$, where the capacity is defined as the supremum of all achievable download rates. Our converse proofs are based on linear-algebraic and information-theoreti c arguments that establish connections between PLT schemes and linear codes. We also present an achievability scheme for each of the models being considered.
公開日:2021-06-10
翻訳日:2021-06-11 14:46:33
# シングルサーバのプライベートリニアトランスフォーメーション:個人のプライバシケース

Single-Server Private Linear Transformation: The Individual Privacy Case ( http://arxiv.org/abs/2106.05222v2 )

ライセンス: Link先を確認
Anoosheh Heidarzadeh, Nahid Esmati, and Alex Sprintson(参考訳) 本稿では、個々のプライバシ保証を伴うシングルサーバのプライベートリニアトランスフォーメーション(PLT)問題を考察する。 この問題では、単一のサーバに格納された$K$メッセージのデータセットに属する$D$サブセットの独立線形結合を$L$で取得したいユーザが存在する。 目標は、計算に必要な各メッセージのアイデンティティを個別にプライベートに保ちながら、ダウンロードコストを最小限にすることである。 個々のプライバシー要件は、計算に必要な個々のメッセージのidがプライベートに保持されることを保証する。 これは、これらのアイデンティティ間の相関を含む計算に使用されるすべてのメッセージのアイデンティティ全体を保護する、共同プライバシーというより厳密な概念とは対照的である。 個人のプライバシーの概念は、幅広い実用的応用を捉えている。 例えば、データセットには個人に関する情報が含まれており、それぞれがデータアクセスパターンに対してプライバシーを保証する必要があります。 本稿では,必要線形変換を最大距離分離行列(MDS)に関連付ける設定に着目する。 特に、必要線形結合に関連する係数の行列がMDS符号の生成行列であることが要求される。 個々のプライバシに関して、pltの容量の上限を低く設定し、その容量をすべての達成可能なダウンロード率の上限と定義します。 一定の条件下では境界が固いことを示す。

This paper considers the single-server Private Linear Transformation (PLT) problem with individual privacy guarantees. In this problem, there is a user that wishes to obtain $L$ independent linear combinations of a $D$-subset of messages belonging to a dataset of $K$ messages stored on a single server. The goal is to minimize the download cost while keeping the identity of each message required for the computation individually private. The individual privacy requirement ensures that the identity of each individual message required for the computation is kept private. This is in contrast to the stricter notion of joint privacy that protects the entire set of identities of all messages used for the computation, including the correlations between these identities. The notion of individual privacy captures a broad set of practical applications. For example, such notion is relevant when the dataset contains information about individuals, each of them requires privacy guarantees for their data access patterns. We focus on the setting in which the required linear transformation is associated with a maximum distance separable (MDS) matrix. In particular, we require that the matrix of coefficients pertaining to the required linear combinations is the generator matrix of an MDS code. We establish lower and upper bounds on the capacity of PLT with individual privacy, where the capacity is defined as the supremum of all achievable download rates. We show that our bounds are tight under certain conditions.
公開日:2021-06-10
翻訳日:2021-06-11 14:46:11
# ImaginE: 自然言語生成のためのイマジネーションに基づく自動評価指標

ImaginE: An Imagination-Based Automatic Evaluation Metric for Natural Language Generation ( http://arxiv.org/abs/2106.05970v1 )

ライセンス: Link先を確認
Wanrong Zhu, Xin Eric Wang, An Yan, Miguel Eckstein, William Yang Wang(参考訳) 自然言語生成(nlg)の自動評価は、通常、トークンレベルや埋め込みレベルの比較に依存する。 これは、視覚の想像力がしばしば理解を改善する人間の言語処理とは異なる。 本稿では,自然言語生成のための想像力に基づく自動評価指標ImaginEを提案する。 clipとdall-eの助けを借りて,テキストスニペットの具体化された想像力としてイメージを自動的に生成し,文脈埋め込みを用いて想像の類似性を計算する。 いくつかのテキスト生成タスクにまたがる実験により、我々のImaginEに想像力を加えることで、NLG評価にマルチモーダル情報を導入する大きな可能性を示し、多くの状況において人間の類似性判定と既存の自動メトリクスの相関性を改善することが示されている。

Automatic evaluations for natural language generation (NLG) conventionally rely on token-level or embedding-level comparisons with the text references. This is different from human language processing, for which visual imaginations often improve comprehension. In this work, we propose ImaginE, an imagination-based automatic evaluation metric for natural language generation. With the help of CLIP and DALL-E, two cross-modal models pre-trained on large-scale image-text pairs, we automatically generate an image as the embodied imagination for the text snippet and compute the imagination similarity using contextual embeddings. Experiments spanning several text generation tasks demonstrate that adding imagination with our ImaginE displays great potential in introducing multi-modal information into NLG evaluation, and improves existing automatic metrics' correlations with human similarity judgments in many circumstances.
公開日:2021-06-10
翻訳日:2021-06-11 14:45:51
# モデルランキングの堅牢性:平等評価のためのリーダーボードカスタマイズアプローチ

How Robust are Model Rankings: A Leaderboard Customization Approach for Equitable Evaluation ( http://arxiv.org/abs/2106.05532v1 )

ライセンス: Link先を確認
Swaroop Mishra, Anjana Arunkumar(参考訳) トップのリーダーボードが現実世界のアプリケーションにデプロイするとき、しばしば不満足に機能するモデルです。 私たちのリーダーボードは、公平な評価をしていますか? 本稿では,その「難易度」に基づいてサンプルを重み付けすることで,リーダボードを探索するタスク非依存手法を提案する。 リーダーボードは敵対的に攻撃され、トップパフォーマンスモデルが必ずしも最良のモデルであるとは限らない。 その後,代替評価指標を提案する。 10モデルに関する我々の実験では、モデルランキングの変更と、以前報告したパフォーマンスの全体的な削減が示されています。 行動テストの原則に触発されて、エンドユーザーの焦点領域に基づいて、カスタマイズによるリーダーボードの改良を可能にするビジュアル分析ツールのプロトタイプをさらに開発する。 これにより、ユーザはモデルの強みと弱みを分析し、アプリケーションシナリオに最も適したモデルを選択するのに役立ちます。 ユーザスタディでは、5つのフォーカス領域をカバーするさまざまな商用製品開発チームのメンバーが、プロトタイプがデプロイ前の開発とテストの労力を平均で41%削減できることを発見しました。

Models that top leaderboards often perform unsatisfactorily when deployed in real world applications; this has necessitated rigorous and expensive pre-deployment model testing. A hitherto unexplored facet of model performance is: Are our leaderboards doing equitable evaluation? In this paper, we introduce a task-agnostic method to probe leaderboards by weighting samples based on their `difficulty' level. We find that leaderboards can be adversarially attacked and top performing models may not always be the best models. We subsequently propose alternate evaluation metrics. Our experiments on 10 models show changes in model ranking and an overall reduction in previously reported performance -- thus rectifying the overestimation of AI systems' capabilities. Inspired by behavioral testing principles, we further develop a prototype of a visual analytics tool that enables leaderboard revamping through customization, based on an end user's focus area. This helps users analyze models' strengths and weaknesses, and guides them in the selection of a model best suited for their application scenario. In a user study, members of various commercial product development teams, covering 5 focus areas, find that our prototype reduces pre-deployment development and testing effort by 41% on average.
公開日:2021-06-10
翻訳日:2021-06-11 14:45:38
# 暗黙Hateの解読:マルチモーダルHateの自動検出アルゴリズムの評価

Deciphering Implicit Hate: Evaluating Automated Detection Algorithms for Multimodal Hate ( http://arxiv.org/abs/2106.05903v1 )

ライセンス: Link先を確認
Austin Botelho and Bertie Vidgen and Scott A. Hale(参考訳) オンライン憎しみの正確な検出と分類は難しい課題である。 暗黙的な憎しみは特に困難であり、そのような内容は異常な構文、多義語、偏見のマーカー(例えばスラリー)が少ない傾向がある。 この問題は、ミーム(テキストと画像の組み合わせ)のようなマルチモーダルコンテンツによって高められ、ユニモーダルコンテンツ(例えば、テキストのみ)よりも解読が難しいことが多い。 本稿では,暗黙的かつ明示的な憎悪を検出するための意味的・マルチモーダル的文脈の役割を評価する。 テキストおよびビジュアルエンリッチメントの両方がモデル性能を向上させることを示し、マルチモーダルモデル(0.771)は他のモデルのF1スコア(0.544、0.737、0.754)を上回っている。 unimodal-text context-aware (transformer) モデルは暗黙のヘイト検出のサブタスクにおいて最も正確であったが、マルチモーダルモデルは偽陽性に対する傾向が低かったため、全体としてはそれを上回った。 すべてのモデルが完全なアノテータ契約でコンテンツ上でより優れた性能を発揮しており、マルチモーダルモデルはアノテータが同意しないコンテントの分類に最適である。 これらの調査を行うために,5000個のマルチモーダルエントリのサンプルの高品質なアノテーションを行った。 ツイートは主要カテゴリー、モダリティ、戦略に注釈が付された。 このコーパスは、コードブック、コード、最終的なモデルとともに、自由に利用できます。

Accurate detection and classification of online hate is a difficult task. Implicit hate is particularly challenging as such content tends to have unusual syntax, polysemic words, and fewer markers of prejudice (e.g., slurs). This problem is heightened with multimodal content, such as memes (combinations of text and images), as they are often harder to decipher than unimodal content (e.g., text alone). This paper evaluates the role of semantic and multimodal context for detecting implicit and explicit hate. We show that both text- and visual- enrichment improves model performance, with the multimodal model (0.771) outperforming other models' F1 scores (0.544, 0.737, and 0.754). While the unimodal-text context-aware (transformer) model was the most accurate on the subtask of implicit hate detection, the multimodal model outperformed it overall because of a lower propensity towards false positives. We find that all models perform better on content with full annotator agreement and that multimodal models are best at classifying the content where annotators disagree. To conduct these investigations, we undertook high-quality annotation of a sample of 5,000 multimodal entries. Tweets were annotated for primary category, modality, and strategy. We make this corpus, along with the codebook, code, and final model, freely available.
公開日:2021-06-10
翻訳日:2021-06-11 14:45:21
# 非有界データスコアのスコアマッチングモデル

Score Matching Model for Unbounded Data Score ( http://arxiv.org/abs/2106.05527v1 )

ライセンス: Link先を確認
Dongjun Kim, Seungjae Shin, Kyungwoo Song, Wanmo Kang, Il-Chul Moon(参考訳) スコアベースモデルの最近の進歩は、確率微分方程式(SDE)を取り入れ、画像生成タスクにおける最先端技術性能をもたらす。 本稿では,ゼロ摂動雑音におけるモデルを解析することで,スコアベースモデルを改善する。 実際のデータセットでは、摂動ノイズ(\sigma$)がゼロになるにつれてスコア関数が分岐し、この観測は、どのニューラルネットワーク構造でもスコア推定は$\sigma=0$で失敗するという議論を導く。 次に, ノイズ条件付きスコアネットワーク(UNCSN)を導入し, ノイズ条件付きスコアベースモデルに容易に適用可能な変更を加えることで, スコアのばらつきを解消する。 さらに,新しいタイプのSDEを導入し,新たに提案したSDEから正確なログ確率を計算する。 さらに,ミニバッチにおける損失不均衡問題を軽減するとともに,提案する損失に関する理論的解析を行い,スコアベースモデルによるデータ分散モデリングの背後にあるメカニズムを明らかにする。

Recent advance in score-based models incorporates the stochastic differential equation (SDE), which brings the state-of-the art performance on image generation tasks. This paper improves such score-based models by analyzing the model at the zero perturbation noise. In real datasets, the score function diverges as the perturbation noise ($\sigma$) decreases to zero, and this observation leads an argument that the score estimation fails at $\sigma=0$ with any neural network structure. Subsequently, we introduce Unbounded Noise Conditional Score Network (UNCSN) that resolves the score diverging problem with an easily applicable modification to any noise conditional score-based models. Additionally, we introduce a new type of SDE, so the exact log likelihood can be calculated from the newly suggested SDE. On top of that, the associated loss function mitigates the loss imbalance issue in a mini-batch, and we present a theoretic analysis on the proposed loss to uncover the behind mechanism of the data distribution modeling by the score-based models.
公開日:2021-06-10
翻訳日:2021-06-11 14:44:57
# ローカルサーロゲート解説者のための説明目的定義の見過ごされた課題について

On the overlooked issue of defining explanation objectives for local-surrogate explainers ( http://arxiv.org/abs/2106.05810v1 )

ライセンス: Link先を確認
Rafael Poyiadzi, Xavier Renard, Thibault Laugel, Raul Santos-Rodriguez, Marcin Detyniecki(参考訳) 機械学習モデル予測を説明するローカルサロゲートアプローチは、モデルに依存しず、モデリングにおいて柔軟であるなど、魅力的な特性を持っている。 この記述に適合し、この目標を共有するいくつかの方法が存在する。 しかし、共通の全体的な手順にもかかわらず、彼らは異なる目的を設定し、ブラックボックスから異なる情報を抽出し、その結果、一般に比較不能な多様な説明を生み出した。 本稿では,複数の手法間の類似点と相違点を概観し,モデルから抽出した情報に特に焦点をあてる。 我々は,説明可能性の研究と実践に関する方法の目的の中で,合意の欠如,明快さの欠如の意義について論じる。

Local surrogate approaches for explaining machine learning model predictions have appealing properties, such as being model-agnostic and flexible in their modelling. Several methods exist that fit this description and share this goal. However, despite their shared overall procedure, they set out different objectives, extract different information from the black-box, and consequently produce diverse explanations, that are -- in general -- incomparable. In this work we review the similarities and differences amongst multiple methods, with a particular focus on what information they extract from the model, as this has large impact on the output: the explanation. We discuss the implications of the lack of agreement, and clarity, amongst the methods' objectives on the research and practice of explainability.
公開日:2021-06-10
翻訳日:2021-06-11 14:44:40
# 時間・物体定量化ネットワーク

Temporal and Object Quantification Networks ( http://arxiv.org/abs/2106.05891v1 )

ライセンス: Link先を確認
Jiayuan Mao, Zhezheng Luo, Chuang Gan, Joshua B. Tenenbaum, Jiajun Wu, Leslie Pack Kaelbling, Tomer D. Ullman(参考訳) 本稿では, 時間的・物体的量化ネットワーク(TOQ-Nets)について述べる。これは, 複雑な関係時間的事象を認識できるように, 構造的バイアスを持つニューロシンボリックネットワークの新たなクラスである。 これは、オブジェクトと時間にわたって有限領域の定量化を実装する層を含むことによって行われる。 この構造により、異なる長さの時間列のオブジェクトの数が異なる入力インスタンスに直接一般化することができる。 複雑な時間関係パターンを用いてイベントタイプを認識する入力領域におけるtoq-netの評価を行う。 toq-netは少量のデータから、トレーニング中に存在し、入力シーケンスの時間的ワーピングよりも多くのオブジェクトを含むシナリオに一般化できることを実証する。

We present Temporal and Object Quantification Networks (TOQ-Nets), a new class of neuro-symbolic networks with a structural bias that enables them to learn to recognize complex relational-temporal events. This is done by including reasoning layers that implement finite-domain quantification over objects and time. The structure allows them to generalize directly to input instances with varying numbers of objects in temporal sequences of varying lengths. We evaluate TOQ-Nets on input domains that require recognizing event-types in terms of complex temporal relational patterns. We demonstrate that TOQ-Nets can generalize from small amounts of data to scenarios containing more objects than were present during training and to temporal warpings of input sequences.
公開日:2021-06-10
翻訳日:2021-06-11 14:44:29
# 変形性股関節症自動評価のための関節ランドマークと構造学習

Joint Landmark and Structure Learning for Automatic Evaluation of Developmental Dysplasia of the Hip ( http://arxiv.org/abs/2106.05458v1 )

ライセンス: Link先を確認
Xindi Hu, Limin Wang, Xin Yang, Xu Zhou, Wufeng Xue, Yan Cao, Shengfeng Liu, Yuhao Huang, Shuangping Guo, Ning Shang, Dong Ni, and Ning Gu(参考訳) 乳児股関節の超音波(US)スクリーニングは、発達性股関節異形成症(DDH)の早期診断に不可欠である。 DDHの米国診断は、股関節の発達を定量化するα角とβ角を測定することである。 これらの2つの角度は、重要な解剖学的ランドマークと股関節の構造から計算される。 しかし、この測定プロセスはソノグラフィーにとって簡単なものではなく、通常は複雑な解剖学的構造を徹底的に理解する必要がある。 本研究では,ランドマークと構造物間の関係を共同で学習し,DDHを自動評価するマルチタスクフレームワークを提案する。 我々のマルチタスクネットワークは3つの新しいモジュールを備えている。 まず,Mask R-CNNを鍵解剖学的構造を検出し,セグメント化するための基本フレームワークとして採用し,新しいマルチタスクフレームワークを形成するために,ランドマーク検出ブランチを1つ追加する。 次に,不完全解剖学的構造予測をロバストかつ精度良く洗練するために,新しい形状類似性損失を提案する。 第3に、セグメント構造と検出されたランドマークから推定されるボニーリムの整合性を確保するために、ランドマーク構造をさらに一貫した形で組み込む。 実験では,632例の乳児股関節の1,231 us画像が収集され,そのうち116例の247画像が検査された。 アルファ角とベータ角の平均誤差は2.221度と2.899度である。 アルファ角とベータ角の93%と85%は、それぞれ5度未満の誤差があると見積もっている。 実験の結果,ddhの自動評価を高精度かつロバストに実現でき,臨床応用の可能性も示唆された。

The ultrasound (US) screening of the infant hip is vital for the early diagnosis of developmental dysplasia of the hip (DDH). The US diagnosis of DDH refers to measuring alpha and beta angles that quantify hip joint development. These two angles are calculated from key anatomical landmarks and structures of the hip. However, this measurement process is not trivial for sonographers and usually requires a thorough understanding of complex anatomical structures. In this study, we propose a multi-task framework to learn the relationships among landmarks and structures jointly and automatically evaluate DDH. Our multi-task networks are equipped with three novel modules. Firstly, we adopt Mask R-CNN as the basic framework to detect and segment key anatomical structures and add one landmark detection branch to form a new multi-task framework. Secondly, we propose a novel shape similarity loss to refine the incomplete anatomical structure prediction robustly and accurately. Thirdly, we further incorporate the landmark-structure consistent prior to ensure the consistency of the bony rim estimated from the segmented structure and the detected landmark. In our experiments, 1,231 US images of the infant hip from 632 patients are collected, of which 247 images from 126 patients are tested. The average errors in alpha and beta angles are 2.221 degrees and 2.899 degrees. About 93% and 85% estimates of alpha and beta angles have errors less than 5 degrees, respectively. Experimental results demonstrate that the proposed method can accurately and robustly realize the automatic evaluation of DDH, showing great potential for clinical application.
公開日:2021-06-10
翻訳日:2021-06-11 14:44:18
# DUET:スキャンまたはキャプチャド文書中のテキストの強調を利用した検出

DUET: Detection Utilizing Enhancement for Text in Scanned or Captured Documents ( http://arxiv.org/abs/2106.05542v1 )

ライセンス: Link先を確認
Eun-Soo Jung, HyeongGwan Son, Kyusam Oh, Yongkeun Yun, Soonhwan Kwon, Min Soo Kim(参考訳) 文書画像におけるテキスト検出のための新しいディープニューラルネットワークを提案する。 ノイズの多いスキャン文書におけるロバストテキスト検出には、テキスト強調の補助タスクを追加することでマルチタスク学習の利点を活用できる。 すなわち,提案モデルでは,雑音低減とテキスト領域拡張とテキスト検出を行うように設計されている。 さらに,テキスト検出と強調のためにラベル付けされた文書画像の合成により,モデルのトレーニングデータを充実させ,ラベル付き文書画像データの不十分さを克服する。 合成データと実データを効果的に利用するために、トレーニングプロセスは2つのフェーズに分けられる。 第1フェーズは、完全に監督された方法で合成データのみをトレーニングする。 そして、第2フェーズに検出ラベルのみを持つ実データを追加する。 実データに対する強化タスクは、その検出ラベルからの情報を弱く管理する。 提案手法は,他のテキスト検出手法を上回る性能を有する実文書データセットで実証される。 さらに, アブレーションを行い, 結果から, 合成データ, 補助タスク, 弱スーパービジョンの有効性が確認された。 既存のテキスト検出研究は主にシーンのテキストに焦点を当てているが,本手法はスキャンした文書のテキストに最適化されている。

We present a novel deep neural model for text detection in document images. For robust text detection in noisy scanned documents, the advantages of multi-task learning are adopted by adding an auxiliary task of text enhancement. Namely, our proposed model is designed to perform noise reduction and text region enhancement as well as text detection. Moreover, we enrich the training data for the model with synthesized document images that are fully labeled for text detection and enhancement, thus overcome the insufficiency of labeled document image data. For the effective exploitation of the synthetic and real data, the training process is separated in two phases. The first phase is training only synthetic data in a fully-supervised manner. Then real data with only detection labels are added in the second phase. The enhancement task for the real data is weakly-supervised with information from their detection labels. Our methods are demonstrated in a real document dataset with performances exceeding those of other text detection methods. Moreover, ablations are conducted and the results confirm the effectiveness of the synthetic data, auxiliary task, and weak-supervision. Whereas the existing text detection studies mostly focus on the text in scenes, our proposed method is optimized to the applications for the text in scanned documents.
公開日:2021-06-10
翻訳日:2021-06-11 14:43:54
# ほぼ線形時間における階層的凝集グラフクラスタリング

Hierarchical Agglomerative Graph Clustering in Nearly-Linear Time ( http://arxiv.org/abs/2106.05610v1 )

ライセンス: Link先を確認
Laxman Dhulipala, David Eisenstat, Jakub {\L}\k{a}cki, Vahab Mirrokni, Jessica Shi(参考訳) エッジ重み付きグラフ上での階層的凝集クラスタリング(HAC)アルゴリズムについて検討する。 我々は階層的凝集グラフクラスタリングのためのアルゴリズムフレームワークを定義し、完全リンクやwngmaリンクなどの古典的なリンケージ測度のための最初の効率的な$\tilde{o}(m)$時間厳密なアルゴリズムを提供する。 さらに、hacの最も一般的な変種である平均リンクに対して、$\tilde{o}(n\sqrt{m})$ timeで動作するアルゴリズムを提供する。 この変種に対して、これは、ある定数 $\epsilon > 0$ に対して$m=n^{2-\epsilon}$ の四進時間で実行される最初の正確なアルゴリズムである。 私たちは、$\tilde{o}(m)$時間で実行されるフレームワークの平均リンクに対して、単純な$\epsilon$-close approximationアルゴリズムでこの結果を補完します。 アルゴリズムの適用例として、まず$k$-NNを用いて、点集合からグラフを生成し、その結果の重み付きグラフ上でアルゴリズムを実行することで、計量空間内のクラスタリングポイントを考察する。 公開データセット上でのアルゴリズムの性能を検証し,20.7~76.5倍の速度でポイントデータセットのクラスタリングを高速化できることを示す。

We study the widely used hierarchical agglomerative clustering (HAC) algorithm on edge-weighted graphs. We define an algorithmic framework for hierarchical agglomerative graph clustering that provides the first efficient $\tilde{O}(m)$ time exact algorithms for classic linkage measures, such as complete- and WPGMA-linkage, as well as other measures. Furthermore, for average-linkage, arguably the most popular variant of HAC, we provide an algorithm that runs in $\tilde{O}(n\sqrt{m})$ time. For this variant, this is the first exact algorithm that runs in subquadratic time, as long as $m=n^{2-\epsilon}$ for some constant $\epsilon > 0$. We complement this result with a simple $\epsilon$-close approximation algorithm for average-linkage in our framework that runs in $\tilde{O}(m)$ time. As an application of our algorithms, we consider clustering points in a metric space by first using $k$-NN to generate a graph from the point set, and then running our algorithms on the resulting weighted graph. We validate the performance of our algorithms on publicly available datasets, and show that our approach can speed up clustering of point datasets by a factor of 20.7--76.5x.
公開日:2021-06-10
翻訳日:2021-06-11 14:43:38
# 不均衡半教師付き学習のための分布対応セマンティックス指向擬似ラベル

Distribution-Aware Semantics-Oriented Pseudo-label for Imbalanced Semi-Supervised Learning ( http://arxiv.org/abs/2106.05682v1 )

ライセンス: Link先を確認
Youngtaek Oh, Dong-Jin Kim, In So Kweon(参考訳) 従来の半教師あり学習法(SSL)は,(1)クラス不均衡を考慮せず,(2)ラベル付きデータと未ラベルデータ間のクラス分布ミスマッチを考慮していないため,実世界の応用には程遠い。 本稿では, 比較的未探索な半教師付き学習において, 擬似ラベルの偏りがモデル性能に悪影響を及ぼすような問題に対処する。 興味深いことに、類似性に基づく特徴空間の分類器からの意味的擬似ラベルと、線形分類器からの伝統的な擬似ラベルは相補性を示す。 そこで本研究では,この観測によって動機付けられたバイアスに対処する,一般的な擬似ラベルフレームワークを提案する。 鍵となる考え方は、現在の擬似ラベル分布に応じて、意味的擬似ラベルを線形にクラス適応的にブレンドすることである。 これにより、セマンティクス擬似ラベル成分の増加は、多数派クラスの偽陽性を抑制し、その逆も抑制される。 不均衡SSLのための新しい擬似ラベルフレームワークを、DASO(Distributed-Awa re Semantics-Oriented Pseudo-label)と呼ぶ。 CIFAR10/100-LTとSTL10-LTの広範囲な評価は、DASOが最近提案したラベルと擬似ラベルの再バランス法よりも一貫して優れていることを示している。 さらに,(1)クラス不均衡や(2)クラス分布ミスマッチが存在する場合,および最近の実世界のSemi-Avesベンチマークにおいても,一般的なSSLアルゴリズムはDASOでラベル付けされていないデータを効果的に活用できることを示す。

The capability of the traditional semi-supervised learning (SSL) methods is far from real-world application since they do not consider (1) class imbalance and (2) class distribution mismatch between labeled and unlabeled data. This paper addresses such a relatively under-explored problem, imbalanced semi-supervised learning, where heavily biased pseudo-labels can harm the model performance. Interestingly, we find that the semantic pseudo-labels from a similarity-based classifier in feature space and the traditional pseudo-labels from the linear classifier show the complementary property. To this end, we propose a general pseudo-labeling framework to address the bias motivated by this observation. The key idea is to class-adaptively blend the semantic pseudo-label to the linear one, depending on the current pseudo-label distribution. Thereby, the increased semantic pseudo-label component suppresses the false positives in the majority classes and vice versa. We term the novel pseudo-labeling framework for imbalanced SSL as Distribution-Aware Semantics-Oriented (DASO) Pseudo-label. Extensive evaluation on CIFAR10/100-LT and STL10-LT shows that DASO consistently outperforms both recently proposed re-balancing methods for label and pseudo-label. Moreover, we demonstrate that typical SSL algorithms can effectively benefit from unlabeled data with DASO, especially when (1) class imbalance and (2) class distribution mismatch exist and even on recent real-world Semi-Aves benchmark.
公開日:2021-06-10
翻訳日:2021-06-11 14:43:16
# メディカルセグメンテーションの宣言

The Medical Segmentation Decathlon ( http://arxiv.org/abs/2106.05735v1 )

ライセンス: Link先を確認
Michela Antonelli, Annika Reinke, Spyridon Bakas, Keyvan Farahani, AnnetteKopp-Schneide r, Bennett A. Landman, Geert Litjens, Bjoern Menze, Olaf Ronneberger, Ronald M.Summers, Bram van Ginneken, Michel Bilello, Patrick Bilic, Patrick F. Christ, Richard K. G. Do, Marc J. Gollub, Stephan H. Heckers, Henkjan Huisman, William R. Jarnagin, Maureen K. McHugo, Sandy Napel, Jennifer S. Goli Pernicka, Kawal Rhode, Catalina Tobon-Gomez, Eugene Vorontsov, Henkjan Huisman, James A. Meakin, Sebastien Ourselin, Manuel Wiesenfarth, Pablo Arbelaez, Byeonguk Bae, Sihong Chen, Laura Daza, Jianjiang Feng, Baochun He, Fabian Isensee, Yuanfeng Ji, Fucang Jia, Namkug Kim, Ildoo Kim, Dorit Merhof, Akshay Pai, Beomhee Park, Mathias Perslev, Ramin Rezaiifar, Oliver Rippel, Ignacio Sarasua, Wei Shen, Jaemin Son, Christian Wachinger, Liansheng Wang, Yan Wang, Yingda Xia, Daguang Xu, Zhanwei Xu, Yefeng Zheng, Amber L. Simpson, Lena Maier-Hein, M. Jorge Cardoso(参考訳) 特定のタスクが与えられた画像解析アルゴリズムの比較評価において、国際的な課題がデファクトスタンダードになっている。 セグメンテーションは、現在最も広く研究されている医療画像処理タスクであるが、様々なセグメンテーションの課題は、アルゴリズム開発が単一の特定の臨床問題に取り組む必要性によって引き起こされるように、通常孤立して組織化されている。 我々は、複数のタスクでうまく動作可能なメソッドが、これまで見つからなかったタスクにうまく一般化し、カスタム設計のソリューションより優れていると仮定した。 この仮説を考察するために,我々は,アルゴリズムが複数のタスクとモダリティで競合するバイオメディカル画像解析の課題であるMSD(Medicial Segmentation Decathlon)を組織した。 基礎となるデータセットは、小さなデータセット、バランスの取れていないラベル、マルチサイトデータ、小さなオブジェクトなどの医療画像を扱う際に発生する問題軸を探索するために設計された。 MSDの課題は、一連のタスクで一貫した優れたパフォーマンスを持つアルゴリズムが、これまで見つからなかったタスクの異なるセットで平均的なパフォーマンスを保ったことを確認した。 さらに,MSDの勝者を2年間監視することで,このアルゴリズムが他の幅広い臨床問題にも適用され続けており,さらに仮説が裏付けられている。 本研究から得られた3つの結論は,(1)最先端画像分割アルゴリズムが成熟し,精度が高く,未熟なタスクで再訓練した場合の一般化,(2)複数のタスクにまたがる一貫したアルゴリズム性能はアルゴリズムの一般化可能性の強力なサロゲートである,(3)精度の高いai分割モデルのトレーニングは非ai専門家にコモディティ化されていること,の3つである。

International challenges have become the de facto standard for comparative assessment of image analysis algorithms given a specific task. Segmentation is so far the most widely investigated medical image processing task, but the various segmentation challenges have typically been organized in isolation, such that algorithm development was driven by the need to tackle a single specific clinical problem. We hypothesized that a method capable of performing well on multiple tasks will generalize well to a previously unseen task and potentially outperform a custom-designed solution. To investigate the hypothesis, we organized the Medical Segmentation Decathlon (MSD) - a biomedical image analysis challenge, in which algorithms compete in a multitude of both tasks and modalities. The underlying data set was designed to explore the axis of difficulties typically encountered when dealing with medical images, such as small data sets, unbalanced labels, multi-site data and small objects. The MSD challenge confirmed that algorithms with a consistent good performance on a set of tasks preserved their good average performance on a different set of previously unseen tasks. Moreover, by monitoring the MSD winner for two years, we found that this algorithm continued generalizing well to a wide range of other clinical problems, further confirming our hypothesis. Three main conclusions can be drawn from this study: (1) state-of-the-art image segmentation algorithms are mature, accurate, and generalize well when retrained on unseen tasks; (2) consistent algorithmic performance across multiple tasks is a strong surrogate of algorithmic generalizability; (3) the training of accurate AI segmentation models is now commoditized to non AI experts.
公開日:2021-06-10
翻訳日:2021-06-11 14:42:48
# FetReg:Fetoscopy Challengeデータセットにおける胎盤血管分割と登録

FetReg: Placental Vessel Segmentation and Registration in Fetoscopy Challenge Dataset ( http://arxiv.org/abs/2106.05923v1 )

ライセンス: Link先を確認
Sophia Bano, Alessandro Casella, Francisco Vasconcelos, Sara Moccia, George Attilakos, Ruwan Wimalasundera, Anna L. David, Dario Paladini, Jan Deprest, Leonardo S. Mattos, Danail Stoyanov(参考訳) Fetoscopy laser photocoagulation は、胎盤血管奇形による単子葉性多発妊娠に発生するツイン・ツー・ツイン輸血症候群(TTTS)の治療に広く用いられている治療法である。 この手順は、視野の制限、フェトスコープの操作性の低下、流体の濁度による視認性の低下、光源のばらつき、胎盤の異常な位置など、特に困難である。 これにより、プロシージャ時間と不完全アブレーションが増加し、TTTSが持続する可能性がある。 コンピュータ支援による介入は、ビデオモザイクによるフェトスコープの視野を拡大し、血管ネットワークの可視化をより良くすることで、これらの課題を克服するのに役立つかもしれない。 しかし、この領域における研究開発は、質の高いデータが、手続き内および手続き間変動性をエンコードできないため、まだ限られている。 FetReg(Fetoscopic Placental Vessel Segmentation and Registration, FetReg)の課題を通じて, 長期フェトスコープビデオからドリフトフリーモザイクを作成することを目的とした, 胎児環境のための汎用的で堅牢なセマンティックセグメンテーションとビデオモザイクアルゴリズムの開発のための大規模マルチセントデータセットを提案する。 本稿では,FetRegデータセットの概要,課題タスク,評価指標,セグメンテーションと登録の両方のためのベースライン手法について述べる。 fetregデータセットのベースラインメソッドの結果から、当社のデータセットには興味深い課題があり、fetreg challengeのクラウドソーシングイニシアチブを通じてモデル化され、競うことができます。

Fetoscopy laser photocoagulation is a widely used procedure for the treatment of Twin-to-Twin Transfusion Syndrome (TTTS), that occur in mono-chorionic multiple pregnancies due to placental vascular anastomoses. This procedure is particularly challenging due to limited field of view, poor manoeuvrability of the fetoscope, poor visibility due to fluid turbidity, variability in light source, and unusual position of the placenta. This may lead to increased procedural time and incomplete ablation, resulting in persistent TTTS. Computer-assisted intervention may help overcome these challenges by expanding the fetoscopic field of view through video mosaicking and providing better visualization of the vessel network. However, the research and development in this domain remain limited due to unavailability of high-quality data to encode the intra- and inter-procedure variability. Through the Fetoscopic Placental Vessel Segmentation and Registration (FetReg) challenge, we present a large-scale multi-centre dataset for the development of generalized and robust semantic segmentation and video mosaicking algorithms for the fetal environment with a focus on creating drift-free mosaics from long duration fetoscopy videos. In this paper, we provide an overview of the FetReg dataset, challenge tasks, evaluation metrics and baseline methods for both segmentation and registration. Baseline methods results on the FetReg dataset shows that our dataset poses interesting challenges, which can be modelled and competed for through our crowd-sourcing initiative of the FetReg challenge.
公開日:2021-06-10
翻訳日:2021-06-11 14:42:18
# 観察による学習

Learning by Watching ( http://arxiv.org/abs/2106.05966v1 )

ライセンス: Link先を確認
Jimuyang Zhang and Eshed Ohn-Bar(参考訳) 新しい状況や地理的な場所では、人間ドライバーは他人を観察し、自分自身が実行したことがないような操作を学べる特別な能力を持っている。 対照的に、既存の学習技術は、完全に知られた観察と専門的なドライバーアクションを備えた計測された自走車への直接アクセスを想定しているため、そのような可能性を妨げる。 しかし、そのような測定は、他人を観察することで学習する場合、非自走車に直接アクセスすることはできない。 したがって、データが貴重な資産と見なされるアプリケーションでは、現在のアプローチでは、周囲の車両を間接的に観測することで得られる可能性のあるトレーニングデータの大部分が完全に破棄される。 この重要な洞察を生かして、国家や専門家の行動の知識を必要とせず、運転方針の学習を可能にするLbW(Learning by Watching)フレームワークを提案する。 lbwは、新たな視点と操作によってデータを増やすために、(1)自走車による観察を視点に転換し、(2)専門家の行動を推論することで、与えられたシーンにおける他の車両のデモンストレーションを利用する。 我々のLbWエージェントは、データ効率のよい学習を可能にしながら、より堅牢な運転ポリシーを学びます。 特に、LbWは、既存の方法で必要とされていた運転データのごく一部でも頑健に駆動し、従来のCARLAベンチマークで平均成功率は92%、総走行時間は30分、わずか10分で82%である。

When in a new situation or geographical location, human drivers have an extraordinary ability to watch others and learn maneuvers that they themselves may have never performed. In contrast, existing techniques for learning to drive preclude such a possibility as they assume direct access to an instrumented ego-vehicle with fully known observations and expert driver actions. However, such measurements cannot be directly accessed for the non-ego vehicles when learning by watching others. Therefore, in an application where data is regarded as a highly valuable asset, current approaches completely discard the vast portion of the training data that can be potentially obtained through indirect observation of surrounding vehicles. Motivated by this key insight, we propose the Learning by Watching (LbW) framework which enables learning a driving policy without requiring full knowledge of neither the state nor expert actions. To increase its data, i.e., with new perspectives and maneuvers, LbW makes use of the demonstrations of other vehicles in a given scene by (1) transforming the ego-vehicle's observations to their points of view, and (2) inferring their expert actions. Our LbW agent learns more robust driving policies while enabling data-efficient learning, including quick adaptation of the policy to rare and novel scenarios. In particular, LbW drives robustly even with a fraction of available driving data required by existing methods, achieving an average success rate of 92% on the original CARLA benchmark with only 30 minutes of total driving data and 82% with only 10 minutes.
公開日:2021-06-10
翻訳日:2021-06-11 14:41:46
# ビデオトランスにおける時空間混合注意

Space-time Mixing Attention for Video Transformer ( http://arxiv.org/abs/2106.05968v1 )

ライセンス: Link先を確認
Adrian Bulat and Juan-Manuel Perez-Rua and Swathikiran Sudhakaran and Brais Martinez and Georgios Tzimiropoulos(参考訳) 本稿ではトランスフォーマーを用いたビデオ認識について述べる。 この領域での最近の試みは、認識精度の観点から有望な結果を示しているが、多くの場合、時間的情報の付加的モデリングによる重要な計算オーバーヘッドを引き起こすことも示されている。 そこで本研究では,ビデオシーケンス内のフレーム数と線形にスケールする複雑なビデオトランスフォーマーモデルを提案し,画像ベースのトランスフォーマーモデルと比較して,‘textit{no overhead’を誘導する。 これを実現するために,本モデルでは,ビデオトランスフォーマーで使用される全時空間の注意を2つ近似する: (a) 時間的注意を局所的な時間的窓に制限し,トランスフォーマーの深さに重み付けし,ビデオシーケンスの完全な時間的カバレッジを得る。 (b)空間のみの注意モデルの上に余分なコストを発生させることなく、効率的な時空混合を用いて空間的および時間的位置に出席する。 また,計算コストの最小化による精度向上を実現するため,グローバル時間のみの注意のための2つの非常に軽量な機構を統合する方法を示す。 我々のモデルは、最も人気のあるビデオ認識データセットに対して、非常に高い認識精度を提供すると同時に、他のビデオトランスフォーマーモデルよりもはるかに効率的であることを示す。 コードは利用可能になる。

This paper is on video recognition using Transformers. Very recent attempts in this area have demonstrated promising results in terms of recognition accuracy, yet they have been also shown to induce, in many cases, significant computational overheads due to the additional modelling of the temporal information. In this work, we propose a Video Transformer model the complexity of which scales linearly with the number of frames in the video sequence and hence induces \textit{no overhead} compared to an image-based Transformer model. To achieve this, our model makes two approximations to the full space-time attention used in Video Transformers: (a) It restricts time attention to a local temporal window and capitalizes on the Transformer's depth to obtain full temporal coverage of the video sequence. (b) It uses efficient space-time mixing to attend \textit{jointly} spatial and temporal locations without inducing any additional cost on top of a spatial-only attention model. We also show how to integrate 2 very lightweight mechanisms for global temporal-only attention which provide additional accuracy improvements at minimal computational cost. We demonstrate that our model produces very high recognition accuracy on the most popular video recognition datasets while at the same time being significantly more efficient than other Video Transformer models. Code will be made available.
公開日:2021-06-10
翻訳日:2021-06-11 14:41:21
# エゴセントリックポーズ推定のためのダイナミクス制御キネマティックポリシー

Dynamics-Regulated Kinematic Policy for Egocentric Pose Estimation ( http://arxiv.org/abs/2106.05969v1 )

ライセンス: Link先を確認
Zhengyi Luo, Ryo Hachiuma, Ye Yuan, Kris Kitani(参考訳) 本研究では,動力学的モデリング,動的モデリング,シーンオブジェクト情報を密に統合したオブジェクト認識型3Dエゴセントリックポーズ推定手法を提案する。 先行キネマティクスやダイナミクスベースのアプローチと異なり,2つのコンポーネントを相互に使用する場合と異なり,ダイナミクスが制御するトレーニングによって2つのアプローチを相乗化する。 各段階において、キネマティックモデルを用いて、ビデオエビデンスとシミュレーション状態を用いてターゲットポーズを提供する。 そして、事前学習された動力学モデルは、物理シミュレーターでキネマティックポーズを模倣しようとする。 運動モデルが指示するポーズとダイナミクスモデルが生成するポーズを比較することで、それらの不一致を利用して運動モデルをさらに改善することができる。 シーン内の物体(例えば椅子や箱)の6DoFのポーズを分解することにより、初めて、単一のウェアラブルカメラを用いて物理的に解明可能な3Dオブジェクトインタラクションを推定する能力を示す。 実験環境と実世界のシナリオの両方において,自発的なポーズ推定手法を評価した。

We propose a method for object-aware 3D egocentric pose estimation that tightly integrates kinematics modeling, dynamics modeling, and scene object information. Unlike prior kinematics or dynamics-based approaches where the two components are used disjointly, we synergize the two approaches via dynamics-regulated training. At each timestep, a kinematic model is used to provide a target pose using video evidence and simulation state. Then, a prelearned dynamics model attempts to mimic the kinematic pose in a physics simulator. By comparing the pose instructed by the kinematic model against the pose generated by the dynamics model, we can use their misalignment to further improve the kinematic model. By factoring in the 6DoF pose of objects (e.g., chairs, boxes) in the scene, we demonstrate for the first time, the ability to estimate physically-plausible 3D human-object interactions using a single wearable camera. We evaluate our egocentric pose estimation method in both controlled laboratory settings and real-world scenarios.
公開日:2021-06-10
翻訳日:2021-06-11 14:40:58
# パズルのプログラミング

Programming Puzzles ( http://arxiv.org/abs/2106.05784v1 )

ライセンス: Link先を確認
Tal Schuster, Ashwin Kalyan, Oleksandr Polozov, Adam Tauman Kalai(参考訳) プログラム合成の客観的かつ包括的評価としてプログラミングパズルと呼ばれる新しいタイプのプログラミングチャレンジを導入し、pythonプログラミングパズル(p3)のオープンソースデータセットをリリースする。 それぞれのパズルは、短いPythonプログラム$f$で定義され、そのゴールは、$f$出力"True"を生成する入力$x$を見つけることである。 パズルは、それぞれが検証子$f$のソースコードによって完全に指定されるので、$f(x)$を評価することは、候補解$x$をテストするのに必要なすべてである。 答えのキーや入出力の例は必要ありませんし、自然言語理解にも依存しません。 このデータセットは、人間のプログラマ(aiではない)にとってすぐに明らかな簡単な文字列操作問題から、古典的なプログラミングパズル(ハノイの塔など)、インタビュー/競争プログラミング問題(動的プログラミングなど)、アルゴリズムや数学における長年のオープン問題(ファクタリングなど)まで、さまざまな困難や領域の問題にまたがっている。 p3の客観的な性質は自己教師付きブートストラップをサポートする。 我々は、ベースラインの列挙型プログラム合成とgpt-3ソルバを開発し、過去のソリューションから学習することで、簡単なパズル(参照ソリューションにアクセスせずにも)を解くことができる。 小さなユーザスタディに基づいて、人間のプログラマとベースラインAIソルバの相関が難しいことが分かりました。

We introduce a new type of programming challenge called programming puzzles, as an objective and comprehensive evaluation of program synthesis, and release an open-source dataset of Python Programming Puzzles (P3). Each puzzle is defined by a short Python program $f$, and the goal is to find an input $x$ which makes $f$ output "True". The puzzles are objective in that each one is specified entirely by the source code of its verifier $f$, so evaluating $f(x)$ is all that is needed to test a candidate solution $x$. They do not require an answer key or input/output examples, nor do they depend on natural language understanding. The dataset is comprehensive in that it spans problems of a range of difficulties and domains, ranging from trivial string manipulation problems that are immediately obvious to human programmers (but not necessarily to AI), to classic programming puzzles (e.g., Towers of Hanoi), to interview/competitiv e-programming problems (e.g., dynamic programming), to longstanding open problems in algorithms and mathematics (e.g., factoring). The objective nature of P3 readily supports self-supervised bootstrapping. We develop baseline enumerative program synthesis and GPT-3 solvers that are capable of solving easy puzzles -- even without access to any reference solutions -- by learning from their own past solutions. Based on a small user study, we find puzzle difficulty to correlate between human programmers and the baseline AI solvers.
公開日:2021-06-10
翻訳日:2021-06-11 14:40:39
# 逆摂動を伴う公正分類

Fair Classification with Adversarial Perturbations ( http://arxiv.org/abs/2106.05964v1 )

ライセンス: Link先を確認
L. Elisa Celis, Anay Mehrotra, Nisheeth K. Vishnoi(参考訳) 本研究は,学習サンプルの任意の$\eta$-fractionを選択でき,保護属性を任意に摂動することができるという,全知的な敵の存在下での公平な分類について検討する。 このモチベーションは、戦略的な誤報、悪意のあるアクタ、あるいは命令中のエラーのために保護された属性が正しくないという設定から来ており、以前のアプローチでは、エラーに対する確率的あるいは独立的な仮定は、この敵対的な設定では保証を満たさない可能性がある。 我々の主な貢献は、精度と公正性に関する証明可能な保証を伴うこの逆条件で公平な分類法を学ぶための最適化フレームワークである。 本フレームワークは,多元的および非二元的保護属性で機能し,線形摩擦公正度尺度の大規模クラスを対象として設計されており,保護属性以外の摂動も扱える。 私たちは、自然仮説クラスに対するフレームワークの保証のほぼ完全性を証明する: アルゴリズムの精度が著しく向上することはなく、公平性が優れたアルゴリズムは、より低い精度でなければならない。 実世界および合成データセットの統計速度のフレームワークによって生成された分類器を,敵のファミリーに対して評価する。

We study fair classification in the presence of an omniscient adversary that, given an $\eta$, is allowed to choose an arbitrary $\eta$-fraction of the training samples and arbitrarily perturb their protected attributes. The motivation comes from settings in which protected attributes can be incorrect due to strategic misreporting, malicious actors, or errors in imputation; and prior approaches that make stochastic or independence assumptions on errors may not satisfy their guarantees in this adversarial setting. Our main contribution is an optimization framework to learn fair classifiers in this adversarial setting that comes with provable guarantees on accuracy and fairness. Our framework works with multiple and non-binary protected attributes, is designed for the large class of linear-fractional fairness metrics, and can also handle perturbations besides protected attributes. We prove near-tightness of our framework's guarantees for natural hypothesis classes: no algorithm can have significantly better accuracy and any algorithm with better fairness must have lower accuracy. Empirically, we evaluate the classifiers produced by our framework for statistical rate on real-world and synthetic datasets for a family of adversaries.
公開日:2021-06-10
翻訳日:2021-06-11 14:40:12
# ラディット:英語のRedditコメントに対する攻撃のノーム

Ruddit: Norms of Offensiveness for English Reddit Comments ( http://arxiv.org/abs/2106.05664v1 )

ライセンス: Link先を確認
Rishav Hada, Sohi Sudhir, Pushkar Mishra, Helen Yannakoudakis, Saif M. Mohammad, Ekaterina Shutova(参考訳) ソーシャルメディアプラットフォームでは、憎悪と攻撃的な言葉がユーザーの精神的幸福と多様な背景を持つ人々の参加に悪影響を及ぼす。 攻撃的言語を検出する自動手法は、分類ラベルを持つデータセットに大きく依存している。 しかし、コメントは攻撃の程度によって異なる。 私たちは、 -1(最大支持)と1(最大攻撃的)の間に \textit{fine-fine, real-valued scores} を持つ、英語のRedditコメントの最初のデータセットを作成します。 データセットは、評価尺度の使用の既知のバイアスを軽減するための比較アノテーションの形式である \emph{best--worst scaling} を使用してアノテートされた。 本手法は信頼性の高い攻撃性スコアを生成する。 最後に,この新しいデータセットにおける攻撃性スコアを予測するために,広く使用されているニューラルモデルの能力を評価する。

On social media platforms, hateful and offensive language negatively impact the mental well-being of users and the participation of people from diverse backgrounds. Automatic methods to detect offensive language have largely relied on datasets with categorical labels. However, comments can vary in their degree of offensiveness. We create the first dataset of English language Reddit comments that has \textit{fine-grained, real-valued scores} between -1 (maximally supportive) and 1 (maximally offensive). The dataset was annotated using \emph{Best--Worst Scaling}, a form of comparative annotation that has been shown to alleviate known biases of using rating scales. We show that the method produces highly reliable offensiveness scores. Finally, we evaluate the ability of widely-used neural models to predict offensiveness scores on this new dataset.
公開日:2021-06-10
翻訳日:2021-06-11 14:39:51
# 画像キャプションソリューションの堅牢性向上のためのデータ拡張

Data augmentation to improve robustness of image captioning solutions ( http://arxiv.org/abs/2106.05437v1 )

ライセンス: Link先を確認
Shashank Bujimalla, Mahesh Subedar, Omesh Tickoo(参考訳) 本稿では,実世界画像における共通品質欠陥であるモーションボケが最先端の2段階画像キャプションソリューションに与える影響について検討し,ボケ強度の増加に伴う解性能の低下に注目した。 本研究では,各段階,すなわちオブジェクト検出とキャプションのトレーニングデータ拡張を用いて,動作のぼかしに対する解の堅牢性を向上させる手法について検討し,改良された結果を観察する。 特に、両方のステージを増強することで、MS COCOデータセットでは68.7から11.7に、Vizwizデータセットでは22.4から6.8に、CIDEr-Dの劣化が減少する。

In this paper, we study the impact of motion blur, a common quality flaw in real world images, on a state-of-the-art two-stage image captioning solution, and notice a degradation in solution performance as blur intensity increases. We investigate techniques to improve the robustness of the solution to motion blur using training data augmentation at each or both stages of the solution, i.e., object detection and captioning, and observe improved results. In particular, augmenting both the stages reduces the CIDEr-D degradation for high motion blur intensity from 68.7 to 11.7 on MS COCO dataset, and from 22.4 to 6.8 on Vizwiz dataset.
公開日:2021-06-10
翻訳日:2021-06-11 14:39:37
# 類似性と接続性による構造規則化を伴う超コンパクトクラスタ

Very Compact Clusters with Structural Regularization via Similarity and Connectivity ( http://arxiv.org/abs/2106.05430v1 )

ライセンス: Link先を確認
Xin Ma and Won Hwa Kim(参考訳) クラスタリングアルゴリズムは、データの効果的な表現を提供するディープニューラルネットワークとともに大幅に改善されている。 既存のメソッドは、サンプルのクラスタ割り当ての分散を利用するディープオートエンコーダとセルフトレーニングプロセス上に構築されている。 しかし、オートエンコーダの基本的な目的は効率的なデータ再構成であり、学習空間はクラスタリングに最適であるかもしれない。 さらに、データの高効率なコード(つまり表現)を必要とするが、そうでなければ初期クラスタセンターは、自己学習中に安定性の問題を引き起こすことが多い。 多くの最先端クラスタリングアルゴリズムは畳み込み演算を使って効率的なコードを抽出するが、その応用は画像データに限られる。 本稿では,クラスタ境界近傍のサンプルの局所的関係の分布を利用して,クラスタ中心に適切に分離してプルすることでコンパクトクラスタを形成する汎用データセットのための,エンド・ツー・エンドの深層クラスタリングアルゴリズム,すなわち超コンパクトクラスタ(vcc)を提案する。 画像データの畳み込みを行わずにvccが学習したデータ組込みは,特殊な畳み込み手法にさえ匹敵する。

Clustering algorithms have significantly improved along with Deep Neural Networks which provide effective representation of data. Existing methods are built upon deep autoencoder and self-training process that leverages the distribution of cluster assignments of samples. However, as the fundamental objective of the autoencoder is focused on efficient data reconstruction, the learnt space may be sub-optimal for clustering. Moreover, it requires highly effective codes (i.e., representation) of data, otherwise the initial cluster centers often cause stability issues during self-training. Many state-of-the-art clustering algorithms use convolution operation to extract efficient codes but their applications are limited to image data. In this regard, we propose an end-to-end deep clustering algorithm, i.e., Very Compact Clusters (VCC), for the general datasets, which takes advantage of distributions of local relationships of samples near the boundary of clusters, so that they can be properly separated and pulled to cluster centers to form compact clusters. Experimental results on various datasets illustrate that our proposed approach achieves better clustering performance over most of the state-of-the-art clustering methods, and the data embeddings learned by VCC without convolution for image data are even comparable with specialized convolutional methods.
公開日:2021-06-09
翻訳日:2021-06-11 14:39:22
# CAT:視覚変換器における交差注意

CAT: Cross Attention in Vision Transformer ( http://arxiv.org/abs/2106.05786v1 )

ライセンス: Link先を確認
Hezheng Lin, Xing Cheng, Xiangyu Wu, Fan Yang, Dong Shen, Zhongyuan Wang, Qing Song, Wei Yuan(参考訳) Transformer は NLP で広く利用されているため、CV における Transformer の可能性は実現され、多くの新しいアプローチに影響を与えた。 しかし、単語トークンをTransformerのイメージパッチに置き換えるために必要な計算は、画像のトークン化後に大きくなり(例:ViT)、モデルのトレーニングと推論がボトルネックとなる。 本稿では,画像パッチ内の注意を,画像全体ではなく画像パッチ内で交互に取り替え,局所情報をキャプチャし,単一チャネル特徴マップから分割した画像パッチ間で注意を付与する,クロスアテンションと呼ばれる新しい注意機構を提案する。 どちらの操作も、Transformerの通常の自己アテンションよりも計算量が少ない。 内部パッチとパッチを交互に適用することにより、計算コストの低い性能を維持するためにクロスアテンションを実装し、他の視覚タスクに対してクロスアテンショントランスフォーマー(CAT)と呼ばれる階層ネットワークを構築する。 ベースモデルはImageNet-1Kの最先端を実現し,COCOおよびADE20K上の他の手法の性能を改善し,ネットワークが一般的なバックボーンとして機能する可能性を示している。 コードとモデルは \url{https://github.com/l inhezheng19/cat} で入手できる。

Since Transformer has found widespread use in NLP, the potential of Transformer in CV has been realized and has inspired many new approaches. However, the computation required for replacing word tokens with image patches for Transformer after the tokenization of the image is vast(e.g., ViT), which bottlenecks model training and inference. In this paper, we propose a new attention mechanism in Transformer termed Cross Attention, which alternates attention inner the image patch instead of the whole image to capture local information and apply attention between image patches which are divided from single-channel feature maps capture global information. Both operations have less computation than standard self-attention in Transformer. By alternately applying attention inner patch and between patches, we implement cross attention to maintain the performance with lower computational cost and build a hierarchical network called Cross Attention Transformer(CAT) for other vision tasks. Our base model achieves state-of-the-arts on ImageNet-1K, and improves the performance of other methods on COCO and ADE20K, illustrating that our network has the potential to serve as general backbones. The code and models are available at \url{https://github.com/l inhezheng19/CAT}.
公開日:2021-06-10
翻訳日:2021-06-11 14:39:02
# 騒音を見て見ることを学ぶ

Learning to See by Looking at Noise ( http://arxiv.org/abs/2106.05963v1 )

ライセンス: Link先を確認
Manel Baradad, Jonas Wulff, Tongzhou Wang, Phillip Isola, Antonio Torralba(参考訳) 現在のビジョンシステムは巨大なデータセットに基づいてトレーニングされており、これらのデータセットにはコストが伴います。 これらのコストに対応するため、ラベルなし画像などの安価なデータソースから学ぶことへの関心が高まっている。 本稿では、さらに一歩進めて、ノイズプロセスから学習する代わりに、実際の画像データセットを完全に廃止できるかどうかを問う。 単純なランダムプロセスから画像を生成する一連の画像生成モデルについて検討する。 これらは、コントラスト損失のある視覚表現学習者のトレーニングデータとして使用される。 本研究では,ランダム初期化の異なる2種類の雑音過程,統計的画像モデル,深部生成モデルについて検討した。 その結果,ノイズが実データの特定の構造的特性を捉えることは重要であるが,現実的とは程遠いプロセスでも良好な性能が得られることがわかった。 また、多様性は優れた表現を学ぶための鍵となる性質であることもわかりました。 データセット、モデル、コードはhttps://mbaradad.git hub.io/learning_with _noiseで入手できる。

Current vision systems are trained on huge datasets, and these datasets come with costs: curation is expensive, they inherit human biases, and there are concerns over privacy and usage rights. To counter these costs, interest has surged in learning from cheaper data sources, such as unlabeled images. In this paper we go a step further and ask if we can do away with real image datasets entirely, instead learning from noise processes. We investigate a suite of image generation models that produce images from simple random processes. These are then used as training data for a visual representation learner with a contrastive loss. We study two types of noise processes, statistical image models and deep generative models under different random initializations. Our findings show that it is important for the noise to capture certain structural properties of real data but that good performance can be achieved even with processes that are far from realistic. We also find that diversity is a key property to learn good representations. Datasets, models, and code are available at https://mbaradad.git hub.io/learning_with _noise.
公開日:2021-06-10
翻訳日:2021-06-11 14:38:41
# 利害関係者の目:テキスト型強化学習エージェントにおける関係一般化の改善

Eye of the Beholder: Improved Relation Generalization for Text-based Reinforcement Learning Agents ( http://arxiv.org/abs/2106.05387v1 )

ライセンス: Link先を確認
Keerthiram Murugesan, Subhajit Chaudhury, Kartik Talamadupula(参考訳) テキストベースのゲーム(TBG)は、準現実世界における決定を下す学習ベースのエージェントのデモンストレーションの場として人気がある。 このようなtbgsにおける強化学習エージェントの問題点は、世界のオブジェクトとそれらのオブジェクトとその世界との関係を識別することにある。 近年,エージェントの知識を増大させ,その一般化を向上するためにテキストベースのリソースが使われていることは有望であるが,本論文では,これらの同一世界の視覚的表現から学ばないことが示唆されている。 具体的には,世界のテキスト観察の特定の事例を表すイメージを検索し,エージェントをそのようなイメージで訓練することを提案する。 これにより、エージェントがゲーム「シーン」とそれらの周りの世界との関係を総合的に理解し、様々な視覚的表現を提供することで、エージェントは関係をより一般化することができる。 このようなイメージを取り入れることで,様々なTBG設定におけるエージェントの性能が向上することを示す。

Text-based games (TBGs) have become a popular proving ground for the demonstration of learning-based agents that make decisions in quasi real-world settings. The crux of the problem for a reinforcement learning agent in such TBGs is identifying the objects in the world, and those objects' relations with that world. While the recent use of text-based resources for increasing an agent's knowledge and improving its generalization have shown promise, we posit in this paper that there is much yet to be learned from visual representations of these same worlds. Specifically, we propose to retrieve images that represent specific instances of text observations from the world and train our agents on such images. This improves the agent's overall understanding of the game 'scene' and objects' relationships to the world around them, and the variety of visual representations on offer allow the agent to generate a better generalization of a relationship. We show that incorporating such images improves the performance of agents in various TBG settings.
公開日:2021-06-09
翻訳日:2021-06-11 14:38:26
# 薬物発見における人工知能の応用と技術

Artificial Intelligence in Drug Discovery:Applicatio ns and Techniques ( http://arxiv.org/abs/2106.05386v1 )

ライセンス: Link先を確認
Jianyuan Deng, Zhibo Yang, Dimitris Samaras, Fusheng Wang(参考訳) 人工知能は過去10年間、薬物発見の実践を変えてきた。 様々な人工知能技術が幅広い用途に使われている。 この観点から、我々は、薬物発見におけるAIの大きな応用を示し、関連するAI技術について議論し、AIによる薬物発見の最近の進歩について述べる。 この視点は、人工知能と薬物発見の分野で働くことに興味がある研究者のガイドになることを期待している。 また、調査対象の論文を学習リソースとして要約したgithubリポジトリも提供しています。

Artificial intelligence has transformed the practice of drug discovery in the past decade. Various artificial intelligence techniques have been used in a wide range of applications. In this perspective, we present major applications of AI in drug discovery and discuss the relevant AI techniques, covering most recent progress in AI-driven drug discovery. We expect that the perspective will serve as a guide for researchers who are interested in working at this intersected area of artificial intelligence and drug discovery. We also provide a GitHub repository summarizing the surveyed papers as a learning resource, which will be regularly updated.
公開日:2021-06-09
翻訳日:2021-06-11 14:38:11
# グラフ共生学習

Graph Symbiosis Learning ( http://arxiv.org/abs/2106.05455v1 )

ライセンス: Link先を確認
Liang Zeng, Jin Xu, Zijun Yao, Yanqiao Zhu, Jian Li(参考訳) 本稿では,グラフ共生学習(GraphSym)という,複数のグラフビューから学習するフレームワークを紹介する。 GraphSymでは、複数の生成されたグラフビューで開発されたグラフニューラルネットワーク(GNN)がパラメータを適応的に交換し、リンク構造やノード特徴に格納された情報を融合することができる。 具体的には、1つのGNNの重み行列における冗長チャネルを、別のGNNの情報チャネルに層単位で繰り返し置換する新しい適応交換方式を提案する。 GraphSymは、複数のグラフビューとGNNアーキテクチャを生成する特定のメソッドに依存していない。 したがって、既存のGNNを私たちのフレームワークにシームレスに統合することができます。 3つの半教師付きノード分類データセットにおいて、GraphSymは知識蒸留なしで従来のシングルグラフと複数グラフのGNNを上回り、新しい最先端の結果を得る。 また、15の公開ベンチマーク、8つの人気のあるGNNモデル、3つのグラフタスク(ノード分類、グラフ分類、エッジ予測)について一連の実験を行い、GraphSymが既存のGNNよりも平均1.9\%$\sim$3.9\%高いパフォーマンスを実現していることを示す。 広範囲なアブレーションの研究と実験が、graphsymの有効性を実証している。

We introduce a framework for learning from multiple generated graph views, named graph symbiosis learning (GraphSym). In GraphSym, graph neural networks (GNN) developed in multiple generated graph views can adaptively exchange parameters with each other and fuse information stored in linkage structures and node features. Specifically, we propose a novel adaptive exchange method to iteratively substitute redundant channels in the weight matrix of one GNN with informative channels of another GNN in a layer-by-layer manner. GraphSym does not rely on specific methods to generate multiple graph views and GNN architectures. Thus, existing GNNs can be seamlessly integrated into our framework. On 3 semi-supervised node classification datasets, GraphSym outperforms previous single-graph and multiple-graph GNNs without knowledge distillation, and achieves new state-of-the-art results. We also conduct a series of experiments on 15 public benchmarks, 8 popular GNN models, and 3 graph tasks -- node classification, graph classification, and edge prediction -- and show that GraphSym consistently achieves better performance than existing popular GNNs by 1.9\%$\sim$3.9\% on average and their ensembles. Extensive ablation studies and experiments on the few-shot setting also demonstrate the effectiveness of GraphSym.
公開日:2021-06-10
翻訳日:2021-06-11 14:38:03
# グラフの自動教師付き学習

Automated Self-Supervised Learning for Graphs ( http://arxiv.org/abs/2106.05470v1 )

ライセンス: Link先を確認
Wei Jin, Xiaorui Liu, Xiangyu Zhao, Yao Ma, Neil Shah, Jiliang Tang(参考訳) グラフ自己教師付き学習は、表現力のあるノード表現を学習する能力から注目を集めている。 多くのプリテキストタスクや損失関数は、異なる視点から設計されている。 しかし、異なるプリテキストタスクがダウンストリームタスクに異なるクロスデータセットに影響することを観察し、グラフの自己教師付き学習にはプリテキストタスクの探索が不可欠であることを示唆している。 単一のプリテキストタスクの設計に焦点を当てた既存の作業とは異なり、この作業は複数のプリテキストタスクを効果的に活用する方法を検討することを目的としている。 それでも、複数のプリテキストタスクから派生した表現を基底真理ラベルに直接アクセスせずに評価することは、この問題を難しくする。 この障害に対処するために、我々は、多くの実世界のグラフ、すなわちホモフィリーや'like attracts like'の原則の鍵となる原理を、様々な自己教師付きプリテキストタスクを効果的に探索するためのガイダンスとして利用している。 この探索タスクにおけるホモフィリーの柔軟性を正当化するための理論的理解と実証的証拠を提供する。 次に,自己教師型タスクの組み合わせを自動的に検索するAutoSSLフレームワークを提案する。 実世界の7つのデータセットのフレームワークを評価することで、AutoSSLは個々のタスクでのトレーニングと比較して、ノードクラスタリングやノード分類を含む下流タスクのパフォーマンスを大幅に向上させることができることを示す。 コードはhttps://github.com/C handlerBang/AutoSSLでリリースされる。

Graph self-supervised learning has gained increasing attention due to its capacity to learn expressive node representations. Many pretext tasks, or loss functions have been designed from distinct perspectives. However, we observe that different pretext tasks affect downstream tasks differently cross datasets, which suggests that searching pretext tasks is crucial for graph self-supervised learning. Different from existing works focusing on designing single pretext tasks, this work aims to investigate how to automatically leverage multiple pretext tasks effectively. Nevertheless, evaluating representations derived from multiple pretext tasks without direct access to ground truth labels makes this problem challenging. To address this obstacle, we make use of a key principle of many real-world graphs, i.e., homophily, or the principle that ``like attracts like,'' as the guidance to effectively search various self-supervised pretext tasks. We provide theoretical understanding and empirical evidence to justify the flexibility of homophily in this search task. Then we propose the AutoSSL framework which can automatically search over combinations of various self-supervised tasks. By evaluating the framework on 7 real-world datasets, our experimental results show that AutoSSL can significantly boost the performance on downstream tasks including node clustering and node classification compared with training under individual tasks. Code will be released at https://github.com/C handlerBang/AutoSSL.
公開日:2021-06-10
翻訳日:2021-06-11 14:37:39
# 交点メンバシップを明かすことなく垂直フェデレーション学習

Vertical Federated Learning without Revealing Intersection Membership ( http://arxiv.org/abs/2106.05508v1 )

ライセンス: Link先を確認
Jiankai Sun and Xin Yang and Yuanshun Yao and Aonan Zhang and Weihao Gao and Junyuan Xie and Chong Wang(参考訳) Vertical Federated Learning (vFL)は、異なる属性(例えば、複数の属性)を所有できる。 同じデータエンティティ(例えば、)の特徴とラベル。 モデルを共同で訓練する人。 トレーニングデータを作成するには、vFLはすべてのパーティが共有する共通データエンティティを識別する必要がある。 通常はプライベート・セット・インターセクション (PSI) によって達成され、個人識別可能な情報(例: 個人識別情報)を使用して、すべての当事者からのトレーニングサンプルの交点を特定する。 データインスタンスをアライメントするためのサンプルIDとして。 結果として、PSIは交差点のサンプルIDを全当事者に可視化するので、各当事者は交差点に表示されるデータエンティティが他の当事者にも現れることを知ることができる。 交差点の会員だ しかし、多くの現実世界のプライバシーに敏感な組織では、例えば。 銀行や病院は データ・エンティティの会員登録を禁止しています 本稿では,PSU(Private Set Union)に基づくvFLフレームワークを提案する。 すべてのトレーニングサンプルの共通点を特定する代わりに、PSUプロトコルはトレーニングインスタンスとしてサンプルの結合を生成する。 さらに,交差点ではなく,連合に属するサンプルを扱うために,合成特徴とラベルを生成する戦略を提案する。 実世界の2つのデータセットに関する広範な実験を通して、我々のフレームワークはモデルユーティリティを維持しながら交差点メンバーシップのプライバシーを保護することができることを示す。

Vertical Federated Learning (vFL) allows multiple parties that own different attributes (e.g. features and labels) of the same data entity (e.g. a person) to jointly train a model. To prepare the training data, vFL needs to identify the common data entities shared by all parties. It is usually achieved by Private Set Intersection (PSI) which identifies the intersection of training samples from all parties by using personal identifiable information (e.g. email) as sample IDs to align data instances. As a result, PSI would make sample IDs of the intersection visible to all parties, and therefore each party can know that the data entities shown in the intersection also appear in the other parties, i.e. intersection membership. However, in many real-world privacy-sensitive organizations, e.g. banks and hospitals, revealing membership of their data entities is prohibited. In this paper, we propose a vFL framework based on Private Set Union (PSU) that allows each party to keep sensitive membership information to itself. Instead of identifying the intersection of all training samples, our PSU protocol generates the union of samples as training instances. In addition, we propose strategies to generate synthetic features and labels to handle samples that belong to the union but not the intersection. Through extensive experiments on two real-world datasets, we show our framework can protect the privacy of the intersection membership while maintaining the model utility.
公開日:2021-06-10
翻訳日:2021-06-11 14:37:16
# 検証・構成可能な強化学習システム

Verifiable and Compositional Reinforcement Learning Systems ( http://arxiv.org/abs/2106.05864v1 )

ライセンス: Link先を確認
Cyrus Neary, Christos Verginis, Murat Cubuktepe, Ufuk Topcu(参考訳) 本稿では,個別のサブタスクの実現を学習するrlサブシステムの集合が,タスク全体を達成するために構成される,検証および構成強化学習(rl)のための新しい枠組みを提案する。 このフレームワークは、パラメトリックマルコフ決定プロセス(pMDP)として表される高レベルモデルで構成されており、サブシステムの構成を計画し分析し、低レベルのサブシステム自体の収集に使用される。 サブシステム間のインターフェースを定義することで、このフレームワークはタスク仕様の自動分解を可能にする。例えば、ターゲットのステートセットに少なくとも 0.95 の確率で到達し、個々のサブタスク仕様に到達できる。 エントリー条件が満たされていることを考慮すれば、サブシステムの終了条件を少なくともある程度の確率で達成する。 これにより、サブシステムの独立したトレーニングとテストが可能になり、それぞれが適切なサブタスク仕様を満たすポリシーを学ぶと、それらの構成が全体的なタスク仕様を満たすことが保証される。 逆に、サブタスク仕様が学習ポリシーで満たされない場合、pMDPにおけるパラメータの最適セットを見つける問題として定式化され、サブタスク仕様を自動的に更新し、観察された欠点を考慮に入れる方法を提案する。 その結果は、サブタスク仕様を定義し、サブシステムに適合するようにトレーニングするための反復的な手順である。 追加の利点として、この手順により、トレーニング中に、全体的なタスクの特に挑戦的または重要なコンポーネントを自動的に決定し、集中することができる。 実験結果は,提案フレームワークの新たな機能を示す。

We propose a novel framework for verifiable and compositional reinforcement learning (RL) in which a collection of RL sub-systems, each of which learns to accomplish a separate sub-task, are composed to achieve an overall task. The framework consists of a high-level model, represented as a parametric Markov decision process (pMDP) which is used to plan and to analyze compositions of sub-systems, and of the collection of low-level sub-systems themselves. By defining interfaces between the sub-systems, the framework enables automatic decompositons of task specifications, e.g., reach a target set of states with a probability of at least 0.95, into individual sub-task specifications, i.e. achieve the sub-system's exit conditions with at least some minimum probability, given that its entry conditions are met. This in turn allows for the independent training and testing of the sub-systems; if they each learn a policy satisfying the appropriate sub-task specification, then their composition is guaranteed to satisfy the overall task specification. Conversely, if the sub-task specifications cannot all be satisfied by the learned policies, we present a method, formulated as the problem of finding an optimal set of parameters in the pMDP, to automatically update the sub-task specifications to account for the observed shortcomings. The result is an iterative procedure for defining sub-task specifications, and for training the sub-systems to meet them. As an additional benefit, this procedure allows for particularly challenging or important components of an overall task to be determined automatically, and focused on, during training. Experimental results demonstrate the presented framework's novel capabilities.
公開日:2021-06-07
翻訳日:2021-06-11 14:36:54
# オープンドメイン質問応答のためのマルチドキュメントリーダとレトリバーのエンドツーエンドトレーニング

End-to-End Training of Multi-Document Reader and Retriever for Open-Domain Question Answering ( http://arxiv.org/abs/2106.05346v1 )

ライセンス: Link先を確認
Devendra Singh Sachan and Siva Reddy and William Hamilton and Chris Dyer and Dani Yogatama(参考訳) 本稿では,複数の検索文書からの情報を結合して回答を生成するオープンドメイン質問応答システムのための,エンドツーエンドの識別可能な学習手法を提案する。 検索判断を関連文書の集合上の潜在変数としてモデル化する。 検索された文書の集合の辺縁化は計算が難しいので,期待最大化アルゴリズムを用いて近似する。 潜在変数(ある質問に対する関連する文書の集合)の値を反復的に推定し、この推定値を使ってレトリバーとリーダーパラメータを更新します。 このようなエンドツーエンドのトレーニングは、トレーニングシグナルが読み手へ流れて、段階的なトレーニングよりもレトリバーへ流れることを想定しています。 これにより、質問に対してより関連性の高い文書を選択できるレトリバーと、より正確な文書で訓練された読者が回答を生成する。 3つのベンチマークデータセットにおける実験により,提案手法が既存の2~3%の絶対的一致点を上回り,新たな最先端結果が得られることを示した。 また,検索判断を明示的に管理することなく,回答生成を改善するための学習の可能性を示す。

We present an end-to-end differentiable training method for retrieval-augmented open-domain question answering systems that combine information from multiple retrieved documents when generating answers. We model retrieval decisions as latent variables over sets of relevant documents. Since marginalizing over sets of retrieved documents is computationally hard, we approximate this using an expectation-maximiza tion algorithm. We iteratively estimate the value of our latent variable (the set of relevant documents for a given question) and then use this estimate to update the retriever and reader parameters. We hypothesize that such end-to-end training allows training signals to flow to the reader and then to the retriever better than staged-wise training. This results in a retriever that is able to select more relevant documents for a question and a reader that is trained on more accurate documents to generate an answer. Experiments on three benchmark datasets demonstrate that our proposed method outperforms all existing approaches of comparable size by 2-3% absolute exact match points, achieving new state-of-the-art results. Our results also demonstrate the feasibility of learning to retrieve to improve answer generation without explicit supervision of retrieval decisions.
公開日:2021-06-09
翻訳日:2021-06-11 14:36:28
# pop culture text と english humor literature によるディープラーニングによるサーカズム検出の並列化

Parallel Deep Learning-Driven Sarcasm Detection from Pop Culture Text and English Humor Literature ( http://arxiv.org/abs/2106.05752v1 )

ライセンス: Link先を確認
Sourav Das and Anup Kumar Kolya(参考訳) サルカズム(Sarcasm)は、真理、偽り、あるいはモックリーを笑える方法で包む洗練された方法である。 ソーシャルネットワークによるコミュニケーションの出現は、新しい社会化の道を開いた。 さらに、ユーモア、皮肉、皮肉、ウィットは現代において社会的に面白い4つのチャリオットであるとも言える。 そこで,本稿では,サーキスティックな対話やモノローグを含むベンチマークポップカルチャーサーカズムコーパスのサーキスティックな単語分布の特徴を手作業で抽出する。 このような単語から重み付きベクトルからなる入力シーケンスを生成する。 さらに,4つの並列深層長短項ネットワーク (pLSTM) のアマルガメーションを提案する。 これらのモジュールは主にテキストコーパスからサルカズムを検出することを目的としている。 提案するサルカズム検出モデルは,検討したデータセットを用いてトレーニングした場合,98.95%のトレーニング精度をピークとする。 連続して、全てのテストケースの中で、2つのハンドピックされたプロジェクトグーテンベルク英語のユーモア文学において、98.31%の検証精度を得た。 提案手法は,いくつかのサルカズムコーパスに関する先行研究を超越し,新しいゴールド標準によるサルカズム検出性能を実現する。

Sarcasm is a sophisticated way of wrapping any immanent truth, mes-sage, or even mockery within a hilarious manner. The advent of communications using social networks has mass-produced new avenues of socialization. It can be further said that humor, irony, sarcasm, and wit are the four chariots of being socially funny in the modern days. In this paper, we manually extract the sarcastic word distribution features of a benchmark pop culture sarcasm corpus, containing sarcastic dialogues and monologues. We generate input sequences formed of the weighted vectors from such words. We further propose an amalgamation of four parallel deep long-short term networks (pLSTM), each with distinctive activation classifier. These modules are primarily aimed at successfully detecting sarcasm from the text corpus. Our proposed model for detecting sarcasm peaks a training accuracy of 98.95% when trained with the discussed dataset. Consecutively, it obtains the highest of 98.31% overall validation accuracy on two handpicked Project Gutenberg English humor literature among all the test cases. Our approach transcends previous state-of-the-art works on several sarcasm corpora and results in a new gold standard performance for sarcasm detection.
公開日:2021-06-10
翻訳日:2021-06-11 14:36:08
# 共形埋め込み流れをもつ学習多様体の気道密度推定

Tractable Density Estimation on Learned Manifolds with Conformal Embedding Flows ( http://arxiv.org/abs/2106.05275v1 )

ライセンス: Link先を確認
Brendan Leigh Ross, Jesse C. Cresswell(参考訳) 正規化フローは、単純な基底分布を複素対象分布に変換することによって、トラクタブル密度推定を提供する生成モデルである。 しかし、この手法は、画像データのような実世界の領域でよく見られる未知の低次元多様体上でのデータを直接モデル化することはできない。 この制限を是正しようとする最近の試みは、流れの正規化の中心的な利点である正確な密度推定を打ち破る幾何学的複雑化をもたらす。 この利点は、トラクタブル密度の多様体を学習するフローを設計するためのフレームワークであるConformal Embedding Flowsを用いて回復する。 トレーニング可能な共形埋め込みで標準流れを構成することは、多様体が支持するデータをモデル化する最も自然な方法である。 そこで本論文では, 実世界および合成データを用いた実験において, 計算可能な確率を犠牲にすることなく, フローが多様体支持分布をモデル化可能であることを示す。

Normalizing flows are generative models that provide tractable density estimation by transforming a simple base distribution into a complex target distribution. However, this technique cannot directly model data supported on an unknown low-dimensional manifold, a common occurrence in real-world domains such as image data. Recent attempts to remedy this limitation have introduced geometric complications that defeat a central benefit of normalizing flows: exact density estimation. We recover this benefit with Conformal Embedding Flows, a framework for designing flows that learn manifolds with tractable densities. We argue that composing a standard flow with a trainable conformal embedding is the most natural way to model manifold-supported data. To this end, we present a series of conformal building blocks and apply them in experiments with real-world and synthetic data to demonstrate that flows can model manifold-supported distributions without sacrificing tractable likelihoods.
公開日:2021-06-09
翻訳日:2021-06-11 14:35:50
# gansのsteinutnt最適化

Stein Latent Optimization for GANs ( http://arxiv.org/abs/2106.05319v1 )

ライセンス: Link先を確認
Uiwon Hwang, Heeseung Kim, Dahuin Jung, Hyemi Jang, Hyungyu Lee, Sungroh Yoon(参考訳) クラスタ化された潜在空間を持つGANは、完全に教師なしの条件付き生成を行うことができる。 しかし、実世界のラベルのないデータの健全な特性は、ほとんど不均衡である。 既存の教師なし条件付きGANは、属性の均一分布を仮定するため、潜在空間に属性を適切にクラスタ化できない。 この問題に対処するために、連続潜時空間においてガウス混合を前提とした潜時分布パラメータの再パラメータ化可能な勾配推定を提供するスタイン潜時最適化を理論的に導出する。 構造的には、エンコーダネットワークと新しいコントラスト損失を導入して、単一の混合コンポーネントから生成されたデータを単一の属性として表現する。 提案手法は,SLOGAN(Stein Latent Optimization for GAN)と命名され,バランスの取れた属性や不均衡な属性を学習し,非教師なし条件生成,無条件生成,クラスタ割り当てなどの非教師なしタスクを行う。 不均衡比)。 さらに,少量のプローブデータを用いて学習対象の属性を操作できることを実証した。

Generative adversarial networks (GANs) with clustered latent spaces can perform conditional generation in a completely unsupervised manner. However, the salient attributes of unlabeled data in the real-world are mostly imbalanced. Existing unsupervised conditional GANs cannot properly cluster the attributes in their latent spaces because they assume uniform distributions of the attributes. To address this problem, we theoretically derive Stein latent optimization that provides reparameterizable gradient estimations of the latent distribution parameters assuming a Gaussian mixture prior in a continuous latent space. Structurally, we introduce an encoder network and a novel contrastive loss to help generated data from a single mixture component to represent a single attribute. We confirm that the proposed method, named Stein Latent Optimization for GANs (SLOGAN), successfully learns the balanced or imbalanced attributes and performs unsupervised tasks such as unsupervised conditional generation, unconditional generation, and cluster assignment even in the absence of information of the attributes (e.g. the imbalance ratio). Moreover, we demonstrate that the attributes to be learned can be manipulated using a small amount of probe data.
公開日:2021-06-09
翻訳日:2021-06-11 14:35:35
# 情報幾何学を取り戻す

Pulling back information geometry ( http://arxiv.org/abs/2106.05367v1 )

ライセンス: Link先を確認
Georgios Arvanitidis, Miguel Gonz\'alez-Duque, Alison Pouplin, Dimitris Kalatzis, S{\o}ren Hauberg(参考訳) 潜時空間幾何学は、深部生成モデルの潜時変数と相互作用するリッチで厳密な枠組みを提供することを示した。 しかし、既存の理論は、その単純な再パラメータ化により生成過程を決定論的多様体のランダム射影として解釈できるため、ガウス分布であるデコーダに依存する。 したがって、再パラメータ化が容易でないデコーダに適用すると、このアプローチは崩壊する。 本稿では,ディコーダ分布の空間に関連するfisher-raoメトリックを基準メトリックとして使用し,それを潜在空間に戻すことを提案する。 先行理論が適用できない広い範囲のデコーダ分布に対して有意義な潜在ジオメトリを実現できることを示し、「ブラックボックス」潜在ジオメトリへの扉を開く。

Latent space geometry has shown itself to provide a rich and rigorous framework for interacting with the latent variables of deep generative models. The existing theory, however, relies on the decoder being a Gaussian distribution as its simple reparametrization allows us to interpret the generating process as a random projection of a deterministic manifold. Consequently, this approach breaks down when applied to decoders that are not as easily reparametrized. We here propose to use the Fisher-Rao metric associated with the space of decoder distributions as a reference metric, which we pull back to the latent space. We show that we can achieve meaningful latent geometries for a wide range of decoder distributions for which the previous theory was not applicable, opening the door to `black box' latent geometries.
公開日:2021-06-09
翻訳日:2021-06-11 14:35:17
# ガウス過程による非パラメトリックボルテラ核の学習

Learning Nonparametric Volterra Kernels with Gaussian Processes ( http://arxiv.org/abs/2106.05582v1 )

ライセンス: Link先を確認
Magnus Ross, Michael T. Smith, Mauricio A. \'Alvarez(参考訳) 本稿では、非線形作用素の非パラメトリックベイズ学習法について、ガウス過程(GP)を用いて表現されたカーネルを持つVolterra級数を用い、非パラメトリックVolterra核モデル(NVKM)と呼ぶ手法を提案する。 NVKMは、演算子への入力関数が観測されず、GP先行を持つとき、単一および複数出力の回帰の強力な方法を構成し、非線形および非パラメトリック潜在力モデルと見なすことができる。 入力関数が観測されると、NVKMを使用してベイズ系の識別を行うことができる。 数値積分を使わずにボルテラ級数によるプロセス実現を地図化するためにgpsから明示的な関数を効率的にサンプリングし,2倍の確率的変分推論による拡張性を実現し,出力プロセスのガウス近似の必要性を回避した。 標準ベンチマークを用いて,複数出力回帰とシステム同定の両方におけるモデルの性能を示す。

This paper introduces a method for the nonparametric Bayesian learning of nonlinear operators, through the use of the Volterra series with kernels represented using Gaussian processes (GPs), which we term the nonparametric Volterra kernels model (NVKM). When the input function to the operator is unobserved and has a GP prior, the NVKM constitutes a powerful method for both single and multiple output regression, and can be viewed as a nonlinear and nonparametric latent force model. When the input function is observed, the NVKM can be used to perform Bayesian system identification. We use recent advances in efficient sampling of explicit functions from GPs to map process realisations through the Volterra series without resorting to numerical integration, allowing scalability through doubly stochastic variational inference, and avoiding the need for Gaussian approximations of the output processes. We demonstrate the performance of the model for both multiple output regression and system identification using standard benchmarks.
公開日:2021-06-10
翻訳日:2021-06-11 14:35:03
# ベイズ型ニューラルネットワークにおけるデータ拡張と冷後効果

Data augmentation in Bayesian neural networks and the cold posterior effect ( http://arxiv.org/abs/2106.05586v1 )

ライセンス: Link先を確認
Seth Nabarro, Stoil Ganev, Adri\`a Garriga-Alonso, Vincent Fortuin, Mark van der Wilk and Laurence Aitchison(参考訳) データ拡張は、ディープニューラルネットワークのパフォーマンス向上に非常に効果的なアプローチである。 標準的な見方では、合成データを追加して拡大データセットを作成するため、ベイジアン推論と組み合わせることで問題が発生する。 この問題は、データ拡張と冷後効果をリンクする最近の観測に特に関係している。 本研究では,拡張データセットのログライクな検索手法について検討する。 提案手法では,テスト時と列車時の両方で,同じ画像が複数回拡大され,ロジットや予測確率が平均化される。 経験的に、平均的な確率で最高のパフォーマンスを観察する。 冷たい後部効果と相互作用するが、平均的なロジットや平均的な確率は排除しない。

Data augmentation is a highly effective approach for improving performance in deep neural networks. The standard view is that it creates an enlarged dataset by adding synthetic data, which raises a problem when combining it with Bayesian inference: how much data are we really conditioning on? This question is particularly relevant to recent observations linking data augmentation to the cold posterior effect. We investigate various principled ways of finding a log-likelihood for augmented datasets. Our approach prescribes augmenting the same underlying image multiple times, both at test and train-time, and averaging either the logits or the predictive probabilities. Empirically, we observe the best performance with averaging probabilities. While there are interactions with the cold posterior effect, neither averaging logits or averaging probabilities eliminates it.
公開日:2021-06-10
翻訳日:2021-06-11 14:34:45
# GBHT:密度推定のための勾配ブースティングヒストグラム変換

GBHT: Gradient Boosting Histogram Transform for Density Estimation ( http://arxiv.org/abs/2106.05738v1 )

ライセンス: Link先を確認
Jingyi Cui, Hanyuan Hang, Yisen Wang, Zhouchen Lin(参考訳) 本稿では,GBHT と呼ばれる密度推定アルゴリズムを提案する。ここでは,教師なしタスクに対してブースティング手順を利用可能にするために,損失関数として \textit{Negative Log Likelihood} を採用する。 学習理論の観点からは、まず、基礎となる密度関数が空間 $c^{0,\alpha}$ にあるという滑らかさを仮定して、gbht の高速収束率を証明する。 このとき、対象密度関数が空間$C^{1,\alpha}$ にあるとき、収束率という意味では、対応するベース学習者の下限よりも小さい GBHT の上限を示す。 我々の知識を最大限に活用するために,我々は,密度推定問題に対する基礎学習者の性能向上を理論的に説明するための最初の試みを行う。 実験では、広く使われているKDEと性能比較を行うだけでなく、異常検出にGBHTを適用し、GBHTのさらなる応用を示す。

In this paper, we propose a density estimation algorithm called \textit{Gradient Boosting Histogram Transform} (GBHT), where we adopt the \textit{Negative Log Likelihood} as the loss function to make the boosting procedure available for the unsupervised tasks. From a learning theory viewpoint, we first prove fast convergence rates for GBHT with the smoothness assumption that the underlying density function lies in the space $C^{0,\alpha}$. Then when the target density function lies in spaces $C^{1,\alpha}$, we present an upper bound for GBHT which is smaller than the lower bound of its corresponding base learner, in the sense of convergence rates. To the best of our knowledge, we make the first attempt to theoretically explain why boosting can enhance the performance of its base learners for density estimation problems. In experiments, we not only conduct performance comparisons with the widely used KDE, but also apply GBHT to anomaly detection to showcase a further application of GBHT.
公開日:2021-06-10
翻訳日:2021-06-11 14:34:35
# シンボリックハイパーパラメータデフォルトのためのメタラーニング

Meta-Learning for Symbolic Hyperparameter Defaults ( http://arxiv.org/abs/2106.05767v1 )

ライセンス: Link先を確認
Pieter Gijsbers, Florian Pfisterer, Jan N. van Rijn, Bernd Bischl and Joaquin Vanschoren(参考訳) 機械学習(ML)におけるハイパーパラメータ最適化は、データから最適なアルゴリズム構成を経験的に学習する問題を扱う。 本研究では,データセットの特性を用いて表現されるメタリアンのシンボル型デフォルトハイパーパラメータ構成のためのゼロショット法を提案する。 これにより、標準的なハイパーパラメータ最適化アプローチに比べて、mlアルゴリズムの高速かつデータ依存の構成が可能になる。 過去には、象徴的および静的なデフォルト値は通常手作りのヒューリスティックとして得られてきた。 進化的アルゴリズムを用いて表現の文法を最適化することにより,複数のデータセット上での事前評価からデータセット特性の式のような記号的構成を学習する手法を提案する。 我々は,100以上のデータセット上で6mlアルゴリズムにまたがる実データに加えて,経験的性能モデルの評価を行い,本手法が真に実行可能なシンボルデフォルトを求めることを実証した。

Hyperparameter optimization in machine learning (ML) deals with the problem of empirically learning an optimal algorithm configuration from data, usually formulated as a black-box optimization problem. In this work, we propose a zero-shot method to meta-learn symbolic default hyperparameter configurations that are expressed in terms of the properties of the dataset. This enables a much faster, but still data-dependent, configuration of the ML algorithm, compared to standard hyperparameter optimization approaches. In the past, symbolic and static default values have usually been obtained as hand-crafted heuristics. We propose an approach of learning such symbolic configurations as formulas of dataset properties from a large set of prior evaluations on multiple datasets by optimizing over a grammar of expressions using an evolutionary algorithm. We evaluate our method on surrogate empirical performance models as well as on real data across 6 ML algorithms on more than 100 datasets and demonstrate that our method indeed finds viable symbolic defaults.
公開日:2021-06-10
翻訳日:2021-06-11 14:34:17
# 潜在空間におけるスコアベース生成モデル

Score-based Generative Modeling in Latent Space ( http://arxiv.org/abs/2106.05931v1 )

ライセンス: Link先を確認
Arash Vahdat, Karsten Kreis, Jan Kautz(参考訳) スコアベース生成モデル(SGM)は,最近,サンプル品質と分布範囲の両面で顕著な結果を示した。 しかし、通常はデータ空間に直接適用され、サンプリングには数千のネットワーク評価が必要となる。 本稿では,可変オートエンコーダフレームワークに依拠して,潜在空間でsgmを訓練する新しい手法である潜在スコア型生成モデル(lsgm)を提案する。 データから潜在空間への移動により、より表現力のある生成モデルをトレーニングし、非連続データにSGMを適用し、よりスムーズなSGMをより小さな空間で学習し、ネットワーク評価を減らし、より高速なサンプリングを行うことができる。 LSGMのエンド・ツー・エンドをスケーラブルで安定した方法でトレーニングできるようにするため、(i)LSGM設定に適した新たなスコアマッチング目標を導入し、(ii)SGMが目標分布のミスマッチに集中できるようにスコア関数のパラメータ化を提案し、(iii)訓練対象の分散低減のための複数のテクニックを解析的に導出する。 LSGMはCIFAR-10で2.10の最先端のFIDスコアを取得し、このデータセットで既存のすべての生成結果を上回っている。 CelebA-HQ-256では、LSGMはサンプル品質の以前のSGMと同等であり、サンプリング時間では2桁の精度で性能を向上している。 二項画像のモデリングにおいて、LSGMは二項化OMNIGLOTデータセット上で最先端の可能性を達成する。

Score-based generative models (SGMs) have recently demonstrated impressive results in terms of both sample quality and distribution coverage. However, they are usually applied directly in data space and often require thousands of network evaluations for sampling. Here, we propose the Latent Score-based Generative Model (LSGM), a novel approach that trains SGMs in a latent space, relying on the variational autoencoder framework. Moving from data to latent space allows us to train more expressive generative models, apply SGMs to non-continuous data, and learn smoother SGMs in a smaller space, resulting in fewer network evaluations and faster sampling. To enable training LSGMs end-to-end in a scalable and stable manner, we (i) introduce a new score-matching objective suitable to the LSGM setting, (ii) propose a novel parameterization of the score function that allows SGM to focus on the mismatch of the target distribution with respect to a simple Normal one, and (iii) analytically derive multiple techniques for variance reduction of the training objective. LSGM obtains a state-of-the-art FID score of 2.10 on CIFAR-10, outperforming all existing generative results on this dataset. On CelebA-HQ-256, LSGM is on a par with previous SGMs in sample quality while outperforming them in sampling time by two orders of magnitude. In modeling binary images, LSGM achieves state-of-the-art likelihood on the binarized OMNIGLOT dataset.
公開日:2021-06-10
翻訳日:2021-06-11 14:34:02
# 早期停止型ニューラルネットワークは一貫性がある

Early-stopped neural networks are consistent ( http://arxiv.org/abs/2106.05932v1 )

ライセンス: Link先を確認
Ziwei Ji, Justin D. Li, Matus Telgarsky(参考訳) 本研究は、基礎となるデータ分布が一般的で(最適)ベイズリスクが必ずしもゼロではないバイナリ分類データの勾配降下を通じてロジスティック損失で訓練されたニューラルネットワークの挙動を研究する。 この設定では,早期停止による勾配降下は,ロジスティックな損失や誤分類の損失だけでなく,キャリブレーションの観点からも,任意に最適に近い人口リスクをもたらすことが示され,その結果のシグモイドマッピングは,条件分布の真の基礎を任意に近似する。 さらに、この分析に必要な反復、サンプル、およびアーキテクチャ上の複雑さはすべて、真の条件モデルの特定の複雑性尺度で自然にスケールする。 最後に、早期停止の必要性は示されていないが、局所補間特性を満たす任意の単変量分類器は必ずしも矛盾している。

This work studies the behavior of neural networks trained with the logistic loss via gradient descent on binary classification data where the underlying data distribution is general, and the (optimal) Bayes risk is not necessarily zero. In this setting, it is shown that gradient descent with early stopping achieves population risk arbitrarily close to optimal in terms of not just logistic and misclassification losses, but also in terms of calibration, meaning the sigmoid mapping of its outputs approximates the true underlying conditional distribution arbitrarily finely. Moreover, the necessary iteration, sample, and architectural complexities of this analysis all scale naturally with a certain complexity measure of the true conditional model. Lastly, while it is not shown that early stopping is necessary, it is shown that any univariate classifier satisfying a local interpolation property is necessarily inconsistent.
公開日:2021-06-10
翻訳日:2021-06-11 14:33:36
# 知識蒸留は本当に機能するのか?

Does Knowledge Distillation Really Work? ( http://arxiv.org/abs/2106.05945v1 )

ライセンス: Link先を確認
Samuel Stanton, Pavel Izmailov, Polina Kirichenko, Alexander A. Alemi, Andrew Gordon Wilson(参考訳) 知識蒸留は、ネットワークのアンサンブルのようなより大きな教師モデルをエミュレートするために、小さな学生ネットワークを訓練する一般的な技術である。 知識蒸留は学生の一般化を改善することができるが、一般的に理解されているようには機能しない。教師と生徒の予測分布に驚くほど大きな差がある場合が多く、たとえ学生が教師と完全に一致する能力を持つ場合であっても。 生徒が教師と一致できない理由として,最適化の難しさを見いだしている。 また,蒸留に使用するデータセットの詳細が,生徒の教師との密接な一致にどのような役割を果たしているかを示すとともに,教師とパラドックス的により密接な関係が,必ずしも学生の一般化に繋がるとは限らないことを示した。

Knowledge distillation is a popular technique for training a small student network to emulate a larger teacher model, such as an ensemble of networks. We show that while knowledge distillation can improve student generalization, it does not typically work as it is commonly understood: there often remains a surprisingly large discrepancy between the predictive distributions of the teacher and the student, even in cases when the student has the capacity to perfectly match the teacher. We identify difficulties in optimization as a key reason for why the student is unable to match the teacher. We also show how the details of the dataset used for distillation play a role in how closely the student matches the teacher -- and that more closely matching the teacher paradoxically does not always lead to better student generalization.
公開日:2021-06-10
翻訳日:2021-06-11 14:33:21
# ODEに基づくランダム特徴を持つ非線形力学系の構成モデリング

Compositional Modeling of Nonlinear Dynamical Systems with ODE-based Random Features ( http://arxiv.org/abs/2106.05960v1 )

ライセンス: Link先を確認
Thomas M. McDonald, Mauricio A. \'Alvarez(参考訳) 非常に非線形な力学系に存在する現象を効果的にモデル化する一方で、不確実性を正確に定量化することは困難であり、しばしば問題固有の技術を必要とする。 本稿では、通常の微分方程式から導かれる物理に変形したランダムな特徴の合成を用いて、この問題に取り組む新しい領域非依存なアプローチを提案する。 このモデルのアーキテクチャは、ランダムなフーリエ特徴を組み込んだ層毎の重み空間近似や近似ベイズ推論の確率的変分推論など、深いガウス過程の近似推論の最近の進歩を活用している。 本モデルが実世界の多変量時系列データにおいて高度に非線形な挙動を捉えることができることを示す。 さらに,本手法は,ベンチマーク回帰タスクにおいて,他の多くの確率モデルに匹敵する性能を実現する。

Effectively modeling phenomena present in highly nonlinear dynamical systems whilst also accurately quantifying uncertainty is a challenging task, which often requires problem-specific techniques. We present a novel, domain-agnostic approach to tackling this problem, using compositions of physics-informed random features, derived from ordinary differential equations. The architecture of our model leverages recent advances in approximate inference for deep Gaussian processes, such as layer-wise weight-space approximations which allow us to incorporate random Fourier features, and stochastic variational inference for approximate Bayesian inference. We provide evidence that our model is capable of capturing highly nonlinear behaviour in real-world multivariate time series data. In addition, we find that our approach achieves comparable performance to a number of other probabilistic models on benchmark regression tasks.
公開日:2021-06-10
翻訳日:2021-06-11 14:33:07
# 自己組織化クラスタリングのためのSwarm Intelligence

Swarm Intelligence for Self-Organized Clustering ( http://arxiv.org/abs/2106.05521v1 )

ライセンス: Link先を確認
Michael C. Thrun and Alfred Ultsch(参考訳) 互いに相互作用し、環境を感知するエージェントの集団を実装するアルゴリズムは、自己組織化や集団知性などの創発的な行動を示す可能性がある。 ここではDatabionic Swarm(DBS)と呼ばれるSwarmシステムが導入され、データ空間内の距離や密度に基づく構造を特徴とする高次元データの構造に適応することができる。 スウォームインテリジェンス、自己組織化、出現の相互関係を利用して、DBSはクラスタリングタスクにおけるグローバルな目的関数の最適化に対する代替アプローチとして機能する。 Swarmは、大域的目的関数の使用を省略し、アニーリング過程中にナッシュ平衡を探索するためパラメータフリーである。 私たちの知る限り、DBSはこれらのアプローチを組み合わせた最初の群れです。 そのクラスタリングは、k-means、pam、single linkage、spectral clustering、model-based clustering、wardのような一般的なクラスタリングメソッドよりも優れている。 クラスタリングにおける中心的な問題は、クラスタ数の正しい推定である。 これは、クラスタ数を評価できるtopographic mapと呼ばれるdbs可視化によって解決される。 すべてのクラスタリングアルゴリズムが、データセットに関係なくクラスタを構成することが知られている。 他のほとんどのクラスタリングアルゴリズムとは対照的に、地形図は、データが(自然な)クラスタを含まない場合、データのクラスタリングは意味がないと特定する。 DBSの性能は、クラスタリングの困難な問題に対処するために構築されたベンチマークデータと、2つの実世界のアプリケーションで実証される。

Algorithms implementing populations of agents which interact with one another and sense their environment may exhibit emergent behavior such as self-organization and swarm intelligence. Here a swarm system, called Databionic swarm (DBS), is introduced which is able to adapt itself to structures of high-dimensional data characterized by distance and/or density-based structures in the data space. By exploiting the interrelations of swarm intelligence, self-organization and emergence, DBS serves as an alternative approach to the optimization of a global objective function in the task of clustering. The swarm omits the usage of a global objective function and is parameter-free because it searches for the Nash equilibrium during its annealing process. To our knowledge, DBS is the first swarm combining these approaches. Its clustering can outperform common clustering methods such as K-means, PAM, single linkage, spectral clustering, model-based clustering, and Ward, if no prior knowledge about the data is available. A central problem in clustering is the correct estimation of the number of clusters. This is addressed by a DBS visualization called topographic map which allows assessing the number of clusters. It is known that all clustering algorithms construct clusters, irrespective of the data set contains clusters or not. In contrast to most other clustering algorithms, the topographic map identifies, that clustering of the data is meaningless if the data contains no (natural) clusters. The performance of DBS is demonstrated on a set of benchmark data, which are constructed to pose difficult clustering problems and in two real-world applications.
公開日:2021-06-10
翻訳日:2021-06-11 14:32:52
# 単純かつ効果的なベースラインを用いた点雲形状分類の再検討

Revisiting Point Cloud Shape Classification with a Simple and Effective Baseline ( http://arxiv.org/abs/2106.05304v1 )

ライセンス: Link先を確認
Ankit Goyal, Hei Law, Bowei Liu, Alejandro Newell, Jia Deng(参考訳) ポイントクラウドデータの処理は多くの現実世界システムにおいて重要なコンポーネントである。 このように、様々なポイントベースのアプローチが提案され、時間とともに安定したベンチマーク改善が報告されている。 この進展の鍵となる要素について検討し、2つの重要な結果を明らかにする。 まず,モデルアーキテクチャに依存しない評価手法,データ拡張戦略,損失関数などの補助的要因が,性能に大きな違いをもたらすことを明らかにする。 違いは十分に大きく、アーキテクチャの影響を曖昧にしています。 これらの要因が制御されると、比較的古いネットワークであるPointNet++は、最近の手法と競合して動作する。 次に、SimpleViewと呼ばれる非常に単純なプロジェクションベースのメソッドが驚くほどうまく機能します。 modelnet40の最先端メソッドと同等かそれ以上の結果が得られるが、pointnet++の半分のサイズである。 また、実世界のポイントクラウドベンチマークであるScanObjectNNで最先端のメソッドを上回り、より良いデータセットの一般化を示す。 コードはhttps://github.com/p rinceton-vl/SimpleVi ewで入手できる。

Processing point cloud data is an important component of many real-world systems. As such, a wide variety of point-based approaches have been proposed, reporting steady benchmark improvements over time. We study the key ingredients of this progress and uncover two critical results. First, we find that auxiliary factors like different evaluation schemes, data augmentation strategies, and loss functions, which are independent of the model architecture, make a large difference in performance. The differences are large enough that they obscure the effect of architecture. When these factors are controlled for, PointNet++, a relatively older network, performs competitively with recent methods. Second, a very simple projection-based method, which we refer to as SimpleView, performs surprisingly well. It achieves on par or better results than sophisticated state-of-the-art methods on ModelNet40 while being half the size of PointNet++. It also outperforms state-of-the-art methods on ScanObjectNN, a real-world point cloud benchmark, and demonstrates better cross-dataset generalization. Code is available at https://github.com/p rinceton-vl/SimpleVi ew.
公開日:2021-06-09
翻訳日:2021-06-11 14:32:29
# シミュレーションベーステストの検証:ラベル-画像合成によるドメインシフトの回避

Validation of Simulation-Based Testing: Bypassing Domain Shift with Label-to-Image Synthesis ( http://arxiv.org/abs/2106.05549v1 )

ライセンス: Link先を確認
Julia Rosenzweig, Eduardo Brito, Hans-Ulrich Kobialka, Maram Akila, Nico M. Schmidt, Peter Schlicht, Jan David Schneider, Fabian H\"uger, Matthias Rottmann, Sebastian Houben, Tim Wirtz(参考訳) 多くの機械学習アプリケーションは、シミュレートされたデータを体系的な検証に役立てることができる。 しかし、シミュレーションはドメインシフトw.r.t になりがちである。 実生活データでは、得られた結果の転送可能性を検証することが重要である。 本稿では,合成データから等価な実生活データへ意味セグメンテーションモデルのテスト結果をどの程度転送できるかを調べるために,生成ラベルから画像への合成モデルと異なる転送可能性尺度を組み合わせた新しい枠組みを提案する。 若干の変更を加えると、我々のアプローチは一般的な多クラス分類タスクに拡張可能である。 トランスファービリティ解析に基づくアプローチでは,制御されたシミュレーションを組み込んだ広範囲なテストも可能である。 運転シーンにおける意味セグメンテーションタスクを経験的に検証した。 IoUと学習した識別器の相関解析を用いてトランスファービリティを検証した。 後者は実生活と合成テストを区別できるが、前者は自動車と歩行者の両方で0.7の驚くほど強い相関関係を観察する。

Many machine learning applications can benefit from simulated data for systematic validation - in particular if real-life data is difficult to obtain or annotate. However, since simulations are prone to domain shift w.r.t. real-life data, it is crucial to verify the transferability of the obtained results. We propose a novel framework consisting of a generative label-to-image synthesis model together with different transferability measures to inspect to what extent we can transfer testing results of semantic segmentation models from synthetic data to equivalent real-life data. With slight modifications, our approach is extendable to, e.g., general multi-class classification tasks. Grounded on the transferability analysis, our approach additionally allows for extensive testing by incorporating controlled simulations. We validate our approach empirically on a semantic segmentation task on driving scenes. Transferability is tested using correlation analysis of IoU and a learned discriminator. Although the latter can distinguish between real-life and synthetic tests, in the former we observe surprisingly strong correlations of 0.7 for both cars and pedestrians.
公開日:2021-06-10
翻訳日:2021-06-11 14:32:15
# VQAにおける共振パターンの伝達の監督

Supervising the Transfer of Reasoning Patterns in VQA ( http://arxiv.org/abs/2106.05597v1 )

ライセンス: Link先を確認
Corentin Kervadec, Christian Wolf, Grigory Antipov, Moez Baccouche and Madiha Nadri(参考訳) VQA(Visual Question Anwering)は、推論よりもデータセットバイアスを活用することで知られ、一般化を妨げる。 最近、完璧な(oracle)ビジュアルインプットでトレーニングされた際に、最先端のvqaモデルの注意層により良い推論パターンが現れることが示されている。 これにより、深層ニューラルネットワークが、トレーニング条件が十分に好適であるかどうかを判断できることが証明される。 しかし、この学習した知識をデプロイ可能なモデルに転送することは難しい。 損失関数における正規化項に基づく知識伝達法を提案し,必要な推論操作のシーケンスを監督する。 pac-learningに基づく理論的解析を行い,このプログラム予測が軽度仮説下でのサンプル複雑性の低下につながることを示した。 また,本手法の有効性をGQAデータセット上で実験的に検証し,BERTのような自己教師付き事前学習と相補性を示す。

Methods for Visual Question Anwering (VQA) are notorious for leveraging dataset biases rather than performing reasoning, hindering generalization. It has been recently shown that better reasoning patterns emerge in attention layers of a state-of-the-art VQA model when they are trained on perfect (oracle) visual inputs. This provides evidence that deep neural networks can learn to reason when training conditions are favorable enough. However, transferring this learned knowledge to deployable models is a challenge, as much of it is lost during the transfer. We propose a method for knowledge transfer based on a regularization term in our loss function, supervising the sequence of required reasoning operations. We provide a theoretical analysis based on PAC-learning, showing that such program prediction can lead to decreased sample complexity under mild hypotheses. We also demonstrate the effectiveness of this approach experimentally on the GQA dataset and show its complementarity to BERT-like self-supervised pre-training.
公開日:2021-06-10
翻訳日:2021-06-11 14:32:00
# 深層強化学習を用いた適応型ストリーミング知覚

Adaptive Streaming Perception using Deep Reinforcement Learning ( http://arxiv.org/abs/2106.05665v1 )

ライセンス: Link先を確認
Anurag Ghosh, Akshay Nambi, Aditya Singh, Harish YVS, Tanuja Ganu(参考訳) 視覚データをストリーミングしたり、知覚をストリーミングしたりするコンピュータビジョンモデルの実行は、自動運転、具体化エージェント、拡張現実/バーチャルリアリティーなど、新たな問題である。 このようなシステムの開発は、処理パイプラインの精度とレイテンシに大きく左右される。 過去の開発では、多くの近似実行フレームワークが提案されているが、決定機能は、レイテンシ、正確性、エネルギーなどの最適化にのみ焦点を絞っている。 その結果、システム全体のパフォーマンスに影響を与える最適化を下すことになる。 ストリーミング認識システムはシステム全体の性能(すなわち、精度とレイテンシの両方を同時に考慮して)を総括的に最大化するべきである。 この目的のために,ストリーミング知覚のための実行時にこれらのトレードオフを学ぶための,深層強化学習に基づく新しいアプローチについて述べる。 このトレードオフ最適化は,新たな深層バンディット問題として定式化されており,遅延と精度を1つのメトリックに統合した新たな報酬関数を設計する。 エージェントは、パブリックデータセットの最先端ポリシーよりも優れた、複数の意思決定次元にわたる競合ポリシーを学習できることを示します。

Executing computer vision models on streaming visual data, or streaming perception is an emerging problem, with applications in self-driving, embodied agents, and augmented/virtual reality. The development of such systems is largely governed by the accuracy and latency of the processing pipeline. While past work has proposed numerous approximate execution frameworks, their decision functions solely focus on optimizing latency, accuracy, or energy, etc. This results in sub-optimum decisions, affecting the overall system performance. We argue that the streaming perception systems should holistically maximize the overall system performance (i.e., considering both accuracy and latency simultaneously). To this end, we describe a new approach based on deep reinforcement learning to learn these tradeoffs at runtime for streaming perception. This tradeoff optimization is formulated as a novel deep contextual bandit problem and we design a new reward function that holistically integrates latency and accuracy into a single metric. We show that our agent can learn a competitive policy across multiple decision dimensions, which outperforms state-of-the-art policies on public datasets.
公開日:2021-06-10
翻訳日:2021-06-11 14:31:43
# モデルベース特徴投影ブロックを用いた終端肺結節検出フレームワーク

End-to-end lung nodule detection framework with model-based feature projection block ( http://arxiv.org/abs/2106.05741v1 )

ライセンス: Link先を確認
Ivan Drokin and Elena Ericheva(参考訳) 胸部CTで不審な肺結節を検出するための新しいエンドツーエンドフレームワークを提案する。 メソッドコアのアイデアは、3次元畳み込みにモデルベースの特徴投影ブロックを持つ新しい結節分割アーキテクチャである。 このブロックは、2次元U-Netのような畳み込みネットワークの予備的特徴抽出器として機能する。 軸, コロナ, 矢状投射解析とともに提案手法を用いることで, 広く用いられている偽陽性率低減ステップを放棄することができる。 提案手法はLUNA2016において平均感度0.959、スキャン毎の偽陽性レベル0.936の感度でSOTAを実現する。 提案手法について述べるとともに, LUNA2016およびアブレーション研究に関する実験結果を示す。

This paper proposes novel end-to-end framework for detecting suspicious pulmonary nodules in chest CT scans. The method core idea is a new nodule segmentation architecture with a model-based feature projection block on three-dimensional convolutions. This block acts as a preliminary feature extractor for a two-dimensional U-Net-like convolutional network. Using the proposed approach along with an axial, coronal, and sagittal projection analysis makes it possible to abandon the widely used false positives reduction step. The proposed method achieves SOTA on LUNA2016 with 0.959 average sensitivity, and 0.936 sensitivity if the false-positive level per scan is 0.25. The paper describes the proposed approach and represents the experimental results on LUNA2016 as well as ablation studies.
公開日:2021-06-10
翻訳日:2021-06-11 14:31:26
# ソルガム分類のためのマルチレゾリューションoutlier pooling

Multi-resolution Outlier Pooling for Sorghum Classification ( http://arxiv.org/abs/2106.05748v1 )

ライセンス: Link先を確認
Chao Ren, Justin Dulay, Gregory Rolwes, Duke Pauli, Nadia Shakoor and Abby Stylianou(参考訳) 自動高スループット植物表現法は、RGB、サーマルカメラ、ハイパースペクトルカメラなどのセンサーを活用して、作物の違いをよりよく理解し、迅速な植物育種プログラムを促進するために、植物の物理的特性を大規模かつ迅速に測定する。 最も基本的な表現型付けの課題の1つは、特定のセンサー製品における品種や種を決定することである。 この単純な表現型は、植え付けにおけるエラーを検出し、品種間の最も異なる特徴を学習するために使用できる。 また、多くの関連性の高い作物が同時に栽培されるため、クラス間分散の少ない分類問題を引き起こすため、視覚認識課題にもなっている。 本稿では,sorghum-100データセット,最先端のgantryシステムによってキャプチャされたsorghumのrgbイメージの大規模なデータセット,作物のグローバルおよび細粒度の特徴を学習するマルチレゾリューションネットワークアーキテクチャ,およびこのタスクで標準的なグローバルプーリング戦略を上回る,dynamic outlier poolingと呼ばれる新しいグローバルプーリング戦略を紹介する。

Automated high throughput plant phenotyping involves leveraging sensors, such as RGB, thermal and hyperspectral cameras (among others), to make large scale and rapid measurements of the physical properties of plants for the purpose of better understanding the difference between crops and facilitating rapid plant breeding programs. One of the most basic phenotyping tasks is to determine the cultivar, or species, in a particular sensor product. This simple phenotype can be used to detect errors in planting and to learn the most differentiating features between cultivars. It is also a challenging visual recognition task, as a large number of highly related crops are grown simultaneously, leading to a classification problem with low inter-class variance. In this paper, we introduce the Sorghum-100 dataset, a large dataset of RGB imagery of sorghum captured by a state-of-the-art gantry system, a multi-resolution network architecture that learns both global and fine-grained features on the crops, and a new global pooling strategy called Dynamic Outlier Pooling which outperforms standard global pooling strategies on this task.
公開日:2021-06-10
翻訳日:2021-06-11 14:31:15
# バッチノルムを超えて:深層学習における正規化の一般的な理解に向けて

Beyond BatchNorm: Towards a General Understanding of Normalization in Deep Learning ( http://arxiv.org/abs/2106.05956v1 )

ライセンス: Link先を確認
Ekdeep Singh Lubana, Robert P. Dick, Hidenori Tanaka(参考訳) batchnormに触発されて、ディープラーニングでは正規化層が爆発的に増えている。 最近の研究は、その成功を説明するために、BatchNormの多くの有益な特性を特定している。 しかし、代替正規化手法の追求を考えると、これらの特性は任意の層の成功/失敗を正確に予測できるように一般化する必要がある。 本研究では、ランダム初期化ディープニューラルネットワーク(DNN)におけるBatchNormの既知の特性を、最近提案された9つの正規化層に拡張することで、この目標に向けて第一歩を踏み出す。 Our primary findings follow: (i) Similar to BatchNorm, activations-based normalization layers can avoid exploding activations in ResNets; (ii) Use of GroupNorm ensures rank of activations is at least $\Omega(\sqrt{\frac{\text{width}}{\text{Group Size}}})$, thus explaining why LayerNorm witnesses slow optimization speed; (iii) Small group sizes result in large gradient norm in earlier layers, hence justifying training instability issues in Instance Normalization and illustrating a speed-stability tradeoff in GroupNorm. 全体として、ディープラーニングにおける正規化技術の成功を説明するいくつかの一般的なメカニズムを明らかにし、DNN正規化層の広大な設計空間を体系的に探索するためのコンパスを提供する。

Inspired by BatchNorm, there has been an explosion of normalization layers in deep learning. Recent works have identified a multitude of beneficial properties in BatchNorm to explain its success. However, given the pursuit of alternative normalization techniques, these properties need to be generalized so that any given layer's success/failure can be accurately predicted. In this work, we take a first step towards this goal by extending known properties of BatchNorm in randomly initialized deep neural networks (DNNs) to nine recently proposed normalization layers. Our primary findings follow: (i) Similar to BatchNorm, activations-based normalization layers can avoid exploding activations in ResNets; (ii) Use of GroupNorm ensures rank of activations is at least $\Omega(\sqrt{\frac{\text{width}}{\text{Group Size}}})$, thus explaining why LayerNorm witnesses slow optimization speed; (iii) Small group sizes result in large gradient norm in earlier layers, hence justifying training instability issues in Instance Normalization and illustrating a speed-stability tradeoff in GroupNorm. Overall, our analysis reveals several general mechanisms that explain the success of normalization techniques in deep learning, providing us with a compass to systematically explore the vast design space of DNN normalization layers.
公開日:2021-06-10
翻訳日:2021-06-11 14:30:51
# 変速試験環境下での分類精度について回転予測が示すこと

What Does Rotation Prediction Tell Us about Classifier Accuracy under Varying Testing Environments? ( http://arxiv.org/abs/2106.05961v1 )

ライセンス: Link先を確認
Weijian Deng, Stephen Gould, Liang Zheng(参考訳) 新たな環境下での分類器の決定を理解することはコミュニティの中心であり、ラベル付きテストセットで評価することが一般的である。 しかし、実世界のテストでは、特にテスト環境が変化している場合、画像アノテーションは入手が難しく、コストがかかる。 訓練された分類器が与えられたら、その精度を様々な未ラベルのテストセットで評価できるだろうか? 本研究では,マルチタスクで意味的分類と回転予測を訓練する。 一連のデータセットについて,セマンティクス分類精度は,回転予測タスクの精度と強い線形関係を示す(ピアソン相関r > 0.88)。 この発見により,自由生成する回転ラベルを用いた試験で得られる回転予測の精度から,線形回帰を利用して分類器の性能を推定できる。

Understanding classifier decision under novel environments is central to the community, and a common practice is evaluating it on labeled test sets. However, in real-world testing, image annotations are difficult and expensive to obtain, especially when the test environment is changing. A natural question then arises: given a trained classifier, can we evaluate its accuracy on varying unlabeled test sets? In this work, we train semantic classification and rotation prediction in a multi-task way. On a series of datasets, we report an interesting finding, i.e., the semantic classification accuracy exhibits a strong linear relationship with the accuracy of the rotation prediction task (Pearson's Correlation r > 0.88). This finding allows us to utilize linear regression to estimate classifier performance from the accuracy of rotation prediction which can be obtained on the test set through the freely generated rotation labels.
公開日:2021-06-10
翻訳日:2021-06-11 14:30:33
# 視覚表現の教師なし学習のためのコントラスト法の再検討

Revisiting Contrastive Methods for Unsupervised Learning of Visual Representations ( http://arxiv.org/abs/2106.05967v1 )

ライセンス: Link先を確認
Wouter Van Gansbeke, Simon Vandenhende, Stamatios Georgoulis, Luc Van Gool(参考訳) 対照的な自己教師付き学習は、セグメンテーションやオブジェクト検出といった多くの下流タスクで教師付き事前学習よりも優れています。 しかし、現在の方法は主にimagenetのようなキュレートされたデータセットに適用される。 本稿では,まず,データセット内のバイアスが既存手法に与える影響について検討する。 その結果、現在のコントラストアプローチは、(i)オブジェクト中心対シーン中心、(ii)一様対ロングテール、(iii)一般対ドメイン固有データセットなど、驚くほどうまく機能していることがわかった。 第二に、アプローチの一般性を考えると、小さな修正を加えてさらなる利益を実現しようとする。 マルチスケールの収穫、より強い増分、そして最も近い隣人の利用により、学習のさらなる不変性が表現を改善していることを示す。 最後に,MoCoがマルチクロップ戦略で学習すると,空間的構造化された表現が学習されることを示す。 この表現は、微調整なしでセグメンテーションとビデオインスタンスセグメンテーションに使うことができる。 さらに、結果は専門モデルと同等である。 この研究が他の研究者にとって有用な研究になることを期待している。 コードとモデルはhttps://github.com/w vangansbeke/Revisiti ng-Contrastive-SSLで入手できる。

Contrastive self-supervised learning has outperformed supervised pretraining on many downstream tasks like segmentation and object detection. However, current methods are still primarily applied to curated datasets like ImageNet. In this paper, we first study how biases in the dataset affect existing methods. Our results show that current contrastive approaches work surprisingly well across: (i) object- versus scene-centric, (ii) uniform versus long-tailed and (iii) general versus domain-specific datasets. Second, given the generality of the approach, we try to realize further gains with minor modifications. We show that learning additional invariances -- through the use of multi-scale cropping, stronger augmentations and nearest neighbors -- improves the representations. Finally, we observe that MoCo learns spatially structured representations when trained with a multi-crop strategy. The representations can be used for semantic segment retrieval and video instance segmentation without finetuning. Moreover, the results are on par with specialized models. We hope this work will serve as a useful study for other researchers. The code and models will be available at https://github.com/w vangansbeke/Revisiti ng-Contrastive-SSL.
公開日:2021-06-10
翻訳日:2021-06-11 14:30:19
# ZoPE:低次元入力を持つReLUネットワークの高速最適化

ZoPE: A Fast Optimizer for ReLU Networks with Low-Dimensional Inputs ( http://arxiv.org/abs/2106.05325v1 )

ライセンス: Link先を確認
Christopher A. Strong, Sydney M. Katz, Anthony L. Corso, Mykel J. Kochenderfer(参考訳) ディープニューラルネットワークは、安全クリティカルなシステムにデプロイされるために必要な安全性と堅牢性保証を欠くことが多い。 形式的検証手法は、ネットワークの入出力安全特性を証明するのに使用できるが、プロパティの指定が難しい場合、様々な最適化問題に対する解決策に依存する。 本研究では,低次元入力によるフィードフォワードReLUネットワークの出力に対する最適化問題を解くZoPEアルゴリズムを提案する。 このアルゴリズムは入力空間を熱心に分割し、各ステップでzonotope伝播を用いて目的を束縛し、既存の混合整数計画法と比較して計算効率を向上させる。 i)出力空間上の任意の凸関数の最小化、(ii)2つのネットワークの出力上の凸関数の最小化、(iii)2つのネットワーク間の出力差の最大化である。 我々はZoPEを用いて、ACAS Xuニューラルネットワーク検証ベンチマークのプロパティ1における25ドル=スピードアップと、一連の線形最適化問題に対する85ドル=スピードアップを観察した。 本稿では,生成型逆ネットワークの範囲を投影し,圧縮型ネットワークと非圧縮型ネットワークの違いを可視化することにより,ネットワーク解析におけるオプティマイザの汎用性を示す。

Deep neural networks often lack the safety and robustness guarantees needed to be deployed in safety critical systems. Formal verification techniques can be used to prove input-output safety properties of networks, but when properties are difficult to specify, we rely on the solution to various optimization problems. In this work, we present an algorithm called ZoPE that solves optimization problems over the output of feedforward ReLU networks with low-dimensional inputs. The algorithm eagerly splits the input space, bounding the objective using zonotope propagation at each step, and improves computational efficiency compared to existing mixed integer programming approaches. We demonstrate how to formulate and solve three types of optimization problems: (i) minimization of any convex function over the output space, (ii) minimization of a convex function over the output of two networks in series with an adversarial perturbation in the layer between them, and (iii) maximization of the difference in output between two networks. Using ZoPE, we observe a $25\times$ speedup on property 1 of the ACAS Xu neural network verification benchmark and an $85\times$ speedup on a set of linear optimization problems. We demonstrate the versatility of the optimizer in analyzing networks by projecting onto the range of a generative adversarial network and visualizing the differences between a compressed and uncompressed network.
公開日:2021-06-09
翻訳日:2021-06-11 14:30:02
# 品質多様性最適化による教師なし行動発見

Unsupervised Behaviour Discovery with Quality-Diversity Optimisation ( http://arxiv.org/abs/2106.05648v1 )

ライセンス: Link先を確認
Luca Grillotti and Antoine Cully(参考訳) 品質多様性アルゴリズム(Quality-Diversity algorithm)は、与えられた問題に対する多様な高性能なソリューションの集合を見つけるために設計された進化的アルゴリズムのクラスを指す。 ロボット工学において、そのようなアルゴリズムはロボットの動作のほとんどをカバーするコントローラーの集合を生成するのに使用できる。 そのため、これらのアルゴリズムはそれぞれの振る舞いに振る舞い記述子を関連付ける。 各行動記述子は、他の行動と比較して1つの行動の新規性を推定するために使用される。 ほとんどの既存のアルゴリズムでは、振る舞い記述子をハンドコーディングする必要があるため、タスクに関する事前の知識が必要となる。 本稿では,その能力を実現する自律ロボットについて紹介する。そのアルゴリズムは次元低減技術を用いて,生の感覚データに基づいて行動記述子を自動的に学習する。 このアルゴリズムの性能はシミュレーションにおける3つのロボットタスクに基づいて評価される。 実験の結果,ハンドコードされた動作記述子を提供する必要なしに,従来のハンドコードアプローチと同じように動作することがわかった。 多様なハイパフォーマンスなソリューションのコレクションでは、ハンドコードされたベースラインよりも多くの機能に関して斬新な振る舞いを見つけることができる。 最後に,動作記述子空間の次元性に頑健なアルゴリズムの変種を導入する。

Quality-Diversity algorithms refer to a class of evolutionary algorithms designed to find a collection of diverse and high-performing solutions to a given problem. In robotics, such algorithms can be used for generating a collection of controllers covering most of the possible behaviours of a robot. To do so, these algorithms associate a behavioural descriptor to each of these behaviours. Each behavioural descriptor is used for estimating the novelty of one behaviour compared to the others. In most existing algorithms, the behavioural descriptor needs to be hand-coded, thus requiring prior knowledge about the task to solve. In this paper, we introduce: Autonomous Robots Realising their Abilities, an algorithm that uses a dimensionality reduction technique to automatically learn behavioural descriptors based on raw sensory data. The performance of this algorithm is assessed on three robotic tasks in simulation. The experimental results show that it performs similarly to traditional hand-coded approaches without the requirement to provide any hand-coded behavioural descriptor. In the collection of diverse and high-performing solutions, it also manages to find behaviours that are novel with respect to more features than its hand-coded baselines. Finally, we introduce a variant of the algorithm which is robust to the dimensionality of the behavioural descriptor space.
公開日:2021-06-10
翻訳日:2021-06-11 14:29:38
# 不正確な最適化から勾配集中による学習へ

From inexact optimization to learning via gradient concentration ( http://arxiv.org/abs/2106.05397v1 )

ライセンス: Link先を確認
Bernhard Stankewitz, Nicole M\"ucke, Lorenzo Rosasco(参考訳) 最近、最適化は学習プロセスの帰納的バイアス、暗黙的あるいは反復的正規化と呼ばれる特性を制御することが示されている。 反復的にトレーニングエラーを最小化する推定器は、さらなる罰則や制約を必要とせずに一般化することができる。 本稿では, 滑らかな損失関数を持つ線形モデルにおいて, この現象を考察する。 特に,不正確な最適化と確率論,特に勾配集中のアイデアを組み合わせた証明手法について検討し,提案する。 証明は簡単に追従でき、鋭い学習境界を得ることができる。 より一般的には、学習保証に最適化結果を開発する方法を強調している。

Optimization was recently shown to control the inductive bias in a learning process, a property referred to as implicit, or iterative regularization. The estimator obtained iteratively minimizing the training error can generalise well with no need of further penalties or constraints. In this paper, we investigate this phenomenon in the context of linear models with smooth loss functions. In particular, we investigate and propose a proof technique combining ideas from inexact optimization and probability theory, specifically gradient concentration. The proof is easy to follow and allows to obtain sharp learning bounds. More generally, it highlights a way to develop optimization results into learning guarantees.
公開日:2021-06-09
翻訳日:2021-06-11 14:29:18
# 中心極限定理、損失回避と多腕バンディット

A Central Limit Theorem, Loss Aversion and Multi-Armed Bandits ( http://arxiv.org/abs/2106.05472v1 )

ライセンス: Link先を確認
Zengjing Chen, Larry G. Epstein, Guodong Zhang(参考訳) 本稿では, 条件分散が, 一定間隔の制限のみを条件とする実験において, ほとんど構造化されていない履歴依存の方法で変化できるという仮定の下で, 中心極限定理を確立する。 極限は、新しくて取り外し可能な形式をとり、ブラウン運動の振動の言葉で表される。 第2の貢献は、意思決定者が損失逆であるマルチアームバンディット問題のクラスにこの結果を適用することである。

This paper establishes a central limit theorem under the assumption that conditional variances can vary in a largely unstructured history-dependent way across experiments subject only to the restriction that they lie in a fixed interval. Limits take a novel and tractable form, and are expressed in terms of oscillating Brownian motion. A second contribution is application of this result to a class of multi-armed bandit problems where the decision-maker is loss averse.
公開日:2021-06-10
翻訳日:2021-06-11 14:29:10
# 不確実性推定における被覆バイアスの理解

Understanding the Under-Coverage Bias in Uncertainty Estimation ( http://arxiv.org/abs/2106.05515v1 )

ライセンス: Link先を確認
Yu Bai, Song Mei, Huan Wang, Caiming Xiong(参考訳) 回帰タスクにおけるデータ不確実性の推定は、しばしば、入力に条件付けられた真のラベルの量子関数や予測間隔を学ぶことによって行われる。 漸近的保証を持つ分位数を学習するためのバニラアルゴリズムである分位数回帰は、現実の所望のカバレッジレベルよりも\emph{under-cover} が多いことがしばしば観察される。 様々な修正が提案されているが、この過大な偏見がそもそもなぜ起こるのかというより根本的な理解はいまだに解明されていない。 本稿では,学習量論における不確かさ推定アルゴリズムの適用範囲に関する厳密な理論的研究を行う。 定位回帰は, 線形定位関数が実現可能であり, パラメータ以上のデータが存在するバニラ設定において, 固有の非被覆バイアスに苦しむことを証明した。 より定量的に、$\alpha>0.5$ と small $d/n$ に対して、量子化回帰によって学習された$\alpha$-quantile は、ノイズ分布に関係なく$\alpha - (\alpha-1/2)\cdot d/n$ の範囲をほぼ達成し、$d$ は入力次元、$n$ はトレーニングデータ数である。 本理論では, この非被覆バイアスは, 定位回帰理論に含まない特定の高次元パラメータ推定誤差に起因していることを明らかにした。 シミュレーションおよび実データを用いた実験は,本理論を検証し,サンプルサイズやモデルキャパシティなどの諸要因が,より実践的な設定における下層偏差に及ぼす影響を検証した。

Estimating the data uncertainty in regression tasks is often done by learning a quantile function or a prediction interval of the true label conditioned on the input. It is frequently observed that quantile regression -- a vanilla algorithm for learning quantiles with asymptotic guarantees -- tends to \emph{under-cover} than the desired coverage level in reality. While various fixes have been proposed, a more fundamental understanding of why this under-coverage bias happens in the first place remains elusive. In this paper, we present a rigorous theoretical study on the coverage of uncertainty estimation algorithms in learning quantiles. We prove that quantile regression suffers from an inherent under-coverage bias, in a vanilla setting where we learn a realizable linear quantile function and there is more data than parameters. More quantitatively, for $\alpha>0.5$ and small $d/n$, the $\alpha$-quantile learned by quantile regression roughly achieves coverage $\alpha - (\alpha-1/2)\cdot d/n$ regardless of the noise distribution, where $d$ is the input dimension and $n$ is the number of training data. Our theory reveals that this under-coverage bias stems from a certain high-dimensional parameter estimation error that is not implied by existing theories on quantile regression. Experiments on simulated and real data verify our theory and further illustrate the effect of various factors such as sample size and model capacity on the under-coverage bias in more practical setups.
公開日:2021-06-10
翻訳日:2021-06-11 14:29:05
# パラメータ推論のための解釈可能なニューラルネットワーク

An Interpretable Neural Network for Parameter Inference ( http://arxiv.org/abs/2106.05536v1 )

ライセンス: Link先を確認
Johann Pfitzinger(参考訳) 経済学や金融学などの分野におけるディープニューラルネットワークの導入は、モデル結果の解釈可能性の欠如によって制約されている。 本稿では,回帰モデルのパラメータに対する局所後続分布を推定可能な生成型ニューラルネットワークアーキテクチャであるパラメータエンコーダニューラルネットワーク(penn)を提案する。 パラメータは入力の観点から予測を完全に説明し、複雑な異種効果や特徴依存の存在下での可視化、解釈、推論を可能にする。 ベイズ推論手法を用いることで、局所的なパラメータ推定を安定した解に向けて規則化し、限られたデータ可用性の設定におけるノイズフィッティングを減らすことができる。 提案するニューラルネットワークは、パラメータ推論が重要な役割を果たす経済学や金融分野の応用に特に適している。 資産価格問題への応用は、PENNが金融市場の非線形リスクダイナミクスを探索し、経験的非線形効果と金融理論による行動の比較にどのように使用できるかを示す。

Adoption of deep neural networks in fields such as economics or finance has been constrained by the lack of interpretability of model outcomes. This paper proposes a generative neural network architecture - the parameter encoder neural network (PENN) - capable of estimating local posterior distributions for the parameters of a regression model. The parameters fully explain predictions in terms of the inputs and permit visualization, interpretation and inference in the presence of complex heterogeneous effects and feature dependencies. The use of Bayesian inference techniques offers an intuitive mechanism to regularize local parameter estimates towards a stable solution, and to reduce noise-fitting in settings of limited data availability. The proposed neural network is particularly well-suited to applications in economics and finance, where parameter inference plays an important role. An application to an asset pricing problem demonstrates how the PENN can be used to explore nonlinear risk dynamics in financial markets, and to compare empirical nonlinear effects to behavior posited by financial theory.
公開日:2021-06-10
翻訳日:2021-06-11 14:28:33
# GANのニューラル・タンジェントカーネル・パースペクティブ

A Neural Tangent Kernel Perspective of GANs ( http://arxiv.org/abs/2106.05566v1 )

ライセンス: Link先を確認
Jean-Yves Franceschi (MLIA), Emmanuel de B\'ezenac (MLIA), Ibrahim Ayed (MLIA), Micka\"el Chen, Sylvain Lamprier (MLIA), Patrick Gallinari (MLIA)(参考訳) generative adversarial network (gans) の理論解析は一般に、任意に大きな分類器群を仮定し、実際に使用されるアーキテクチャの特徴を考慮しない。 分析の枠組みは単純すぎてganトレーニングを適切に分析できないことを示す。 この問題に対処するために、無限幅ニューラルネットワークの理論を活用し、ニューラルタンジェントカーネル(NTK)を介して、幅広い敵の損失に対するニューラルディミネータートレーニングをモデル化する。 分析の結果,GANの訓練性は判別器のアーキテクチャに依存することがわかった。 さらに、特定のアーキテクチャと損失の識別器について研究し、GANトレーニングの新たな理解を提供する特性を強調した。 例えば、積分確率計量損失で訓練されたGANは、NTKをカーネルとする最大平均誤差を最小化する。 我々の結論は,より優れた,より原理化されたGANモデルを実現するための,提案するフレームワークがもたらす分析の機会を示すものである。 我々は,研究の実証的部分をサポートするフレームワークに基づく汎用gan分析ツールキットをリリースする。

Theoretical analyses for Generative Adversarial Networks (GANs) generally assume an arbitrarily large family of discriminators and do not consider the characteristics of the architectures used in practice. We show that this framework of analysis is too simplistic to properly analyze GAN training. To tackle this issue, we leverage the theory of infinite-width neural networks to model neural discriminator training for a wide range of adversarial losses via its Neural Tangent Kernel (NTK). Our analytical results show that GAN trainability primarily depends on the discriminator's architecture. We further study the discriminator for specific architectures and losses, and highlight properties providing a new understanding of GAN training. For example, we find that GANs trained with the integral probability metric loss minimize the maximum mean discrepancy with the NTK as kernel. Our conclusions demonstrate the analysis opportunities provided by the proposed framework, which paves the way for better and more principled GAN models. We release a generic GAN analysis toolkit based on our framework that supports the empirical part of our study.
公開日:2021-06-10
翻訳日:2021-06-11 14:28:18
# 確率スペクトル埋め込みを用いた希少事象推定

Rare event estimation using stochastic spectral embedding ( http://arxiv.org/abs/2106.05824v1 )

ライセンス: Link先を確認
P.-R. Wagner, S. Marelli, I. Papaioannou, D. Straub, B. Sudret(参考訳) まれな障害の発生確率を推定することは、エンジニアリングシステムの信頼性評価において不可欠なステップである。 複雑な非線形システムに対するこの障害確率の計算は困難であり、最近アクティブラーニング信頼性手法の開発が進められている。 これらの手法は、逐次強化されたモデル評価のセットで訓練されたサロゲートモデルを用いて極限状態関数(lsf)を近似する。 確率スペクトル埋め込み(SSE)と呼ばれる最近提案された手法は、入力空間のサブドメインに局所的残留展開を逐次埋め込むことにより、グローバルスペクトル代理モデリング技術の局所近似精度を向上させることを目的としている。 本研究では,SSE を LSF に適用し,確率スペクトル埋め込み型信頼性 (SSER) 法を導出する。 入力空間の結果として生じる分割は、障害確率を計算し易い領域の障害確率の集合に分解する。 稀な事象推定問題を効率的に解くためにアルゴリズムを調整した一連の修正を提案する。 これらの変更には、特別な洗練されたドメインの選択、分割、強化戦略が含まれる。 LSFにおける様々な次元と複雑さの4つのベンチマーク問題に対して,アルゴリズムの性能を示す。

Estimating the probability of rare failure events is an essential step in the reliability assessment of engineering systems. Computing this failure probability for complex non-linear systems is challenging, and has recently spurred the development of active-learning reliability methods. These methods approximate the limit-state function (LSF) using surrogate models trained with a sequentially enriched set of model evaluations. A recently proposed method called stochastic spectral embedding (SSE) aims to improve the local approximation accuracy of global, spectral surrogate modelling techniques by sequentially embedding local residual expansions in subdomains of the input space. In this work we apply SSE to the LSF, giving rise to a stochastic spectral embedding-based reliability (SSER) method. The resulting partition of the input space decomposes the failure probability into a set of easy-to-compute domain-wise failure probabilities. We propose a set of modifications that tailor the algorithm to efficiently solve rare event estimation problems. These modifications include specialized refinement domain selection, partitioning and enrichment strategies. We showcase the algorithm performance on four benchmark problems of various dimensionality and complexity in the LSF.
公開日:2021-06-09
翻訳日:2021-06-11 14:28:01
# 線形計測値の混合によるスパース信号の回復支援

Support Recovery of Sparse Signals from a Mixture of Linear Measurements ( http://arxiv.org/abs/2106.05951v1 )

ライセンス: Link先を確認
Venkata Gandikota, Arya Mazumdar, Soumyabrata Pal(参考訳) 単純な測定からスパースベクトルのサポートを回復することは、圧縮センシング、1ビット圧縮センシング、より一般的なシングルインデックスモデルの枠組みで検討された広く研究されている問題である。 線形回帰の混合と線形分類器の混合というこの問題の一般化を考察し、そこでは、少数個のノイズのある線形と1ビットの測定だけを用いて、複数のスパースベクトルのサポートを回復することが目的である。 鍵となる課題は、異なるベクトルからの測定がランダムに混合されることである。 どちらの問題も近年広く研究されている。 線形分類器の混合では、この観測は列状超平面の側面にランダムな未知ベクトルが存在するのに対し、線形回帰の混合では、列状超平面上のランダムな未知ベクトルの投影を観察する。 混合から未知のベクトルを回収する第一のステップは、まず個々の成分ベクトルの支持を識別することである。 本研究では,両モデルにおける混合成分ベクトルの支持部を回収するのに十分な測定数について検討する。 我々は、各成分がk$-sparse $n$-dimensional ベクトルである場合、混合中のすべての$\ell$ 未知ベクトルのサポートを高い確率で回復するために、いくつかの測定多項式を $k, \log n$ および pseudo-polynomial で$\ell$で使用するアルゴリズムを提供する。

Recovery of support of a sparse vector from simple measurements is a widely studied problem, considered under the frameworks of compressed sensing, 1-bit compressed sensing, and more general single index models. We consider generalizations of this problem: mixtures of linear regressions, and mixtures of linear classifiers, where the goal is to recover supports of multiple sparse vectors using only a small number of possibly noisy linear, and 1-bit measurements respectively. The key challenge is that the measurements from different vectors are randomly mixed. Both of these problems were also extensively studied recently. In mixtures of linear classifiers, the observations correspond to the side of queried hyperplane a random unknown vector lies in, whereas in mixtures of linear regressions we observe the projection of a random unknown vector on the queried hyperplane. The primary step in recovering the unknown vectors from the mixture is to first identify the support of all the individual component vectors. In this work, we study the number of measurements sufficient for recovering the supports of all the component vectors in a mixture in both these models. We provide algorithms that use a number of measurements polynomial in $k, \log n$ and quasi-polynomial in $\ell$, to recover the support of all the $\ell$ unknown vectors in the mixture with high probability when each individual component is a $k$-sparse $n$-dimensional vector.
公開日:2021-06-10
翻訳日:2021-06-11 14:27:43
# 固定カーネルと特徴学習確率の分離結果

Separation Results between Fixed-Kernel and Feature-Learning Probability Metrics ( http://arxiv.org/abs/2106.05739v1 )

ライセンス: Link先を確認
Carles Domingo-Enrich, Youssef Mroueh(参考訳) 暗黙的で明示的な生成モデルにおけるいくつかの研究は、特徴学習判別器がモデルのサンプル品質の点で固定カーネル判別器より優れていることを経験的に観察した。 重パラメータ2層ニューラルネットワークの研究のために開発された関数クラス $\mathcal{f}_2$ と $\mathcal{f}_1$ を用いて,固定カーネルを用いた確率メトリクスと特徴学習判別器との分離結果を提供する。 特に、固定されたカーネル$(\mathcal{F}_2)$積分確率メートル法(IPM)とスタイン差分法(SD)で高次元で区別できない超球面上の分布のペアを構築するが、それらの特徴学習(\mathcal{F}_1$)によって区別することができる。 分離をさらに研究するために、ワッサーシュタイン距離をスライスした $\mathcal{F}_1$ と $\mathcal{F}_2$ IPMs のリンクを提供する。 我々の研究は、固定カーネル識別器は、対応するメトリクスが弱いため、特徴学習器よりも性能が悪いことを示唆している。

Several works in implicit and explicit generative modeling empirically observed that feature-learning discriminators outperform fixed-kernel discriminators in terms of the sample quality of the models. We provide separation results between probability metrics with fixed-kernel and feature-learning discriminators using the function classes $\mathcal{F}_2$ and $\mathcal{F}_1$ respectively, which were developed to study overparametrized two-layer neural networks. In particular, we construct pairs of distributions over hyper-spheres that can not be discriminated by fixed kernel $(\mathcal{F}_2)$ integral probability metric (IPM) and Stein discrepancy (SD) in high dimensions, but that can be discriminated by their feature learning ($\mathcal{F}_1$) counterparts. To further study the separation we provide links between the $\mathcal{F}_1$ and $\mathcal{F}_2$ IPMs with sliced Wasserstein distances. Our work suggests that fixed-kernel discriminators perform worse than their feature learning counterparts because their corresponding metrics are weaker.
公開日:2021-06-10
翻訳日:2021-06-11 14:27:16
# 投影探索を用いた大規模最適輸送マップ推定

Large-scale optimal transport map estimation using projection pursuit ( http://arxiv.org/abs/2106.05838v1 )

ライセンス: Link先を確認
Cheng Meng, Yuan Ke, Jingyi Zhang, Mengrui Zhang, Wenxuan Zhong, Ping Ma(参考訳) 本稿では,次元の呪いによる課題としてよく知られている,大規模最適輸送マップ(OTM)の推定について検討する。 既存の文献は、反復的ランダム・プロジェクションによる1次元のOTM問題の連続による大規模OTMを近似している。 しかし、そのような方法はランダムに選択された投影方向の性質から、実際に収束が遅いか全くない。 そこで本研究では,投影追従回帰法と十分次元縮小法を組み合わせた大規模OTM推定手法を提案する。 提案手法である射影追跡モンジマップ (ppmm) は,各イテレーションにおける最大 ‘informative''' 投影方向を適応的に選択する。 理論上,提案手法は,各イテレーションにおける最大‘インフォーマティブ’投影方向を一貫して推定できることを示す。 さらに,PPMMアルゴリズムは,目標とする大規模OTMに適度なステップで弱収束する。 PPMMは計算が容易で、高速に収束する。 本研究では,wasserstein距離推定と生成モデルの適用により,有限サンプル性能を評価する。

This paper studies the estimation of large-scale optimal transport maps (OTM), which is a well-known challenging problem owing to the curse of dimensionality. Existing literature approximates the large-scale OTM by a series of one-dimensional OTM problems through iterative random projection. Such methods, however, suffer from slow or none convergence in practice due to the nature of randomly selected projection directions. Instead, we propose an estimation method of large-scale OTM by combining the idea of projection pursuit regression and sufficient dimension reduction. The proposed method, named projection pursuit Monge map (PPMM), adaptively selects the most ``informative'' projection direction in each iteration. We theoretically show the proposed dimension reduction method can consistently estimate the most ``informative'' projection direction in each iteration. Furthermore, the PPMM algorithm weakly convergences to the target large-scale OTM in a reasonable number of steps. Empirically, PPMM is computationally easy and converges fast. We assess its finite sample performance through the applications of Wasserstein distance estimation and generative models.
公開日:2021-06-09
翻訳日:2021-06-11 14:26:54
# モデルフリー重み付けによる行列完全化

Matrix Completion with Model-free Weighting ( http://arxiv.org/abs/2106.05850v1 )

ライセンス: Link先を確認
Jiayi Wang, Raymond K. W. Wong, Xiaojun Mao, Kwun Chuen Gary Chan(参考訳) 本稿では,一般の非一様欠落構造の下での行列補完手法を提案する。 新たなバランシング誤差の上限を制御することにより,観測確率を明示的にモデル化することなく,経験的リスクの不均一性を積極的に調整し,凸最適化により効率的に計算できる重みを構成する。 提案した重み付き経験的リスクに基づく回復行列は、理論的な保証を魅力的に享受する。 特に, 提案手法は, 漸近的に異種欠落した環境下での観測確率のスケーリングにおいて, 既存の作業よりも高い保証を達成している。 これらの設定は、非常に異なる確率を持つ欠落パターンのより優れた理論モデルと見なすことができる。 また、不均一な設定のクラスの下で、新しいminimaxローバウンドを提供する。 また,提案手法の有効性を示すために数値実験を行った。

In this paper, we propose a novel method for matrix completion under general non-uniform missing structures. By controlling an upper bound of a novel balancing error, we construct weights that can actively adjust for the non-uniformity in the empirical risk without explicitly modeling the observation probabilities, and can be computed efficiently via convex optimization. The recovered matrix based on the proposed weighted empirical risk enjoys appealing theoretical guarantees. In particular, the proposed method achieves a stronger guarantee than existing work in terms of the scaling with respect to the observation probabilities, under asymptotically heterogeneous missing settings (where entry-wise observation probabilities can be of different orders). These settings can be regarded as a better theoretical model of missing patterns with highly varying probabilities. We also provide a new minimax lower bound under a class of heterogeneous settings. Numerical experiments are also provided to demonstrate the effectiveness of the proposed method.
公開日:2021-06-09
翻訳日:2021-06-11 14:26:39
# 入力拡張によるニューラルマシン翻訳のための制約ビーム探索の改善:WAT 2021におけるNTT

Input Augmentation Improves Constrained Beam Search for Neural Machine Translation: NTT at WAT 2021 ( http://arxiv.org/abs/2106.05450v1 )

ライセンス: Link先を確認
Katsuki Chousa and Makoto Morishita(参考訳) 本稿では,WAT 2021の制限翻訳タスクに送信されたシステムについて述べる。 このタスクでは、与えられた単語の制約を全て含む翻訳文を出力する必要がある。 本システムでは,入力拡張と制約ビーム探索アルゴリズムを組み合わせた。 実験の結果,この組み合わせによって翻訳精度が大幅に向上し,全ての制約を出力に含めて推論時間を短縮できることがわかった。 en->jaとja->enの両方において,本システムは自動評価において最高の評価性能を得た。

This paper describes our systems that were submitted to the restricted translation task at WAT 2021. In this task, the systems are required to output translated sentences that contain all given word constraints. Our system combined input augmentation and constrained beam search algorithms. Through experiments, we found that this combination significantly improves translation accuracy and can save inference time while containing all the constraints in the output. For both En->Ja and Ja->En, our systems obtained the best evaluation performances in automatic evaluation.
公開日:2021-06-10
翻訳日:2021-06-11 14:26:26
# 低リソース・ファインチューニングのための変分情報基盤

Variational Information Bottleneck for Effective Low-Resource Fine-Tuning ( http://arxiv.org/abs/2106.05469v1 )

ライセンス: Link先を確認
Rabeeh Karimi Mahabadi, Yonatan Belinkov, James Henderson(参考訳) 大規模な事前訓練された言語モデルは、様々なタスクを微調整した時に印象的な結果を得たが、低リソースのシナリオでは過度に適合する。 このようなモデルは汎用的特徴抽出器であるため、これらの特徴の多くは、与えられた目標タスクに必然的に無関係である。 そこで本稿では,低リソースターゲットタスクの微調整において,無関係な特徴を抑えるために変動情報ボット(VIB)を提案する。 さらに、我々のVIBモデルは、自然言語推論データセットのバイアスに対してより堅牢な文表現を見つけ、ドメイン外データセットのより優れた一般化を得る。 異なるタスクにおける7つの低リソースデータセットの評価は、我々の手法が低リソースシナリオにおける転送学習を大幅に改善し、先行作業を上回っていることを示している。 さらに、15のドメイン外自然言語推論ベンチマークのうち13の一般化を改善している。 私たちのコードはhttps://github.com/r abeehk/vibert.comで公開されています。

While large-scale pretrained language models have obtained impressive results when fine-tuned on a wide variety of tasks, they still often suffer from overfitting in low-resource scenarios. Since such models are general-purpose feature extractors, many of these features are inevitably irrelevant for a given target task. We propose to use Variational Information Bottleneck (VIB) to suppress irrelevant features when fine-tuning on low-resource target tasks, and show that our method successfully reduces overfitting. Moreover, we show that our VIB model finds sentence representations that are more robust to biases in natural language inference datasets, and thereby obtains better generalization to out-of-domain datasets. Evaluation on seven low-resource datasets in different tasks shows that our method significantly improves transfer learning in low-resource scenarios, surpassing prior work. Moreover, it improves generalization on 13 out of 15 out-of-domain natural language inference benchmarks. Our code is publicly available in https://github.com/r abeehk/vibert.
公開日:2021-06-10
翻訳日:2021-06-11 14:26:18
# 畳み込みと自己認識:事前学習言語モデルにおける相対的位置の再解釈

Convolutions and Self-Attention: Re-interpreting Relative Positions in Pre-trained Language Models ( http://arxiv.org/abs/2106.05505v1 )

ライセンス: Link先を確認
Tyler A. Chang, Yifan Xu, Weijian Xu, and Zhuowen Tu(参考訳) 本稿では,自然言語処理における畳み込みと自己意識の関係を詳述する。 自己着脱層における相対的位置埋め込みは,最近提案されている動的軽量畳み込みと等価であり,畳み込みをトランスフォーマー自己着脱と統合する複数の新しい方法を検討する。 具体的には,畳み込みの枠組みで従来の相対位置埋め込み法を結合した複合注意法を提案する。 我々は、BERTを複合的な注意で訓練することで実験を行い、畳み込みが複数の下流タスクの性能を継続的に改善し、絶対位置埋め込みを置き換えることを発見した。 本研究は, 言語モデル事前学習において, 軽量な畳み込み, 動的畳み込み, 深度的に分離可能な畳み込みを比較し, 自己アテンション層における畳み込みに対する複数の注入点を考慮した結果を示す。

In this paper, we detail the relationship between convolutions and self-attention in natural language tasks. We show that relative position embeddings in self-attention layers are equivalent to recently-proposed dynamic lightweight convolutions, and we consider multiple new ways of integrating convolutions into Transformer self-attention. Specifically, we propose composite attention, which unites previous relative position embedding methods under a convolutional framework. We conduct experiments by training BERT with composite attention, finding that convolutions consistently improve performance on multiple downstream tasks, replacing absolute position embeddings. To inform future work, we present results comparing lightweight convolutions, dynamic convolutions, and depthwise-separable convolutions in language model pre-training, considering multiple injection points for convolutions in self-attention layers.
公開日:2021-06-10
翻訳日:2021-06-11 14:26:03
# CogAlign: 認知言語処理信号に適応したテキストニューラル表現の学習

CogAlign: Learning to Align Textual Neural Representations to Cognitive Language Processing Signals ( http://arxiv.org/abs/2106.05544v1 )

ライセンス: Link先を確認
Yuqi Ren and Deyi Xiong(参考訳) これまでの研究では、単語埋め込みと認知的特徴を直接結合することで、認知的言語処理信号(例えば視線追跡や脳波データ)を自然言語処理(nlp)のニューラルモデルに統合し、2つの様相(テキストと認知)と認知的特徴のノイズとのギャップを無視する。 本稿では,これらの問題に対して,文章的ニューラルネットワーク表現を認知的特徴に合わせることを学ぶための共利的なアプローチを提案する。 CogAlignでは、モダリティ判別器を備えた共有エンコーダを用いて、テキスト入力と認知入力を代わりに符号化し、それらの差分と共通点をキャプチャする。 さらに,タスク関連情報の検出と認知的特徴のノイズの回避を目的としたテキスト認識注意機構を提案する。 エンティティ認識、感情分析、関係抽出という3つのnlpタスクの実験結果は、公開データセットの最先端モデルよりも、複数の認知機能により、cogalignが大幅に改善されていることを示している。 さらに,本モデルでは,認知処理信号を持たない他のデータセットに認知情報を転送することができる。

Most previous studies integrate cognitive language processing signals (e.g., eye-tracking or EEG data) into neural models of natural language processing (NLP) just by directly concatenating word embeddings with cognitive features, ignoring the gap between the two modalities (i.e., textual vs. cognitive) and noise in cognitive features. In this paper, we propose a CogAlign approach to these issues, which learns to align textual neural representations to cognitive features. In CogAlign, we use a shared encoder equipped with a modality discriminator to alternatively encode textual and cognitive inputs to capture their differences and commonalities. Additionally, a text-aware attention mechanism is proposed to detect task-related information and to avoid using noise in cognitive features. Experimental results on three NLP tasks, namely named entity recognition, sentiment analysis and relation extraction, show that CogAlign achieves significant improvements with multiple cognitive features over state-of-the-art models on public datasets. Moreover, our model is able to transfer cognitive information to other datasets that do not have any cognitive processing signals.
公開日:2021-06-10
翻訳日:2021-06-11 14:25:45
# VT-SSum:ビデオトランスクリプトセグメンテーションと要約のためのベンチマークデータセット

VT-SSum: A Benchmark Dataset for Video Transcript Segmentation and Summarization ( http://arxiv.org/abs/2106.05606v1 )

ライセンス: Link先を確認
Tengchao Lv, Lei Cui, Momcilo Vasilijevic, Furu Wei(参考訳) ビデオ書き起こし要約はビデオ理解の基本的なタスクである。 書き起こし要約のための従来のアプローチは、通常、ニュース記事などの書き言葉の要約データに基づいて構築されるが、ドメインの相違は、音声テキストのモデル性能を劣化させる可能性がある。 本稿では,9,616本のビデオから125Kのトランスクリプト-サマリーペアを含む音声言語を用いた音声合成と要約のためのベンチマークデータセットであるVT-SSumを提案する。 VT-SSumはVideoLectures.NETのビデオを利用して、スライドコンテンツを弱い監督力として利用し、ビデオ書き起こしの抽出要約を生成する。 最先端のディープラーニングアプローチによる実験では、VT-SSumでトレーニングされたモデルは、AMI音声テキスト要約ベンチマークに大幅に改善されている。 VT-SSumは、ビデオスクリプティングのセグメンテーションと要約タスクの将来の研究をサポートするために公開される。

Video transcript summarization is a fundamental task for video understanding. Conventional approaches for transcript summarization are usually built upon the summarization data for written language such as news articles, while the domain discrepancy may degrade the model performance on spoken text. In this paper, we present VT-SSum, a benchmark dataset with spoken language for video transcript segmentation and summarization, which includes 125K transcript-summary pairs from 9,616 videos. VT-SSum takes advantage of the videos from VideoLectures.NET by leveraging the slides content as the weak supervision to generate the extractive summary for video transcripts. Experiments with a state-of-the-art deep learning approach show that the model trained with VT-SSum brings a significant improvement on the AMI spoken text summarization benchmark. VT-SSum will be publicly available to support the future research of video transcript segmentation and summarization tasks.
公開日:2021-06-10
翻訳日:2021-06-11 14:25:23
# DT-grams:クロスランゲージオーサシップ属性のための構造化依存文法スティロメトリ

DT-grams: Structured Dependency Grammar Stylometry for Cross-Language Authorship Attribution ( http://arxiv.org/abs/2106.05677v1 )

ライセンス: Link先を確認
Benjamin Murauer and G\"unther Specht(参考訳) 言語間の著者関係の問題は、単一言語機能の使用を可能にするために翻訳に依存するか、言語に依存しない特徴抽出方法に依存する。 最近まで、この問題に対するデータセットの欠如は後者の開発を妨げ、機械翻訳コーパス上で単一言語ソリューションが実行されていた。 本稿では,文の係り受けグラフの特定の部分を選択することにより,dt-grams (dependency tree grams) と呼ばれる音声タグの係り受けグラフと普遍部分に基づく著者関係解析のための新しい言語非依存機能を提案する。 両言語著者の翻訳されていないデータセットに対する言語間オーサリングによるDT-gramの評価を行い、マクロ平均F1スコアが5つの異なる言語対で従来の手法よりも0.081高いことを実証した。 さらに、比較のための多様な機能セットの結果を提供することにより、未翻訳のクロスランゲージオーサシップ属性に関する未文書タスクのベースラインを提供する。

Cross-language authorship attribution problems rely on either translation to enable the use of single-language features, or language-independent feature extraction methods. Until recently, the lack of datasets for this problem hindered the development of the latter, and single-language solutions were performed on machine-translated corpora. In this paper, we present a novel language-independent feature for authorship analysis based on dependency graphs and universal part of speech tags, called DT-grams (dependency tree grams), which are constructed by selecting specific sub-parts of the dependency graph of sentences. We evaluate DT-grams by performing cross-language authorship attribution on untranslated datasets of bilingual authors, showing that, on average, they achieve a macro-averaged F1 score of 0.081 higher than previous methods across five different language pairs. Additionally, by providing results for a diverse set of features for comparison, we provide a baseline on the previously undocumented task of untranslated cross-language authorship attribution.
公開日:2021-06-10
翻訳日:2021-06-11 14:25:07
# Marginal Utility Diminishes: BERT知識蒸留のための最小限の知識を探る

Marginal Utility Diminishes: Exploring the Minimum Knowledge for BERT Knowledge Distillation ( http://arxiv.org/abs/2106.05691v1 )

ライセンス: Link先を確認
Yuanxin Liu and Fandong Meng and Zheng Lin and Weiping Wang and Jie Zhou(参考訳) 近年,知識蒸留(KD)はBERT圧縮において大きな成功を収めている。 従来のkdのように教師のソフトラベルから学習する代わりに、研究者はバートの隠れた層に含まれる豊富な情報が生徒のパフォーマンスに反映されることを発見した。 隠れた知識をより効果的に活用するには、生徒にすべてのトークンの隠れた状態を層的な方法で深く模倣させることが一般的である。 しかし,本論文では,教師の隠れ状態知識(HSK)を蒸留することは有用であるが,HSKの蒸留量が増えるにつれて,性能向上(marginal utility)が急速に低下することが観察された。 この効果を理解するために、我々は一連の分析を行う。 具体的には,BERTのHSKを深さ,長さ,幅の3次元に分割する。 まず,各1次元の重要な知識を抽出し,その3次元を共同で圧縮する戦略について検討した。 このようにして,(1)重要なHSKを抽出,蒸留することにより,学生のパフォーマンスを向上し,(2)少量のHSKを使用すれば,広範なHSK蒸留と同じ性能が得られることを示す。 また,第2の発見に基づいて,生徒の訓練中に教師をロードする必要のないBERTを圧縮する効率的なKDパラダイムを提案する。 2種類の学生モデルとコンピュータデバイスに対して、提案されたKDパラダイムは2.7x〜3.4xのトレーニングスピードアップをもたらす。

Recently, knowledge distillation (KD) has shown great success in BERT compression. Instead of only learning from the teacher's soft label as in conventional KD, researchers find that the rich information contained in the hidden layers of BERT is conducive to the student's performance. To better exploit the hidden knowledge, a common practice is to force the student to deeply mimic the teacher's hidden states of all the tokens in a layer-wise manner. In this paper, however, we observe that although distilling the teacher's hidden state knowledge (HSK) is helpful, the performance gain (marginal utility) diminishes quickly as more HSK is distilled. To understand this effect, we conduct a series of analysis. Specifically, we divide the HSK of BERT into three dimensions, namely depth, length and width. We first investigate a variety of strategies to extract crucial knowledge for each single dimension and then jointly compress the three dimensions. In this way, we show that 1) the student's performance can be improved by extracting and distilling the crucial HSK, and 2) using a tiny fraction of HSK can achieve the same performance as extensive HSK distillation. Based on the second finding, we further propose an efficient KD paradigm to compress BERT, which does not require loading the teacher during the training of student. For two kinds of student models and computing devices, the proposed KD paradigm gives rise to training speedup of 2.7x ~ 3.4x.
公開日:2021-06-10
翻訳日:2021-06-11 14:24:46
# 方向依存語を用いた金融ドメインにおける文脈認識型感性辞書の自動構築

Automatic Construction of Context-Aware Sentiment Lexicon in the Financial Domain Using Direction-Dependent Words ( http://arxiv.org/abs/2106.05723v1 )

ライセンス: Link先を確認
Jihye Park, Hye Jin Lee, Sungzoon Cho(参考訳) 財務書類の感情分析に注目が集まっている。 そのような文書の最も人気のある例は、アナリストレポートと経済ニュースであり、その分析は市場の感情の傾向を捉えるために頻繁に使われている。 一方で、金融ドメインにおける感情分析の役割の重要性は、金融ドメイン固有の感情レキシコンを構築する努力のきっかけとなっている。 センティメント・レキシコンは、テキストデータの教師なし分類のような様々なテキストマイニングタスクを解決するのに役立ち、手動ラベリングに必要な人的労力を軽減する。 効果的な感情レキシコンを構築する際の課題の1つは、単語が現れる文脈によって意味的指向が変化する可能性があることである。 例えば、「非営利団体」という単語は通常ポジティブな感情を伝えるが、単語が別の単語「decrease」と混じり合うと、「非営利団体」という単語に関連付けられた感情は否定的になる。 したがって、ある単語の感情は、単語を取り巻く文脈を考慮し始めるにつれて変化するかもしれない。 本稿では,与えられたコーパスから感情語彙を構築する際に,文脈を組み込むことでこの問題に対処する。 具体的には、方向依存語と方向依存語のペアをそれぞれ表現する、方向依存語からなる感性語彙のためのSenti-DDという語彙を構築する。 実験の結果,senti-ddにより高い分類性能を達成し,金融領域における文脈認識型感情レキシコンの自動構築手法の有効性を実証した。

Increasing attention has been drawn to the sentiment analysis of financial documents. The most popular examples of such documents include analyst reports and economic news, the analysis of which is frequently used to capture the trends in market sentiments. On the other hand, the significance of the role sentiment analysis plays in the financial domain has given rise to the efforts to construct a financial domain-specific sentiment lexicon. Sentiment lexicons lend a hand for solving various text mining tasks, such as unsupervised classification of text data, while alleviating the arduous human labor required for manual labeling. One of the challenges in the construction of an effective sentiment lexicon is that the semantic orientation of a word may change depending on the context in which it appears. For instance, the word ``profit" usually conveys positive sentiments; however, when the word is juxtaposed with another word ``decrease," the sentiment associated with the phrase ``profit decreases" now becomes negative. Hence, the sentiment of a given word may shift as one begins to consider the context surrounding the word. In this paper, we address this issue by incorporating context when building sentiment lexicon from a given corpus. Specifically, we construct a lexicon named Senti-DD for the Sentiment lexicon composed of Direction-Dependent words, which expresses each term a pair of a directional word and a direction-dependent word. Experiment results show that higher classification performance is achieved with Senti-DD, proving the effectiveness of our method for automatically constructing a context-aware sentiment lexicon in the financial domain.
公開日:2021-06-10
翻訳日:2021-06-11 14:24:23
# SMM4H 2021における名前付きエンティティ認識のためのニューラルテキスト分類と重み付き異種埋め込み

Neural Text Classification and StackedHeterogeneous Embeddings for Named Entity Recognition in SMM4H 2021 ( http://arxiv.org/abs/2106.05823v1 )

ライセンス: Link先を確認
Usama Yaseen, Stefan Langer(参考訳) 本稿では,SMM4H共有タスク2021に参加することで得られた知見について述べる。 名前付きエンティティ認識(ner)とテキスト分類について論じた。 NERに対処するため,重み付き異種埋め込みと言語機能を用いたBiLSTM-CRFの探索を行った。 テキスト分類に対処するために,さまざまな機械学習アルゴリズム(論理回帰,サポートベクトルマシン(SVM),ニューラルネットワーク)について検討した。 提案手法は様々な言語に一般化することができ、英語とスペイン語で有効性を示した。 テキスト分類出願(team:MIC-NLP)は,ADE分類(Task 1a)とProfession分類(Task 7a)でそれぞれ0.46$と0.90$のF1スコアで競合性能を達成した。 NERの場合は, ADE Span Detection (Task 1b) と Profession Span Detection (Task 7b) でそれぞれ0.50$と0.82$のF1スコアを得た。

This paper presents our findings from participating in the SMM4H Shared Task 2021. We addressed Named Entity Recognition (NER) and Text Classification. To address NER we explored BiLSTM-CRF with Stacked Heterogeneous Embeddings and linguistic features. We investigated various machine learning algorithms (logistic regression, Support Vector Machine (SVM) and Neural Networks) to address text classification. Our proposed approaches can be generalized to different languages and we have shown its effectiveness for English and Spanish. Our text classification submissions (team:MIC-NLP) have achieved competitive performance with F1-score of $0.46$ and $0.90$ on ADE Classification (Task 1a) and Profession Classification (Task 7a) respectively. In the case of NER, our submissions scored F1-score of $0.50$ and $0.82$ on ADE Span Detection (Task 1b) and Profession Span detection (Task 7b) respectively.
公開日:2021-06-10
翻訳日:2021-06-11 14:23:56
# SCARI:アクションルールとレコメンデーションインジェクションのための分離・コンカレントアルゴリズム

SCARI: Separate and Conquer Algorithm for Action Rules and Recommendations Induction ( http://arxiv.org/abs/2106.05348v1 )

ライセンス: Link先を確認
Marek Sikora (1), Pawe{\l} Matyszok (1), {\L}ukasz Wr\'obel (1)((1) Faculty of Automatic Control, Electronics and Computer Science, Silesian University of Technology, Akademicka 16, 44-100 Gliwice, Poland)(参考訳) 本稿では,逐次被覆手法に基づく行動規則誘導アルゴリズムについて述べる。 アルゴリズムの2つの変種が提示される。 このアルゴリズムは、ソースとターゲット決定クラスの観点からアクションルールを誘導することを可能にする。 ルール品質対策の適用により、様々な品質基準を満たすアクションルールの誘導が可能になる。 この記事では、レコメンデーションインダクションの方法も紹介する。 推奨事項は、ソースクラスを表す所定のテスト例をターゲットに移動するためのアクションを示す。 レコメンデーション方法は一連の誘導アクションルールに基づいている。 論文の実験的部分は、16のデータセットにおけるアルゴリズム演算の結果である。 調査の結果、Ac-Rulesパッケージが利用可能になった。

This article describes an action rule induction algorithm based on a sequential covering approach. Two variants of the algorithm are presented. The algorithm allows the action rule induction from a source and a target decision class point of view. The application of rule quality measures enables the induction of action rules that meet various quality criteria. The article also presents a method for recommendation induction. The recommendations indicate the actions to be taken to move a given test example, representing the source class, to the target one. The recommendation method is based on a set of induced action rules. The experimental part of the article presents the results of the algorithm operation on sixteen data sets. As a result of the conducted research the Ac-Rules package was made available.
公開日:2021-06-09
翻訳日:2021-06-11 14:23:36
# 数発学習のためのテンソル特徴幻覚

Tensor feature hallucination for few-shot learning ( http://arxiv.org/abs/2106.05321v1 )

ライセンス: Link先を確認
Michalis Lazarou, Yannis Avrithis, Tania Stathaki(参考訳) 少数の分類は、限られた監督だけでなく、限られたデータにも対処する。 魅力的な解決策は合成データ生成である。 しかし、そのような手法のほとんどは高度であり、入力空間における高品質で現実的なデータに焦点を当てている。 数発体制に適応し、下流の分類タスクに使用することが正しいアプローチであるかどうかは不明である。 数ショット分類のための合成データ生成に関する以前の研究は、例えば複雑なモデルの利用に焦点を当てていた。 複数の正規化器またはネットワークを持つワッサースタインganは、既知のクラスから新しいクラスへ潜在多様性を転送する。 我々は異なるアプローチを踏襲し、単純で簡単な合成データ生成手法を効果的に利用する方法を検討する。 すなわち,(1) 単純な損失関数を用いることで,数ショット設定で特徴生成器を訓練するのに十分である,(2) ベクトル特徴の代わりにテンソル特徴を生成する学習が優れている,という2つのコントリビューションを提示する。 miniimagenet、cub、cifar-fsデータセットに関する広範囲な実験により、この手法が最先端のデータ拡張手法よりも優れていることを示す。

Few-shot classification addresses the challenge of classifying examples given not just limited supervision but limited data as well. An attractive solution is synthetic data generation. However, most such methods are overly sophisticated, focusing on high-quality, realistic data in the input space. It is unclear whether adapting them to the few-shot regime and using them for the downstream task of classification is the right approach. Previous works on synthetic data generation for few-shot classification focus on exploiting complex models, e.g. a Wasserstein GAN with multiple regularizers or a network that transfers latent diversities from known to novel classes. We follow a different approach and investigate how a simple and straightforward synthetic data generation method can be used effectively. We make two contributions, namely we show that: (1) using a simple loss function is more than enough for training a feature generator in the few-shot setting; and (2) learning to generate tensor features instead of vector features is superior. Extensive experiments on miniImagenet, CUB and CIFAR-FS datasets show that our method sets a new state of the art, outperforming more sophisticated few-shot data augmentation methods.
公開日:2021-06-09
翻訳日:2021-06-11 14:23:28
# マッチング: 継続的な学習のための生成的意図的特徴リプレイ

Match What Matters: Generative Implicit Feature Replay for Continual Learning ( http://arxiv.org/abs/2106.05350v1 )

ライセンス: Link先を確認
Kevin Thandiackal (1 and 2), Tiziano Portenier (2), Andrea Giovannini (1), Maria Gabrani (1), Orcun Goksel (2 and 3) ((1) IBM Research Europe, (2) ETH Zurich, (3) Uppsala University)(参考訳) ニューラルネットワークは、異なるタスクで漸進的にトレーニングすると、破滅的な忘れがちです。 忘れるのを防ぐため、既存のほとんどのメソッドは、前に見たサンプルの小さなサブセットを保持し、新しいタスクとの共同トレーニングに使用できる。 これは確かに有効であるが、データ保護規則などにより、常にそのようなサンプルを保存できるとは限らない。 このような場合、生成モデルを使用して、以前のタスクからの記憶を表す人工的なサンプルや特徴を作成することができる。 類似の方向性に従い、クラス増分学習のためのGenIFeR(Generative Implicit Feature Replay)を提案する。 主な目的は、GAN(Generative Adversarial Network)をトレーニングして、現実的な特徴を含む画像を生成することである。 ジェネレータは全解像度で画像を生成するが、識別器は継続的に訓練された分類器によって抽出された対応する特徴のみを見る。 分類器は、生画像を実際に分類に関連のある特徴に圧縮するので、GANはこのターゲット分布をより正確に一致させることができる。 一方、ジェネレータがフル解像度の画像を作成できるようにするには、いくつかの利点がある: 以前のアプローチとは対照的に、分類器の機能抽出器は凍結する必要がない。 さらに,画像の分類性能を向上させるだけでなく,gan訓練における判別器の過剰フィットを緩和する効果も期待できる。 我々は、GenIFeRが従来の生成画像と特徴再生の両方よりも優れていることを実証的に示す。 特に、CIFAR-100およびCUB-200データセットの様々な設定において、生成的再生における最先端性を大幅に上回る。

Neural networks are prone to catastrophic forgetting when trained incrementally on different tasks. In order to prevent forgetting, most existing methods retain a small subset of previously seen samples, which in turn can be used for joint training with new tasks. While this is indeed effective, it may not always be possible to store such samples, e.g., due to data protection regulations. In these cases, one can instead employ generative models to create artificial samples or features representing memories from previous tasks. Following a similar direction, we propose GenIFeR (Generative Implicit Feature Replay) for class-incremental learning. The main idea is to train a generative adversarial network (GAN) to generate images that contain realistic features. While the generator creates images at full resolution, the discriminator only sees the corresponding features extracted by the continually trained classifier. Since the classifier compresses raw images into features that are actually relevant for classification, the GAN can match this target distribution more accurately. On the other hand, allowing the generator to create full resolution images has several benefits: In contrast to previous approaches, the feature extractor of the classifier does not have to be frozen. In addition, we can employ augmentations on generated images, which not only boosts classification performance, but also mitigates discriminator overfitting during GAN training. We empirically show that GenIFeR is superior to both conventional generative image and feature replay. In particular, we significantly outperform the state-of-the-art in generative replay for various settings on the CIFAR-100 and CUB-200 datasets.
公開日:2021-06-09
翻訳日:2021-06-11 14:23:10
# ボールに目を向ける:ビデオトランスフォーマーの軌道上の注意

Keeping Your Eye on the Ball: Trajectory Attention in Video Transformers ( http://arxiv.org/abs/2106.05392v1 )

ライセンス: Link先を確認
Mandela Patrick, Dylan Campbell, Yuki M. Asano, Ishan Misra Florian Metze, Christoph Feichtenhofer, Andrea Vedaldi, Jo\\~ao F. Henriques(参考訳) ビデオトランスでは、時間次元は2つの空間次元と同じ方法で扱われることが多い。 しかし、オブジェクトやカメラが動くシーンでは、フレーム$t$の1つの場所にある物理ポイントは、フレーム$t+k$でその場所にあるものとは全く無関係かもしれない。 これらの時間対応は動的シーンの学習を容易にするためにモデル化されるべきである。 そこで本研究では,暗黙的に決定された動き経路に沿って情報を集約するビデオトランスフォーマタのための新しいドロップインブロックを提案する。 また,高解像度ビデオや長時間ビデオにおいて特に重要な入力サイズに対する計算とメモリの二次的依存に対処する新しい手法を提案する。 これらのアイデアは様々な場面で有用であるが、トランスフォーマーモデルを用いたビデオ行動認識の特定のタスクに適用し、Kineetics、Something V2、Epic-Kitchensデータセットの最先端結果を得る。 コードとモデルは、https://github.com/f acebookresearch/Moti onformer.comで入手できる。

In video transformers, the time dimension is often treated in the same way as the two spatial dimensions. However, in a scene where objects or the camera may move, a physical point imaged at one location in frame $t$ may be entirely unrelated to what is found at that location in frame $t+k$. These temporal correspondences should be modeled to facilitate learning about dynamic scenes. To this end, we propose a new drop-in block for video transformers -- trajectory attention -- that aggregates information along implicitly determined motion paths. We additionally propose a new method to address the quadratic dependence of computation and memory on the input size, which is particularly important for high resolution or long videos. While these ideas are useful in a range of settings, we apply them to the specific task of video action recognition with a transformer model and obtain state-of-the-art results on the Kinetics, Something--Something V2, and Epic-Kitchens datasets. Code and models are available at: https://github.com/f acebookresearch/Moti onformer
公開日:2021-06-09
翻訳日:2021-06-11 14:22:47
# 協調訓練による前処理防衛の白箱ロバスト性向上

Improving White-box Robustness of Pre-processing Defenses via Joint Adversarial Training ( http://arxiv.org/abs/2106.05453v1 )

ライセンス: Link先を確認
Dawei Zhou, Nannan Wang, Xinbo Gao, Bo Han, Jun Yu, Xiaoyu Wang, Tongliang Liu(参考訳) ディープニューラルネットワーク(DNN)は敵の雑音に弱い。 入力前処理法がスケーラブルであり、dnnを安全に保護する可能性を示す敵のノイズの干渉を軽減するために、様々な敵の防御技術が提案されている。 しかし, 前処理法は, ホワイトボックス設定における対象モデルの対角的ロバスト性を改善するよりも, 防御性が低下するロバスト性劣化効果に悩まされる可能性がある。 この否定的な影響の潜在的原因は、敵のトレーニング例が静的であり、前処理モデルとは独立であることだ。 この問題を解決するため,本研究では,本モデルに反抗する全敵例の影響を調査し,防御のロバスト性に有意な影響を与えることを見出した。 さらに,前処理法における逆行訓練例の変更は,ロバストネス劣化効果を完全に緩和するものではないことがわかった。 これは、事前処理されたモデルが無視されるという敵意的なリスクのためであり、これはロバストネス劣化効果の別の原因である。 以上の分析から,JATP(Joint Adversarial Training Based Pre-processing)防衛法を提案する。 具体的には、特徴空間で見られる全対角的例を用いて、前処理モデルに対する特徴類似性に基づく対角的リスクを定式化する。 標準的な逆数トレーニングとは異なり、前処理モデルのみを更新し、モデル間転送性を改善するためにピクセルワイズロスを導入する。 次に,この全体リスクを最小限に抑えるために,前処理モデル上で協調的な敵意訓練を行う。 実験の結果,従来手法と比較して,異なる対象モデル間のロバスト性劣化効果を効果的に軽減できることがわかった。

Deep neural networks (DNNs) are vulnerable to adversarial noise. A range of adversarial defense techniques have been proposed to mitigate the interference of adversarial noise, among which the input pre-processing methods are scalable and show great potential to safeguard DNNs. However, pre-processing methods may suffer from the robustness degradation effect, in which the defense reduces rather than improving the adversarial robustness of a target model in a white-box setting. A potential cause of this negative effect is that adversarial training examples are static and independent to the pre-processing model. To solve this problem, we investigate the influence of full adversarial examples which are crafted against the full model, and find they indeed have a positive impact on the robustness of defenses. Furthermore, we find that simply changing the adversarial training examples in pre-processing methods does not completely alleviate the robustness degradation effect. This is due to the adversarial risk of the pre-processed model being neglected, which is another cause of the robustness degradation effect. Motivated by above analyses, we propose a method called Joint Adversarial Training based Pre-processing (JATP) defense. Specifically, we formulate a feature similarity based adversarial risk for the pre-processing model by using full adversarial examples found in a feature space. Unlike standard adversarial training, we only update the pre-processing model, which prompts us to introduce a pixel-wise loss to improve its cross-model transferability. We then conduct a joint adversarial training on the pre-processing model to minimize this overall risk. Empirical results show that our method could effectively mitigate the robustness degradation effect across different target models in comparison to previous state-of-the-art approaches.
公開日:2021-06-10
翻訳日:2021-06-11 14:22:30
# RLCorrector: コネクトロミクス画像セグメンテーションのための強化プロファイリング

RLCorrector: Reinforced Proofreading for Connectomics Image Segmentation ( http://arxiv.org/abs/2106.05487v1 )

ライセンス: Link先を確認
Khoa Tuan Nguyen, Ganghee Jang and Won-ki Jeong(参考訳) ナノスケール電子顕微鏡(em)像のセグメンテーションは、コネクトミクスでは極めて重要である。 近年のディープラーニングの進歩は,テラスケールEM画像の自動分割の可能性を示している。 しかしながら、既存のセグメンテーション手法はいずれもエラーのないものではなく、手動による対話的半自動プロセスとして実装される証明読出を必要とする。 本稿では,強化学習に基づく完全自動校正手法を提案する。 主なアイデアは、人間による判断過程のモデル化であり、完全自動的な証明読み出しを達成するために強化エージェントを使用する。 本研究では,複数の強化学習エージェントを階層的に組み合わせ,エージェント間の依存性を保ちながら,特定のタスクのみに焦点を当てたシステムの設計を行う。 さらに,強化学習の韻律的タスク設定は,入力に同時に提示されるマージエラーと分割エラーの組み合わせを効率的に管理できることを実証する。 各種試験例を用いて,最先端の実証読解手法と比較し,提案手法の有効性を示す。

The segmentation of nanoscale electron microscopy (EM) images is crucial but challenging in connectomics. Recent advances in deep learning have demonstrated the significant potential of automatic segmentation for tera-scale EM images. However, none of the existing segmentation methods are error-free, and they require proofreading, which is typically implemented as an interactive, semi-automatic process via manual intervention. Herein, we propose a fully automatic proofreading method based on reinforcement learning. The main idea is to model the human decision process in proofreading using a reinforcement agent to achieve fully automatic proofreading. We systematically design the proposed system by combining multiple reinforcement learning agents in a hierarchical manner, where each agent focuses only on a specific task while preserving dependency between agents. Furthermore, we also demonstrate that the episodic task setting of reinforcement learning can efficiently manage a combination of merge and split errors concurrently presented in the input. We demonstrate the efficacy of the proposed system by comparing it with state-of-the-art proofreading methods using various testing examples.
公開日:2021-06-10
翻訳日:2021-06-11 14:22:02
# AFAN:クロスドメインオブジェクト検出のための拡張機能アライメントネットワーク

AFAN: Augmented Feature Alignment Network for Cross-Domain Object Detection ( http://arxiv.org/abs/2106.05499v1 )

ライセンス: Link先を確認
Hongsong Wang, Shengcai Liao, and Ling Shao(参考訳) オブジェクト検出のための教師なしドメイン適応は、多くの現実世界アプリケーションにおいて難しい問題である。 残念なことに、監視対象検出よりもはるかに少ない注意を払っている。 この課題に対処しようとするモデルは、注釈付きトレーニングサンプルの不足に苦しむ傾向がある。 さらに、既存の特徴アライメントの方法は、ドメイン不変表現を学ぶのに十分ではない。 これらの制約に対処するために,中間領域画像生成とドメイン敵学習を統一フレームワークに統合した拡張機能アライメントネットワーク(afan)を提案する。 自動生成したソフトドメインラベルを用いたドメイン逆トレーニングにより機能アライメントを強化するために,中間領域画像生成器を提案する。 合成中間ドメイン画像は、段階的にドメインの発散を橋渡しし、注釈付きソースドメイントレーニングデータを増強する。 特徴ピラミッドアライメントを設計し、対応する特徴判別器を用いて、異なる意味レベルのマルチスケールの畳み込み特徴を調整する。 最後に、我々は、領域的特徴のアライメントと、オブジェクトの提案に対するドメイン不変機能を学ぶためのインスタンス判別子を紹介します。 提案手法は、類似および異種ドメイン適応の両方において、標準ベンチマークにおける最先端手法よりも大幅に優れている。 さらに広範な実験により、各コンポーネントの有効性を検証し、提案するネットワークがドメイン不変表現を学習可能であることを示す。

Unsupervised domain adaptation for object detection is a challenging problem with many real-world applications. Unfortunately, it has received much less attention than supervised object detection. Models that try to address this task tend to suffer from a shortage of annotated training samples. Moreover, existing methods of feature alignments are not sufficient to learn domain-invariant representations. To address these limitations, we propose a novel augmented feature alignment network (AFAN) which integrates intermediate domain image generation and domain-adversarial training into a unified framework. An intermediate domain image generator is proposed to enhance feature alignments by domain-adversarial training with automatically generated soft domain labels. The synthetic intermediate domain images progressively bridge the domain divergence and augment the annotated source domain training data. A feature pyramid alignment is designed and the corresponding feature discriminator is used to align multi-scale convolutional features of different semantic levels. Last but not least, we introduce a region feature alignment and an instance discriminator to learn domain-invariant features for object proposals. Our approach significantly outperforms the state-of-the-art methods on standard benchmarks for both similar and dissimilar domain adaptations. Further extensive experiments verify the effectiveness of each component and demonstrate that the proposed network can learn domain-invariant representations.
公開日:2021-06-10
翻訳日:2021-06-11 14:21:46
# アフィリエイトへの学習: ファウショット分類のための相互集中型学習

Learning to Affiliate: Mutual Centralized Learning for Few-shot Classification ( http://arxiv.org/abs/2106.05517v1 )

ライセンス: Link先を確認
Yang Liu, Weifeng Zhang, Chao Xiang, Tu Zheng, Deng Cai(参考訳) FSL(Few-shot Learning)は、トレーニング中に見えない新しいタスクに容易に適応できる分類器を学習することを目的としている。 限られたデータの問題を扱うために、最近の手法では、混合グローバル機能を使うのではなく、複数のローカル機能を使って画像を高密度に表現する傾向がある。 彼らは一般的に、FSLにおける一方向のクエリ・ツー・サポートパラダイムを探求し、例えば、各クエリ機能に最も近い/最適なサポート機能を見つけ、これらのローカルマッチを共同分類のために集約する。 本稿では,双方向パラダイムにおいて,密集した2つの集合をアフィリエイトする手法である相互集中学習(mcl)を提案する。 それぞれの局所特徴を, 離散的特徴空間内をアフィリエーションによって双方向にランダムに歩くことのできる粒子と関連付ける。 クラス確率を推定するために,マルコフプロセスにおいて,そのクラスのサポート機能への訪問回数を推定する特徴のアクセシビリティを提案する。 提案手法は,アフィリエイトネットワーク上の集中度を学習し,局所的な特徴を強調することにより既存の手法にプラグインできることを実証する。 実験の結果,本手法は miniImageNet と tieredImageNet の両面において最先端の手法を実現することがわかった。

Few-shot learning (FSL) aims to learn a classifier that can be easily adapted to accommodate new tasks not seen during training, given only a few examples. To handle the limited-data problem in few-shot regimes, recent methods tend to collectively use a set of local features to densely represent an image instead of using a mixed global feature. They generally explore a unidirectional query-to-support paradigm in FSL, e.g., find the nearest/optimal support feature for each query feature and aggregate these local matches for a joint classification. In this paper, we propose a new method Mutual Centralized Learning (MCL) to fully affiliate the two disjoint sets of dense features in a bidirectional paradigm. We associate each local feature with a particle that can bidirectionally random walk in a discrete feature space by the affiliations. To estimate the class probability, we propose the features' accessibility that measures the expected number of visits to the support features of that class in a Markov process. We relate our method to learning a centrality on an affiliation network and demonstrate its capability to be plugged in existing methods by highlighting centralized local features. Experiments show that our method achieves the state-of-the-art on both miniImageNet and tieredImageNet.
公開日:2021-06-10
翻訳日:2021-06-11 14:21:28
# Consistent Instance False Positiveは顔認識の公平性を向上する

Consistent Instance False Positive Improves Fairness in Face Recognition ( http://arxiv.org/abs/2106.05519v1 )

ライセンス: Link先を確認
Xingkun Xu, Yuge Huang, Pengcheng Shen, Shaoxin Li, Jilin Li, Feiyue Huang, Yong Li, Zhen Cui(参考訳) 人口統計バイアスは、実用的な顔認識システムにおいて重要な課題である。 既存の手法は正確な統計アノテーションに大きく依存している。 しかし、そのようなアノテーションは実際のシナリオでは利用できない。 さらに、これらの方法は一般的に特定の人口層向けに設計されており、一般には不十分である。 本稿では,False Positive Rate (FPR) の整合性を高め,顔認識バイアスを緩和する偽陽性率のペナルティ損失を提案する。 具体的には、まずインスタンスFPRを、統一しきい値以上の非ターゲット類似点の数と非ターゲット類似点の総数との比として定義する。 所定の総fprに対して統一閾値を推定する。 次に、ソフトマックスベース損失の分母に、例えばFPR全体のFPR比に比例した追加のペナルティ項を導入する。 FPRが大きければ大きいほど、ペナルティは大きくなる。 このような不平等な罰則により、FPRのインスタンスは一貫したものになる。 従来のdebiasing法と比較して,本手法は人口統計学的アノテーションを必要としない。 したがって、様々な属性で分類された集団間のバイアスを軽減でき、これらの属性はトレーニング中に予め定義しておく必要はない。 人気のあるベンチマークの広範な実験結果から、最先端の競合相手よりも優れた方法が示されている。 コードとトレーニングされたモデルはhttps://github.com/T encent/TFace.comで入手できる。

Demographic bias is a significant challenge in practical face recognition systems. Existing methods heavily rely on accurate demographic annotations. However, such annotations are usually unavailable in real scenarios. Moreover, these methods are typically designed for a specific demographic group and are not general enough. In this paper, we propose a false positive rate penalty loss, which mitigates face recognition bias by increasing the consistency of instance False Positive Rate (FPR). Specifically, we first define the instance FPR as the ratio between the number of the non-target similarities above a unified threshold and the total number of the non-target similarities. The unified threshold is estimated for a given total FPR. Then, an additional penalty term, which is in proportion to the ratio of instance FPR overall FPR, is introduced into the denominator of the softmax-based loss. The larger the instance FPR, the larger the penalty. By such unequal penalties, the instance FPRs are supposed to be consistent. Compared with the previous debiasing methods, our method requires no demographic annotations. Thus, it can mitigate the bias among demographic groups divided by various attributes, and these attributes are not needed to be previously predefined during training. Extensive experimental results on popular benchmarks demonstrate the superiority of our method over state-of-the-art competitors. Code and trained models are available at https://github.com/T encent/TFace.
公開日:2021-06-10
翻訳日:2021-06-11 14:21:06
# 教師なし特徴表現強調のための段階学習

Progressive Stage-wise Learning for Unsupervised Feature Representation Enhancement ( http://arxiv.org/abs/2106.05554v1 )

ライセンス: Link先を確認
Zefan Li, Chenxi Li, Alan Yuille, Bingbing Ni, Wenjun Zhang and Wen Gao(参考訳) 教師なし学習手法は、教師なし学習に対する競争力を示している。 通常、これらのメソッドは単一の目的を使ってネットワーク全体をトレーニングする。 しかし、教師なし学習よりも教師なし学習の明確な利点は、前者が目標を設計する上でより多様性と自由を持っていることである。 本研究では,progressive stage-wise learning(psl)フレームワークを提案することにより,教師なし学習の新しい次元を検討する。 教師なしのタスクでは、マルチレベルタスクを設計し、ディープネットワークのためのさまざまな学習ステージを定義します。 早期学習段階は低レベルのタスクに集中し、後期段階は難しいタスクを通じてより深い情報を抽出するために導かれる。 プログレッシブな段階学習によって,教師なし特徴表現を効果的に強化できることが分かる。 我々の広範な実験により、PSLは主要な教師なし学習手法の結果を一貫して改善することが示された。

Unsupervised learning methods have recently shown their competitiveness against supervised training. Typically, these methods use a single objective to train the entire network. But one distinct advantage of unsupervised over supervised learning is that the former possesses more variety and freedom in designing the objective. In this work, we explore new dimensions of unsupervised learning by proposing the Progressive Stage-wise Learning (PSL) framework. For a given unsupervised task, we design multilevel tasks and define different learning stages for the deep network. Early learning stages are forced to focus on lowlevel tasks while late stages are guided to extract deeper information through harder tasks. We discover that by progressive stage-wise learning, unsupervised feature representation can be effectively enhanced. Our extensive experiments show that PSL consistently improves results for the leading unsupervised learning methods.
公開日:2021-06-10
翻訳日:2021-06-11 14:20:47
# MiDeCon:Minutia検出信頼度に基づく指の非教師的かつ正確な品質評価

MiDeCon: Unsupervised and Accurate Fingerprint and Minutia Quality Assessment based on Minutia Detection Confidence ( http://arxiv.org/abs/2106.05601v1 )

ライセンス: Link先を確認
Philipp Terh\"orst, Andr\'e Boller, Naser Damer, Florian Kirchbuchner, Arjan Kuijper(参考訳) 指紋認証システムにおいて高い精度を達成するための重要な要因は、そのサンプルの品質である。 従来の研究では, 指紋認識技術は検出されたminutiaeに基づいているにもかかわらず, 主にminutiae抽出過程を無視する画像特性に基づく教師付き解を提案した。 これにより、利用したミツバチ抽出装置が信頼できない情報を生成する場合でも、指紋画像を高品質に割り当てることができる。 そこで本研究では,minutia detection confidence (midecon) に基づいて,minutiaと指紋品質を評価する新しい概念を提案する。 MiDeConは任意の深層学習に基づく微栄養抽出器に適用でき、学習に品質ラベルを必要としない。 抽出されたミネシアの検出信頼性を品質指標として利用することを提案する。 最高のミネチア品質を組み合わせることで、mideconは完全な指紋の品質を正確に決定する。 FVC 2006の公開データベース上で実験が行われ、NISTの広く使われている指紋画像品質ソフトウェアNFIQ1やNFIQ2などのベースラインと比較される。 以上の結果から,提案するMiDeCon等級の品質評価性能は,栄養素レベルと指紋レベルの両方で有意に向上した。 実装は公開されている。

An essential factor to achieve high accuracies in fingerprint recognition systems is the quality of its samples. Previous works mainly proposed supervised solutions based on image properties that neglects the minutiae extraction process, despite that most fingerprint recognition techniques are based on detected minutiae. Consequently, a fingerprint image might be assigned a high quality even if the utilized minutia extractor produces unreliable information. In this work, we propose a novel concept of assessing minutia and fingerprint quality based on minutia detection confidence (MiDeCon). MiDeCon can be applied to an arbitrary deep learning based minutia extractor and does not require quality labels for learning. We propose using the detection reliability of the extracted minutia as its quality indicator. By combining the highest minutia qualities, MiDeCon also accurately determines the quality of a full fingerprint. Experiments are conducted on the publicly available databases of the FVC 2006 and compared against several baselines, such as NIST's widely-used fingerprint image quality software NFIQ1 and NFIQ2. The results demonstrate a significantly stronger quality assessment performance of the proposed MiDeCon-qualities as related works on both, minutia- and fingerprint-level. The implementation is publicly available.
公開日:2021-06-10
翻訳日:2021-06-11 14:20:34
# グラフニューラルネットワークを用いた空間不変非教師なし3次元オブジェクトセグメンテーション

Spatially Invariant Unsupervised 3D Object Segmentation with Graph Neural Networks ( http://arxiv.org/abs/2106.05607v1 )

ライセンス: Link先を確認
Tianyu Wang, Kee Siong Ng, Miaomiao Liu(参考訳) 本稿では,RGB情報のない点群からの非教師なし3次元オブジェクトセグメンテーションの問題に取り組む。 特に,空間混合モデルとして点雲をモデル化し,変分オートエンコーダ(VAE)を用いて3次元の多目的表現とセグメンテーションを共同で学習するフレームワークである~{\bf SPAIR3Dを提案する。 SPAIRに触発されて、各オブジェクトの位置を点雲全体ではなく、その局所的なボクセルグリッドセルに対して記述するオブジェクト固有化方式を採用した。 点雲上の空間混合モデルをモデル化するために、変分訓練パイプラインに自然に適合する--\emph{Chamfer Likelihood} を導出する。 さらに,VAE内のデコーダとして異なる数の3D点を生成するために,空間不変な新しいグラフニューラルネットワークを設計した。

In this paper, we tackle the problem of unsupervised 3D object segmentation from a point cloud without RGB information. In particular, we propose a framework,~{\bf SPAIR3D}, to model a point cloud as a spatial mixture model and jointly learn the multiple-object representation and segmentation in 3D via Variational Autoencoders (VAE). Inspired by SPAIR, we adopt an object-specification scheme that describes each object's location relative to its local voxel grid cell rather than the point cloud as a whole. To model the spatial mixture model on point clouds, we derive the~\emph{Chamfer Likelihood}, which fits naturally into the variational training pipeline. We further design a new spatially invariant graph neural network to generate a varying number of 3D points as a decoder within our VAE.~Experimental results demonstrate that~{\bf SPAIR3D} is capable of detecting and segmenting variable number of objects without appearance information across diverse scenes.
公開日:2021-06-10
翻訳日:2021-06-11 14:20:15
# 2021年ホテルID、人身売買競争データに対処

The 2021 Hotel-ID to Combat Human Trafficking Competition Dataset ( http://arxiv.org/abs/2106.05746v1 )

ライセンス: Link先を確認
Rashmi Kamath, Greg Rolwes, Samuel Black and Abby Stylianou(参考訳) ホテルの認識は、被害者がしばしばホテルの部屋で撮影されるため、人身売買調査にとって重要なタスクである。 これらのホテルの特定は、同一の場所に連れて行かれる可能性のある現在と将来の犠牲者を追跡できるため、トラクシング調査にとって不可欠である。 ホテル認識は、同じホテル内の異なる部屋間の類似性がほとんどなく、異なるホテル(特に同じチェーンの部屋)の部屋間の類似度が高いため、難易度の高い視覚的分類課題である。 人身売買と戦うホテルの認識は、しばしば調査用画像が品質が低く、珍しいカメラアングルが含まれており、非常に隠蔽されているため、さらなる課題をもたらす。 本稿では,この問題に対する認識を高め,新たなアプローチを生み出すための2021 Hotel-IDデータセットを提案する。 データセットは、TraffickCamモバイルアプリケーションを通じてクラウドソースされアップロードされたホテルのルームイメージで構成されている。 これらの画像の品質は調査画像と似ているため、これらの画像でトレーニングされたモデルが正しいホテルを正確に絞り込む可能性も高い。

Hotel recognition is an important task for human trafficking investigations since victims are often photographed in hotel rooms. Identifying these hotels is vital to trafficking investigations since they can help track down current and future victims who might be taken to the same places. Hotel recognition is a challenging fine grained visual classification task as there can be little similarity between different rooms within the same hotel, and high similarity between rooms from different hotels (especially if they are from the same chain). Hotel recognition to combat human trafficking poses additional challenges as investigative images are often low quality, contain uncommon camera angles and are highly occluded. Here, we present the 2021 Hotel-ID dataset to help raise awareness for this problem and generate novel approaches. The dataset consists of hotel room images that have been crowd-sourced and uploaded through the TraffickCam mobile application. The quality of these images is similar to investigative images and hence models trained on these images have good chances of accurately narrowing down on the correct hotel.
公開日:2021-06-10
翻訳日:2021-06-11 14:19:56
# アセンブリによる非教師なしコパートセグメンテーション

Unsupervised Co-part Segmentation through Assembly ( http://arxiv.org/abs/2106.05897v1 )

ライセンス: Link先を確認
Qingzhe Gao, Bin Wang, Libin Liu, Baoquan Chen(参考訳) コーパートセグメンテーションは、そのリッチなアプリケーションにとってコンピュータビジョンの重要な問題である。 画像からのコパートセグメンテーションのための教師なし学習手法を提案する。 学習段階では,映像に埋め込まれた動作情報を活用し,有意義な対象部分をセグメント化するために潜在表現を明示的に抽出する。 さらに, 部分集合の二重手続きを導入し, 部分集合による閉ループを形成し, 効果的な自己スーパービジョンを実現する。 我々は、人体、手、四足歩行、ロボットアームなど幅広い実験を行い、このアプローチの有効性を実証する。 提案手法は,多種多様なベンチマークにおいて有意義でコンパクトな部分分割が可能であり,最先端のアプローチよりも優れていることを示す。

Co-part segmentation is an important problem in computer vision for its rich applications. We propose an unsupervised learning approach for co-part segmentation from images. For the training stage, we leverage motion information embedded in videos and explicitly extract latent representations to segment meaningful object parts. More importantly, we introduce a dual procedure of part-assembly to form a closed loop with part-segmentation, enabling an effective self-supervision. We demonstrate the effectiveness of our approach with a host of extensive experiments, ranging from human bodies, hands, quadruped, and robot arms. We show that our approach can achieve meaningful and compact part segmentation, outperforming state-of-the-art approaches on diverse benchmarks.
公開日:2021-06-10
翻訳日:2021-06-11 14:19:36
# Implicit Feature Alignment: テキスト認識をテキストスポッターに変換することを学ぶ

Implicit Feature Alignment: Learn to Convert Text Recognizer to Text Spotter ( http://arxiv.org/abs/2106.05920v1 )

ライセンス: Link先を確認
Tianwei Wang, Yuanzhi Zhu, Lianwen Jin, Dezhi Peng, Zhe Li, Mengchao He, Yongpan Wang, Canjie Luo(参考訳) テキスト認識は、多くの関連する課題を持つ人気のある研究テーマである。 近年の進歩にもかかわらず、テキスト認識タスク自体は、刈り取られたテキスト画像を読み取るという問題を解決し、光学文字認識(OCR)システムのサブタスクとして機能するように制約されている。 その結果、最終的なテキスト認識結果は、テキスト検出器の性能によって制限される。 本稿では,現行のテキスト認識器に容易に統合可能な,シンプルでエレガントで効果的な特徴アライメント(ifa)と呼ばれるパラダイムを提案し,ifainferenceと呼ばれる新しい推論機構を提案する。 これにより、通常のテキスト認識者は、テキスト検出を完全に解放できるように、マルチラインテキストを処理できる。 具体的には、IFAを2つの一般的なテキスト認識ストリーム(アテンションベースとCTCベース)に統合し、注意誘導密度予測(ADP)と拡張CTC(ExCTC)を提案する。 さらに,wasserstein-based hollow aggregate cross-entropy (wh-ace) はadpとextcのトレーニングを支援する負の予測を抑制するために提案されている。 実験により,高速な文書認識作業において,IFAが最先端の文書認識タスクの最先端性能を実現し,ADPとExCTCがアプリケーションシナリオの観点で相互に補完することを示した。 コードはhttps://github.com/W angTianwei/Implicit- feature-alignmentで入手できる。

Text recognition is a popular research subject with many associated challenges. Despite the considerable progress made in recent years, the text recognition task itself is still constrained to solve the problem of reading cropped line text images and serves as a subtask of optical character recognition (OCR) systems. As a result, the final text recognition result is limited by the performance of the text detector. In this paper, we propose a simple, elegant and effective paradigm called Implicit Feature Alignment (IFA), which can be easily integrated into current text recognizers, resulting in a novel inference mechanism called IFAinference. This enables an ordinary text recognizer to process multi-line text such that text detection can be completely freed. Specifically, we integrate IFA into the two most prevailing text recognition streams (attention-based and CTC-based) and propose attention-guided dense prediction (ADP) and Extended CTC (ExCTC). Furthermore, the Wasserstein-based Hollow Aggregation Cross-Entropy (WH-ACE) is proposed to suppress negative predictions to assist in training ADP and ExCTC. We experimentally demonstrate that IFA achieves state-of-the-art performance on end-to-end document recognition tasks while maintaining the fastest speed, and ADP and ExCTC complement each other on the perspective of different application scenarios. Code will be available at https://github.com/W angTianwei/Implicit- feature-alignment.
公開日:2021-06-10
翻訳日:2021-06-11 14:19:25
# 画像品質予測における極めて効果的な特徴

Curiously Effective Features for Image Quality Prediction ( http://arxiv.org/abs/2106.05946v1 )

ライセンス: Link先を確認
S\"oren Becker, Thomas Wiegand, Sebastian Bosse(参考訳) 視覚品質予測モデルの性能は、知覚的に関連する画像の側面を捉える能力と密接に関連していると一般的に考えられている。 したがってモデルは、広範囲にわたるドメイン知識から慎重に設計された洗練された特徴抽出器に基づくか、あるいは機能学習を通じて最適化される。 これとは対照的に、ランダムノイズから構成された特徴抽出器は、人間の視覚的品質評価と高い相関性を持つ線形回帰モデルを学ぶのに十分である。 この興味深い結果を分析して,特徴抽出器の品質に加えて,その量が重要な役割を担っていることを示した。

The performance of visual quality prediction models is commonly assumed to be closely tied to their ability to capture perceptually relevant image aspects. Models are thus either based on sophisticated feature extractors carefully designed from extensive domain knowledge or optimized through feature learning. In contrast to this, we find feature extractors constructed from random noise to be sufficient to learn a linear regression model whose quality predictions reach high correlations with human visual quality ratings, on par with a model with learned features. We analyze this curious result and show that besides the quality of feature extractors also their quantity plays a crucial role - with top performances only being achieved in highly overparameterized models.
公開日:2021-06-10
翻訳日:2021-06-11 14:19:00
# コントラスト学習による単眼RGBからの自己監督型3Dハンドポース推定

Self-Supervised 3D Hand Pose Estimation from monocular RGB via Contrastive Learning ( http://arxiv.org/abs/2106.05953v1 )

ライセンス: Link先を確認
Adrian Spurr, Aneesh Dahiya, Xucong Zhang, Xi Wang, Otmar Hilliges(参考訳) 手振り推定のための正確な3Dアノテートデータを取得することは、非常に難しい問題である。 これは通常、複雑なマルチカメラのセットアップと制御条件を必要とするため、ドメイン間隙が生じ、完全に制約されていない設定に橋渡しすることが難しい。 画像分類タスクにおけるコントラスト学習の成功にともなって、3次元手ポーズ推定の構造化回帰タスクを自己指導する手法を提案する。 コントラスト学習は、学習した特徴表現が任意の画像変換の下で不変であることを奨励する損失定式化による表現学習のためにラベルのないデータを利用する。 3次元手のポーズ推定では、色ジッタのような外観変化にばらつきがあることも望ましい。 しかし、このタスクは回転や変換のようなアフィン変換の下での等価性を必要とする。 この問題に対処するために,同変コントラスト目標を提案し,その効果を3次元手形推定の文脈で実証する。 本研究では,不変および同変コントラスト目標の影響を実験的に検証し,学習同変特徴が3次元手ポーズ推定のタスクにより良い表現をもたらすことを示す。 さらに、追加のラベル付きデータに基づいてトレーニングされた標準ResNet-152は、FreiHAND上のPA-EPEで7.6\%の改善を実現し、タスク固有の特別なアーキテクチャを使わずに最先端のパフォーマンスを実現する。

Acquiring accurate 3D annotated data for hand pose estimation is a notoriously difficult problem. This typically requires complex multi-camera setups and controlled conditions, which in turn creates a domain gap that is hard to bridge to fully unconstrained settings. Encouraged by the success of contrastive learning on image classification tasks, we propose a new self-supervised method for the structured regression task of 3D hand pose estimation. Contrastive learning makes use of unlabeled data for the purpose of representation learning via a loss formulation that encourages the learned feature representations to be invariant under any image transformation. For 3D hand pose estimation, it too is desirable to have invariance to appearance transformation such as color jitter. However, the task requires equivariance under affine transformations, such as rotation and translation. To address this issue, we propose an equivariant contrastive objective and demonstrate its effectiveness in the context of 3D hand pose estimation. We experimentally investigate the impact of invariant and equivariant contrastive objectives and show that learning equivariant features leads to better representations for the task of 3D hand pose estimation. Furthermore, we show that a standard ResNet-152, trained on additional unlabeled data, attains an improvement of $7.6\%$ in PA-EPE on FreiHAND and thus achieves state-of-the-art performance without any task specific, specialized architectures.
公開日:2021-06-10
翻訳日:2021-06-11 14:18:50
# 逆運動モデリングによる半教師付きハンドポース推定

Adversarial Motion Modelling helps Semi-supervised Hand Pose Estimation ( http://arxiv.org/abs/2106.05954v1 )

ライセンス: Link先を確認
Adrian Spurr, Pavlo Molchanov, Umar Iqbal, Jan Kautz, Otmar Hilliges(参考訳) 手ポーズ推定は, 環境条件の相違, 対象, 自己排他, 手の形状や外観の多様性により困難である。 完全アノテートされたデータセットにおいて、この幅広い要因を徹底的にカバーすることは、教師付き手法の一般化に重大な課題を呈している。 本稿では,この課題に対処するために,対戦型トレーニングとモーションモデリングのアイデアを組み合わせて,ラベルのないビデオにタップすることを提案する。 そこで本研究では,まず,手の動きモデルが最良であることを示すとともに,非ラベル映像列に対する半教師付き学習により,逆定式化が手ポーズ推定器の一般化性の向上に繋がることを示す。 この設定では、ポーズ予測器は差別的敵によって決定されるように、有効なポーズのシーケンスを生成する必要がある。 この逆の理由は、構造と時間領域の両方に依存し、タスクの時空間構造を効果的に活用する。 このアプローチの主な利点は、ペア化されていないビデオとジョイントシーケンスデータを利用することができ、どちらもペア化トレーニングデータよりも達成が容易であることです。 本研究は,提案手法がポーズ推定精度を著しく向上させる2つの課題条件において,提案フレームワークに必要な必須成分を調査し,広範囲な評価を行い,実証的に実証する。 最も低いラベル設定では、絶対平均ジョイントエラーで$40\%$の改善を達成します。

Hand pose estimation is difficult due to different environmental conditions, object- and self-occlusion as well as diversity in hand shape and appearance. Exhaustively covering this wide range of factors in fully annotated datasets has remained impractical, posing significant challenges for generalization of supervised methods. Embracing this challenge, we propose to combine ideas from adversarial training and motion modelling to tap into unlabeled videos. To this end we propose what to the best of our knowledge is the first motion model for hands and show that an adversarial formulation leads to better generalization properties of the hand pose estimator via semi-supervised training on unlabeled video sequences. In this setting, the pose predictor must produce a valid sequence of hand poses, as determined by a discriminative adversary. This adversary reasons both on the structural as well as temporal domain, effectively exploiting the spatio-temporal structure in the task. The main advantage of our approach is that we can make use of unpaired videos and joint sequence data both of which are much easier to attain than paired training data. We perform extensive evaluation, investigating essential components needed for the proposed framework and empirically demonstrate in two challenging settings that the proposed approach leads to significant improvements in pose estimation accuracy. In the lowest label setting, we attain an improvement of $40\%$ in absolute mean joint error.
公開日:2021-06-10
翻訳日:2021-06-11 14:18:28
# カリ:カナリ/QCRIのInterSPEECH 2021インディアン言語コードスイッチングチャレンジのためのエンド・ツー・エンドシステム

KARI: KAnari/QCRI's End-to-End systems for the INTERSPEECH 2021 Indian Languages Code-Switching Challenge ( http://arxiv.org/abs/2106.05885v1 )

ライセンス: Link先を確認
Amir Hussein, Shammur Chowdhury, Ahmed Ali(参考訳) 本稿では,カナリ/QCRI(Kanari/QCRI)システムと,低リソースインド言語に対するインタースペーチ2021コードスイッチング(CS)チャレンジに参加するためのモデリング戦略を提案する。 このサブタスクは、現実のシナリオで収集された2つのCSデータセット(ヒンディー語とベンガル語)の音声認識システムの開発に関わっている。 CSの課題に対処するために、公開のモノリンガルヒンディー語、ベンガル語、英語の音声データを取り入れるためにトランスファーラーニングを利用する。 本研究では,低リソースcsデータに対する2段階トランスファー学習プロトコルの有効性について検討した。 音響モデリングのための変換器(Conformer)を開発した。 CSシナリオにおいて,各単言語データのパーセンテージの選択が,一方の言語文字を他方で使用する際のモデルバイアスに影響を与えることを示す。 精度の高い単言語データで事前訓練したモデルでは, セグメントと転写の不一致に対する堅牢性を示した。 最後に、単語レベルn-gram言語モデル(LM)を開発し、ASR認識を再スコア化する。

In this paper, we present the Kanari/QCRI (KARI) system and the modeling strategies used to participate in the Interspeech 2021 Code-switching (CS) challenge for low-resource Indian languages. The subtask involved developing a speech recognition system for two CS datasets: Hindi-English and Bengali-English, collected in a real-life scenario. To tackle the CS challenges, we use transfer learning for incorporating the publicly available monolingual Hindi, Bengali, and English speech data. In this work, we study the effectiveness of two steps transfer learning protocol for low-resourced CS data: monolingual pretraining, followed by fine-tuning. For acoustic modeling, we develop an end-to-end convolution-augmente d transformer (Conformer). We show that selecting the percentage of each monolingual data affects model biases towards using one language character set over the other in a CS scenario. The models pretrained on well-aligned and accurate monolingual data showed robustness against misalignment between the segments and the transcription. Finally, we develop word-level n-gram language models (LM) to rescore ASR recognition.
公開日:2021-06-10
翻訳日:2021-06-11 14:18:04
# 注意メタリアナーは多義的分類器である

Attentional meta-learners are polythetic classifiers ( http://arxiv.org/abs/2106.05317v1 )

ライセンス: Link先を確認
Ben Day, Ramon Vi\~nas, Nikola Simidjievski, Pietro Li\`o(参考訳) クラスのメンバー間で普遍的でも定数的でもない特徴の共有パターンに基づく多義的分類は、自然界では一般的であり、一連の特徴に対する単義的分類を大幅に上回っている。 しきい値メタリーナーは、これらの関数をエミュレートする特徴の数に指数関数的な埋め込み次元を必要とする。 対照的に、注意分類器はデフォルトでは多義的であり、線形埋め込み次元でこれらの問題を解くことができる。 しかし,メタ学習問題に固有のタスク無関係な特徴の存在下では,注意モデルが誤分類の影響を受けやすいことが判明した。 この課題に対処するために,非識別的特徴を適応的に希釈する自己意図的特徴選択機構を提案する。 ブール関数のメタ学習における我々のアプローチの有効性と,合成および実世界の数ショット学習タスクの有効性を実証する。

Polythetic classifications, based on shared patterns of features that need neither be universal nor constant among members of a class, are common in the natural world and greatly outnumber monothetic classifications over a set of features. We show that threshold meta-learners require an embedding dimension that is exponential in the number of features to emulate these functions. In contrast, attentional classifiers are polythetic by default and able to solve these problems with a linear embedding dimension. However, we find that in the presence of task-irrelevant features, inherent to meta-learning problems, attentional models are susceptible to misclassification. To address this challenge, we further propose a self-attention feature-selection mechanism that adaptively dilutes non-discriminative features. We demonstrate the effectiveness of our approach in meta-learning Boolean functions, and synthetic and real-world few-shot learning tasks.
公開日:2021-06-09
翻訳日:2021-06-11 14:17:45
# 公正なノード表現学習

Fairness-Aware Node Representation Learning ( http://arxiv.org/abs/2106.05391v1 )

ライセンス: Link先を確認
\"Oyk\"u Deniz K\"ose, Yanning Shen(参考訳) ノード表現学習は、グラフ上の様々なアプリケーションに対してその効果を示した。 特に、コントラスト学習の最近の発展は、多くのタスクに対して教師なしノード表現学習の有望な結果をもたらしている。 グラフの対比学習の成功と、それに伴う関心の高まりにもかかわらず、フェアネスはこの分野でほとんど未開拓である。 この目的のために本研究は,適応型特徴マスキングとエッジ削除によるグラフコントラスト学習における公平性の問題に対処する。 本研究では,提案するグラフ拡張のガイドラインとなる,グラフ上の異なる公平性概念を導入する。 さらに,提案手法が本質バイアスを低減できることを定量的に証明するために,理論的解析を行った。 実社会ネットワークにおける実験結果から,提案手法は,ノード分類における最先端のコントラスト法と同等の分類精度を提供しつつ,統計的パリティと等機会の観点で公平性を高めることができることを示した。

Node representation learning has demonstrated its effectiveness for various applications on graphs. Particularly, recent developments in contrastive learning have led to promising results in unsupervised node representation learning for a number of tasks. Despite the success of graph contrastive learning and consequent growing interest, fairness is largely under-explored in the field. To this end, this study addresses fairness issues in graph contrastive learning with fairness-aware graph augmentation designs, through adaptive feature masking and edge deletion. In the study, different fairness notions on graphs are introduced, which serve as guidelines for the proposed graph augmentations. Furthermore, theoretical analysis is provided to quantitatively prove that the proposed feature masking approach can reduce intrinsic bias. Experimental results on real social networks are presented to demonstrate that the proposed augmentations can enhance fairness in terms of statistical parity and equal opportunity, while providing comparable classification accuracy to state-of-the-art contrastive methods for node classification.
公開日:2021-06-09
翻訳日:2021-06-11 14:17:29
# 適応勾配法におけるルート平均角形に対する代替策の検討

Investigating Alternatives to the Root Mean Square for Adaptive Gradient Methods ( http://arxiv.org/abs/2106.05449v1 )

ライセンス: Link先を確認
Brett Daley and Christopher Amato(参考訳) Adamは適応勾配法であり、高速で信頼性の高いトレーニング性能のために広く採用されている。 最近のアプローチでは、Adamよりも大幅に改善されていないが、多くの場合、その中核的な特徴の1つ、すなわち最近の勾配のルート平均平方(RMS)による正規化を革新しないためである。 しかしながら、Kingma and Ba (2015) が述べたように、任意の$L^p$正規化が可能であり、RMS は $p=2$ の特定の場合に対応する。 本研究では,適応勾配法に対する異なる$L^p$ノルムの影響を理論的,実証的に初めて特徴づける。 数学的には、$p$の選択がステップのサイズにどのように影響するかを示し、他の望ましい性質は影響しない。 ディープラーニングベンチマークスイート上でadamを様々な$l^p$ノルムで評価し,$p > 2$が学習速度と最終的なパフォーマンスを一貫して向上させることを確認した。 p=3$または$p=6$の選択は、すべての実験で最先端のメソッドにマッチするか、より優れています。

Adam is an adaptive gradient method that has experienced widespread adoption due to its fast and reliable training performance. Recent approaches have not offered significant improvement over Adam, often because they do not innovate upon one of its core features: normalization by the root mean square (RMS) of recent gradients. However, as noted by Kingma and Ba (2015), any number of $L^p$ normalizations are possible, with the RMS corresponding to the specific case of $p=2$. In our work, we theoretically and empirically characterize the influence of different $L^p$ norms on adaptive gradient methods for the first time. We show mathematically how the choice of $p$ influences the size of the steps taken, while leaving other desirable properties unaffected. We evaluate Adam with various $L^p$ norms on a suite of deep learning benchmarks, and find that $p > 2$ consistently leads to improved learning speed and final performance. The choices of $p=3$ or $p=6$ also match or outperform state-of-the-art methods in all of our experiments.
公開日:2021-06-10
翻訳日:2021-06-11 14:17:12
# Multi-VFL:複数データおよびラベル所有者のための垂直統合学習システム

Multi-VFL: A Vertical Federated Learning System for Multiple Data and Label Owners ( http://arxiv.org/abs/2106.05468v1 )

ライセンス: Link先を確認
Vaikkunth Mugunthan, Pawan Goyal and Lalana Kagal(参考訳) Vertical Federated Learning (VFL)は、データセットの特徴を複数のデータ所有者に分割し、ラベル情報は単一のデータ所有者が所有するデータセット上のモデルの協調的なトレーニングを指す。 本稿では,複数のデータとラベル所有者が存在する場合に,VFLモデルを学習するための新しい手法であるMulti-VFLを提案する。 当社のアプローチは、d$-dataオーナー(どの機能が配布されているか)と$k$-labelオーナー(どのラベルが配布されているか)が存在する設定を検討する最初の方法です。 この構成により、異なるエンティティがデータを共有することなく、最適なモデルをトレーニングし、学習することができる。 本フレームワークでは,スプリット学習と適応フェデレーションオプティマイザを用いてこの問題を解決する。 経験的評価のために、mnist と fashionmnist データセットで実験を行う。 モデルアグリゲーションのための適応最適化器は収束を加速し、精度を向上する。

Vertical Federated Learning (VFL) refers to the collaborative training of a model on a dataset where the features of the dataset are split among multiple data owners, while label information is owned by a single data owner. In this paper, we propose a novel method, Multi Vertical Federated Learning (Multi-VFL), to train VFL models when there are multiple data and label owners. Our approach is the first to consider the setting where $D$-data owners (across which features are distributed) and $K$-label owners (across which labels are distributed) exist. This proposed configuration allows different entities to train and learn optimal models without having to share their data. Our framework makes use of split learning and adaptive federated optimizers to solve this problem. For empirical evaluation, we run experiments on the MNIST and FashionMNIST datasets. Our results show that using adaptive optimizers for model aggregation fastens convergence and improves accuracy.
公開日:2021-06-10
翻訳日:2021-06-11 14:16:54
# ノード埋め込みのための学習に基づく近接行列分解

Learning Based Proximity Matrix Factorization for Node Embedding ( http://arxiv.org/abs/2106.05476v1 )

ライセンス: Link先を確認
Xingyi Zhang, Kun Xie, Sibo Wang, Zengfeng Huang(参考訳) ノード埋め込みはグラフの各ノードの低次元表現を学習する。 ノード埋め込みの最近の進歩は、近接行列因子化手法が、数百万のノードを持つ大規模グラフにスーパーブパフォーマンスとスケールをもたらすことを示している。 既存のアプローチは、まず近接行列を定義し、その後マトリックスの分解によって近接に適合する埋め込みを学習する。 既存の行列分解法の多くは、異なるタスクに対して同じ近接性を採用しているが、異なるタスクやデータセットは異なる近接性を必要とし、表現力を制限している。 そこで本研究では,学習可能な近接測度を持つフレームワークである {\em lemane} を提案する。 我々の手法はエンドツーエンドであり、パイプラインに微分可能なSVDを組み込んで、パラメータをバックプロパゲーションによってトレーニングすることができる。 しかし、この学習プロセスは大きなグラフではまだ高価である。 スケーラビリティを向上させるために,注意深い部分サンプリンググラフのみに近接測度を訓練し,学習した近接グラフを用いて標準近接行列分解を適用する。 注意すべきは、各ペアの学習された近位数を計算することは大きなグラフにとって依然として高価であり、既存の近位数を計算する技術は学習された近位数には適用されないことである。 そこで我々は,数百万のノードを持つ大規模グラフにソリューションをスケーラブルにするために,一般化されたプッシュ技術を提案する。 広範な実験により,提案手法は,ほぼすべてのデータセットにおけるリンク予測とノード分類タスクの両方において,既存のソリューションよりも優れていることが示された。

Node embedding learns a low-dimensional representation for each node in the graph. Recent progress on node embedding shows that proximity matrix factorization methods gain superb performance and scale to large graphs with millions of nodes. Existing approaches first define a proximity matrix and then learn the embeddings that fit the proximity by matrix factorization. Most existing matrix factorization methods adopt the same proximity for different tasks, while it is observed that different tasks and datasets may require different proximity, limiting their representation power. Motivated by this, we propose {\em Lemane}, a framework with trainable proximity measures, which can be learned to best suit the datasets and tasks at hand automatically. Our method is end-to-end, which incorporates differentiable SVD in the pipeline so that the parameters can be trained via backpropagation. However, this learning process is still expensive on large graphs. To improve the scalability, we train proximity measures only on carefully subsampled graphs, and then apply standard proximity matrix factorization on the original graph using the learned proximity. Note that, computing the learned proximities for each pair is still expensive for large graphs, and existing techniques for computing proximities are not applicable to the learned proximities. Thus, we present generalized push techniques to make our solution scalable to large graphs with millions of nodes. Extensive experiments show that our proposed solution outperforms existing solutions on both link prediction and node classification tasks on almost all datasets.
公開日:2021-06-10
翻訳日:2021-06-11 14:16:36
# タスク駆動データ品質管理のための統一フレームワーク

A Unified Framework for Task-Driven Data Quality Management ( http://arxiv.org/abs/2106.05484v1 )

ライセンス: Link先を確認
Tianhao Wang, Yi Zeng, Ming Jin, Ruoxi Jia(参考訳) 高性能データは、データ品質管理(DQM)の重要性を強調する、パフォーマンスのよい機械学習モデル(ML)のトレーニングに不可欠である。 既存のDQMスキームは、設計上、下流のMLタスクに難渋するため、MLパフォーマンスを満足して改善できないことが多い。 さらに、さまざまなデータ品質問題(特に敵攻撃による問題)に対処することができず、特定の種類のMLモデルに限られる。 近年、データ評価手法(例えばShapley値に基づく)がDQMの実行に活用されているが、実証的研究により、その性能は基礎となるデータとトレーニングプロセスに基づいて大きく異なることが確認されている。 本稿では、タスク駆動、多目的、モデル非依存のdqmフレームワーク、datasifterを提案する。これは、所定の下流mlタスクに最適化され、様々な欠陥のあるデータポイントを効果的に除去し、多様なモデルに適用することができる。 具体的には,dqmを最適化問題として定式化し,スケーラブルなアルゴリズムを考案する。 さらに,異なるDQM戦略の最悪の性能を比較するための理論的枠組みを提案する。 驚くべきことに、shapley値に基づく一般的な戦略は、特定の実用的なシナリオで最悪のデータサブセットを選択することになるかもしれません。 評価の結果,datasifterは,バックドア,毒物,ノイズ/ミスラベルデータ検出,データ要約,データデバイアスなど,幅広いdqmタスクにおいて最先端の性能を向上し,性能を著しく向上していることがわかった。

High-quality data is critical to train performant Machine Learning (ML) models, highlighting the importance of Data Quality Management (DQM). Existing DQM schemes often cannot satisfactorily improve ML performance because, by design, they are oblivious to downstream ML tasks. Besides, they cannot handle various data quality issues (especially those caused by adversarial attacks) and have limited applications to only certain types of ML models. Recently, data valuation approaches (e.g., based on the Shapley value) have been leveraged to perform DQM; yet, empirical studies have observed that their performance varies considerably based on the underlying data and training process. In this paper, we propose a task-driven, multi-purpose, model-agnostic DQM framework, DataSifter, which is optimized towards a given downstream ML task, capable of effectively removing data points with various defects, and applicable to diverse models. Specifically, we formulate DQM as an optimization problem and devise a scalable algorithm to solve it. Furthermore, we propose a theoretical framework for comparing the worst-case performance of different DQM strategies. Remarkably, our results show that the popular strategy based on the Shapley value may end up choosing the worst data subset in certain practical scenarios. Our evaluation shows that DataSifter achieves and most often significantly improves the state-of-the-art performance over a wide range of DQM tasks, including backdoor, poison, noisy/mislabel data detection, data summarization, and data debiasing.
公開日:2021-06-10
翻訳日:2021-06-11 14:16:11
# 自由エネルギーの最小化による距離計量学習

Distance Metric Learning through Minimization of the Free Energy ( http://arxiv.org/abs/2106.05495v1 )

ライセンス: Link先を確認
Dusan Stosic, Darko Stosic, Teresa B. Ludermir, Borko Stosic(参考訳) 過去数十年間、距離距離学習は機械学習とパターン認識の問題を解決することに多くの関心を寄せてきた。 本研究では,与えられた問題の最適距離計量を学ぶための統計物理学の概念に基づく単純なアプローチを提案する。 パターン間の距離は物理系の構成要素を表し、目的関数はエネルギーに対応する。 そして,この問題を,距離距離距離学習と等価な複素系の自由エネルギーの最小化として表現する。 物理学における多くの問題と同様に、我々はメトロポリス・モンテカルロに基づく最良の距離計量を求めるアプローチを提案する。 これは距離計量を学ぶ自然な方法であり、学習過程は幾らかのヒューリスティックが満たされるまで距離空間を伸ばして回転させるものとして直感的に見ることができる。 提案手法はスプリアス局所ミニマを含む幅広い制約を扱うことができる。 このアプローチは、近隣成分分析 (nca) の確率的近傍と驚くほどうまく機能する。 人工的および実世界のデータセットに対する実験結果から、近隣の分類のための最先端距離距離学習法よりも明らかな優位性を示した。

Distance metric learning has attracted a lot of interest for solving machine learning and pattern recognition problems over the last decades. In this work we present a simple approach based on concepts from statistical physics to learn optimal distance metric for a given problem. We formulate the task as a typical statistical physics problem: distances between patterns represent constituents of a physical system and the objective function corresponds to energy. Then we express the problem as a minimization of the free energy of a complex system, which is equivalent to distance metric learning. Much like for many problems in physics, we propose an approach based on Metropolis Monte Carlo to find the best distance metric. This provides a natural way to learn the distance metric, where the learning process can be intuitively seen as stretching and rotating the metric space until some heuristic is satisfied. Our proposed method can handle a wide variety of constraints including those with spurious local minima. The approach works surprisingly well with stochastic nearest neighbors from neighborhood component analysis (NCA). Experimental results on artificial and real-world data sets reveal a clear superiority over a number of state-of-the-art distance metric learning methods for nearest neighbors classification.
公開日:2021-06-10
翻訳日:2021-06-11 14:15:44
# バイアス分散トレードオフに基づくロバスト機械学習の数学的基礎

A Mathematical Foundation for Robust Machine Learning based on Bias-Variance Trade-off ( http://arxiv.org/abs/2106.05522v1 )

ライセンス: Link先を確認
Ou Wu and Weiyao Zhu and Yingjun Deng and Haixiang Zhang and Qinghu Hou(参考訳) 機械学習における一般的な仮定は、サンプルは独立して同じ分布(d)であるということである。 しかし、異なるサンプルの貢献はトレーニングにおいて同一ではない。 一部のサンプルは学習が困難であり、いくつかのサンプルはうるさい。 サンプルの不平等な貢献は、トレーニングパフォーマンスに大きな影響を与えます。 学習における不平等なサンプル貢献(例えば、簡単、困難、ノイズ)に焦点を当てた研究は通常、これらの貢献を堅牢な機械学習(RML)と呼ぶ。 ウィーディングと正規化はRMLの2つの一般的な手法である。 数多くの学習アルゴリズムが提案されているが、簡単な/ハード/ノイズのサンプルを扱う戦略は異なる学習アルゴリズムと異なる、あるいは矛盾する。 例えば、いくつかの戦略はまずハードサンプルを取るが、いくつかの戦略は最初は簡単である。 既存のRMLアルゴリズムと比較して異なるサンプルを扱うことは、RMLの統一的な理論的枠組みが欠如しているため困難である。 本研究ではバイアス分散トレードオフ理論に基づくRMLの数学的基礎の構築を試みる。 一連の定義と性質が提示され、証明される。 いくつかの古典的学習アルゴリズムも説明され、比較される。 比較により既存の方法の改善が得られた。 2つの古典的学習戦略を組み合わせた統一手法を提案する。

A common assumption in machine learning is that samples are independently and identically distributed (i.i.d). However, the contributions of different samples are not identical in training. Some samples are difficult to learn and some samples are noisy. The unequal contributions of samples has a considerable effect on training performances. Studies focusing on unequal sample contributions (e.g., easy, hard, noisy) in learning usually refer to these contributions as robust machine learning (RML). Weighing and regularization are two common techniques in RML. Numerous learning algorithms have been proposed but the strategies for dealing with easy/hard/noisy samples differ or even contradict with different learning algorithms. For example, some strategies take the hard samples first, whereas some strategies take easy first. Conducting a clear comparison for existing RML algorithms in dealing with different samples is difficult due to lack of a unified theoretical framework for RML. This study attempts to construct a mathematical foundation for RML based on the bias-variance trade-off theory. A series of definitions and properties are presented and proved. Several classical learning algorithms are also explained and compared. Improvements of existing methods are obtained based on the comparison. A unified method that combines two classical learning strategies is proposed.
公開日:2021-06-10
翻訳日:2021-06-11 14:15:28
# 自己監督による深層強化学習の簡易化

Simplifying Deep Reinforcement Learning via Self-Supervision ( http://arxiv.org/abs/2106.05526v1 )

ライセンス: Link先を確認
Daochen Zha, Kwei-Herng Lai, Kaixiong Zhou, Xia Hu(参考訳) デモに対する改善された回帰は、ディープポリシーネットワークをトレーニングするための安定した方法であることが示されている。 我々は、教師付き損失関数をフル活用して、より深い強化学習エージェントを安定的に訓練する方法について研究する。 政策改善を実現するためのトレーニングデータの収集方法が不明確であるため、これは難しい作業です。 本研究では、純粋に監督された損失を伴うポリシーを最適化するシンプルなアルゴリズムである自己改善強化学習(SSRL)を提案する。 政策勾配や価値推定がなければ, 「ラベル付け」データの反復的手順と教師付き回帰が, 安定した政策改善を促進するのに十分であることを示す。 トラジェクトリを高いエピソード報酬で選択し模倣することにより、SSRLは、より安定した性能と実行時間の少ない現代アルゴリズムと驚くほど競合し、教師付き学習技術で強化学習を解く可能性を示している。 コードはhttps://github.com/d aochenzha/ssrlで入手できる。

Supervised regression to demonstrations has been demonstrated to be a stable way to train deep policy networks. We are motivated to study how we can take full advantage of supervised loss functions for stably training deep reinforcement learning agents. This is a challenging task because it is unclear how the training data could be collected to enable policy improvement. In this work, we propose Self-Supervised Reinforcement Learning (SSRL), a simple algorithm that optimizes policies with purely supervised losses. We demonstrate that, without policy gradient or value estimation, an iterative procedure of ``labeling" data and supervised regression is sufficient to drive stable policy improvement. By selecting and imitating trajectories with high episodic rewards, SSRL is surprisingly competitive to contemporary algorithms with more stable performance and less running time, showing the potential of solving reinforcement learning with supervised learning techniques. The code is available at https://github.com/d aochenzha/SSRL
公開日:2021-06-10
翻訳日:2021-06-11 14:15:11
# 共同チューニングハードウェアとハイパーパラメータの多目的視点

A multi-objective perspective on jointly tuning hardware and hyperparameters ( http://arxiv.org/abs/2106.05680v1 )

ライセンス: Link先を確認
David Salinas, Valerio Perrone, Olivier Cruchant, Cedric Archambeau(参考訳) 最高のモデルアーキテクチャとハイパーパラメータに加えて、完全なAutoMLソリューションでは、適切なハードウェアを自動的に選択する必要がある。 最高のハードウェア構成はひとつではなく、コストとランタイムの間に異なるトレードオフを達成するための最適なハードウェアセットのセットです。 実際には、過度にコストがかかるか、訓練に数日かかることもある。 この負担を軽減すべく、我々は、ニューラルネットワークとそのハイパーパラメータとともにハードウェア構成を自動的に選択し、適応する多目的アプローチを採用しています。 提案手法はHyperband上に構築し,2つの方法で拡張する。 まず、ハイパーバンドで使用される停止規則を非支配的なソートルールで置き換え、非プロミネーション構成を事前に停止する。 第2に,ランダム探索よりも有望な構成を見出すパレートフロントの確率的推定を構築することにより,トランスファー学習による関連タスクからのハイパーパラメータ評価を活用する。 我々はNASとHPOの広範な実験において、両者が精度にほとんど影響を与えず、大幅なスピードアップとコスト削減をもたらすことを示した。 ハイパーパラメータに加えてハードウェアが選択される3つのベンチマークでは、ランタイムとコストをそれぞれ5.8倍と8.8倍に削減する。 さらに,マルチオブジェクト法をハイパーパラメータのチューニングのみに適用すると,2つのNASベンチマークで同じ精度を維持しつつ,実行時の10倍の改善が得られる。

In addition to the best model architecture and hyperparameters, a full AutoML solution requires selecting appropriate hardware automatically. This can be framed as a multi-objective optimization problem: there is not a single best hardware configuration but a set of optimal ones achieving different trade-offs between cost and runtime. In practice, some choices may be overly costly or take days to train. To lift this burden, we adopt a multi-objective approach that selects and adapts the hardware configuration automatically alongside neural architectures and their hyperparameters. Our method builds on Hyperband and extends it in two ways. First, we replace the stopping rule used in Hyperband by a non-dominated sorting rule to preemptively stop unpromising configurations. Second, we leverage hyperparameter evaluations from related tasks via transfer learning by building a probabilistic estimate of the Pareto front that finds promising configurations more efficiently than random search. We show in extensive NAS and HPO experiments that both ingredients bring significant speed-ups and cost savings, with little to no impact on accuracy. In three benchmarks where hardware is selected in addition to hyperparameters, we obtain runtime and cost reductions of at least 5.8x and 8.8x, respectively. Furthermore, when applying our multi-objective method to the tuning of hyperparameters only, we obtain a 10\% improvement in runtime while maintaining the same accuracy on two popular NAS benchmarks.
公開日:2021-06-10
翻訳日:2021-06-11 14:14:56
# 部分ラベル学習における重み付き損失の活用

Leveraged Weighted Loss for Partial Label Learning ( http://arxiv.org/abs/2106.05731v1 )

ライセンス: Link先を確認
Hongwei Wen, Jingyi Cui, Hanyuan Hang, Jiabin Liu, Yisen Wang, Zhouchen Lin(参考訳) 弱い教師付き学習の重要な分野として、部分ラベル学習は、各インスタンスに候補ラベルのセットが割り当てられるデータを扱うが、そのうちの1つだけが真実である。 部分ラベルからの学習に関する多くの方法論研究にもかかわらず、相対的に弱い仮定の下でそれらのリスク一貫した性質に関する理論的理解はいまだに欠けている。 本稿では,部分ラベルの損失と非部分ラベルの損失のトレードオフを考えるために,レバレッジパラメータ$\beta$を導入することを目的とした,lwロスと呼ばれる損失関数の族を提案する。 理論的な側面から、部分ラベルから学習する際のLW損失に対するリスク一貫性の一般化結果が導出され、そこではレバレッジパラメータ $\beta$ の選択に関するガイダンスを提供する。 実験では,提案したLW損失が,他の最先端部分ラベル学習アルゴリズムと比較して,ベンチマークと実データの両方において高い有効性を示す。

As an important branch of weakly supervised learning, partial label learning deals with data where each instance is assigned with a set of candidate labels, whereas only one of them is true. Despite many methodology studies on learning from partial labels, there still lacks theoretical understandings of their risk consistent properties under relatively weak assumptions, especially on the link between theoretical results and the empirical choice of parameters. In this paper, we propose a family of loss functions named \textit{Leveraged Weighted} (LW) loss, which for the first time introduces the leverage parameter $\beta$ to consider the trade-off between losses on partial labels and non-partial ones. From the theoretical side, we derive a generalized result of risk consistency for the LW loss in learning from partial labels, based on which we provide guidance to the choice of the leverage parameter $\beta$. In experiments, we verify the theoretical guidance, and show the high effectiveness of our proposed LW loss on both benchmark and real datasets compared with other state-of-the-art partial label learning algorithms.
公開日:2021-06-10
翻訳日:2021-06-11 14:14:34
# 単純なグラフ畳み込みネットワーク

Simple Graph Convolutional Networks ( http://arxiv.org/abs/2106.05809v1 )

ライセンス: Link先を確認
Luca Pasa, Nicol\`o Navarin, Wolfgang Erb, Alessandro Sperduti(参考訳) グラフのための多くのニューラルネットワークは、10年以上前に提案されたグラフ畳み込み演算子に基づいている。 それ以来、モデルに複雑性(および非線形性)を加える傾向がある多くの代替定義が提案されている。 本稿では,単層グラフ畳み込みネットワークに実装可能な単純なグラフ畳み込み演算子を提案することにより,逆方向を追従する。 我々の畳み込み演算子は、文献における多くの提案よりも理論的に根拠があり、考慮されたベンチマークデータセットで最先端の予測性能を示す。

Many neural networks for graphs are based on the graph convolution operator, proposed more than a decade ago. Since then, many alternative definitions have been proposed, that tend to add complexity (and non-linearity) to the model. In this paper, we follow the opposite direction by proposing simple graph convolution operators, that can be implemented in single-layer graph convolutional networks. We show that our convolution operators are more theoretically grounded than many proposals in literature, and exhibit state-of-the-art predictive performance on the considered benchmark datasets.
公開日:2021-06-10
翻訳日:2021-06-11 14:14:17
# データと物理から機能的優先順位と後進を学習する

Learning Functional Priors and Posteriors from Data and Physics ( http://arxiv.org/abs/2106.05863v1 )

ライセンス: Link先を確認
Xuhui Meng, Liu Yang, Zhiping Mao, Jose del Aguila Ferrandis, George Em Karniadakis(参考訳) 本研究では,深層ニューラルネットワークに基づく新しいベイズフレームワークを開発し,過去のデータを用いて時空推定を行い,物理問題におけるノイズデータとギャップデータの両方から生じる不確かさを定量化する。 特に,提案手法は,(1)事前学習と(2)後方推定の2段階からなる。 第一段階では、物理インフォームド・ジェネレーティブ・アダクティブ・アダクティブ・ネットワーク(PI-GAN)を用いて、所定の関数分布、例えばガウス過程、または歴史的データや物理から関数事前を学習する。 第2段階では, PI-GANの潜伏空間の後方を推定するために, ハミルトニアンモンテカルロ法(HMC)を用いる。 さらに, 物理を符号化するために, 1) 特定偏微分方程式 (PDE) のシナリオに対して物理情報ニューラルネットワーク (PINN) で使用される自動微分と, (2) PDEに依存しないシナリオに対してディープ演算子ネットワーク (DeepONet) を用いた演算子の回帰の2つのアプローチを用いる。 提案手法は,(1)一次元回帰のメタラーニング,(2)ピンと組み合わさった前方/逆pde問題,(2)不均質多孔質媒質中における分数拡散と飽和確率(100次元)流のpde非依存物理問題,(3)海洋ライザー変位場の空間-時間的回帰問題,などである。 その結果, 提案手法は, 精度の高い予測と不確かさの定量化を, 極めて限られた散乱データと雑音データで実現できることが判明した。 提案手法はフレキシブルな機能的事前学習が可能であり,一般に低次元として特徴付けられるため,確率的HMCや正規化フローを用いてビッグデータ問題に拡張することができる。

We develop a new Bayesian framework based on deep neural networks to be able to extrapolate in space-time using historical data and to quantify uncertainties arising from both noisy and gappy data in physical problems. Specifically, the proposed approach has two stages: (1) prior learning and (2) posterior estimation. At the first stage, we employ the physics-informed Generative Adversarial Networks (PI-GAN) to learn a functional prior either from a prescribed function distribution, e.g., Gaussian process, or from historical data and physics. At the second stage, we employ the Hamiltonian Monte Carlo (HMC) method to estimate the posterior in the latent space of PI-GANs. In addition, we use two different approaches to encode the physics: (1) automatic differentiation, used in the physics-informed neural networks (PINNs) for scenarios with explicitly known partial differential equations (PDEs), and (2) operator regression using the deep operator network (DeepONet) for PDE-agnostic scenarios. We then test the proposed method for (1) meta-learning for one-dimensional regression, and forward/inverse PDE problems (combined with PINNs); (2) PDE-agnostic physical problems (combined with DeepONet), e.g., fractional diffusion as well as saturated stochastic (100-dimensional) flows in heterogeneous porous media; and (3) spatial-temporal regression problems, i.e., inference of a marine riser displacement field. The results demonstrate that the proposed approach can provide accurate predictions as well as uncertainty quantification given very limited scattered and noisy data, since historical data could be available to provide informative priors. In summary, the proposed method is capable of learning flexible functional priors, and can be extended to big data problems using stochastic HMC or normalizing flows since the latent space is generally characterized as low dimensional.
公開日:2021-06-08
翻訳日:2021-06-11 14:14:08
# 知らない時を知る: 知覚に基づく分析タスクのためのベイズ連続学習

Knowing when we do not know: Bayesian continual learning for sensing-based analysis tasks ( http://arxiv.org/abs/2106.05872v1 )

ライセンス: Link先を確認
Sandra Servia-Rodriguez, Cecilia Mascolo and Young D. Kwon(参考訳) 従来の機械学習モデルが獲得した知識を忘れることなく、タスクやデータ分布を連続的に学習することを可能にすることを目的とした多くの研究にもかかわらず、いくつかのタスクを正確に学習することが以前の知識を忘れるより重要になるような現実的状況を説明することには、ほとんど努力が払われていない。 本稿では,事前学習したタスクの記憶や新しいタスクの学習を優先するために調整可能な,実世界のセンシングに基づく分析タスクのセットを継続的に学習するベイズ推論に基づくフレームワークを提案する。 本実験は,学習モデルのロバスト性と信頼性を,変化するセンシング環境に適応することを示すとともに,その信頼性を評価するために予測の不確実性を用いることが適切であることを示す。

Despite much research targeted at enabling conventional machine learning models to continually learn tasks and data distributions sequentially without forgetting the knowledge acquired, little effort has been devoted to account for more realistic situations where learning some tasks accurately might be more critical than forgetting previous ones. In this paper we propose a Bayesian inference based framework to continually learn a set of real-world, sensing-based analysis tasks that can be tuned to prioritize the remembering of previously learned tasks or the learning of new ones. Our experiments prove the robustness and reliability of the learned models to adapt to the changing sensing environment, and show the suitability of using uncertainty of the predictions to assess their reliability.
公開日:2021-06-06
翻訳日:2021-06-11 14:13:29
# 超音波骨折検出のためのドメイン特異的トランスポーターフレームワーク

Domain Specific Transporter Framework to Detect Fractures in Ultrasound ( http://arxiv.org/abs/2106.05929v1 )

ライセンス: Link先を確認
Arpan Tripathi, Abhilash Rakkunedeth, Mahesh Raveendranatha Panicker, Jack Zhang, Naveenjyote Boora, Jacob Jaremko(参考訳) 骨折検出のための超音波検査は、比較的高速で(電離放射線から)安全であり、ダイナミックイメージング能力があり、携帯性も容易であるため、救急部(ED)に適している。 超音波スキャンのハンドアセスメントにおける高オブザーバ変動は,Deep Learning (DL) を用いた自動アセスメント技術に注目されている。 ほとんどのDL技術は教師付きであり、大量のラベル付きデータに基づいて訓練されている。 本稿では,手首超音波スキャンから関連するキーポイントを特定するための,教師なし領域特定トランスポーターフレームワークを提案する。 本フレームワークは3次元超音波(3DUS)配列における構造変化の高い領域を強調表示する簡潔な幾何学的表現を提供する。 また3DUSから骨の特徴を検出する即時局所位相(LP)で表される領域固有情報も取り入れた。 30名の被験者から得られた3dusビデオで検証した。 それぞれの超音波スキャンは3人の読者によって独立に評価され、対応するX線とともに骨折を同定した。 このトランスポーターニューラルネットワークは手首の超音波ビデオから採取した250個の骨領域のうち180個を正確に検出することができた。 この手法は, 骨折検出における超音波の応用性を高めることを期待する。

Ultrasound examination for detecting fractures is ideally suited for Emergency Departments (ED) as it is relatively fast, safe (from ionizing radiation), has dynamic imaging capability and is easily portable. High interobserver variability in manual assessment of ultrasound scans has piqued research interest in automatic assessment techniques using Deep Learning (DL). Most DL techniques are supervised and are trained on large numbers of labeled data which is expensive and requires many hours of careful annotation by experts. In this paper, we propose an unsupervised, domain specific transporter framework to identify relevant keypoints from wrist ultrasound scans. Our framework provides a concise geometric representation highlighting regions with high structural variation in a 3D ultrasound (3DUS) sequence. We also incorporate domain specific information represented by instantaneous local phase (LP) which detects bone features from 3DUS. We validate the technique on 3DUS videos obtained from 30 subjects. Each ultrasound scan was independently assessed by three readers to identify fractures along with the corresponding x-ray. Saliency of keypoints detected in the image\ are compared against manual assessment based on distance from relevant features.The transporter neural network was able to accurately detect 180 out of 250 bone regions sampled from wrist ultrasound videos. We expect this technique to increase the applicability of ultrasound in fracture detection.
公開日:2021-06-09
翻訳日:2021-06-11 14:13:15
# ナノスケールハードウェアのための計算フレームワークとしてのベクトルシンボリックアーキテクチャ

Vector Symbolic Architectures as a Computing Framework for Nanoscale Hardware ( http://arxiv.org/abs/2106.05268v1 )

ライセンス: Link先を確認
Denis Kleyko, Mike Davies, E. Paxon Frady, Pentti Kanerva, Spencer J. Kent, Bruno A. Olshausen, Evgeny Osipov, Jan M. Rabaey, Dmitri A. Rachkovskij, Abbas Rahimi, Friedrich T. Sommer(参考訳) 本稿では,計算フレームワークVector Symbolic Architectures(超次元コンピューティング)の開発における最近の進歩を概観する。 このフレームワークは確率的でナノスケールのハードウェアの実装に適しており、人工知能(AI)に必要な認知操作のタイプを自然に表現している。 本稿では,ベクトル記号アーキテクチャの環状代数構造が,現代コンピューティングに関連するすべてのデータ構造と操作をサポートする高次元ベクトルに対して,単純かつ強力な操作を提供することを示す。 さらに,従来の計算とは別個の「重ね合わせ計算」というベクトル記号アーキテクチャの特徴を述べる。 この後者の性質は、AIアプリケーションに固有の難しい組合せ探索問題に対する効率的な解決策への扉を開く。 ベクトルシンボリックアーキテクチャは、私たちが示すようにチューリング完全であり、無数のAI設定で分散表現を計算するためのフレームワークとして機能すると考えています。 本稿では、分散コンピューティングのためのvsasの技法と哲学を図解し、ニューロモーフィックコンピューティングのような新しいコンピューティングハードウェアとの関連性を示すことで、コンピュータアーキテクトの参考となる。

This article reviews recent progress in the development of the computing framework Vector Symbolic Architectures (also known as Hyperdimensional Computing). This framework is well suited for implementation in stochastic, nanoscale hardware and it naturally expresses the types of cognitive operations required for Artificial Intelligence (AI). We demonstrate in this article that the ring-like algebraic structure of Vector Symbolic Architectures offers simple but powerful operations on high-dimensional vectors that can support all data structures and manipulations relevant in modern computing. In addition, we illustrate the distinguishing feature of Vector Symbolic Architectures, "computing in superposition," which sets it apart from conventional computing. This latter property opens the door to efficient solutions to the difficult combinatorial search problems inherent in AI applications. Vector Symbolic Architectures are Turing complete, as we show, and we see them acting as a framework for computing with distributed representations in myriad AI settings. This paper serves as a reference for computer architects by illustrating techniques and philosophy of VSAs for distributed computing and relevance to emerging computing hardware, such as neuromorphic computing.
公開日:2021-06-09
翻訳日:2021-06-11 14:12:57
# FedDICE:フェデレートラーニングとSDNによる緩和を用いた分散型統合臨床環境におけるランサムウェア拡散検出

FedDICE: A ransomware spread detection in a distributed integrated clinical environment using federated learning and SDN based mitigation ( http://arxiv.org/abs/2106.05434v1 )

ライセンス: Link先を確認
Chandra Thapa and Kallol Krishna Karmakar and Alberto Huertas Celdran and Seyit Camtepe and Vijay Varadharajan and Surya Nepal(参考訳) 統合臨床環境(ice)は、病院における患者のケアに関する医療機器のインターネットの接続と協調を可能にする。 しかし、ランサムウェア攻撃やICEを含む病院インフラへの拡散は増加している。 敵はしばしば同じランサムウェア攻撃で複数の病院を標的にしている。 これらの攻撃は機械学習アルゴリズムを用いて検出される。 しかし,(1)攻撃を受けた場合,他の病院に免疫を提供し,(2)病院は地理的に分散し,(3)プライバシー上の懸念から直接的なデータ共有は避ける,という条件下で,反ランサムウェア学習機構やサービスを開発することが課題である。 本稿では,連合型分散型統合臨床環境であるakaについて述べる。 FedDICE FedDICEは、プライバシ保護学習であるフェデレーション学習(FL)をSDN指向のセキュリティアーキテクチャに統合し、ランサムウェア攻撃の協調学習、検出、緩和を可能にする。 我々は,最大4つの病院と4つのランサムウェア,すなわちWannaCry,Petya,BadRa bbit,PowerGhostとの共同環境におけるFedDICEの重要性を実証した。 IIDと非IIDデータ設定の両方において,FedDICEは検出に直接データ共有を必要とする集中型ベースライン性能を実現する。 しかし、データプライバシーとのトレードオフとして、FedDICEはロジスティック回帰モデルの28倍のようなアンチランサムウェアモデルのトレーニングにおけるオーバーヘッドを観察する。 さらに、FedDICEはSDNの動的ネットワークプログラマビリティ機能を使用して、ICEの感染したデバイスを削除する。

An integrated clinical environment (ICE) enables the connection and coordination of the internet of medical things around the care of patients in hospitals. However, ransomware attacks and their spread on hospital infrastructures, including ICE, are rising. Often the adversaries are targeting multiple hospitals with the same ransomware attacks. These attacks are detected by using machine learning algorithms. But the challenge is devising the anti-ransomware learning mechanisms and services under the following conditions: (1) provide immunity to other hospitals if one of them got the attack, (2) hospitals are usually distributed over geographical locations, and (3) direct data sharing is avoided due to privacy concerns. In this regard, this paper presents a federated distributed integrated clinical environment, aka. FedDICE. FedDICE integrates federated learning (FL), which is privacy-preserving learning, to SDN-oriented security architecture to enable collaborative learning, detection, and mitigation of ransomware attacks. We demonstrate the importance of FedDICE in a collaborative environment with up to four hospitals and four popular ransomware families, namely WannaCry, Petya, BadRabbit, and PowerGhost. Our results find that in both IID and non-IID data setups, FedDICE achieves the centralized baseline performance that needs direct data sharing for detection. However, as a trade-off to data privacy, FedDICE observes overhead in the anti-ransomware model training, e.g., 28x for the logistic regression model. Besides, FedDICE utilizes SDN's dynamic network programmability feature to remove the infected devices in ICE.
公開日:2021-06-09
翻訳日:2021-06-11 14:12:42
# コミュニケーションダイナミクスの理論的モデリング

Theoretical Modeling of Communication Dynamics ( http://arxiv.org/abs/2106.05414v1 )

ライセンス: Link先を確認
Torsten En{\ss}lin, Viktoria Kainz, C\'eline B{\oe}hm(参考訳) コミュニケーションは、人間や人工知能(AI)など、社会的相互作用の基盤である。 しかし、交換された情報の正直性に応じて有害である可能性がある。 これを研究するために、エージェントベースの社会学シミュレーションフレームワーク、評判ゲームを示す。 これは、異なるコミュニケーション戦略がエージェントの評判に与える影響を示している。 ゲームは、参加するエージェントの信頼性、他者が認識する誠実さに焦点を当てている。 ゲームでは、各エージェントは他のエージェントと自分自身と互いの誠実さについて意見を交換し、判断を進化させる。 シコファント、エゴセントリック、病的嘘、送信者に対する攻撃性、受信者に対する認識と欠如など、様々な送信者および受信者戦略が研究されている。 ミニマリストの悪質な戦略は、操作的、支配的、破壊的であり、他人の費用に対する評判を著しく高める。 エコーチャンバー、自己認識、偽共生、クライク形成、グループの意見の凍結といった現象は、ダイナミクスから生じる。 このことは、評価ゲームが複雑なグループ現象の研究、行動仮説のテスト、そして、ソーシャルメディアに影響を及ぼしたAIを分析することができることを示している。 洗練されたルールは、社会的相互作用を理解し、非虐待的なAIシステムの設計を保護するのに役立ちます。

Communication is a cornerstone of social interactions, be it with human or artificial intelligence (AI). Yet it can be harmful, depending on the honesty of the exchanged information. To study this, an agent based sociological simulation framework is presented, the reputation game. This illustrates the impact of different communication strategies on the agents' reputation. The game focuses on the trustworthiness of the participating agents, their honesty as perceived by others. In the game, each agent exchanges statements with the others about their own and each other's honesty, which lets their judgments evolve. Various sender and receiver strategies are studied, like sycophant, egocentricity, pathological lying, and aggressiveness for senders as well as awareness and lack thereof for receivers. Minimalist malicious strategies are identified, like being manipulative, dominant, or destructive, which significantly increase reputation at others' costs. Phenomena such as echo chambers, self-deception, deception symbiosis, clique formation, freezing of group opinions emerge from the dynamics. This indicates that the reputation game can be studied for complex group phenomena, to test behavioral hypothesis, and to analyze AI influenced social media. With refined rules it may help to understand social interactions, and to safeguard the design of non-abusive AI systems.
公開日:2021-06-09
翻訳日:2021-06-11 14:12:16
# Plan2Scene: フロアプランを3Dシーンに変換する

Plan2Scene: Converting Floorplans to 3D Scenes ( http://arxiv.org/abs/2106.05375v1 )

ライセンス: Link先を確認
Madhawa Vidanapathirana, Qirui Wu, Yasutaka Furukawa, Angel X. Chang and Manolis Savva(参考訳) 我々は,集合住宅のフロアプランと関連画像のセットを,plan2sceneと呼ばれるテクスチャ付き3dメッシュモデルに変換するタスクに対処した。 システム1)は、フロアプラン画像を3Dメッシュモデルに引き上げ、2)入力画像に基づいて表面テクスチャを合成し、3)グラフニューラルネットワークアーキテクチャを用いて未観測表面のテクスチャを推論する。 システムをトレーニングし,評価するために,室内表層テクスチャデータセットを作成し,調整した表層作物と追加アノテーションを用いた事前作業によるフロアプランと写真のデータセットを増強する。 提案手法では,床や壁,天井などの支配的な表面のタイル性テクスチャを,住宅を部分的に覆うような不揃いな写真から生成することの難しさを解決している。 質的・定量的評価により,本システムは現実的な3次元インテリアモデルを作成し,テクスチャ品質指標群におけるベースラインアプローチを上回り,総合的なユーザスタディにより測定した。

We address the task of converting a floorplan and a set of associated photos of a residence into a textured 3D mesh model, a task which we call Plan2Scene. Our system 1) lifts a floorplan image to a 3D mesh model; 2) synthesizes surface textures based on the input photos; and 3) infers textures for unobserved surfaces using a graph neural network architecture. To train and evaluate our system we create indoor surface texture datasets, and augment a dataset of floorplans and photos from prior work with rectified surface crops and additional annotations. Our approach handles the challenge of producing tileable textures for dominant surfaces such as floors, walls, and ceilings from a sparse set of unaligned photos that only partially cover the residence. Qualitative and quantitative evaluations show that our system produces realistic 3D interior models, outperforming baseline approaches on a suite of texture quality metrics and as measured by a holistic user study.
公開日:2021-06-09
翻訳日:2021-06-11 14:11:57
# 都市移動度トレンドを同定する適応的起源分岐流クラスタ検出法

An adaptive Origin-Destination flows cluster-detecting method to identify urban mobility trends ( http://arxiv.org/abs/2106.05436v1 )

ライセンス: Link先を確認
Mengyuan Fang, Luliang Tang, Zihan Kan, Xue Yang, Tao Pei, Qingquan Li, Chaokui Li(参考訳) オブジェクトの運動や相互作用の抽象表現としてのオリジン・デスティネーション(od)フローは、都市移動と人間と土地の相互作用のパターンを明らかにするために使われてきた。 重要な空間分析手法として,ポイントイベントのクラスタリング手法をodフローに拡張し,都市移動の主な傾向と空間構造を同定した。 しかし,既存のODフロークラスタ検出法は,空間的不均一性下での複雑なODフローのクラスタリングでは困難であり,パラメータ設定の違いにより,空間的スケールと不確実性の両方に制限されている。 そこで本稿では,様々な集約スケールのodフロークラスタを識別可能な光学アルゴリズムに基づく新しいodフロークラスタ検出法を提案する。 この方法は、事前の知識や人工的な介入なしにデータセットからパラメータ値を適応的に決定することができる。 実験の結果,提案手法はより正確で完全でノイズが少ない3つの最先端手法より優れていた。 本研究では,都市交通データ中のODフロークラスタを検出することにより,公共交通機関設定の潜在的経路を特定する手法を提案する。

Origin-Destination (OD) flow, as an abstract representation of the object`s movement or interaction, has been used to reveal the urban mobility and human-land interaction pattern. As an important spatial analysis approach, the clustering methods of point events have been extended to OD flows to identify the dominant trends and spatial structures of urban mobility. However, the existing methods for OD flow cluster-detecting are limited both in specific spatial scale and the uncertain result due to different parameters setting, which is difficult for complicated OD flows clustering under spatial heterogeneity. To address these limitations, in this paper, we proposed a novel OD flows cluster-detecting method based on the OPTICS algorithm which can identify OD flow clusters with various aggregation scales. The method can adaptively determine parameter value from the dataset without prior knowledge and artificial intervention. Experiments indicated that our method outperformed three state-of-the-art methods with more accurate and complete of clusters and less noise. As a case study, our method is applied to identify the potential routes for public transport service settings by detecting OD flow clusters within urban travel data.
公開日:2021-06-10
翻訳日:2021-06-11 14:11:40
# Out-of-distribution Pose and Depth and In-distribution Segmentation Trainingを用いた関節鏡からの3次元意味マッピング

3D Semantic Mapping from Arthroscopy using Out-of-distribution Pose and Depth and In-distribution Segmentation Training ( http://arxiv.org/abs/2106.05525v1 )

ライセンス: Link先を確認
Yaqub Jonmohamadi, Shahnewaz Ali, Fengbei Liu, Jonathan Roberts, Ross Crawford, Gustavo Carneiro, Ajay K. Pandey(参考訳) 最小侵襲手術 (MIS) には多くの利点があるが, 現場との視覚的接触は限られている。 したがって、外科医が3Dセマンティックマップを作成できるようなナビゲートを助けるシステムは、上記の制限を補うことができる。 理論的には、ロボット工学のために開発された3Dセマンティックマッピング技術を借りることができるが、これは、1)セマンティックセグメンテーション、2)深さ推定、3)ポーズ推定といったMISの課題に対する解決策を見つける必要がある。 本稿では,上述の3つの課題を解決する膝関節鏡からの3次元意味マッピングシステムを提案する。 ポーズのラベル付けが可能な非分布型データセットを使用して,自己教師付きおよび教師付き損失を用いた深さ+位置推定器を共同で訓練する。 関節鏡視下画像画素を大腿骨, ACL, 半月板にラベル付けるために, 完全教師付きセマンティックセマンティックセマンティクスシステムを構築した。 人間の膝から画像をテストすることで、これらの2つのシステムの結果を組み合わせて、人間の膝の3Dセマンティックマップを自動的に作成する。 本研究の成果は,術中3次元意味マッピングの生成,術前データによる登録,ロボット支援関節鏡への道を開く。

Minimally invasive surgery (MIS) has many documented advantages, but the surgeon's limited visual contact with the scene can be problematic. Hence, systems that can help surgeons navigate, such as a method that can produce a 3D semantic map, can compensate for the limitation above. In theory, we can borrow 3D semantic mapping techniques developed for robotics, but this requires finding solutions to the following challenges in MIS: 1) semantic segmentation, 2) depth estimation, and 3) pose estimation. In this paper, we propose the first 3D semantic mapping system from knee arthroscopy that solves the three challenges above. Using out-of-distribution non-human datasets, where pose could be labeled, we jointly train depth+pose estimators using selfsupervised and supervised losses. Using an in-distribution human knee dataset, we train a fully-supervised semantic segmentation system to label arthroscopic image pixels into femur, ACL, and meniscus. Taking testing images from human knees, we combine the results from these two systems to automatically create 3D semantic maps of the human knee. The result of this work opens the pathway to the generation of intraoperative 3D semantic mapping, registration with pre-operative data, and robotic-assisted arthroscopy
公開日:2021-06-10
翻訳日:2021-06-11 14:11:22
# コントラスト表現学習を用いたマスキング識別のためのマルチデータセットベンチマーク

Multi-Dataset Benchmarks for Masked Identification using Contrastive Representation Learning ( http://arxiv.org/abs/2106.05596v1 )

ライセンス: Link先を確認
Sachith Seneviratne, Nuran Kasthuriaarachchi, Sanka Rasnayaka(参考訳) 新型コロナウイルス(COVID-19)のパンデミックは世界中で受け入れられた基準を大きく変えた。 過去1年間、マスクはウイルスの感染拡大を制限するための公衆衛生対策として利用されてきた。 この突然の変化は多くの顔認識ベースのアクセス制御、認証、監視システムが無効になった。 パスポート、運転免許証、国籍カードなどの公式文書には、完全な顔画像が登録されている。 しかし、現在のグローバルな状況では、顔マッチングシステムはこれらの参照画像とマスクされた顔画像とをマッチングできるはずである。 例えば、空港やセキュリティチェックポイントでは、マスクの取り外しを依頼するのではなく、識別文書の未マスク画像とマスク付き人物とを一致させる方が安全である。 現在の顔認識技術はこの形態の閉塞に対して堅牢ではない。 現在の状況によって提示されるこのユニークな要件に対処するため、研究者が使用するデータセットとベンチマークのセットを提案する。 また,マスクとマスクのない顔マッチングに特化した,視覚表現学習に基づく事前学習ワークフローを提案する。 様々なデータ収集シナリオにまたがる人々を区別するために、この手法が堅牢な特徴を学習することを保証する。 さまざまなデータセットをトレーニングし、さまざまなホールトアウトデータセットをテストすることで結果を検証することで、これを実現する。 本手法で訓練された特殊重みは,マスキング顔と未マスク顔のマッチングの標準顔認識機能よりも優れている。 提供される合成マスク生成コード、新しいトレーニングアプローチ、およびマスク付き顔モデルからトレーニングされた重量は、現在のグローバル環境での運用に既存の顔認識システムを採用するのに役立つと信じている。 研究コミュニティによる幅広い利用のために、すべてのコントリビューションをオープンソースにしています。

The COVID-19 pandemic has drastically changed accepted norms globally. Within the past year, masks have been used as a public health response to limit the spread of the virus. This sudden change has rendered many face recognition based access control, authentication and surveillance systems ineffective. Official documents such as passports, driving license and national identity cards are enrolled with fully uncovered face images. However, in the current global situation, face matching systems should be able to match these reference images with masked face images. As an example, in an airport or security checkpoint it is safer to match the unmasked image of the identifying document to the masked person rather than asking them to remove the mask. We find that current facial recognition techniques are not robust to this form of occlusion. To address this unique requirement presented due to the current circumstance, we propose a set of re-purposed datasets and a benchmark for researchers to use. We also propose a contrastive visual representation learning based pre-training workflow which is specialized to masked vs unmasked face matching. We ensure that our method learns robust features to differentiate people across varying data collection scenarios. We achieve this by training over many different datasets and validating our result by testing on various holdout datasets. The specialized weights trained by our method outperform standard face recognition features for masked to unmasked face matching. We believe the provided synthetic mask generating code, our novel training approach and the trained weights from the masked face models will help in adopting existing face recognition systems to operate in the current global environment. We open-source all contributions for broader use by the research community.
公開日:2021-06-10
翻訳日:2021-06-11 14:10:58
# covilearn:covid-19の自動初期スクリーニングのための医療サイバーフィジカルシステムにおける機械学習統合型スマートx線デバイス

CoviLearn: A Machine Learning Integrated Smart X-Ray Device in Healthcare Cyber-Physical System for Automatic Initial Screening of COVID-19 ( http://arxiv.org/abs/2106.05861v1 )

ライセンス: Link先を確認
Debanjan Das, Chirag Samal, Deewanshu Ukey, Gourav Chowdhary, and Saraju P. Mohanty(参考訳) 新型コロナウイルス感染症(COVID-19)のパンデミックは世界中で広がり、深刻な健康問題や世界経済に深刻な影響を与えている。 新型コロナウイルス(covid-19)の信頼性と迅速な検査は、研究者や医療従事者にとって課題となっている。 本研究は、医療従事者が新型コロナウイルス患者の自動初期スクリーニングを行えるように、新しい機械学習(ML)統合X線デバイスをHealthcare Cyber-Physical System(H-CPS)またはスマートヘルスケアフレームワーク(CoviLearn)に提示する。 本稿では,x線装置に組み込まれたx線画像の畳み込みニューラルネットワーク(cnn)モデルを提案する。 提案装置は、患者の胸部x線画像を考慮して、新型コロナウイルス陽性か陰性かを検出するのに有用である。 CoviLearnは、唾液や血液などのより侵入的な医療データを採取することなく、新型コロナウイルス感染症を即時に検出する便利なツールである。 新型コロナウイルス(covid-19)は呼吸器を支える内皮組織を攻撃し、x線画像は患者の肺の健康分析に使用できる。 すべての医療センターにX線装置があるため、特定の検査キットなしで新型コロナウイルスの検査に提案されているコビレンX線を使用することができる。 99%の精度を持つ自動分析システムcovilearnは、x線装置が放射線専門家を必要とする場合に欠点となるため、医療専門家の貴重な時間を節約できる。

The pandemic of novel Coronavirus Disease 2019 (COVID-19) is widespread all over the world causing serious health problems as well as serious impact on the global economy. Reliable and fast testing of the COVID-19 has been a challenge for researchers and healthcare practitioners. In this work we present a novel machine learning (ML) integrated X-ray device in Healthcare Cyber-Physical System (H-CPS) or smart healthcare framework (called CoviLearn) to allow healthcare practitioners to perform automatic initial screening of COVID-19 patients. We propose convolutional neural network (CNN) models of X-ray images integrated into an X-ray device for automatic COVID-19 detection. The proposed CoviLearn device will be useful in detecting if a person is COVID-19 positive or negative by considering the chest X-ray image of individuals. CoviLearn will be useful tool doctors to detect potential COVID-19 infections instantaneously without taking more intrusive healthcare data samples, such as saliva and blood. COVID-19 attacks the endothelium tissues that support respiratory tract, X-rays images can be used to analyze the health of a patient lungs. As all healthcare centers have X-ray machines, it could be possible to use proposed CoviLearn X-rays to test for COVID-19 without the especial test kits. Our proposed automated analysis system CoviLearn which has 99% accuracy will be able to save valuable time of medical professionals as the X-ray machines come with a drawback as it needed a radiology expert.
公開日:2021-06-09
翻訳日:2021-06-11 14:10:36
# プライバシーポリシーの完全性チェックのためのAI対応自動化

AI-enabled Automation for Completeness Checking of Privacy Policies ( http://arxiv.org/abs/2106.05688v1 )

ライセンス: Link先を確認
Orlando Amaral, Sallam Abualhaija, Damiano Torre, Mehrdad Sabetzadeh, Lionel C. Briand(参考訳) 情報共有の技術進歩は、データ保護に関する懸念を引き起こしている。 プライバシポリシには、個人の個人情報が組織やソフトウェアシステム(Webサービスやアプリなど)によってどのように扱われるかに関するプライバシー関連の要件が含まれている。 欧州では、プライバシーポリシーはGDPR(General Data Protection Regulation)に準拠している。 GDPRコンプライアンスチェックの前提条件は、GDPRの規定に従ってプライバシーポリシーの内容が完了したかどうかを検証することである。 不完全なプライバシーポリシーは、組織や不完全なプライバシー関連ソフトウェア仕様に違反する大きな罰金をもたらす可能性がある。 手動の完全性チェックは時間とエラーが発生しやすい。 本稿では,プライバシーポリシーの完全性チェックのためのAIベースの自動化を提案する。 体系的な定性的手法により,まず2つの成果物を構築し,gdprのプライバシー関連規定,すなわち概念モデルと完全性基準を特徴付ける。 そして、自然言語処理と教師付き機械学習の組み合わせを利用して、これらの成果物の上に自動化されたソリューションを開発する。 具体的には、プライバシーポリシーにおけるGDPR関連情報コンテンツを特定し、その後、完全性基準に対してチェックする。 当社のアプローチを評価するため、ファンド業界から234の実際のプライバシーポリシーを収集しました。 48件の未確認のプライバシポリシで, 完全性基準の違反件数334件中300件を検出し, 偽陽性件数は23件とした。 このアプローチの精度は92.9%、リコールは89.8%である。 キーワード検索のみを適用したベースラインと比較すると,精度が24.5%,リコール率が38%向上した。

Technological advances in information sharing have raised concerns about data protection. Privacy policies contain privacy-related requirements about how the personal data of individuals will be handled by an organization or a software system (e.g., a web service or an app). In Europe, privacy policies are subject to compliance with the General Data Protection Regulation (GDPR). A prerequisite for GDPR compliance checking is to verify whether the content of a privacy policy is complete according to the provisions of GDPR. Incomplete privacy policies might result in large fines on violating organization as well as incomplete privacy-related software specifications. Manual completeness checking is both time-consuming and error-prone. In this paper, we propose AI-based automation for the completeness checking of privacy policies. Through systematic qualitative methods, we first build two artifacts to characterize the privacy-related provisions of GDPR, namely a conceptual model and a set of completeness criteria. Then, we develop an automated solution on top of these artifacts by leveraging a combination of natural language processing and supervised machine learning. Specifically, we identify the GDPR-relevant information content in privacy policies and subsequently check them against the completeness criteria. To evaluate our approach, we collected 234 real privacy policies from the fund industry. Over a set of 48 unseen privacy policies, our approach detected 300 of the total of 334 violations of some completeness criteria correctly, while producing 23 false positives. The approach thus has a precision of 92.9% and recall of 89.8%. Compared to a baseline that applies keyword search only, our approach results in an improvement of 24.5% in precision and 38% in recall.
公開日:2021-06-10
翻訳日:2021-06-11 14:10:12
# 学術プラジャリズム検出のための非テキストコンテンツ要素の解析

Analyzing Non-Textual Content Elements to Detect Academic Plagiarism ( http://arxiv.org/abs/2106.05764v1 )

ライセンス: Link先を確認
Norman Meuschke(参考訳) 学術的盗作の特定は、特に研究機関、出版者、資金機関にとって差し迫った問題である。 これまで提案されてきた検出手法は、語彙、構文、意味的テキスト類似性を解析する。 これらのアプローチは、コピーされ、適度に書き直され、文字通り翻訳されたテキストを見つける。 しかし、強い言い回し、センス・フォー・センス翻訳、非テキストコンテンツやアイデアの再利用など、確実に偽装された盗作を検知することは、オープンな研究課題である。 この論文は、学術文書の非テクストコンテンツ、特に引用、画像、数学的内容を分析する、異なる概念を実装する盗作検出アプローチを提案することでこの問題に対処する。 提案手法の有効性を検証するため,本論文では学術的盗用事例と未知事例の探索的探索を用いた5つの評価を行った。 評価の結果、非テクストコンテンツ要素は、言語に依存しない高い意味情報を含み、一般的に著者が盗作を隠すために行う変更にほとんど不変であることが示された。 非テキストコンテンツの分析は、テキストベースの検出アプローチを補完し、特に偽装された学術プラジャリズムに対する検出効率を高める。 本論文は, 引用ベース, 画像ベース, 数学ベース, テキストベースの文書類似性の分析を統合した, 初歩的な盗作検出システムについて述べる。 システムのユーザインタフェースでは、ユーザがコンテンツ類似性を調べる時間と労力を大幅に削減する視覚化を採用している。

Identifying academic plagiarism is a pressing problem, among others, for research institutions, publishers, and funding organizations. Detection approaches proposed so far analyze lexical, syntactical, and semantic text similarity. These approaches find copied, moderately reworded, and literally translated text. However, reliably detecting disguised plagiarism, such as strong paraphrases, sense-for-sense translations, and the reuse of non-textual content and ideas, is an open research problem. The thesis addresses this problem by proposing plagiarism detection approaches that implement a different concept: analyzing non-textual content in academic documents, specifically citations, images, and mathematical content. To validate the effectiveness of the proposed detection approaches, the thesis presents five evaluations that use real cases of academic plagiarism and exploratory searches for unknown cases. The evaluation results show that non-textual content elements contain a high degree of semantic information, are language-independent , and largely immutable to the alterations that authors typically perform to conceal plagiarism. Analyzing non-textual content complements text-based detection approaches and increases the detection effectiveness, particularly for disguised forms of academic plagiarism. To demonstrate the benefit of combining non-textual and text-based detection methods, the thesis describes the first plagiarism detection system that integrates the analysis of citation-based, image-based, math-based, and text-based document similarity. The system's user interface employs visualizations that significantly reduce the effort and time users must invest in examining content similarity.
公開日:2021-06-10
翻訳日:2021-06-11 14:09:47
# スマートグリッドにおける適応クラスタリングに基づく顧客セグメンテーションによる需要応答の複数動的価格設定

Multiple Dynamic Pricing for Demand Response with Adaptive Clustering-based Customer Segmentation in Smart Grids ( http://arxiv.org/abs/2106.05905v1 )

ライセンス: Link先を確認
Fanlin Meng, Qian Ma, Zixu Liu, Xiao-Jun Zeng(参考訳) 本稿では,小売市場における需要応答に対する現実的な多重動的価格手法を提案する。 まず、アダプティブクラスタリングに基づく顧客セグメンテーションフレームワークを提案し、顧客を異なるグループに分類し、使用パターンの効果的な識別を可能にする。 第2に、価格と需要の関係を明確に把握する重要な市場制約を持つカスタマイズされた需要モデルを開発し、モデル精度を改善し、有意義な価格設定を可能にする。 第三に、複数の価格ベースの需要応答は、現実的な市場制約を受ける利益の最大化問題として定式化される。 提案手法の全体的な目的は、グリッドオペレーター、顧客、小売業者といったシステムの様々な利害関係者に利益をもたらすために、顧客にとって「正しい」価格を達成することである。 提案手法は,実世界のデータセットに基づくシミュレーションにより評価される。

In this paper, we propose a realistic multiple dynamic pricing approach to demand response in the retail market. First, an adaptive clustering-based customer segmentation framework is proposed to categorize customers into different groups to enable the effective identification of usage patterns. Second, customized demand models with important market constraints which capture the price-demand relationship explicitly, are developed for each group of customers to improve the model accuracy and enable meaningful pricing. Third, the multiple pricing based demand response is formulated as a profit maximization problem subject to realistic market constraints. The overall aim of the proposed scalable and practical method aims to achieve 'right' prices for 'right' customers so as to benefit various stakeholders in the system such as grid operators, customers and retailers. The proposed multiple pricing framework is evaluated via simulations based on real-world datasets.
公開日:2021-06-10
翻訳日:2021-06-11 14:09:19
# MusicBERT: 大規模事前学習によるシンボリック音楽理解

MusicBERT: Symbolic Music Understanding with Large-Scale Pre-Training ( http://arxiv.org/abs/2106.05630v1 )

ライセンス: Link先を確認
Mingliang Zeng, Xu Tan, Rui Wang, Zeqian Ju, Tao Qin, Tie-Yan Liu(参考訳) シンボリック音楽理解 (symbolic music understanding) は、シンボリックデータ(例えばmidi形式だがオーディオではない)からの音楽の理解を指す用語であり、ジャンル分類、感情分類、楽曲マッチングなど多くの音楽応用をカバーしている。 これらの応用には良い音楽表現が有用であるが、トレーニングデータの欠如は表現学習を妨げる。 本稿では,自然言語処理における事前学習モデルの成功に触発されて,音楽理解のための大規模事前学習モデル musicbert を開発した。 この目的のために,100万曲以上の楽曲を含む大規模なシンボリック音楽コーパスを構築する。 シンボリック・ミュージックは、より構造的な(例えば、バー、位置)と多様な情報(例えば、テンポ、楽器、ピッチ)を含んでいるため、単にNLPからシンボリック・ミュージックへの事前学習技術を採用するだけで、限界利得しか得られない。 そこで我々は,OctupleMIDIエンコーディングやバーレベルのマスキング戦略を含むいくつかのメカニズムを設計し,シンボル音楽データによる事前学習を強化する。 実験は、メロディ補完、伴奏提案、ジャンル分類、スタイル分類を含む4つの音楽理解タスクにおけるMusicBERTの利点を示す。 また,MusicBERTにおけるOctupleMIDI符号化とバーレベルのマスキング戦略の有効性についても検討した。

Symbolic music understanding, which refers to the understanding of music from the symbolic data (e.g., MIDI format, but not audio), covers many music applications such as genre classification, emotion classification, and music pieces matching. While good music representations are beneficial for these applications, the lack of training data hinders representation learning. Inspired by the success of pre-training models in natural language processing, in this paper, we develop MusicBERT, a large-scale pre-trained model for music understanding. To this end, we construct a large-scale symbolic music corpus that contains more than 1 million music songs. Since symbolic music contains more structural (e.g., bar, position) and diverse information (e.g., tempo, instrument, and pitch), simply adopting the pre-training techniques from NLP to symbolic music only brings marginal gains. Therefore, we design several mechanisms, including OctupleMIDI encoding and bar-level masking strategy, to enhance pre-training with symbolic music data. Experiments demonstrate the advantages of MusicBERT on four music understanding tasks, including melody completion, accompaniment suggestion, genre classification, and style classification. Ablation studies also verify the effectiveness of our designs of OctupleMIDI encoding and bar-level masking strategy in MusicBERT.
公開日:2021-06-10
翻訳日:2021-06-11 14:09:04
# cocktail: パブリッククラウドでの最適化モデル提供にアンサンブル学習を活用する

Cocktail: Leveraging Ensemble Learning for Optimized Model Serving in Public Cloud ( http://arxiv.org/abs/2106.05345v1 )

ライセンス: Link先を確認
Jashwant Raj Gunasekaran, Cyan Subhra Mishra, Prashanth Thinakaran, Mahmut Taylan Kandemir, Chita R. Das(参考訳) さまざまなアプリケーションサービスにMLモデルを採用する必要性が高まっているため、これらのモデルが提供するフレームワークは、パブリッククラウド環境におけるデプロイメントコストの削減とともに、最小のレイテンシで、高精度な予測オプションを提供することができることが不可欠である。 レイテンシが高いにもかかわらず、この領域のプリンシパルな作業は、個々のモデルが提供するアククレーシーによって著しく制限される。 直感的には、モデルエンセムブリングは、微分モデルを並列にインテリジェントに組み合わせることで、精度ギャップに対処することができる。 しかし、最小限のデプロイメントコストで低レイテンシで所望の精度を満たすために実行時に動的にappro-priateモデルを選択することは、簡単な問題です。 そこで本研究では,コスト効率の高いアンサンブルモデル提供フレームワークであるCocktailを提案する。Cocktailは,(i)精度と遅延要求を満足しつつ,アンサンブル内のモデル数を削減する動的モデル選択フレームワーク,(ii)分散プロアクティブオートスケーリングポリティクスと重要サンプリングを組み合わせた適応型リソース管理(RM)フレームワークの2つの主要なコンポーネントで構成され,モデルのリソースを効率的にアロケートする。 rmフレームワークはtransient virtual machine (vm)インスタンスを活用して、パブリッククラウドでのデプロイメントコストを削減する。 aws ec2プラットフォームとさまざまなワークロードを使用した徹底したevalua-tionの実装では、cocktailがレイテンシの2倍削減と最大96%のリクエストのターゲット精度を満足しながら、デプロイコストを1.45倍削減できることが示されている。

With a growing demand for adopting ML models for a varietyof application services, it is vital that the frameworks servingthese models are capable of delivering highly accurate predic-tions with minimal latency along with reduced deploymentcosts in a public cloud environment. Despite high latency,prior works in this domain are crucially limited by the accu-racy offered by individual models. Intuitively, model ensem-bling can address the accuracy gap by intelligently combiningdifferent models in parallel. However, selecting the appro-priate models dynamically at runtime to meet the desiredaccuracy with low latency at minimal deployment cost is anontrivial problem. Towards this, we proposeCocktail, a costeffective ensembling-based model serving framework.Cock-tailc omprises of two key components: (i) a dynamic modelselection framework, which reduces the number of modelsin the ensemble, while satisfying the accuracy and latencyrequirements; (ii) an adaptive resource management (RM)framework that employs a distributed proactive autoscalingpolicy combined with importance sampling, to efficiently allo-cate resources for the models. The RM framework leveragestransient virtual machine (VM) instances to reduce the de-ployment cost in a public cloud. A prototype implementationofCock tailon the AWS EC2 platform and exhaustive evalua-tions using a variety of workloads demonstrate thatCocktailcan reduce deployment cost by 1.45x, while providing 2xreduction in latency and satisfying the target accuracy for upto 96% of the requests, when compared to state-of-the-artmode l-serving frameworks.
公開日:2021-06-09
翻訳日:2021-06-11 14:08:41
# 特別イベントの公共交通:乗車予測と列車最適化

Public Transit for Special Events: Ridership Prediction and Train Optimization ( http://arxiv.org/abs/2106.05359v1 )

ライセンス: Link先を確認
Tejas Santanam, Anthony Trasatti, Pascal Van Hentenryck, and Hanyu Zhang(参考訳) スポーツゲームやコンサートを含む多くの特別イベントは、しばしば交通システムに対する需要の急増と混雑を引き起こす。 したがって、交通機関は、ディスラプション、遅延、運賃収入への影響を理解することが重要である。 本稿では,AFC(Automated Fare Collection)データを利用して,特別なイベントによる混雑ピーク時の交通システムの性能評価,予測,管理を行う一連のデータ駆動手法を提案する。 これはメトロポリタン・アトランタ・ラピッド・トランジット・オーソリティ (Metropolitan Atlanta Rapid Transit Authority, MARTA) の鉄道データを用いて、アトランタ中心街の2つの主要スタジアムの乗客の広範な分析を含む。 論文はまず,イベント日とイベント日の両方において,各駅の集計レベルでの乗車率予測可能性について強調する。 そして、教師なしの機械学習モデルを提示し、乗客をクラスタ化し、乗っている列車を特定する。 このモデルは、列車ごとの乗客の負荷や乗客の待ち時間といった基本的な測定基準の観点からシステムパフォーマンスを評価することができる。 また、過去のスループット分析と組み合わせて需要予測に用いるライダーシップ予測のための線形回帰モデルとランダム森林モデルを提案する。 最後に、予測された需要に基づいて列車の周波数を最適化する提案手法を利用して、待ち時間と需要マッチングの潜在的な改善を示すシミュレーションを行う。

Many special events, including sport games and concerts, often cause surges in demand and congestion for transit systems. Therefore, it is important for transit providers to understand their impact on disruptions, delays, and fare revenues. This paper proposes a suite of data-driven techniques that exploit Automated Fare Collection (AFC) data for evaluating, anticipating, and managing the performance of transit systems during recurring congestion peaks due to special events. This includes an extensive analysis of ridership of the two major stadiums in downtown Atlanta using rail data from the Metropolitan Atlanta Rapid Transit Authority (MARTA). The paper first highlights the ridership predictability at the aggregate level for each station on both event and non-event days. It then presents an unsupervised machine-learning model to cluster passengers and identify which train they are boarding. The model makes it possible to evaluate system performance in terms of fundamental metrics such as the passenger load per train and the wait times of riders. The paper also presents linear regression and random forest models for predicting ridership that are used in combination with historical throughput analysis to forecast demand. Finally, simulations are performed that showcase the potential improvements to wait times and demand matching by leveraging proposed techniques to optimize train frequencies based on forecasted demand.
公開日:2021-06-09
翻訳日:2021-06-11 14:08:07
# 物理インフォームドディープオネットによるパラメトリック進化方程式の長期統合

Long-time integration of parametric evolution equations with physics-informed DeepONets ( http://arxiv.org/abs/2106.05384v1 )

ライセンス: Link先を確認
Sifan Wang, Paris Perdikaris(参考訳) 常微分方程式と偏微分方程式(odes/pdes)は、科学と工学の全分野にわたる複雑な動的過程の解析とシミュレーションにおいて重要な役割を果たす。 近年、機械学習ツールは、pdesをシミュレートする新しい効果的な方法を導入しようとしているが、既存のアプローチでは、長い時間軸にわたって安定かつ正確な予測を確実に返すことはできない。 ランダムな初期条件を関連するPDEソリューションに短時間でマッピングする無限次元演算子を学習するための効果的なフレームワークを導入することで、この問題に対処することを目指している。 このような潜在演算子は、ペアの入出力観測を必要とせずに、完全に自己監視された方法でトレーニングされるディープニューラルネットワークによってパラメトリ化することができる。 次に、各予測を次の評価ステップの初期条件として、訓練されたモデルを反復的に評価することにより、一連の初期条件にわたるグローバルな長期予測を得ることができる。 これは時間領域分解に新しいアプローチを導入し、波動伝播から反応拡散力学や固化化学力学まで幅広いパラメトリックODEとPDEシステムに対して、古典的な数値解法で必要とされる計算コストのごく一部で正確な長時間シミュレーションを行うのに有効であることを示した。

Ordinary and partial differential equations (ODEs/PDEs) play a paramount role in analyzing and simulating complex dynamic processes across all corners of science and engineering. In recent years machine learning tools are aspiring to introduce new effective ways of simulating PDEs, however existing approaches are not able to reliably return stable and accurate predictions across long temporal horizons. We aim to address this challenge by introducing an effective framework for learning infinite-dimensional operators that map random initial conditions to associated PDE solutions within a short time interval. Such latent operators can be parametrized by deep neural networks that are trained in an entirely self-supervised manner without requiring any paired input-output observations. Global long-time predictions across a range of initial conditions can be then obtained by iteratively evaluating the trained model using each prediction as the initial condition for the next evaluation step. This introduces a new approach to temporal domain decomposition that is shown to be effective in performing accurate long-time simulations for a wide range of parametric ODE and PDE systems, from wave propagation, to reaction-diffusion dynamics and stiff chemical kinetics, all at a fraction of the computational cost needed by classical numerical solvers.
公開日:2021-06-09
翻訳日:2021-06-11 14:07:46
# 合成相関データセットモデルを用いた転送学習の探索

Probing transfer learning with a model of synthetic correlated datasets ( http://arxiv.org/abs/2106.05418v1 )

ライセンス: Link先を確認
Federica Gerace, Luca Saglietti, Stefano Sarao Mannelli, Andrew Saxe, Lenka Zdeborov\'a(参考訳) 転送学習は、データスカース目標タスクとデータアバウントソースタスクの関連性を活用することにより、ニューラルネットワークのサンプル効率を著しく向上させることができる。 長年の応用にもかかわらず、転送学習の実践はしばしばアドホックな解に依存するが、理論的な理解はまだ限られている。 本研究では,データセット間の相関をモデル化するためのフレームワークとして,合成データの可解モデルを再考する。 この設定により、学習した特徴マップをソースからターゲットタスクに転送する際に得られる一般化性能を解析的に評価することができる。 二層ネットワークを二層分類設定でトレーニングする問題に着目し,本モデルが実データを用いた伝達学習の多彩な特徴を捉えることができることを示す。 さらに, 2つのデータセット間の相関をパラメトリック制御することにより, 特徴の伝達が一般化に有用である条件を体系的に検討する。

Transfer learning can significantly improve the sample efficiency of neural networks, by exploiting the relatedness between a data-scarce target task and a data-abundant source task. Despite years of successful applications, transfer learning practice often relies on ad-hoc solutions, while theoretical understanding of these procedures is still limited. In the present work, we re-think a solvable model of synthetic data as a framework for modeling correlation between data-sets. This setup allows for an analytic characterization of the generalization performance obtained when transferring the learned feature map from the source to the target task. Focusing on the problem of training two-layer networks in a binary classification setting, we show that our model can capture a range of salient features of transfer learning with real data. Moreover, by exploiting parametric control over the correlation between the two data-sets, we systematically investigate under which conditions the transfer of features is beneficial for generalization.
公開日:2021-06-09
翻訳日:2021-06-11 14:07:23
# 個別に公平なクラスタリングの新しい概念:$\alpha$-equitable $k$-center

A New Notion of Individually Fair Clustering: $\alpha$-Equitable $k$-Center ( http://arxiv.org/abs/2106.05423v1 )

ライセンス: Link先を確認
Darshan Chakrabarti, John P. Dickerson, Seyed A. Esmaeili, Aravind Srinivasan, Leonidas Tsepenekas(参考訳) クラスタリングは教師なし機械学習の基本的な問題であり、その公正なバリエーションは近年大きな注目を集めている。 本稿では,クラスタリング問題に対する公平性の新たな定義を提案する。 特に、我々のモデルでは、j$ は他の点の集合 $\mathcal{S}_j$ を持ち、それがそれ自身と似ていると認識し、ソリューションで受け取るサービスの品質が $\mathcal{S}_j$ の点の集合 $\alpha$-close であるなら、かなり扱われていると感じている。 問題の構造、すなわち、$\alpha$の値が適切に定義されているか、そしてそれに対する公正価格(PoF)の振舞いについて、質問に答えることから研究を開始する。 適切に定義された$\alpha$の領域に対して、$k$-centerの目的に対して効率的かつ容易に実装可能な近似アルゴリズムを提供する。 我々は最終的に、理論結果の有効性を検証する広範な実験によって分析を補完する。

Clustering is a fundamental problem in unsupervised machine learning, and fair variants of it have recently received significant attention. In this work we introduce a novel definition of fairness for clustering problems. Specifically, in our model each point $j$ has a set of other points $\mathcal{S}_j$ that it perceives as similar to itself, and it feels that it is fairly treated, if the quality of service it receives in the solution is $\alpha$-close to that of the points in $\mathcal{S}_j$. We begin our study by answering questions regarding the structure of the problem, namely for what values of $\alpha$ the problem is well-defined, and what the behavior of the Price of Fairness (PoF) for it is. For the well-defined region of $\alpha$, we provide efficient and easily implementable approximation algorithms for the $k$-center objective, which in certain cases also enjoy bounded PoF guarantees. We finally complement our analysis by an extensive suite of experiments that validates the effectiveness of our theoretical results.
公開日:2021-06-09
翻訳日:2021-06-11 14:07:10
# グラフカット問題による公平な災害封じ込め

Fair Disaster Containment via Graph-Cut Problems ( http://arxiv.org/abs/2106.05424v1 )

ライセンス: Link先を確認
Amy Babay, Michael Dinitz, Prathyush Sambaturu, Aravind Srinivasan, Leonidas Tsepenekas, Anil Vullikanti(参考訳) グラフカット問題は組合せ最適化の基本的な問題タイプを形成し、理論と実践の両方において中心的な研究対象となっている。 さらに、アルゴリズム設計と機械学習における公正性の研究は、最近、様々な文脈において多くの異なる概念が提案され分析され、大きな注目を集めている。 本稿では, グラフ切断問題に対する公平性について, 最初の公正な定義を与えて検討し, 厳密な理論的解析をもたらす適切なアルゴリズム手法を実証する。 具体的には、人口統計学と確率論的個人公正という2つの異なるフェアネスの定義を、特定のカット問題モデリング災害封じ込めシナリオに取り入れる。 我々の結果は、証明可能な理論的保証を持つ様々な近似アルゴリズムを含む。

Graph cut problems form a fundamental problem type in combinatorial optimization, and are a central object of study in both theory and practice. In addition, the study of fairness in Algorithmic Design and Machine Learning has recently received significant attention, with many different notions proposed and analyzed in a variety of contexts. In this paper we initiate the study of fairness for graph cut problems by giving the first fair definitions for them, and subsequently we demonstrate appropriate algorithmic techniques that yield a rigorous theoretical analysis. Specifically, we incorporate two different definitions of fairness, namely demographic and probabilistic individual fairness, in a particular cut problem modeling disaster containment scenarios. Our results include a variety of approximation algorithms with provable theoretical guarantees.
公開日:2021-06-09
翻訳日:2021-06-11 14:06:47
# 準ニュートン法の局所収束のグローバル化:適応サンプルサイズアプローチ

Exploiting Local Convergence of Quasi-Newton Methods Globally: Adaptive Sample Size Approach ( http://arxiv.org/abs/2106.05445v1 )

ライセンス: Link先を確認
Qiujiang Jin, Aryan Mokhtari(参考訳) 本稿では,大規模なデータセット上で定義された経験的リスク最小化(ERM)問題に対する準ニュートン法の適用について検討する。 従来の決定論的および確率的準ニュートン法はそのような問題を解決するために実行することができるが、その大域収束率は一階法よりも良くなく、局所超線形収束は学習プロセスの終わりにのみ現れることが知られている。 本稿では,準ニュートン法の超線形収束を利用する適応的サンプルサイズスキームを用いて,学習過程全体を通して学習を行う。 提案する適応型サンプルサイズアルゴリズムの主な考え方は,まずデータポイントの小さなサブセットから出発し,その統計的精度で対応するEMM問題を解き,次いで,サンプルサイズを幾何的に拡大し,それに対応する問題の最適解を,その後のERM問題をより多くのサンプルで解くための初期点として利用することである。 初期サンプルサイズが十分に大きく、準ニュートン法を用いて各サブプロブレムを解くと、準ニュートン法が超直線的に収束する近傍で常にイテレートが維持されることを保証するため、サブプロブレムは超直線的に(少なくとも3回の反復で)解ける。 各種データセットの数値実験により理論的結果を確認し,提案手法の計算上の利点を実証した。

In this paper, we study the application of quasi-Newton methods for solving empirical risk minimization (ERM) problems defined over a large dataset. Traditional deterministic and stochastic quasi-Newton methods can be executed to solve such problems; however, it is known that their global convergence rate may not be better than first-order methods, and their local superlinear convergence only appears towards the end of the learning process. In this paper, we use an adaptive sample size scheme that exploits the superlinear convergence of quasi-Newton methods globally and throughout the entire learning process. The main idea of the proposed adaptive sample size algorithms is to start with a small subset of data points and solve their corresponding ERM problem within its statistical accuracy, and then enlarge the sample size geometrically and use the optimal solution of the problem corresponding to the smaller set as an initial point for solving the subsequent ERM problem with more samples. We show that if the initial sample size is sufficiently large and we use quasi-Newton methods to solve each subproblem, the subproblems can be solved superlinearly fast (after at most three iterations), as we guarantee that the iterates always stay within a neighborhood that quasi-Newton methods converge superlinearly. Numerical experiments on various datasets confirm our theoretical results and demonstrate the computational advantages of our method.
公開日:2021-06-10
翻訳日:2021-06-11 14:06:34
# BERTを用いた意味認識型バイナリコード表現

Semantic-aware Binary Code Representation with BERT ( http://arxiv.org/abs/2106.05478v1 )

ライセンス: Link先を確認
Hyungjoon Koo, Soyeon Park, Daejin Choi, Taesoo Kim(参考訳) バグ発見、マルウェア分析、コードクローン検出など、幅広いバイナリ分析アプリケーションでは、バイナリコード上でのコンテキスト意味の回復が必要である。 近年,解析アルゴリズムの具体化を手作業で行うのではなく,バイナリのコード表現を自動的に再構築する機械学習に基づくバイナリ解析手法が提案されている。 しかし、機械学習を利用する既存のアプローチは、1つの領域の問題を解くのに特化しており、異なるタイプのバイナリ分析のためのモデルのレクリエーションを行っている。 本稿では,バイナリコードのセマンティックなコード表現を生成するためにBERTを利用するDeepSemanticを提案する。 そこで本研究では,オフオブボキャブラリー問題 (oov) を最小化しつつ,各命令に対して豊富な情報を保持する,バランスの取れた命令正規化を導入する。 DeepSemanticは、大量のバイナリを用いて、我々の研究に基づいて慎重に設計されている。 さらに、deepsemanticはbertアーキテクチャの本質を活用して、事前訓練されたジェネリックモデルを再提案し、ワンタイム処理として容易に利用し、その後、微調整プロセスで特定のダウンストリームタスクを迅速に適用する。 我々は、DeepSemanticを2つのダウンストリームタスク、すなわちバイナリ類似性比較とコンパイラ証明(コンパイラと最適化レベル)予測で実証する。 実験の結果,2値類似性モデルは,DeepBinDiffとSAFEの2つの最先端の2値類似性ツール,平均で49.84%,平均で15.83%を上回っていることがわかった。

A wide range of binary analysis applications, such as bug discovery, malware analysis and code clone detection, require recovery of contextual meanings on a binary code. Recently, binary analysis techniques based on machine learning have been proposed to automatically reconstruct the code representation of a binary instead of manually crafting specifics of the analysis algorithm. However, the existing approaches utilizing machine learning are still specialized to solve one domain of problems, rendering recreation of models for different types of binary analysis. In this paper, we propose DeepSemantic utilizing BERT in producing the semantic-aware code representation of a binary code. To this end, we introduce well-balanced instruction normalization that holds rich information for each of instructions yet minimizing an out-of-vocabulary (OOV) problem. DeepSemantic has been carefully designed based on our study with large swaths of binaries. Besides, DeepSemantic leverages the essence of the BERT architecture into re-purposing a pre-trained generic model that is readily available as a one-time processing, followed by quickly applying specific downstream tasks with a fine-tuning process. We demonstrate DeepSemantic with two downstream tasks, namely, binary similarity comparison and compiler provenance (i.e., compiler and optimization level) prediction. Our experimental results show that the binary similarity model outperforms two state-of-the-art binary similarity tools, DeepBinDiff and SAFE, 49.84% and 15.83% on average, respectively.
公開日:2021-06-10
翻訳日:2021-06-11 14:06:09
# 逆選択型階層的模倣学習

Adversarial Option-Aware Hierarchical Imitation Learning ( http://arxiv.org/abs/2106.05530v1 )

ライセンス: Link先を確認
Mingxuan Jing, Wenbing Huang, Fuchun Sun, Xiaojian Ma, Tao Kong, Chuang Gan, Lei Li(参考訳) 長期にわたる無注釈のデモンストレーションからエージェントのスキルを学ぶことは困難である。 階層的模倣学習(hil)のような既存のアプローチは、エラーや副最適解を複雑化する傾向がある。 本稿では,長距離学習のための新しい手法であるOption-GAILを提案する。 Option-GAILのキーとなるアイデアは、タスク階層をオプションでモデル化し、生成的敵最適化を通じてポリシーをトレーニングすることだ。 特に,期待最大化(em)方式のアルゴリズムを提案する。e-stepは現在の学習方針に基づく専門家の選択肢をサンプリングし,m-stepはエージェントの低レベルおよび高レベルポリシーを同時に更新し,新たに提案されたエキスパートとエージェント間のオプション占有率測定を最小化する。 提案するアルゴリズムの収束を理論的に証明する。 実験によると、option-gailはさまざまなタスクにおいて、他のオプションよりも優れています。

It has been a challenge to learning skills for an agent from long-horizon unannotated demonstrations. Existing approaches like Hierarchical Imitation Learning(HIL) are prone to compounding errors or suboptimal solutions. In this paper, we propose Option-GAIL, a novel method to learn skills at long horizon. The key idea of Option-GAIL is modeling the task hierarchy by options and train the policy via generative adversarial optimization. In particular, we propose an Expectation-Maximiza tion(EM)-style algorithm: an E-step that samples the options of expert conditioned on the current learned policy, and an M-step that updates the low- and high-level policies of agent simultaneously to minimize the newly proposed option-occupancy measurement between the expert and the agent. We theoretically prove the convergence of the proposed algorithm. Experiments show that Option-GAIL outperforms other counterparts consistently across a variety of tasks.
公開日:2021-06-10
翻訳日:2021-06-11 14:05:44
# 可変ロバストLQR層

Differentiable Robust LQR Layers ( http://arxiv.org/abs/2106.05535v1 )

ライセンス: Link先を確認
Ngo Anh Vien and Gerhard Neumann(参考訳) 本稿では,モデル不確実性と確率力学に基づく強化学習と模倣学習のための,微分可能な頑健なLQR層を提案する。 ロバストなlqr層はロバスト最適制御とモデルフリー学習の利点を活用できる。 制御系における確率性と不確実性モデリングのための新しいタイプの帰納バイアスを提供する。 特に,ロバストなlqr最適化プログラムを凸プログラムとして書き換えることで,効率的な識別手法を提案する。 最悪のケースコストの半確定プログラム)。 ニューラルネットワーク層の内部で凸最適化を使用することに関する最近の研究に基づいて、この最悪のコストを最適化する、完全に差別化可能なレイヤを開発する。 評価尺度 w.r.t の導出をモデルの未知パラメータ、モデル不確かさ、確率パラメータとして計算する。 確率的および不確実な領域における模倣学習と近似動的プログラミングの手法を実証する。 実験の結果,提案手法は不確定な状況下でロバストなポリシーを最適化でき,不確実性を直接モデル化しない既存の手法よりも大幅に優れた性能が得られることがわかった。

This paper proposes a differentiable robust LQR layer for reinforcement learning and imitation learning under model uncertainty and stochastic dynamics. The robust LQR layer can exploit the advantages of robust optimal control and model-free learning. It provides a new type of inductive bias for stochasticity and uncertainty modeling in control systems. In particular, we propose an efficient way to differentiate through a robust LQR optimization program by rewriting it as a convex program (i.e. semi-definite program) of the worst-case cost. Based on recent work on using convex optimization inside neural network layers, we develop a fully differentiable layer for optimizing this worst-case cost, i.e. we compute the derivative of a performance measure w.r.t the model's unknown parameters, model uncertainty and stochasticity parameters. We demonstrate the proposed method on imitation learning and approximate dynamic programming on stochastic and uncertain domains. The experiment results show that the proposed method can optimize robust policies under uncertain situations, and are able to achieve a significantly better performance than existing methods that do not model uncertainty directly.
公開日:2021-06-10
翻訳日:2021-06-11 14:05:30
# バックプロパゲーションの代わりにフロントコントリビューション

Front Contribution instead of Back Propagation ( http://arxiv.org/abs/2106.05569v1 )

ライセンス: Link先を確認
Swaroop Mishra, Anjana Arunkumar(参考訳) Deep Learningのいくつかのドメインにわたる卓越したトラックレコードは、エラーバックプロパゲーション(BP)の使用に起因している。 しかし、いくつかの研究により、実際の脳でBPを実行することは不可能であることが示されている。 また、BPは依然としてメモリ使用量と速度の重要かつ未解決のボトルネックとして機能している。 本稿では,BPのコンパクトな代替として,シンプルで斬新なFront-Contributionアルゴリズムを提案する。 最終層重みに関する全ての重みの寄与は、トレーニング開始前に計算され、全ての寄与は最終層の重みに付加される。 このアルゴリズムはネットワークを本質的に崩壊させ、最終層ではなく全重みの重み上げの必要性を予知する。 このパラメータの削減により、メモリ使用量が減少し、トレーニング速度が向上する。 近年提案されているBP近似アルゴリズムとは対照的に,提案アルゴリズムはBPと全く同じ出力を生成する。 予備実験では,提案アルゴリズムの有効性を実証した。 私たちの研究は、現在未調査の"事前貢献"を効果的に活用するための基盤を提供し、次世代のトレーニングアルゴリズムを刺激するのに役立ちます。

Deep Learning's outstanding track record across several domains has stemmed from the use of error backpropagation (BP). Several studies, however, have shown that it is impossible to execute BP in a real brain. Also, BP still serves as an important and unsolved bottleneck for memory usage and speed. We propose a simple, novel algorithm, the Front-Contribution algorithm, as a compact alternative to BP. The contributions of all weights with respect to the final layer weights are calculated before training commences and all the contributions are appended to weights of the final layer, i.e., the effective final layer weights are a non-linear function of themselves. Our algorithm then essentially collapses the network, precluding the necessity for weight updation of all weights not in the final layer. This reduction in parameters results in lower memory usage and higher training speed. We show that our algorithm produces the exact same output as BP, in contrast to several recently proposed algorithms approximating BP. Our preliminary experiments demonstrate the efficacy of the proposed algorithm. Our work provides a foundation to effectively utilize these presently under-explored "front contributions", and serves to inspire the next generation of training algorithms.
公開日:2021-06-10
翻訳日:2021-06-11 14:05:14
# 機械学習によるマルウェアの検出と分類のための自動化パイプラインの提案

Towards an Automated Pipeline for Detecting and Classifying Malware through Machine Learning ( http://arxiv.org/abs/2106.05625v1 )

ライセンス: Link先を確認
Nicola Loi, Claudio Borile, Daniele Ucci(参考訳) マルウェアの数(コンピュータや情報ネットワークにとって潜在的に有害なソフトウェアやコードフラグメント)の絶え間ない増加と、高度な回避と難読化技術の使用は、古典的なシグネチャベースのアプローチをひどく妨げている。 一方で、機械学習技術に基づくマルウェア検出システムは、分析時間を劇的に短縮し、回避や難読化技術に対してより堅牢であることが判明した、標準的なアプローチに代わる有望な手段を提供し始めた。 本稿では,Windows Portable Executable File (PE) を分類できるマルウェア分類パイプラインを提案する。 入力PEサンプルが与えられた場合、悪意または良性のいずれかに分類される。 悪意のある場合、パイプラインは脅威タイプ、家族、行動(s)を確立するためにさらに分析する。 提案したパイプラインを,約100万個のPEサンプルを含むオープンソースのデータセットEMBERで静的解析により検証した。 得られたマルウェア検出結果は,現状の他の学術研究に匹敵するものであり,また,悪意のあるサンプルの詳細な分類も提供する。 パイプラインで使用されるモデルは解釈可能な結果を提供し、セキュリティアナリストが自動パイプラインによる決定をよりよく理解するのに役立つ。

The constant growth in the number of malware - software or code fragment potentially harmful for computers and information networks - and the use of sophisticated evasion and obfuscation techniques have seriously hindered classic signature-based approaches. On the other hand, malware detection systems based on machine learning techniques started offering a promising alternative to standard approaches, drastically reducing analysis time and turning out to be more robust against evasion and obfuscation techniques. In this paper, we propose a malware taxonomic classification pipeline able to classify Windows Portable Executable files (PEs). Given an input PE sample, it is first classified as either malicious or benign. If malicious, the pipeline further analyzes it in order to establish its threat type, family, and behavior(s). We tested the proposed pipeline on the open source dataset EMBER, containing approximately 1 million PE samples, analyzed through static analysis. Obtained malware detection results are comparable to other academic works in the current state of art and, in addition, we provide an in-depth classification of malicious samples. Models used in the pipeline provides interpretable results which can help security analysts in better understanding decisions taken by the automated pipeline.
公開日:2021-06-10
翻訳日:2021-06-11 14:04:57
# dFDA-VeD: ダイナミックな将来需要対応車間通信システム

dFDA-VeD: A Dynamic Future Demand Aware Vehicle Dispatching System ( http://arxiv.org/abs/2106.05737v1 )

ライセンス: Link先を確認
Yang Guo and Tarique Anwar and Jian Yang and Jia Wu(参考訳) スマートモビリティの需要が高まる中、ライドシェアサービスは都市部で人気が高まっている。 これらのサービスは、利用可能な車両をピックアップポイントに送付することで、到着した旅行要求をサービスするシステムを維持している。 プロセスは社会的に経済的に利益を上げる必要があるため、特に交通需要や交通状況が厳しいため、配車作業は非常に困難である。 交通需要の不均一な分布のため、異なる地域での運行中に多くのアイドル車両が生産された。 既存の車両派遣システムのほとんどは、アイドル車両の移転のために静的な移転センターを設計した。 しかし、交通条件や需要分布は時間とともに動的に変化するため、静的解は進化する状況に適合しない。 本稿では,動的な将来需要対応型配車システムを提案する。 移動需要と交通条件の両方を考慮して移動センターを動的に探索することができる。 実世界のデータセット上でシステム評価を行い、実験における既存の最先端手法と比較し、いくつかの標準評価指標と運用時間の観点から比較した。 実験により,提案方式は供用率を大幅に改善し,運用コストが極めて小さくなることを示した。

With the rising demand of smart mobility, ride-hailing service is getting popular in the urban regions. These services maintain a system for serving the incoming trip requests by dispatching available vehicles to the pickup points. As the process should be socially and economically profitable, the task of vehicle dispatching is highly challenging, specially due to the time-varying travel demands and traffic conditions. Due to the uneven distribution of travel demands, many idle vehicles could be generated during the operation in different subareas. Most of the existing works on vehicle dispatching system, designed static relocation centers to relocate idle vehicles. However, as traffic conditions and demand distribution dynamically change over time, the static solution can not fit the evolving situations. In this paper, we propose a dynamic future demand aware vehicle dispatching system. It can dynamically search the relocation centers considering both travel demand and traffic conditions. We evaluate the system on real-world dataset, and compare with the existing state-of-the-art methods in our experiments in terms of several standard evaluation metrics and operation time. Through our experiments, we demonstrate that the proposed system significantly improves the serving ratio and with a very small increase in operation cost.
公開日:2021-06-10
翻訳日:2021-06-11 14:04:38
# ハイブリッド機械学習によるuefa euro 2020の予測

Hybrid Machine Learning Forecasts for the UEFA EURO 2020 ( http://arxiv.org/abs/2106.05799v1 )

ライセンス: Link先を確認
Andreas Groll, Lars Magnus Hvattum, Christophe Ley, Franziska Popp, Gunther Schauberger, Hans Van Eetvelde, Achim Zeileis(参考訳) サッカーの試合を予測するための3つの最先端統計ランキング手法は、ハイブリッド機械学習モデルにおいて、他のいくつかの予測器と組み合わせられる。 すなわち、歴史的試合に基づく各チームに対する能力推定、ブックメーカーのコンセンサスに基づく各チームに対する能力推定、ホームクラブやナショナルチームにおける個々のパフォーマンスに基づく平均プラスマイナスプレイヤー評価、さらにチーム共変量(市場価値、チーム構造など)、国固有の社会経済的要因(人口、GDP)などである。 提案された組み合わせアプローチは、以前の4つのuefa euros 2004-2016から獲得したゴール数を学習し、現在の情報に適用し、今後のuefa euro 2020を予測するために使用される。 結果に基づいて、トーナメントを繰り返しシミュレートし、すべてのチームに対して勝利確率を得る。 ランダム森林モデルは、イングランド(13.5%)とスペイン(12.3%)よりも14.8%の勝利確率で、現在の世界チャンピオンフランスを好んでいる。 さらに、すべてのチームとすべてのトーナメントステージに生存確率を提供します。

Three state-of-the-art statistical ranking methods for forecasting football matches are combined with several other predictors in a hybrid machine learning model. Namely an ability estimate for every team based on historic matches; an ability estimate for every team based on bookmaker consensus; average plus-minus player ratings based on their individual performances in their home clubs and national teams; and further team covariates (e.g., market value, team structure) and country-specific socio-economic factors (population, GDP). The proposed combined approach is used for learning the number of goals scored in the matches from the four previous UEFA EUROs 2004-2016 and then applied to current information to forecast the upcoming UEFA EURO 2020. Based on the resulting estimates, the tournament is simulated repeatedly and winning probabilities are obtained for all teams. A random forest model favors the current World Champion France with a winning probability of 14.8% before England (13.5%) and Spain (12.3%). Additionally, we provide survival probabilities for all teams and at all tournament stages.
公開日:2021-06-07
翻訳日:2021-06-11 14:04:21
# 因果グラフ構造を識別するメタ学習手法

A Meta Learning Approach to Discerning Causal Graph Structure ( http://arxiv.org/abs/2106.05859v1 )

ライセンス: Link先を確認
Justin Wong and Dominik Damjakob(参考訳) 分布の単純度を最適化することにより,変数間の因果方向を導出するためのメタラーニングの活用について検討する。 潜在変数を含む確率グラフ表現を導入し、より一般化性とグラフ構造表現を可能にする。 我々のモデルは、潜在共同設立者の影響にもかかわらず、複雑なグラフ構造の因果方向インジケータを学習することができる。 さらに,分布的仮定とデータ不足の違反に関して,本手法の堅牢性について検討する。 我々のモデルは、特に控えめなデータ不足に対して堅牢であるが、分布の変化に対して堅牢ではない。 モデル予測を確率的事象として解釈することにより,偏りのある事象の平均として結果変動を減少させる単純なアンサンブル手法の分類法を提案する。 この方法論は、データ分布間の因果関係の方向だけでなく、その存在を推測する能力を示す。

We explore the usage of meta-learning to derive the causal direction between variables by optimizing over a measure of distribution simplicity. We incorporate a stochastic graph representation which includes latent variables and allows for more generalizability and graph structure expression. Our model is able to learn causal direction indicators for complex graph structures despite effects of latent confounders. Further, we explore robustness of our method with respect to violations of our distributional assumptions and data scarcity. Our model is particularly robust to modest data scarcity, but is less robust to distributional changes. By interpreting the model predictions as stochastic events, we propose a simple ensemble method classifier to reduce the outcome variability as an average of biased events. This methodology demonstrates ability to infer the existence as well as the direction of a causal relationship between data distributions.
公開日:2021-06-06
翻訳日:2021-06-11 14:04:00
# 重み付き雑音を用いた非スムース確率最適化のための近最適高確率複雑性境界

Near-Optimal High Probability Complexity Bounds for Non-Smooth Stochastic Optimization with Heavy-Tailed Noise ( http://arxiv.org/abs/2106.05958v1 )

ライセンス: Link先を確認
Eduard Gorbunov, Marina Danilova, Innokentiy Shibaev, Pavel Dvurechensky, Alexander Gasnikov(参考訳) データの実用的効率性とランダム性により、確率的一階法は大規模機械学習モデルのトレーニングに標準となっている。 ランダムな振る舞いはアルゴリズムの特定の実行を非常に最適でない目的値にさせるが、理論的な保証は通常目的値の期待に対して証明される。 したがって、アルゴリズムが小さな目標残差を高い確率で提供することを理論的に保証することが不可欠である。 既存の非滑らかな確率凸最適化の方法は、負のパワーまたは対数的な信頼度に依存するが、いくつかのNLPタスクのように実際には保持されない準ガウス雑音分布の仮定の下で、複雑性を持つ。 本稿では,この問題を解き,非ガウス雑音を用いた非滑らか凸確率確率最適化問題に対する信頼度に対数的依存を持つ最初の高確率収束結果を得る。 そこで本研究では,勾配クリッピングを用いた2つの確率的手法のステップサイズルールを提案する。 さらに,H\ より古い連続勾配を用いた一般化された滑らかな対象に対して解析を行い,両手法とも強い凸問題に対する拡張を提供する。 最後に,本研究では,第1の(加速)手法が,すべてのレジームにおいて最適な反復とoracleの複雑さを持ち,第2の手法が非スムース設定において最適であることを示す。

Thanks to their practical efficiency and random nature of the data, stochastic first-order methods are standard for training large-scale machine learning models. Random behavior may cause a particular run of an algorithm to result in a highly suboptimal objective value, whereas theoretical guarantees are usually proved for the expectation of the objective value. Thus, it is essential to theoretically guarantee that algorithms provide small objective residual with high probability. Existing methods for non-smooth stochastic convex optimization have complexity bounds with the dependence on the confidence level that is either negative-power or logarithmic but under an additional assumption of sub-Gaussian (light-tailed) noise distribution that may not hold in practice, e.g., in several NLP tasks. In our paper, we resolve this issue and derive the first high-probability convergence results with logarithmic dependence on the confidence level for non-smooth convex stochastic optimization problems with non-sub-Gaussian (heavy-tailed) noise. To derive our results, we propose novel stepsize rules for two stochastic methods with gradient clipping. Moreover, our analysis works for generalized smooth objectives with H\"older-continuous gradients, and for both methods, we provide an extension for strongly convex problems. Finally, our results imply that the first (accelerated) method we consider also has optimal iteration and oracle complexity in all the regimes, and the second one is optimal in the non-smooth setting.
公開日:2021-06-10
翻訳日:2021-06-11 14:03:48
# StreamBrain: CPU、GPU、FPGA上の脳のようなニューラルネットワークのためのHPCフレームワーク

StreamBrain: An HPC Framework for Brain-like Neural Networks on CPUs, GPUs and FPGAs ( http://arxiv.org/abs/2106.05373v1 )

ライセンス: Link先を確認
Artur Podobas, Martin Svedin, Steven W. D. Chien, Ivy B. Peng, Naresh Balaji Ravichandran, Pawel Herman, Anders Lansner, Stefano Markidis(参考訳) バックプロパゲーションに基づく現代のディープラーニング手法は、人気が高まり、複数のドメインやアプリケーション領域で使われている。 同時に、成熟した堅固な理論基盤を持つ他の(あまり知られていない)機械学習アルゴリズムもある。 そのような例としては、bcpnn(brain-like bayesian confidence propagation neural network)がある。 本稿では,BCPNNをベースとしたニューラルネットワークを,高性能コンピューティングシステムに実用化可能なフレームワークであるStreamBrainを紹介する。 StreamBrainはドメイン固有言語(DSL)であり、既存の機械学習(ML)フレームワークと同様のコンセプトで、CPU、GPU、FPGAのバックエンドをサポートする。 我々は、StreamBrainがよく知られたMLベンチマークデータセットMNISTを数秒でトレーニングできることを実証的に実証し、STL-10サイズネットワーク上でBCPNNを初めて実演した。 また,カスタム浮動小数点フォーマットでstreambrainをトレーニングする方法を示し,fpgaを用いたbcpnnにおけるbfloatのバリエーションの違いが与える影響について述べる。

The modern deep learning method based on backpropagation has surged in popularity and has been used in multiple domains and application areas. At the same time, there are other -- less-known -- machine learning algorithms with a mature and solid theoretical foundation whose performance remains unexplored. One such example is the brain-like Bayesian Confidence Propagation Neural Network (BCPNN). In this paper, we introduce StreamBrain -- a framework that allows neural networks based on BCPNN to be practically deployed in High-Performance Computing systems. StreamBrain is a domain-specific language (DSL), similar in concept to existing machine learning (ML) frameworks, and supports backends for CPUs, GPUs, and even FPGAs. We empirically demonstrate that StreamBrain can train the well-known ML benchmark dataset MNIST within seconds, and we are the first to demonstrate BCPNN on STL-10 size networks. We also show how StreamBrain can be used to train with custom floating-point formats and illustrate the impact of using different bfloat variations on BCPNN using FPGAs.
公開日:2021-06-09
翻訳日:2021-06-11 14:03:22
# 音声タグと音響イベント検出のための視聴覚伝達学習

Audiovisual transfer learning for audio tagging and sound event detection ( http://arxiv.org/abs/2106.05408v1 )

ライセンス: Link先を確認
Wim Boes, Hugo Van hamme(参考訳) 本研究では,2つの音声認識問題,すなわち音声タグ付けと音声イベント検出における伝達学習の利点について検討する。 特徴融合を用いて, スペクトル音響入力のみを用いたベースラインシステムを適用し, 異なるタスク用に構築され, 外部データでトレーニングされたネットワークから抽出された聴覚・視覚特徴を活用した。 我々は,これらの修正モデルを用いて,多数のラベルなしサンプルと少ないアノテーション付きクリップを含む視聴覚多ラベルデータセット上で実験を行い,アクティブな聴覚イベントの時間的境界を指定せずに10種類の音響カテゴリのクリップレベルの存在を示す。 クリップベースのオーディオタグ付けでは、この変換学習法は顕著な改善をもたらす。 オーディオの上に視覚的モダリティを加えることは、この文脈で有利であることを示す。 音声録音の書き起こしに関して、事前訓練された特徴の利点は、要求された時間分解能に依存する。 しかし、よりきめ細かい予測が必要となると、事前学習されたベクトルが得られたモデルの目標と問題のミスマッチにより、パフォーマンス向上が強く低下する。

We study the merit of transfer learning for two sound recognition problems, i.e., audio tagging and sound event detection. Employing feature fusion, we adapt a baseline system utilizing only spectral acoustic inputs to also make use of pretrained auditory and visual features, extracted from networks built for different tasks and trained with external data. We perform experiments with these modified models on an audiovisual multi-label data set, of which the training partition contains a large number of unlabeled samples and a smaller amount of clips with weak annotations, indicating the clip-level presence of 10 sound categories without specifying the temporal boundaries of the active auditory events. For clip-based audio tagging, this transfer learning method grants marked improvements. Addition of the visual modality on top of audio also proves to be advantageous in this context. When it comes to generating transcriptions of audio recordings, the benefit of pretrained features depends on the requested temporal resolution: for coarse-grained sound event detection, their utility remains notable. But when more fine-grained predictions are required, performance gains are strongly reduced due to a mismatch between the problem at hand and the goals of the models from which the pretrained vectors were obtained.
公開日:2021-06-09
翻訳日:2021-06-11 14:03:04
# タンパク質工学のための適応機械学習

Adaptive machine learning for protein engineering ( http://arxiv.org/abs/2106.05466v1 )

ライセンス: Link先を確認
Brian L. Hie, Kevin K. Yang(参考訳) データから学習してタンパク質配列のエンコード機能を予測する機械学習モデルは、有用なタンパク質工学ツールとして登場しつつある。 しかし、これらのモデルを使って新しいタンパク質設計を提案する場合、タンパク質配列の膨大な組合せの複雑さに対処する必要がある。 本稿では,シーケンス・ツー・ファンクショナル・機械学習・サロゲートモデルを用いて,実験的な測定を行う。 まず,1ラウンドの機械学習最適化によるシーケンス選択について述べる。 次に、最適化されたシーケンスを発見し、複数のラウンドにわたるトレーニング、最適化、実験的な測定でモデルを改善することが目的であるシーケンシャル最適化について議論する。

Machine-learning models that learn from data to predict how protein sequence encodes function are emerging as a useful protein engineering tool. However, when using these models to suggest new protein designs, one must deal with the vast combinatorial complexity of protein sequences. Here, we review how to use a sequence-to-function machine-learning surrogate model to select sequences for experimental measurement. First, we discuss how to select sequences through a single round of machine-learning optimization. Then, we discuss sequential optimization, where the goal is to discover optimized sequences and improve the model across multiple rounds of training, optimization, and experimental measurement.
公開日:2021-06-10
翻訳日:2021-06-11 14:02:43
# 楕円型インタフェース問題に対する浅層ニューラルネットワークの不連続捕捉

A Discontinuity Capturing Shallow Neural Network for Elliptic Interface Problems ( http://arxiv.org/abs/2106.05587v1 )

ライセンス: Link先を確認
Wei-Fan Hu and Te-Sheng Lin and Ming-Chih Lai(参考訳) 本稿では,d$次元の区分的連続関数を近似し,楕円界面問題を解くための,新しい不連続な浅層ニューラルネットワーク(dcsnn)を開発した。 現在のネットワークには3つの新しい特徴がある: (i) ジャンプの不連続性を鋭く捉え、 (ii) 隠れた1つの層のみからなる完全に浅い、 (iii) 偏微分方程式(PDE)を解くために完全にメッシュフリーである。 まず,不連続関数をラベル付けするために1つの座標変数を拡大することにより,$d$次元のピースワイド連続関数を$(d+1)$次元空間で連続的に拡張し,さらに,この新たな拡張関数を表現するために浅いニューラルネットワークを構築した。 隠れた層が1つしかないため、トレーニングパラメータ(重みとバイアス)の数は、隠れた層で使用される次元とニューロンと線形にスケールする。 楕円界面方程式を解くために、ネットワークは、制御方程式の残差、境界条件、および界面跳躍条件からなる平均二乗誤差損失を最小化することによって訓練される。 本稿では,ネットワークの精度と効率を比較するために,一連の数値実験を行う。 我々のDCSNNモデルは、トレーニングされる必要のあるパラメータの適度な数だけ(ここではすべての数値例で使用される数百のパラメータ)のため、比較可能な効率がよい。 また,従来のグリッドベース没入インタフェース法 (IIM) による楕円型インタフェース問題に対する結果との比較を行った。 その結果,IIMの精度はIIMよりも高いことがわかった。 結論として,6次元問題を解くことで,現在のネットワークの高次元応用能力を示す。

In this paper, a new Discontinuity Capturing Shallow Neural Network (DCSNN) for approximating $d$-dimensional piecewise continuous functions and for solving elliptic interface problems is developed. There are three novel features in the present network; namely, (i) jump discontinuity is captured sharply, (ii) it is completely shallow consisting of only one hidden layer, (iii) it is completely mesh-free for solving partial differential equations (PDEs). We first continuously extend the $d$-dimensional piecewise continuous function in $(d+1)$-dimensional space by augmenting one coordinate variable to label the pieces of discontinuous function, and then construct a shallow neural network to express this new augmented function. Since only one hidden layer is employed, the number of training parameters (weights and biases) scales linearly with the dimension and the neurons used in the hidden layer. For solving elliptic interface equations, the network is trained by minimizing the mean squared error loss that consists of the residual of governing equation, boundary condition, and the interface jump conditions. We perform a series of numerical tests to compare the accuracy and efficiency of the present network. Our DCSNN model is comparably efficient due to only moderate number of parameters needed to be trained (a few hundreds of parameters used throughout all numerical examples here), and the result shows better accuracy (and less parameters) than other method using piecewise deep neural network in literature. We also compare the results obtained by the traditional grid-based immersed interface method (IIM) which is designed particularly for elliptic interface problems. Again, the present results show better accuracy than the ones obtained by IIM. We conclude by solving a six-dimensional problem to show the capability of the present network for high-dimensional applications.
公開日:2021-06-10
翻訳日:2021-06-11 14:02:33
# フェルミオン格子場理論のためのフローベースサンプリング

Flow-based sampling for fermionic lattice field theories ( http://arxiv.org/abs/2106.05934v1 )

ライセンス: Link先を確認
Michael S. Albergo, Gurtej Kanwar, S\'ebastien Racani\`ere, Danilo J. Rezende, Julian M. Urban, Denis Boyda, Kyle Cranmer, Daniel C. Hackett, Phiala E. Shanahan(参考訳) 正規化フローに基づくアルゴリズムは、漸近的に正確になる方法で複雑な確率分布をサンプリングする有望な機械学習アプローチとして登場している。 格子場理論の文脈において、原理実証研究はスカラー理論、ゲージ理論、統計システムに対するこのアプローチの有効性を実証している。 この研究は、粒子物理学の標準模型や多くの凝縮物質系の格子場理論の研究に適用するために必要とされる、動的フェルミオンを持つ理論のフローベースサンプリングを可能にするアプローチを開発する。 実演として, これらの手法は, 湯川相互作用を介してスカラー場に結合した無質量安定フェルミオンの2次元理論の場配置のサンプリングに応用される。

Algorithms based on normalizing flows are emerging as promising machine learning approaches to sampling complicated probability distributions in a way that can be made asymptotically exact. In the context of lattice field theory, proof-of-principle studies have demonstrated the effectiveness of this approach for scalar theories, gauge theories, and statistical systems. This work develops approaches that enable flow-based sampling of theories with dynamical fermions, which is necessary for the technique to be applied to lattice field theory studies of the Standard Model of particle physics and many condensed matter systems. As a practical demonstration, these methods are applied to the sampling of field configurations for a two-dimensional theory of massless staggered fermions coupled to a scalar field via a Yukawa interaction.
公開日:2021-06-10
翻訳日:2021-06-11 14:02:02
# 深層学習に基づく還元秩序モデルによるパラメータ依存流体のリアルタイムシミュレーション

Real-time simulation of parameter-dependent fluid flows through deep learning-based reduced order models ( http://arxiv.org/abs/2106.05722v1 )

ライセンス: Link先を確認
Stefania Fresca, Andrea Manzoni(参考訳) 異なる仮想シナリオにおける流体流動のシミュレーションは、エンジニアリングアプリケーションにおいて重要である。 しかし、例えば有限要素法に依拠する高忠実度フル次モデルでは、流体の流れをほぼリアルタイムにシミュレートしなければならないときは常に耐えられない。 例えば、適切な直交分解(POD)に依存する還元次数モデル(ROM)は、パラメータ依存の流体力学問題に対する高速な近似を提供する。 しかし、パラメータ化された非線形項を扱うための高価なハイパーリダクション戦略が必要であり、混合速度-圧力定式化が考慮された場合、リッチ化された縮小空間(あるいはペトロフ-ガレルキン射影)は、リアルタイムに信頼できる解の評価を妨げる可能性がある。 流体-構造相互作用の処理は、さらに高い困難を伴う。 提案したディープラーニング(DL)ベースのROMは、非線形トライアル多様体と還元力学の両方を非侵襲的に学習することで、これらの制限をすべて克服する。 そのためには、PODを通じて旧次元の縮小を実行し、トレーニング時間を実質的に向上させた後、ディープニューラルネットワークに依存する。 得られたPOD-DL-ROMは、シリンダーベンチマークの周りの流れ、固定された剛性ブロックに取り付けられた弾性ビームとラミナ非圧縮性フローの間の流体構造相互作用、大脳動脈瘤内の血流のほぼリアルタイムに正確な結果を提供する。

Simulating fluid flows in different virtual scenarios is of key importance in engineering applications. However, high-fidelity, full-order models relying, e.g., on the finite element method, are unaffordable whenever fluid flows must be simulated in almost real-time. Reduced order models (ROMs) relying, e.g., on proper orthogonal decomposition (POD) provide reliable approximations to parameter-dependent fluid dynamics problems in rapid times. However, they might require expensive hyper-reduction strategies for handling parameterized nonlinear terms, and enriched reduced spaces (or Petrov-Galerkin projections) if a mixed velocity-pressure formulation is considered, possibly hampering the evaluation of reliable solutions in real-time. Dealing with fluid-structure interactions entails even higher difficulties. The proposed deep learning (DL)-based ROMs overcome all these limitations by learning in a non-intrusive way both the nonlinear trial manifold and the reduced dynamics. To do so, they rely on deep neural networks, after performing a former dimensionality reduction through POD enhancing their training times substantially. The resulting POD-DL-ROMs are shown to provide accurate results in almost real-time for the flow around a cylinder benchmark, the fluid-structure interaction between an elastic beam attached to a fixed, rigid block and a laminar incompressible flow, and the blood flow in a cerebral aneurysm.
公開日:2021-06-10
翻訳日:2021-06-11 14:01:51
# (参考訳) バイリンガル語彙誘導のための静的単語埋め込みと文脈表現の組み合わせ

Combining Static Word Embeddings and Contextual Representations for Bilingual Lexicon Induction ( http://arxiv.org/abs/2106.03084v2 )

ライセンス: CC BY 4.0
Jinpeng Zhang, Baijun Ji, Nini Xiao, Xiangyu Duan, Min Zhang, Yangbin Shi, Weihua Luo(参考訳) bilingual lexicon induction (bli) は、ある言語の単語を別の言語の翻訳にマッピングすることを目的としており、典型的には線形射影を学習して単言語表現空間を整列する。 単語表現は静的な単語埋め込みと文脈表現の2つのクラスがBLIのために研究されているが、両方を組み合わせる研究は行われていない。 本稿では,静的な単語埋め込みと文脈表現を組み合わせることで,両方のパラダイムの利点を活用できる,シンプルで効果的なメカニズムを提案する。 教師付きおよび教師なしのBLIベンチマーク設定下で, 様々な言語ペア上で組み合わせのメカニズムをテストする。 実験により,教師付き設定の3.2点,教師なし設定の3.1点を平均的に改善することにより,すべての言語ペアにおけるロバストbliベースラインのパフォーマンスを一貫して改善することを示した。

Bilingual Lexicon Induction (BLI) aims to map words in one language to their translations in another, and is typically through learning linear projections to align monolingual word representation spaces. Two classes of word representations have been explored for BLI: static word embeddings and contextual representations, but there is no studies to combine both. In this paper, we propose a simple yet effective mechanism to combine the static word embeddings and the contextual representations to utilize the advantages of both paradigms. We test the combination mechanism on various language pairs under the supervised and unsupervised BLI benchmark settings. Experiments show that our mechanism consistently improves performances over robust BLI baselines on all language pairs by averagely improving 3.2 points in the supervised setting, and 3.1 points in the unsupervised setting.
公開日:2021-06-10
翻訳日:2021-06-11 14:00:17
# (参考訳) テキスト中のポピュリスト段落の識別:機械学習によるアプローチ

Identifying Populist Paragraphs in Text: A machine-learning approach ( http://arxiv.org/abs/2106.03161v2 )

ライセンス: CC BY 4.0
Jogil\.e Ulinskait\.e and Lukas Pukelis(参考訳) 要約:本稿では,テキスト中のポピュリストコンテンツの識別を可能にするテキスト分類モデルの開発について述べる。 開発されたBERTベースのモデルは、テキスト中のポピュリストコンテンツを特定することに大きく成功し、最小限の偽否定しか生成しないため、コンテンツ分析自動化ツールとして好適であり、人間の検証に関連のあるコンテンツをショートリスト化する。

Abstract: In this paper we present an approach to develop a text-classification model which would be able to identify populist content in text. The developed BERT-based model is largely successful in identifying populist content in text and produces only a negligible amount of False Negatives, which makes it well-suited as a content analysis automation tool, which shortlists potentially relevant content for human validation.
公開日:2021-06-10
翻訳日:2021-06-11 14:00:01
# (参考訳) 交通状態推定と基本図発見のための物理モデルによる深層学習パラダイム

A Physics-Informed Deep Learning Paradigm for Traffic State Estimation and Fundamental Diagram Discovery ( http://arxiv.org/abs/2106.03142v2 )

ライセンス: CC BY 4.0
Rongye Shi, Zhaobin Mo, Kuang Huang, Xuan Di, Qiang Du(参考訳) トラフィック状態推定(traffic state estimation, tse)は、モデル駆動型とデータ駆動型(機械学習、ml)の2つの主要なカテゴリに分岐する。 これらの制限を緩和するために、最近の研究は、モデル駆動とデータ駆動の両方を含む物理インフォームドディープラーニング(PIDL)のようなハイブリッド手法を導入した。 本稿では,基本ダイアグラム学習器(pidl+fdl)を用いて,モデル駆動コンポーネントにml用語を統合し,基本ダイアグラム(fd)の機能形式,すなわち交通密度から流れや速度へのマッピングを学ぶ,物理にインフォームされたディープラーニングという改良パラダイムを提案する。 提案するPIDL+FDLは,TSE学習,モデルパラメータ発見,FD発見を同時に行うという利点がある。 本稿では,交通密度や速度を交通変数として用いて,ループ検出器からの観測データを用いた高速道路TSEに焦点を当てた。 本稿では, PIDL+FDLを用いて, 人気のある1次・2次交通流モデルとFD関係の再構築とFD項以外のモデルパラメータの再構築を行う。 次に、NGSIMデータセットを用いてPIDL+FDLベースのTSEを評価する。 実験の結果,pidl+fdlの精度は,先進的なベースラインtse法よりも精度が向上し,データ効率が向上し,未知のfd関係を適切に学習できることがわかった。

Traffic state estimation (TSE) bifurcates into two main categories, model-driven and data-driven (e.g., machine learning, ML) approaches, while each suffers from either deficient physics or small data. To mitigate these limitations, recent studies introduced hybrid methods, such as physics-informed deep learning (PIDL), which contains both model-driven and data-driven components. This paper contributes an improved paradigm, called physics-informed deep learning with a fundamental diagram learner (PIDL+FDL), which integrates ML terms into the model-driven component to learn a functional form of a fundamental diagram (FD), i.e., a mapping from traffic density to flow or velocity. The proposed PIDL+FDL has the advantages of performing the TSE learning, model parameter discovery, and FD discovery simultaneously. This paper focuses on highway TSE with observed data from loop detectors, using traffic density or velocity as traffic variables. We demonstrate the use of PIDL+FDL to solve popular first-order and second-order traffic flow models and reconstruct the FD relation as well as model parameters that are outside the FD term. We then evaluate the PIDL+FDL-based TSE using the Next Generation SIMulation (NGSIM) dataset. The experimental results show the superiority of the PIDL+FDL in terms of improved estimation accuracy and data efficiency over advanced baseline TSE methods, and additionally, the capacity to properly learn the unknown underlying FD relation.
公開日:2021-06-09
翻訳日:2021-06-11 13:59:53
# (参考訳) 視覚表現のためのコントラスト学習法を理解し,改善する:レビュー [全文訳有]

Understand and Improve Contrastive Learning Methods for Visual Representation: A Review ( http://arxiv.org/abs/2106.03259v1 )

ライセンス: CC BY 4.0
Ran Liu(参考訳) 従来の教師付き学習手法は、高価な手動ラベル付きデータに依存することと、一般化能力の制限や敵の攻撃に対する脆弱性といった弱点により、ボトルネックに直面している。 教師なし学習の一種としての有望な自己教師型学習は、手動ラベリングなしで効果的なデータ表現を学習できる可能性から人気を集めている。 自己教師付き学習アルゴリズムの中で、コントラスト学習はいくつかの研究分野で最先端のパフォーマンスを達成した。 本論文は,自己監督学習の重要な構成要素と限界を理解するための研究者の努力について,最新の分析を行うことを目的としている。

Traditional supervised learning methods are hitting a bottleneck because of their dependency on expensive manually labeled data and their weaknesses such as limited generalization ability and vulnerability to adversarial attacks. A promising alternative, self-supervised learning, as a type of unsupervised learning, has gained popularity because of its potential to learn effective data representations without manual labeling. Among self-supervised learning algorithms, contrastive learning has achieved state-of-the-art performance in several fields of research. This literature review aims to provide an up-to-date analysis of the efforts of researchers to understand the key components and the limitations of self-supervised learning.
公開日:2021-06-06
翻訳日:2021-06-11 13:57:06
# (参考訳) 制約充足問題解決のためのハイブリッドAPM-CPGSOアプローチ:リモートセンシングへの応用 [全文訳有]

A Hybrid APM-CPGSO Approach for Constraint Satisfaction Problem Solving: Application to Remote Sensing ( http://arxiv.org/abs/2106.05193v1 )

ライセンス: CC BY 4.0
Zouhayra Ayadi, Wadii Boulila, Imed Riadh Farah(参考訳) 制約満足度問題(CSP)は、様々な複雑な実世界の問題のモデル化と解決に積極的に用いられている。 しかし,cspの効率的な解法,特に大問題の解法の開発は困難かつ困難であることが証明されている。 既存の問題解決手法は多くの場合不適切である。 そのため,過去数十年間,ハイブリッドCSPによる問題解決手法が注目されている。 本稿では,不完全かつ完全なCSP手法を組み合わせた問題解決手法を提案する。 提案手法は,群探索アルゴリズム(GSO)と制約伝搬法(CP)を利用して,リモートセンシング分野に関連する問題を解決する。 本研究は,GSOの改良版とCPのハイブリッド化を,複雑な制約に基づく問題の解法として提案する最初の研究である。 衛星画像における物体認識問題の解決のための実験が行われた。 その結果,提案手法の収束時間と実行時間の点で,従来手法と比較して優れた性能を示した。

Constraint satisfaction problem (CSP) has been actively used for modeling and solving a wide range of complex real-world problems. However, it has been proven that developing efficient methods for solving CSP, especially for large problems, is very difficult and challenging. Existing complete methods for problem-solving are in most cases unsuitable. Therefore, proposing hybrid CSP-based methods for problem-solving has been of increasing interest in the last decades. This paper aims at proposing a novel approach that combines incomplete and complete CSP methods for problem-solving. The proposed approach takes advantage of the group search algorithm (GSO) and the constraint propagation (CP) methods to solve problems related to the remote sensing field. To the best of our knowledge, this paper represents the first study that proposes a hybridization between an improved version of GSO and CP in the resolution of complex constraint-based problems. Experiments have been conducted for the resolution of object recognition problems in satellite images. Results show good performances in terms of convergence and running time of the proposed CSP-based method compared to existing state-of-the-art methods.
公開日:2021-06-06
翻訳日:2021-06-11 13:44:23
# (参考訳) 下流認識・無知事前学習のためのメタラーニング [全文訳有]

Meta-learning for downstream aware and agnostic pretraining ( http://arxiv.org/abs/2106.03270v1 )

ライセンス: CC BY 4.0
Hongyin Luo, Shuyan Dong, Yung-Sung Chuang, Shang-Wen Li(参考訳) ニューラルネットワークの事前学習は、自然言語処理アプリケーションにおける優れた性能のために注目を集めている。 しかしながら、事前学習は通常、定義済みのタスクシーケンスを利用して、一般的な言語的手がかりを学ぶ。 事前訓練中に適切なタスクを選択するメカニズムの欠如は、学習と知識のコーディングを非効率にする。 そこで我々はメタラーニングを用いて,事前学習の各エピソードにおいて最も情報に富む学習信号を提供するタスクを選択することを提案する。 提案手法では,性能を維持しつつ,事前学習プロセスと結果として得られるネットワークの計算効率とメモリ使用率の向上を目標とする。 本稿では,本手法とその2つの変種である下流認識と下流認識事前学習のアルゴリズムについて検討する。 実験計画もまとめられ、実験結果が今後の作業で共有されます。

Neural network pretraining is gaining attention due to its outstanding performance in natural language processing applications. However, pretraining usually leverages predefined task sequences to learn general linguistic clues. The lack of mechanisms in choosing proper tasks during pretraining makes the learning and knowledge encoding inefficient. We thus propose using meta-learning to select tasks that provide the most informative learning signals in each episode of pretraining. With the proposed method, we aim to achieve better efficiency in computation and memory usage for the pretraining process and resulting networks while maintaining the performance. In this preliminary work, we discuss the algorithm of the method and its two variants, downstream-aware and downstream-agnostic pretraining. Our experiment plan is also summarized, while empirical results will be shared in our future works.
公開日:2021-06-06
翻訳日:2021-06-11 13:31:07
# (参考訳) 目的の数を増やしたらどうなるでしょう? 多目的最適化の理論的および実証的含意 [全文訳有]

What if we Increase the Number of Objectives? Theoretical and Empirical Implications for Many-objective Optimization ( http://arxiv.org/abs/2106.03275v1 )

ライセンス: CC BY 4.0
Richard Allmendinger, Andrzej Jaszkiewicz, Arnaud Liefooghe, Christiane Tammer(参考訳) 多目的最適化問題の解決の難しさは最適化対象の個数に影響される。 多くの目的が存在することは通常、最適化アルゴリズムの選択/設計に影響を与える多くの課題をもたらす。 本稿では,これらの課題の要因を,問題特性に対する対象数の影響,および,多くの目的に対応するための一般的な手順やアルゴリズムの実用的行動,という2つの角度から検討する。 様々なドライバのレビューに加えて,複数のドライバの定量化や,マルチ目的nkランドスケープおよび他の典型的なベンチマーク実験によって,ドライバを経験的に検証することにより,理論的に寄与する。 そこで我々は,アルゴリズム設計を支援するための実用的な勧告を導出するために,理論的および実証的な知見を利用する。 最後に,多目的・多目的最適化分野における今後の研究機会と理論ギャップについて考察する。

The difficulty of solving a multi-objective optimization problem is impacted by the number of objectives to be optimized. The presence of many objectives typically introduces a number of challenges that affect the choice/design of optimization algorithms. This paper investigates the drivers of these challenges from two angles: (i) the influence of the number of objectives on problem characteristics and (ii) the practical behavior of commonly used procedures and algorithms for coping with many objectives. In addition to reviewing various drivers, the paper makes theoretical contributions by quantifying some drivers and/or verifying these drivers empirically by carrying out experiments on multi-objective NK landscapes and other typical benchmarks. We then make use of our theoretical and empirical findings to derive practical recommendations to support algorithm design. Finally, we discuss remaining theoretical gaps and opportunities for future research in the area of multi- and many-objective optimization.
公開日:2021-06-06
翻訳日:2021-06-11 13:25:48
# (参考訳) PEARL: 私的埋め込みによるデータ合成と敵対的再構築学習 [全文訳有]

PEARL: Data Synthesis via Private Embeddings and Adversarial Reconstruction Learning ( http://arxiv.org/abs/2106.04590v1 )

ライセンス: CC BY 4.0
Seng Pei Liew, Tsubasa Takahashi, Michihiko Ueno(参考訳) 本稿では,深層生成モデルを用いたデータ合成の新しい枠組みを提案する。 フレームワーク内では、センシティブなデータを厳密なプライバシ保証で一括してサニタイズすることで、元のデータを再利用することなく、深層生成モデルのトレーニングが可能になる。 したがって、訓練の繰り返しが増加するにつれてプライバシーの保証が低下する、差分的プライベート確率勾配(DP-SGD)のような一般的なアプローチとは対照的に、追加のプライバシコストやモデル制約は発生しない。 我々は, 特徴関数と敵対的再重み付け目的を用いて, 独立した関心を持つフレームワークの実現を実証する。 提案手法は理論的に性能が保証され,複数のデータセットに対する経験的評価により,提案手法が適切なプライバシーレベルで他の手法よりも優れていることが示された。

We propose a new framework of synthesizing data using deep generative models in a differentially private manner. Within our framework, sensitive data are sanitized with rigorous privacy guarantees in a one-shot fashion, such that training deep generative models is possible without re-using the original data. Hence, no extra privacy costs or model constraints are incurred, in contrast to popular approaches such as Differentially Private Stochastic Gradient Descent (DP-SGD), which, among other issues, causes degradation in privacy guarantees as the training iteration increases. We demonstrate a realization of our framework by making use of the characteristic function and an adversarial re-weighting objective, which are of independent interest as well. Our proposal has theoretical guarantees of performance, and empirical evaluations on multiple datasets show that our approach outperforms other methods at reasonable levels of privacy.
公開日:2021-06-08
翻訳日:2021-06-11 12:52:16
# (参考訳) もう一度確認する: ビジュアルエンターテイメントによるプログレッシブなビジュアル質問回答 [全文訳有]

Check It Again: Progressive Visual Question Answering via Visual Entailment ( http://arxiv.org/abs/2106.04605v1 )

ライセンス: CC BY 4.0
Qingyi Si, Zheng Lin, Mingyu Zheng, Peng Fu, Weiping Wang(参考訳) 高度なVisual Question Answeringモデルは驚くほど成功したが、彼らは質問と回答の間の表面的相関によってのみ質問に答える傾向にある。 この言語に先立つ問題に対処するために、近年いくつかのアプローチが開発されている。 しかし、そのほとんどは、解答の正しさを確かめることなく、最良の出力に従って正しい解答を予測する。 さらに、彼らは画像と疑問の間の相互作用のみを探求し、候補解のセマンティクスを無視した。 本稿では,視覚インテリメントに基づくsar(select-and-reran k)プログレッシブフレームワークを提案する。 具体的には、まず、質問や画像に関連する候補回答を選択し、その候補回答を視覚的詳細タスクで再ランクし、その画像が質問の合成文と各候補回答を意味的に含むかどうかを検証する。 実験の結果, 7.55%改善したvqa-cp v2において, 新たな最先端精度を確立するためのフレームワークの有効性が示された。

While sophisticated Visual Question Answering models have achieved remarkable success, they tend to answer questions only according to superficial correlations between question and answer. Several recent approaches have been developed to address this language priors problem. However, most of them predict the correct answer according to one best output without checking the authenticity of answers. Besides, they only explore the interaction between image and question, ignoring the semantics of candidate answers. In this paper, we propose a select-and-rerank (SAR) progressive framework based on Visual Entailment. Specifically, we first select the candidate answers relevant to the question or the image, then we rerank the candidate answers by a visual entailment task, which verifies whether the image semantically entails the synthetic statement of the question and each candidate answer. Experimental results show the effectiveness of our proposed framework, which establishes a new state-of-the-art accuracy on VQA-CP v2 with a 7.55% improvement.
公開日:2021-06-08
翻訳日:2021-06-11 12:01:56
# (参考訳) 神経抽出探索 [全文訳有]

Neural Extractive Search ( http://arxiv.org/abs/2106.04612v1 )

ライセンス: CC BY 4.0
Shauli Ravfogel, Hillel Taub-Tabib, Yoav Goldberg(参考訳) ドメインの専門家は、しばしば大きなコーパスから構造化された情報を抽出する必要がある。 我々は,このような高速な抽出を可能にするために,探索クエリをキャプチャスロットで豊かにする「抽出探索」という探索パラダイムを提唱する。 このような抽出検索システムは構文構造を中心に構築することができ、高い精度、低リコール結果が得られる。 ニューラル検索とアライメントを用いてリコールをどのように改善できるかを示す。 本論文の目的は,抽出探索パラダイムを簡潔に導入し,抽出探索のためのニューラル検索システムの試作と,その利点と可能性を示すことである。 プロトタイプは \url{https://spike.neural -sim.apps.allenai.or g/} で利用可能であり、ビデオデモは \url{https://vimeo.com/55 9586687} で利用可能である。

Domain experts often need to extract structured information from large corpora. We advocate for a search paradigm called ``extractive search'', in which a search query is enriched with capture-slots, to allow for such rapid extraction. Such an extractive search system can be built around syntactic structures, resulting in high-precision, low-recall results. We show how the recall can be improved using neural retrieval and alignment. The goals of this paper are to concisely introduce the extractive-search paradigm; and to demonstrate a prototype neural retrieval system for extractive search and its benefits and potential. Our prototype is available at \url{https://spike.neural -sim.apps.allenai.or g/} and a video demonstration is available at \url{https://vimeo.com/55 9586687}.
公開日:2021-06-08
翻訳日:2021-06-11 11:46:27
# (参考訳) EXPObench: 高価なブラックボックス関数のサロゲートに基づく最適化アルゴリズムのベンチマーク [全文訳有]

EXPObench: Benchmarking Surrogate-based Optimisation Algorithms on Expensive Black-box Functions ( http://arxiv.org/abs/2106.04618v1 )

ライセンス: CC BY 4.0
Laurens Bliek, Arthur Guijt, Rickard Karlsson, Sicco Verwer, Mathijs de Weerdt(参考訳) ベイズ最適化のようなサーロゲートアルゴリズムは、ハイパーパラメータチューニングやシミュレーションに基づく最適化のような高価な目的を持つブラックボックス最適化問題のために特に設計されている。 文献では、これらのアルゴリズムはよく確立されているが、高価な目的を持たない合成ベンチマークで評価され、論文間で大きく異なる1つまたは2つの実生活アプリケーションでのみ評価される。 実生活、高価、ブラックボックスの目的関数に対するサロゲートアルゴリズムのベンチマークに関して、明らかに標準化の欠如がある。 これにより、アルゴリズム的な貢献の効果に関する結論を引き出すのは非常に困難である。 新しいベンチマークライブラリであるEXPObenchは、このような標準化に向けた第一歩を提供する。 このライブラリは、異なる実生活アプリケーションから4つの高価な最適化問題に対して、6つの異なる代理アルゴリズムを広範囲に比較するために使用される。 これにより、探査の相対的重要性、目的物の評価時間、使用済みモデルに関する新たな洞察がもたらされた。 さらに、我々はアルゴリズムとベンチマーク問題インスタンスを公開し、サロゲートアルゴリズムのより均一な分析に寄与している。 最も重要なのは、評価されたすべての問題インスタンスにおける6つのアルゴリズムのパフォーマンスです。 これにより、比較に必要な高価な評価の数が大幅に削減されるため、新しい手法を研究するためのバーを小さくするユニークな新しいデータセットが得られる。

Surrogate algorithms such as Bayesian optimisation are especially designed for black-box optimisation problems with expensive objectives, such as hyperparameter tuning or simulation-based optimisation. In the literature, these algorithms are usually evaluated with synthetic benchmarks which are well established but have no expensive objective, and only on one or two real-life applications which vary wildly between papers. There is a clear lack of standardisation when it comes to benchmarking surrogate algorithms on real-life, expensive, black-box objective functions. This makes it very difficult to draw conclusions on the effect of algorithmic contributions. A new benchmark library, EXPObench, provides first steps towards such a standardisation. The library is used to provide an extensive comparison of six different surrogate algorithms on four expensive optimisation problems from different real-life applications. This has led to new insights regarding the relative importance of exploration, the evaluation time of the objective, and the used model. A further contribution is that we make the algorithms and benchmark problem instances publicly available, contributing to more uniform analysis of surrogate algorithms. Most importantly, we include the performance of the six algorithms on all evaluated problem instances. This results in a unique new dataset that lowers the bar for researching new methods as the number of expensive evaluations required for comparison is significantly reduced.
公開日:2021-06-08
翻訳日:2021-06-11 11:36:29
# (参考訳) TED-net: 畳み込みのないT2Tビジョン変換器を用いた低用量CT用エンコーダデコーダディレーションネットワーク [全文訳有]

TED-net: Convolution-free T2T Vision Transformer-based Encoder-decoder Dilation network for Low-dose CT Denoising ( http://arxiv.org/abs/2106.04650v1 )

ライセンス: CC BY 4.0
Dayang Wang, Zhan Wu, Hengyong Yu(参考訳) 低線量CTは臨床応用の主流である。 低線量CT (LDCT) 画像では, 通常の線量CTと比較して, より強いノイズやアーチファクトがあり, 実用上の障害となっている。 ここ数年、畳み込みに基づくエンドツーエンドのディープラーニング手法がLDCT画像の復調に広く利用されている。 近年, コンボリューション性能が向上し, 機能的相互作用が向上している。 しかし,LDCTの脱臭効果は十分には認められていない。 本稿では、畳み込みのないT2Tビジョン変換器をベースとしたエンコーダデコーダディレーションネットワーク(TED-net)を提案する。 モデルには畳み込みブロックがなく、対称エンコーダ・デコーダブロックと単独変換器で構成される。 本モデルは,aapm-mayoクリニックldctグランドチャレンジデータセットを用いて評価し,最先端のデノイジング法に対する性能評価を行った。

Low dose computed tomography is a mainstream for clinical applications. How-ever, compared to normal dose CT, in the low dose CT (LDCT) images, there are stronger noise and more artifacts which are obstacles for practical applications. In the last few years, convolution-based end-to-end deep learning methods have been widely used for LDCT image denoising. Recently, transformer has shown superior performance over convolution with more feature interactions. Yet its ap-plications in LDCT denoising have not been fully cultivated. Here, we propose a convolution-free T2T vision transformer-based Encoder-decoder Dilation net-work (TED-net) to enrich the family of LDCT denoising algorithms. The model is free of convolution blocks and consists of a symmetric encoder-decoder block with sole transformer. Our model is evaluated on the AAPM-Mayo clinic LDCT Grand Challenge dataset, and results show outperformance over the state-of-the-art denoising methods.
公開日:2021-06-08
翻訳日:2021-06-11 11:10:27
# (参考訳) bloomの分類を用いた理解に基づく質問応答 [全文訳有]

Comprehension Based Question Answering using Bloom's Taxonomy ( http://arxiv.org/abs/2106.04653v1 )

ライセンス: CC BY 4.0
Pritish Sahu, Michael Cogswell, Sara Rutherford-Quach, Ajay Divakaran(参考訳) 現在の事前学習された言語モデルには多くの知識があるが、その知識を使う能力は限られている。 bloomの分類は、理解スキルを分類することで、子どもたちに知識の使い方を教えるのに役立ち、それを使って、大きな事前学習された言語モデルの理解スキルを分析し、改善します。 本実験は, ゼロショット質問応答に焦点をあて, 分類学を用いて, モデルが質問に関連付けて回答するのに役立つ近位文脈を提供する。 この方法でターゲティングコンテキストは、一般的な4つの質問応答データセットのパフォーマンスを改善する。

Current pre-trained language models have lots of knowledge, but a more limited ability to use that knowledge. Bloom's Taxonomy helps educators teach children how to use knowledge by categorizing comprehension skills, so we use it to analyze and improve the comprehension skills of large pre-trained language models. Our experiments focus on zero-shot question answering, using the taxonomy to provide proximal context that helps the model answer questions by being relevant to those questions. We show targeting context in this manner improves performance across 4 popular common sense question answer datasets.
公開日:2021-06-08
翻訳日:2021-06-11 11:04:23
# (参考訳) ハイブリッド空間上のベイズ最適化 [全文訳有]

Bayesian Optimization over Hybrid Spaces ( http://arxiv.org/abs/2106.04682v1 )

ライセンス: CC BY 4.0
Aryan Deshwal, Syrine Belakaria, Janardhan Rao Doppa(参考訳) 高価なブラックボックス関数評価によるハイブリッド構造(離散および連続入力変数の混合)の最適化の問題を考える。 この問題は現実世界の多くのアプリケーションで発生します。 例えば、実験室による材料設計最適化では、離散変数と連続変数はそれぞれ原始元素の存在/存在とその相対濃度に対応する。 鍵となる課題は、離散変数と連続変数の複雑な相互作用を正確にモデル化することだ。 本稿では,連続変数および離散変数上で自然に定義される拡散核を用いて,ハイブリッドベイズ最適化(hybo)と呼ばれる新しい手法を提案する。 我々は,すべての順序の加法的相互作用を扱いやすい方法で許容する加法的カーネル定式化を利用して,ハイブリッド空間上の拡散核を構築するための原理的アプローチを開発した。 我々は, 加法ハイブリッドカーネルのモデリング強度を理論的に解析し, 普遍近似特性を持つことを示す。 人工的および6つの多種多様な実世界のベンチマーク実験により,HyBOは最先端の手法よりも優れていることが示された。

We consider the problem of optimizing hybrid structures (mixture of discrete and continuous input variables) via expensive black-box function evaluations. This problem arises in many real-world applications. For example, in materials design optimization via lab experiments, discrete and continuous variables correspond to the presence/absence of primitive elements and their relative concentrations respectively. The key challenge is to accurately model the complex interactions between discrete and continuous variables. In this paper, we propose a novel approach referred as Hybrid Bayesian Optimization (HyBO) by utilizing diffusion kernels, which are naturally defined over continuous and discrete variables. We develop a principled approach for constructing diffusion kernels over hybrid spaces by utilizing the additive kernel formulation, which allows additive interactions of all orders in a tractable manner. We theoretically analyze the modeling strength of additive hybrid kernels and prove that it has the universal approximation property. Our experiments on synthetic and six diverse real-world benchmarks show that HyBO significantly outperforms the state-of-the-art methods.
公開日:2021-06-08
翻訳日:2021-06-11 10:49:13
# (参考訳) 医用画像解析のための説明可能なai:ベイズ教示による気胸診断 [全文訳有]

Explainable AI for medical imaging: Explaining pneumothorax diagnoses with Bayesian Teaching ( http://arxiv.org/abs/2106.04684v1 )

ライセンス: CC BY 4.0
Tomas Folke, Scott Cheng-Hsin Yang, Sean Anderson, and Patrick Shafto(参考訳) 専門時間制限は医用画像における重要なボトルネックである。 画像分類の進歩により、AIは医療専門家の意思決定支援として機能し、放射線学の生産性と、拡大によって公衆衛生に大きな利益をもたらす可能性がある。 しかし、これらの利益はAIエージェントに対する専門家の信頼の構築と維持に向けられている。 説明可能なAIは、診断判断の背後にあるAI決定プロセスを理解するために医療専門家を支援することによって、そのような信頼を構築することができる。 本稿では,人間学習の認知科学に根ざした説明の形式的記述であるベイズ教養に基づく説明の導入と評価を行う。 ベイジアン・インストラクション(Bayesian teaching)が生成した説明に暴露された医療専門家は、AIの診断決定をうまく予測し、AIが間違っている場合よりも、AIが正しい場合の認証をし、適切な信頼を示す可能性が高い。 これらの結果から,説明可能なAIは,医用画像における人間とAIの協調を支援することができることがわかった。

Limited expert time is a key bottleneck in medical imaging. Due to advances in image classification, AI can now serve as decision-support for medical experts, with the potential for great gains in radiologist productivity and, by extension, public health. However, these gains are contingent on building and maintaining experts' trust in the AI agents. Explainable AI may build such trust by helping medical experts to understand the AI decision processes behind diagnostic judgements. Here we introduce and evaluate explanations based on Bayesian Teaching, a formal account of explanation rooted in the cognitive science of human learning. We find that medical experts exposed to explanations generated by Bayesian Teaching successfully predict the AI's diagnostic decisions and are more likely to certify the AI for cases when the AI is correct than when it is wrong, indicating appropriate trust. These results show that Explainable AI can be used to support human-AI collaboration in medical imaging.
公開日:2021-06-08
翻訳日:2021-06-11 10:28:52
# (参考訳) 移動目標に対する価格への学習 [全文訳有]

Learning to Price Against a Moving Target ( http://arxiv.org/abs/2106.04689v1 )

ライセンス: CC BY 4.0
Renato Paes Leme, Balasubramanian Sivan, Yifeng Teng, Pratik Worah(参考訳) 価格設定の学習において、売り手は、買い手のバリュエーションを学習しながら収益を最大化することを目的として、時間とともに価格を投稿する。 この問題は固定値(固定値またはiid)であるときに非常によく理解される。 ここでは、購入者の値が移動対象である場合、すなわち、確率過程によって、あるいは有界変動に逆らって、時間とともに変化する問題について検討する。 いずれの場合も、最適収益損失の上限は上下に一致します。 ターゲットが移動しているため、学習した情報はすぐに時代遅れになり、探索段階と悪用段階の間をアルゴリズムが切り替え続けることになる。

In the Learning to Price setting, a seller posts prices over time with the goal of maximizing revenue while learning the buyer's valuation. This problem is very well understood when values are stationary (fixed or iid). Here we study the problem where the buyer's value is a moving target, i.e., they change over time either by a stochastic process or adversarially with bounded variation. In either case, we provide matching upper and lower bounds on the optimal revenue loss. Since the target is moving, any information learned soon becomes out-dated, which forces the algorithms to keep switching between exploring and exploiting phases.
公開日:2021-06-08
翻訳日:2021-06-11 10:20:03
# (参考訳) スケールフリーの対向型多武装バンディット [全文訳有]

Scale Free Adversarial Multi Armed Bandits ( http://arxiv.org/abs/2106.04700v1 )

ライセンス: CC BY 4.0
Sudeep Raja Putta, Shipra Agrawal(参考訳) 我々は、プレイヤーが損失の規模や大きさではなく、腕数n$しか知らない、スケールフリーのマルチアームバンド(MAB)問題を考える。 損失ベクトルは l_1,\dots, l_T \in \mathbb{R}^n$ である。 その目的は、後悔を$n$と$l_1,\dots,l_t$の関数に縛ることである。 規則化リーダ(ftrl)アルゴリズムに従うように設計し,mabに対する最初のスケールフリーな後悔保証を提供する。 ログバリア正規化器、重み付き推定器の重要性、適応学習率、適応探索パラメータを使用する。 本稿では,FTRL と Online Mirror Descent (OMD) の残差不等式を,ポテンシャル関数と混合ブレグマンを用いた確率的単純度に基づいて簡易に統一する手法を提案する。 また,Bregman Divergencesの局所ノルム下限を求める新たな手法を開発した。 これらのツールは独立したものかもしれない。

We consider the Scale-Free Adversarial Multi Armed Bandit(MAB) problem, where the player only knows the number of arms $n$ and not the scale or magnitude of the losses. It sees bandit feedback about the loss vectors $l_1,\dots, l_T \in \mathbb{R}^n$. The goal is to bound its regret as a function of $n$ and $l_1,\dots, l_T$. We design a Follow The Regularized Leader(FTRL) algorithm, which comes with the first scale-free regret guarantee for MAB. It uses the log barrier regularizer, the importance weighted estimator, an adaptive learning rate, and an adaptive exploration parameter. In the analysis, we introduce a simple, unifying technique for obtaining regret inequalities for FTRL and Online Mirror Descent(OMD) on the probability simplex using Potential Functions and Mixed Bregmans. We also develop a new technique for obtaining local-norm lower bounds for Bregman Divergences, which are crucial in bandit regret bounds. These tools could be of independent interest.
公開日:2021-06-08
翻訳日:2021-06-11 09:45:29
# (参考訳) 未知のサービスレートを有する待ち行列システムのためのジョブディスパッチポリシー

Job Dispatching Policies for Queueing Systems with Unknown Service Rates ( http://arxiv.org/abs/2106.04707v1 )

ライセンス: CC BY 4.0
Tuhinangshu Choudhury, Gauri Joshi, Weina Wang, Sanjay Shakkottai(参考訳) すべてのジョブを保持する中央キューが存在しないマルチサーバキューシステムでは、ジョブディスパッチポリシを使用して、ひとつのサーバのキューにジョブを割り当てる。 join-the-shortest-qu eue や shortest expected delay のような古典的なジョブディスパッチポリシーは、サーバのサービスレートとキューの長さがディスパッチタに知られていると仮定している。 そこで本研究では,サービスレートや待ち行列の長さの知識を必要とせず,ジョブのディスパッチの問題に取り組む。 この問題は、ジョブをすべてのサーバに送信してサービスレートを見積もることと、現在知られている最速のサーバを活用して、待ち行列の遅延を最小化する、という、新たなエクスプロイテーショントレードオフを提示する。 我々は,監視職の退社からサービス率を学習するバンディットに基づく探索政策を提案する。 有限のアクションセットのうち1つだけが最適である標準的なマルチアームバンディット問題とは異なり、最適なポリシーでは各サーバに送信されるジョブの最適な割合を特定する必要がある。 提案手法の有効性を実証するために,後悔の分析とシミュレーションを行った。

In multi-server queueing systems where there is no central queue holding all incoming jobs, job dispatching policies are used to assign incoming jobs to the queue at one of the servers. Classic job dispatching policies such as join-the-shortest-qu eue and shortest expected delay assume that the service rates and queue lengths of the servers are known to the dispatcher. In this work, we tackle the problem of job dispatching without the knowledge of service rates and queue lengths, where the dispatcher can only obtain noisy estimates of the service rates by observing job departures. This problem presents a novel exploration-exploita tion trade-off between sending jobs to all the servers to estimate their service rates, and exploiting the currently known fastest servers to minimize the expected queueing delay. We propose a bandit-based exploration policy that learns the service rates from observed job departures. Unlike the standard multi-armed bandit problem where only one out of a finite set of actions is optimal, here the optimal policy requires identifying the optimal fraction of incoming jobs to be sent to each server. We present a regret analysis and simulations to demonstrate the effectiveness of the proposed bandit-based exploration policy.
公開日:2021-06-08
翻訳日:2021-06-11 09:21:32
# (参考訳) 非負の補助最適化によるブール行列分解 [全文訳有]

Boolean Matrix Factorization via Nonnegative Auxiliary Optimization ( http://arxiv.org/abs/2106.04708v1 )

ライセンス: CC BY 4.0
Duc P. Truong, Erik Skau, Derek Desantis, Boian Alexandrov(参考訳) ブール行列分解(BMF)に対する新しいアプローチを示す。 bmf問題を直接解く代わりに、このアプローチは、初期ブールデータとブール構造が同一である補助行列上の制約を持つ非負最適化問題を解く。 そして、非負の補助最適化問題の解をしきい値にし、BMF問題の解を提供する。 二つの解空間の同値性の証明を、厳密な解の存在下で提供する。 さらに,アルゴリズムの非増加特性も証明されている。 合成および実データセットの実験を行い、他の手法と比較してアルゴリズムの有効性と複雑さを示す。

A novel approach to Boolean matrix factorization (BMF) is presented. Instead of solving the BMF problem directly, this approach solves a nonnegative optimization problem with the constraint over an auxiliary matrix whose Boolean structure is identical to the initial Boolean data. Then the solution of the nonnegative auxiliary optimization problem is thresholded to provide a solution for the BMF problem. We provide the proofs for the equivalencies of the two solution spaces under the existence of an exact solution. Moreover, the nonincreasing property of the algorithm is also proven. Experiments on synthetic and real datasets are conducted to show the effectiveness and complexity of the algorithm compared to other current methods.
公開日:2021-06-08
翻訳日:2021-06-11 09:19:45
# (参考訳) 測定可能なモンテカルロ探索誤差境界 [全文訳有]

Measurable Monte Carlo Search Error Bounds ( http://arxiv.org/abs/2106.04715v1 )

ライセンス: CC BY 4.0
John Mern, Mykel J. Kochenderfer(参考訳) モンテカルロプランナーは、無限サンプルの極限に収束することが保証されているとしても、しばしば準最適作用を返すことができる。 既知の漸近的後悔の境界は、探索の終了時に推奨される行動の信頼度を測定する手段を提供しない。 本研究では,非定常バンドイットとマルコフ決定過程に対するモンテカルロ推定の準最適性の境界を証明した。 これらの境界は探索の終了時に直接計算することができ、真の作用値の知識を必要としない。 表される境界は、軽収束条件を満たす一般モンテカルロ解法に対して成り立つ。 単純解法とモンテカルロ木探索の双方に対して,マルチアームバンディットの実験と離散マルコフ決定過程により,境界の密度を実証的に検証する。

Monte Carlo planners can often return sub-optimal actions, even if they are guaranteed to converge in the limit of infinite samples. Known asymptotic regret bounds do not provide any way to measure confidence of a recommended action at the conclusion of search. In this work, we prove bounds on the sub-optimality of Monte Carlo estimates for non-stationary bandits and Markov decision processes. These bounds can be directly computed at the conclusion of the search and do not require knowledge of the true action-value. The presented bound holds for general Monte Carlo solvers meeting mild convergence conditions. We empirically test the tightness of the bounds through experiments on a multi-armed bandit and a discrete Markov decision process for both a simple solver and Monte Carlo tree search.
公開日:2021-06-08
翻訳日:2021-06-11 09:08:53
# (参考訳) マルジナライズ可能な密度モデル [全文訳有]

Marginalizable Density Models ( http://arxiv.org/abs/2106.04741v1 )

ライセンス: CC BY 4.0
Dar Gilboa, Ari Pakman, Thibault Vatter(参考訳) 深層ネットワークに基づく確率密度モデルは複雑な高次元データセットのモデリングにおいて顕著な成功を収めた。 しかし、カーネル密度推定器とは異なり、現代のニューラルモデルは閉じた形で境界や条件を導き出さない。 本稿では,変数の任意の部分集合の確率,限界,条件に対する閉形式表現を提供する,新しいディープネットワークアーキテクチャであるMarginalizable Density Model Approximator (MDMA)を提案する。 mdmaは各変数の深いスカラー表現を学習し、学習した階層的テンソル分解を扱いやすく表現可能なcdfに結合し、辺数と条件密度を容易に得られる。 例えば、変数の任意の部分集合間の相互情報の推定、条件付き独立性のテストによる因果性の推定、データ計算を必要とせずに欠落したデータによる推論、これらのタスクにおける最先端のモデルよりも優れている。 このモデルはまた、変数数に時間複雑性の対数依存性しか持たない並列化サンプリングを可能にする。

Probability density models based on deep networks have achieved remarkable success in modeling complex high-dimensional datasets. However, unlike kernel density estimators, modern neural models do not yield marginals or conditionals in closed form, as these quantities require the evaluation of seldom tractable integrals. In this work, we present the Marginalizable Density Model Approximator (MDMA), a novel deep network architecture which provides closed form expressions for the probabilities, marginals and conditionals of any subset of the variables. The MDMA learns deep scalar representations for each individual variable and combines them via learned hierarchical tensor decompositions into a tractable yet expressive CDF, from which marginals and conditional densities are easily obtained. We illustrate the advantage of exact marginalizability in several tasks that are out of reach of previous deep network-based density estimation models, such as estimating mutual information between arbitrary subsets of variables, inferring causality by testing for conditional independence, and inference with missing data without the need for data imputation, outperforming state-of-the-art models on these tasks. The model also allows for parallelized sampling with only a logarithmic dependence of the time complexity on the number of variables.
公開日:2021-06-08
翻訳日:2021-06-11 08:56:37
# (参考訳) スタイル伝達のための人的評価のレビュー [全文訳有]

A Review of Human Evaluation for Style Transfer ( http://arxiv.org/abs/2106.04747v1 )

ライセンス: CC BY 4.0
Eleftheria Briakou, Sweta Agrawal, Ke Zhang, Joel Tetreault and Marine Carpuat(参考訳) 本稿では,97 スタイルの伝達論文に記述されている人的評価の実践を,スタイルの伝達,保存,流布の3つの主要な評価側面についてレビューし,要約する。 原則として、人間による評価が最も信頼性が高い。 しかし, スタイル伝達論文では, ヒト評価のためのプロトコルが過小評価され, 標準化されていないことが判明し, この分野の研究の再現性を阻害し, よりよい人間的, 自動的評価手法への進歩がみられた。

This paper reviews and summarizes human evaluation practices described in 97 style transfer papers with respect to three main evaluation aspects: style transfer, meaning preservation, and fluency. In principle, evaluations by human raters should be the most reliable. However, in style transfer papers, we find that protocols for human evaluations are often underspecified and not standardized, which hampers the reproducibility of research in this field and progress toward better human and automatic evaluation methods.
公開日:2021-06-09
翻訳日:2021-06-11 08:24:13
# (参考訳) NLPのためのサンプルベース説明法について:有効性、忠実性、意味的評価 [全文訳有]

On Sample Based Explanation Methods for NLP:Efficiency, Faithfulness, and Semantic Evaluation ( http://arxiv.org/abs/2106.04753v1 )

ライセンス: CC BY 4.0
Wei Zhang, Ziming Huang, Yada Zhu, Guangnan Ye, Xiaodong Cui, Fan Zhang(参考訳) 自然言語処理の最近の進歩では、最先端のモデルやデータセットの規模が広くなり、説明解釈性、効率性、忠実性など、多くの面でサンプルベースの説明手法の適用に挑戦している。 本稿では,説明単位として任意のテキスト列を許容することで,説明の解釈可能性を向上させる。 さらに,モデルの忠実性を保証するため,ヘッセン自由法を実装した。 最後に,本手法を他の手法と比較するために,広く採用されている診断・再訓練尺度よりも,人間の説明判断に適合する意味に基づく評価指標を提案する。 複数の実データ集合に対する実験結果から,提案手法のセマンティック評価における影響関数やTracInなどの一般的な説明手法よりも優れた性能を示す。

In the recent advances of natural language processing, the scale of the state-of-the-art models and datasets is usually extensive, which challenges the application of sample-based explanation methods in many aspects, such as explanation interpretability, efficiency, and faithfulness. In this work, for the first time, we can improve the interpretability of explanations by allowing arbitrary text sequences as the explanation unit. On top of this, we implement a hessian-free method with a model faithfulness guarantee. Finally, to compare our method with the others, we propose a semantic-based evaluation metric that can better align with humans' judgment of explanations than the widely adopted diagnostic or re-training measures. The empirical results on multiple real data sets demonstrate the proposed method's superior performance to popular explanation techniques such as Influence Function or TracIn on semantic evaluation.
公開日:2021-06-09
翻訳日:2021-06-11 08:13:46
# (参考訳) Submodular + Concave [全文訳有]

Submodular + Concave ( http://arxiv.org/abs/2106.04769v1 )

ライセンス: CC BY 4.0
Siddharth Mitra, Moran Feldman, Amin Karbasi(参考訳) 一階最適化法が凸関数の最大目的値に収束し、(非凸/非凸)連続部分モジュラ函数に対する定数因子近似の保証を提供できることはよく確立されている。 本研究では, 可解凸体上での$f(x) = g(x) +c(x)$ の関数の最大化の研究を開始する。ここでは$g$ は滑らかな dr-サブモジュラー関数であり、$c$ は滑らかな凸関数である。 このクラスの函数は、理論的な保証がないような凹凸および連続DR-部分モジュラ函数の厳密な拡張である。 目的関数の性質(例えば$G$ と $C$ が単調か非負か)と集合 $P$ の性質(下向きの閉か否かに関わらず)により、1-1/e$, $1/e$, $1/2$ の近似保証を提供するフランク・ウルフ型アルゴリズムのスイートを提供する。 次に、我々のアルゴリズムを用いて、与えられた基底集合から多様な要素の選択(決定点過程のモードに対応する)とクラスタ化された要素のセットの選択(適切な凹凸関数の最大値に対応する)を円滑に補間するフレームワークを得る。 さらに, 制約条件と制約条件の両方で, 上記のクラス(DR-submodular + concave)の様々な関数にアルゴリズムを適用し, アルゴリズムが自然ベースラインを一貫して上回ることを示す。

It has been well established that first order optimization methods can converge to the maximal objective value of concave functions and provide constant factor approximation guarantees for (non-convex/non-conc ave) continuous submodular functions. In this work, we initiate the study of the maximization of functions of the form $F(x) = G(x) +C(x)$ over a solvable convex body $P$, where $G$ is a smooth DR-submodular function and $C$ is a smooth concave function. This class of functions is a strict extension of both concave and continuous DR-submodular functions for which no theoretical guarantee is known. We provide a suite of Frank-Wolfe style algorithms, which, depending on the nature of the objective function (i.e., if $G$ and $C$ are monotone or not, and non-negative or not) and on the nature of the set $P$ (i.e., whether it is downward closed or not), provide $1-1/e$, $1/e$, or $1/2$ approximation guarantees. We then use our algorithms to get a framework to smoothly interpolate between choosing a diverse set of elements from a given ground set (corresponding to the mode of a determinantal point process) and choosing a clustered set of elements (corresponding to the maxima of a suitable concave function). Additionally, we apply our algorithms to various functions in the above class (DR-submodular + concave) in both constrained and unconstrained settings, and show that our algorithms consistently outperform natural baselines.
公開日:2021-06-09
翻訳日:2021-06-11 07:52:53
# (参考訳) 政策決定を支援する形状ファイルを用いた地理空間推論 [全文訳有]

Geospatial Reasoning with Shapefiles for Supporting Policy Decisions ( http://arxiv.org/abs/2106.04771v1 )

ライセンス: CC BY 4.0
Henrique Santos, James P. McCusker, Deborah L. McGuinness(参考訳) 政策は、意思決定をサポートするために複数のドメインに存在する権威ある資産である。 ドメインエンティティとその属性が特定の基準を満たすとき、どのようなアクションが許可されるか、推奨されるかを記述する。 地名間の距離や包摂関係を含む地理的規則を含む政策を見つけることは一般的である。 これらの位置のポリゴンはしばしば地理空間データセットにエンコードされる。 本稿では、OWL、PROV-O、GeoSPARQL標準を用いて、地理空間データセットからLinked Dataにデータを変換し、この表現を活用して、自動オントロジーベースのポリシー決定をサポートする方法を提案する。 我々は,この手法を位置情報に敏感な電波スペクトルポリシーに適用し,国勢調査データセットにおける無線送信者座標と政策規制地域との関係を同定した。 owl推論とgeosparqlを混合したポリシ評価パイプラインを用いて,無線スペクトラムドメインの専門家による一連の要件に従って,関連する地理空間関係を実装した。

Policies are authoritative assets that are present in multiple domains to support decision-making. They describe what actions are allowed or recommended when domain entities and their attributes satisfy certain criteria. It is common to find policies that contain geographical rules, including distance and containment relationships among named locations. These locations' polygons can often be found encoded in geospatial datasets. We present an approach to transform data from geospatial datasets into Linked Data using the OWL, PROV-O, and GeoSPARQL standards, and to leverage this representation to support automated ontology-based policy decisions. We applied our approach to location-sensitive radio spectrum policies to identify relationships between radio transmitters coordinates and policy-regulated regions in Census.gov datasets. Using a policy evaluation pipeline that mixes OWL reasoning and GeoSPARQL, our approach implements the relevant geospatial relationships, according to a set of requirements elicited by radio spectrum domain experts.
公開日:2021-06-09
翻訳日:2021-06-11 07:16:49
# (参考訳) 生活行動に触発されたアルゴリズムの2020年分類法 [全文訳有]

A 2020 taxonomy of algorithms inspired on living beings behavior ( http://arxiv.org/abs/2106.04775v1 )

ライセンス: CC BY 4.0
Luis Torres-Trevi\~no(参考訳) コンピュータ博物学者の役割を担い、生物にインスパイアされたアルゴリズムを通して、生物の行動にインスパイアされたアルゴリズムを利用する。 アルゴリズムのコンピレーションは、バイオインスパイアされたヒューリスティックスとスウォームインテリジェンスのいくつかのレビューや調査を、2020年まで考慮している。 分類学の発展のために、生物、細菌、植物、真菌、および原虫のいくつかの枝を生成する生物学者が使用する王国を考慮して分類される。

Taking the role of a computer naturalist, a journey is taken through bio inspired algorithms taking account on algorithms which are inspired on living being behaviors. A compilation of algorithms is made considering several reviews or surveys of bio-inspired heuristics and swarm intelligence until 2020 year. A classification is made considering kingdoms as used by biologists generating several branches for animalia, bacteria, plants, fungi and protista to develop a taxonomy.
公開日:2021-06-09
翻訳日:2021-06-11 07:10:18
# (参考訳) メタラーニングのための確率的タスクモデリング [全文訳有]

Probabilistic task modelling for meta-learning ( http://arxiv.org/abs/2106.04802v1 )

ライセンス: CC BY 4.0
Cuong C. Nguyen and Thanh-Toan Do and Gustavo Carneiro(参考訳) メタラーニングに使用されるタスクの集合に対する生成的確率モデルである確率的タスクモデリングを提案する。 提案モデルは変分オートエンコーディングと潜在ディリクレ割当を組み合わせ、各タスクを埋め込み空間内のガウス分布の混合としてモデル化する。 このようなモデリングはタスク-テーマの混合を通じてタスクの明示的な表現を提供する。 経験的ベイズ推定のための変分推定法に基づく効率的な近似推定手法を提案する。 提案手法により得られたタスクの不確かさとタスク距離を,テストタスクにおける予測精度の相関図を用いて検証する。 また,メタ学習におけるタスク選択実験を行い,提案モデルから推定したタスク関連性がメタ学習アルゴリズムの促進に役立つことを示す。

We propose probabilistic task modelling -- a generative probabilistic model for collections of tasks used in meta-learning. The proposed model combines variational auto-encoding and latent Dirichlet allocation to model each task as a mixture of Gaussian distribution in an embedding space. Such modelling provides an explicit representation of a task through its task-theme mixture. We present an efficient approximation inference technique based on variational inference method for empirical Bayes parameter estimation. We perform empirical evaluations to validate the task uncertainty and task distance produced by the proposed method through correlation diagrams of the prediction accuracy on testing tasks. We also carry out experiments of task selection in meta-learning to demonstrate how the task relatedness inferred from the proposed model help to facilitate meta-learning algorithms.
公開日:2021-06-09
翻訳日:2021-06-11 06:32:07
# (参考訳) 単インスタンス深部生成プリミティブを用いた位相検索 [全文訳有]

Phase Retrieval using Single-Instance Deep Generative Prior ( http://arxiv.org/abs/2106.04812v1 )

ライセンス: CC BY 4.0
Kshitij Tayal, Raunak Manekar, Zhong Zhuang, David Yang, Vipin Kumar, Felix Hofmann, Ju Sun(参考訳) 位相探索のための深層学習手法はいくつか存在するが、そのほとんどは正確な支援情報なしで現実的なデータで失敗している。 複素数値結晶データによく作用する単一インスタンスの深部生成先行に基づく新しい手法を提案する。

Several deep learning methods for phase retrieval exist, but most of them fail on realistic data without precise support information. We propose a novel method based on single-instance deep generative prior that works well on complex-valued crystal data.
公開日:2021-06-09
翻訳日:2021-06-11 06:10:58
# (参考訳) 言語間AMR解析におけるバイリンガル情報の有用性 [全文訳有]

Making Better Use of Bilingual Information for Cross-Lingual AMR Parsing ( http://arxiv.org/abs/2106.04814v1 )

ライセンス: CC BY 4.0
Yitao Cai, Zhe Lin and Xiaojun Wan(参考訳) 抽象意味表現(abstract meaning representation, amr)は、自然言語の意味論を表す非循環グラフである。 以前の研究が示すように、AMRは最初英語用に設計されたが、他の言語のセマンティクスを表現することもできる。 しかし、予測されたAMRグラフの概念は具体的でないことがわかった。 概念の誤認は、英語のトークンとAMRの概念の関連性が高いためである、と我々は主張する。 そこで本研究では,より正確な概念を予測可能にするために,翻訳文と非英語文のバイリンガル入力を導入する。 さらに、デコーダが同時に英語のシーケンスを予測する必要のある補助タスクも導入する。 補助タスクは、対応する英語トークンが正確に何であるかをデコーダが理解するのに役立つ。 提案する言語横断型AMRパーサは,Smatch F1の10.6ポイントを突破した。 アブレーション研究は,提案するモジュールの有効性も示す。

Abstract Meaning Representation (AMR) is a rooted, labeled, acyclic graph representing the semantics of natural language. As previous works show, although AMR is designed for English at first, it can also represent semantics in other languages. However, they find that concepts in their predicted AMR graphs are less specific. We argue that the misprediction of concepts is due to the high relevance between English tokens and AMR concepts. In this work, we introduce bilingual input, namely the translated texts as well as non-English texts, in order to enable the model to predict more accurate concepts. Besides, we also introduce an auxiliary task, requiring the decoder to predict the English sequences at the same time. The auxiliary task can help the decoder understand what exactly the corresponding English tokens are. Our proposed cross-lingual AMR parser surpasses previous state-of-the-art parser by 10.6 points on Smatch F1 score. The ablation study also demonstrates the efficacy of our proposed modules.
公開日:2021-06-09
翻訳日:2021-06-11 06:07:16
# (参考訳) コンテキストレコメンデーションと低解像度カットプレーンアルゴリズム [全文訳有]

Contextual Recommendations and Low-Regret Cutting-Plane Algorithms ( http://arxiv.org/abs/2106.04819v1 )

ライセンス: CC BY 4.0
Sreenivas Gollapudi, Guru Guruganesh, Kostas Kollias, Pasin Manurangsi, Renato Paes Leme, Jon Schneider(参考訳) ナビゲーションエンジンやレコメンデーションシステムにおけるルーティングアプリケーションによって動機付けられたコンテキスト線形バンディットの変種について考察する。 隠れた$d$次元の値$w^*$を学びたいと思っています。 ラウンドごとに、可能なアクションのサブセット $\mathcal{x}_t \subseteq \mathbb{r}^d$ が示されます。 選択すれば(つまり) ユーザへの推奨) action $x_t$, we get utility $\langle x_t, w^* \rangle$, but only the identity of the best action $\arg\max_{x \in \mathcal{x}_t} \langle x, w^* \rangle$。 我々は、この問題のアルゴリズムを設計し、後悔する$O(d\log T)$と$\exp(O(d \log d))$を達成する。 これを達成するために、我々は、真点 $w^*$ と分離オラクルが返す超平面の合計距離である低い "regret" を持つ新しい切削平面アルゴリズムを設計した。 また、いくつかの推奨事項のリストを提供することができる変種についても検討しています。 この変種では、$O(d^2 \log d)$ regret と list size $\mathrm{poly}(d)$ のアルゴリズムを与える。 最後に,学習者が推薦よりも優れた行動の同一性のみを学習する,この問題の弱い変種に対して,ほぼ厳密なアルゴリズムを構築する。 この結果は凸幾何学における新しいアルゴリズム技術(凸集合の遠心に対するシュタイナーの公式の変種を含む)に依存している。

We consider the following variant of contextual linear bandits motivated by routing applications in navigational engines and recommendation systems. We wish to learn a hidden $d$-dimensional value $w^*$. Every round, we are presented with a subset $\mathcal{X}_t \subseteq \mathbb{R}^d$ of possible actions. If we choose (i.e. recommend to the user) action $x_t$, we obtain utility $\langle x_t, w^* \rangle$ but only learn the identity of the best action $\arg\max_{x \in \mathcal{X}_t} \langle x, w^* \rangle$. We design algorithms for this problem which achieve regret $O(d\log T)$ and $\exp(O(d \log d))$. To accomplish this, we design novel cutting-plane algorithms with low "regret" -- the total distance between the true point $w^*$ and the hyperplanes the separation oracle returns. We also consider the variant where we are allowed to provide a list of several recommendations. In this variant, we give an algorithm with $O(d^2 \log d)$ regret and list size $\mathrm{poly}(d)$. Finally, we construct nearly tight algorithms for a weaker variant of this problem where the learner only learns the identity of an action that is better than the recommendation. Our results rely on new algorithmic techniques in convex geometry (including a variant of Steiner's formula for the centroid of a convex set) which may be of independent interest.
公開日:2021-06-09
翻訳日:2021-06-11 05:51:14
# (参考訳) 談話のための多言語言語モデルの提案 [全文訳有]

Probing Multilingual Language Models for Discourse ( http://arxiv.org/abs/2106.04832v1 )

ライセンス: CC BY 4.0
Murathan Kurfal{\i}, Robert \"Ostling(参考訳) 事前学習された多言語言語モデルは、多言語自然言語処理において重要な構成要素となっている。 本稿では,言語間の談話レベルの知識の伝達方法を検討するために,そのようなモデルについて検討する。 これは、以前組み立てられたよりも幅広い談話レベルのタスクの体系的な評価によって行われる。 XLM-RoBERTaファミリーは、優れたモノリンガルモデルであると同時に、ゼロショット設定で比較的劣化が少ないことで、常に最高の性能を示す。 また, モデル蒸留が文表現の言語間移動を阻害する可能性も示唆した。 10の異なる家庭で合計22の言語で5つのタスクをカバーするテストスイートが、文レベルでの多言語パフォーマンスのための有用な評価プラットフォームになることを期待しています。

Pre-trained multilingual language models have become an important building block in multilingual natural language processing. In the present paper, we investigate a range of such models to find out how well they transfer discourse-level knowledge across languages. This is done with a systematic evaluation on a broader set of discourse-level tasks than has been previously been assembled. We find that the XLM-RoBERTa family of models consistently show the best performance, by simultaneously being good monolingual models and degrading relatively little in a zero-shot setting. Our results also indicate that model distillation may hurt the ability of cross-lingual transfer of sentence representations, while language dissimilarity at most has a modest effect. We hope that our test suite, covering 5 tasks with a total of 22 languages in 10 distinct families, will serve as a useful evaluation platform for multilingual performance at and beyond the sentence level.
公開日:2021-06-09
翻訳日:2021-06-11 05:26:22
# (参考訳) UniKeyphrase: キーワード予測のための統一抽出および生成フレームワーク [全文訳有]

UniKeyphrase: A Unified Extraction and Generation Framework for Keyphrase Prediction ( http://arxiv.org/abs/2106.04847v1 )

ライセンス: CC BY 4.0
Huanqin Wu, Wei Liu, Lei Li, Dan Nie, Tao Chen, Feng Zhang, Di Wang(参考訳) キーフレーズ予測(KP)タスクは、与えられた文書の主観を要約できるいくつかのキーフレーズを予測することを目的としている。 主流KP法は純粋に生成的アプローチと抽出と生成を伴う統合モデルに分類することができる。 しかし、これらの手法はキーフレーズ間の多様性を無視したり、暗黙的にタスク間の関係を弱く捉えるだけである。 本論文では,キーフレーズの抽出と生成を共同で学習する新しいエンドツーエンド学習フレームワークUniKeyphraseを提案する。 unikeyphraseでは、モデル構造とトレーニングプロセスの観点から、抽出と生成の間の潜在意味関係を十分に活用するために、積み重ね関係層とバガオブワード制約が提案されている。 KPベンチマークの実験は、我々の共同アプローチが主流の手法よりも大きなマージンで優れていることを示した。

Keyphrase Prediction (KP) task aims at predicting several keyphrases that can summarize the main idea of the given document. Mainstream KP methods can be categorized into purely generative approaches and integrated models with extraction and generation. However, these methods either ignore the diversity among keyphrases or only weakly capture the relation across tasks implicitly. In this paper, we propose UniKeyphrase, a novel end-to-end learning framework that jointly learns to extract and generate keyphrases. In UniKeyphrase, stacked relation layer and bag-of-words constraint are proposed to fully exploit the latent semantic relation between extraction and generation in the view of model structure and training process, respectively. Experiments on KP benchmarks demonstrate that our joint approach outperforms mainstream methods by a large margin.
公開日:2021-06-09
翻訳日:2021-06-11 05:11:24
# (参考訳) dravidian multimodality:タミルおよびマラヤラムにおけるマルチモーダル感情分析のためのデータセット

DravidianMultiModali ty: A Dataset for Multi-modal Sentiment Analysis in Tamil and Malayalam ( http://arxiv.org/abs/2106.04853v1 )

ライセンス: CC BY 4.0
Bharathi Raja Chakravarthi and Jishnu Parameswaran P.K and Premjith B and K.P Soman and Rahul Ponnusamy and Prasanna Kumar Kumaresan and Kingston Pal Thamburaj and John P. McCrae(参考訳) 人間のコミュニケーションは本質的にマルチモーダルで非同期である。 人間の感情や感情を分析することは、人工知能の新たな分野だ。 当社は、プロダクトやその他のトピックに関するソーシャルメディア上で、ローカル言語におけるマルチモーダルコンテンツの増加を目撃しています。 しかしながら、低リソースのDravidian言語で利用可能なマルチモーダルリソースは少ない。 本研究の目的は,タミル語とマラヤラム語のマルチモーダル感情分析データセットの構築である。 まず、YouTubeからTamilとMalayalamの製品または映画レビュービデオをダウンロードした。 次に、アノテーションを使ってビデオのキャプションを作成しました。 そして、ビデオに感情をラベル付けし、FleissのKappaを使ってアノテーション間の合意を検証した。 これはボランティアアノテーターによるタミルとマラヤラムのための最初のマルチモーダル感情分析データセットである。

Human communication is inherently multimodal and asynchronous. Analyzing human emotions and sentiment is an emerging field of artificial intelligence. We are witnessing an increasing amount of multimodal content in local languages on social media about products and other topics. However, there are not many multimodal resources available for under-resourced Dravidian languages. Our study aims to create a multimodal sentiment analysis dataset for the under-resourced Tamil and Malayalam languages. First, we downloaded product or movies review videos from YouTube for Tamil and Malayalam. Next, we created captions for the videos with the help of annotators. Then we labelled the videos for sentiment, and verified the inter-annotator agreement using Fleiss's Kappa. This is the first multimodal sentiment analysis dataset for Tamil and Malayalam by volunteer annotators.
公開日:2021-06-09
翻訳日:2021-06-11 04:59:35
# (参考訳) 新展開計画--制御・計画・強化学習における共通問題に対する幅ベースアルゴリズム [全文訳有]

Planning for Novelty: Width-Based Algorithms for Common Problems in Control, Planning and Reinforcement Learning ( http://arxiv.org/abs/2106.04866v1 )

ライセンス: CC BY 4.0
Nir Lipovetzky(参考訳) 幅に基づくアルゴリズムは、状態の新規性の一般的な定義を通じて解を求める。 これらのアルゴリズムは、古典的な計画において最先端のパフォーマンスをもたらすことが示されており、シミュレーションエンジンによって問題のダイナミクスが与えられるモデルベースおよびモデルフリーの設定にうまく適用されている。 幅ベースのアルゴリズムのパフォーマンスは、計画幅の概念を通じて理論的に理解され、ランタイムとメモリ消費の多項式保証を提供する。 本稿では,研究コミュニティ間のシナジーを促進するために,幅ベースの計画の領域をまとめ,現在と将来の研究方向について調査する。

Width-based algorithms search for solutions through a general definition of state novelty. These algorithms have been shown to result in state-of-the-art performance in classical planning, and have been successfully applied to model-based and model-free settings where the dynamics of the problem are given through simulation engines. Width-based algorithms performance is understood theoretically through the notion of planning width, providing polynomial guarantees on their runtime and memory consumption. To facilitate synergies across research communities, this paper summarizes the area of width-based planning, and surveys current and future research directions.
公開日:2021-06-09
翻訳日:2021-06-11 04:58:34
# (参考訳) ディープコールドブートアタックによるAESキーの復元 [全文訳有]

Recovering AES Keys with a Deep Cold Boot Attack ( http://arxiv.org/abs/2106.04876v1 )

ライセンス: CC BY 4.0
Itamar Zimerman, Eliya Nachmani, Lior Wolf(参考訳) コールドブート攻撃は、電源が停止された直後に壊れたランダムアクセスメモリを検査する。 ほとんどのビットは破損しているが、ランダムな位置にある多くのビットはそうではない。 多くの暗号方式の鍵はメモリに拡張され、固定された冗長性を持つ長い鍵になるため、しばしば復元される。 本研究では,AES鍵に対する攻撃を適用するために,深誤り訂正符号手法の新たな暗号版とSATソルバ方式を併用する。 AESは線形および微分暗号解析に抵抗するように設計されたRijndael S-box要素から構成されるが,本手法はニューラルメッセージパッシングネットワークによって実装された計算グラフとしてAES鍵スケジューリングの新たな形式化を提供する。 以上の結果から,本手法は攻撃方法の精度を極めて高いマージンで上回ることがわかった。

Cold boot attacks inspect the corrupted random access memory soon after the power has been shut down. While most of the bits have been corrupted, many bits, at random locations, have not. Since the keys in many encryption schemes are being expanded in memory into longer keys with fixed redundancies, the keys can often be restored. In this work, we combine a novel cryptographic variant of a deep error correcting code technique with a modified SAT solver scheme to apply the attack on AES keys. Even though AES consists of Rijndael S-box elements, that are specifically designed to be resistant to linear and differential cryptanalysis, our method provides a novel formalization of the AES key scheduling as a computational graph, which is implemented by a neural message passing network. Our results show that our methods outperform the state of the art attack methods by a very large margin.
公開日:2021-06-09
翻訳日:2021-06-11 04:47:59
# (参考訳) 確率最適化アルゴリズムのフラクタル構造と一般化特性

Fractal Structure and Generalization Properties of Stochastic Optimization Algorithms ( http://arxiv.org/abs/2106.04881v1 )

ライセンス: CC BY 4.0
Alexander Camuto, George Deligiannidis, Murat A. Erdogdu, Mert G\"urb\"uzbalaban, Umut \c{S}im\c{s}ekli, Lingjiong Zhu(参考訳) ディープラーニングの一般化を理解することは、過去10年間の統計的学習理論における大きな課題の1つだ。 近年の研究では、有意義な一般化境界を得るためにデータセットとトレーニングアルゴリズムを考慮に入れなければならないことが示されているが、データとアルゴリズムのどの特性が一般化性能を決定するのかは理論的には定かではない。 本研究では,動的システム理論の観点からこの問題にアプローチし,確率的最適化アルゴリズムをランダム反復関数系(IFS)として表現する。 力学系の文献でよく研究され、穏やかな仮定の下で、そのようなISFはフラクタル構造を持つ集合上でしばしば支持される不変測度でエルゴードであることが示される。 我々の主要な貢献として,確率的最適化アルゴリズムの一般化誤差は,その不変測度の根底にあるフラクタル構造の'複雑度'に基づいて限定可能であることを証明した。 力学系理論の結果を利用して、一般化誤差はアルゴリズムの選択(例えば、確率勾配勾配 - SGD)、アルゴリズムのハイパーパラメータ(例えば、ステップサイズ、バッチサイズ)、および問題の幾何学(例えば、損失のヘシアン)に明示的に関連付けることができることを示す。 我々はさらに,特定の問題(線形・ロジスティック回帰,隠れ層ニューラルネットワークなど)やアルゴリズム(sgdやプリコンディション型など)に対して,解析的な推定値を得ることを特化している。現代のニューラルネットワークでは,開発した境界を計算し,ニューラルネットワークの様々な実験で理論を支援できる効率的なアルゴリズムを開発する。

Understanding generalization in deep learning has been one of the major challenges in statistical learning theory over the last decade. While recent work has illustrated that the dataset and the training algorithm must be taken into account in order to obtain meaningful generalization bounds, it is still theoretically not clear which properties of the data and the algorithm determine the generalization performance. In this study, we approach this problem from a dynamical systems theory perspective and represent stochastic optimization algorithms as random iterated function systems (IFS). Well studied in the dynamical systems literature, under mild assumptions, such IFSs can be shown to be ergodic with an invariant measure that is often supported on sets with a fractal structure. As our main contribution, we prove that the generalization error of a stochastic optimization algorithm can be bounded based on the `complexity' of the fractal structure that underlies its invariant measure. Leveraging results from dynamical systems theory, we show that the generalization error can be explicitly linked to the choice of the algorithm (e.g., stochastic gradient descent -- SGD), algorithm hyperparameters (e.g., step-size, batch-size), and the geometry of the problem (e.g., Hessian of the loss). We further specialize our results to specific problems (e.g., linear/logistic regression, one hidden-layered neural networks) and algorithms (e.g., SGD and preconditioned variants), and obtain analytical estimates for our bound.For modern neural networks, we develop an efficient algorithm to compute the developed bound and support our theory with various experiments on neural networks.
公開日:2021-06-09
翻訳日:2021-06-11 04:32:34
# (参考訳) マルチスケールグラフニューラルネットワークによる連続体力学のシミュレーション [全文訳有]

Simulating Continuum Mechanics with Multi-Scale Graph Neural Networks ( http://arxiv.org/abs/2106.04900v1 )

ライセンス: CC BY 4.0
Mario Lino, Chris Cantwell, Anil A. Bharath, Stathi Fotiadis(参考訳) 1つ以上の偏微分方程式を数値的に解く連続体力学シミュレータは、科学や工学の多くの分野において必須のツールであるが、その性能はしばしば応用を制限している。 最近の機械学習のアプローチは時空間予測を加速する能力を示しているが、比較において適度な精度しか持たない。 ここでは、非定常連続体力学を推論するための新しいマルチスケールグラフニューラルネットワークモデルであるMultiScaleGNNを紹介する。 MultiScaleGNNは、物理領域を非構造化ノードの集合として表現し、1つ以上のグラフを構築し、それぞれが異なる空間解像度のスケールを符号化する。 これらのグラフ間の逐次的な学習メッセージパッシングにより、GNNがシステム状態をキャプチャして予測する能力が向上する。 グラフ表現を用いることで、MultiScaleGNNはグラフのエッジに誘導バイアスとして周期境界条件を課し、ノード位置への独立性を達成することができる。 本手法は, 対流問題と非圧縮性流体力学について実証する。 その結果,提案モデルは一様移流場から複素領域上の高次場へ一般化でき,レイノルズ数の範囲内の長期ナビエ・ストークス解を推算できることがわかった。 MultiScaleGNNで得られたシミュレーションは、トレーニングされたものよりも2~4桁高速である。

Continuum mechanics simulators, numerically solving one or more partial differential equations, are essential tools in many areas of science and engineering, but their performance often limits application in practice. Recent modern machine learning approaches have demonstrated their ability to accelerate spatio-temporal predictions, although, with only moderate accuracy in comparison. Here we introduce MultiScaleGNN, a novel multi-scale graph neural network model for learning to infer unsteady continuum mechanics. MultiScaleGNN represents the physical domain as an unstructured set of nodes, and it constructs one or more graphs, each of them encoding different scales of spatial resolution. Successive learnt message passing between these graphs improves the ability of GNNs to capture and forecast the system state in problems encompassing a range of length scales. Using graph representations, MultiScaleGNN can impose periodic boundary conditions as an inductive bias on the edges in the graphs, and achieve independence to the nodes' positions. We demonstrate this method on advection problems and incompressible fluid dynamics. Our results show that the proposed model can generalise from uniform advection fields to high-gradient fields on complex domains at test time and infer long-term Navier-Stokes solutions within a range of Reynolds numbers. Simulations obtained with MultiScaleGNN are between two and four orders of magnitude faster than the ones on which it was trained.
公開日:2021-06-09
翻訳日:2021-06-11 04:31:18
# (参考訳) DGA-Net Dynamic Gaussian Attention Network for Semantic Matching [全文訳有]

DGA-Net Dynamic Gaussian Attention Network for Sentence Semantic Matching ( http://arxiv.org/abs/2106.04905v1 )

ライセンス: CC BY 4.0
Kun Zhang, Guangyi Lv, Meng Wang, and Enhong Chen(参考訳) 文意味マッチングにはエージェントが2つの文間の意味的関係を決定する必要があるが、近年では表現学習技術の進歩や人間の行動のインスピレーションによって進歩が進んでいる。 これらの手法の中で、注意機構は重要な部分を効果的に選択することで重要な役割を果たす。 しかし、現在の注意法は静的な方法で重要な部分すべてに焦点を当てるか、1つの注意ステップで1つの重要な部分だけを動的に選択する。 そこで本稿では,現在の静的および動的アテンション手法の利点を組み合わせるために,新しい動的ガウス注意ネットワーク(DGA-Net)を設計する。 具体的には、まず事前訓練された言語モデルを用いて入力文を符号化し、大域的な視点から意味表現を構築する。 次に,動的ガウス的注意力(dga)を開発し,その重要部分と対応する局所的文脈を,詳細な視点から動的に把握する。 最後に,グローバル情報と詳細なローカル情報を組み合わせて,文の意味関係を包括的かつ正確に決定する。 2つの一般的な文意味マッチングタスクに関する大規模な実験により,提案したDGA-Netが注意機構の能力向上に有効であることを実証した。

Sentence semantic matching requires an agent to determine the semantic relation between two sentences, where much recent progress has been made by the advancement of representation learning techniques and inspiration of human behaviors. Among all these methods, attention mechanism plays an essential role by selecting important parts effectively. However, current attention methods either focus on all the important parts in a static way or only select one important part at one attention step dynamically, which leaves a large space for further improvement. To this end, in this paper, we design a novel Dynamic Gaussian Attention Network (DGA-Net) to combine the advantages of current static and dynamic attention methods. More specifically, we first leverage pre-trained language model to encode the input sentences and construct semantic representations from a global perspective. Then, we develop a Dynamic Gaussian Attention (DGA) to dynamically capture the important parts and corresponding local contexts from a detailed perspective. Finally, we combine the global information and detailed local information together to decide the semantic relation of sentences comprehensively and precisely. Extensive experiments on two popular sentence semantic matching tasks demonstrate that our proposed DGA-Net is effective in improving the ability of attention mechanism.
公開日:2021-06-09
翻訳日:2021-06-11 04:13:24
# (参考訳) モデル非依存なメタラーニングのためのメモリベース最適化手法

Memory-based Optimization Methods for Model-Agnostic Meta-Learning ( http://arxiv.org/abs/2106.04911v1 )

ライセンス: CC BY 4.0
Bokun Wang, Zhuoning Yuan, Yiming Ying, Tianbao Yang(参考訳) 近年,モデルに依存しないメタラーニング (MAML) が注目されている。 しかし,MAMLの確率的最適化はまだ未熟である。 MAMLの既存のアルゴリズムは、メタモデルを更新するイテレーション毎に、多数のタスクと各サンプリングされたタスクのデータポイントをサンプリングして `episode' というアイデアに基づいている。 しかし、それらは必ずしも一定のミニバッチサイズでの収束を保証するものではないか、あるいは各イテレーションでより多くのタスクを処理する必要がある。 本稿では,mamlに対する効率的なメモリベース確率アルゴリズムの提案と,コンバージェンスエラーの低減について述べる。これは,タスク毎のサンプル数とタスク毎のサンプル数のみをサンプリングすることであり,(ii)クロスデバイス(w/クライアントサンプリング)とクロスサイロ(w/oクライアントサンプリング)の両方において,分散メモリベースの分散mamlアルゴリズムを提案する。 提案アルゴリズムの重要な特徴は、メタモデル以外のタスクごとに個別のパーソナライズされたモデル(メモリ)を維持し、各イテレーションに履歴更新を組み込んだモーメント法によるサンプリングされたタスクに対してのみ更新することである。 理論結果はMAMLの最適化理論を大幅に改善し、経験的な結果も理論を裏付ける。

Recently, model-agnostic meta-learning (MAML) has garnered tremendous attention. However, stochastic optimization of MAML is still immature. Existing algorithms for MAML are based on the ``episode" idea by sampling a number of tasks and a number of data points for each sampled task at each iteration for updating the meta-model. However, they either do not necessarily guarantee convergence with a constant mini-batch size or require processing a larger number of tasks at every iteration, which is not viable for continual learning or cross-device federated learning where only a small number of tasks are available per-iteration or per-round. This paper addresses these issues by (i) proposing efficient memory-based stochastic algorithms for MAML with a diminishing convergence error, which only requires sampling a constant number of tasks and a constant number of examples per-task per-iteration; (ii) proposing communication-effici ent distributed memory-based MAML algorithms for personalized federated learning in both the cross-device (w/ client sampling) and the cross-silo (w/o client sampling) settings. The key novelty of the proposed algorithms is to maintain an individual personalized model (aka memory) for each task besides the meta-model and only update them for the sampled tasks by a momentum method that incorporates historical updates at each iteration. The theoretical results significantly improve the optimization theory for MAML and the empirical results also corroborate the theory.
公開日:2021-06-09
翻訳日:2021-06-11 03:46:53
# (参考訳) PCAとGWOによる深部機能選択を用いた頸部細胞診 [全文訳有]

Cervical Cytology Classification Using PCA & GWO Enhanced Deep Features Selection ( http://arxiv.org/abs/2106.04919v1 )

ライセンス: CC BY 4.0
Hritam Basak, Rohit Kundu, Sukanta Chakraborty, Nibaran Das(参考訳) 子宮頸癌は世界でも最も致命的かつ一般的な疾患の1つである。 早期に診断すれば完全に治すことができるが、退屈で高価な検出方法により、集団検診は不可能である。 そこで本研究では, 細胞診画像分類における進化的最適化を用いたDeep Learningと特徴選択を利用した完全自動化フレームワークを提案する。 提案フレームワークは,いくつかの畳み込みニューラルネットワークモデルから深度特徴を抽出し,計算コストの低減と収束の高速化を図るために2段階の特徴低減手法を用いる。 cnnモデルから抽出された特徴は、分散の99%を保ちながら主成分分析により次元が減少する大きな特徴空間を形成する。 進化最適化アルゴリズムであるGrey Wolf Optimizerを用いて,非冗長で最適な特徴部分集合をこの特徴空間から選択し,分類性能を向上させる。 最後に、選択された機能サブセットを使用して、最終予測を生成するsvm分類器をトレーニングする。 Mendeley Liquid Based Cytology (4-class) データセット、Herlev Pap Smear (7-class) データセット、SIPaKMeD Pap Smear (5-class) データセットそれぞれ99.47%、98.32%、97.87%の分類精度を達成し、アプローチの信頼性を正当化する。 提案するアプローチに関連するコードは、https://github.com/d vlp-cmaterju/two-ste p-feature-enhancemen tにある。

Cervical cancer is one of the most deadly and common diseases among women worldwide. It is completely curable if diagnosed in an early stage, but the tedious and costly detection procedure makes it unviable to conduct population-wise screening. Thus, to augment the effort of the clinicians, in this paper, we propose a fully automated framework that utilizes Deep Learning and feature selection using evolutionary optimization for cytology image classification. The proposed framework extracts Deep feature from several Convolution Neural Network models and uses a two-step feature reduction approach to ensure reduction in computation cost and faster convergence. The features extracted from the CNN models form a large feature space whose dimensionality is reduced using Principal Component Analysis while preserving 99% of the variance. A non-redundant, optimal feature subset is selected from this feature space using an evolutionary optimization algorithm, the Grey Wolf Optimizer, thus improving the classification performance. Finally, the selected feature subset is used to train an SVM classifier for generating the final predictions. The proposed framework is evaluated on three publicly available benchmark datasets: Mendeley Liquid Based Cytology (4-class) dataset, Herlev Pap Smear (7-class) dataset, and the SIPaKMeD Pap Smear (5-class) dataset achieving classification accuracies of 99.47%, 98.32% and 97.87% respectively, thus justifying the reliability of the approach. The relevant codes for the proposed approach can be found in: https://github.com/D VLP-CMATERJU/Two-Ste p-Feature-Enhancemen t
公開日:2021-06-09
翻訳日:2021-06-11 03:45:29
# (参考訳) ランダム単位による事前学習モデルの拡張による神経教師あり領域適応 [全文訳有]

Neural Supervised Domain Adaptation by Augmenting Pre-trained Models with Random Units ( http://arxiv.org/abs/2106.04935v1 )

ライセンス: CC BY 4.0
Sara Meftah, Nasredine Semmar, Youssef Tamaazousti, Hassane Essafi, Fatiha Sadat(参考訳) ニューラルトランスファーラーニング(TL)は自然言語処理(NLP)において、特に低リソースのシナリオにおいて、多くのタスクで高いパフォーマンスを実現しているため、ユビキタスになりつつある。 特に、TLは高リソース領域から低リソース領域への貴重な知識の伝達にニューラルネットワーク適応に広く用いられている。 TLの標準的な微調整方式では、モデルは当初ソースドメインで事前訓練され、その後ターゲットドメインで微調整されるため、ソースドメインとターゲットドメインは同じアーキテクチャでトレーニングされる。 本稿では,そのようなスキームは,その効率性に拘わらず,大きな制限を負っているという解釈法を提示する。 実際には、新しいドメインに適応できるが、事前訓練されたニューロンは、ターゲットドメインに固有の特定のパターンを学ぶのに苦労する。 さらに,ソース領域とターゲット領域の関連度が高いにもかかわらず,隠れた負の伝達が引き起こされる可能性について考察した。 これらの問題に対処するため,我々は,正規化,重み付け,ランダム初期化単位を用いて事前学習したモデルを強化し,価値ある情報源知識を維持しつつ,適応性を高めることを提案する。 提案手法は,ニューラルドメインをニュースドメインからソーシャルメディアドメインに適応させるための標準的な微調整方式を4つのnlpタスク(part-of-speech tagging, chunking, named entity recognition, morphosyntactic tagging)で大幅に改善したことを示す。

Neural Transfer Learning (TL) is becoming ubiquitous in Natural Language Processing (NLP), thanks to its high performance on many tasks, especially in low-resourced scenarios. Notably, TL is widely used for neural domain adaptation to transfer valuable knowledge from high-resource to low-resource domains. In the standard fine-tuning scheme of TL, a model is initially pre-trained on a source domain and subsequently fine-tuned on a target domain and, therefore, source and target domains are trained using the same architecture. In this paper, we show through interpretation methods that such scheme, despite its efficiency, is suffering from a main limitation. Indeed, although capable of adapting to new domains, pre-trained neurons struggle with learning certain patterns that are specific to the target domain. Moreover, we shed light on the hidden negative transfer occurring despite the high relatedness between source and target domains, which may mitigate the final gain brought by transfer learning. To address these problems, we propose to augment the pre-trained model with normalised, weighted and randomly initialised units that foster a better adaptation while maintaining the valuable source knowledge. We show that our approach exhibits significant improvements to the standard fine-tuning scheme for neural domain adaptation from the news domain to the social media domain on four NLP tasks: part-of-speech tagging, chunking, named entity recognition and morphosyntactic tagging.
公開日:2021-06-09
翻訳日:2021-06-11 03:28:11
# (参考訳) グラフ埋め込みに対する対称空間:finsler-riemannianアプローチ [全文訳有]

Symmetric Spaces for Graph Embeddings: A Finsler-Riemannian Approach ( http://arxiv.org/abs/2106.04941v1 )

ライセンス: CC BY 4.0
Federico L\'opez, Beatrice Pozzetti, Steve Trettel, Michael Strube, Anna Wienhard(参考訳) 頂点埋め込みのセットとして忠実なグラフ表現を学ぶことは、幅広い機械学習アプリケーションにおける基本的な中間的ステップとなっている。 表現学習における対称空間を体系的に利用することを提案する。 これにより、リーマン最適化スキームに統合されたフィンスラー計量を用いることで、グラフ内の異種構造に適応する新しい手法を導入することができる。 組込みを分析し,データセットの構造特性を推測するツールを開発した。 実装では、対称空間の多彩な族であるジーゲル空間を選択する。 本手法は,様々な合成および実世界のデータセットにおけるグラフ再構成タスクの競合ベースラインを上回っている。 さらに,2つの下流タスク,レコメンダシステムとノード分類に適用可能性を示す。

Learning faithful graph representations as sets of vertex embeddings has become a fundamental intermediary step in a wide range of machine learning applications. We propose the systematic use of symmetric spaces in representation learning, a class encompassing many of the previously used embedding targets. This enables us to introduce a new method, the use of Finsler metrics integrated in a Riemannian optimization scheme, that better adapts to dissimilar structures in the graph. We develop a tool to analyze the embeddings and infer structural properties of the data sets. For implementation, we choose Siegel spaces, a versatile family of symmetric spaces. Our approach outperforms competitive baselines for graph reconstruction tasks on various synthetic and real-world datasets. We further demonstrate its applicability on two downstream tasks, recommender systems and node classification.
公開日:2021-06-09
翻訳日:2021-06-11 02:52:34
# (参考訳) 期待プログラミング [全文訳有]

Expectation Programming ( http://arxiv.org/abs/2106.04953v1 )

ライセンス: CC BY 4.0
Tim Reichelt, Adam Goli\'nski, Luke Ong, Tom Rainforth(参考訳) 確率的プログラミングのアイデアに基づいて,期待の計算を自動化する予測プログラミングフレームワーク(EPF)の概念を導入する。 確率的プログラムに類似して、予測プログラムは確率的構成と変数上の条件分布を定義する決定論的計算の混合からなる。 しかし、EPFにおける推論エンジンの焦点は、条件分布自体を近似するのではなく、プログラムの戻り値の期待結果を直接見積もることである。 この区別により、私たちが関心を持っている正確な期待に合わせた推論をすることで、標準的な確率的プログラミングパイプラインよりも大幅にパフォーマンスが向上します。 確率型プログラミング言語 Turing を拡張して,EPF の概念の特定のインスタンス化を実現し,いわゆるターゲット認識推論を自動実行可能にする。

Building on ideas from probabilistic programming, we introduce the concept of an expectation programming framework (EPF) that automates the calculation of expectations. Analogous to a probabilistic program, an expectation program is comprised of a mix of probabilistic constructs and deterministic calculations that define a conditional distribution over its variables. However, the focus of the inference engine in an EPF is to directly estimate the resulting expectation of the program return values, rather than approximate the conditional distribution itself. This distinction allows us to achieve substantial performance improvements over the standard probabilistic programming pipeline by tailoring the inference to the precise expectation we care about. We realize a particular instantiation of our EPF concept by extending the probabilistic programming language Turing to allow so-called target-aware inference to be run automatically, and show that this leads to significant empirical gains compared to conventional posterior-based inference.
公開日:2021-06-09
翻訳日:2021-06-11 02:10:23
# (参考訳) ゼロサムゲームにおけるオープンエンド学習のための行動と反応の多様性の統一 [全文訳有]

Unifying Behavioral and Response Diversity for Open-ended Learning in Zero-sum Games ( http://arxiv.org/abs/2106.04958v1 )

ライセンス: CC BY 4.0
Xiangyu Liu, Hangtian Jia, Ying Wen, Yaodong Yang, Yujing Hu, Yingfeng Chen, Changjie Fan, Zhipeng Hu(参考訳) 戦略の多様性の測定と促進は、戦略サイクルが存在する強力な非推移力学を持つゲームの解決に不可欠であり、一貫した勝者は存在しない(Rock-Paper-Scissors など)。 オープンエンド学習による多様なポリシーのプールを維持することは魅力的なソリューションであり、悪用されるのを避けるために自動カリキュラムを生成することができる。 しかし、従来のオープンエンド学習アルゴリズムでは、多様性の定義が広く受け入れられておらず、多様なポリシーの構築と評価が困難である。 本稿では,マルチエージェント・オープンディビジョン学習における多様性の統一尺度として,行動多様性(bd)と応答多様性(rd)の両方に基づいて,マルコフゲームにすべての要素を含める手法を提案する。 軌道分布レベルでは、状態-作用空間におけるBDを占有率の差として再定義する。 報酬力学では、異なる相手に遭遇する際のポリシーの応答を通じて多様性を特徴付けるRDを提案する。 また、現在の多様性対策の多くは、BDまたはRDのカテゴリの1つに該当するが、両方ではないことを示す。 この統一ダイバーシティ尺度を用いて,オープンエンド学習における最善の回答を求める際,対応する多様性促進目標と人口有効性を設計する。 我々は,行列ゲーム,非推移混合モデル,複雑な‘textit{Google Research Football}環境などの比較的単純なゲームにおいて,本手法の有効性を検証する。 提案手法によって得られた人口は,行列ゲームおよび非推移混合モデルにおいて,最も低い利用可能性,最も高い人口効果,および,各種レベルの対戦相手と対話する場合の最大の目標差を明らかにした。

Measuring and promoting policy diversity is critical for solving games with strong non-transitive dynamics where strategic cycles exist, and there is no consistent winner (e.g., Rock-Paper-Scissors) . With that in mind, maintaining a pool of diverse policies via open-ended learning is an attractive solution, which can generate auto-curricula to avoid being exploited. However, in conventional open-ended learning algorithms, there are no widely accepted definitions for diversity, making it hard to construct and evaluate the diverse policies. In this work, we summarize previous concepts of diversity and work towards offering a unified measure of diversity in multi-agent open-ended learning to include all elements in Markov games, based on both Behavioral Diversity (BD) and Response Diversity (RD). At the trajectory distribution level, we re-define BD in the state-action space as the discrepancies of occupancy measures. For the reward dynamics, we propose RD to characterize diversity through the responses of policies when encountering different opponents. We also show that many current diversity measures fall in one of the categories of BD or RD but not both. With this unified diversity measure, we design the corresponding diversity-promoting objective and population effectivity when seeking the best responses in open-ended learning. We validate our methods in both relatively simple games like matrix game, non-transitive mixture model, and the complex \textit{Google Research Football} environment. The population found by our methods reveals the lowest exploitability, highest population effectivity in matrix game and non-transitive mixture model, as well as the largest goal difference when interacting with opponents of various levels in \textit{Google Research Football}.
公開日:2021-06-09
翻訳日:2021-06-11 01:47:19
# (参考訳) GP-ConvCNP:時系列データに基づく畳み込み条件付きニューラルプロセスのより良い一般化 [全文訳有]

GP-ConvCNP: Better Generalization for Convolutional Conditional Neural Processes on Time Series Data ( http://arxiv.org/abs/2106.04967v1 )

ライセンス: CC BY 4.0
Jens Petersen, Gregor K\"ohler, David Zimmerer, Fabian Isensee, Paul F. J\"ager, Klaus H. Maier-Hein(参考訳) ニューラルプロセス(英: Neural Processs、NP)は、関数上の分布をモデル化できる条件生成モデルのファミリーであり、複数のコンテキストポイントで条件付きテスト時に予測を行うことができる。 最近の畳み込み条件付き神経プロセス(convolutional conditional neural process, convcnp)は、先行技術よりもパフォーマンスが著しく向上しているが、時系列データに適用した場合に一般化に苦労することがある。 特に、それらは分布シフトに対して堅牢ではなく、観測されたパターンを将来への外挿に失敗する。 ガウス過程をモデルに組み込むことで、これを改善できると同時に、分散におけるパフォーマンスを向上させることができます。 追加の利点として、ガウス過程はNPファミリーの他のメンバーの重要な特徴であるモデルからサンプルする可能性を再導入する。

Neural Processes (NPs) are a family of conditional generative models that are able to model a distribution over functions, in a way that allows them to perform predictions at test time conditioned on a number of context points. A recent addition to this family, Convolutional Conditional Neural Processes (ConvCNP), have shown remarkable improvement in performance over prior art, but we find that they sometimes struggle to generalize when applied to time series data. In particular, they are not robust to distribution shifts and fail to extrapolate observed patterns into the future. By incorporating a Gaussian Process into the model, we are able to remedy this and at the same time improve performance within distribution. As an added benefit, the Gaussian Process reintroduces the possibility to sample from the model, a key feature of other members in the NP family.
公開日:2021-06-09
翻訳日:2021-06-11 01:24:16
# (参考訳) 弱攻撃的復号による瞬時文法誤り訂正 [全文訳有]

Instantaneous Grammatical Error Correction with Shallow Aggressive Decoding ( http://arxiv.org/abs/2106.04970v1 )

ライセンス: CC BY 4.0
Xin Sun, Tao Ge, Furu Wei, Houfeng Wang(参考訳) 本稿では,Shallow Aggressive Decoding (SAD) を提案し,即時文法誤り訂正(GEC)のための変換器のオンライン推論効率を向上させる。 SADは、GECのオンライン推論効率を2つの革新によって最適化する: 1) 計算並列性を改善するために、各ステップで常に1つのトークンだけをデコードするのではなく、できるだけ多くのトークンを並列にデコードする; 2) 推論中に計算コストを削減するために、バランスの取れたエンコーダ・デコーダの深さを持つ従来のトランスフォーマーアーキテクチャの代わりに浅いデコーダを使用する。 英語と中国語のgecベンチマークでの実験では、攻撃的なデコーディングは欲深いデコードと同じ予測をもたらすが、オンライン推論の大幅なスピードアップをもたらすことが示されている。 浅いデコーダと組み合わせることで、品質を損なうことなく、強力なトランスフォーマーベースラインよりも高いオンライン推論速度が得られる。 conll-14では66.4 f0.5、bea-19では72.9 f0.5、transformer-bigモデルでは約10倍のオンライン推論速度を持つが、他の言語にも容易に適用できる。 私たちのコードはhttps://github.com/A utoTemp/Shallow-Aggr essive-Decodingで利用可能です。

In this paper, we propose Shallow Aggressive Decoding (SAD) to improve the online inference efficiency of the Transformer for instantaneous Grammatical Error Correction (GEC). SAD optimizes the online inference efficiency for GEC by two innovations: 1) it aggressively decodes as many tokens as possible in parallel instead of always decoding only one token in each step to improve computational parallelism; 2) it uses a shallow decoder instead of the conventional Transformer architecture with balanced encoder-decoder depth to reduce the computational cost during inference. Experiments in both English and Chinese GEC benchmarks show that aggressive decoding could yield the same predictions as greedy decoding but with a significant speedup for online inference. Its combination with the shallow decoder could offer an even higher online inference speedup over the powerful Transformer baseline without quality loss. Not only does our approach allow a single model to achieve the state-of-the-art results in English GEC benchmarks: 66.4 F0.5 in the CoNLL-14 and 72.9 F0.5 in the BEA-19 test set with an almost 10x online inference speedup over the Transformer-big model, but also it is easily adapted to other languages. Our code is available at https://github.com/A utoTemp/Shallow-Aggr essive-Decoding.
公開日:2021-06-09
翻訳日:2021-06-11 01:03:28
# (参考訳) 量子ニューラルネットワークのジレンマ [全文訳有]

The dilemma of quantum neural networks ( http://arxiv.org/abs/2106.04975v1 )

ライセンス: CC BY 4.0
Yang Qian, Xinbiao Wang, Yuxuan Du, Xingyao Wu, Dacheng Tao(参考訳) 量子機械学習の中核は、より信頼性と解釈性を確保するために、従来のモデルよりも訓練性が高く、一般化誤差が低い量子モデルを開発することである。 最近の研究では、量子ニューラルネットワーク(QNN)が特定のデータセットでこの目標を達成する能力を持っていることが確認されている。 この点に関して、これらの利点がまだ現実世界のタスクで維持されているかどうかを理解することが非常に重要である。 系統的な数値実験により,現在のQNNは古典的学習モデルに対していかなるメリットも提供できないことを実証的に観察した。 具体的には、2つの重要なメッセージが送られます。 まず、QNNは、実世界のデータセットの一般化が不十分な、極めて限られた有効モデル能力に悩まされる。 第2に、QNNのトレーニング容易性は、古典的なシナリオとは対照的な正規化技術に敏感である。 これらの実証的な結果から、現在のQNNの役割を再考し、量子的優位性で現実の問題を解決するための新しいプロトコルを設計せざるを得ない。

The core of quantum machine learning is to devise quantum models with good trainability and low generalization error bound than their classical counterparts to ensure better reliability and interpretability. Recent studies confirmed that quantum neural networks (QNNs) have the ability to achieve this goal on specific datasets. With this regard, it is of great importance to understand whether these advantages are still preserved on real-world tasks. Through systematic numerical experiments, we empirically observe that current QNNs fail to provide any benefit over classical learning models. Concretely, our results deliver two key messages. First, QNNs suffer from the severely limited effective model capacity, which incurs poor generalization on real-world datasets. Second, the trainability of QNNs is insensitive to regularization techniques, which sharply contrasts with the classical scenario. These empirical results force us to rethink the role of current QNNs and to design novel protocols for solving real-world problems with quantum advantages.
公開日:2021-06-09
翻訳日:2021-06-11 00:46:48
# (参考訳) 協調型オンライン学習

Cooperative Online Learning ( http://arxiv.org/abs/2106.04982v1 )

ライセンス: CC BY 4.0
Tommaso R. Cesari, Riccardo Della Vecchia(参考訳) 本論文の予備的(かつ精査されていない)版では,エージェントのネットワークを用いた非同期オンライン学習環境について検討する。 それぞれの時間ステップで、エージェントのいくつかがアクティベートされ、予測を要求され、対応する損失を支払う。 いくつかのフィードバックがこれらのエージェントに公開され、後にネットワークを通じて伝達される。 完全, 包括的, 半包括的フィードバックの事例を考察する。 特に,フルとバンディットの両方のフィードバックケースに適用可能な遅延単一エージェント学習の削減を行い,両方の設定に対して後悔の保証を得ることを可能にした。 これらの結果をほぼ一致する下限で補完する。

In this preliminary (and unpolished) version of the paper, we study an asynchronous online learning setting with a network of agents. At each time step, some of the agents are activated, requested to make a prediction, and pay the corresponding loss. Some feedback is then revealed to these agents and is later propagated through the network. We consider the case of full, bandit, and semi-bandit feedback. In particular, we construct a reduction to delayed single-agent learning that applies to both the full and the bandit feedback case and allows to obtain regret guarantees for both settings. We complement these results with a near-matching lower bound.
公開日:2021-06-09
翻訳日:2021-06-11 00:09:05
# (参考訳) コンパイル可能性制約下におけるコード生成のためのエネルギーモデル [全文訳有]

Energy-Based Models for Code Generation under Compilability Constraints ( http://arxiv.org/abs/2106.04985v1 )

ライセンス: CC BY 4.0
Tomasz Korbak and Hady Elsahar and Marc Dymetman and Germ\'an Kruszewski(参考訳) ニューラル言語モデルはソースコードでうまくトレーニングすることができ、コード補完のようなアプリケーションに繋がる。 しかし、その汎用的自己回帰的自己超越目的は、構文的正当性やコンパイル可能性などのデータに存在する重要なグローバルなシーケンスレベル特徴を見落としている。 本研究では,コンパイル可能なコードを制約満足度として生成する学習の課題を提起する。 本稿では,コンパイル可能なシーケンスのみを生成する制約を課した,事前学習された生成モデルを表すエネルギーベースモデル(EBM)を定義する。 次に,kl適応分布政策勾配アルゴリズム(khalifa et al., 2021)を用いて,ebmに近い生成モデルを学習する。 提案手法は, 生成したサンプルの多様性や複雑さを犠牲にすることなく, コンパイル可能性を向上させることができることを示す実験を行った。

Neural language models can be successfully trained on source code, leading to applications such as code completion. However, their versatile autoregressive self-supervision objective overlooks important global sequence-level features that are present in the data such as syntactic correctness or compilability. In this work, we pose the problem of learning to generate compilable code as constraint satisfaction. We define an Energy-Based Model (EBM) representing a pre-trained generative model with an imposed constraint of generating only compilable sequences. We then use the KL-Adaptive Distributional Policy Gradient algorithm (Khalifa et al., 2021) to train a generative model approximating the EBM. We conduct experiments showing that our proposed approach is able to improve compilability rates without sacrificing diversity and complexity of the generated samples.
公開日:2021-06-09
翻訳日:2021-06-11 00:08:12
# (参考訳) CLCC:カラーコンテントのためのコントラストラーニング [全文訳有]

CLCC: Contrastive Learning for Color Constancy ( http://arxiv.org/abs/2106.04989v1 )

ライセンス: CC BY 4.0
Yi-Chen Lo, Chia-Che Chang, Hsuan-Chao Chiu, Yu-Hao Huang, Chia-Ping Chen, Yu-Lin Chang, Kevin Jou(参考訳) 本稿では,カラー一貫性のための新しいコントラスト学習フレームワークであるCLCCを提案する。 コントラスト学習は画像分類のための高品質な視覚表現の学習に応用されている。 画像分類に有用な表現を与える一つの重要な側面は、照度不変拡張を設計することである。 しかし、照度不変の仮定は、原画像が与えられた照度を推定することを目的としたカラーコンステンシータスクの性質と矛盾する。 そこで本研究では,新しいraw-domainカラー増色法を用いて,より優れたイルミナント依存特徴を学習するための効果的なコントラストペアを構築する。 nus-8データセットでは、強力なベースラインに対して7.5\%$の相対的改善を行い、モデルの複雑さを増すことなく、最先端のパフォーマンスを達成する。 さらに,gehlerデータセット上では,上位のディープラーニング法と比較して,パラメータが3\times$少ないという競合性能を実現している。 さらに重要なことは、我々のモデルは、照度が近い異なるシーンでより堅牢であることを示し、データスパース領域における最悪のケースエラーを2,8.7 %削減する。

In this paper, we present CLCC, a novel contrastive learning framework for color constancy. Contrastive learning has been applied for learning high-quality visual representations for image classification. One key aspect to yield useful representations for image classification is to design illuminant invariant augmentations. However, the illuminant invariant assumption conflicts with the nature of the color constancy task, which aims to estimate the illuminant given a raw image. Therefore, we construct effective contrastive pairs for learning better illuminant-dependent features via a novel raw-domain color augmentation. On the NUS-8 dataset, our method provides $17.5\%$ relative improvements over a strong baseline, reaching state-of-the-art performance without increasing model complexity. Furthermore, our method achieves competitive performance on the Gehler dataset with $3\times$ fewer parameters compared to top-ranking deep learning methods. More importantly, we show that our model is more robust to different scenes under close proximity of illuminants, significantly reducing $28.7\%$ worst-case error in data-sparse regions.
公開日:2021-06-09
翻訳日:2021-06-10 23:47:33
# (参考訳) Tangoに2つ必要な - 深層学習のためのMixup [全文訳有]

It Takes Two to Tango: Mixup for Deep Metric Learning ( http://arxiv.org/abs/2106.04990v1 )

ライセンス: CC BY 4.0
Shashanka Venkataramanan, Bill Psomas, Yannis Avrithis, Ewa Kijak, Laurent Amsaleg, Konstantinos Karantzalos(参考訳) メトリクス学習は、類似クラスの埋め込みが近くになるように差別的な表現を学ぶことを含み、異なるクラスの埋め込みは遠くまで押し出されます。 最先端の手法は主に高度な損失関数や鉱業戦略に焦点を当てている。 一方、メトリック学習の損失は、一度に2つ以上の例を考える。 一方,分類のための現代的データ拡張手法では,一度に2つ以上の例を考察する。 2つのアイデアの組み合わせは未研究である。 本研究では,2つ以上のサンプルと対応するターゲットラベルを一度に補間する強力なデータ拡張手法であるmixupを用いて,このギャップを解消し,表現を改善することを目的とする。 この課題は、分類とは異なり、メトリック学習で使われる損失関数は例に加算されないため、対象ラベルを補間するという考えは単純ではないため、難しい。 私たちの知識を最大限に活用するために、深層メトリック学習のためのサンプルとターゲットラベルの混合を調査した最初の人物です。 我々は,既存のメトリック学習損失関数を包含する一般化された定式化を開発し,Metric MixやMetrixを導入して,ミックスアップに対応するように修正する。 入力,中間表現,埋め込みを混合することで,4つのベンチマークデータセットにおける表現が大幅に改善され,最先端のメトリック学習手法を上回っていることを示す。

Metric learning involves learning a discriminative representation such that embeddings of similar classes are encouraged to be close, while embeddings of dissimilar classes are pushed far apart. State-of-the-art methods focus mostly on sophisticated loss functions or mining strategies. On the one hand, metric learning losses consider two or more examples at a time. On the other hand, modern data augmentation methods for classification consider two or more examples at a time. The combination of the two ideas is under-studied. In this work, we aim to bridge this gap and improve representations using mixup, which is a powerful data augmentation approach interpolating two or more examples and corresponding target labels at a time. This task is challenging because, unlike classification, the loss functions used in metric learning are not additive over examples, so the idea of interpolating target labels is not straightforward. To the best of our knowledge, we are the first to investigate mixing examples and target labels for deep metric learning. We develop a generalized formulation that encompasses existing metric learning loss functions and modify it to accommodate for mixup, introducing Metric Mix, or Metrix. We show that mixing inputs, intermediate representations or embeddings along with target labels significantly improves representations and outperforms state-of-the-art metric learning methods on four benchmark datasets.
公開日:2021-06-09
翻訳日:2021-06-10 23:31:04
# (参考訳) 損失関数に基づく二階jensen不等式とその粒子変動推論への応用

Loss function based second-order Jensen inequality and its application to particle variational inference ( http://arxiv.org/abs/2106.05010v1 )

ライセンス: CC BY 4.0
Futoshi Futami, Tomoharu Iwata, Naonori Ueda, Issei Sato, and Masashi Sugiyama(参考訳) 後続分布による確率関数の期待値として得られたベイズモデル平均化は,予測,不確実性の評価,モデル選択に広く用いられている。 後方分布の情報を効率的に捉えるための様々なアプローチが開発されており、その1つは、アンサンブル学習と同じ方法で個々のモデルの多様性を確保するために相互作用を伴う一連のモデルの最適化である。 代表的なアプローチは粒子変動推論 (pvi) であり、モデルの集合を後続分布に対する経験的近似として用いる。 PVIは各モデルを反復的に更新し、最適化されたモデルの多様性を保証する。 しかし、その有望な性能にもかかわらず、この反発の理論的理解と一般化能力との関係は未だ不明である。 本稿では,PAC-ベイジアン解析の観点からこの問題に対処する。 まず、損失関数に基づく反発項を持つ新しい二階ジェンセン不等式を提供する。 反発項により、標準のジェンセン不等式よりも厳密である。 次に,新しい一般化誤差バウンドを導出し,モデルの多様性を増すことによりその誤差を低減できることを示す。 最後に、一般化誤差を直接的に最適化する新しいPVIを導出する。 数値実験により,提案したPVIの性能は既存手法と良好に比較できることを示した。

Bayesian model averaging, obtained as the expectation of a likelihood function by a posterior distribution, has been widely used for prediction, evaluation of uncertainty, and model selection. Various approaches have been developed to efficiently capture the information in the posterior distribution; one such approach is the optimization of a set of models simultaneously with interaction to ensure the diversity of the individual models in the same way as ensemble learning. A representative approach is particle variational inference (PVI), which uses an ensemble of models as an empirical approximation for the posterior distribution. PVI iteratively updates each model with a repulsion force to ensure the diversity of the optimized models. However, despite its promising performance, a theoretical understanding of this repulsion and its association with the generalization ability remains unclear. In this paper, we tackle this problem in light of PAC-Bayesian analysis. First, we provide a new second-order Jensen inequality, which has the repulsion term based on the loss function. Thanks to the repulsion term, it is tighter than the standard Jensen inequality. Then, we derive a novel generalization error bound and show that it can be reduced by enhancing the diversity of models. Finally, we derive a new PVI that optimizes the generalization error bound directly. Numerical experiments demonstrate that the performance of the proposed PVI compares favorably with existing methods in the experiment.
公開日:2021-06-09
翻訳日:2021-06-10 23:12:59
# (参考訳) 政策制約下における最適動的処理割り当て則の推定

Estimation of Optimal Dynamic Treatment Assignment Rules under Policy Constraint ( http://arxiv.org/abs/2106.05031v1 )

ライセンス: CC BY 4.0
Shosei Sakaguchi(参考訳) 本稿では,動的処理代入問題に対する統計的決定について検討する。 多くの政策は、治療が複数の段階にわたって個人に順次割り当てられ、各段階における治療の効果は通常、以前の治療、過去の結果、観察された共変量に対して不均一である。 個別の履歴に基づいて各段階の個人に対する最適な治療割り当てを導く最適な動的処置規則を推定することを検討する。 本稿では,動的枠組みにおける実証的福祉最大化アプローチを提案する。 本手法は実験または準実験によるパネルデータから最適動的処理則を推定する。 本稿では,各段階の処理割当問題を後方帰納によって解き,各段階の動的処理割当問題全体を同時に解く2つの推定法を提案する。 提案手法の最低ケース平均福祉率について有限サンプル上限を導出し,$n^{-1/2}$-minimax収束率を示す。 また、時間的予算/容量制約を組み込むために同時推定法を変更する。

This paper studies statistical decisions for dynamic treatment assignment problems. Many policies involve dynamics in their treatment assignments where treatments are sequentially assigned to individuals across multiple stages and the effect of treatment at each stage is usually heterogeneous with respect to the prior treatments, past outcomes, and observed covariates. We consider estimating an optimal dynamic treatment rule that guides the optimal treatment assignment for each individual at each stage based on the individual's history. This paper proposes an empirical welfare maximization approach in a dynamic framework. The approach estimates the optimal dynamic treatment rule from panel data taken from an experimental or quasi-experimental study. The paper proposes two estimation methods: one solves the treatment assignment problem at each stage through backward induction, and the other solves the whole dynamic treatment assignment problem simultaneously across all stages. We derive finite-sample upper bounds on the worst-case average welfare-regrets for the proposed methods and show $n^{-1/2}$-minimax convergence rates. We also modify the simultaneous estimation method to incorporate intertemporal budget/capacity constraints.
公開日:2021-06-09
翻訳日:2021-06-10 23:11:44
# (参考訳) 複雑原因の操作:調停の実際的展望 [全文訳有]

Operationalizing Complex Causes:A Pragmatic View of Mediation ( http://arxiv.org/abs/2106.05074v1 )

ライセンス: CC0 1.0
Limor Gultchin, David S. Watson, Matt J. Kusner, Ricardo Silva(参考訳) 複雑な対象(テキスト,画像,ゲノムなど)に対する因果応答推定の問題について検討する。 この設定では、古典的な \emph{atomic} の介入がしばしば利用できない(例えば、文字、ピクセル、DNA塩基対)。 代わりに、間接的な介入や\emph{crude}介入(例えば、書き込みプログラムへの登録、シーンの変更、遺伝子治療の適用など)しかアクセスできません。 本研究では,この問題を形式化し,初期解を提供する。 候補媒介者の収集を前提として、(a)粗介入の因果反応を予測するための2段階の方法、(b)粗介入の媒介者を特定するための試験手順を提案する。 シミュレーションと実世界のインスパイアされた実例を用いて, 新たな治療体制の限られたデータを用いて, 粗介入の効果を効率的に推定できることを実証した。

We examine the problem of causal response estimation for complex objects (e.g., text, images, genomics). In this setting, classical \emph{atomic} interventions are often not available (e.g., changes to characters, pixels, DNA base-pairs). Instead, we only have access to indirect or \emph{crude} interventions (e.g., enrolling in a writing program, modifying a scene, applying a gene therapy). In this work, we formalize this problem and provide an initial solution. Given a collection of candidate mediators, we propose (a) a two-step method for predicting the causal responses of crude interventions; and (b) a testing procedure to identify mediators of crude interventions. We demonstrate, on a range of simulated and real-world-inspired examples, that our approach allows us to efficiently estimate the effect of crude interventions with limited data from new treatment regimes.
公開日:2021-06-09
翻訳日:2021-06-10 23:10:40
# (参考訳) ディープハフ変換を用いた半教師付きレーン検出 [全文訳有]

Semi-supervised lane detection with Deep Hough Transform ( http://arxiv.org/abs/2106.05094v1 )

ライセンス: CC BY 4.0
Yancong Lin, Silvia-Laura Pintea, Jan van Gemert(参考訳) レーン検出に関する現在の研究は、大規模な手動注釈付きデータセットに依存している。 私たちは、巨大な安価で手に入らないデータを活用することでアノテーションへの依存を減らす。 本研究では,ハフ空間におけるレーンの幾何学的知識を利用した新たな損失関数を提案する。 レーンを別々のチャネルに分割することで、単純なグローバルマックスプールを通じて各レーンをローカライズすることができます。 最大値の位置はレーンのレイアウトを符号化し、強度はレーンが存在する確率を示す。 最大ビンの対数確率の最大化は、ニューラルネットワークがラベルなしで車線を見つけるのに役立つ。 CULane と TuSimple のデータセットから,提案したHough Transform の損失は,大量の未ラベル画像から学習することで,性能を著しく向上することを示す。

Current work on lane detection relies on large manually annotated datasets. We reduce the dependency on annotations by leveraging massive cheaply available unlabelled data. We propose a novel loss function exploiting geometric knowledge of lanes in Hough space, where a lane can be identified as a local maximum. By splitting lanes into separate channels, we can localize each lane via simple global max-pooling. The location of the maximum encodes the layout of a lane, while the intensity indicates the the probability of a lane being present. Maximizing the log-probability of the maximal bins helps neural networks find lanes without labels. On the CULane and TuSimple datasets, we show that the proposed Hough Transform loss improves performance significantly by learning from large amounts of unlabelled images.
公開日:2021-06-09
翻訳日:2021-06-10 22:52:43
# (参考訳) 脳活動からの自己監督深度再構築 [全文訳有]

More than meets the eye: Self-supervised depth reconstruction from brain activity ( http://arxiv.org/abs/2106.05113v1 )

ライセンス: CC BY 4.0
Guy Gaziv, Michal Irani(参考訳) 過去数年間、深層学習ツールを用いたfMRI脳波記録から観察された自然画像の再構成において、顕著な進歩が見られた。 ここでは初めて、観測された2次元自然画像の高密度3次元深度マップがfMRI脳波記録から直接復元可能であることを示す。 自然画像の未知深度マップを推定するために,オフザシェルフ法を用いる。 これは、(i)fMRIスキャナー(fMRI記録を"ペアドデータ"として参照する画像)で被験者に提示される少数の画像と、(ii)fMRI記録のない非常に多数の自然画像("アンペアドデータ")の両方に適用される。 推定深度マップは、fMRIから直接深度再構成を訓練するための補助的再構成基準として使用される。 本稿では,奥行きのみの回復と共同画像深度RGBD回復の2つのアプローチを提案する。 利用可能な「ペア化」トレーニングデータ(fMRIのイメージ)の数は少ないため、多くの「ペア化」データ(fMRIのない自然画像と深度マップ)の自己教師付きサイクル一貫性トレーニングを通じて、トレーニングデータを充実させる。 これは、新たに定義され、訓練されたDepthベースの知覚的類似度尺度を再構築基準として用いる。 fMRIから直接の深度マップの予測は、再構成画像からの間接的回復よりも優れていることを示す。 さらに, 早期大脳皮質視覚野からの活性化が深度再構成の結果を支配することを示し, 深度情報チューニングの度合いでfMRIボクセルを特徴付ける方法を提案する。 この作業は、デコードされた情報の重要な層を追加し、現在の視覚脳デコード能力のエンベロープを拡張する。

In the past few years, significant advancements were made in reconstruction of observed natural images from fMRI brain recordings using deep-learning tools. Here, for the first time, we show that dense 3D depth maps of observed 2D natural images can also be recovered directly from fMRI brain recordings. We use an off-the-shelf method to estimate the unknown depth maps of natural images. This is applied to both: (i) the small number of images presented to subjects in an fMRI scanner (images for which we have fMRI recordings - referred to as "paired" data), and (ii) a very large number of natural images with no fMRI recordings ("unpaired data"). The estimated depth maps are then used as an auxiliary reconstruction criterion to train for depth reconstruction directly from fMRI. We propose two main approaches: Depth-only recovery and joint image-depth RGBD recovery. Because the number of available "paired" training data (images with fMRI) is small, we enrich the training data via self-supervised cycle-consistent training on many "unpaired" data (natural images & depth maps without fMRI). This is achieved using our newly defined and trained Depth-based Perceptual Similarity metric as a reconstruction criterion. We show that predicting the depth map directly from fMRI outperforms its indirect sequential recovery from the reconstructed images. We further show that activations from early cortical visual areas dominate our depth reconstruction results, and propose means to characterize fMRI voxels by their degree of depth-information tuning. This work adds an important layer of decoded information, extending the current envelope of visual brain decoding capabilities.
公開日:2021-06-09
翻訳日:2021-06-10 22:43:20
# (参考訳) Alpha-Divergence変分推論のための混合重み最適化 [全文訳有]

Mixture weights optimisation for Alpha-Divergence Variational Inference ( http://arxiv.org/abs/2106.05114v1 )

ライセンス: CC BY 4.0
Kam\'elia Daudel and Randal Douc(参考訳) 本稿では,変分推論のための$\alpha$-divergence最小化手法について述べる。 より正確には、混合成分パラメータの基本的な分布に関する情報なしで、任意の混合モデルの混合重量を最適化するアルゴリズムに興味がある。 すべての$\alpha \neq 1$に対して定義されるPower Descentはそのようなアルゴリズムであり、$\alpha <1$のときの最適混合重みへの収束の完全な証明を確立する。 $\alpha \to 1$ のとき、$\alpha$-divergence は広く使われているKullback-Leibler を復元するので、Power Descent を $\alpha = 1$ の場合に拡張し、エントロピックミラー Descent を得ることを示す。 これにより、パワー・ディクセントとエントロピック・ミラー・ディクセントの関連性を調べることができる: 1次近似は、$O(1/N)$収束率を証明する新しいアルゴリズムであるRenyi Descentを導入することができる。 最後に,偏りのないパワー降下とバイアス付きレーニー降下の挙動を数値的に比較し,一方のアルゴリズムの利点について考察する。

This paper focuses on $\alpha$-divergence minimisation methods for Variational Inference. More precisely, we are interested in algorithms optimising the mixture weights of any given mixture model, without any information on the underlying distribution of its mixture components parameters. The Power Descent, defined for all $\alpha \neq 1$, is one such algorithm and we establish in our work the full proof of its convergence towards the optimal mixture weights when $\alpha <1$. Since the $\alpha$-divergence recovers the widely-used forward Kullback-Leibler when $\alpha \to 1$, we then extend the Power Descent to the case $\alpha = 1$ and show that we obtain an Entropic Mirror Descent. This leads us to investigate the link between Power Descent and Entropic Mirror Descent: first-order approximations allow us to introduce the Renyi Descent, a novel algorithm for which we prove an $O(1/N)$ convergence rate. Lastly, we compare numerically the behavior of the unbiased Power Descent and of the biased Renyi Descent and we discuss the potential advantages of one algorithm over the other.
公開日:2021-06-09
翻訳日:2021-06-10 22:29:56
# (参考訳) 深部クラスタリングに基づくFair Outlier Detection [全文訳有]

Deep Clustering based Fair Outlier Detection ( http://arxiv.org/abs/2106.05127v1 )

ライセンス: CC BY 4.0
Hanyu Song, Peizhao Li, Hongfu Liu(参考訳) 本稿では,教師なし異常検出に関する公平性の問題に着目する。 従来のアルゴリズムは、アルゴリズムの公正性のための特定の設計を持たず、暗黙的にデータをエンコードし、統計バイアスを伝播させ、社会的関心を高めることができる。 このような不公平さを正し、潜在的外れ値候補の公平なセットを提供するため、学習可能な表現をセンシティブな属性にサブグループ不変にしつつ、有効性最大化のよい表現を学習する深層クラスタリングベースのフェア外れ値検出(dcfod)を提案する。 クラスタリングと外れ値検出の結合性と相互性を考慮すると、深層クラスタリングを利用して、固有のクラスタ構造と外構造インスタンスを発見する。 一方、敵対的トレーニングは、フェアネス適応のインスタンスの敏感なパターンを消去する。 動的重み付けモジュールは,外れ値からの負の影響を緩和しながら,帰納可能性の寄与を再強調する。 提案手法は,17個の外乱検出アルゴリズムと比較した8つのデータセットの実験により実証され,外乱検出の妥当性と,外乱検出における2種類の公正性の概念の両方において,常に優れた性能を達成している。

In this paper, we focus on the fairness issues regarding unsupervised outlier detection. Traditional algorithms, without a specific design for algorithmic fairness, could implicitly encode and propagate statistical bias in data and raise societal concerns. To correct such unfairness and deliver a fair set of potential outlier candidates, we propose Deep Clustering based Fair Outlier Detection (DCFOD) that learns a good representation for utility maximization while enforcing the learnable representation to be subgroup-invariant on the sensitive attribute. Considering the coupled and reciprocal nature between clustering and outlier detection, we leverage deep clustering to discover the intrinsic cluster structure and out-of-structure instances. Meanwhile, an adversarial training erases the sensitive pattern for instances for fairness adaptation. Technically, we propose an instance-level weighted representation learning strategy to enhance the joint deep clustering and outlier detection, where the dynamic weight module re-emphasizes contributions of likely-inliers while mitigating the negative impact from outliers. Demonstrated by experiments on eight datasets comparing to 17 outlier detection algorithms, our DCFOD method consistently achieves superior performance on both the outlier detection validity and two types of fairness notions in outlier detection.
公開日:2021-06-09
翻訳日:2021-06-10 21:55:44
# (参考訳) 応力検出における自動特徴選択のための量子アニール [全文訳有]

Quantum Annealing for Automated Feature Selection in Stress Detection ( http://arxiv.org/abs/2106.05134v1 )

ライセンス: CC BY 4.0
Rajdeep Kumar Nath, Himanshu Thapliyal, Travis S. Humble(参考訳) 本稿では,QA(Quantum Annealing)を用いた生理信号プールからの特徴部分集合の自動選択手法を提案する。 ケーススタディとして、ストレス検出のための最適な特徴サブセットを選択する際に、QAに基づく特徴選択手法の有効性を検討する。 特徴は足部EDA、手指EDA、心電図、呼吸の4つの信号源から抽出される。 提案手法は,生理的信号から抽出した特徴変数を2次二次モデルに埋め込む。 特徴変数と対象変数とのピアソン相関係数を用いて特徴変数のバイアスを算出する。 2つの特徴変数を連結するエッジの重みは、2つの特徴変数間のピアソン相関係数を用いて計算される。 その後、D-Waveのclique samplerを用いて2次二次モデルからcliqueをサンプリングする。 基礎となる解は複数の良い解を得るために再サンプリングされ、最適解として最低エネルギーの傾斜が返される。 提案手法は, 応力検出に広く用いられている特徴選択手法と比較した。 その結果,QAに基づく特徴部分選択は古典的手法と同等に行われた。 しかし、限られた訓練データなどのデータ不確実性条件下では、最適な特徴を選択するための量子アニールの性能は影響を受けず、古典的な特徴選択技術では顕著な性能低下が見られる。 予備結果は、特にデータ不確実性条件下での機械学習分類器のトレーニングフェーズの最適化における量子アニーリングの期待を示す。

We present a novel methodology for automated feature subset selection from a pool of physiological signals using Quantum Annealing (QA). As a case study, we will investigate the effectiveness of QA-based feature selection techniques in selecting the optimal feature subset for stress detection. Features are extracted from four signal sources: foot EDA, hand EDA, ECG, and respiration. The proposed method embeds the feature variables extracted from the physiological signals in a binary quadratic model. The bias of the feature variable is calculated using the Pearson correlation coefficient between the feature variable and the target variable. The weight of the edge connecting the two feature variables is calculated using the Pearson correlation coefficient between two feature variables in the binary quadratic model. Subsequently, D-Wave's clique sampler is used to sample cliques from the binary quadratic model. The underlying solution is then re-sampled to obtain multiple good solutions and the clique with the lowest energy is returned as the optimal solution. The proposed method is compared with commonly used feature selection techniques for stress detection. Results indicate that QA-based feature subset selection performed equally as that of classical techniques. However, under data uncertainty conditions such as limited training data, the performance of quantum annealing for selecting optimum features remained unaffected, whereas a significant decrease in performance is observed with classical feature selection techniques. Preliminary results show the promise of quantum annealing in optimizing the training phase of a machine learning classifier, especially under data uncertainty conditions.
公開日:2021-06-09
翻訳日:2021-06-10 21:40:07
# (参考訳) augvic:低リソースnmtでバイテキストを活用 [全文訳有]

AUGVIC: Exploiting BiText Vicinity for Low-Resource NMT ( http://arxiv.org/abs/2106.05141v1 )

ライセンス: CC BY 4.0
Tasnim Mohiuddin, M Saiful Bari, Shafiq Joty(参考訳) Neural Machine Translation (NMT)の成功は、大きなbitextトレーニングコーパスの可用性に大きく依存している。 低リソース言語対にそのような大きなコーパスがないため、NMTシステムは性能が劣ることが多い。 特有な単言語データはしばしば役立つが、それを取得することは、特に低リソース言語にとって非常に高価である。 さらに、bitext(train/test)とモノリンガルデータのドメインミスマッチはパフォーマンスを低下させる可能性がある。 このような問題を緩和するために、我々は低リソースNMTのための新しいデータ拡張フレームワークであるAUGVICを提案し、このフレームワークは、余分なモノリンガルデータを明示的に使用することなく、与えられたbitextのビジナルサンプルを利用する。 ドメイン内のbitextデータをより細かいレベル制御で多様化することができる。 異なるドメインからのデータからなる4つの低リソース言語ペアに関する広範な実験を通して、我々の手法は、余分なドメイン内モノリンガルデータを使用する従来のバックトランスレーションに匹敵することを示した。 AUGVICから生成された合成並列データと余分な単言語データとを組み合わせると、さらなる改善が達成される。 AUGVICは、従来のバックトランスレーションにおいて、関連ドメインと遠隔ドメインのモノリンガルデータの相違を緩和する。 AUGVICの様々なコンポーネントのコントリビューションを理解するために、我々は詳細なフレームワーク分析を行う。

The success of Neural Machine Translation (NMT) largely depends on the availability of large bitext training corpora. Due to the lack of such large corpora in low-resource language pairs, NMT systems often exhibit poor performance. Extra relevant monolingual data often helps, but acquiring it could be quite expensive, especially for low-resource languages. Moreover, domain mismatch between bitext (train/test) and monolingual data might degrade the performance. To alleviate such issues, we propose AUGVIC, a novel data augmentation framework for low-resource NMT which exploits the vicinal samples of the given bitext without using any extra monolingual data explicitly. It can diversify the in-domain bitext data with finer level control. Through extensive experiments on four low-resource language pairs comprising data from different domains, we have shown that our method is comparable to the traditional back-translation that uses extra in-domain monolingual data. When we combine the synthetic parallel data generated from AUGVIC with the ones from the extra monolingual data, we achieve further improvements. We show that AUGVIC helps to attenuate the discrepancies between relevant and distant-domain monolingual data in traditional back-translation. To understand the contributions of different components of AUGVIC, we perform an in-depth framework analysis.
公開日:2021-06-09
翻訳日:2021-06-10 21:32:22
# (参考訳) 単語のランク付け学習:単語スポッティングのためのランク付け基準の最適化 [全文訳有]

Learning to Rank Words: Optimizing Ranking Metrics for Word Spotting ( http://arxiv.org/abs/2106.05144v1 )

ライセンス: CC BY-SA 4.0
Pau Riba, Adri\`a Molina, Lluis Gomez, Oriol Ramos-Terrades and Josep Llad\'os(参考訳) 本稿では,単語文字列と単語画像エンコーダを同時に学習するためのランキングベースの目的関数の利用について検討・評価する。 ユーザが定義した関連度スコアに従ってランク付けされた検索リストを期待する検索フレームワークを検討する。 単語スポッティング問題の文脈では、クエリ文字列から文字列編集距離に応じて関連スコアが設定されている。 本稿では,手書き語と実シーン語の両方の単語スポッティングにおいて,提案モデルの競合性能を実験的に実証する。 クエリ・バイ・例の単語スポッティングの結果も提供していますが、この研究の主な焦点ではありません。

In this paper, we explore and evaluate the use of ranking-based objective functions for learning simultaneously a word string and a word image encoder. We consider retrieval frameworks in which the user expects a retrieval list ranked according to a defined relevance score. In the context of a word spotting problem, the relevance score has been set according to the string edit distance from the query string. We experimentally demonstrate the competitive performance of the proposed model on query-by-string word spotting for both, handwritten and real scene word images. We also provide the results for query-by-example word spotting, although it is not the main focus of this work.
公開日:2021-06-09
翻訳日:2021-06-10 21:13:40
# (参考訳) 医用画像分類における再考伝達学習 [全文訳有]

Rethink Transfer Learning in Medical Image Classification ( http://arxiv.org/abs/2106.05152v1 )

ライセンス: CC BY 4.0
Le Peng, Hengyue Liang, Taihui Li, Ju Sun(参考訳) 深層畳み込みニューラルネットワーク(DCNN)を用いた伝達学習(TL)は医用画像分類(MIC)において成功している。 MICは一般的にDCNNの下位層で学習される低層および中層機能にのみ依存するため、現在のプラクティスは混乱している。 この直感に従うと、MICにおけるTLの現在の戦略を疑問視する。 本稿では,異なるtl戦略を用いて,胸部x線データ集合の分類のための浅層と深層ネットワークの実験的比較を行った。 私たちは、ディープモデルは必ずしも好ましくないことに気付き、微調整されたディープモデルは、特にデータ貧弱な状況において、ほとんどの場合、最高のパフォーマンスを得る。 project webpage: https://github.com/s un-umn/transfer-lear ning-in-medical-imag ing keywords: transfer learning, medical image classification, feature hierarchy, medical imaging, evaluation metrics, unbalanced data

Transfer learning (TL) with deep convolutional neural networks (DCNNs) has proved successful in medical image classification (MIC). However, the current practice is puzzling, as MIC typically relies only on low- and/or mid-level features that are learned in the bottom layers of DCNNs. Following this intuition, we question the current strategies of TL in MIC. In this paper, we perform careful experimental comparisons between shallow and deep networks for classification on two chest x-ray datasets, using different TL strategies. We find that deep models are not always favorable, and finetuning truncated deep models almost always yields the best performance, especially in data-poor regimes. Project webpage: https://github.com/s un-umn/Transfer-Lear ning-in-Medical-Imag ing Keywords: Transfer learning, Medical image classification, Feature hierarchy, Medical imaging, Evaluation metrics, Imbalanced data
公開日:2021-06-09
翻訳日:2021-06-10 21:02:49
# (参考訳) 帯域フィードバックを用いた制約付き最適化のためのリアプノフ法 [全文訳有]

A Lyapunov-Based Methodology for Constrained Optimization with Bandit Feedback ( http://arxiv.org/abs/2106.05165v1 )

ライセンス: CC BY 4.0
Semih Cayci, Yilin Zheng, Atilla Eryilmaz(参考訳) オンライン広告、契約採用、および無線スケジューリングを含む幅広いアプリケーションにおいて、コントローラは、各アクションによってランダムに消費される利用可能なリソースに対する厳格な予算制約と、意思決定に重要な運用上の制限を課す確率的可能性制約によって制約される。 本研究では、各アクションが未知の共同分布からランダムな報酬、コスト、ペナルティを返し、意思決定者は、総コストにb$、時間平均ペナルティに確率的制約を課す予算制約の下で、総報酬を最大化することを目的としている。 我々は、Lyapunov最適化手法に基づく新しい低複雑さアルゴリズムである${\tt LyOn}$を提案し、それが$O(\sqrt{B\log B})$ regretおよび$O(\log B/B)$ constraint-violation を達成することを証明した。 計算コストの低い${\tt LyOn}$の急激な性能境界は、リアプノフに基づくアルゴリズム設計手法が制約付き帯域最適化問題を解くのに有効であることを示唆している。

In a wide variety of applications including online advertising, contractual hiring, and wireless scheduling, the controller is constrained by a stringent budget constraint on the available resources, which are consumed in a random amount by each action, and a stochastic feasibility constraint that may impose important operational limitations on decision-making. In this work, we consider a general model to address such problems, where each action returns a random reward, cost, and penalty from an unknown joint distribution, and the decision-maker aims to maximize the total reward under a budget constraint $B$ on the total cost and a stochastic constraint on the time-average penalty. We propose a novel low-complexity algorithm based on Lyapunov optimization methodology, named ${\tt LyOn}$, and prove that it achieves $O(\sqrt{B\log B})$ regret and $O(\log B/B)$ constraint-violation . The low computational cost and sharp performance bounds of ${\tt LyOn}$ suggest that Lyapunov-based algorithm design methodology can be effective in solving constrained bandit optimization problems.
公開日:2021-06-09
翻訳日:2021-06-10 20:48:19
# (参考訳) 統計的学習における最小ペナルティの使用について

On the Use of Minimum Penalties in Statistical Learning ( http://arxiv.org/abs/2106.05172v1 )

ライセンス: CC BY 4.0
Ben Sherwood and Bradley S. Price(参考訳) 現代の多変量機械学習と統計手法は、結果変数間の関連に関する事前知識を活用しながら、関心のパラメータを推定する。 関係の推定を可能にする方法は、通常、他のタイプのモデルにスケールしない多変量回帰における誤差共分散行列によって行われる。 本稿では,多変量回帰モデルに関連する回帰係数と,軽度仮定を用いた結果変数の関係を同時に推定するMinPENフレームワークを提案する。 minpenフレームワークは、最小機能に基づく新しいペナルティを使用して、応答間の検出された関係を利用する。 推定値を得るのに必要な非凸最適化の解法として, 工法の現状を一般化する反復アルゴリズムを提案する。 高次元収束率、モデル選択整合性、ポスト選択推論のためのフレームワークなどの理論的結果を提供する。 提案するminpenフレームワークを他の指数関数ファミリー損失関数に拡張し,複数の二項応答に着目した。 チューニングパラメータの選択も処理される。 最後に、このフレームワークの有限なサンプル特性を示すために、シミュレーションと2つのデータ例を示す。

Modern multivariate machine learning and statistical methodologies estimate parameters of interest while leveraging prior knowledge of the association between outcome variables. The methods that do allow for estimation of relationships do so typically through an error covariance matrix in multivariate regression which does not scale to other types of models. In this article we proposed the MinPEN framework to simultaneously estimate regression coefficients associated with the multivariate regression model and the relationships between outcome variables using mild assumptions. The MinPen framework utilizes a novel penalty based on the minimum function to exploit detected relationships between responses. An iterative algorithm that generalizes current state of the art methods is proposed as a solution to the non-convex optimization that is required to obtain estimates. Theoretical results such as high dimensional convergence rates, model selection consistency, and a framework for post selection inference are provided. We extend the proposed MinPen framework to other exponential family loss functions, with a specific focus on multiple binomial responses. Tuning parameter selection is also addressed. Finally, simulations and two data examples are presented to show the finite sample properties of this framework.
公開日:2021-06-09
翻訳日:2021-06-10 19:05:56
# (参考訳) 入射変位場を用いた幾何一貫性ニューラル形状表現 [全文訳有]

Geometry-Consistent Neural Shape Representation with Implicit Displacement Fields ( http://arxiv.org/abs/2106.05187v1 )

ライセンス: CC BY-SA 4.0
Wang Yifan, Lukas Rahmann, Olga Sorkine-Hornung(参考訳) 詳細な3次元幾何学のための新しい表現である暗黙の変位場を示す。 本手法は, 従来の表面変形法, 変位マッピングにヒントを得て, 複素曲面を平滑な基底面として, ベース方向に沿った変位を表現し, 高周波信号が低周波信号によって幾何的に拘束されるような周波数ベース形状分解を行う。 重要なことに、この絡み合いは、構造によって固有の周波数階層を持つアーキテクチャ設計が整ったため、教師なしである。 暗黙的な変位場表面再構成と細部移動を探索し,優れた表現力,トレーニング安定性,一般化性を示す。

We present implicit displacement fields, a novel representation for detailed 3D geometry. Inspired by a classic surface deformation technique, displacement mapping, our method represents a complex surface as a smooth base surface plus a displacement along the base's normal directions, resulting in a frequency-based shape decomposition, where the high frequency signal is constrained geometrically by the low frequency signal. Importantly, this disentanglement is unsupervised thanks to a tailored architectural design that has an innate frequency hierarchy by construction. We explore implicit displacement field surface reconstruction and detail transfer and demonstrate superior representational power, training stability and generalizability.
公開日:2021-06-09
翻訳日:2021-06-10 19:04:58
# (参考訳) DIGRAC:フロー不均衡を伴うグラフクラスタリング

DIGRAC: Digraph Clustering with Flow Imbalance ( http://arxiv.org/abs/2106.05194v1 )

ライセンス: CC BY 4.0
Yixuan He and Gesine Reinert and Mihai Cucuringu(参考訳) ノードクラスタリングは、ネットワーク分析において強力なツールである。 本稿では,拡張性のあるDIMPA(Directed Mixed Path Aggregation)方式を用いたグラフニューラルネットワークフレームワークを提案する。 この方法は、中間ステップなしで埋め込み生成とクラスタリングを組み合わせたエンドツーエンドである。 文献の標準的なアプローチとは対照的に,本論文では方向性はニュアサンスとして扱うのではなく,主信号を含む。 特に,最近導入されたカットフロー不均衡尺度は方向性と密接に関連しており,スペクトル法やクラスタラベルを使わずにカットフロー不均衡を最適化している。 有向確率ブロックモデルと実世界データを異なるスケールで組み合わせた合成データの実験結果から,本手法が有向クラスタリングにおいて,広範囲のノイズと疎度レベル,およびグラフ構造に対して,最先端の結果が得られることを示した。

Node clustering is a powerful tool in the analysis of networks. Here, we introduce a graph neural network framework with a novel scalable Directed Mixed Path Aggregation(DIMPA) scheme to obtain node embeddings for directed networks in a self-supervised manner, including a novel probabilistic imbalance loss. The method is end-to-end in combining embedding generation and clustering without an intermediate step. In contrast to standard approaches in the literature, in this paper, directionality is not treated as a nuisance, but rather contains the main signal. In particular, we leverage the recently introduced cut flow imbalance measure, which is tightly related to directionality; cut flow imbalance is optimized without resorting to spectral methods or cluster labels. Experimental results on synthetic data, in the form of directed stochastic block models and real-world data at different scales, demonstrate that our method attains state-of-the-art results on directed clustering, for a wide range of noise and sparsity levels, as well as graph structures.
公開日:2021-06-09
翻訳日:2021-06-10 18:46:47
# (参考訳) 非凸問題におけるトラップ回避 [全文訳有]

Avoiding Traps in Nonconvex Problems ( http://arxiv.org/abs/2106.05206v1 )

ライセンス: CC BY 4.0
Sean Deyo and Veit Elser(参考訳) 反復射影法は、制約集合が凸でないときに非解に閉じ込められることがある。 この動作を避けるために2種類のパラメータが利用可能であり、本研究は両方の例を示す。 ハイパーパラメータと呼ばれる最初のパラメータには、イテレーションルール自体の定義に現れるパラメータが含まれています。 第2の種は、制約集合の定義におけるメトリックパラメータを含み、解決すべき問題が2つ以上の変数を持つ場合に生じる特徴である。 例を通して、両パラメータを適切に調整し、観察された振る舞いをヒューリスティックに解釈することの重要性を示す。

Iterative projection methods may become trapped at non-solutions when the constraint sets are nonconvex. Two kinds of parameters are available to help avoid this behavior and this study gives examples of both. The first kind of parameter, called a hyperparameter, includes any kind of parameter that appears in the definition of the iteration rule itself. The second kind comprises metric parameters in the definition of the constraint sets, a feature that arises when the problem to be solved has two or more kinds of variables. Through examples we show the importance of properly tuning both kinds of parameters and offer heuristic interpretations of the observed behavior.
公開日:2021-06-09
翻訳日:2021-06-10 18:45:29
# (参考訳) 物体検出器における蒸留像分類器 [全文訳有]

Distilling Image Classifiers in Object Detectors ( http://arxiv.org/abs/2106.05209v1 )

ライセンス: CC BY 4.0
Shuxuan Guo and Jose M. Alvarez and Mathieu Salzmann(参考訳) 知識蒸留は、より強力な教師の知識を活用することで、コンパクトな学生ネットワークの性能を向上させるためのシンプルで効果的な方法である。 それにもかかわらず、知識蒸留文学は、生徒と教師が同じ課題に取り組むシナリオに限定されている。 本稿では,アーキテクチャだけでなくタスク間での知識伝達の問題について検討する。 そこで本研究では,物体検出の事例について検討し,標準検出器-検出器蒸留法に従わず,分類器-検出器間知識伝達フレームワークを導入する。 特に, 分類教師を活用して, 検出者の認識精度と位置推定性能を向上させる手法を提案する。 バックボーンの異なるいくつかの検出器に対する実験は、我々のアプローチの有効性を実証し、最先端の検出器対検出器蒸留法より優れていることを示した。

Knowledge distillation constitutes a simple yet effective way to improve the performance of a compact student network by exploiting the knowledge of a more powerful teacher. Nevertheless, the knowledge distillation literature remains limited to the scenario where the student and the teacher tackle the same task. Here, we investigate the problem of transferring knowledge not only across architectures but also across tasks. To this end, we study the case of object detection and, instead of following the standard detector-to-detector distillation approach, introduce a classifier-to-detect or knowledge transfer framework. In particular, we propose strategies to exploit the classification teacher to improve both the detector's recognition accuracy and localization performance. Our experiments on several detectors with different backbones demonstrate the effectiveness of our approach, allowing us to outperform the state-of-the-art detector-to-detector distillation methods.
公開日:2021-06-09
翻訳日:2021-06-10 18:35:29
# (参考訳) 医療画像における教師なし異常検出のための暗黙的フィールド学習 [全文訳有]

Implicit field learning for unsupervised anomaly detection in medical images ( http://arxiv.org/abs/2106.05214v1 )

ライセンス: CC BY 4.0
Sergio Naval Marimont and Giacomo Tarroni(参考訳) 暗黙的フィールド画像表現に基づく医用画像の非教師なし分布検出法を提案する。 本手法では,組織型プロキシ上での空間座標と確率のマッピングという形で,自己デコーダフィードフォワードニューラルネットワークを用いて健全な画像の分布を学習する。 推論時には、学習した分布を用いて、所定のテスト画像、復元、すなわち、検索を行う。 入力画像と最大限に一致しているが、健康な分布に属する画像。 復元画像に対するモデルにより予測されたボクセルワイズ確率を用いて異常を局所化する。 脳MR画像上におけるグリオーマの非教師的局在化を課題とし,VAEによる他の異常検出法と比較した。 結果から,提案手法は高い性能(VAEベースの代替手段として平均DICE 0.640 vs 0.518)を示し,計算時間もかなり少ないことがわかった。

We propose a novel unsupervised out-of-distribution detection method for medical images based on implicit fields image representations. In our approach, an auto-decoder feed-forward neural network learns the distribution of healthy images in the form of a mapping between spatial coordinates and probabilities over a proxy for tissue types. At inference time, the learnt distribution is used to retrieve, from a given test image, a restoration, i.e. an image maximally consistent with the input one but belonging to the healthy distribution. Anomalies are localized using the voxel-wise probability predicted by our model for the restored image. We tested our approach in the task of unsupervised localization of gliomas on brain MR images and compared it to several other VAE-based anomaly detection methods. Results show that the proposed technique substantially outperforms them (average DICE 0.640 vs 0.518 for the best performing VAE-based alternative) while also requiring considerably less computing time.
公開日:2021-06-09
翻訳日:2021-06-10 18:20:49
# (参考訳) 児童交通画像からの学校識別を支援する機械学習パイプライン [全文訳有]

A machine learning pipeline for aiding school identification from child trafficking images ( http://arxiv.org/abs/2106.05215v1 )

ライセンス: CC BY 4.0
Sumit Mukherjee, Tina Sederholm, Anthony C. Roman, Ria Sankar, Sherrie Caltagirone, Juan Lavista Ferres(参考訳) 世界中の深刻な問題で交通機関の子供。 毎年、世界中で400万人以上の児童売買の被害者がおり、その多くは子供の性的搾取を目的としている。 英国警察と児童虐待防止を専門とする非営利団体Global Emancipation Networkの協力を得て, インターセプト画像からの子どもの識別を支援する概念実証機械学習パイプラインを開発した。 本研究は,学校の制服を着用している子どもたちが出身校を特定するイメージに焦点を当てる。 機械学習パイプラインが存在しない場合、この膨大な時間と労働集約的なタスクは、法執行機関によって手作業で行われる。 そこで,学校識別プロセスの自動化により,児童識別のこの部分の速度に大きな影響を与えることを期待する。 提案するパイプラインは,2つの機械学習モデルから構成される。i) 子供のイメージが学校の制服を含むかどうかを識別し,ii) 異なる学校の制服アイテム(シャツ,セーター,ブレザーの色/テキストなど)の属性を識別する。 データ収集,ラベル付け,モデル開発,検証プロセス,およびモデル予測を用いた効率的な学校探索戦略について述べる。

Child trafficking in a serious problem around the world. Every year there are more than 4 million victims of child trafficking around the world, many of them for the purposes of child sexual exploitation. In collaboration with UK Police and a non-profit focused on child abuse prevention, Global Emancipation Network, we developed a proof-of-concept machine learning pipeline to aid the identification of children from intercepted images. In this work, we focus on images that contain children wearing school uniforms to identify the school of origin. In the absence of a machine learning pipeline, this hugely time consuming and labor intensive task is manually conducted by law enforcement personnel. Thus, by automating aspects of the school identification process, we hope to significantly impact the speed of this portion of child identification. Our proposed pipeline consists of two machine learning models: i) to identify whether an image of a child contains a school uniform in it, and ii) identification of attributes of different school uniform items (such as color/texture of shirts, sweaters, blazers etc.). We describe the data collection, labeling, model development and validation process, along with strategies for efficient searching of schools using the model predictions.
公開日:2021-06-09
翻訳日:2021-06-10 18:12:20
# (参考訳) 時空間データモデリングのためのクロスノードフェデレーショングラフニューラルネットワーク [全文訳有]

Cross-Node Federated Graph Neural Network for Spatio-Temporal Data Modeling ( http://arxiv.org/abs/2106.05223v1 )

ライセンス: CC BY 4.0
Chuizheng Meng, Sirisha Rambhatla, Yan Liu(参考訳) センサー、ウェアラブル、IoT(Internet of Things)デバイスのネットワークから生成される膨大な量のデータは、エッジ計算とライセンシング(データアクセス)の問題のため、分散データの時空間構造を活用する高度なモデリング技術の必要性を強調している。 連立学習(FL)は直接的なデータ共有や交換を必要とせずにモデルトレーニングのフレームワークとして登場したが、予測能力を改善するために複雑な時空間依存関係を効果的にモデル化することは依然として未解決の問題である。 一方で、最先端の時空間予測モデルでは、データ共有の制約を無視して、データへの非破壊的なアクセスを想定している。 このギャップを埋めるために、クロスノードフェデレーショングラフニューラルネットワーク(CNFGNN)というフェデレーション時空間モデルを提案し、グラフニューラルネットワーク(GNN)ベースのアーキテクチャをノード間のフェデレーション学習の制約の下で明示的に符号化し、ノードのネットワーク内のデータが各ノード上でローカルに生成され、分散化され続ける。 cnfgnnは、デバイス上の時間的ダイナミクスモデリングとサーバ上の空間的ダイナミクスを分離して動作し、交互最適化を利用して通信コストを削減し、エッジデバイスでの計算を容易にする。 トラヒックフロー予測タスクの実験から,CNFGNNはエッジデバイスに余分な計算コストを伴わずに,トランスダクティブとインダクティブの両方の学習環境で最高の予測性能を達成し,通信コストを抑えた。

Vast amount of data generated from networks of sensors, wearables, and the Internet of Things (IoT) devices underscores the need for advanced modeling techniques that leverage the spatio-temporal structure of decentralized data due to the need for edge computation and licensing (data access) issues. While federated learning (FL) has emerged as a framework for model training without requiring direct data sharing and exchange, effectively modeling the complex spatio-temporal dependencies to improve forecasting capabilities still remains an open problem. On the other hand, state-of-the-art spatio-temporal forecasting models assume unfettered access to the data, neglecting constraints on data sharing. To bridge this gap, we propose a federated spatio-temporal model -- Cross-Node Federated Graph Neural Network (CNFGNN) -- which explicitly encodes the underlying graph structure using graph neural network (GNN)-based architecture under the constraint of cross-node federated learning, which requires that data in a network of nodes is generated locally on each node and remains decentralized. CNFGNN operates by disentangling the temporal dynamics modeling on devices and spatial dynamics on the server, utilizing alternating optimization to reduce the communication cost, facilitating computations on the edge devices. Experiments on the traffic flow forecasting task show that CNFGNN achieves the best forecasting performance in both transductive and inductive learning settings with no extra computation cost on edge devices, while incurring modest communication cost.
公開日:2021-06-09
翻訳日:2021-06-10 18:05:52
# (参考訳) トランスフォーマーはグラフ表現で本当に悪いのか? [全文訳有]

Do Transformers Really Perform Bad for Graph Representation? ( http://arxiv.org/abs/2106.05234v1 )

ライセンス: CC BY 4.0
Chengxuan Ying, Tianle Cai, Shengjie Luo, Shuxin Zheng, Guolin Ke, Di He, Yanming Shen and Tie-Yan Liu(参考訳) トランスフォーマーアーキテクチャは、自然言語処理やコンピュータビジョンなど、多くの領域で支配的な選択となっている。 しかし、グラフレベルの予測で人気のあるリーダーボードでは、主流のgnnに比べて競争力は得られていない。 したがって、トランスフォーマーがグラフ表現学習のためにどのように機能するかは謎のままである。 本稿では,標準トランスフォーマーアーキテクチャ上に構築されたgraphormerを提示することで,この謎を解決し,特に最近のogb大規模課題において,幅広いグラフ表現学習タスクにおいて優れた結果が得られることを示す。 グラフでトランスフォーマーを利用するための重要な洞察は、グラフの構造情報をモデルに効果的にエンコードする必要性である。 そこで本稿では,グラフ構造化データのモデル化を支援するため,単純な構造符号化手法を提案する。 さらに,グラフマーの表現力を数学的に特徴付け,グラフの構造情報を符号化する方法によって,多くのGNN変種がグラフマーの特別な事例としてカバーできることを示す。

The Transformer architecture has become a dominant choice in many domains, such as natural language processing and computer vision. Yet, it has not achieved competitive performance on popular leaderboards of graph-level prediction compared to mainstream GNN variants. Therefore, it remains a mystery how Transformers could perform well for graph representation learning. In this paper, we solve this mystery by presenting Graphormer, which is built upon the standard Transformer architecture, and could attain excellent results on a broad range of graph representation learning tasks, especially on the recent OGB Large-Scale Challenge. Our key insight to utilizing Transformer in the graph is the necessity of effectively encoding the structural information of a graph into the model. To this end, we propose several simple yet effective structural encoding methods to help Graphormer better model graph-structured data. Besides, we mathematically characterize the expressive power of Graphormer and exhibit that with our ways of encoding the structural information of graphs, many popular GNN variants could be covered as the special cases of Graphormer.
公開日:2021-06-09
翻訳日:2021-06-10 17:49:56
# (参考訳) 密結合クラスタ探索のための局所アルゴリズム [全文訳有]

Local Algorithms for Finding Densely Connected Clusters ( http://arxiv.org/abs/2106.05245v1 )

ライセンス: CC BY 4.0
Peter Macgregor and He Sun(参考訳) 局所グラフクラスタリングは大規模グラフを解析するための重要なアルゴリズム手法であり、多くのデータサイエンスの分野で広く応用されている。 ほとんどの(ローカルな)グラフクラスタリングアルゴリズムの目的は、低コンダクタンスの頂点集合を見つけることであるが、現実のデータセットを分析する際にクラスタ間の相互接続の重要性を強調する最近の一連の研究がある。 この研究の行に続いて、我々は、その相互接続とグラフの他の部分との関係に関して定義された頂点集合のペアを見つけるための局所アルゴリズムについて研究する。 我々の分析の鍵は、多重集合の構造を縮小グラフ内の1つの頂点集合に関連付ける新しい還元手法である。 多くの潜在的なアプリケーションの中で、我々のアルゴリズムは、interstate Disputes Dataset と US Migration Dataset の密結合クラスタを復元することに成功した。

Local graph clustering is an important algorithmic technique for analysing massive graphs, and has been widely applied in many research fields of data science. While the objective of most (local) graph clustering algorithms is to find a vertex set of low conductance, there has been a sequence of recent studies that highlight the importance of the inter-connection between clusters when analysing real-world datasets. Following this line of research, in this work we study local algorithms for finding a pair of vertex sets defined with respect to their inter-connection and their relationship with the rest of the graph. The key to our analysis is a new reduction technique that relates the structure of multiple sets to a single vertex set in the reduced graph. Among many potential applications, we show that our algorithms successfully recover densely connected clusters in the Interstate Disputes Dataset and the US Migration Dataset.
公開日:2021-06-09
翻訳日:2021-06-10 17:30:08
# (参考訳) 多視点表現学習のためのデータソースとしての生成モデル

Generative Models as a Data Source for Multiview Representation Learning ( http://arxiv.org/abs/2106.05258v1 )

ライセンス: CC BY 4.0
Ali Jahanian, Xavier Puig, Yonglong Tian, Phillip Isola(参考訳) 生成モデルは、訓練されたデータとほとんど区別がつかないような、非常にリアルな画像を生成することができる。 十分な生成モデルがあれば、まだデータセットが必要なのでしょうか? 本研究では,データから直接ではなく,ブラックボックス生成モデルから汎用視覚表現を学習する。 トレーニングデータにアクセスできないオフザシェルフイメージジェネレータが与えられた場合、このジェネレータによって出力されるサンプルから表現をトレーニングする。 この設定に適用可能な表現学習手法をいくつか比較し,同じ意味コンテンツの複数の「ビュー」を生成するために,ジェネレータの潜在空間を用いる。 対照的な手法では、このマルチビューデータは自然に正のペア(潜時空間に近く)と負のペア(潜時空間に遠く離れている)を識別することができる。 得られた表現は実データから直接学習した表現に匹敵するが、優れた性能は適用されたサンプリング戦略と訓練方法に注意を要する。 生成モデルはデータセットの圧縮された組織化されたコピーと見なすことができ、より多くの"モデル動物園"が増殖し、データセットがますます扱いにくくなり、欠落し、あるいはプライベートになる未来を想像する。 本稿では,このような未来において視覚表現学習を扱うためのいくつかの手法を提案する。 コードはプロジェクトのページでリリースされています。

Generative models are now capable of producing highly realistic images that look nearly indistinguishable from the data on which they are trained. This raises the question: if we have good enough generative models, do we still need datasets? We investigate this question in the setting of learning general-purpose visual representations from a black-box generative model rather than directly from data. Given an off-the-shelf image generator without any access to its training data, we train representations from the samples output by this generator. We compare several representation learning methods that can be applied to this setting, using the latent space of the generator to generate multiple "views" of the same semantic content. We show that for contrastive methods, this multiview data can naturally be used to identify positive pairs (nearby in latent space) and negative pairs (far apart in latent space). We find that the resulting representations rival those learned directly from real data, but that good performance requires care in the sampling strategy applied and the training method. Generative models can be viewed as a compressed and organized copy of a dataset, and we envision a future where more and more "model zoos" proliferate while datasets become increasingly unwieldy, missing, or private. This paper suggests several techniques for dealing with visual representation learning in such a future. Code is released on our project page: https://ali-design.g ithub.io/GenRep/
公開日:2021-06-09
翻訳日:2021-06-10 16:36:47
# (参考訳) Bayesian Attention Belief Networks [全文訳有]

Bayesian Attention Belief Networks ( http://arxiv.org/abs/2106.05251v1 )

ライセンス: CC BY 4.0
Shujian Zhang, Xinjie Fan, Bo Chen, Mingyuan Zhou(参考訳) 注意に基づくニューラルネットワークは、幅広いタスクで最先端の結果を得ています。 このようなモデルの多くは決定論的注意を必要とするが、確率的注意は最適化の困難さや複雑なモデル設計のためにあまり探求されない。 本稿では,非正規化注意重みをガンマ分布の階層構造でモデル化してデコーダネットワークを構築するベイズ的注意信念ネットワークと,決定論的-上向き-下向き構造でワイブル分布を積み重ねたエンコーダネットワークを紹介する。 結果のオートエンコーディングネットワークは、変分下界を持つ微分可能な方法で最適化することができる。 事前訓練されたモデルを含む決定論的注意を持つ任意のモデルを、提案されているベイズ注意信念ネットワークに変換するのは簡単である。 様々な言語理解タスクにおいて,本手法は,精度,不確実性推定,ドメイン間の一般化,敵の攻撃に対する堅牢性において,決定論的注意と最先端の確率的注意を上回っていることを示す。 さらに,本手法がニューラルマシン翻訳および視覚的質問応答に適用可能であることを示し,本手法を様々な注意課題に組み込むことの可能性を示した。

Attention-based neural networks have achieved state-of-the-art results on a wide range of tasks. Most such models use deterministic attention while stochastic attention is less explored due to the optimization difficulties or complicated model design. This paper introduces Bayesian attention belief networks, which construct a decoder network by modeling unnormalized attention weights with a hierarchy of gamma distributions, and an encoder network by stacking Weibull distributions with a deterministic-upward -stochastic-downward structure to approximate the posterior. The resulting auto-encoding networks can be optimized in a differentiable way with a variational lower bound. It is simple to convert any models with deterministic attention, including pretrained ones, to the proposed Bayesian attention belief networks. On a variety of language understanding tasks, we show that our method outperforms deterministic attention and state-of-the-art stochastic attention in accuracy, uncertainty estimation, generalization across domains, and robustness to adversarial attacks. We further demonstrate the general applicability of our method on neural machine translation and visual question answering, showing great potential of incorporating our method into various attention-related tasks.
公開日:2021-06-09
翻訳日:2021-06-10 16:00:02
# データ拡張による自己教師付き学習は,コンテンツからスタイルを分離する

Self-Supervised Learning with Data Augmentations Provably Isolates Content from Style ( http://arxiv.org/abs/2106.04619v1 )

ライセンス: Link先を確認
Julius von K\"ugelgen, Yash Sharma, Luigi Gresele, Wieland Brendel, Bernhard Sch\"olkopf, Michel Besserve, Francesco Locatello(参考訳) 自己教師付き表現学習は多くの領域で顕著な成功を示している。 一般的な方法は、データのセマンティクスを不変にすることを意図した手作り変換によってデータ拡張を行うことである。 我々はこのアプローチの実証的な成功を理論的観点から理解しようとしている。 本稿では,拡張に不変と仮定されるコンテンツコンポーネントと変更可能なスタイルコンポーネントに,潜在表現の分割を仮定することにより,拡張プロセスを潜在変数モデルとして定式化する。 アンタングル化と独立成分分析に関する以前の研究とは異なり、潜在空間における非自明な統計的および因果的依存関係を許容する。 本研究では、観測結果の対のビューに基づいて潜在表現の識別可能性について検討し、生成的および識別的両方の設定において、不変コンテンツ分割を可逆写像まで特定できる十分な条件を示す。 従属変数を持つ数値シミュレーションは我々の理論と一致している。 最後に,高次元で視覚的に複雑な画像のデータセットであるcausal3didentを導入する。

Self-supervised representation learning has shown remarkable success in a number of domains. A common practice is to perform data augmentation via hand-crafted transformations intended to leave the semantics of the data invariant. We seek to understand the empirical success of this approach from a theoretical perspective. We formulate the augmentation process as a latent variable model by postulating a partition of the latent representation into a content component, which is assumed invariant to augmentation, and a style component, which is allowed to change. Unlike prior work on disentanglement and independent component analysis, we allow for both nontrivial statistical and causal dependencies in the latent space. We study the identifiability of the latent representation based on pairs of views of the observations and prove sufficient conditions that allow us to identify the invariant content partition up to an invertible mapping in both generative and discriminative settings. We find numerical simulations with dependent latent variables are consistent with our theory. Lastly, we introduce Causal3DIdent, a dataset of high-dimensional, visually complex images with rich causal dependencies, which we use to study the effect of data augmentations performed in practice.
公開日:2021-06-08
翻訳日:2021-06-10 15:34:45
# テキスト類似性におけるドメイン適応の成功予測

Predicting the Success of Domain Adaptation in Text Similarity ( http://arxiv.org/abs/2106.04641v1 )

ライセンス: Link先を確認
Nicolai Pogrebnyakov, Shohreh Shaghaghian(参考訳) 転送学習方法、特にドメイン適応は、あるドメイン内のラベル付きデータを利用して、別のドメイン内の特定のタスクのパフォーマンスを向上させる。 しかし、ドメイン適応の成功にどのような要因が影響するかはまだ明らかではない。 本稿では,テキスト類似度の候補の中から,最も適したソースドメインの適応成功と選択をモデル化する。 記述型ドメイン情報とクロスドメイン類似度メトリクスを予測機能として使用します。 概ね肯定的ではあるが、適応の成功を予測するのが困難だった領域もある。

Transfer learning methods, and in particular domain adaptation, help exploit labeled data in one domain to improve the performance of a certain task in another domain. However, it is still not clear what factors affect the success of domain adaptation. This paper models adaptation success and selection of the most suitable source domains among several candidates in text similarity. We use descriptive domain information and cross-domain similarity metrics as predictive features. While mostly positive, the results also point to some domains where adaptation success was difficult to predict.
公開日:2021-06-08
翻訳日:2021-06-10 15:34:28
# Phraseformer: Transformer と Graph Embedding を用いたマルチモーダルキーフレーズ抽出

Phraseformer: Multimodal Key-phrase Extraction using Transformer and Graph Embedding ( http://arxiv.org/abs/2106.04939v1 )

ライセンス: Link先を確認
Narjes Nikzad-Khasmakhi, Mohammad-Reza Feizi-Derakhshi, Meysam Asgari-Chenaghlu, Mohammad-Ali Balafar, Ali-Reza Feizi-Derakhshi, Taymaz Rahkar-Farshi, Majid Ramezani, Zoleikha Jahanbakhsh-Nagadeh, Elnaz Zafarani-Moattar, Mehrdad Ranjbar-Khadivi(参考訳) 背景: キーワード抽出は自然言語処理の分野で人気のある研究トピックである。 キーワードは文書の中で最も重要な情報を記述する用語である。 研究者が直面している主な問題は、ドキュメントからコアキーワードを効率的に正確に抽出する方法である。 しかし,従来のキーワード抽出手法ではテキストとグラフの特徴が活用されているため,これらの特徴を適切に学習し組み合わせることのできるモデルが不足している。 方法:本論文では,変換器とグラフ埋め込み技術を用いたマルチモーダルなキーフレーズ抽出手法であるPhraseformerを開発した。 Phraseformerでは、各キーワード候補は、テキストと構造学習表現の連結であるベクトルによって提示される。 PhraseformerはBERTやExEmといった最近の研究の利点を利用して両方の表現を保存する。 また、フレーズフォーマは、キーフレーズ抽出タスクを分類タスクを用いて解決されたシーケンスラベリング問題として扱う。 結果: Inspec, SemEval2010, SemEval 2017の3つのデータセット上でのPhraseformerの性能をF1スコアで解析した。 また,inspec データセット上の phraseformer メソッドにおける異なる分類器の性能について検討する。 実験の結果,3つのデータセットに対して phraseformer 法の有効性が示された。 さらに、ランダムフォレスト分類器は全ての分類器の中で最高F1スコアを得る。 結論: bert と exem の組み合わせがより意味があり、単語の意味をよりよく表現できるという事実から。 したがって、 phraseformer は単一モダリティメソッドを大幅に上回っている。

Background: Keyword extraction is a popular research topic in the field of natural language processing. Keywords are terms that describe the most relevant information in a document. The main problem that researchers are facing is how to efficiently and accurately extract the core keywords from a document. However, previous keyword extraction approaches have utilized the text and graph features, there is the lack of models that can properly learn and combine these features in a best way. Methods: In this paper, we develop a multimodal Key-phrase extraction approach, namely Phraseformer, using transformer and graph embedding techniques. In Phraseformer, each keyword candidate is presented by a vector which is the concatenation of the text and structure learning representations. Phraseformer takes the advantages of recent researches such as BERT and ExEm to preserve both representations. Also, the Phraseformer treats the key-phrase extraction task as a sequence labeling problem solved using classification task. Results: We analyze the performance of Phraseformer on three datasets including Inspec, SemEval2010 and SemEval 2017 by F1-score. Also, we investigate the performance of different classifiers on Phraseformer method over Inspec dataset. Experimental results demonstrate the effectiveness of Phraseformer method over the three datasets used. Additionally, the Random Forest classifier gain the highest F1-score among all classifiers. Conclusions: Due to the fact that the combination of BERT and ExEm is more meaningful and can better represent the semantic of words. Hence, Phraseformer significantly outperforms single-modality methods.
公開日:2021-06-09
翻訳日:2021-06-10 15:34:22
# 非自己回帰機械翻訳における順序非依存クロスエントロピー

Order-Agnostic Cross Entropy for Non-Autoregressive Machine Translation ( http://arxiv.org/abs/2106.05093v1 )

ライセンス: Link先を確認
Cunxiao Du and Zhaopeng Tu and Jing Jiang(参考訳) 完全非自己回帰型翻訳(NAT)モデルに対して,注文非依存型クロスエントロピー(OaXE)という新たなトレーニング目標を提案する。 OaXEは標準的なクロスエントロピー損失を改善して単語の並べ替えの効果を改善する。 具体的には、OaXEは単語順序誤差のペナルティを除去し、モデル予測とターゲットトークンの最適な一致に基づいてクロスエントロピー損失を算出する。 ログ損失は、不正な参照に対して非常に敏感であるため、クロスエントロピー初期化とロストランケーションを利用して、モデルが検索空間のよい部分にフォーカスすることを保証する。 大規模なWMTベンチマーク実験により、OaXEは翻訳性能を大幅に改善し、完全なNATモデルのための新しい技術状態が設定された。 さらに分析した結果、OaXEはトークンの繰り返しを減らし、予測信頼度を増大させることで、マルチモーダリティ問題を緩和することを示した。 私たちのコード、データ、トレーニングされたモデルはhttps://github.com/t encent-ailab/ICML21_ OAXE.comで利用可能です。

We propose a new training objective named order-agnostic cross entropy (OaXE) for fully non-autoregressive translation (NAT) models. OaXE improves the standard cross-entropy loss to ameliorate the effect of word reordering, which is a common source of the critical multimodality problem in NAT. Concretely, OaXE removes the penalty for word order errors, and computes the cross entropy loss based on the best possible alignment between model predictions and target tokens. Since the log loss is very sensitive to invalid references, we leverage cross entropy initialization and loss truncation to ensure the model focuses on a good part of the search space. Extensive experiments on major WMT benchmarks show that OaXE substantially improves translation performance, setting new state of the art for fully NAT models. Further analyses show that OaXE alleviates the multimodality problem by reducing token repetitions and increasing prediction confidence. Our code, data, and trained models are available at https://github.com/t encent-ailab/ICML21_ OAXE.
公開日:2021-06-09
翻訳日:2021-06-10 15:33:58
# PAM: 製品カテゴリ属性抽出における製品イメージの理解

PAM: Understanding Product Images in Cross Product Category Attribute Extraction ( http://arxiv.org/abs/2106.04630v1 )

ライセンス: Link先を確認
Rongmei Lin, Xiang He, Jie Feng, Nasser Zalmout, Yan Liang, Li Xiong, Xin Luna Dong(参考訳) 商品属性を理解することは、顧客のオンラインショッピング体験を改善する上で重要な役割を担い、製品知識グラフを構築する上で不可欠な役割を果たす。 既存のほとんどの方法は、テキスト記述からの属性抽出や、形状や色などの製品画像からの視覚情報の利用に焦点を当てている。 以前検討された入力と比較すると、製品イメージにはより多くの情報が含まれており、言葉と視覚的手がかりが混ざり合っており、顧客を印象づけるためのレイアウトが慎重に設計されている。 この研究は、これらの異なるモダリティを属性抽出に完全に活用するより包括的なフレームワークを提案する。 視覚的質問応答における最近の研究に触発されて,製品テキスト,光学的文字認識(OCR)トークン,および製品画像から検出された視覚オブジェクトの表現を融合するために,トランスフォーマーに基づくシーケンスモデルを用いている。 このフレームワークはさらに、デコーダをトレーニングして製品カテゴリと属性値の両方を予測し、その出力を製品カテゴリに条件付けすることで、単一のモデルで複数の製品カテゴリにまたがる属性値を抽出する機能拡張が行われている。 このモデルは、さまざまな製品属性を持つ多数の製品カテゴリを提供するeコマースプラットフォームで望ましい統一属性抽出ソリューションを提供する。 我々は,14以上の製品カテゴリを含む2つの製品属性について評価を行い,本モデルがリコール時に15%,f1スコアで10%の利益が得られることを確認した。

Understanding product attributes plays an important role in improving online shopping experience for customers and serves as an integral part for constructing a product knowledge graph. Most existing methods focus on attribute extraction from text description or utilize visual information from product images such as shape and color. Compared to the inputs considered in prior works, a product image in fact contains more information, represented by a rich mixture of words and visual clues with a layout carefully designed to impress customers. This work proposes a more inclusive framework that fully utilizes these different modalities for attribute extraction. Inspired by recent works in visual question answering, we use a transformer based sequence to sequence model to fuse representations of product text, Optical Character Recognition (OCR) tokens and visual objects detected in the product image. The framework is further extended with the capability to extract attribute value across multiple product categories with a single model, by training the decoder to predict both product category and attribute value and conditioning its output on product category. The model provides a unified attribute extraction solution desirable at an e-commerce platform that offers numerous product categories with a diverse body of product attributes. We evaluated the model on two product attributes, one with many possible values and one with a small set of possible values, over 14 product categories and found the model could achieve 15% gain on the Recall and 10% gain on the F1 score compared to existing methods using text-only features.
公開日:2021-06-08
翻訳日:2021-06-10 15:33:40
# 計画のためのベクトル量子化モデル

Vector Quantized Models for Planning ( http://arxiv.org/abs/2106.04615v1 )

ライセンス: Link先を確認
Sherjil Ozair, Yazhe Li, Ali Razavi, Ioannis Antonoglou, A\"aron van den Oord, Oriol Vinyals(参考訳) モデルベースRLの分野での最近の発展は、特に計画が不可欠である様々な環境で成功している。 しかし、そのような成功は決定論的完全観測環境に限定されている。 確率的かつ部分的に観測可能な環境を扱う新しいアプローチを提案する。 我々の重要な洞察は、確率的環境におけるアクションの複数の影響を捉えるために離散オートエンコーダを使用することである。 我々は、エージェントの動作と環境応答を表す離散潜在変数の両方を計画するために、'emph{Monte Carlo tree search} の確率的変種を用いる。 本手法は, 対戦相手が環境の一部と見なされるチェスの確率論的解釈において, オフライン版の MuZero を著しく上回っている。 また,我々のアプローチは,一対一の3次元環境である \emph{deepmind lab} にスケールすることを示した。

Recent developments in the field of model-based RL have proven successful in a range of environments, especially ones where planning is essential. However, such successes have been limited to deterministic fully-observed environments. We present a new approach that handles stochastic and partially-observable environments. Our key insight is to use discrete autoencoders to capture the multiple possible effects of an action in a stochastic environment. We use a stochastic variant of \emph{Monte Carlo tree search} to plan over both the agent's actions and the discrete latent variables representing the environment's response. Our approach significantly outperforms an offline version of MuZero on a stochastic interpretation of chess where the opponent is considered part of the environment. We also show that our approach scales to \emph{DeepMind Lab}, a first-person 3D environment with large visual observations and partial observability.
公開日:2021-06-08
翻訳日:2021-06-10 15:33:15
# 対話型学習

Interaction-Grounded Learning ( http://arxiv.org/abs/2106.04887v1 )

ライセンス: Link先を確認
Tengyang Xie, John Langford, Paul Mineiro, Ida Momennejad(参考訳) 義肢を考えて、ユーザーの制御信号に適応するよう学習する。 そこで本研究では,学習者の目標が環境と相互作用することであり,学習者の方針を最適化するための接地や明示的な報酬を伴わないインタラクション・グラウンド学習を提案する。 このような問題は、明示的な報酬を必要とする一般的なRL解を避ける。 学習エージェントは、多次元のコンテキストベクトルを観察し、アクションをとり、多次元のフィードバックベクトルを観察する。 この多次元フィードバックベクトルは明確な報奨情報を持たない。 成功するためには、アルゴリズムはフィードバックベクトルを評価する方法を学び、潜在報酬信号を発見し、それを監視せずに方針を定めなければならない。 対話型学習環境において,ある自然な仮定により,学習者は潜在報酬を発見し,その相互作用を成功させるための方針を定めることができることを示す。 提案手法の有効性を実証するための理論的保証と概念実証評価を提供する。

Consider a prosthetic arm, learning to adapt to its user's control signals. We propose Interaction-Grounded Learning for this novel setting, in which a learner's goal is to interact with the environment with no grounding or explicit reward to optimize its policies. Such a problem evades common RL solutions which require an explicit reward. The learning agent observes a multidimensional context vector, takes an action, and then observes a multidimensional feedback vector. This multidimensional feedback vector has no explicit reward information. In order to succeed, the algorithm must learn how to evaluate the feedback vector to discover a latent reward signal, with which it can ground its policies without supervision. We show that in an Interaction-Grounded Learning setting, with certain natural assumptions, a learner can discover the latent reward and ground its policy for successful interaction. We provide theoretical guarantees and a proof-of-concept empirical evaluation to demonstrate the effectiveness of our proposed approach.
公開日:2021-06-09
翻訳日:2021-06-10 15:33:01
# Random Arrival Times を用いた非パラメトリック確率列アサインメント

Non-Parametric Stochastic Sequential Assignment With Random Arrival Times ( http://arxiv.org/abs/2106.04944v1 )

ライセンス: Link先を確認
Danial Dervovic, Parisa Hassanzadeh, Samuel Assefa, Prashant Reddy(参考訳) ジョブがランダムな時間に到達し、ランダムな値を仮定する問題を考える。 各ジョブが到着すると、意思決定者は、一定期間に最大$n$のジョブしか受け付けないという制約により、ジョブを受け付けるか否かを即座に判断し、報酬としてオファーの価値を得る必要がある。 意思決定者は、求人プロセスの独立した実現に100万ドルしかアクセスできない。 本稿では,NPSA(Non-Parametric Sequential Allocation)アルゴリズムを提案する。 さらに、NPSAアルゴリズムによって返される期待報酬が、M$が大きくなるにつれて、最適性に収束することを示す。 本研究では,このアルゴリズムが合成データや公開不正検出データセットに実証的に有効であることを示す。

We consider a problem wherein jobs arrive at random times and assume random values. Upon each job arrival, the decision-maker must decide immediately whether or not to accept the job and gain the value on offer as a reward, with the constraint that they may only accept at most $n$ jobs over some reference time period. The decision-maker only has access to