このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20201005となっている論文です。

PDF登録状況(公開日: 20201005)

TitleAuthorsAbstract論文公表日・翻訳日
# 二次元材料における超格子の光インプリント

Optical imprinting of superlattices in two-dimensional materials ( http://arxiv.org/abs/1912.13059v4 )

ライセンス: Link先を確認
Hwanmun Kim, Hossein Dehghani, Hideo Aoki, Ivar Martin, and Mohammad Hafezi(参考訳) 二次元電子系における超格子構造をインプリントするために, 円偏光・空間周期レーザー場を照射する光学的手法を提案する。 光学場の構成を変えることで、空間対称性、周期性、強度の異なる様々な格子構造を合成する。 広帯域の光波長性により、チャーン数、エネルギー帯域、バンドギャップなど、有効帯域構造の異なる特性を調整できることがわかった。 超格子の in situ tunability は、位相遷移からカゴメ超格子を通じた平坦なバンドの生成まで、ユニークな物理学をもたらし、フロッケ系における強相関現象の実現を可能にする。 電子系が準平衡状態に留まることのできる高周波状態は、長期にわたって考慮する。 本手法の時空間再構成性は,光・光相互作用を制御し,新しい電子状態と光電子デバイスを生成する可能性を開く。

We propose an optical method of shining circularly polarized and spatially periodic laser fields to imprint superlattice structures in two-dimensional electronic systems. By changing the configuration of the optical field, we synthesize various lattice structures with different spatial symmetry, periodicity, and strength. We find that the wide optical tunability allows one to tune different properties of the effective band structure, including Chern number, energy bandwidths, and band gaps. The in situ tunability of the superlattice gives rise to unique physics ranging from the topological transitions to the creation of the flat bands through the kagome superlattice, which can allow a realization of strongly correlated phenomena in Floquet systems. We consider the high-frequency regime where the electronic system can remain in the quasiequilibrium phase for an extended amount of time. The spatiotemporal reconfigurability of the present scheme opens up possibilities to control light-matter interaction to generate novel electronic states and optoelectronic devices.
翻訳日:2023-01-17 03:08:22 公開日:2020-10-05
# 言語モデルのパラメータにどの程度の知識を詰め込むことができますか。

How Much Knowledge Can You Pack Into the Parameters of a Language Model? ( http://arxiv.org/abs/2002.08910v4 )

ライセンス: Link先を確認
Adam Roberts, Colin Raffel, and Noam Shazeer(参考訳) 最近、構造化されていないテキストで訓練されたニューラルネットワークモデルは、自然言語クエリを使用して暗黙的に知識を保存し、取得できることが観察されている。 本稿では,外部の文脈や知識にアクセスせずに,事前学習したモデルに質問に答えるように微調整することで,このアプローチの実用性を評価する。 提案手法は, モデルサイズに合わせてスケールし, 問合せ時に外部知識ソースからの回答を明示的に検索するオープンドメインシステムと競合することを示す。 再現性と今後の作業を容易にするために、コードとトレーニングされたモデルをhttps://goo.gle/t5-cbqaでリリースします。

It has recently been observed that neural language models trained on unstructured text can implicitly store and retrieve knowledge using natural language queries. In this short paper, we measure the practical utility of this approach by fine-tuning pre-trained models to answer questions without access to any external context or knowledge. We show that this approach scales with model size and performs competitively with open-domain systems that explicitly retrieve answers from an external knowledge source when answering questions. To facilitate reproducibility and future work, we release our code and trained models at https://goo.gle/t5-cbqa.
翻訳日:2023-01-02 07:11:40 公開日:2020-10-05
# マルチデータ解析を用いたディープニューラルネットワークによるベースライン認知低下率の推定

Predicting Rate of Cognitive Decline at Baseline Using a Deep Neural Network with Multidata Analysis ( http://arxiv.org/abs/2002.10034v3 )

ライセンス: Link先を確認
Sema Candemir, Xuan V. Nguyen, Luciano M. Prevedello, Matthew T. Bigelow, Richard D.White, Barbaros S. Erdal (for the Alzheimer's Disease Neuroimaging Initiative)(参考訳) 目的:本研究では,初診時に収集した臨床・画像データのみを処理することにより,軽度認知障害患者の認知低下率を予測することができるかを検討する。 アプローチ:我々は3次元畳み込みニューラルネットワークを用いた教師付きハイブリッドニューラルネットワークに基づく予測モデルを構築し,磁気共鳴画像の体積解析と,アーキテクチャの完全連結層における非画像臨床データの統合を行った。 実験はアルツハイマー病のニューロイメージングイニシアチブデータセットで実施されている。 結果: 実験の結果, 初診時の認知機能低下とデータとの相関が確認された。 このシステムは、認知低下クラスの予測のために、受信者演算子曲線(AUC)0.70の領域を達成した。 結論:本研究は,日常的に収集された臨床・人口統計データ(ベースラインMRI,ベースラインMMSE,スカラボリュームデータ,年齢,性別,教育,倫理,人種)を処理し,ゆっくりと劣化・安定・急激な劣化を予測した最初の研究である。 トレーニングデータはMMSEレート値に基づいて構築される。 軽度認知障害からアルツハイマー病への転換と疾患分類の予測に焦点を当てた文献研究とは異なり,MCI患者の認知低下率の早期予測としてこの問題にアプローチする。

Purpose: This study investigates whether a machine-learning-based system can predict the rate of cognitive decline in mildly cognitively impaired patients by processing only the clinical and imaging data collected at the initial visit. Approach: We built a predictive model based on a supervised hybrid neural network utilizing a 3-Dimensional Convolutional Neural Network to perform volume analysis of Magnetic Resonance Imaging and integration of non-imaging clinical data at the fully connected layer of the architecture. The experiments are conducted on the Alzheimers Disease Neuroimaging Initiative dataset. Results: Experimental results confirm that there is a correlation between cognitive decline and the data obtained at the first visit. The system achieved an area under the receiver operator curve (AUC) of 0.70 for cognitive decline class prediction. Conclusion: To our knowledge, this is the first study that predicts slowly deteriorating/stable or rapidly deteriorating classes by processing routinely collected baseline clinical and demographic data (Baseline MRI, Baseline MMSE, Scalar Volumetric data, Age, Gender, Education, Ethnicity, and Race). The training data is built based on MMSE-rate values. Unlike the studies in the literature that focus on predicting Mild Cognitive Impairment-to-Alzheimer`s disease conversion and disease classification, we approach the problem as an early prediction of cognitive decline rate in MCI patients.
翻訳日:2022-12-29 04:40:29 公開日:2020-10-05
# 変圧器を用いた機械翻訳における固定エンコーダ自己注意パターン

Fixed Encoder Self-Attention Patterns in Transformer-Based Machine Translation ( http://arxiv.org/abs/2002.10260v3 )

ライセンス: Link先を確認
Alessandro Raganato, Yves Scherrer and J\"org Tiedemann(参考訳) トランスフォーマーベースのモデルは、ニューラルマシン翻訳に根本的な変化をもたらした。 Transformerアーキテクチャの重要な特徴は、モデルが入力の異なる部分に同時にフォーカスできるいわゆるマルチヘッドアテンション機構である。 しかし、近年の研究では、ほとんどの注目層は単純で、しばしば冗長な位置パターンを学ぶことが示されている。 本稿では,各エンコーダ層の1つのアテンションヘッドを,位置のみに基づいて外部知識を必要としない単純な固定型(非学習可能)の注意パターンに置き換えることを提案する。 異なるデータサイズと複数言語ペアを用いた実験により、トレーニング時にトランスフォーマーのエンコーダ側でアテンションヘッドを固定することは翻訳品質に影響を与えず、低リソースシナリオではBLEUスコアを最大3ポイント向上することを示した。

Transformer-based models have brought a radical change to neural machine translation. A key feature of the Transformer architecture is the so-called multi-head attention mechanism, which allows the model to focus simultaneously on different parts of the input. However, recent works have shown that most attention heads learn simple, and often redundant, positional patterns. In this paper, we propose to replace all but one attention head of each encoder layer with simple fixed -- non-learnable -- attentive patterns that are solely based on position and do not require any external knowledge. Our experiments with different data sizes and multiple language pairs show that fixing the attention heads on the encoder side of the Transformer at training time does not impact the translation quality and even increases BLEU scores by up to 3 points in low-resource scenarios.
翻訳日:2022-12-29 03:56:34 公開日:2020-10-05
# PhoBERT:ベトナム語のための事前訓練言語モデル

PhoBERT: Pre-trained language models for Vietnamese ( http://arxiv.org/abs/2003.00744v3 )

ライセンス: Link先を確認
Dat Quoc Nguyen and Anh Tuan Nguyen(参考訳) PhoBERT-baseとPhoBERT-largeはベトナム語向けに事前訓練された最初の大規模モノリンガル言語モデルである。 実験結果から,PhoBERTは,最近最高の訓練済み多言語モデルであるXLM-R(Conneau et al., 2020)を一貫して上回り,音声タグ付け,依存性解析,名前付き一致認識,自然言語推論など,ベトナム固有の複数のNLPタスクにおける最先端性の向上を図っている。 我々はPhoBERTをリリースし、ベトナムのNLPの今後の研究と下流の応用を促進する。 私たちのPhoBERTモデルはhttps://github.com/VinAIResearch/PhoBERTで利用可能です。

We present PhoBERT with two versions, PhoBERT-base and PhoBERT-large, the first public large-scale monolingual language models pre-trained for Vietnamese. Experimental results show that PhoBERT consistently outperforms the recent best pre-trained multilingual model XLM-R (Conneau et al., 2020) and improves the state-of-the-art in multiple Vietnamese-specific NLP tasks including Part-of-speech tagging, Dependency parsing, Named-entity recognition and Natural language inference. We release PhoBERT to facilitate future research and downstream applications for Vietnamese NLP. Our PhoBERT models are available at https://github.com/VinAIResearch/PhoBERT
翻訳日:2022-12-27 04:14:50 公開日:2020-10-05
# メタ学習によるゼロショット言語間移動

Zero-Shot Cross-Lingual Transfer with Meta Learning ( http://arxiv.org/abs/2003.02739v4 )

ライセンス: Link先を確認
Farhad Nooralahzadeh, Giannis Bekoulis, Johannes Bjerva, Isabelle Augenstein(参考訳) ダウンストリームのタスクパフォーマンスを改善するために知識の戦略的共有が示されているため、タスク間で何を共有すべきかを学ぶことは近年非常に重要になっている。 これは多言語アプリケーションにとって特に重要であり、世界中のほとんどの言語はリソース不足である。 ここでは、英語以外の言語ではほとんど、あるいは全くデータがない場合に、複数の異なる言語でのトレーニングモデルの設定を同時に検討する。 この挑戦的なセットアップはメタラーニングを使ってアプローチできることを示し、ソース言語モデルのトレーニングに加えて、他のモデルが最初に最も有益なトレーニングインスタンスを選択することを学ぶ。 自然言語理解タスク (自然言語推論, 質問応答) に対して, 標準教師あり, ゼロショットクロスリンガル, および少数ショットクロスリンガル設定を用いて実験を行った。 広範な実験により,15言語を対象としたメタラーニングの有効性が実証された。 我々はゼロショットと少数ショットNLI(MultiNLIとXNLI)とQA(MLQAデータセット)の最先端性を改善した。 包括的エラー分析は、メタラーニングによって学習されたパラメータ共有が有益である場合、言語間のタイプ論的特徴の相関が部分的に説明できることを示している。

Learning what to share between tasks has been a topic of great importance recently, as strategic sharing of knowledge has been shown to improve downstream task performance. This is particularly important for multilingual applications, as most languages in the world are under-resourced. Here, we consider the setting of training models on multiple different languages at the same time, when little or no data is available for languages other than English. We show that this challenging setup can be approached using meta-learning, where, in addition to training a source language model, another model learns to select which training instances are the most beneficial to the first. We experiment using standard supervised, zero-shot cross-lingual, as well as few-shot cross-lingual settings for different natural language understanding tasks (natural language inference, question answering). Our extensive experimental setup demonstrates the consistent effectiveness of meta-learning for a total of 15 languages. We improve upon the state-of-the-art for zero-shot and few-shot NLI (on MultiNLI and XNLI) and QA (on the MLQA dataset). A comprehensive error analysis indicates that the correlation of typological features between languages can partly explain when parameter sharing learned via meta-learning is beneficial.
翻訳日:2022-12-26 07:10:12 公開日:2020-10-05
# コンテキスト埋め込みとセルフアテンションを用いた感情分析

Sentiment Analysis with Contextual Embeddings and Self-Attention ( http://arxiv.org/abs/2003.05574v2 )

ライセンス: Link先を確認
Katarzyna Biesialska, Magdalena Biesialska and Henryk Rybinski(参考訳) 自然言語では、単語や句の意味は暗黙的であり、文脈に依存することが多い。 本研究では,文脈埋め込みと自己着脱機構を用いた感情分析の簡易かつ効果的な手法を提案する。 形態学的にリッチなポーランド語とドイツ語を含む3つの言語の実験結果から、我々のモデルは最先端のモデルに匹敵するか、さらに優れています。 いずれの場合も、文脈埋め込みを利用したモデルの優位性を示す。 最後に、本研究は、普遍的多言語感情分類器の導入に向けてのステップである。

In natural language the intended meaning of a word or phrase is often implicit and depends on the context. In this work, we propose a simple yet effective method for sentiment analysis using contextual embeddings and a self-attention mechanism. The experimental results for three languages, including morphologically rich Polish and German, show that our model is comparable to or even outperforms state-of-the-art models. In all cases the superiority of models leveraging contextual embeddings is demonstrated. Finally, this work is intended as a step towards introducing a universal, multilingual sentiment classifier.
翻訳日:2022-12-24 06:36:32 公開日:2020-10-05
# X線画像と深部畳み込みニューラルネットワークを用いたコロナウイルス病(COVID-19)の自動検出

Automatic Detection of Coronavirus Disease (COVID-19) Using X-ray Images and Deep Convolutional Neural Networks ( http://arxiv.org/abs/2003.10849v3 )

ライセンス: Link先を確認
Ali Narin, Ceren Kaya, Ziynet Pamuk(参考訳) 欧州疾病予防管理センターの統計によると、2019年の新型コロナウイルス感染症(COVID-19)は中国に始まり、他国で急速に拡大しており、世界中で約34,986,502人の患者に近づきつつある。 新型コロナウイルス(COVID-19)検査キットは毎日増えているため、病院では限られている。 したがって、新型コロナウイルスの感染拡大を防ぐために、迅速な代替診断オプションとして自動検出システムを実装する必要がある。 本研究では, 胸部X線写真を用いた肺炎患者検出のために, 事前訓練した5つの畳み込みニューラルネットワークモデル(ResNet50, ResNet101, ResNet152, InceptionV3, Inception-ResNetV2)を提案する。 5倍のクロス・バリデーションを用いて,4つのクラス(covid-19, normal (healthy), virus pneumonia, bacterium pneumonia)の3つの分類を行った。 得られた結果を踏まえると、事前訓練されたResNet50モデルは最も高い分類性能(Dataset-1の96.1%の精度、Dataset-2の99.5%の精度、Dataset-3の99.7%の精度)を提供する。

The 2019 novel coronavirus disease (COVID-19), with a starting point in China, has spread rapidly among people living in other countries, and is approaching approximately 34,986,502 cases worldwide according to the statistics of European Centre for Disease Prevention and Control. There are a limited number of COVID-19 test kits available in hospitals due to the increasing cases daily. Therefore, it is necessary to implement an automatic detection system as a quick alternative diagnosis option to prevent COVID-19 spreading among people. In this study, five pre-trained convolutional neural network based models (ResNet50, ResNet101, ResNet152, InceptionV3 and Inception-ResNetV2) have been proposed for the detection of coronavirus pneumonia infected patient using chest X-ray radiographs. We have implemented three different binary classifications with four classes (COVID-19, normal (healthy), viral pneumonia and bacterial pneumonia) by using 5-fold cross validation. Considering the performance results obtained, it has seen that the pre-trained ResNet50 model provides the highest classification performance (96.1% accuracy for Dataset-1, 99.5% accuracy for Dataset-2 and 99.7% accuracy for Dataset-3) among other four used models.
翻訳日:2022-12-20 08:50:50 公開日:2020-10-05
# ニューラルネットワーク翻訳のための最適な語彙サイズ探索

Finding the Optimal Vocabulary Size for Neural Machine Translation ( http://arxiv.org/abs/2004.02334v2 )

ライセンス: Link先を確認
Thamme Gowda, Jonathan May(参考訳) 自動回帰設定において,ニューラルネットワーク翻訳(NMT)を分類タスクとし,分類と自己回帰の両方の限界を解析した。 分類器は、トレーニング中にバランスのとれたクラス分布でパフォーマンスが向上することが知られている。 言語におけるZipfianの性質は不均衡なクラスを引き起こすので、NMTに対するその影響を探求する。 様々な語彙サイズがNMTの性能に与える影響を,複数のデータサイズを持つ言語で分析し,ある語彙サイズが他の言語よりも優れている理由を説明する。

We cast neural machine translation (NMT) as a classification task in an autoregressive setting and analyze the limitations of both classification and autoregression components. Classifiers are known to perform better with balanced class distributions during training. Since the Zipfian nature of languages causes imbalanced classes, we explore its effect on NMT. We analyze the effect of various vocabulary sizes on NMT performance on multiple languages with many data sizes, and reveal an explanation for why certain vocabulary sizes are better than others.
翻訳日:2022-12-16 12:01:02 公開日:2020-10-05
# 視覚・言語ナビゲーションのサブインストラクション

Sub-Instruction Aware Vision-and-Language Navigation ( http://arxiv.org/abs/2004.02707v2 )

ライセンス: Link先を確認
Yicong Hong, Cristian Rodriguez-Opazo, Qi Wu, Stephen Gould(参考訳) 視覚と言語によるナビゲーションには、エージェントが自然言語命令に従って実際の3d環境をナビゲートする必要がある。 重要な進歩にもかかわらず、視覚とテキストのシーケンス間の強い対応を十分に活用できる以前の作品はほとんどない。 一方、中間的な監督が欠如しているため、指示の各部分に従うエージェントのパフォーマンスはナビゲーション中に評価できない。 本研究では,視覚的および言語的シーケンスの粒度,および命令の完了によるエージェントのトレーサビリティに着目した。 トレーニング中に詳細なアノテーションをエージェントに提供し、より優れた指示に従うことができ、テスト時にターゲットに到達する確率が高いことを確認します。 ベンチマークデータセットであるRoom-to-Room(R2R)をサブインストラクションとそれに対応するパスで強化する。 このデータを活用するために,各時刻に1つのサブインストラクションを選択・参加する効果的なサブインストラクションアテンションアテンションおよびシフトモジュールを提案する。 サブ命令モジュールを4つの最先端エージェントに実装し,ベースラインモデルと比較し,提案手法が4つのエージェントすべての性能を向上させることを示す。 Fine-Grained R2Rデータセット(FGR2R)とhttps://github.com/YicongHong/Fine-Grained-R2Rのコードをリリースする。

Vision-and-language navigation requires an agent to navigate through a real 3D environment following natural language instructions. Despite significant advances, few previous works are able to fully utilize the strong correspondence between the visual and textual sequences. Meanwhile, due to the lack of intermediate supervision, the agent's performance at following each part of the instruction cannot be assessed during navigation. In this work, we focus on the granularity of the visual and language sequences as well as the traceability of agents through the completion of an instruction. We provide agents with fine-grained annotations during training and find that they are able to follow the instruction better and have a higher chance of reaching the target at test time. We enrich the benchmark dataset Room-to-Room (R2R) with sub-instructions and their corresponding paths. To make use of this data, we propose effective sub-instruction attention and shifting modules that select and attend to a single sub-instruction at each time-step. We implement our sub-instruction modules in four state-of-the-art agents, compare with their baseline models, and show that our proposed method improves the performance of all four agents. We release the Fine-Grained R2R dataset (FGR2R) and the code at https://github.com/YicongHong/Fine-Grained-R2R.
翻訳日:2022-12-16 07:04:55 公開日:2020-10-05
# スパーステキスト生成

Sparse Text Generation ( http://arxiv.org/abs/2004.02644v3 )

ライセンス: Link先を確認
Pedro Henrique Martins and Zita Marinho and Andr\'e F. T. Martins(参考訳) 現在の最先端テキストジェネレータは、gpt-2のような強力な言語モデル上に構築されており、素晴らしいパフォーマンスを実現している。 しかし、縮退するテキストを避けるためには、温度パラメータや、トップ$k$や核サンプリングのようなアドホックな切断技術を介して、修正ソフトマックスからサンプリングする必要がある。 これにより、トレーニングとテスト条件のミスマッチが発生します。 本稿では、最近導入されたentmax変換を用いて、ネイティブなスパース言語モデルのトレーニングとサンプルを行い、このミスマッチを回避する。 その結果、流布と一貫性、繰り返しの少ない、人間のテキストに近いn-gramの多様性の観点から、良好なパフォーマンスを持つテキストジェネレータが実現した。 モデルを評価するために,sparse 分布と truncated 分布を比較するために,$\epsilon$-perplexity,sparsemax スコア,jensen-shannon 分岐の3つの新しい指標を提案する。 ストーリーの完成と対話の生成における人間による評価実験は、entmaxサンプリングがより熱心でコヒーレントなストーリーや会話につながることを示している。

Current state-of-the-art text generators build on powerful language models such as GPT-2, achieving impressive performance. However, to avoid degenerate text, they require sampling from a modified softmax, via temperature parameters or ad-hoc truncation techniques, as in top-$k$ or nucleus sampling. This creates a mismatch between training and testing conditions. In this paper, we use the recently introduced entmax transformation to train and sample from a natively sparse language model, avoiding this mismatch. The result is a text generator with favorable performance in terms of fluency and consistency, fewer repetitions, and n-gram diversity closer to human text. In order to evaluate our model, we propose three new metrics for comparing sparse or truncated distributions: $\epsilon$-perplexity, sparsemax score, and Jensen-Shannon divergence. Human-evaluated experiments in story completion and dialogue generation show that entmax sampling leads to more engaging and coherent stories and conversations.
翻訳日:2022-12-16 06:36:03 公開日:2020-10-05
# バイトコードペアエンコーディングは言語モデルの事前学習に最適である

Byte Pair Encoding is Suboptimal for Language Model Pretraining ( http://arxiv.org/abs/2004.03720v2 )

ライセンス: Link先を確認
Kaj Bostrom and Greg Durrett(参考訳) 自然言語処理における事前学習型トランスフォーマー言語モデル(LM)の成功は、広範囲の事前学習設定につながった。 特にこれらのモデルは、バイトペア符号化 (bpe) (sennrich et al., 2016; gage, 1994)、ワードピース法 (schuster and nakajima, 2012)、ユニグラム言語モデリング (kudo, 2018) など、様々なサブワードトークン化手法を採用している。 しかし,本論文は,言語モデル事前学習におけるトークン化の影響を直接評価するものではない。 我々は,BPEと一グラムLMトークン化の違いを分析し,BPEの難解な建設手順から生じる問題を回避し,形態とより密接に整合したサブワード単位を復元する。 次に,これらのトークン化を事前学習した同一トランスフォーマーマスク言語モデルのタスク性能を比較する。 ダウンストリームタスクと2つの言語(英語と日本語)にまたがって、unigram lmトークン化メソッドがbpeと一致するか、より優れています。 我々は、将来の訓練済みlmsの開発者は、より一般的なbpeよりもunigram lmメソッドを採用することを検討することを望んでいる。

The success of pretrained transformer language models (LMs) in natural language processing has led to a wide range of pretraining setups. In particular, these models employ a variety of subword tokenization methods, most notably byte-pair encoding (BPE) (Sennrich et al., 2016; Gage, 1994), the WordPiece method (Schuster and Nakajima, 2012), and unigram language modeling (Kudo, 2018), to segment text. However, to the best of our knowledge, the literature does not contain a direct evaluation of the impact of tokenization on language model pretraining. We analyze differences between BPE and unigram LM tokenization, finding that the latter method recovers subword units that align more closely with morphology and avoids problems stemming from BPE's greedy construction procedure. We then compare the fine-tuned task performance of identical transformer masked language models pretrained with these tokenizations. Across downstream tasks and two languages (English and Japanese), we find that the unigram LM tokenization method matches or outperforms BPE. We hope that developers of future pretrained LMs will consider adopting the unigram LM method over the more prevalent BPE.
翻訳日:2022-12-16 00:07:26 公開日:2020-10-05
# KorNLIとKorSTS:韓国の自然言語理解のためのベンチマークデータセット

KorNLI and KorSTS: New Benchmark Datasets for Korean Natural Language Understanding ( http://arxiv.org/abs/2004.03289v3 )

ライセンス: Link先を確認
Jiyeon Ham, Yo Joong Choe, Kyubyong Park, Ilji Choi, Hyungjoon Soh(参考訳) 自然言語推論(NLI)と意味テキスト類似(STS)は、自然言語理解(NLU)において重要なタスクである。 これらのタスクのベンチマークデータセットは英語や他のいくつかの言語でリリースされているが、韓国語ではNLIやSTSデータセットが公開されていない。 そこで我々は,KorNLI と KorSTS と呼ばれる韓国の NLI と STS の新しいデータセットの構築とリリースを行った。 従来のアプローチに従って、既存の英語学習セットを機械翻訳し、手動で開発とテストセットを韓国語に翻訳する。 韓国のNLUの研究を加速するため,KorNLIとKorSTSのベースラインを構築した。 データセットはhttps://github.com/kakaobrain/KorNLUDatasetsで公開されています。

Natural language inference (NLI) and semantic textual similarity (STS) are key tasks in natural language understanding (NLU). Although several benchmark datasets for those tasks have been released in English and a few other languages, there are no publicly available NLI or STS datasets in the Korean language. Motivated by this, we construct and release new datasets for Korean NLI and STS, dubbed KorNLI and KorSTS, respectively. Following previous approaches, we machine-translate existing English training sets and manually translate development and test sets into Korean. To accelerate research on Korean NLU, we also establish baselines on KorNLI and KorSTS. Our datasets are publicly available at https://github.com/kakaobrain/KorNLUDatasets.
翻訳日:2022-12-15 23:58:50 公開日:2020-10-05
# 音楽生成のためのニューラルネットワークからディープラーニングへ -歴史・概念・動向-

From Artificial Neural Networks to Deep Learning for Music Generation -- History, Concepts and Trends ( http://arxiv.org/abs/2004.03586v2 )

ライセンス: Link先を確認
Jean-Pierre Briot(参考訳) 現在のディープラーニングの波(hyper-vitamined return of artificial neural networks)は、予測と分類(天気予報やパターン認識など)という従来の統計的機械学習タスクだけでなく、翻訳などの他の領域もすでに克服している。 応用分野の増大は、クリエイティブコンテンツの生成であり、特に音楽の場合、この論文のトピックである。 モチベーションは、任意の音楽コーパスから音楽のスタイルを自動的に学習し、推定分布から音楽のサンプルを生成し、その生成をある程度制御するために、現代のディープラーニング技術の能力を利用することである。 本稿では,ディープラーニング技術に基づく音楽生成のチュートリアルを提供する。 近年の研究では,音楽生成に人工ニューラルネットワークを用いた1980年代後半の初期の研究と,その先駆的貢献が現在の技術にどのような影響を及ぼしたかを分析した。 次に,関連する様々な概念や次元を分析するための概念枠組みを提案する。 最近のシステムの様々な例を紹介し分析し、様々な関心事や技術を説明する。

The current wave of deep learning (the hyper-vitamined return of artificial neural networks) applies not only to traditional statistical machine learning tasks: prediction and classification (e.g., for weather prediction and pattern recognition), but has already conquered other areas, such as translation. A growing area of application is the generation of creative content, notably the case of music, the topic of this paper. The motivation is in using the capacity of modern deep learning techniques to automatically learn musical styles from arbitrary musical corpora and then to generate musical samples from the estimated distribution, with some degree of control over the generation. This paper provides a tutorial on music generation based on deep learning techniques. After a short introduction to the topic illustrated by a recent exemple, the paper analyzes some early works from the late 1980s using artificial neural networks for music generation and how their pioneering contributions have prefigured current techniques. Then, we introduce some conceptual framework to analyze the various concepts and dimensions involved. Various examples of recent systems are introduced and analyzed to illustrate the variety of concerns and of techniques.
翻訳日:2022-12-15 23:39:53 公開日:2020-10-05
# 微調整を超えて:Few-Sample文の埋め込み転送

Beyond Fine-tuning: Few-Sample Sentence Embedding Transfer ( http://arxiv.org/abs/2004.05119v2 )

ライセンス: Link先を確認
Siddhant Garg, Rohit Kumar Sharma, Yingyu Liang(参考訳) 小データセットに事前訓練された文埋め込みモデルに制限があることが示されている。 本稿では,事前学習されたモデルと,対象データのみに基づいて訓練された単純な文埋め込みモデルとを結合することにより,FTの性能を向上できることを示す。 この目的のために、埋め込みモデルの重み付けを凍結するか、分類器を訓練し、エンドツーエンドにモデルを埋め込むことによって、線形分類器を組み合わせて訓練する。 我々は、NLPタスクから7つの小さなデータセットの評価を行い、エンドツーエンドのトレーニングによるアプローチが、FTを無視できない計算オーバーヘッドで上回ることを示す。 さらに,CCAやKCCAのような高度な組み合わせ技術は,実際には結合よりもうまく機能しないことを示す。 この経験的観察を説明するために理論的分析を行う。

Fine-tuning (FT) pre-trained sentence embedding models on small datasets has been shown to have limitations. In this paper we show that concatenating the embeddings from the pre-trained model with those from a simple sentence embedding model trained only on the target data, can improve over the performance of FT for few-sample tasks. To this end, a linear classifier is trained on the combined embeddings, either by freezing the embedding model weights or training the classifier and embedding models end-to-end. We perform evaluation on seven small datasets from NLP tasks and show that our approach with end-to-end training outperforms FT with negligible computational overhead. Further, we also show that sophisticated combination techniques like CCA and KCCA do not work as well in practice as concatenation. We provide theoretical analysis to explain this empirical observation.
翻訳日:2022-12-14 21:04:58 公開日:2020-10-05
# 知識蒸留を用いた単言語文埋め込み

Making Monolingual Sentence Embeddings Multilingual using Knowledge Distillation ( http://arxiv.org/abs/2004.09813v2 )

ライセンス: Link先を確認
Nils Reimers, Iryna Gurevych(参考訳) 既存の文埋め込みモデルを新しい言語に拡張する,簡単かつ効率的な手法を提案する。 これにより、以前の単言語モデルから多言語バージョンを作成することができる。 トレーニングは、翻訳文は、元の文と同じベクトル空間内の同じ位置にマッピングされるべきであるという考えに基づいている。 我々は、原文(単言語)モデルを用いて、原文の埋め込みを生成し、翻訳文に対する新しいシステムを訓練し、原文を模倣する。 比較的少数のサンプルで既存のモデルを新しい言語に拡張することが容易であり、ベクトル空間の望ましい性質を確実にすることが容易であり、トレーニングのハードウェア要件も低い。 各種言語ファミリーの50以上の言語に対するアプローチの有効性を実証する。 文埋め込みモデルを400以上の言語に拡張するコードも公開されている。

We present an easy and efficient method to extend existing sentence embedding models to new languages. This allows to create multilingual versions from previously monolingual models. The training is based on the idea that a translated sentence should be mapped to the same location in the vector space as the original sentence. We use the original (monolingual) model to generate sentence embeddings for the source language and then train a new system on translated sentences to mimic the original model. Compared to other methods for training multilingual sentence embeddings, this approach has several advantages: It is easy to extend existing models with relatively few samples to new languages, it is easier to ensure desired properties for the vector space, and the hardware requirements for training is lower. We demonstrate the effectiveness of our approach for 50+ languages from various language families. Code to extend sentence embeddings models to more than 400 languages is publicly available.
翻訳日:2022-12-11 06:47:37 公開日:2020-10-05
# AmbigQA: 曖昧なオープンドメインの質問に答える

AmbigQA: Answering Ambiguous Open-domain Questions ( http://arxiv.org/abs/2004.10645v2 )

ライセンス: Link先を確認
Sewon Min, Julian Michael, Hannaneh Hajishirzi, Luke Zettlemoyer(参考訳) あいまいさは、オープンドメインの質問応答に固有のものであり、特に新しいトピックを探索する場合、単一の明確な答えを持つ質問をすることは困難である。 本稿では,全回答の探索を含む新しいオープンドメイン質問応答タスクであるAmbigQAを紹介し,そのあいまいさを解決するために各質問の書き直しを行う。 本研究では,既存のオープンドメインQAベンチマークであるNQ-openから14,042の質問をカバーしたデータセットであるAmbigNQを構築する。 NQ-openの質問の半数以上が曖昧で、イベントやエンティティ参照といった曖昧さのさまざまなソースがある。 我々はまた、NQオープンを取り入れた弱教師付き学習の恩恵を示すAmbigQAの強力なベースラインモデルも提示する。 データとベースラインはhttps://nlp.cs.washington.edu/ambigqaで利用可能です。

Ambiguity is inherent to open-domain question answering; especially when exploring new topics, it can be difficult to ask questions that have a single, unambiguous answer. In this paper, we introduce AmbigQA, a new open-domain question answering task which involves finding every plausible answer, and then rewriting the question for each one to resolve the ambiguity. To study this task, we construct AmbigNQ, a dataset covering 14,042 questions from NQ-open, an existing open-domain QA benchmark. We find that over half of the questions in NQ-open are ambiguous, with diverse sources of ambiguity such as event and entity references. We also present strong baseline models for AmbigQA which we show benefit from weakly supervised learning that incorporates NQ-open, strongly suggesting our new task and data will support significant future research effort. Our data and baselines are available at https://nlp.cs.washington.edu/ambigqa.
翻訳日:2022-12-10 17:12:35 公開日:2020-10-05
# マルチモーダルルーティング:マルチモーダル言語解析のローカルおよびグローバル解釈性を改善する

Multimodal Routing: Improving Local and Global Interpretability of Multimodal Language Analysis ( http://arxiv.org/abs/2004.14198v2 )

ライセンス: Link先を確認
Yao-Hung Hubert Tsai, Martin Q. Ma, Muqiao Yang, Ruslan Salakhutdinov, and Louis-Philippe Morency(参考訳) 人間の言語は、声、顔のジェスチャー、話し言葉など、モダリティとして知られる複数の情報ソースを通じて表現することができる。 近年のマルチモーダル学習は感情分析や感情認識といった人間中心のタスクに強いパフォーマンスを持ち、解釈可能性は非常に限られている。 本稿では,各入力サンプルに対して,入力モダリティと出力表現の重み付けを動的に調整するマルチモーダルルーティングを提案する。 マルチモーダルルーティングは、個々のモダリティとクロスモダリティ機能の両方の相対的重要性を識別することができる。 さらに、ルーティングによる重み付けにより、グローバルなモダリティ-予測関係(すなわちデータセット全体の一般的な傾向)だけでなく、各入力サンプルに対して局所的に、最先端の手法と比較して競争性能を維持することができる。

The human language can be expressed through multiple sources of information known as modalities, including tones of voice, facial gestures, and spoken language. Recent multimodal learning with strong performances on human-centric tasks such as sentiment analysis and emotion recognition are often black-box, with very limited interpretability. In this paper we propose Multimodal Routing, which dynamically adjusts weights between input modalities and output representations differently for each input sample. Multimodal routing can identify relative importance of both individual modalities and cross-modality features. Moreover, the weight assignment by routing allows us to interpret modality-prediction relationships not only globally (i.e. general trends over the whole dataset), but also locally for each single input sample, meanwhile keeping competitive performance compared to state-of-the-art methods.
翻訳日:2022-12-08 13:42:31 公開日:2020-10-05
# テキストにおける宣言的知識と一階述語論理の活用によるプロパガンダ検出

Leveraging Declarative Knowledge in Text and First-Order Logic for Fine-Grained Propaganda Detection ( http://arxiv.org/abs/2004.14201v2 )

ライセンス: Link先を確認
Ruize Wang, Duyu Tang, Nan Duan, Wanjun Zhong, Zhongyu Wei, Xuanjing Huang, Daxin Jiang, Ming Zhou(参考訳) 本稿では,ニュース記事中のプロパガンダ的テキスト断片の検出について検討する。 トレーニングデータの入力出力データポイントから学習する代わりに、粒度の細かいプロパガンダ技術の宣言的知識を注入する手法を提案する。 具体的には、一階述語論理と自然言語の両方で表される宣言的知識を活用する。 前者は粗い予測ときめ細かい予測の間の論理的整合性を指し、これは命題のブール表現でトレーニングプロセスを規則化するために使われる。 後者は各プロパガンダ手法のリテラル定義を指し、モデルパラメータを正規化するためのクラス表現を得るために使用される。 精密なプロパガンダ検出のための手動注釈付きデータセットであるPropaganda Techniques Corpusについて実験を行った。 実験により,宣言的知識の活用によってモデルがより正確な予測を行うのに役立つことを示す。

We study the detection of propagandistic text fragments in news articles. Instead of merely learning from input-output datapoints in training data, we introduce an approach to inject declarative knowledge of fine-grained propaganda techniques. Specifically, we leverage the declarative knowledge expressed in both first-order logic and natural language. The former refers to the logical consistency between coarse- and fine-grained predictions, which is used to regularize the training process with propositional Boolean expressions. The latter refers to the literal definition of each propaganda technique, which is utilized to get class representations for regularizing the model parameters. We conduct experiments on Propaganda Techniques Corpus, a large manually annotated dataset for fine-grained propaganda detection. Experiments show that our method achieves superior performance, demonstrating that leveraging declarative knowledge can help the model to make more accurate predictions.
翻訳日:2022-12-08 13:00:02 公開日:2020-10-05
# 実用的課題感性画像キャプション

Pragmatic Issue-Sensitive Image Captioning ( http://arxiv.org/abs/2004.14451v2 )

ライセンス: Link先を確認
Allen Nie, Reuben Cohn-Gordon, and Christopher Potts(参考訳) 画像キャプションシステムは最近劇的に改善されているが、キャプションが満たすべきコミュニケーション目標に敏感なキャプションを生成する傾向がある。 この問題に対処するため,Issue-Sensitive Image Captioning (ISIC)を提案する。 ISICでは、意味のある情報を特定する方法で分割された画像の集合である、ターゲット画像とイシューをキャプションシステムに付与する。 キャプションの目標は、この問題を解決するキャプションを作ることである。 このタスクをモデル化するために,実践的な言語使用のRational Speech Actsモデルを拡張した。 私たちの拡張は、最先端のトレーニング済みのニューラルイメージキャプタと、私たちの意味での問題に関する明確な理由の上に構築されています。 我々は,これらのモデルが,非常に記述的かつ問題に敏感なキャプションを生成できることを実験的に証明し,ISICが視覚質問応答の関連タスクをどのように補完し,強化するかを示す。

Image captioning systems have recently improved dramatically, but they still tend to produce captions that are insensitive to the communicative goals that captions should meet. To address this, we propose Issue-Sensitive Image Captioning (ISIC). In ISIC, a captioning system is given a target image and an issue, which is a set of images partitioned in a way that specifies what information is relevant. The goal of the captioner is to produce a caption that resolves this issue. To model this task, we use an extension of the Rational Speech Acts model of pragmatic language use. Our extension is built on top of state-of-the-art pretrained neural image captioners and explicitly reasons about issues in our sense. We establish experimentally that these models generate captions that are both highly descriptive and issue-sensitive, and we show how ISIC can complement and enrich the related task of Visual Question Answering.
翻訳日:2022-12-08 12:39:52 公開日:2020-10-05
# textattack: nlpにおけるadversarial attack, data augmentation, adversarial trainingのためのフレームワーク

TextAttack: A Framework for Adversarial Attacks, Data Augmentation, and Adversarial Training in NLP ( http://arxiv.org/abs/2005.05909v4 )

ライセンス: Link先を確認
John X. Morris, Eli Lifland, Jin Yong Yoo, Jake Grigsby, Di Jin and Yanjun Qi(参考訳) nlpモデルの解析に敵意攻撃を用いる研究が盛んに行われているが、それぞれの攻撃は自身のコードリポジトリに実装されている。 NLP攻撃を開発し、それを利用してモデル性能を改善することは依然として困難である。 本稿では,NLPにおける逆攻撃,データ拡張,および逆トレーニングのためのPythonフレームワークであるTextAttackを紹介する。 TextAttackは、ゴール関数、制約のセット、変換、検索メソッドの4つのコンポーネントから攻撃を構築する。 TextAttackのモジュール設計により、研究者は新しいコンポーネントと既存のコンポーネントの組み合わせから簡単に攻撃を構築できる。 TextAttackは文学からの16の敵攻撃の実装を提供し、BERTや他のトランスフォーマーを含むさまざまなモデルとデータセット、およびすべてのGLUEタスクをサポートする。 TextAttackには、モデル精度と堅牢性を改善するために、逆攻撃のコンポーネントを使用するデータ拡張と逆トレーニングモジュールも含まれている。 TextAttackは、NLPを民主化している。誰でも、ほんの数行のコードで、どんなモデルやデータセットでも、データ拡張と逆トレーニングを試すことができる。 コードとチュートリアルはhttps://github.com/qdata/textattack.com/で入手できる。

While there has been substantial research using adversarial attacks to analyze NLP models, each attack is implemented in its own code repository. It remains challenging to develop NLP attacks and utilize them to improve model performance. This paper introduces TextAttack, a Python framework for adversarial attacks, data augmentation, and adversarial training in NLP. TextAttack builds attacks from four components: a goal function, a set of constraints, a transformation, and a search method. TextAttack's modular design enables researchers to easily construct attacks from combinations of novel and existing components. TextAttack provides implementations of 16 adversarial attacks from the literature and supports a variety of models and datasets, including BERT and other transformers, and all GLUE tasks. TextAttack also includes data augmentation and adversarial training modules for using components of adversarial attacks to improve model accuracy and robustness. TextAttack is democratizing NLP: anyone can try data augmentation and adversarial training on any model or dataset, with just a few lines of code. Code and tutorials are available at https://github.com/QData/TextAttack.
翻訳日:2022-12-08 10:07:40 公開日:2020-10-05
# グラフニューラルネットワークからリンクを盗む

Stealing Links from Graph Neural Networks ( http://arxiv.org/abs/2005.02131v2 )

ライセンス: Link先を確認
Xinlei He and Jinyuan Jia and Michael Backes and Neil Zhenqiang Gong and Yang Zhang(参考訳) 化学ネットワークやソーシャルネットワークなどのグラフデータは、データ所有者がデータ収集に多くのリソースを費やしたり、機密情報(例えば社会関係など)を格納したりするため、機密/プライベートとみなされることがある。 近年、ニューラルネットワークはグラフニューラルネットワーク(GNN)として知られるグラフデータに拡張されている。 優れたパフォーマンスのため、GNNは医療分析、レコメンダシステム、不正検出など多くのアプリケーションを持っている。 本研究では,グラフ上でトレーニングされたGNNモデルの出力からグラフを盗む最初の攻撃を提案する。 具体的には、gnnモデルへのブラックボックスアクセスを考えると、モデルトレーニングに使用するグラフの任意のノード間のリンクが存在するかどうかを推測できます。 私たちは攻撃を盗みとリンクする攻撃と呼ぶ。 本研究では,敵の背景知識を3次元に沿って体系的に特徴付ける脅威モデルを提案する。 これら8つの攻撃を実現するための新しい手法を提案する。 8つの実世界のデータセットに関する広範囲な実験は、複数のケースでauc(roc曲線下の領域)が0.95以上のリンクを盗むのに有効であることを示している。 この結果から,GNNモデルの出力は,モデルのトレーニングに使用されるグラフの構造に関する豊富な情報を示すことがわかった。

Graph data, such as chemical networks and social networks, may be deemed confidential/private because the data owner often spends lots of resources collecting the data or the data contains sensitive information, e.g., social relationships. Recently, neural networks were extended to graph data, which are known as graph neural networks (GNNs). Due to their superior performance, GNNs have many applications, such as healthcare analytics, recommender systems, and fraud detection. In this work, we propose the first attacks to steal a graph from the outputs of a GNN model that is trained on the graph. Specifically, given a black-box access to a GNN model, our attacks can infer whether there exists a link between any pair of nodes in the graph used to train the model. We call our attacks link stealing attacks. We propose a threat model to systematically characterize an adversary's background knowledge along three dimensions which in total leads to a comprehensive taxonomy of 8 different link stealing attacks. We propose multiple novel methods to realize these 8 attacks. Extensive experiments on 8 real-world datasets show that our attacks are effective at stealing links, e.g., AUC (area under the ROC curve) is above 0.95 in multiple cases. Our results indicate that the outputs of a GNN model reveal rich information about the structure of the graph used to train the model.
翻訳日:2022-12-06 14:45:00 公開日:2020-10-05
# JDI-T:明示的アライメントを伴わないテキスト音声変換器

JDI-T: Jointly trained Duration Informed Transformer for Text-To-Speech without Explicit Alignment ( http://arxiv.org/abs/2005.07799v3 )

ライセンス: Link先を確認
Dan Lim, Won Jang, Gyeonghwan O, Heayoung Park, Bongwan Kim, Jaesam Yoon(参考訳) 本研究では、入力テキストから音響特徴系列を生成するために、時間予測器を明示的なアライメントなしで協調訓練したフィードフォワード変換器(JDI-T)を提案する。 本研究は,fastspeechやdurianのような継続時間情報ネットワークが最近成功したことに触発され,単段トレーニングに逐次的かつ2段階のトレーニングパイプラインをさらに単純化する。 具体的には, 自己回帰モデルの事前学習に代えて, 自己回帰トランスフォーマから音素持続時間を抽出するとともに, 音素持続時間抽出器として使用する。 我々の知る限り、単一の訓練パイプラインにおいて事前訓練された音素時間抽出器に頼ることなくフィードフォワード変換器を共同で訓練する最初の実装である。 ESPnet-TTSにより訓練されたベースライン音声合成(TTS)モデルと比較して,提案モデルの有効性を評価する。

We propose Jointly trained Duration Informed Transformer (JDI-T), a feed-forward Transformer with a duration predictor jointly trained without explicit alignments in order to generate an acoustic feature sequence from an input text. In this work, inspired by the recent success of the duration informed networks such as FastSpeech and DurIAN, we further simplify its sequential, two-stage training pipeline to a single-stage training. Specifically, we extract the phoneme duration from the autoregressive Transformer on the fly during the joint training instead of pretraining the autoregressive model and using it as a phoneme duration extractor. To our best knowledge, it is the first implementation to jointly train the feed-forward Transformer without relying on a pre-trained phoneme duration extractor in a single training pipeline. We evaluate the effectiveness of the proposed model on the publicly available Korean Single speaker Speech (KSS) dataset compared to the baseline text-to-speech (TTS) models trained by ESPnet-TTS.
翻訳日:2022-12-02 22:44:13 公開日:2020-10-05
# エンコーダデコーダを用いた未知話者数に対するエンドツーエンド話者ダイアリゼーション

End-to-End Speaker Diarization for an Unknown Number of Speakers with Encoder-Decoder Based Attractors ( http://arxiv.org/abs/2005.09921v3 )

ライセンス: Link先を確認
Shota Horiguchi, Yusuke Fujita, Shinji Watanabe, Yawen Xue, Kenji Nagamatsu(参考訳) 本稿では,未知数の話者に対するエンドツーエンド話者ダイアリゼーションについて述べる。 最近提案されたエンドツーエンドの話者ダイアリゼーションは、従来のクラスタリングベースの話者ダイアリゼーションよりも優れているが、ひとつの欠点がある。 本稿では,まず音声埋め込みシーケンスからフレキシブルなアトラクタ数を生成するエンコーダ・デコーダに基づくアトラクタ計算(eda)手法を提案する。 そして、生成された複数のアトラクタを音声埋め込みシーケンスに乗じて、同一数の話者アクティビティを生成する。 従来の自己注意型エンドツーエンドニューラルネットワークダイアリゼーション(sa-eend)ネットワークを用いて音声埋め込みシーケンスを抽出する。 2話者条件下では,シミュレーション混合物上で2.69 %ダイアリゼーション誤差率 (der) を,callhome の2話者サブセットに対して8.07 %,vanilla sa-eend が4.56 %,9.54 %をそれぞれ達成した。 話者条件が不明な場合には,callhomeでは15.29 %,x-vectorベースのクラスタリングでは19.43 %であった。

End-to-end speaker diarization for an unknown number of speakers is addressed in this paper. Recently proposed end-to-end speaker diarization outperformed conventional clustering-based speaker diarization, but it has one drawback: it is less flexible in terms of the number of speakers. This paper proposes a method for encoder-decoder based attractor calculation (EDA), which first generates a flexible number of attractors from a speech embedding sequence. Then, the generated multiple attractors are multiplied by the speech embedding sequence to produce the same number of speaker activities. The speech embedding sequence is extracted using the conventional self-attentive end-to-end neural speaker diarization (SA-EEND) network. In a two-speaker condition, our method achieved a 2.69 % diarization error rate (DER) on simulated mixtures and a 8.07 % DER on the two-speaker subset of CALLHOME, while vanilla SA-EEND attained 4.56 % and 9.54 %, respectively. In unknown numbers of speakers conditions, our method attained a 15.29 % DER on CALLHOME, while the x-vector-based clustering method achieved a 19.43 % DER.
翻訳日:2022-12-01 05:58:25 公開日:2020-10-05
# BERTweet: 英語ツイートのための事前訓練された言語モデル

BERTweet: A pre-trained language model for English Tweets ( http://arxiv.org/abs/2005.10200v2 )

ライセンス: Link先を確認
Dat Quoc Nguyen, Thanh Vu and Anh Tuan Nguyen(参考訳) BERTweetは、英語のつぶやきのための、最初の大規模事前訓練型言語モデルである。 BERTweetはBERTベース(Devlin et al., 2019)と同じアーキテクチャで、RoBERTa事前トレーニング手順(Liu et al., 2019)を使ってトレーニングされています。 実験の結果、BERTweetはRoBERTa-baseとXLM-R-base(Conneau et al., 2020)の強力なベースラインよりも優れており、3つのつぶやきNLPタスクにおける従来の最先端モデルよりも優れたパフォーマンスを実現している。 我々は、今後のつぶやきデータの研究と応用を容易にするために、MITライセンス下でBERTweetをリリースします。 私たちのBERTweetはhttps://github.com/VinAIResearch/BERTweetで利用可能です。

We present BERTweet, the first public large-scale pre-trained language model for English Tweets. Our BERTweet, having the same architecture as BERT-base (Devlin et al., 2019), is trained using the RoBERTa pre-training procedure (Liu et al., 2019). Experiments show that BERTweet outperforms strong baselines RoBERTa-base and XLM-R-base (Conneau et al., 2020), producing better performance results than the previous state-of-the-art models on three Tweet NLP tasks: Part-of-speech tagging, Named-entity recognition and text classification. We release BERTweet under the MIT License to facilitate future research and applications on Tweet data. Our BERTweet is available at https://github.com/VinAIResearch/BERTweet
翻訳日:2022-12-01 04:38:42 公開日:2020-10-05
# ニューラルシーケンスモデリングにおけるタスク損失最小化のためのMLE誘導パラメータ探索

MLE-guided parameter search for task loss minimization in neural sequence modeling ( http://arxiv.org/abs/2006.03158v2 )

ライセンス: Link先を確認
Sean Welleck, Kyunghyun Cho(参考訳) ニューラル自己回帰シーケンスモデルは、さまざまな自然言語処理(NLP)タスクのシーケンスを生成するために使用され、シーケンスレベルのタスク損失に応じて評価される。 これらのモデルは通常、最大推定で訓練されるが、これはタスクの損失を無視するが、実証的には代理目的と同様に機能する。 方針勾配や最小リスクトレーニングなどのタスク損失を直接最適化するための典型的なアプローチは、シーケンス空間のサンプリングに基づいて、単一のシーケンスの損失に基づいて得られた候補更新方向を取得する。 本稿では,パラメータ空間におけるランダム探索に基づく,最大ラピッド勾配へのアクセスを利用した代替手法を提案する。 そこで本研究では,現在のパラメータ周辺のランダムな探索と最大度勾配の混合である更新方向の分布から,タスク損失の改善による各方向の重み付けを行った最大度誘導パラメータ探索(mgs)を提案する。 MGSはサンプリングをパラメータ空間にシフトし、複数のシーケンスからプールされた損失を使って候補をスコアする。 以上の結果から,MGS は,機械翻訳における最小リスクトレーニングに比べて,繰り返しや非終端を著しく低減し,シーケンスレベルの損失を最適化できることがわかった。

Neural autoregressive sequence models are used to generate sequences in a variety of natural language processing (NLP) tasks, where they are evaluated according to sequence-level task losses. These models are typically trained with maximum likelihood estimation, which ignores the task loss, yet empirically performs well as a surrogate objective. Typical approaches to directly optimizing the task loss such as policy gradient and minimum risk training are based around sampling in the sequence space to obtain candidate update directions that are scored based on the loss of a single sequence. In this paper, we develop an alternative method based on random search in the parameter space that leverages access to the maximum likelihood gradient. We propose maximum likelihood guided parameter search (MGS), which samples from a distribution over update directions that is a mixture of random search around the current parameters and around the maximum likelihood gradient, with each direction weighted by its improvement in the task loss. MGS shifts sampling to the parameter space, and scores candidates using losses that are pooled from multiple sequences. Our experiments show that MGS is capable of optimizing sequence-level losses, with substantial reductions in repetition and non-termination in sequence completion, and similar improvements to those of minimum risk training in machine translation.
翻訳日:2022-11-25 09:33:37 公開日:2020-10-05
# 任意計算グラフによる予測符号化近似

Predictive Coding Approximates Backprop along Arbitrary Computation Graphs ( http://arxiv.org/abs/2006.04182v5 )

ライセンス: Link先を確認
Beren Millidge, Alexander Tschantz, Christopher L. Buckley(参考訳) backpropagation of error(バックプロップ)は、エンドツーエンドの差別化を通じて機械学習アーキテクチャをトレーニングするための強力なアルゴリズムである。 しかし、バックプロップは生物学的な可能性に欠けるとしてしばしば批判される。 近年,多層パーセプトロン(MLP)のバックプロップは,局所的およびヘビ的更新のみに依存する皮質計算の生物学的に証明可能なプロセス理論である予測符号化を用いて近似できることが示されている。 しかしバックプロップのパワーは、mlpのインスタンス化ではなく、計算グラフとして表現された任意の微分可能プログラムの最適化を可能にする自動微分の概念にある。 ここでは、予測符号化が漸近的に(実際は)局所学習規則のみを用いて任意の計算グラフ上の正確なバックプロップ勾配に収束することを示す。 この結果を用いて、コア機械学習アーキテクチャを予測的符号化等価値に変換するための簡単な戦略を開発する。 我々は,非層状分岐グラフ構造と乗法的相互作用を含む予測符号化CNN,RNN,およびより複雑なLSTMを構築する。 私たちのモデルは、ローカルおよび(主に)ヘビアン可塑性のみを活用しながら、挑戦的な機械学習ベンチマークのバックプロップと同等に動作します。 本手法は,ニューラルネットワークに標準機械学習アルゴリズムを直接実装できる可能性を高め,また,完全に分散したニューロモルフィックアーキテクチャの開発にも寄与する可能性がある。

Backpropagation of error (backprop) is a powerful algorithm for training machine learning architectures through end-to-end differentiation. However, backprop is often criticised for lacking biological plausibility. Recently, it has been shown that backprop in multilayer-perceptrons (MLPs) can be approximated using predictive coding, a biologically-plausible process theory of cortical computation which relies only on local and Hebbian updates. The power of backprop, however, lies not in its instantiation in MLPs, but rather in the concept of automatic differentiation which allows for the optimisation of any differentiable program expressed as a computation graph. Here, we demonstrate that predictive coding converges asymptotically (and in practice rapidly) to exact backprop gradients on arbitrary computation graphs using only local learning rules. We apply this result to develop a straightforward strategy to translate core machine learning architectures into their predictive coding equivalents. We construct predictive coding CNNs, RNNs, and the more complex LSTMs, which include a non-layer-like branching internal graph structure and multiplicative interactions. Our models perform equivalently to backprop on challenging machine learning benchmarks, while utilising only local and (mostly) Hebbian plasticity. Our method raises the potential that standard machine learning algorithms could in principle be directly implemented in neural circuitry, and may also contribute to the development of completely distributed neuromorphic architectures.
翻訳日:2022-11-24 07:21:46 公開日:2020-10-05
# 非確率制御を確率的に簡単にする(ほとんど)

Making Non-Stochastic Control (Almost) as Easy as Stochastic ( http://arxiv.org/abs/2006.05910v2 )

ライセンス: Link先を確認
Max Simchowitz(参考訳) 近年の文献では、学習者が完全な観測状態を持つ未知の線形力学系を最適に制御しようとする古典的制御問題の現代的学習論的考察である \emph{online lqr}: a modern learning-theoretic take on the classical control problem の理解に多くの進歩がある。 現在、時間的地平線上での最適後悔は、最適制御法則に対して$T$であり、$\widetilde{\Theta}(\sqrt{T})$である。 本稿では,より一般的な非定型制御モデルにおいても,同一の後悔率(適切なベンチマークの場合)が達成可能であること,また,システムには<emph{arbitrary adversarial} ノイズ (agarwal et al. 2019) があることを示す。 言い換えれば、'emph{stochasticity' はオンライン LQR の利点をほとんど示さない。 最適の$\widetilde{\mathcal{O}}(\sqrt{T})$ regretは、学習者にとってダイナミクスが未知のときに、$\mathrm{poly}(\log T)$ regretは、コスト関数が(LQRのように)強く凸であることを保証する。 提案手法はオンラインニュートンステップ (hazan et al. 2007) の新たな変種に基づき, 逆行性障害によって引き起こされる幾何構造に適応し, oco-with-memory framework (anava et al. 2015) における構造的損失に対する汎用的 "policy regret" 境界に依拠する。 さらに,本研究は,非確率的制御設定の完全汎用性,すなわち,対角的選択コスト,部分的状態観察,全対角的プロセスと観測ノイズについて評価した。

Recent literature has made much progress in understanding \emph{online LQR}: a modern learning-theoretic take on the classical control problem in which a learner attempts to optimally control an unknown linear dynamical system with fully observed state, perturbed by i.i.d. Gaussian noise. It is now understood that the optimal regret on time horizon $T$ against the optimal control law scales as $\widetilde{\Theta}(\sqrt{T})$. In this paper, we show that the same regret rate (against a suitable benchmark) is attainable even in the considerably more general non-stochastic control model, where the system is driven by \emph{arbitrary adversarial} noise (Agarwal et al. 2019). In other words, \emph{stochasticity confers little benefit in online LQR}. We attain the optimal $\widetilde{\mathcal{O}}(\sqrt{T})$ regret when the dynamics are unknown to the learner, and $\mathrm{poly}(\log T)$ regret when known, provided that the cost functions are strongly convex (as in LQR). Our algorithm is based on a novel variant of online Newton step (Hazan et al. 2007), which adapts to the geometry induced by possibly adversarial disturbances, and our analysis hinges on generic "policy regret" bounds for certain structured losses in the OCO-with-memory framework (Anava et al. 2015). Moreover, our results accomodate the full generality of the non-stochastic control setting: adversarially chosen (possibly non-quadratic) costs, partial state observation, and fully adversarial process and observation noise.
翻訳日:2022-11-23 05:05:06 公開日:2020-10-05
# 有効抵抗に基づくグラフスパーシフィケーションを用いた高速グラフアテンションネットワーク

Fast Graph Attention Networks Using Effective Resistance Based Graph Sparsification ( http://arxiv.org/abs/2006.08796v3 )

ライセンス: Link先を確認
Rakshith S Srinivasa, Cao Xiao, Lucas Glass, Justin Romberg, Jimeng Sun(参考訳) 注意機構はグラフニューラルネットワーク(gnns)のノード上での推論において優れた性能を示しているが、トレーニングと推論の両方において高い計算負荷をもたらす。 本稿では、スペクトルスペーシフィケーションを用いて注目に基づくGNNを軽量にし、入力グラフの最適プルーニングを生成するFastGATを提案する。 これにより、二次ではなくグラフノード数でほぼ線形である時間当たりの時間が得られる。 理論的には、スペクトルスパーシフィケーションはgatモデルによって計算された特徴を保存し、アルゴリズムを正当化する。 ノード分類タスクのための大規模実世界グラフデータセットのfastgatをインダクティブ設定とトランスダクティブ設定の両方で実験的に評価した。 fastgatは計算時間とメモリ要件を劇的に削減し(最大で \textbf{10x})、大きなグラフで注意に基づくgnnを使用することを可能にする。

The attention mechanism has demonstrated superior performance for inference over nodes in graph neural networks (GNNs), however, they result in a high computational burden during both training and inference. We propose FastGAT, a method to make attention based GNNs lightweight by using spectral sparsification to generate an optimal pruning of the input graph. This results in a per-epoch time that is almost linear in the number of graph nodes as opposed to quadratic. We theoretically prove that spectral sparsification preserves the features computed by the GAT model, thereby justifying our algorithm. We experimentally evaluate FastGAT on several large real world graph datasets for node classification tasks under both inductive and transductive settings. FastGAT can dramatically reduce (up to \textbf{10x}) the computational time and memory requirements, allowing the usage of attention based GNNs on large graphs.
翻訳日:2022-11-21 03:34:27 公開日:2020-10-05
# 実用的圧縮画像復元のための生成パッチプリエント

Generative Patch Priors for Practical Compressive Image Recovery ( http://arxiv.org/abs/2006.10873v2 )

ライセンス: Link先を確認
Rushil Anirudh, Suhas Lohit, Pavan Turaga(参考訳) 本稿では, 圧縮画像の再生に先立って生成するGPP (Generative patch prior) について, パッチ・マニフォールドモデルに基づいて提案する。 事前訓練されたジェネレータの範囲に制限された学習された画像レベルのプリエントとは異なり、GPPは事前訓練されたパッチジェネレータを使用して様々な自然なイメージを復元することができる。 さらに、GPPは、非常に低い感度で高い再構成品質などの生成前の利点を保ちつつ、より一般的に適用できる。 GPPは、既知の未知のキャリブレーション設定による線形圧縮センシングと非線形位相探索問題という、3つの異なるセンシングモデルにおいて、教師なしおよび教師なしの技術よりも優れていることを示す。 最後に,実世界の複数のベースラインに対して好適に動作し,非共役圧縮センシングデータセットに対してgppを用いた交互最適化手法を提案する。

In this paper, we propose the generative patch prior (GPP) that defines a generative prior for compressive image recovery, based on patch-manifold models. Unlike learned, image-level priors that are restricted to the range space of a pre-trained generator, GPP can recover a wide variety of natural images using a pre-trained patch generator. Additionally, GPP retains the benefits of generative priors like high reconstruction quality at extremely low sensing rates, while also being much more generally applicable. We show that GPP outperforms several unsupervised and supervised techniques on three different sensing models -- linear compressive sensing with known, and unknown calibration settings, and the non-linear phase retrieval problem. Finally, we propose an alternating optimization strategy using GPP for joint calibration-and-reconstruction which performs favorably against several baselines on a real world, un-calibrated compressive sensing dataset.
翻訳日:2022-11-19 13:24:47 公開日:2020-10-05
# GMMLOC:ガウス混合モデルを用いた構造整合視覚像定位

GMMLoc: Structure Consistent Visual Localization with Gaussian Mixture Models ( http://arxiv.org/abs/2006.13670v2 )

ライセンス: Link先を確認
Huaiyang Huang, Haoyang Ye, Yuxiang Sun, Ming Liu(参考訳) 視覚状態推定に事前構造情報を組み込むことで、局所化性能が向上する。 本稿では,視覚因子と構造制約の結合における精度と効率のパラドックスに対処することを目的とする。 そこで本研究では,Gaussian Mixture Model (GMM) によってモデル化された先行マップにおけるカメラ追跡を行う。 まず、正面から推定されるポーズにより、局所的な視覚観察と地図成分を効率的に関連付け、三角測量からの視覚構造を同時に洗練する。 ジョイント最適化にハイブリッド構造因子を導入することにより、カメラポーズは局所視覚構造とバンドル調整される。 公開データセット上での完全なシステム,すなわちGMMLocを評価することで,簡単な計算オーバーヘッドのみでセンチメートルレベルのローカライズ精度を提供できることを示す。 また,最先端の視覚優位状態推定器との比較研究により,本手法の競争力が示された。

Incorporating prior structure information into the visual state estimation could generally improve the localization performance. In this letter, we aim to address the paradox between accuracy and efficiency in coupling visual factors with structure constraints. To this end, we present a cross-modality method that tracks a camera in a prior map modelled by the Gaussian Mixture Model (GMM). With the pose estimated by the front-end initially, the local visual observations and map components are associated efficiently, and the visual structure from the triangulation is refined simultaneously. By introducing the hybrid structure factors into the joint optimization, the camera poses are bundle-adjusted with the local visual structure. By evaluating our complete system, namely GMMLoc, on the public dataset, we show how our system can provide a centimeter-level localization accuracy with only trivial computational overhead. In addition, the comparative studies with the state-of-the-art vision-dominant state estimators demonstrate the competitive performance of our method.
翻訳日:2022-11-17 13:16:08 公開日:2020-10-05
# ハード2次元タスクのためのマトリックスシャッフル交換ネットワーク

Matrix Shuffle-Exchange Networks for Hard 2D Tasks ( http://arxiv.org/abs/2006.15892v2 )

ライセンス: Link先を確認
Em\=ils Ozoli\c{n}\v{s}, K\=arlis Freivalds, Agris \v{S}ostaks(参考訳) 畳み込みニューラルネットワークは、2次元データを処理する主要なツールとなっている。 画像ではうまく機能するが、畳み込みには、より複雑な2dタスクへの応用を妨げる、限定的な受容領域がある。 本稿では,2次元データにおける長距離依存を効率的に活用し,畳み込みニューラルネットワークと同等の速度で処理できる,Matrix Shuffle-Exchange Networkと呼ばれるニューラルモデルを提案する。 Neural Shuffle-Exchangeネットワークから派生したもので、$\mathcal{O}( \log{n})$ layerと$\mathcal{O}( n^2 \log{n})$ total time and space complexity for processing a $n \times n$ data matrixがある。 行列のシャッフル交換ネットワークは、畳み込みおよびグラフニューラルネットワークのベースラインを超える行列および密グラフのアルゴリズム的および論理的推論タスクに適していることを示す。 その明確な利点は、より大きなインスタンスに一般化する際に完全な長距離依存性モデリングを保持する能力である。

Convolutional neural networks have become the main tools for processing two-dimensional data. They work well for images, yet convolutions have a limited receptive field that prevents its applications to more complex 2D tasks. We propose a new neural model, called Matrix Shuffle-Exchange network, that can efficiently exploit long-range dependencies in 2D data and has comparable speed to a convolutional neural network. It is derived from Neural Shuffle-Exchange network and has $\mathcal{O}( \log{n})$ layers and $\mathcal{O}( n^2 \log{n})$ total time and space complexity for processing a $n \times n$ data matrix. We show that the Matrix Shuffle-Exchange network is well-suited for algorithmic and logical reasoning tasks on matrices and dense graphs, exceeding convolutional and graph neural network baselines. Its distinct advantage is the capability of retaining full long-range dependency modelling when generalizing to larger instances - much larger than could be processed with models equipped with a dense attention mechanism.
翻訳日:2022-11-15 13:36:03 公開日:2020-10-05
# 効率的なモータ学習のためのエンドエフェクト探索ドライブ

End-Effect Exploration Drive for Effective Motor Learning ( http://arxiv.org/abs/2006.15960v2 )

ライセンス: Link先を確認
Emmanuel Dauc\'e(参考訳) 強化学習における鍵となる目的は効果のターゲット分布を逆転させることであり、明確な前方モデルがない場合にゴール指向の運動学習を実現する効果的な方法としてエンドエフェクトドライブを提案する。 エンドエフェクトモデルは、現在のポリシーの効果の単純な統計記録に依存しており、ここではよりリソースを要求されるフォワードモデルの代用として使用される。 報酬構造と組み合わせると、軽量な変動自由エネルギー最小化装置のコアとなる。 主な難点は、この単純化された効果モデルの維持と、ポリシーのオンライン更新である。 事前の目標分布が均一であれば、本質的な好奇心の原則と一貫して、効率的な探索政策を学ぶ方法を提供する。 極端な報酬と組み合わせることで、我々のアプローチは、従来のオフポリシーのテクニックよりも高速なトレーニングを提供することが示されます。

Stemming on the idea that a key objective in reinforcement learning is to invert a target distribution of effects, end-effect drives are proposed as an effective way to implement goal-directed motor learning, in the absence of an explicit forward model. An end-effect model relies on a simple statistical recording of the effect of the current policy, here used as a substitute for the more resource-demanding forward models. When combined with a reward structure, it forms the core of a lightweight variational free energy minimization setup. The main difficulty lies in the maintenance of this simplified effect model together with the online update of the policy. When the prior target distribution is uniform, it provides a ways to learn an efficient exploration policy, consistently with the intrinsic curiosity principles. When combined with an extrinsic reward, our approach is finally shown to provide a faster training than traditional off-policy techniques.
翻訳日:2022-11-15 13:29:34 公開日:2020-10-05
# 大規模臨床データセットにおけるトラジェクトリー、ビフルケーション、擬似時間:心筋梗塞および糖尿病データへの応用

Trajectories, bifurcations and pseudotime in large clinical datasets: applications to myocardial infarction and diabetes data ( http://arxiv.org/abs/2007.03788v2 )

ライセンス: Link先を確認
Sergey E. Golovenkin, Jonathan Bac, Alexander Chervov, Evgeny M. Mirkes, Yuliya V. Orlova, Emmanuel Barillot, Alexander N. Gorban, and Andrei Zinovyev(参考訳) 大規模な臨床データセットは、様々な病原体間の鉱業関係や投与療法に利用できるようになる。 これらのデータセットは、いくつかのステレオ典型的経路を通じて具体的な病理が発達する可能性のある全ての疾患条件の風景の表現と見なすことができ、それらは「無帰点」と「最終状態」(致死状態や回復状態など)によって特徴づけられる。 この情報をデータから直接抽出することは、特に(短期的なフォローアップを伴う)同期観測の場合、難しい課題である。 本稿では, 幾何データ構造を分岐型臨床軌跡の花束としてモデル化し, 複合データ型と欠落値によって特徴付けられる, 大規模臨床データセットの分析のための半教師あり手法を提案する。 本手法は, 次元の縮小, データの可視化, クラスタリング, 特徴の選択, 測地線距離 (pseudotime) の定量化を同時に行うことのできる弾性主グラフの応用に基づいている。 この方法は、患者を特定の臨床経過(病理学的シナリオ)で位置決めし、予後の不確かさを定性的に推定し、それに沿って進行の程度を特徴付ける。 概して,疑似時間量化に基づく手法は,動的疾患表現型解析および疾患軌跡解析(2次データ解析)のために開発された手法を同期観測データに適用する可能性を示す。 我々はClinTrajan$というPython言語で実装された臨床軌道解析ツールを開発した。 提案手法は,心筋梗塞の合併症と糖尿病患者データの再送という2つの大きなデータセットで検証した。

Large observational clinical datasets become increasingly available for mining associations between various disease traits and administered therapy. These datasets can be considered as representations of the landscape of all possible disease conditions, in which a concrete pathology develops through a number of stereotypical routes, characterized by `points of no return' and `final states' (such as lethal or recovery states). Extracting this information directly from the data remains challenging, especially in the case of synchronic (with a short-term follow up) observations. Here we suggest a semi-supervised methodology for the analysis of large clinical datasets, characterized by mixed data types and missing values, through modeling the geometrical data structure as a bouquet of bifurcating clinical trajectories. The methodology is based on application of elastic principal graphs which can address simultaneously the tasks of dimensionality reduction, data visualization, clustering, feature selection and quantifying the geodesic distances (pseudotime) in partially ordered sequences of observations. The methodology allows positioning a patient on a particular clinical trajectory (pathological scenario) and characterizing the degree of progression along it with a qualitative estimate of the uncertainty of the prognosis. Overall, our pseudo-time quantification-based approach gives a possibility to apply the methods developed for dynamical disease phenotyping and illness trajectory analysis (diachronic data analysis) to synchronic observational data. We developed a tool $ClinTrajan$ for clinical trajectory analysis implemented in Python programming language. We test the methodology in two large publicly available datasets: myocardial infarction complications and readmission of diabetic patients data.
翻訳日:2022-11-12 20:34:54 公開日:2020-10-05
# x線ポラリメトリーイメージングのための深部アンサンブル解析

Deep Ensemble Analysis for Imaging X-ray Polarimetry ( http://arxiv.org/abs/2007.03828v2 )

ライセンス: Link先を確認
A.L.Peirson, R.W.Romani, H.L.Marshall, J.F.Steiner, L.Baldini(参考訳) 本稿では,X線ポラリメトリエクスプローラー (IXPE) に搭載されるガス画素検出器 (GPD) に焦点をあて, 撮像偏光計によるX線テレスコープ観測の感度を高める方法を提案する。 本分析では,1-9keVイベントトラックの光電子方向,X線吸収点,X線エネルギーを統計的・モデル的不確実性から推定する。 モンテカルロの事象シミュレーションに基づいて学習した,resnet畳み込みニューラルネットワークの深層アンサンブルによる予測の重み付き最大度の組み合わせを用いる。 トラックリコンストラクションアルゴリズムにおける偏光バイアス分散トレードオフを比較するためのメリットの数値を定義する。 パワーローソーススペクトルでは、現在の計画されたixpe分析(および過去のディープラーニングアプローチ)により、有効露光時間を約45%向上させる。 それぞれのエネルギーに対して, 有限サンプル最小値の1シグマ内に残留的な系統的変調を保ちながら, 100%偏光事象の変調係数を20~30%絶対的に改善する。 吸収点の位置と光子エネルギーの推定も大幅に改善された。 本手法を実gpd検出器からのサンプルデータを用いて検証した。

We present a method for enhancing the sensitivity of X-ray telescopic observations with imaging polarimeters, with a focus on the gas pixel detectors (GPDs) to be flown on the Imaging X-ray Polarimetry Explorer (IXPE). Our analysis determines photoelectron directions, X-ray absorption points and X-ray energies for 1-9 keV event tracks, with estimates for both the statistical and model (reconstruction) uncertainties. We use a weighted maximum likelihood combination of predictions from a deep ensemble of ResNet convolutional neural networks, trained on Monte Carlo event simulations. We define a figure of merit to compare the polarization bias-variance trade-off in track reconstruction algorithms. For power-law source spectra, our method improves on the current planned IXPE analysis (and previous deep learning approaches), providing ~45% increase in effective exposure times. For individual energies, our method produces 20-30% absolute improvements in modulation factor for simulated 100% polarized events, while keeping residual systematic modulation within 1 sigma of the finite sample minimum. Absorption point location and photon energy estimates are also significantly improved. We have validated our method with sample data from real GPD detectors.
翻訳日:2022-11-12 12:48:23 公開日:2020-10-05
# カーネル・メソッドとそのデリバティブ:地球系科学の概念と展望

Kernel Methods and their derivatives: Concept and perspectives for the Earth system sciences ( http://arxiv.org/abs/2007.14706v2 )

ライセンス: Link先を確認
J. Emmanuel Johnson, Valero Laparra, Adri\'an P\'erez-Suay, Miguel D. Mahecha and Gustau Camps-Valls(参考訳) カーネルメソッドは、複雑なタスクをシンプルに解決するために汎用的な非線形関数を実装する強力な機械学習技術である。 数学的な背景を持ち、実際は優れたパフォーマンスを示す。 しかし、機能マッピングが直接アクセスできず、解釈が難しいため、カーネルマシンは依然としてブラックボックスモデルとみなされており、この研究の目的は、その複雑さにもかかわらず、様々なカーネルメソッドが学習した関数の解釈が実際に可能であることを示すことである。 具体的には、これらの函数の微分は単純な数学的定式化を持ち、計算が容易であり、様々な問題に適用できることを示す。 カーネルマシンにおけるモデル関数導関数は、カーネル関数導関数に比例する。 我々は、入力に関する最も一般的なカーネル関数の第1および第2導関数の明示的な解析形式と、高次導関数を計算するための一般式を提供する。 回帰のガウス過程、分類のベクターマシンのサポート、密度推定のカーネルエントロピー成分分析、確率変数間の依存性を推定するヒルベルト・シュミット独立条件など、最もよく使われている教師なしのカーネル学習手法を分析する。 すべてのケースにおいて、我々は学習関数の微分を核関数微分の線形結合として表現した。 さらに,具体例による直感的な説明を行い,時空間地球系データキューブの文脈における実際の応用の解釈を改善する方法について述べる。 この研究は、関数微分がカーネルメソッドの分析と理解において重要な役割を果たす可能性があるという観察を反映している。

Kernel methods are powerful machine learning techniques which implement generic non-linear functions to solve complex tasks in a simple way. They Have a solid mathematical background and exhibit excellent performance in practice. However, kernel machines are still considered black-box models as the feature mapping is not directly accessible and difficult to interpret.The aim of this work is to show that it is indeed possible to interpret the functions learned by various kernel methods is intuitive despite their complexity. Specifically, we show that derivatives of these functions have a simple mathematical formulation, are easy to compute, and can be applied to many different problems. We note that model function derivatives in kernel machines is proportional to the kernel function derivative. We provide the explicit analytic form of the first and second derivatives of the most common kernel functions with regard to the inputs as well as generic formulas to compute higher order derivatives. We use them to analyze the most used supervised and unsupervised kernel learning methods: Gaussian Processes for regression, Support Vector Machines for classification, Kernel Entropy Component Analysis for density estimation, and the Hilbert-Schmidt Independence Criterion for estimating the dependency between random variables. For all cases we expressed the derivative of the learned function as a linear combination of the kernel function derivative. Moreover we provide intuitive explanations through illustrative toy examples and show how to improve the interpretation of real applications in the context of spatiotemporal Earth system data cubes. This work reflects on the observation that function derivatives may play a crucial role in kernel methods analysis and understanding.
翻訳日:2022-11-05 19:43:53 公開日:2020-10-05
# 運動圧縮・微細化による3次元動作推定

3D Human Motion Estimation via Motion Compression and Refinement ( http://arxiv.org/abs/2008.03789v2 )

ライセンス: Link先を確認
Zhengyi Luo, S. Alireza Golestaneh, Kris M. Kitani(参考訳) 我々はRGBビデオシーケンスからスムーズで正確な3次元ポーズとモーション推定を生成する技術を開発した。 本手法は,変動オートエンコーダ(meva)による動作推定を行い,自動エンコーダに基づく動き圧縮と運動微細化により学習した残差表現を用いて,人間の運動の時系列を滑らかな動き表現に分解する。 この2段階の人間の動きのエンコーディングは、人間の動きを2段階の段階で捉える: 粗い全体の動きを捉える一般的な人間の動き推定ステップと、人間特有の動きの詳細を戻す残差推定だ。 実験の結果,提案手法は3次元姿勢と動作推定を滑らかかつ高精度に生成することがわかった。

We develop a technique for generating smooth and accurate 3D human pose and motion estimates from RGB video sequences. Our method, which we call Motion Estimation via Variational Autoencoder (MEVA), decomposes a temporal sequence of human motion into a smooth motion representation using auto-encoder-based motion compression and a residual representation learned through motion refinement. This two-step encoding of human motion captures human motion in two stages: a general human motion estimation step that captures the coarse overall motion, and a residual estimation that adds back person-specific motion details. Experiments show that our method produces both smooth and accurate 3D human pose and motion estimates.
翻訳日:2022-11-01 04:24:19 公開日:2020-10-05
# MNISTディジット認識のための単純な畳み込みニューラルネットワークモデルの一組

An Ensemble of Simple Convolutional Neural Network Models for MNIST Digit Recognition ( http://arxiv.org/abs/2008.10400v2 )

ライセンス: Link先を確認
Sanghyeon An, Minjun Lee, Sanglee Park, Heerin Yang, Jungmin So(参考訳) 本稿では,単純な畳み込みニューラルネットワーク(cnn)モデルを用いて,mnistテストセットの精度が非常に高いことを報告する。 畳み込み層では、3x3,5x5,7x7のカーネルサイズを持つ3つの異なるモデルを使用する。 各モデルは一連の畳み込み層からなり、その後に1つの完全連結層が続く。 すべての畳み込み層はバッチ正規化とreluアクティベーションを使用し、プールは使用されない。 回転と翻訳は、ほとんどの画像分類タスクで頻繁に使用されるトレーニングデータの拡張に使用される。 トレーニングデータセットで独立にトレーニングされた3つのモデルを用いた過半数の投票は、テストセットの最大99.87%の精度を達成できる。 3つの均質アンサンブルネットワークの異質アンサンブルである2層アンサンブルは、99.91%のテスト精度を達成できる。 結果は、 https://github.com/ansh941/MnistSimpleCNN のコードを使って再現できる。

We report that a very high accuracy on the MNIST test set can be achieved by using simple convolutional neural network (CNN) models. We use three different models with 3x3, 5x5, and 7x7 kernel size in the convolution layers. Each model consists of a set of convolution layers followed by a single fully connected layer. Every convolution layer uses batch normalization and ReLU activation, and pooling is not used. Rotation and translation is used to augment training data, which is frequently used in most image classification tasks. A majority voting using the three models independently trained on the training data set can achieve up to 99.87% accuracy on the test set, which is one of the state-of-the-art results. A two-layer ensemble, a heterogeneous ensemble of three homogeneous ensemble networks, can achieve up to 99.91% test accuracy. The results can be reproduced by using the code at: https://github.com/ansh941/MnistSimpleCNN
翻訳日:2022-10-31 04:54:51 公開日:2020-10-05
# NLGシステムにおける評価基準の検討

A Survey of Evaluation Metrics Used for NLG Systems ( http://arxiv.org/abs/2008.12009v2 )

ライセンス: Link先を確認
Ananya B. Sai, Akash Kumar Mohankumar, Mitesh M. Khapra(参考訳) Deep Learningの成功により、幅広い自然言語生成(NLG)タスクへの関心が高まった。 Deep Learningは、いくつかの既存のNLGタスクで最先端の技術を推し進めているだけでなく、画像キャプションなど、より新しいNLGタスクの探索も促している。 NLGの急速な進歩は、NLGの分野における進歩を追跡するための正確な自動評価指標の開発を必要としている。 しかし、分類タスクとは異なり、NLGシステム自体を自動評価することは大きな課題である。 いくつかの研究により、BLEUやROUGEのような初期のヒューリスティックなメトリクスは、異なるNLGタスクのニュアンスを捉えるのに不十分であることが示されている。 nlgモデルの増加と現在のメトリクスの欠点により、2014年以降に提案された評価メトリクスの数は急増している。 さらに、様々な評価指標が事前決定されたヒューリスティック式から訓練されたトランスモデルに移行した。 この比較的短期間の急激な変化は、既存のNLGメトリクスを調査し、既存の研究者や新しい研究者が、過去数年間にNLGの評価で起こった開発を迅速に進めるために役立てる必要があることに繋がった。 本調査ではまず,NLGシステムの自動評価における課題と課題を明らかにする。 次に,評価指標のコヒーレント分類を行い,既存の指標を整理し,この分野の発展をよりよく理解する。 また、さまざまなメトリクスを詳細に説明し、彼らの重要な貢献を強調します。 その後、既存の指標で確認された主な欠点について論じ、評価指標の評価に使用する方法論について述べる。 最後に, 自動評価指標の改善に向けた次のステップとして, 提案と推奨について述べる。

The success of Deep Learning has created a surge in interest in a wide a range of Natural Language Generation (NLG) tasks. Deep Learning has not only pushed the state of the art in several existing NLG tasks but has also facilitated researchers to explore various newer NLG tasks such as image captioning. Such rapid progress in NLG has necessitated the development of accurate automatic evaluation metrics that would allow us to track the progress in the field of NLG. However, unlike classification tasks, automatically evaluating NLG systems in itself is a huge challenge. Several works have shown that early heuristic-based metrics such as BLEU, ROUGE are inadequate for capturing the nuances in the different NLG tasks. The expanding number of NLG models and the shortcomings of the current metrics has led to a rapid surge in the number of evaluation metrics proposed since 2014. Moreover, various evaluation metrics have shifted from using pre-determined heuristic-based formulae to trained transformer models. This rapid change in a relatively short time has led to the need for a survey of the existing NLG metrics to help existing and new researchers to quickly come up to speed with the developments that have happened in NLG evaluation in the last few years. Through this survey, we first wish to highlight the challenges and difficulties in automatically evaluating NLG systems. Then, we provide a coherent taxonomy of the evaluation metrics to organize the existing metrics and to better understand the developments in the field. We also describe the different metrics in detail and highlight their key contributions. Later, we discuss the main shortcomings identified in the existing metrics and describe the methodology used to evaluate evaluation metrics. Finally, we discuss our suggestions and recommendations on the next steps forward to improve the automatic evaluation metrics.
翻訳日:2022-10-24 07:43:43 公開日:2020-10-05
# 足場拘束型分子発生

Scaffold-constrained molecular generation ( http://arxiv.org/abs/2009.07778v3 )

ライセンス: Link先を確認
Maxime Langevin, Herve Minoux, Maximilien Levesque, Marc Bianciotto(参考訳) 創薬モデルの主要な応用の一つは鉛最適化フェーズである。 リード系列の最適化において、設計した分子の構造に足場制約が課されることが一般的である。 このような制約を課すことなく、必要な足場で分子を生成する確率は非常に低く、脱ノボ薬物設計のための生成モデルの実用性を妨げている。 そこで本研究では,足場拘束型インシリコ分子設計を行う新しいアルゴリズムを提案する。 SMILESをベースとしたリカレントニューラルネットワーク(Recurrent Neural Network, RNN)生成モデルを構築し, 足場制約付き生成を実現するため, サンプリング手法を改良した。 我々は、関連する化学空間のみを探索しながら、異なる性質に最適化された分子を設計できる強化学習法を直接的に活用する。 本研究は,サレシェムブル化学系から抽出された足場周辺の新規分子の設計,ドーパミン受容体d2(drd2)標的に新規活性分子の生成,そして工業的リード最適化プロジェクトであるmmp-12シリーズにおける予測活性分子の設計など,様々なタスクにおいて足場拘束型生成を行う方法を紹介する。

One of the major applications of generative models for drug Discovery targets the lead-optimization phase. During the optimization of a lead series, it is common to have scaffold constraints imposed on the structure of the molecules designed. Without enforcing such constraints, the probability of generating molecules with the required scaffold is extremely low and hinders the practicality of generative models for de-novo drug design. To tackle this issue, we introduce a new algorithm to perform scaffold-constrained in-silico molecular design. We build on the well-known SMILES-based Recurrent Neural Network (RNN) generative model, with a modified sampling procedure to achieve scaffold-constrained generation. We directly benefit from the associated reinforcement Learning methods, allowing to design molecules optimized for different properties while exploring only the relevant chemical space. We showcase the method's ability to perform scaffold-constrained generation on various tasks: designing novel molecules around scaffolds extracted from SureChEMBL chemical series, generating novel active molecules on the Dopamine Receptor D2 (DRD2) target, and, finally, designing predicted actives on the MMP-12 series, an industrial lead-optimization project.
翻訳日:2022-10-18 06:32:31 公開日:2020-10-05
# 適応型言語モデルのための接地合成出力

Grounded Compositional Outputs for Adaptive Language Modeling ( http://arxiv.org/abs/2009.11523v2 )

ライセンス: Link先を確認
Nikolaos Pappas, Phoebe Mulcaire, Noah A. Smith(参考訳) 言語モデルは、NLP全体で中心的なコンポーネントとして現れており、多くの進歩は、新しいドメインやタスクに安価に(例えば、微調整を通じて)適応する能力に依存している。 言語モデルの語彙$-$はトレーニング前に選択され、永久に固定された$-$はそのサイズに影響し、そのような適応に抵抗する部分の一部である。 これまでの研究では、表面形状に基づく合成入力埋め込みを使用してこの問題を改善してきた。 本研究では,言語モデルのための完全な合成出力埋め込み層を提案し,意味的関連語や自由テキスト定義といった構造化辞書(WordNet)の情報にさらに基礎を置いている。 私たちの知識では、結果はトレーニング語彙に依存しないサイズで最初の単語レベルの言語モデルになります。 従来の言語モデリングのモデルとオープンな語彙でドメイン間設定に挑戦し、従来の最先端の出力埋め込み手法や適応手法に適合または優れていたことを確かめる。 我々の分析はサンプル効率の改善を特徴付けている:我々のモデルは低頻度の単語に対してより正確である。

Language models have emerged as a central component across NLP, and a great deal of progress depends on the ability to cheaply adapt them (e.g., through finetuning) to new domains and tasks. A language model's vocabulary$-$typically selected before training and permanently fixed later$-$affects its size and is part of what makes it resistant to such adaptation. Prior work has used compositional input embeddings based on surface forms to ameliorate this issue. In this work, we go one step beyond and propose a fully compositional output embedding layer for language models, which is further grounded in information from a structured lexicon (WordNet), namely semantically related words and free-text definitions. To our knowledge, the result is the first word-level language model with a size that does not depend on the training vocabulary. We evaluate the model on conventional language modeling as well as challenging cross-domain settings with an open vocabulary, finding that it matches or outperforms previous state-of-the-art output embedding methods and adaptation approaches. Our analysis attributes the improvements to sample efficiency: our model is more accurate for low-frequency words.
翻訳日:2022-10-15 04:49:46 公開日:2020-10-05
# 極端咬合下の自律的荷物脅威検出のための訓練可能な構造テンソル

Trainable Structure Tensors for Autonomous Baggage Threat Detection Under Extreme Occlusion ( http://arxiv.org/abs/2009.13158v2 )

ライセンス: Link先を確認
Taimur Hassan and Samet Akcay and Mohammed Bennamoun and Salman Khan and Naoufel Werghi(参考訳) 荷物の脅威を検出することは、専門家の役員でさえも、最も難しい仕事の1つです。 多くの研究者が、荷物のX線スキャンからこれらの脅威を認識するコンピュータ支援スクリーニングシステムを開発した。 しかしながら、これらのフレームワークはすべて、極端な閉塞下でのコントラバンドアイテムの識別に制限がある。 本稿では, トレーニング可能な構造テンソルを用いて, 密閉・散在したコントラバンドアイテムの輪郭を強調表示し, 同時に無関係な荷物内容の抑制を行う新しい事例セグメンテーションフレームワークを提案する。 提案したフレームワークは、公開されている4つのX線データセットで広範囲にテストされ、平均的な精度スコアで最先端のフレームワークを上回っている。 さらに、我々の知る限りでは、4種類のx線スキャナから得られたグレースケールとカラースキャンの組み合わせで検証された唯一のフレームワークである。

Detecting baggage threats is one of the most difficult tasks, even for expert officers. Many researchers have developed computer-aided screening systems to recognize these threats from the baggage X-ray scans. However, all of these frameworks are limited in identifying the contraband items under extreme occlusion. This paper presents a novel instance segmentation framework that utilizes trainable structure tensors to highlight the contours of the occluded and cluttered contraband items (by scanning multiple predominant orientations), while simultaneously suppressing the irrelevant baggage content. The proposed framework has been extensively tested on four publicly available X-ray datasets where it outperforms the state-of-the-art frameworks in terms of mean average precision scores. Furthermore, to the best of our knowledge, it is the only framework that has been validated on combined grayscale and colored scans obtained from four different types of X-ray scanners.
翻訳日:2022-10-13 22:25:08 公開日:2020-10-05
# コントラストとスコアの学習によるシーングラフ解析におけるクラス不均衡の解消

Addressing Class Imbalance in Scene Graph Parsing by Learning to Contrast and Score ( http://arxiv.org/abs/2009.13331v2 )

ライセンス: Link先を確認
He Huang, Shunta Saito, Yuta Kikuchi, Eiichi Matsumoto, Wei Tang, Philip S. Yu(参考訳) シーングラフ解析は、画像シーン内のオブジェクトを検出し、それらの関係を認識することを目的としている。 最近の手法は、いくつかの人気のあるベンチマークで高い平均スコアを達成しているが、データ分布の長期分布が頻繁なラベルに対する学習に偏っているため、稀な関係の検出には失敗している。 本稿では,これらの稀な関係の検出が現実の応用において重要であるという事実から,シーングラフ解析におけるクラス不均衡問題を解決するために,分類とランキングの新たな統合フレームワークを提案する。 具体的には,不正確な頻繁な関係を抑圧することにより,希少な関係の検出を促進する新しい交叉エントロピー損失をデザインする。 さらに,画像特徴と関係特徴に基づいて関係をランク付けし,予測のリコールを改善する新しいスコアリングモジュールScorerを提案する。 私たちのフレームワークはシンプルで効果的で、現在のシーングラフモデルに組み込むことができます。 実験の結果, 提案手法が最先端の手法を改善し, 希少な関係を検出することの利点を明らかにした。

Scene graph parsing aims to detect objects in an image scene and recognize their relations. Recent approaches have achieved high average scores on some popular benchmarks, but fail in detecting rare relations, as the highly long-tailed distribution of data biases the learning towards frequent labels. Motivated by the fact that detecting these rare relations can be critical in real-world applications, this paper introduces a novel integrated framework of classification and ranking to resolve the class imbalance problem in scene graph parsing. Specifically, we design a new Contrasting Cross-Entropy loss, which promotes the detection of rare relations by suppressing incorrect frequent ones. Furthermore, we propose a novel scoring module, termed as Scorer, which learns to rank the relations based on the image features and relation features to improve the recall of predictions. Our framework is simple and effective, and can be incorporated into current scene graph models. Experimental results show that the proposed approach improves the current state-of-the-art methods, with a clear advantage of detecting rare relations.
翻訳日:2022-10-13 22:06:37 公開日:2020-10-05
# 有効正則化剤としてのドメイン敵対的微調整

Domain Adversarial Fine-Tuning as an Effective Regularizer ( http://arxiv.org/abs/2009.13366v2 )

ライセンス: Link先を確認
Giorgos Vernikos, Katerina Margatina, Alexandra Chronopoulou, Ion Androutsopoulos(参考訳) 自然言語処理(NLP)では、下流タスクに転送される事前訓練された言語モデル(LM)が、最先端の結果を得るために最近示されている。 しかし、標準的な微調整は、事前トレーニング中にキャプチャされた一般ドメイン表現を劣化させることができる。 この問題に対処するために,新しい正規化手法であるafter,domain adversarial fine-tuningを有効な正規化器として導入する。 具体的には、微調整時に使用するタスク固有の損失を、対向目的に補完する。 この追加損失項は、ドメイン内とドメイン外のテキスト表現を区別することを目的とした逆分類器に関連している。 ドメイン内はタスクのラベル付きデータセットを指し、ドメイン外は別のドメインからのラベルなしデータを指します。 直感的には、敵の分類器は、モデルがタスク固有のドメインに過剰に適合することを防ぐ正規化器として振る舞う。 各種自然言語理解タスクにおける実験結果から, 通常の微調整よりも性能が向上したことが明らかとなった。

In Natural Language Processing (NLP), pretrained language models (LMs) that are transferred to downstream tasks have been recently shown to achieve state-of-the-art results. However, standard fine-tuning can degrade the general-domain representations captured during pretraining. To address this issue, we introduce a new regularization technique, AFTER; domain Adversarial Fine-Tuning as an Effective Regularizer. Specifically, we complement the task-specific loss used during fine-tuning with an adversarial objective. This additional loss term is related to an adversarial classifier, that aims to discriminate between in-domain and out-of-domain text representations. In-domain refers to the labeled dataset of the task at hand while out-of-domain refers to unlabeled data from a different domain. Intuitively, the adversarial classifier acts as a regularizer which prevents the model from overfitting to the task-specific domain. Empirical results on various natural language understanding tasks show that AFTER leads to improved performance compared to standard fine-tuning.
翻訳日:2022-10-13 21:04:35 公開日:2020-10-05
# シングルスキャンによる動的顔面アセットとリグ生成

Dynamic Facial Asset and Rig Generation from a Single Scan ( http://arxiv.org/abs/2010.00560v2 )

ライセンス: Link先を確認
Jiaman Li, Zhengfei Kuang, Yajie Zhao, Mingming He, Karl Bladin and Hao Li(参考訳) 映画やゲームで使われるcg(high-fidelity computer generated)キャラクタの作成には、集中的な手作業と複雑なハードウェアで包括的な顔の資産が必要になるため、コストと生産サイクルが長くなる。 このデジタル化プロセスの簡素化と高速化を目的として,アーティストが容易に磨くことのできるリグを含む,高品質な動的顔資産の自動生成のためのフレームワークを提案する。 我々のフレームワークは、単一のスキャンを入力として受け取り、パーソナライズされた混ざり合い、動的、物理的にテクスチャ、および二次的な顔成分(例えば、歯や眼球)を生成する。 細孔レベルの詳細からなる顔データベース上に構築され、様々な表現やアイデンティティを4000ドル以上でスキャンし、自己教師型ニューラルネットワークを採用して、テンプレート式の集合からパーソナライズされた混ざり合いを学習する。 また、同一性と表現の結合分布をモデル化し、1つの中性入力スキャンから動的に出現するパーソナライズされた混合パターンの完全なセットを推定する。 私たちの生成したパーソナライズされたフェイスリグ資産は、顔アニメーションとレンダリングのための最先端産業パイプラインとシームレスに互換性があります。 筆者らのフレームワークは,多種多様な新しい対象を推測することにより,堅牢かつ効果的であることを示し,顔を物理的にカスタマイズした動的テクスチャでアニメーションしながら,魅力的なレンダリング結果を示す。

The creation of high-fidelity computer-generated (CG) characters used in film and gaming requires intensive manual labor and a comprehensive set of facial assets to be captured with complex hardware, resulting in high cost and long production cycles. In order to simplify and accelerate this digitization process, we propose a framework for the automatic generation of high-quality dynamic facial assets, including rigs which can be readily deployed for artists to polish. Our framework takes a single scan as input to generate a set of personalized blendshapes, dynamic and physically-based textures, as well as secondary facial components (e.g., teeth and eyeballs). Built upon a facial database consisting of pore-level details, with over $4,000$ scans of varying expressions and identities, we adopt a self-supervised neural network to learn personalized blendshapes from a set of template expressions. We also model the joint distribution between identities and expressions, enabling the inference of the full set of personalized blendshapes with dynamic appearances from a single neutral input scan. Our generated personalized face rig assets are seamlessly compatible with cutting-edge industry pipelines for facial animation and rendering. We demonstrate that our framework is robust and effective by inferring on a wide range of novel subjects, and illustrate compelling rendering results while animating faces with generated customized physically-based dynamic textures.
翻訳日:2022-10-12 08:36:50 公開日:2020-10-05
# 画像セグメンテーション参照のための言語構造誘導コンテキストモデリング

Linguistic Structure Guided Context Modeling for Referring Image Segmentation ( http://arxiv.org/abs/2010.00515v3 )

ライセンス: Link先を確認
Tianrui Hui, Si Liu, Shaofei Huang, Guanbin Li, Sansi Yu, Faxi Zhang, Jizhong Han(参考訳) 参照画像分割は、自然言語文で参照される対象の前景マスクを予測することを目的としている。 文のマルチモーダルな文脈は、対象と背景を区別するために重要である。 既存の方法は、不十分または冗長にマルチモーダルコンテキストをモデル化する。 この問題に対処するため,多モーダル相互作用によるマルチモーダルコンテキストをモデル化し,新たな言語構造ガイド型コンテキストモデリング(LSCM)モジュールとして実装する手法を提案する。 lscmモジュールは、依存構文解析木抑圧語グラフ(dpt-wg)を構築し、文の有効なマルチモーダル文脈を含むようにすべての単語をガイドし、マルチモーダル特徴、すなわち収集、制約付き伝播、分散の3ステップにわたって邪魔な単語を除外します。 4つのベンチマークの大規模な実験により、我々の手法は過去の最先端技術よりも優れていることが示された。

Referring image segmentation aims to predict the foreground mask of the object referred by a natural language sentence. Multimodal context of the sentence is crucial to distinguish the referent from the background. Existing methods either insufficiently or redundantly model the multimodal context. To tackle this problem, we propose a "gather-propagate-distribute" scheme to model multimodal context by cross-modal interaction and implement this scheme as a novel Linguistic Structure guided Context Modeling (LSCM) module. Our LSCM module builds a Dependency Parsing Tree suppressed Word Graph (DPT-WG) which guides all the words to include valid multimodal context of the sentence while excluding disturbing ones through three steps over the multimodal feature, i.e., gathering, constrained propagation and distributing. Extensive experiments on four benchmarks demonstrate that our method outperforms all the previous state-of-the-arts.
翻訳日:2022-10-12 07:17:21 公開日:2020-10-05
# WMT20のためのWeChat Neural Machine Translationシステム

WeChat Neural Machine Translation Systems for WMT20 ( http://arxiv.org/abs/2010.00247v2 )

ライセンス: Link先を確認
Fandong Meng, Jianhao Yan, Yijin Liu, Yuan Gao, Xianfeng Zeng, Qinsong Zeng, Peng Li, Ming Chen, Jie Zhou, Sifan Liu and Hao Zhou(参考訳) 私たちはWMT 2020の中国語から英語へのニュース翻訳タスクに参加します。 我々のシステムは,有効な変種を持つTransformer (Vaswani et al., 2017a) とDTMT (Meng and Zhang, 2019) アーキテクチャに基づいている。 実験では,データ選択,バックトランスレーション,知識蒸留,反復的ドメイン内知識伝達,高度なファインタニングアプローチ,自己視覚モデルアンサンブルなど,いくつかの合成データ生成手法を採用した。 制約のある中国語と英語のシステムでは36.9のケースセンシティブなBLEUスコアが得られます。

We participate in the WMT 2020 shared news translation task on Chinese to English. Our system is based on the Transformer (Vaswani et al., 2017a) with effective variants and the DTMT (Meng and Zhang, 2019) architecture. In our experiments, we employ data selection, several synthetic data generation approaches (i.e., back-translation, knowledge distillation, and iterative in-domain knowledge transfer), advanced finetuning approaches and self-bleu based model ensemble. Our constrained Chinese to English system achieves 36.9 case-sensitive BLEU score, which is the highest among all submissions.
翻訳日:2022-10-12 07:00:43 公開日:2020-10-05
# 中間訓練による表の理解

Understanding tables with intermediate pre-training ( http://arxiv.org/abs/2010.00571v2 )

ライセンス: Link先を確認
Julian Martin Eisenschlos, Syrine Krichene, Thomas M\"uller(参考訳) ある文が表の内容によってサポートされたり、反証されたりするかどうかを判断する二分分類タスクであるテーブルエンテーメントは、解析言語とテーブル構造、数値的および離散的推論を必要とする。 文章の補足に関する広範な研究があるが、表の補足についてはあまり研究されていない。 我々は、テーブルベースのBERTモデルであるTAAS(Herzig et al., 2020)を適応させ、エンテーメントを認識する。 データ拡張の利点に触発された私たちは、数百万もの自動生成トレーニングサンプルのバランスの取れたデータセットを作成し、微調整の前に中間ステップで学習します。 この新たなデータは、テーブルの細部だけでなく、シーケンシャルなテーブルQAタスクであるSQA(Iyyer et al., 2017)にも有用である。 BERTモデルの入力として長い例を利用できるように、テーブルプルーニングを前処理ステップとして評価し、適度な精度でトレーニングと予測効率を大幅に向上させる。 異なる手法は、TabFact(Chen et al., 2020)とSQAデータセットに新しい最先端技術を設定する。

Table entailment, the binary classification task of finding if a sentence is supported or refuted by the content of a table, requires parsing language and table structure as well as numerical and discrete reasoning. While there is extensive work on textual entailment, table entailment is less well studied. We adapt TAPAS (Herzig et al., 2020), a table-based BERT model, to recognize entailment. Motivated by the benefits of data augmentation, we create a balanced dataset of millions of automatically created training examples which are learned in an intermediate step prior to fine-tuning. This new data is not only useful for table entailment, but also for SQA (Iyyer et al., 2017), a sequential table QA task. To be able to use long examples as input of BERT models, we evaluate table pruning techniques as a pre-processing step to drastically improve the training and prediction efficiency at a moderate drop in accuracy. The different methods set the new state-of-the-art on the TabFact (Chen et al., 2020) and SQA datasets.
翻訳日:2022-10-12 07:00:31 公開日:2020-10-05
# 深部貯留層計算による動的システムのモデルフリー制御

Model-Free Control of Dynamical Systems with Deep Reservoir Computing ( http://arxiv.org/abs/2010.02285v1 )

ライセンス: Link先を確認
Daniel Canaday, Andrew Pomerance, Daniel J Gauthier(参考訳) 本研究では,制御器がリザーバコンピュータと呼ばれる人工ニューラルネットワークを基盤とする,未知の複雑なシステムに適用可能な非線形制御手法を提案する。 システム不確実性に頑健だがモデルを必要とする、現代のニューラルネットワークベースの制御技術の多くとは対照的に、本手法はシステムの事前知識を必要とせず、モデルフリーである。 さらに,本手法では初期システム識別ステップを必要とせず,比較的単純で効率的な学習プロセスを実現する。 貯留層コンピュータは、小さなトレーニングデータセットと驚くほど低いトレーニング時間を必要とするため、制御問題に適している。 制御器に貯水池コンピュータの層を反復的に訓練して付加することにより、高精度かつ効率的な制御法則を迅速に同定する。 数値実験系と高速実験系の両方において,本手法は,非自明な対象軌道に対して決定論的カオスを示す高度に複雑な力学系を制御できることを実証する。

We propose and demonstrate a nonlinear control method that can be applied to unknown, complex systems where the controller is based on a type of artificial neural network known as a reservoir computer. In contrast to many modern neural-network-based control techniques, which are robust to system uncertainties but require a model nonetheless, our technique requires no prior knowledge of the system and is thus model-free. Further, our approach does not require an initial system identification step, resulting in a relatively simple and efficient learning process. Reservoir computers are well-suited to the control problem because they require small training data sets and remarkably low training times. By iteratively training and adding layers of reservoir computers to the controller, a precise and efficient control law is identified quickly. With examples on both numerical and high-speed experimental systems, we demonstrate that our approach is capable of controlling highly complex dynamical systems that display deterministic chaos to nontrivial target trajectories.
翻訳日:2022-10-10 22:41:39 公開日:2020-10-05
# 個人化フェデレーション学習のための下界と最適アルゴリズム

Lower Bounds and Optimal Algorithms for Personalized Federated Learning ( http://arxiv.org/abs/2010.02372v1 )

ライセンス: Link先を確認
Filip Hanzely, Slavom\'ir Hanzely, Samuel Horv\'ath, Peter Richt\'arik(参考訳) 本研究では,Hanzely と Richt\'arik (2020) が最近導入したパーソナライズド・フェデレーション・ラーニングの最適化について考察し,局所的な {\tt SGD} 手法の動作に代替的な説明を与えることを示した。 私たちの最初の貢献は、コミュニケーションの複雑さとローカルなオラクルの複雑さの両方のために、この定式化の最初の下限を確立することです。 2つ目のコントリビューションは、これらの下界にほぼすべてのレシエーションで一致するいくつかの最適手法の設計である。 これらは、パーソナライズされた連合学習に最適な最初の方法である。 我々の最適手法には、加速されたFedProx}の変種と、加速されたFedAvg}/Local {\ttSGD}の分散還元版が含まれる。 本手法の実用的優位性を広範囲な数値実験により実証する。

In this work, we consider the optimization formulation of personalized federated learning recently introduced by Hanzely and Richt\'arik (2020) which was shown to give an alternative explanation to the workings of local {\tt SGD} methods. Our first contribution is establishing the first lower bounds for this formulation, for both the communication complexity and the local oracle complexity. Our second contribution is the design of several optimal methods matching these lower bounds in almost all regimes. These are the first provably optimal methods for personalized federated learning. Our optimal methods include an accelerated variant of {\tt FedProx}, and an accelerated variance-reduced version of {\tt FedAvg}/Local {\tt SGD}. We demonstrate the practical superiority of our methods through extensive numerical experiments.
翻訳日:2022-10-10 22:41:05 公開日:2020-10-05
# ビデオ符号化のためのブロックのニューラル生成

Neural Generation of Blocks for Video Coding ( http://arxiv.org/abs/2010.02748v1 )

ライセンス: Link先を確認
Jonah Probell(参考訳) 十分に訓練された生成ニューラルネットワーク(GNN)は、学習パラメータの静的画像の視覚情報を圧縮するのに非常に効率的であるが、ほとんどのビデオコンテンツにおいて、インタープレディションやイントラプレディクションほど効率的ではない。 しかし、パンニングやズームアウトなどのフレームに入るコンテンツや、カーブ、不規則な形状、細部を含むコンテンツの場合、GNNによる生成により圧縮効率が向上する(より低いレート歪み)。 本稿では、ビデオビットストリーム内のGNNのコンテンツ固有の学習パラメータを特定のタイミングで符号化し、GNNを用いてブロックやフレームの特定の範囲のコンテンツを生成することを提案する。 生成するブロックは、生成するブロックだけで、インターまたはイントラ予測よりも効率的な圧縮を提供する。 このアプローチは学習パラメータに含まれる情報の有用性を最大化する。

Well-trained generative neural networks (GNN) are very efficient at compressing visual information for static images in their learned parameters but not as efficient as inter- and intra-prediction for most video content. However, for content entering a frame, such as during panning or zooming out, and content with curves, irregular shapes, or fine detail, generation by a GNN can give better compression efficiency (lower rate-distortion). This paper proposes encoding content-specific learned parameters of a GNN within a video bitstream at specific times and using the GNN to generate content for specific ranges of blocks and frames. The blocks to generate are just the ones for which generation gives more efficient compression than inter- or intra- prediction. This approach maximizes the usefulness of the information contained in the learned parameters.
翻訳日:2022-10-10 22:40:28 公開日:2020-10-05
# moldesigner:深層学習による効果的薬物のインタラクティブデザイン

MolDesigner: Interactive Design of Efficacious Drugs with Deep Learning ( http://arxiv.org/abs/2010.03951v1 )

ライセンス: Link先を確認
Kexin Huang, Tianfan Fu, Dawood Khan, Ali Abid, Ali Abdalla, Abubakar Abid, Lucas M. Glass, Marinka Zitnik, Cao Xiao, Jimeng Sun(参考訳) 薬物の有効性は治療標的と薬物動態との結合親和性に依存する。 深層学習(DL)は薬物効果の予測において顕著な進歩を示した。 我々は、薬物開発者がDL予測を利用してより効果的な薬物を設計するのを支援するために、Human-in-the-loop Webユーザインタフェース(UI)であるMollDesignerを開発した。 開発者はインターフェイスに薬物分子を描くことができる。 バックエンドでは、17以上の最先端のDLモデルが、薬物の有効性に不可欠な重要な指標の予測を生成する。 これらの予測に基づいて、薬物開発者は薬物分子を編集し、満足するまで繰り返すことができる。 MolDesignerは1秒未満のレイテンシでリアルタイムに予測を行うことができる。

The efficacy of a drug depends on its binding affinity to the therapeutic target and pharmacokinetics. Deep learning (DL) has demonstrated remarkable progress in predicting drug efficacy. We develop MolDesigner, a human-in-the-loop web user-interface (UI), to assist drug developers leverage DL predictions to design more effective drugs. A developer can draw a drug molecule in the interface. In the backend, more than 17 state-of-the-art DL models generate predictions on important indices that are crucial for a drug's efficacy. Based on these predictions, drug developers can edit the drug molecule and reiterate until satisfaction. MolDesigner can make predictions in real-time with a latency of less than a second.
翻訳日:2022-10-10 22:40:14 公開日:2020-10-05
# 深層ニューラルネットワークの圧縮に関する調査 : 課題,概要,解決法

A Survey on Deep Neural Network Compression: Challenges, Overview, and Solutions ( http://arxiv.org/abs/2010.03954v1 )

ライセンス: Link先を確認
Rahul Mishra, Hari Prabhat Gupta, and Tanima Dutta(参考訳) Deep Neural Network(DNN)は、自動機能抽出機能により、前例のないパフォーマンスを実現している。 この高次のパフォーマンスは、過去10年間に異なるIoT(Internet of Things)アプリケーションにDNNモデルが大幅に取り入れられたことにつながります。 しかし、DNNモデルの計算、エネルギ、ストレージという余分な要件は、リソース制約のあるIoTデバイスへのデプロイメントを禁止している。 そのため,近年,dnnモデルの記憶量と計算量を削減する圧縮手法がいくつか提案されている。 DNN圧縮におけるこれらの手法は、最小限の精度でDNNを圧縮するために異なる視点を利用した。 これにより,DNN圧縮技術の概要を概観することが可能になる。 本稿では,DNNモデルの圧縮に関する既存の文献を包括的にレビューし,ストレージと計算要求の両方を削減する。 我々は,既存の手法を,DNNモデルを圧縮する機構に基づいて,ネットワークプルーニング,スパース表現,ビット精度,知識蒸留,雑多な5つのカテゴリに分割する。 また,DNN圧縮技術の各カテゴリに関する課題についても論じる。 最後に,DNN圧縮の今後の方向性として,各カテゴリにおける既存作業の概要を紹介する。

Deep Neural Network (DNN) has gained unprecedented performance due to its automated feature extraction capability. This high order performance leads to significant incorporation of DNN models in different Internet of Things (IoT) applications in the past decade. However, the colossal requirement of computation, energy, and storage of DNN models make their deployment prohibitive on resource constraint IoT devices. Therefore, several compression techniques were proposed in recent years for reducing the storage and computation requirements of the DNN model. These techniques on DNN compression have utilized a different perspective for compressing DNN with minimal accuracy compromise. It encourages us to make a comprehensive overview of the DNN compression techniques. In this paper, we present a comprehensive review of existing literature on compressing DNN model that reduces both storage and computation requirements. We divide the existing approaches into five broad categories, i.e., network pruning, sparse representation, bits precision, knowledge distillation, and miscellaneous, based upon the mechanism incorporated for compressing the DNN model. The paper also discussed the challenges associated with each category of DNN compression techniques. Finally, we provide a quick summary of existing work under each category with the future direction in DNN compression.
翻訳日:2022-10-10 22:40:05 公開日:2020-10-05
# グラフニューラルネットワークの高精度、効率的、スケーラブルなトレーニング

Accurate, Efficient and Scalable Training of Graph Neural Networks ( http://arxiv.org/abs/2010.03166v1 )

ライセンス: Link先を確認
Hanqing Zeng and Hongkuan Zhou and Ajitesh Srivastava and Rajgopal Kannan and Viktor Prasanna(参考訳) グラフニューラルネットワーク(gnns)は、グラフにノード埋め込みを生成する強力なディープラーニングモデルである。 大きなグラフに深いGNNを適用する場合、効率的でスケーラブルな方法でトレーニングを実行することは依然として難しい。 我々は新しい並列トレーニングフレームワークを提案する。 ミニバッチとして小さなサブグラフをサンプリングすることで、最先端のミニバッチメソッドと比較してトレーニングワークロードを桁違いに削減できる。 次に、密結合共有メモリシステムにおける鍵となる計算ステップを並列化する。 グラフサンプリングでは,サンプルインスタンス内の並列性を利用して,サンプルからの同時アクセスをサポートする効率的なデータ構造を提案する。 並列サンプリング器は、処理ユニット数に関して理論的にニアリニアスピードアップを達成する。 サブグラフ内の機能伝搬のために、キャッシュ利用を改善し、データ分割によるDRAMトラフィックを削減する。 我々の分割は、最適な通信コストを最小化するための2近似戦略である。 さらに、トレーニング操作を再順序付けし、ミニバッチサブグラフを調整して並列性能を向上させるランタイムスケジューラを開発した。 最後に、上記並列化戦略を一般化し、複数の種類のGNNモデルとグラフサンプリングをサポートする。 提案したトレーニングは,スケーラビリティ,効率性,精度を同時に向上させる。 40コアのXeonプラットフォームでは,サンプリングステップで60倍,特徴伝搬ステップで20倍,シリアル実装で20倍の高速化を実現している。 我々のアルゴリズムは,Tensorflowの実装と比較して,桁違いのスピードアップで示すように,より深いGNNの高速トレーニングを可能にする。 私たちはコードをhttps://github.com/GraphSAINT/GraphSAINTでオープンソース化しています。

Graph Neural Networks (GNNs) are powerful deep learning models to generate node embeddings on graphs. When applying deep GNNs on large graphs, it is still challenging to perform training in an efficient and scalable way. We propose a novel parallel training framework. Through sampling small subgraphs as minibatches, we reduce training workload by orders of magnitude compared with state-of-the-art minibatch methods. We then parallelize the key computation steps on tightly-coupled shared memory systems. For graph sampling, we exploit parallelism within and across sampler instances, and propose an efficient data structure supporting concurrent accesses from samplers. The parallel sampler theoretically achieves near-linear speedup with respect to number of processing units. For feature propagation within subgraphs, we improve cache utilization and reduce DRAM traffic by data partitioning. Our partitioning is a 2-approximation strategy for minimizing the communication cost compared to the optimal. We further develop a runtime scheduler to reorder the training operations and adjust the minibatch subgraphs to improve parallel performance. Finally, we generalize the above parallelization strategies to support multiple types of GNN models and graph samplers. The proposed training outperforms the state-of-the-art in scalability, efficiency and accuracy simultaneously. On a 40-core Xeon platform, we achieve 60x speedup (with AVX) in the sampling step and 20x speedup in the feature propagation step, compared to the serial implementation. Our algorithm enables fast training of deeper GNNs, as demonstrated by orders of magnitude speedup compared to the Tensorflow implementation. We open-source our code at https://github.com/GraphSAINT/GraphSAINT.
翻訳日:2022-10-10 22:35:46 公開日:2020-10-05
# チャート画像からのデータ抽出のためのテンソル場:バーチャートと散乱プロット

Tensor Fields for Data Extraction from Chart Images: Bar Charts and Scatter Plots ( http://arxiv.org/abs/2010.02319v1 )

ライセンス: Link先を確認
Jaya Sreevalsan-Nair and Komal Dadhich and Siri Chandana Daggubati(参考訳) グラフはグラフィック・リテラシー(グラフィック・リテラシー)と統計リテラシーの両方の重要な部分である。 データ科学においてチャート理解がますます重要になっているため、グラフのラスタ画像処理によるチャート解析の自動化が大きな問題となっている。 自動チャート読み込みは、データ抽出とグラフ画像からのデータのコンテキスト理解を含む。 本稿では,選択したチャートタイプ,すなわちバーチャートと散布プロットのデータ抽出のためのチャート画像の計算モデルを決定する第一歩を実行する。 正半定値二階テンソル場を有効モデルとして用いることを実証する。 適切なテンソル場をモデルとして同定し,その縮退点抽出をグラフ画像からのデータ抽出に用いる手法を提案する。 その結果、テンソル投票は、バーチャートの特別な場合として、バーチャート、散乱プロット、ヒストグラムからのデータ抽出に有効であることがわかった。

Charts are an essential part of both graphicacy (graphical literacy), and statistical literacy. As chart understanding has become increasingly relevant in data science, automating chart analysis by processing raster images of the charts has become a significant problem. Automated chart reading involves data extraction and contextual understanding of the data from chart images. In this paper, we perform the first step of determining the computational model of chart images for data extraction for selected chart types, namely, bar charts, and scatter plots. We demonstrate the use of positive semidefinite second-order tensor fields as an effective model. We identify an appropriate tensor field as the model and propose a methodology for the use of its degenerate point extraction for data extraction from chart images. Our results show that tensor voting is effective for data extraction from bar charts and scatter plots, and histograms, as a special case of bar charts.
翻訳日:2022-10-10 22:35:25 公開日:2020-10-05
# 顔認識技術におけるバイアスの理解

Understanding bias in facial recognition technologies ( http://arxiv.org/abs/2010.07023v1 )

ライセンス: Link先を確認
David Leslie(参考訳) ここ数年、顔認識の自動化に関する議論が沸騰している。 開発者はこうした技術の範囲を、ほぼ無制限のアプリケーションへと急速に拡大し続けており、批判的な声の強烈な合唱は、こうしたシステムの拡散による有害な影響を懸念している。 反対者は、顔検出および認識技術(fdrts)の無責任な設計と使用は、市民の自由を侵害し、基本的人権を侵害し、さらに構造的人種差別と体系的限界化を妨害する恐れがあると主張している。 彼らはまた、顔の監視基盤をあらゆる領域に徐々に浸透させることによって、長い間個人の繁栄、社会的連帯、そして人間の自己創造を大切にしてきた現代の民主的な生活形態が根絶される可能性があると警告した。 対照的に、被告は、顔認証、アイデンティティ検証、特徴的特徴化の能力のデジタル化を図った公共の安全、セキュリティ、効率の向上を強調している。 本稿では、FDRTの開発と展開において、偏見と差別のダイナミクスが果たす役割について説明する。 差別の歴史的パターンが、FDRTの設計と実装に、その最初期の瞬間からどのように浸透してきたかを考察する。 そして、偏りのあるFDRTの使用が、分布的および認識的不正を導く方法を説明します。 この説明者は、広範囲にわたる顔ベースの監視インフラの潜在的な拡大に関する幅広い倫理的問題を調査し、これらの技術の開発とガバナンスに対するより責任あるアプローチを育むことを推奨している。

Over the past couple of years, the growing debate around automated facial recognition has reached a boiling point. As developers have continued to swiftly expand the scope of these kinds of technologies into an almost unbounded range of applications, an increasingly strident chorus of critical voices has sounded concerns about the injurious effects of the proliferation of such systems. Opponents argue that the irresponsible design and use of facial detection and recognition technologies (FDRTs) threatens to violate civil liberties, infringe on basic human rights and further entrench structural racism and systemic marginalisation. They also caution that the gradual creep of face surveillance infrastructures into every domain of lived experience may eventually eradicate the modern democratic forms of life that have long provided cherished means to individual flourishing, social solidarity and human self-creation. Defenders, by contrast, emphasise the gains in public safety, security and efficiency that digitally streamlined capacities for facial identification, identity verification and trait characterisation may bring. In this explainer, I focus on one central aspect of this debate: the role that dynamics of bias and discrimination play in the development and deployment of FDRTs. I examine how historical patterns of discrimination have made inroads into the design and implementation of FDRTs from their very earliest moments. And, I explain the ways in which the use of biased FDRTs can lead distributional and recognitional injustices. The explainer concludes with an exploration of broader ethical questions around the potential proliferation of pervasive face-based surveillance infrastructures and makes some recommendations for cultivating more responsible approaches to the development and governance of these technologies.
翻訳日:2022-10-10 22:35:12 公開日:2020-10-05
# 車両網における協調エッジコンピューティングのための深層強化学習

Deep Reinforcement Learning for Collaborative Edge Computing in Vehicular Networks ( http://arxiv.org/abs/2010.01722v1 )

ライセンス: Link先を確認
Mushu Li, Jie Gao, Lian Zhao, Xuemin Shen(参考訳) モバイルエッジコンピューティング(mec)は、インテリジェントパス計画や安全アプリケーションといったミッションクリティカルな車両アプリケーションをサポートする有望な技術である。 本稿では,車両網におけるサービス遅延を低減し,サービス信頼性を向上させるための協調エッジコンピューティングフレームワークを開発した。 まず,タスク分割スケジューリングアルゴリズム(TPSA)を提案し,計算オフロード戦略が与えられた場合,タスクの負荷割当を決定し,エッジサーバにオフロードしたタスクの実行順序をスケジュールする。 第二に、人工知能(AI)に基づく協調コンピューティングアプローチが開発され、車両のタスクオフロード、コンピューティング、結果配信ポリシーが決定される。 具体的には、オフロードと計算の問題はマルコフ決定プロセスとして定式化される。 複雑な都市交通ネットワークにおける最適解を見つけるために, 深層強化学習技術, 深層決定論的政策勾配を採用する。 このアプローチにより、協調コンピューティングにおける最適なワークロード割り当てとサーバの選択により、サービスレイテンシとサービス障害ペナルティを含むサービスコストを最小化することができる。 シミュレーションの結果,提案手法は性能に優れた動的環境に適応できることがわかった。

Mobile edge computing (MEC) is a promising technology to support mission-critical vehicular applications, such as intelligent path planning and safety applications. In this paper, a collaborative edge computing framework is developed to reduce the computing service latency and improve service reliability for vehicular networks. First, a task partition and scheduling algorithm (TPSA) is proposed to decide the workload allocation and schedule the execution order of the tasks offloaded to the edge servers given a computation offloading strategy. Second, an artificial intelligence (AI) based collaborative computing approach is developed to determine the task offloading, computing, and result delivery policy for vehicles. Specifically, the offloading and computing problem is formulated as a Markov decision process. A deep reinforcement learning technique, i.e., deep deterministic policy gradient, is adopted to find the optimal solution in a complex urban transportation network. By our approach, the service cost, which includes computing service latency and service failure penalty, can be minimized via the optimal workload assignment and server selection in collaborative computing. Simulation results show that the proposed AI-based collaborative computing approach can adapt to a highly dynamic environment with outstanding performance.
翻訳日:2022-10-10 22:34:43 公開日:2020-10-05
# 深層学習を用いた解析特異的高速シミュレーションによるlhcにおけるデータ拡張

Data Augmentation at the LHC through Analysis-specific Fast Simulation with Deep Learning ( http://arxiv.org/abs/2010.01835v1 )

ライセンス: Link先を確認
Cheng Chen, Olmo Cerri, Thong Q. Nguyen, Jean-Roch Vlimant, Maurizio Pierini(参考訳) 本稿では,大規模解析専用データセットを作成するために設計された深層ニューラルネットワークに基づく高速シミュレーションアプリケーションを提案する。 sqrt(s)=13TeV陽子-陽子衝突で発生するW+jet事象の生成例として、我々はニューラルネットワークをトレーニングし、検出効果のない世代レベルで計算される分析固有の特徴のセットに作用する伝達関数として検出器分解効果をモデル化する。 このモデルに基づき、大量のジェネレータレベルのイベントから始まり、大規模な分析特有のサンプルを提供する、新しい高速シミュレーションワークフローを提案する。 このアプローチの採用によって、衝突シミュレーションワークフローの計算とストレージ要件の桁違いな削減が実現されるでしょう。 この戦略は、高エネルギー物理学コミュニティが将来の高Luminosity LHCの計算課題に直面するのに役立つだろう。

We present a fast simulation application based on a Deep Neural Network, designed to create large analysis-specific datasets. Taking as an example the generation of W+jet events produced in sqrt(s)= 13 TeV proton-proton collisions, we train a neural network to model detector resolution effects as a transfer function acting on an analysis-specific set of relevant features, computed at generation level, i.e., in absence of detector effects. Based on this model, we propose a novel fast-simulation workflow that starts from a large amount of generator-level events to deliver large analysis-specific samples. The adoption of this approach would result in about an order-of-magnitude reduction in computing and storage requirements for the collision simulation workflow. This strategy could help the high energy physics community to face the computing challenges of the future High-Luminosity LHC.
翻訳日:2022-10-10 22:34:07 公開日:2020-10-05
# スマート農業における化学センシング最適化のためのブロックチェーンとナノモノのインターネット

Block Chain and Internet of Nano-Things for Optimizing Chemical Sensing in Smart Farming ( http://arxiv.org/abs/2010.01941v1 )

ライセンス: Link先を確認
Dixon Vimalajeewa, Subhasis Thakur, John Breslin, Donagh P. Berry, Sasitharan Balasubramaniam(参考訳) Internet of Things(IoT)とInternet of Nano Things(IoNT)を使用することで、意思決定システム(DMS)をさらに拡張して、信頼性を向上させることが可能になる。 しかし、データセキュリティ、透明性、処理能力といった関心の高まりは、現実世界のアプリケーションでの使用に挑戦している。 Block Chain(BC)技術と統合されたDMSは、このような課題を克服するために多大な貢献をすることができる。 BCとともにIoNTとIoTを使用したDMSの開発についてはまだ調査されていない。 本研究は,BC-IoNT(BC-IoNT)を用いた農業経営における化学物質レベル検知システムを提案する。 これは、化学物質の流通制御による持続可能な農業慣行の改善を目的とした、スマート農業にとって重要な応用である。 BC-IoNTシステムは、ラングミュア分子結合モデルとベイズ理論を用いて形成された新しい機械学習モデルを含み、化学物質のレベルを検知するためのスマートコントラクトとして使用される。 信用モデルは、農場のトレーサビリティと信頼性を定量化し、それらが化学基準に準拠しているかどうかを判断するために用いられる。 分散bc-iont法における化学物質の検出精度は90%以上であり,中央集権的手法は80%であった。 また, 化学レベルの測定効率は, 農作物における化学レベルのサンプリング頻度と変動率に依存する。

The use of Internet of Things (IoT) with the Internet of Nano Things (IoNT) can further expand decision making systems (DMS) to improve reliability as it provides a new spectrum of more granular level data to make decisions. However, growing concerns such as data security, transparency and processing capability challenge their use in real-world applications. DMS integrated with Block Chain (BC) technology can contribute immensely to overcome such challenges. The use of IoNT and IoT along with BC for making DMS has not yet been investigated. This study proposes a BC-powered IoNT (BC-IoNT) system for sensing chemicals level in the context of farm management. This is a critical application for smart farming, which aims to improve sustainable farm practices through controlled delivery of chemicals. BC-IoNT system includes a novel machine learning model formed by using the Langmuir molecular binding model and the Bayesian theory, and is used as a smart contract for sensing the level of the chemicals. A credit model is used to quantify the traceability and credibility of farms to determine if they are compliant with the chemical standards. The accuracy of detecting the chemicals of the distributed BC-IoNT approach was >90% and the centralized approach was <80%. Also, the efficiency of sensing the level of chemicals depends on the sampling frequency and variability in chemical level among farms.
翻訳日:2022-10-10 22:33:51 公開日:2020-10-05
# 双線型ゲームと正規行列に対する平均ケース加速度

Average-case Acceleration for Bilinear Games and Normal Matrices ( http://arxiv.org/abs/2010.02076v1 )

ライセンス: Link先を確認
Carles Domingo-Enrich, Fabian Pedregosa, Damien Scieur(参考訳) 生成的モデリングと敵対的学習の進歩は、滑らかなゲームに対する新たな関心をもたらした。 しかし、2階微分の行列における対称性の欠如は、古典的な最小化の枠組みには存在しない問題を引き起こす。 平均ケース分析の豊富な理論は最小化問題のために開発されてきたが、滑らかなゲームの文脈ではほとんど知られていない。 本研究では、スムーズなゲームの部分集合に対する平均ケース最適一階法を開発することにより、このギャップを埋める第一歩を踏み出す。 主な貢献は以下の3つである。 まず、ゼロサム双線型ゲームでは、平均ケース最適法はハミルトニアンの最小化の最適な方法であることを示す。 第二に、正規行列に対応する最適手法に対して、潜在的に非対称な明示的な表現を提供する。 最後に,ディスク内の固有値を持つ行列に特化して,最悪ケースの最適アルゴリズムと比較して,証明可能なスピードアップを示す。 本研究は,我々の仮定とミスマッチの程度が異なるベンチマークによる結果を示す。

Advances in generative modeling and adversarial learning have given rise to renewed interest in smooth games. However, the absence of symmetry in the matrix of second derivatives poses challenges that are not present in the classical minimization framework. While a rich theory of average-case analysis has been developed for minimization problems, little is known in the context of smooth games. In this work we take a first step towards closing this gap by developing average-case optimal first-order methods for a subset of smooth games. We make the following three main contributions. First, we show that for zero-sum bilinear games the average-case optimal method is the optimal method for the minimization of the Hamiltonian. Second, we provide an explicit expression for the optimal method corresponding to normal matrices, potentially non-symmetric. Finally, we specialize it to matrices with eigenvalues located in a disk and show a provable speed-up compared to worst-case optimal algorithms. We illustrate our findings through benchmarks with a varying degree of mismatch with our assumptions.
翻訳日:2022-10-10 22:33:30 公開日:2020-10-05
# adalead: 配列設計のための単純でロバストな適応グリーディ探索アルゴリズム

AdaLead: A simple and robust adaptive greedy search algorithm for sequence design ( http://arxiv.org/abs/2010.02141v1 )

ライセンス: Link先を確認
Sam Sinai, Richard Wang, Alexander Whatley, Stewart Slocum, Elina Locane, Eric D. Kelsic(参考訳) 生物配列の効率的な設計は、多くの産業分野や医療分野に大きな影響を与えるだろう。 しかし、改良されたシーケンスを見つけるには、難しい最適化問題を解く必要がある。 伝統的に、この挑戦はランダムな突然変異と選択の反復過程である「直接進化」と呼ばれるモデルのない方法によって生物学者によってアプローチされた。 シーケンシャル・ツー・ファンクションマップをキャプチャするモデルを構築する能力が向上するにつれ、このようなモデルは実験を実行する前に、oracleとしてシーケンシャルを表示できる。 近年,モデルフリー手法を効果的に活用するアルゴリズムへの関心が高まっている。 これらはベイズ最適化に基づくアプローチから、正規化生成モデルや強化学習の適応にまで及んでいる。 本研究では,オープンソースのフィットネスランドスケープ探索サンドボックス(flexs: github.com/samsinai/flexs)環境を実装し,アルゴリズムの最適性,一貫性,堅牢性に基づいて評価を行う。 FLEXSを用いて、実装が容易で、スケーラブルで、堅牢な進化的欲求アルゴリズム(AdaLead)を開発した。 その単純さにもかかわらず、AdaLeadは極めて強力なベンチマークであり、様々な生物学的に動機付けられたシーケンス設計の課題において、アートアプローチのより複雑な状態を上回ります。

Efficient design of biological sequences will have a great impact across many industrial and healthcare domains. However, discovering improved sequences requires solving a difficult optimization problem. Traditionally, this challenge was approached by biologists through a model-free method known as "directed evolution", the iterative process of random mutation and selection. As the ability to build models that capture the sequence-to-function map improves, such models can be used as oracles to screen sequences before running experiments. In recent years, interest in better algorithms that effectively use such oracles to outperform model-free approaches has intensified. These span from approaches based on Bayesian Optimization, to regularized generative models and adaptations of reinforcement learning. In this work, we implement an open-source Fitness Landscape EXploration Sandbox (FLEXS: github.com/samsinai/FLEXS) environment to test and evaluate these algorithms based on their optimality, consistency, and robustness. Using FLEXS, we develop an easy-to-implement, scalable, and robust evolutionary greedy algorithm (AdaLead). Despite its simplicity, we show that AdaLead is a remarkably strong benchmark that out-competes more complex state of the art approaches in a variety of biologically motivated sequence design challenges.
翻訳日:2022-10-10 22:33:17 公開日:2020-10-05
# 脳波-fMRI同時変換による潜時神経源回復

Latent neural source recovery via transcoding of simultaneous EEG-fMRI ( http://arxiv.org/abs/2010.02167v1 )

ライセンス: Link先を確認
Xueqing Liu, Linbi Hong, and Paul Sajda(参考訳) 同時脳波-fmriは、神経活動の潜在源空間を推定するための相補的空間分解能と時間分解能を提供するマルチモーダルニューロイメージング技術である。 本稿では、トランスコーディングの枠組みにおけるこの推論問題に対処します -- 特定のエンコーディング(モダリティ)からデコーディング(潜在ソース空間)へマッピングし、その後、潜在ソース空間を他のモダリティにエンコーディングします。 具体的には,eegをfmriに変換する循環畳み込みトランスコーダからなる対称的手法を開発した。 血行力学的応答関数またはリードフィールド行列の事前知識がなければ、この手法はモダリティと潜在源空間の間の時間的および空間的関係を利用してこれらの写像を学ぶ。 実脳波-fMRIデータに対して、モーダルティが相互にいかにうまく変換され、また、復元されるソース空間が、すべて目に見えないデータに基づいて得られるかを示す。 遅延ソース空間を対称的に推論する新しい方法を可能にすることに加えて、この手法は低コストの計算ニューロイメージング、すなわち低コストの脳波データから「拡張的」fMRI BOLD画像を生成することができる。

Simultaneous EEG-fMRI is a multi-modal neuroimaging technique that provides complementary spatial and temporal resolution for inferring a latent source space of neural activity. In this paper we address this inference problem within the framework of transcoding -- mapping from a specific encoding (modality) to a decoding (the latent source space) and then encoding the latent source space to the other modality. Specifically, we develop a symmetric method consisting of a cyclic convolutional transcoder that transcodes EEG to fMRI and vice versa. Without any prior knowledge of either the hemodynamic response function or lead field matrix, the method exploits the temporal and spatial relationships between the modalities and latent source spaces to learn these mappings. We show, for real EEG-fMRI data, how well the modalities can be transcoded from one to another as well as the source spaces that are recovered, all on unseen data. In addition to enabling a new way to symmetrically infer a latent source space, the method can also be seen as low-cost computational neuroimaging -- i.e. generating an 'expensive' fMRI BOLD image from 'low cost' EEG data.
翻訳日:2022-10-10 22:32:56 公開日:2020-10-05
# MRIにおけるサンプリングスキームのオフザグリッドデータ駆動最適化

Off-the-grid data-driven optimization of sampling schemes in MRI ( http://arxiv.org/abs/2010.01817v1 )

ライセンス: Link先を確認
Alban Gossard (IMT), Fr\'ed\'eric de Gournay (IMT), Pierre Weiss (CNRS, IMT)(参考訳) 本稿では,MRIにおける効率よく,物理的に妥当なサンプリングパターンを生成する新しい学習アルゴリズムを提案する。 この手法は近年の学習ベースアプローチと比較していくつかの利点がある。 i)オフ・ザ・グリッドで動作し、 ii) 任意の物理的制約を扱うことができる。 これらの2つの機能は、MRIスキャナーが提供する自由度をすべて活用できるサンプリングパターンにおいて、はるかに汎用性を実現する。 この手法はアルゴリズムによって暗黙的に定義されたコスト関数の高次元最適化からなる。 この数値問題に対処する様々な数値ツールを提案する。

We propose a novel learning based algorithm to generate efficient and physically plausible sampling patterns in MRI. This method has a few advantages compared to recent learning based approaches: i) it works off-the-grid and ii) allows to handle arbitrary physical constraints. These two features allow for much more versatility in the sampling patterns that can take advantage of all the degrees of freedom offered by an MRI scanner. The method consists in a high dimensional optimization of a cost function defined implicitly by an algorithm. We propose various numerical tools to address this numerical challenge.
翻訳日:2022-10-10 22:27:01 公開日:2020-10-05
# テンソル完備による非線形自己干渉キャンセル

Non-Linear Self-Interference Cancellation via Tensor Completion ( http://arxiv.org/abs/2010.01868v1 )

ライセンス: Link先を確認
Freek Jochems and Alexios Balatsoukas-Stimming(参考訳) 非線形自己干渉(SI)キャンセルは、一般に多項式モデルまたはニューラルネットワークを用いて取り組まれる全二重通信の基本的な問題である。 そこで本研究では,低ランクテンソル完備化(canonical system Identification, CSID)に基づく非線形SIキャンセルへの適用性について検討する。 その結果、CSIDは非線形SI信号のモデリングやキャンセルに非常に効果的であり、メモリ要求の増加を犠牲にしながら、既存の手法よりも計算の複雑さが低いことがわかった。

Non-linear self-interference (SI) cancellation constitutes a fundamental problem in full-duplex communications, which is typically tackled using either polynomial models or neural networks. In this work, we explore the applicability of a recently proposed method based on low-rank tensor completion, called canonical system identification (CSID), to non-linear SI cancellation. Our results show that CSID is very effective in modeling and cancelling the non-linear SI signal and can have lower computational complexity than existing methods, albeit at the cost of increased memory requirements.
翻訳日:2022-10-10 22:26:54 公開日:2020-10-05
# LEAPME: 埋め込みと学習ベースのプロパティマッチング

LEAPME: Learning-based Property Matching with Embeddings ( http://arxiv.org/abs/2010.01951v1 )

ライセンス: Link先を確認
Daniel Ayala, Inma Hern\'andez, David Ruiz, Erhard Rahm(参考訳) 知識グラフの作成や拡張のようなデータ統合タスクは、多くのソースからの異種エンティティの融合を含む。 このようなエンティティのマッチングと融合には、プロパティ(属性)のマッチングと結合も必要です。 しかし、従来のスキーママッチングアプローチは2つのソースのみに焦点を当てており、単純な類似度測定に依存することが多い。 したがって、多くのソースからの異種製品エンティティの統合など、困難なユースケースで問題に直面します。 そこで我々はLEAPME(LEArning-based Property Matching with Embeddings)と呼ばれる機械学習に基づく新しいプロパティマッチング手法を提案する。 このアプローチでは、プロパティ名とインスタンス値の両方のドメイン固有のセマンティクスをよりよく活用するために、ワード埋め込みを多用している。 教師付き機械学習は、単語埋め込みの予測能力を利用するのに役立つ。 実世界データを用いた複数のマルチソースデータセットに対する5つのベースラインの比較評価により,LEAPMEの有効性が示唆された。 また,このアプローチは,他の領域からのデータ(転校学習)が使用される場合にも有効であることを示した。

Data integration tasks such as the creation and extension of knowledge graphs involve the fusion of heterogeneous entities from many sources. Matching and fusion of such entities require to also match and combine their properties (attributes). However, previous schema matching approaches mostly focus on two sources only and often rely on simple similarity measurements. They thus face problems in challenging use cases such as the integration of heterogeneous product entities from many sources. We therefore present a new machine learning-based property matching approach called LEAPME (LEArning-based Property Matching with Embeddings) that utilizes numerous features of both property names and instance values. The approach heavily makes use of word embeddings to better utilize the domain-specific semantics of both property names and instance values. The use of supervised machine learning helps exploit the predictive power of word embeddings. Our comparative evaluation against five baselines for several multi-source datasets with real-world data shows the high effectiveness of LEAPME. We also show that our approach is even effective when training data from another domain (transfer learning) is used.
翻訳日:2022-10-10 22:26:44 公開日:2020-10-05
# ディープラーニングを用いたcad-rads自動スコアリング

Automatic CAD-RADS Scoring Using Deep Learning ( http://arxiv.org/abs/2010.01963v1 )

ライセンス: Link先を確認
Felix Denzinger, Michael Wels, Katharina Breininger, Mehmet A. G\"uls\"un, Max Sch\"obinger, Florian Andr\'e, Sebastian Bu\ss, Johannes G\"orich, Michael S\"uhling, Andreas Maier(参考訳) 冠動脈造影(CCTA)は,冠動脈疾患(CAD)の診断における非侵襲的モダリティとしての役割を確立している。 cad-reporting and data system (cad-rads) はcctaに基づく意思決定の標準化と支援を目的として開発された。 CAD-RADSスコアは,全冠血管のマニュアル評価と冠状動脈内病変のグレードにより決定される。 冠動脈のセグメント的表現に基づくディープラーニングを用いて,このスコアの完全自動予測のためのボトムアップ手法を提案する。 従来の完全自動中心線抽出とセグメントラベリングのみに依存し、マルチタスク学習設定における補助タスクとしてセグメント毎の狭窄度と全体の石灰化度を予測する。 2,867人の患者からなるデータ収集に関するアプローチを評価した。 CAD-RADSスコアを用いて, さらなる侵襲的調査の必要性を示す患者を識別する作業は, 患者がCADに苦しむかどうかを判定するために, 0.923の曲線下領域(AUC)と0.914のAUCに到達した。 このレベルのパフォーマンスによって、完全に自動化されたスクリーニング設定や診断用のccta読み取り、特にニューラルネットワークの設計によって、当社のアプローチが利用可能になります。

Coronary CT angiography (CCTA) has established its role as a non-invasive modality for the diagnosis of coronary artery disease (CAD). The CAD-Reporting and Data System (CAD-RADS) has been developed to standardize communication and aid in decision making based on CCTA findings. The CAD-RADS score is determined by manual assessment of all coronary vessels and the grading of lesions within the coronary artery tree. We propose a bottom-up approach for fully-automated prediction of this score using deep-learning operating on a segment-wise representation of the coronary arteries. The method relies solely on a prior fully-automated centerline extraction and segment labeling and predicts the segment-wise stenosis degree and the overall calcification grade as auxiliary tasks in a multi-task learning setup. We evaluate our approach on a data collection consisting of 2,867 patients. On the task of identifying patients with a CAD-RADS score indicating the need for further invasive investigation our approach reaches an area under curve (AUC) of 0.923 and an AUC of 0.914 for determining whether the patient suffers from CAD. This level of performance enables our approach to be used in a fully-automated screening setup or to assist diagnostic CCTA reading, especially due to its neural architecture design -- which allows comprehensive predictions.
翻訳日:2022-10-10 22:26:18 公開日:2020-10-05
# 教師なし学習による異常拡散源の同定

Identification of Anomalous Diffusion Sources by Unsupervised Learning ( http://arxiv.org/abs/2010.02168v1 )

ライセンス: Link先を確認
Raviteja Vangara, Kim \O. Rasmussen, Dimiter N. Petsev, Golan Bel and Boian S. Alexandrov(参考訳) 分数ブラウン運動(英: fractional brownian motion、fbm)は、確率輸送の記憶効果が力則に従う平均二乗粒子の変位をもたらすユビキタスな拡散過程であり、拡散指数 $\alpha$ は輸送が劣微分的であるか($\alpha<1$)、拡散的であるか($\alpha = 1$)、超微分的であるか($\alpha >1$)を特徴づける。 自然界におけるfBm過程の豊富さのため、様々な現象におけるfBm源の同定とキャラクタリゼーションに多大な努力が注がれている。 実際には、fBm源の同定は、限られた観測データに基づく複雑で不適切な逆問題の解法に依存することが多い。 一般的な場合、検出された信号は未知の数の放出源によって形成され、異なる位置に位置し、異なる強度で同時に作用する。 これは、観測されたデータは未知数のソースからの放出の混合物で構成されており、従来の逆モデリングアプローチは信頼できないことを意味する。 本稿では,非負行列因子化に基づく教師なし学習手法について報告する。これは未知の放出源数と,限られた観測データと対応するfBm Green関数の一般形に基づく異常拡散特性の同定を可能にする。 提案手法は,特定の特徴を持つ所定回数のソースと設定の異なる種類のソースに対して精度良く動作し,ノイズを導入した。

Fractional Brownian motion (fBm) is a ubiquitous diffusion process in which the memory effects of the stochastic transport result in the mean squared particle displacement following a power law, $\langle {\Delta r}^2 \rangle \sim t^{\alpha}$, where the diffusion exponent $\alpha$ characterizes whether the transport is subdiffusive, ($\alpha<1$), diffusive ($\alpha = 1$), or superdiffusive, ($\alpha >1$). Due to the abundance of fBm processes in nature, significant efforts have been devoted to the identification and characterization of fBm sources in various phenomena. In practice, the identification of the fBm sources often relies on solving a complex and ill-posed inverse problem based on limited observed data. In the general case, the detected signals are formed by an unknown number of release sources, located at different locations and with different strengths, that act simultaneously. This means that the observed data is composed of mixtures of releases from an unknown number of sources, which makes the traditional inverse modeling approaches unreliable. Here, we report an unsupervised learning method, based on Nonnegative Matrix Factorization, that enables the identification of the unknown number of release sources as well the anomalous diffusion characteristics based on limited observed data and the general form of the corresponding fBm Green's function. We show that our method performs accurately for different types of sources and configurations with a predetermined number of sources with specific characteristics and introduced noise.
翻訳日:2022-10-10 22:25:30 公開日:2020-10-05
# 機械学習を用いたその場測定による地球土壌水分測定 -somo.ml

Global soil moisture from in-situ measurements using machine learning -- SoMo.ml ( http://arxiv.org/abs/2010.02374v1 )

ライセンス: Link先を確認
Sungmin O and Rene Orth(参考訳) 土壌水分情報は幅広い水文・気候の応用に不可欠であるが、空間連続的な土壌水分データは衛星観測やモデルシミュレーションからのみ利用できる。 本稿では,機械学習,somo.mlを用いたその場測定から生成する土壌水分の地球的長期データセットを提案する。 我々は、世界中の1000以上のステーションから収集されたその場データに基づいて、空間および時間における土壌水分動態を推定するLong Short-Term Memory(LSTM)モデルを訓練する。 SoMo.mlは、2000-2019年の時空間分解能0.25{\deg} で多層土壌水分データ(0-10 cm, 10-30 cm, 30-50 cm)を提供する。 得られたデータセットの性能は、既存の土壌水分データセットとクロス検証および相互比較によって評価される。 somo.mlは特に時間的ダイナミクスの点でよく機能し、異常検出やメモリ解析のような時間変化の土壌水分を必要とするアプリケーションで特に有用である。 SoMo.mlは、独立した新しい派生法を与えられた既存のモデルと衛星ベースのデータセット群を補完し、大規模な水文学、気象学、生態学的分析をサポートする。

While soil moisture information is essential for a wide range of hydrologic and climate applications, spatially-continuous soil moisture data is only available from satellite observations or model simulations. Here we present a global, long-term dataset of soil moisture generated from in-situ measurements using machine learning, SoMo.ml. We train a Long Short-Term Memory (LSTM) model to extrapolate daily soil moisture dynamics in space and in time, based on in-situ data collected from more than 1,000 stations across the globe. SoMo.ml provides multi-layer soil moisture data (0-10 cm, 10-30 cm, and 30-50 cm) at 0.25{\deg} spatial and daily temporal resolution over the period 2000-2019. The performance of the resulting dataset is evaluated through cross validation and inter-comparison with existing soil moisture datasets. SoMo.ml performs especially well in terms of temporal dynamics, making it particularly useful for applications requiring time-varying soil moisture, such as anomaly detection and memory analyses. SoMo.ml complements the existing suite of modelled and satellite-based datasets given its independent and novel derivation, to support large-scale hydrological, meteorological, and ecological analyses.
翻訳日:2022-10-10 22:24:26 公開日:2020-10-05
# ガウスプロセスサロゲートによる材料挙動不確かさの把握による再建手術設計の改善

Improving Reconstructive Surgery Design using Gaussian Process Surrogates to Capture Material Behavior Uncertainty ( http://arxiv.org/abs/2010.02800v1 )

ライセンス: Link先を確認
Casey Stowers, Taeksang Lee, Ilias Bilionis, Arun Gosain, Adrian Buganza Tepole(参考訳) 創部付近の過剰な負荷は、病的傷やその他の合併症を引き起こす。 現在、手術室での外科医によるストレス測定は容易ではない。 外科医は直感と経験に頼っている。 予測計算ツールは手術計画の理想的な候補である。 有限要素シミュレーション(FE)は、大きな皮膚パッチや複雑なケースの応力場を予測することを約束しており、合併症の潜在的な領域を特定するのに役立つ。 残念ながら、これらのシミュレーションは計算コストが高く決定論的です。 しかし,feシミュレーションにより,計算効率が高く任意の材料パラメータに対する応力・ひずみを予測できる局所皮弁のモデルであるガウス過程(gp)を作成することができた。 ここでは、進行、回転、転位フラップのためのgpサロゲートを作成する。 次に、これらのサロゲートの予測能力を用いてグローバル感度解析を行い、最終的に繊維方向がひずみ場の変化に最も大きな影響を与えることを示す。 次に, 臨床ガイドラインにより誘導される3つの異なる目的に対して, 各フラップの最適繊維方向を決定する最適化を行う。 物質的特性は外科医によって制御されず、実際には不確実性の源であるが、実際に外科医はフラップの向きを制御することができる。 したがって、臨床的に最適化できる材料パラメータは繊維方向のみである。 最適化タスクはGPサロゲートの効率に依存し、他の材料パラメータの不確実性を含む場合、異なる戦略の期待コストを計算する。 3つのコスト関数に対して最適なフラップ配向を提案し,手術に伴うストレスの軽減と,創部近傍の過度の機械的負荷に伴う合併症の軽減に寄与する。

Excessive loads near wounds produce pathological scarring and other complications. Presently, stress cannot easily be measured by surgeons in the operating room. Instead, surgeons rely on intuition and experience. Predictive computational tools are ideal candidates for surgery planning. Finite element (FE) simulations have shown promise in predicting stress fields on large skin patches and complex cases, helping to identify potential regions of complication. Unfortunately, these simulations are computationally expensive and deterministic. However, running a few, well-selected FE simulations allows us to create Gaussian process (GP) surrogate models of local cutaneous flaps that are computationally efficient and able to predict stress and strain for arbitrary material parameters. Here, we create GP surrogates for the advancement, rotation, and transposition flaps. We then use the predictive capability of these surrogates to perform a global sensitivity analysis, ultimately showing that fiber direction has the most significant impact on strain field variations. We then perform an optimization to determine the optimal fiber direction for each flap for three different objectives driven by clinical guidelines. While material properties are not controlled by the surgeon and are actually a source of uncertainty, the surgeon can in fact control the orientation of the flap. Therefore, fiber direction is the only material parameter that can be optimized clinically. The optimization task relies on the efficiency of the GP surrogates to calculate the expected cost of different strategies when the uncertainty of other material parameters is included. We propose optimal flap orientations for the three cost functions and that can help in reducing stress resulting from the surgery and ultimately reduce complications associated with excessive mechanical loading near wounds.
翻訳日:2022-10-10 22:24:03 公開日:2020-10-05
# 密度深度マップを用いた3次元画像の奥行き層分け-しきい値に基づくアプローチ

Depth-wise layering of 3d images using dense depth maps: a threshold based approach ( http://arxiv.org/abs/2010.01841v1 )

ライセンス: Link先を確認
Seyedsaeid Mirkamali, P. Nagabhushan(参考訳) 画像分割はコンピュータビジョンの基本的な問題である。 Depth-wise Layeringは、表面分解を扱う従来の画像分割問題とは異なり、ディープワイズシーケンスで画像をスライスするセグメンテーションの一種である。 提案したDepth-wise Layering技術は、静的シーンの1つの深さ画像を複数の層に分割する。 本手法では,高密度深度マップのセグメント行を線形分割(Line-Segments)と呼ばれる小さなパーティションに分割する。 次に、線分ラベル法を用いて、シーンのオブジェクトの数とレイヤを独立して識別する。 最後のステージは、シーンのオブジェクトをそれぞれのオブジェクト層にリンクする。 提案手法の有効性を,多くの画像に高密度深度マップとともに適用することにより評価する。 実験は層化の有望な結果を示した。

Image segmentation has long been a basic problem in computer vision. Depth-wise Layering is a kind of segmentation that slices an image in a depth-wise sequence unlike the conventional image segmentation problems dealing with surface-wise decomposition. The proposed Depth-wise Layering technique uses a single depth image of a static scene to slice it into multiple layers. The technique employs a thresholding approach to segment rows of the dense depth map into smaller partitions called Line-Segments in this paper. Then, it uses the line-segment labelling method to identify number of objects and layers of the scene independently. The final stage is to link objects of the scene to their respective object-layers. We evaluate the efficiency of the proposed technique by applying that on many images along with their dense depth maps. The experiments have shown promising results of layering.
翻訳日:2022-10-10 22:17:24 公開日:2020-10-05
# テスト時間非教師なしドメイン適応

Test-time Unsupervised Domain Adaptation ( http://arxiv.org/abs/2010.01926v1 )

ライセンス: Link先を確認
Thomas Varsavsky, Mauricio Orbes-Arteaga, Carole H. Sudre, Mark S. Graham, Parashkev Nachev, M. Jorge Cardoso(参考訳) 公開されている医療画像データセット(ソースドメイン)に基づいてトレーニングされた畳み込みニューラルネットワークは、しばしば異なるスキャナや取得プロトコル(ターゲットドメイン)に一般化される。 これはドメイン適応の活発なフィールドを動機付ける。 問題に対するいくつかのアプローチは対象ドメインからのラベル付きデータを必要とするが、他のアプローチはドメイン適応(UDA)に対する教師なしのアプローチを採用する。 UDA手法の評価は、対象領域内の見えないデータに一般化するモデルの能力を測定することである。 この研究では、これはテストセットに直接適応するほど役に立たないと論じます。 そこで我々は,各被験者に対して個別にテスト時間UDAを行う評価フレームワークを提案する。 対象ドメインから特定の対象対象に適応したモデルは、対象ドメインのより多くのデータを見たが、対象ドメインの特定の対象ではないドメイン適応法より優れていることを示す。 この結果は、たとえ単一の対象ドメインのみを使用する場合でも、教師なしドメイン適応がテスト時に使用されるべきだという仮説を支持します。

Convolutional neural networks trained on publicly available medical imaging datasets (source domain) rarely generalise to different scanners or acquisition protocols (target domain). This motivates the active field of domain adaptation. While some approaches to the problem require labeled data from the target domain, others adopt an unsupervised approach to domain adaptation (UDA). Evaluating UDA methods consists of measuring the model's ability to generalise to unseen data in the target domain. In this work, we argue that this is not as useful as adapting to the test set directly. We therefore propose an evaluation framework where we perform test-time UDA on each subject separately. We show that models adapted to a specific target subject from the target domain outperform a domain adaptation method which has seen more data of the target domain but not this specific target subject. This result supports the thesis that unsupervised domain adaptation should be used at test-time, even if only using a single target-domain subject
翻訳日:2022-10-10 22:17:12 公開日:2020-10-05
# 逆画像印加による脳MRIにおける非教師付き領域ベース異常検出

Unsupervised Region-based Anomaly Detection in Brain MRI with Adversarial Image Inpainting ( http://arxiv.org/abs/2010.01942v1 )

ライセンス: Link先を確認
Bao Nguyen, Adam Feldman, Sarath Bethapudi, Andrew Jennings, Chris G. Willcocks(参考訳) 医療セグメント化は、手術前の関心領域の境界(ROI)を決定するために行われる。 計画段階におけるROIの成長, 構造, 行動の研究を可能とすることにより, 重要な情報を得ることができ, 作戦成功の可能性を高めることができる。 通常、セグメンテーションは手動または手動アノテーションでトレーニングされた機械学習メソッドによって実行される。 対照的に,本研究では,t1強調mriのための完全に自動で教師なしの脳腫瘍セグメンテーションシステムを提案する。 まず、Deep Convolutional Neural Network(DCNN)をトレーニングし、行方不明の健常な脳領域を再構築する。 そして、適用すると、最も高い再建損失の領域を特定して異常領域を決定する。 最後に、これらの領域を分割するためにスーパーピクセルセグメンテーションが行われる。 提案方式では, 様々な大きさと抽象的な腫瘍を分割でき, 0.771 と 0.176 の標準偏差ダイススコアをそれぞれ達成できることを示す。

Medical segmentation is performed to determine the bounds of regions of interest (ROI) prior to surgery. By allowing the study of growth, structure, and behaviour of the ROI in the planning phase, critical information can be obtained, increasing the likelihood of a successful operation. Usually, segmentations are performed manually or via machine learning methods trained on manual annotations. In contrast, this paper proposes a fully automatic, unsupervised inpainting-based brain tumour segmentation system for T1-weighted MRI. First, a deep convolutional neural network (DCNN) is trained to reconstruct missing healthy brain regions. Then, upon application, anomalous regions are determined by identifying areas of highest reconstruction loss. Finally, superpixel segmentation is performed to segment those regions. We show the proposed system is able to segment various sized and abstract tumours and achieves a mean and standard deviation Dice score of 0.771 and 0.176, respectively.
翻訳日:2022-10-10 22:16:56 公開日:2020-10-05
# 連続レベル画像処理のためのスムースなネットワークチューニングと補間

Smoother Network Tuning and Interpolation for Continuous-level Image Processing ( http://arxiv.org/abs/2010.02270v1 )

ライセンス: Link先を確認
Hyeongmin Lee, Taeoh Kim, Hanbin Son, Sangwook Baek, Minsu Cheon, Sangyoun Lee(参考訳) 畳み込みニューラルネットワーク(cnn)ベースの画像処理において、ほとんどの研究は、単一レベル(または単一目的)に最適化されたネットワークを提案する。 複数のレベルをカバーするために複数のモデルを使用するには、非常に高い計算コストがかかる。 これらの問題を解決するために、最近のアプローチでは、2つの異なるレベルのネットワークを訓練し、任意の中間レベルを実現するために独自の補間法を提案する。 しかし、それらの多くは実際の使用において一般化や何らかの副作用を及ぼさない。 本稿では,これらのフレームワークをネットワークチューニングと補間として定義し,フィルタ遷移ネットワーク(FTN)と呼ばれる連続学習のための新しいモジュールを提案する。 このモジュールは既存のモジュールよりも構造的に滑らかなモジュールである。 したがって、FTN のフレームワークは様々なタスクやネットワークにわたってうまく一般化され、望ましくない副作用が少ない。 また、FTNの安定学習のために、IDマッピングを用いて非線形ニューラルネットワーク層を初期化する手法を提案する。 さまざまな画像処理タスクの広範な結果から、ftnのパフォーマンスは複数の連続レベルにおいて同等であり、他のフレームワークよりもかなり滑らかで軽量であることが分かる。

In Convolutional Neural Network (CNN) based image processing, most studies propose networks that are optimized to single-level (or single-objective); thus, they underperform on other levels and must be retrained for delivery of optimal performance. Using multiple models to cover multiple levels involves very high computational costs. To solve these problems, recent approaches train networks on two different levels and propose their own interpolation methods to enable arbitrary intermediate levels. However, many of them fail to generalize or have certain side effects in practical usage. In this paper, we define these frameworks as network tuning and interpolation and propose a novel module for continuous-level learning, called Filter Transition Network (FTN). This module is a structurally smoother module than existing ones. Therefore, the frameworks with FTN generalize well across various tasks and networks and cause fewer undesirable side effects. For stable learning of FTN, we additionally propose a method to initialize non-linear neural network layers with identity mappings. Extensive results for various image processing tasks indicate that the performance of FTN is comparable in multiple continuous levels, and is significantly smoother and lighter than that of other frameworks.
翻訳日:2022-10-10 22:16:42 公開日:2020-10-05
# ガウス過程回帰を用いた太陽光発電の短期予測

Short-term prediction of photovoltaic power generation using Gaussian process regression ( http://arxiv.org/abs/2010.02275v1 )

ライセンス: Link先を確認
Yahya Al Lawati, Jack Kelly, and Dan Stowell(参考訳) 太陽光発電(pv)の電力は気象条件に影響され、太陽光発電システムから発生する電力は不確かである。 この問題を解決することでグリッドの信頼性とコスト効率が向上し、化石燃料プラントへの依存を減らすことができる。 本稿では,英国ガウスプロセス回帰(GPR)におけるPVシステムによって生成されたエネルギーの予測に焦点をあてる。 ガウス過程回帰(英: Gaussian process regression)は、予測値の不確実性と共に予測を提供するベイズ非パラメトリックモデルであり、高い不確実性を持つアプリケーションで非常に有用である。 このモデルは、トレーニング期間、空域範囲、カーネルモデル選択という3つの主要な要因に対して48時間の短期予測と、空域に対する4時間の非常に短期的な予測に対して評価される。 また、予測期間内でのクラウドカバレッジと、予測者としての最初のクラウドカバレッジについて、非常に短期的な予測を比較します。

Photovoltaic (PV) power is affected by weather conditions, making the power generated from the PV systems uncertain. Solving this problem would help improve the reliability and cost effectiveness of the grid, and could help reduce reliance on fossil fuel plants. The present paper focuses on evaluating predictions of the energy generated by PV systems in the United Kingdom Gaussian process regression (GPR). Gaussian process regression is a Bayesian non-parametric model that can provide predictions along with the uncertainty in the predicted value, which can be very useful in applications with a high degree of uncertainty. The model is evaluated for short-term forecasts of 48 hours against three main factors -- training period, sky area coverage and kernel model selection -- and for very short-term forecasts of four hours against sky area. We also compare very short-term forecasts in terms of cloud coverage within the prediction period and only initial cloud coverage as a predictor.
翻訳日:2022-10-10 22:07:12 公開日:2020-10-05
# 生成モデルによる分類ミスの理解

Understanding Classifier Mistakes with Generative Models ( http://arxiv.org/abs/2010.02364v1 )

ライセンス: Link先を確認
La\"etitia Shao, Yang Song, Stefano Ermon(参考訳) 深層ニューラルネットワークは教師付き学習タスクに有効であるが、脆弱であることが示されている。 彼らは訓練分布に過度に適合する傾向があり、小さな敵の摂動によって容易に騙される。 本稿では,分類器が一般化できないインスタンスを識別し,特徴付けするために生成モデルを利用する。 分類器によって抽出された特徴の生成モデルを提案し,本モデルにより特徴が低確率に割り当てられた場合にエラーが発生することを示す。 そこで本研究では,テスト時に分類器が故障する可能性のあるサンプルの検出基準を開発する。 特に, モデル一般化不良によるテストセットの誤り, 反対サンプル, アウト・オブ・ディストリビューションサンプルの3つの原因を検証した。 我々のアプローチはトレーニングセットからクラスラベルに依存せず、半教師付きでトレーニングされたモデルに適用できる。

Although deep neural networks are effective on supervised learning tasks, they have been shown to be brittle. They are prone to overfitting on their training distribution and are easily fooled by small adversarial perturbations. In this paper, we leverage generative models to identify and characterize instances where classifiers fail to generalize. We propose a generative model of the features extracted by a classifier, and show using rigorous hypothesis testing that errors tend to occur when features are assigned low-probability by our model. From this observation, we develop a detection criteria for samples on which a classifier is likely to fail at test time. In particular, we test against three different sources of classification failures: mistakes made on the test set due to poor model generalization, adversarial samples and out-of-distribution samples. Our approach is agnostic to class labels from the training set which makes it applicable to models trained in a semi-supervised way.
翻訳日:2022-10-10 22:06:55 公開日:2020-10-05
# TabEAno: テーブルから知識へのグラフエンティティアノテーション

TabEAno: Table to Knowledge Graph Entity Annotation ( http://arxiv.org/abs/2010.01829v1 )

ライセンス: Link先を確認
Phuc Nguyen and Natthawut Kertkeidkachorn and Ryutaro Ichise and Hideaki Takeda(参考訳) Open Dataの時代、多くのテーブルリソースがWebとデータポータルで利用可能になりました。 しかし、エンティティの曖昧さ、名前のバリエーション、異種スキーマ、欠落、あるいは不完全なメタデータのため、そのようなデータを直接利用するのは難しい。 これらの問題に対処するため,知識グラフのエンティティに対してテーブル行を意味的にアノテートするための新しいアプローチであるTabEAnoを提案する。 具体的には、2つの閉セル間の知識グラフに既存の論理的関係が存在するという仮定に基づいて「2セル」のルックアップ戦略をテーブルの同じ行に導入する。 アプローチの単純さにもかかわらず、TabEAnoは2つの標準データセット、例えばT2D、Limaye with、および大規模ウィキペディアのテーブルデータセットにおけるアートアプローチの状態を上回ります。

In the Open Data era, a large number of table resources have been made available on the Web and data portals. However, it is difficult to directly utilize such data due to the ambiguity of entities, name variations, heterogeneous schema, missing, or incomplete metadata. To address these issues, we propose a novel approach, namely TabEAno, to semantically annotate table rows toward knowledge graph entities. Specifically, we introduce a "two-cells" lookup strategy bases on the assumption that there is an existing logical relation occurring in the knowledge graph between the two closed cells in the same row of the table. Despite the simplicity of the approach, TabEAno outperforms the state of the art approaches in the two standard datasets e.g, T2D, Limaye with, and in the large-scale Wikipedia tables dataset.
翻訳日:2022-10-10 22:06:40 公開日:2020-10-05
# 畳み込みニューラルネットワークを用いたデータ拡張に基づくマルウェア検出

Data Augmentation Based Malware Detection using Convolutional Neural Networks ( http://arxiv.org/abs/2010.01862v1 )

ライセンス: Link先を確認
Ferhat Ozgur Catak, Javed Ahmed, Kevser Sahinbas, Zahid Hussain Khand(参考訳) 近年、サイバー世界におけるマルウェアの増加により、サイバー攻撃が広く見られるようになった。 これらの攻撃はエンドユーザだけでなく、企業コンピュータシステムにも不可逆的なダメージを与える。 wannacryやpetyaなどのランサムウェア攻撃は、空港などの重要なインフラを作り、運用プロセスを実行不能にすることを目的としている。 それゆえ、ボリューム、汎用性、複雑性という観点で注目が集まっている。 この種のマルウェアの最も重要な特徴は、あるコンピュータから別のコンピュータへ伝播する際に形を変えることである。 標準的なシグネチャベースの検出ソフトウェアは、汚染されたコンピュータごとに異なる特性を持つため、この種のマルウェアを識別できない。 本稿では, 画像拡張強化型深層畳み込みニューラルネットワーク(cnn)モデルを用いて, 変成的マルウェア環境におけるマルウェアファミリーの検出を行う。 論文のモデル構造の主なコントリビューションは、マルウェアサンプルからのイメージ生成、画像拡張、そして最後の1つは、畳み込みニューラルネットワークモデルを用いてマルウェア群を分類することである。 第1のコンポーネントでは、収集したマルウェアサンプルをウィンドウ化技術を用いてバイナリ表現を3チャンネル画像に変換する。 システムの第2のコンポーネントは画像の拡張バージョンを作成し、最後のコンポーネントは分類モデルを構築します。 本研究では,マルウェア家族検出のための5種類のディープ畳み込みニューラルネットワークモデルを用いた。

Recently, cyber-attacks have been extensively seen due to the everlasting increase of malware in the cyber world. These attacks cause irreversible damage not only to end-users but also to corporate computer systems. Ransomware attacks such as WannaCry and Petya specifically targets to make critical infrastructures such as airports and rendered operational processes inoperable. Hence, it has attracted increasing attention in terms of volume, versatility, and intricacy. The most important feature of this type of malware is that they change shape as they propagate from one computer to another. Since standard signature-based detection software fails to identify this type of malware because they have different characteristics on each contaminated computer. This paper aims at providing an image augmentation enhanced deep convolutional neural network (CNN) models for the detection of malware families in a metamorphic malware environment. The main contributions of the paper's model structure consist of three components, including image generation from malware samples, image augmentation, and the last one is classifying the malware families by using a convolutional neural network model. In the first component, the collected malware samples are converted binary representation to 3-channel images using windowing technique. The second component of the system create the augmented version of the images, and the last component builds a classification model. In this study, five different deep convolutional neural network model for malware family detection is used.
翻訳日:2022-10-10 22:06:27 公開日:2020-10-05
# ニュース読解における有効な脅威: 自然言語モデルを用いた偏りのあるニュースの生成

Viable Threat on News Reading: Generating Biased News Using Natural Language Models ( http://arxiv.org/abs/2010.02150v1 )

ライセンス: Link先を確認
Saurabh Gupta, Huy H. Nguyen, Junichi Yamagishi and Isao Echizen(参考訳) 自然言語生成の最近の進歩は深刻な懸念を引き起こしている。 高性能な言語モデルは、フルーエントで有意義な文を生成することができるため、言語生成タスクに広く使われている。 これらのモデルは、すでにフェイクニュースの作成に使われている。 バイアスニュースを生成するために利用することも可能で、ニュースアグリゲータを攻撃して読者の行動を変え、バイアスに影響を与えることができる。 本稿では,公開言語モデルが入力元ニュースに基づいて偏りのあるニュースコンテンツを確実に生成できることを,脅威モデルを用いて実証する。 また,制御可能なテキスト生成を用いて,高品質のバイアス付きニュース記事を大量に生成できることを示した。 80人の被験者による主観評価では、生成したバイアスニュースは一般的に流動的であることが示され、24人の被験者によるバイアス評価では、生成した記事のバイアス(左右)が通常明らかであり、容易に識別できることが示された。

Recent advancements in natural language generation has raised serious concerns. High-performance language models are widely used for language generation tasks because they are able to produce fluent and meaningful sentences. These models are already being used to create fake news. They can also be exploited to generate biased news, which can then be used to attack news aggregators to change their reader's behavior and influence their bias. In this paper, we use a threat model to demonstrate that the publicly available language models can reliably generate biased news content based on an input original news. We also show that a large number of high-quality biased news articles can be generated using controllable text generation. A subjective evaluation with 80 participants demonstrated that the generated biased news is generally fluent, and a bias evaluation with 24 participants demonstrated that the bias (left or right) is usually evident in the generated articles and can be easily identified.
翻訳日:2022-10-10 22:06:08 公開日:2020-10-05
# ポイントクラウドのためのベストバッディ登録

Best Buddies Registration for Point Clouds ( http://arxiv.org/abs/2010.01912v1 )

ライセンス: Link先を確認
Amnon Drory, Tal Shomer, Shai Avidan and Raja Giryes(参考訳) 本稿では,ポイントクラウド登録問題に対する新しいロバストな損失関数を提案する。 我々の損失関数は、2つの点集合間の互いに近接する隣人の数を数えるBest Buddies similarity (BBS)測度に着想を得ている。 この尺度は、画像のテンプレートマッチングの場合、外れ値や欠落データに対して堅牢であることが示されている。 我々はBBR(Best Buddy Registration)と呼ばれるいくつかのアルゴリズムを提示し、各アルゴリズムは、Adam勾配降下による損失関数の1つを最適化する。 損失関数は、使用する距離関数(点対点対平面)やbbs測度が実際の点対距離とどのように結合するかなど、いくつかの点で異なる。 合成と実の両方で様々なデータセットの実験は、BBRアルゴリズムの有効性を実証し、ノイズ、外れ値、イントラクタにかなり頑健であり、非常に希少な点雲にうまく対応していることを示した。 1つの変種であるbbr-fはkittiとapollo-southbayデータセットから数秒間離れた自動車のlidarスキャンの登録において最先端の精度を達成している。

We propose new, and robust, loss functions for the point cloud registration problem. Our loss functions are inspired by the Best Buddies Similarity (BBS) measure that counts the number of mutual nearest neighbors between two point sets. This measure has been shown to be robust to outliers and missing data in the case of template matching for images. We present several algorithms, collectively named Best Buddy Registration (BBR), where each algorithm consists of optimizing one of these loss functions with Adam gradient descent. The loss functions differ in several ways, including the distance function used (point-to-point vs. point-to-plane), and how the BBS measure is combined with the actual distances between pairs of points. Experiments on various data sets, both synthetic and real, demonstrate the effectiveness of the BBR algorithms, showing that they are quite robust to noise, outliers, and distractors, and cope well with extremely sparse point clouds. One variant, BBR-F, achieves state-of-the-art accuracy in the registration of automotive lidar scans taken up to several seconds apart, from the KITTI and Apollo-Southbay datasets.
翻訳日:2022-10-10 22:00:32 公開日:2020-10-05
# 協調拡張現実のための顔検出からの自我運動アライメント

Ego-Motion Alignment from Face Detections for Collaborative Augmented Reality ( http://arxiv.org/abs/2010.02153v1 )

ライセンス: Link先を確認
Branislav Micusik, Georgios Evangelidis(参考訳) 複数のスマートグラス着用者間で仮想コンテンツを共有することは、シームレスなコラボレーション拡張現実体験の重要な特徴である。 共有を可能にするために、基礎となる6Dエゴ配置トラッカーの局所座標系は、それぞれのメガネセット上で独立に動作し、互いに空間的かつ時間的に整合する必要がある。 本稿では,エゴモーションアライメントと呼ばれる,この問題に対する新しい軽量な解法を提案する。 トラッカエゴを併用して顔や眼鏡を検知することで,局所座標系を空間的に関連付ける問題が十分に解決できることを示す。 重要なことに、検出されたメガネは信頼できるアンカーとして機能し、ターゲットとした実用に十分な精度をもたらすことができる。 提案するアイデアは,仮想マーカーやシーンポイントをアンカーとして,従来の視覚的ローカライゼーションステップを放棄することを可能にするものだ。 二次固有値問題を解く新しい閉形式最小解法が導出され、ガウス的信念伝播による洗練が導入される。 実験では,提案手法を検証し,高い実用性を示す。

Sharing virtual content among multiple smart glasses wearers is an essential feature of a seamless Collaborative Augmented Reality experience. To enable the sharing, local coordinate systems of the underlying 6D ego-pose trackers, running independently on each set of glasses, have to be spatially and temporally aligned with respect to each other. In this paper, we propose a novel lightweight solution for this problem, which is referred as ego-motion alignment. We show that detecting each other's face or glasses together with tracker ego-poses sufficiently conditions the problem to spatially relate local coordinate systems. Importantly, the detected glasses can serve as reliable anchors to bring sufficient accuracy for the targeted practical use. The proposed idea allows us to abandon the traditional visual localization step with fiducial markers or scene points as anchors. A novel closed form minimal solver which solves a Quadratic Eigenvalue Problem is derived and its refinement with Gaussian Belief Propagation is introduced. Experiments validate the presented approach and show its high practical potential.
翻訳日:2022-10-10 21:58:39 公開日:2020-10-05
# CO2: 教師なし視覚表現学習におけるコントラスト

CO2: Consistent Contrast for Unsupervised Visual Representation Learning ( http://arxiv.org/abs/2010.02217v1 )

ライセンス: Link先を確認
Chen Wei, Huiyu Wang, Wei Shen, Alan Yuille(参考訳) コントラスト学習は教師なし視覚表現学習のコア手法として採用されている。 このタスクは、クエリ画像のクロップが与えられたとき、正の値と同じ画像から作物をラベル付けし、他のランダムにサンプリングされた画像から負の値として収穫する。 このラベル割り当て戦略の重要な制限は、クエリ農作物と他の画像との不均一な類似性を反映できないことであり、クエリと同じ意味クラスに属するものもある。 本研究では,教師なしデータを用いた半教師付き学習における一貫性規則化に着想を得て,一貫性規則化用語を現在のコントラスト学習フレームワークに導入する一貫性コントラスト(co2)を提案する。 他の画像からの問合せ作物と「ラベルなし」の類似性について、整合項は正の作物の対応する類似性を擬ラベルとして取り、これら2つの類似性の間の整合性を促進する。 実証的に、CO2は、ImageNetリニアプロトコルにおけるMomentum Contrast(MoCo)の2.9%の精度、1%のラベル付き半教師付き設定での3.8%と1.1%のトップ5の精度を改善する。 また、PASCAL VOC上の画像分類、オブジェクト検出、セマンティックセグメンテーションに転送する。 これは、co2が下流タスクのより良い視覚的表現を学ぶことを示している。

Contrastive learning has been adopted as a core method for unsupervised visual representation learning. Without human annotation, the common practice is to perform an instance discrimination task: Given a query image crop, this task labels crops from the same image as positives, and crops from other randomly sampled images as negatives. An important limitation of this label assignment strategy is that it can not reflect the heterogeneous similarity between the query crop and each crop from other images, taking them as equally negative, while some of them may even belong to the same semantic class as the query. To address this issue, inspired by consistency regularization in semi-supervised learning on unlabeled data, we propose Consistent Contrast (CO2), which introduces a consistency regularization term into the current contrastive learning framework. Regarding the similarity of the query crop to each crop from other images as "unlabeled", the consistency term takes the corresponding similarity of a positive crop as a pseudo label, and encourages consistency between these two similarities. Empirically, CO2 improves Momentum Contrast (MoCo) by 2.9% top-1 accuracy on ImageNet linear protocol, 3.8% and 1.1% top-5 accuracy on 1% and 10% labeled semi-supervised settings. It also transfers to image classification, object detection, and semantic segmentation on PASCAL VOC. This shows that CO2 learns better visual representations for these downstream tasks.
翻訳日:2022-10-10 21:58:21 公開日:2020-10-05
# smile: 意味的に指示された複数属性画像とレイアウト編集

SMILE: Semantically-guided Multi-attribute Image and Layout Editing ( http://arxiv.org/abs/2010.02315v1 )

ライセンス: Link先を確認
Andr\'es Romero, Luc Van Gool, Radu Timofte(参考訳) 属性画像操作は、GAN(Generative Adversarial Networks)の導入以来、非常に活発なトピックである。 異なるラベル(眼鏡、帽子、髪、アイデンティティなど)が同時に共存できる、顔画像の多重かつ相互に排他的な性質のため、トランスフォーメーション内で不連続な属性空間を探索することは非常に難しい作業である。 いくつかの研究は、条件付きランダムベクトルノイズを用いて各ドメイン/属性のモダリティを利用するか、模範画像からモダリティを抽出する。 しかし、既存の方法は複数の属性に対するランダム変換と参照変換の両方を扱えないため、解の一般性は制限される。 本稿では,対象領域の下位領域情報のみを使用しながら,ランダムノイズや模範画像によって誘導されるような,全ての属性を処理するマルチモーダル表現をうまく活用する。 顔データセットの質的および定量的な分析結果と,提案手法の優位性を示すいくつかの属性について述べる。 また,画像の参照やスタイル分布空間の探索により,細かな属性や粗い属性を付加,削除,変更することが可能であり,ビデオの訓練を受けることなく,簡単にヘッドスワッピングや顔再現アプリケーションに拡張することができる。

Attribute image manipulation has been a very active topic since the introduction of Generative Adversarial Networks (GANs). Exploring the disentangled attribute space within a transformation is a very challenging task due to the multiple and mutually-inclusive nature of the facial images, where different labels (eyeglasses, hats, hair, identity, etc.) can co-exist at the same time. Several works address this issue either by exploiting the modality of each domain/attribute using a conditional random vector noise, or extracting the modality from an exemplary image. However, existing methods cannot handle both random and reference transformations for multiple attributes, which limits the generality of the solutions. In this paper, we successfully exploit a multimodal representation that handles all attributes, be it guided by random noise or exemplar images, while only using the underlying domain information of the target domain. We present extensive qualitative and quantitative results for facial datasets and several different attributes that show the superiority of our method. Additionally, our method is capable of adding, removing or changing either fine-grained or coarse attributes by using an image as a reference or by exploring the style distribution space, and it can be easily extended to head-swapping and face-reenactment applications without being trained on videos.
翻訳日:2022-10-10 21:57:55 公開日:2020-10-05
# 言語駆動画像編集のためのベンチマークとベースライン

A Benchmark and Baseline for Language-Driven Image Editing ( http://arxiv.org/abs/2010.02330v1 )

ライセンス: Link先を確認
Jing Shi, Ning Xu, Trung Bui, Franck Dernoncourt, Zheng Wen, Chenliang Xu(参考訳) 言語による画像編集は、面倒な画像編集作業を大幅に節約し、写真初心者に親しみやすくする。 しかし、ほとんどの類似の作業は特定のイメージドメインのみを扱うか、あるいはグローバルリタッチしかできない。 この課題を解決するために,まず,ローカル編集とグローバル編集の両方を編集操作とマスクアノテーションでサポートする,言語駆動型画像編集データセットを提案する。 また,この問題を解決するためにアノテーションを完全に活用するベースライン手法を提案する。 提案手法では,各編集操作をサブモジュールとして処理し,操作パラメータを自動的に予測する。 挑戦的なユーザデータだけでなく、このようなアプローチも非常に解釈可能である。 ベンチマークとベースラインの両方を含む我々の研究は、画像編集領域をより汎用的で自由なレベルに進めると考えています。

Language-driven image editing can significantly save the laborious image editing work and be friendly to the photography novice. However, most similar work can only deal with a specific image domain or can only do global retouching. To solve this new task, we first present a new language-driven image editing dataset that supports both local and global editing with editing operation and mask annotations. Besides, we also propose a baseline method that fully utilizes the annotation to solve this problem. Our new method treats each editing operation as a sub-module and can automatically predict operation parameters. Not only performing well on challenging user data, but such an approach is also highly interpretable. We believe our work, including both the benchmark and the baseline, will advance the image editing area towards a more general and free-form level.
翻訳日:2022-10-10 21:57:31 公開日:2020-10-05
# リーチ・アンド・プレイス行動の深部生成モデル

Deep Generative Modelling of Human Reach-and-Place Action ( http://arxiv.org/abs/2010.02345v1 )

ライセンス: Link先を確認
Connor Daly, Yuzuko Nakamura, Tobias Ritschel(参考訳) 物体を3d空間に拾い上げ、配置するという動きは、微妙な細部でいっぱいだ。 通常、これらの運動は同じ制約から形成され、速さ、エネルギー効率、生理的限界に最適化される。 しかし、同じ目標であっても、実現された運動は常に自然変動の対象となる。 これらの側面を計算的に捉えるために、開始位置と終了位置で条件付けられた人間のリーチ・アンド・プレイス行動の深層生成モデルを提案し、600個の人間の3D行動のデータセットを収集し、3Dソースとターゲットの2x3次元空間をサンプリングした。 時間的変動はしばしば、リカレントニューラルネットワークやメモリや注意を持つネットワークのような複雑な学習機械でモデル化されるが、ここでは、時間的に畳み込み、(周期的な)時間的エンコーディングを利用する、はるかに単純なアプローチを示す。 潜在コードを提供し、開始位置と終了位置を条件として、モデルが畳み込みのシーケンスとして線形時間における完全な3dキャラクタ動作を生成する。 本評価には,いくつかのアブレーション,生成多様性の解析とその応用を含む。

The motion of picking up and placing an object in 3D space is full of subtle detail. Typically these motions are formed from the same constraints, optimizing for swiftness, energy efficiency, as well as physiological limits. Yet, even for identical goals, the motion realized is always subject to natural variation. To capture these aspects computationally, we suggest a deep generative model for human reach-and-place action, conditioned on a start and end position.We have captured a dataset of 600 such human 3D actions, to sample the 2x3-D space of 3D source and targets. While temporal variation is often modeled with complex learning machinery like recurrent neural networks or networks with memory or attention, we here demonstrate a much simpler approach that is convolutional in time and makes use of(periodic) temporal encoding. Provided a latent code and conditioned on start and end position, the model generates a complete 3D character motion in linear time as a sequence of convolutions. Our evaluation includes several ablations, analysis of generative diversity and applications.
翻訳日:2022-10-10 21:57:17 公開日:2020-10-05
# ソーシャルメディアを用いたローマ語ウルドゥー語テキストの感性分析 : 比較研究

Sentiment Analysis for Roman Urdu Text over Social Media, a Comparative Study ( http://arxiv.org/abs/2010.16408v1 )

ライセンス: Link先を確認
Irfan Qutab, Khawar Iqbal Malik, Hira Arooj(参考訳) 現在、データ量は大幅に増加している。 データは画像、テキスト、音声、ビデオの形式になるかもしれない。 この膨大なデータ増加の要因の1つは、誰もがチャット、情報交換、個人的および公式の資格情報のアップロード中に毎日データを投稿するソーシャルメディアの利用である。 感情の研究は、ユーザーがブログ、ニュース、ソーシャルネットワークなど、共有コンテンツに関する感情や考えを伝える出版テキストの抽象的な知識を明らかにすることを目的としている。 ローマ・ウルドゥ語はパキスタンとインドのソーシャルネットワークでもっとも支配的な言語の一つである。 ローマ・ウルドゥー語は世界で3番目に大きいウルドゥー語の変種であるが、この言語では十分な作業がなされていない。 本稿では,ロマン・ウルドゥの文章の感情を調べるために用いられた先行概念と戦略について考察し,その結果を報告する。

In present century, data volume is increasing enormously. The data could be in form for image, text, voice, and video. One factor in this huge growth of data is usage of social media where everyone is posting data on daily basis during chatting, exchanging information, and uploading their personal and official credential. Research of sentiments seeks to uncover abstract knowledge in Published texts in which users communicate their emotions and thoughts about shared content, including blogs, news and social networks. Roman Urdu is the one of most dominant language on social networks in Pakistan and India. Roman Urdu is among the varieties of the world's third largest Urdu language but yet not sufficient work has been done in this language. In this article we addressed the prior concepts and strategies used to examine the sentiment of the roman Urdu text and reported their results as well.
翻訳日:2022-10-10 21:51:18 公開日:2020-10-05
# 量子計算心理分析 --Bi-logicへの量子論理的アプローチ

Quantum Computational Psychoanalysis -- Quantum logic approach to Bi-logic ( http://arxiv.org/abs/2010.04550v1 )

ライセンス: Link先を確認
Maksim Tomic(参考訳) 本稿では、チリの精神分析学者イグナシオ・マテ・ブランコが提唱した双論理の基本概念を、ガレス・バーホフとジョン・フォン・ノイマンによって設立された量子論理の文脈で扱う。 本論文の主な目的は、ヒルベルト空間の閉部分空間の格子で表される量子論的モデルが、もともとシグムント・フロイトによって無意識の精神の基本的な性質として記述された概念の計算の枠組みとして用いられるかを示すことである。

In this paper, we are dealing with the fundamental concepts of Bi-logic proposed by Chilean psychoanalyst Ignacio Matte Blanco in the context of quantum logic, founded by Gareth Birkhoff and John Von Neumann. The main purpose of this paper is to present how a quantum-logical model, represented by the lattice of a closed subspace of Hilbert space, can be used as a computational framework for concepts that are originally described by Sigmund Freud as the fundamental properties of the unconscious psyche.
翻訳日:2022-10-10 21:51:04 公開日:2020-10-05
# 最小共通倍数に基づくファジィ近似推論法とその特性解析

Fuzzy Approximate Reasoning Method based on Least Common Multiple and its Property Analysis ( http://arxiv.org/abs/2010.05453v1 )

ライセンス: Link先を確認
I.M. Son, S.I. Kwak, M.O. Choe(参考訳) 本稿では,最小公倍数(lcm)に基づく新しいファジィ近似推論法を提案する。 その基本的な考え方は、前続ファジィ集合と後続ファジィ系の間のLCMに基づく拡張距離測度による新しいファジィ推論結果を得ることである。 提案手法は LCM 1 と呼ばれる。 そこで本論文では, 還元特性, 推論過程における情報損失, ファジィ制御の収束といった特性を解析した。 理論的および実験的研究は,提案手法が従来のファジィ推論法よりも,還元特性と情報損失と制御性に有意義な改善をもたらすことを強調する。

This paper shows a novel fuzzy approximate reasoning method based on the least common multiple (LCM). Its fundamental idea is to obtain a new fuzzy reasoning result by the extended distance measure based on LCM between the antecedent fuzzy set and the consequent one in discrete SISO fuzzy system. The proposed method is called LCM one. And then this paper analyzes its some properties, i.e., the reductive property, information loss occurred in reasoning process, and the convergence of fuzzy control. Theoretical and experimental research results highlight that proposed method meaningfully improve the reductive property and information loss and controllability than the previous fuzzy reasoning methods.
翻訳日:2022-10-10 21:50:51 公開日:2020-10-05
# 光センシング衛星画像を用いた送電線における植生侵入検出の検討

A Review of Vegetation Encroachment Detection in Power Transmission Lines using Optical Sensing Satellite Imagery ( http://arxiv.org/abs/2010.01757v1 )

ライセンス: Link先を確認
Fathi Mahdi Elsiddig Haroun, Siti Noratiqah Mohamad Deros, Norashidah Md Din(参考訳) 送電線における植生の侵食は停電を引き起こし、電力会社や消費者の経済に深刻な影響を及ぼす可能性がある。 送電線を植物侵入から守るため, 送電線右道(ROW)に沿って植生検出とモニタリングを行う。 植生の侵入を監視するには様々な方法が用いられたが、そのほとんどは高価で時間を要するものであった。 衛星画像は比較的低コストで高空間領域をカバーすることができるため、植生モニタリングにおいて重要な役割を果たす。 本稿では,衛星画像を用いた植生の侵入を検知する現在の手法を,植生指標に基づく方法,対象に基づく検出方法,ステレオマッチングに基づく方法,その他の4つの分野に分類した。 しかし、現在の手法は通常、手動でサーバルしきい値とパラメータを設定することで検出プロセスを非常に静的にする。 機械学習(ML)とディープラーニング(DL)アルゴリズムは、検出プロセスの柔軟性で非常に高い精度を提供することができる。 したがって、電力伝送における植生浸透モニタリングの現在の手法を概観するとともに、機械学習ベースのアルゴリズムを用いる可能性も含んでいる。

Vegetation encroachment in power transmission lines can cause outages, which may result in severe impact on economic of power utilities companies as well as the consumer. Vegetation detection and monitoring along the power line corridor right-of-way (ROW) are implemented to protect power transmission lines from vegetation penetration. There were various methods used to monitor the vegetation penetration, however, most of them were too expensive and time consuming. Satellite images can play a major role in vegetation monitoring, because it can cover high spatial area with relatively low cost. In this paper, the current techniques used to detect the vegetation encroachment using satellite images are reviewed and categorized into four sectors; Vegetation Index based method, object-based detection method, stereo matching based and other current techniques. However, the current methods depend usually on setting manually serval threshold values and parameters which make the detection process very static. Machine Learning (ML) and deep learning (DL) algorithms can provide a very high accuracy with flexibility in the detection process. Hence, in addition to review the current technique of vegetation penetration monitoring in power transmission, the potential of using Machine Learning based algorithms are also included.
翻訳日:2022-10-10 21:50:39 公開日:2020-10-05
# インクリメンタルな回転平均化とループクロージャを用いた単眼回転オドメトリ

Monocular Rotational Odometry with Incremental Rotation Averaging and Loop Closure ( http://arxiv.org/abs/2010.01872v1 )

ライセンス: Link先を確認
Chee-Kheng Chng, Alvaro Parra, Tat-Jun Chin, Yasir Latif(参考訳) 姿勢推定タスクには絶対的なカメラ方位の推定が不可欠である。 確立されたアプローチは、まず視覚オドメトリ(vo)または視覚スラム(v-slam)を実行し、voまたはv-slamで推定されるカメラポーズ(6 dof)からカメラ向き(3 dof)を取得することである。 このアプローチの欠点の1つは、フル6 DOFカメラのポーズを推定する冗長性に加えて、構造と動きの基本的な制約により、6 DOFのポーズと共同でマップ(3Dシーンポイント)を推定することに依存することである。 絶対方位推定のタスクを単純化するため,単眼回転オドメトリ問題を定式化し,2d-2d特徴マッチングのみを用いてカメラ方位を正確に推定する高速アルゴリズムを考案する。 我々のシステムを支える新しいインクリメンタルなローテーション平均化手法は,反復更新を高速かつ一定時間行う。 さらに,本システムはビューグラフを維持している。 1)ループクロージャを解決し、カメラ方向ドリフトを除去し、 2) V-SLAMシステムの起動を温めることができる。 実世界のデータセットの定量化実験を行い、インクリメンタルカメラオリエンテーションの精度を実証する。 最後に、V-SLAMに対するアルゴリズムの利点を示す。 1) カメラと周囲マップの軌跡を推定するために既知の回転問題の解法,2) 純粋な回転運動を追跡するためにV-SLAMシステムを導入。

Estimating absolute camera orientations is essential for attitude estimation tasks. An established approach is to first carry out visual odometry (VO) or visual SLAM (V-SLAM), and retrieve the camera orientations (3 DOF) from the camera poses (6 DOF) estimated by VO or V-SLAM. One drawback of this approach, besides the redundancy in estimating full 6 DOF camera poses, is the dependency on estimating a map (3D scene points) jointly with the 6 DOF poses due to the basic constraint on structure-and-motion. To simplify the task of absolute orientation estimation, we formulate the monocular rotational odometry problem and devise a fast algorithm to accurately estimate camera orientations with 2D-2D feature matches alone. Underpinning our system is a new incremental rotation averaging method for fast and constant time iterative updating. Furthermore, our system maintains a view-graph that 1) allows solving loop closure to remove camera orientation drift, and 2) can be used to warm start a V-SLAM system. We conduct extensive quantitative experiments on real-world datasets to demonstrate the accuracy of our incremental camera orientation solver. Finally, we showcase the benefit of our algorithm to V-SLAM: 1) solving the known rotation problem to estimate the trajectory of the camera and the surrounding map, and 2)enabling V-SLAM systems to track pure rotational motions.
翻訳日:2022-10-10 21:49:42 公開日:2020-10-05
# MetaBox+: 優先順位マップを用いたセマンティックセグメンテーションのための領域ベースアクティブラーニング手法

MetaBox+: A new Region Based Active Learning Method for Semantic Segmentation using Priority Maps ( http://arxiv.org/abs/2010.01884v1 )

ライセンス: Link先を確認
Pascal Colling, Lutz Roese-Koerner, Hanno Gottschalk, Matthias Rottmann(参考訳) 本稿では,MetaBox+と呼ばれるセマンティックイメージセグメンテーションのための領域ベースアクティブラーニング手法を提案する。 取得にはメタ回帰モデルをトレーニングし、予測された未ラベル画像の各セグメントのセグメントワイド・インターセクション(IoU)を推定する。 これはセグメントワイズ予測品質の推定として理解することができる。 クエリされたリージョンは、競合するターゲット、すなわち予測値の低いIoU値/セグメンテーション品質と推定アノテーションコストを最小化する。 後者を推定するために,アノテーションコストの簡易かつ実用的な推定法を提案する。 本手法をエントロピーに基づく手法と比較し,エントロピーを予測の不確実性と考える。 結果の比較と分析は、アノテーションのコストとメソッドの堅牢性と分散に関する洞察を提供する。 Cityscapesデータセット上の2つの異なるネットワークを用いて行った数値実験は、ランダムな取得に比べてアノテーションの労力の削減を明らかに示している。 注目すべきなのは、metabox+を使用して、すべてのデータセットでトレーニングする場合と比較して、mau(mean intersection over union)の95%を達成したことです。

We present a novel region based active learning method for semantic image segmentation, called MetaBox+. For acquisition, we train a meta regression model to estimate the segment-wise Intersection over Union (IoU) of each predicted segment of unlabeled images. This can be understood as an estimation of segment-wise prediction quality. Queried regions are supposed to minimize to competing targets, i.e., low predicted IoU values / segmentation quality and low estimated annotation costs. For estimating the latter we propose a simple but practical method for annotation cost estimation. We compare our method to entropy based methods, where we consider the entropy as uncertainty of the prediction. The comparison and analysis of the results provide insights into annotation costs as well as robustness and variance of the methods. Numerical experiments conducted with two different networks on the Cityscapes dataset clearly demonstrate a reduction of annotation effort compared to random acquisition. Noteworthily, we achieve 95%of the mean Intersection over Union (mIoU), using MetaBox+ compared to when training with the full dataset, with only 10.47% / 32.01% annotation effort for the two networks, respectively.
翻訳日:2022-10-10 21:49:16 公開日:2020-10-05
# 超スパースニューラルネットワークの連成プルーニングと量子化

Joint Pruning & Quantization for Extremely Sparse Neural Networks ( http://arxiv.org/abs/2010.01892v1 )

ライセンス: Link先を確認
Po-Hsiang Yu, Sih-Sian Wu, Jan P. Klopp, Liang-Gee Chen, Shao-Yi Chien(参考訳) 深層ニューラルネットワークのプルーニングと量子化について検討する。 私たちの目標は、量子化ネットワークが低コストかつ低消費電力のアクセラレータハードウェアの実装を可能にするために、非常に高いスパース性を達成することです。 現実的なシナリオでは、高密度予測タスクには特に多くの応用があり、ステレオ深度推定をターゲットとして選択する。 本稿では,2段階のプルーニング・量子化パイプラインを提案し,テイラー・スコアと新しい微調整モードを導入し,性能を犠牲にすることなく極端にスペーサ性を実現する。 我々の評価は、プルーニングと量子化を共同で検討すべきであることを示すだけでなく、ハードウェアコストを99.9%に削減できる一方で、メモリ需要の99%近くを削減できることを示している。 さらに,他の研究と比較し,CIFAR10とImageNetのResNetに適用した場合,プルーニングステージだけで最先端技術に勝ることを示す。

We investigate pruning and quantization for deep neural networks. Our goal is to achieve extremely high sparsity for quantized networks to enable implementation on low cost and low power accelerator hardware. In a practical scenario, there are particularly many applications for dense prediction tasks, hence we choose stereo depth estimation as target. We propose a two stage pruning and quantization pipeline and introduce a Taylor Score alongside a new fine-tuning mode to achieve extreme sparsity without sacrificing performance. Our evaluation does not only show that pruning and quantization should be investigated jointly, but also shows that almost 99% of memory demand can be cut while hardware costs can be reduced up to 99.9%. In addition, to compare with other works, we demonstrate that our pruning stage alone beats the state-of-the-art when applied to ResNet on CIFAR10 and ImageNet.
翻訳日:2022-10-10 21:48:55 公開日:2020-10-05
# 自然言語理解のための事前学習を改善する自己学習

Self-training Improves Pre-training for Natural Language Understanding ( http://arxiv.org/abs/2010.02194v1 )

ライセンス: Link先を確認
Jingfei Du, Edouard Grave, Beliz Gunel, Vishrav Chaudhary, Onur Celebi, Michael Auli, Ves Stoyanov, Alexis Conneau(参考訳) 教師なし事前学習は、自然言語理解の進歩に繋がった。 本稿では,半教師付き学習を通じてラベルのないデータを活用する方法として,自己学習について検討する。 特定のタスクのための追加データを得るために、ラベル付きデータからタスク固有のクエリ埋め込みを計算し、webからクロールされた数十億のラベルなし文から文を取得するデータ拡張法であるsendaugmentを紹介する。 従来の半教師付き手法とは異なり、このアプローチではラベルなしのデータは必要とせず、より一般的に適用できる。 実験により、自己学習は様々なタスクにおいて強力なRoBERTaベースラインと相補的であることが示された。 拡張アプローチはスケーラブルで効果的な自己学習につながり、標準テキスト分類ベンチマークで最大2.6%改善しました。 最後に、知識の蒸留と数発の学習に強い効果を示す。

Unsupervised pre-training has led to much recent progress in natural language understanding. In this paper, we study self-training as another way to leverage unlabeled data through semi-supervised learning. To obtain additional data for a specific task, we introduce SentAugment, a data augmentation method which computes task-specific query embeddings from labeled data to retrieve sentences from a bank of billions of unlabeled sentences crawled from the web. Unlike previous semi-supervised methods, our approach does not require in-domain unlabeled data and is therefore more generally applicable. Experiments show that self-training is complementary to strong RoBERTa baselines on a variety of tasks. Our augmentation approach leads to scalable and effective self-training with improvements of up to 2.6% on standard text classification benchmarks. Finally, we also show strong gains on knowledge-distillation and few-shot learning.
翻訳日:2022-10-10 21:41:54 公開日:2020-10-05
# アクロスティック・ポエム・ジェネレーション

Acrostic Poem Generation ( http://arxiv.org/abs/2010.02239v1 )

ライセンス: Link先を確認
Rajat Agarwal and Katharina Kann(参考訳) 計算創造性分野における新たな課題として,英語のアクロスティック詩生成を提案する。 アクロスティック詩は隠されたメッセージを含む詩であり、典型的には、各行の最初の文字が単語または短い句を綴る。 我々は、タスクを複数の制約を持つ生成タスクとして定義する。 1) 各行の初期文字は、与えられた単語を綴るべきである。 2) 詩の意味論もそれに関連するべきであり、 3)その詩は韻律に従わなければならない。 さらに、条件付きニューラルネットワークモデルとニューラルな韻律モデルを組み合わせたタスクのベースラインモデルを提供する。 アクロスティック詩生成のための専用のデータセットが存在しないので、まず、トピック注釈付き詩の小さなセットに個別のトピック予測モデルをトレーニングし、追加の詩のトピックを予測することで、タスクのトレーニングデータを作成する。 実験の結果, ベースラインが生成するアクロスティック詩は人間に好意的に受け入れられ, 付加的な制約により品質が損なわれないことがわかった。 最後に、本モデルが生成する詩は、提供されたプロンプトと密接に関連しており、wikipediaでの事前学習によってパフォーマンスが向上することを確認した。

We propose a new task in the area of computational creativity: acrostic poem generation in English. Acrostic poems are poems that contain a hidden message; typically, the first letter of each line spells out a word or short phrase. We define the task as a generation task with multiple constraints: given an input word, 1) the initial letters of each line should spell out the provided word, 2) the poem's semantics should also relate to it, and 3) the poem should conform to a rhyming scheme. We further provide a baseline model for the task, which consists of a conditional neural language model in combination with a neural rhyming model. Since no dedicated datasets for acrostic poem generation exist, we create training data for our task by first training a separate topic prediction model on a small set of topic-annotated poems and then predicting topics for additional poems. Our experiments show that the acrostic poems generated by our baseline are received well by humans and do not lose much quality due to the additional constraints. Last, we confirm that poems generated by our model are indeed closely related to the provided prompts, and that pretraining on Wikipedia can boost performance.
翻訳日:2022-10-10 21:41:43 公開日:2020-10-05
# PAIR:長文生成のための事前学習型変圧器の計画と繰り返しリファインメント

PAIR: Planning and Iterative Refinement in Pre-trained Transformers for Long Text Generation ( http://arxiv.org/abs/2010.02301v1 )

ライセンス: Link先を確認
Xinyu Hua and Lu Wang(参考訳) 事前訓練されたトランスフォーマーは、長くて流用なテキストを生成する際、印象的なブレークスルーを可能にしている。 本稿では,新しいコンテンツ制御型テキスト生成フレームワークであるペアと,大規模モデルであるbartを基盤とした計画と反復的改良を提案する。 まず、BERTモデルを用いて、キーフレーズの代入と対応する文レベルの位置からなるコンテンツプランを自動構築する。 BARTモデルは構造を変更することなく生成に使用される。 次に,シーケンシャル・ツー・シーケンス・フレームワークにおける生成品質を徐々に向上させる改良アルゴリズムを提案する。 自動メトリクスによる評価では、計画の追加は3つの異なる領域における生成品質を継続的に改善し、平均20のBLEUポイントと12のMETEORポイントが改善されている。 さらに、人間の判断は、システム出力が計画なしで比較するよりも関連性があり、一貫性があると評価します。

Pre-trained Transformers have enabled impressive breakthroughs in generating long and fluent text, yet their outputs are often "rambling" without coherently arranged content. In this work, we present a novel content-controlled text generation framework, PAIR, with planning and iterative refinement, which is built upon a large model, BART. We first adapt the BERT model to automatically construct the content plans, consisting of keyphrase assignments and their corresponding sentence-level positions. The BART model is employed for generation without modifying its structure. We then propose a refinement algorithm to gradually enhance the generation quality within the sequence-to-sequence framework. Evaluation with automatic metrics shows that adding planning consistently improves the generation quality on three distinct domains, with an average of 20 BLEU points and 12 METEOR points improvements. In addition, human judges rate our system outputs to be more relevant and coherent than comparisons without planning.
翻訳日:2022-10-10 21:41:04 公開日:2020-10-05
# 顧客ケア支援のための対話型文書予測

Conversational Document Prediction to Assist Customer Care Agents ( http://arxiv.org/abs/2010.02305v1 )

ライセンス: Link先を確認
Jatin Ganhotra, Haggai Roitman, Doron Cohen, Nathaniel Mills, Chulaka Gunasekara, Yosi Mass, Sachindra Joshi, Luis Lastras and David Konopnicki(参考訳) カスタマーケアの会話の頻繁なパターンは、ユーザーのニーズに対応する適切なWebページURLで応答するエージェントである。 本研究では,顧客ケア担当者がユーザニーズに役立てる文書の予測作業について検討する。 また、上記の問題をサポートする新しい公開データセットも導入する。 本データセットと他の2つのデータを用いて,課題に対する最先端の深層学習(DL)モデルと情報検索(IR)モデルについて検討する。 さらに, 推定時間の複雑さの観点から, システムの実用性を分析する。 ハイブリッドir+dlアプローチが両世界のベストを提供することを示す。

A frequent pattern in customer care conversations is the agents responding with appropriate webpage URLs that address users' needs. We study the task of predicting the documents that customer care agents can use to facilitate users' needs. We also introduce a new public dataset which supports the aforementioned problem. Using this dataset and two others, we investigate state-of-the art deep learning (DL) and information retrieval (IR) models for the task. Additionally, we analyze the practicality of such systems in terms of inference time complexity. Our show that an hybrid IR+DL approach provides the best of both worlds.
翻訳日:2022-10-10 21:40:44 公開日:2020-10-05
# 強化学習のための感性分析

Sentiment Analysis for Reinforcement Learning ( http://arxiv.org/abs/2010.02316v1 )

ライセンス: Link先を確認
Ameet Deshpande, Eve Fleisig(参考訳) 強化学習(RL)は、対話生成やテキストベースのゲームのような自然言語処理(NLP)の分野では成功したが、通常は緩やかな報酬の問題に直面し、収束が遅くなる。 テキスト記述を使って状態表現のみを抽出する従来の方法は、それらに固有のフィードバックを無視している。 例えば、テキストベースのゲームでは、"Good Job! You ate the food}" のような記述は進行を示し、"You entered a new room" のような記述は探索を示している。 このような肯定的かつ否定的な手がかりは、感情分析によって報酬に変換できる。 この手法は、スパース報酬問題を、解くのが容易な密集した問題に変換する。 さらに、これは報酬なしで強化学習を可能にし、エージェントはこれらの内在的な感情報酬から完全に学習する。 このフレームワークは、環境が必ずしも報酬を提供するわけではないが、エージェントが分析してそれを実現する、本質的な動機付けに似ている。 感情分析を用いたテキストベースのゲームに高い報酬を与えると、いくつかの条件下でのパフォーマンスが向上することがわかった。

While reinforcement learning (RL) has been successful in natural language processing (NLP) domains such as dialogue generation and text-based games, it typically faces the problem of sparse rewards that leads to slow or no convergence. Traditional methods that use text descriptions to extract only a state representation ignore the feedback inherently present in them. In text-based games, for example, descriptions like "Good Job! You ate the food}" indicate progress, and descriptions like "You entered a new room" indicate exploration. Positive and negative cues like these can be converted to rewards through sentiment analysis. This technique converts the sparse reward problem into a dense one, which is easier to solve. Furthermore, this can enable reinforcement learning without rewards, in which the agent learns entirely from these intrinsic sentiment rewards. This framework is similar to intrinsic motivation, where the environment does not necessarily provide the rewards, but the agent analyzes and realizes them by itself. We find that providing dense rewards in text-based games using sentiment analysis improves performance under some conditions.
翻訳日:2022-10-10 21:40:37 公開日:2020-10-05
# CAT-Gen:制御逆テキスト生成によるNLPモデルのロバスト性向上

CAT-Gen: Improving Robustness in NLP Models via Controlled Adversarial Text Generation ( http://arxiv.org/abs/2010.02338v1 )

ライセンス: Link先を確認
Tianlu Wang, Xuezhi Wang, Yao Qin, Ben Packer, Kang Li, Jilin Chen, Alex Beutel, Ed Chi(参考訳) NLPモデルはロバスト性の問題、すなわち入力に対する小さな摂動の下でモデルの予測を簡単に変更できることが示されている。 本研究では,タスクラベルに不変であることが知られている制御可能な属性を用いて,入力テキストを付与し,逆テキストを生成する制御逆テキスト生成(CAT-Gen)モデルを提案する。 例えば、製品レビューよりも感情分類のモデルを攻撃するために、レビューの感情を変えないコントロール可能な属性として製品カテゴリを使用することができる。 実世界のNLPデータセットを用いた実験により,既存の多くの逆テキスト生成手法と比較して,本手法がより多種多様な逆テキストを生成可能であることが示された。 私たちはさらに,生成された敵の例を使って,敵のトレーニングを通じてモデルを改善するとともに,生成された攻撃がモデルの再トレーニングや異なるモデルアーキテクチャに対してより堅牢であることを実証します。

NLP models are shown to suffer from robustness issues, i.e., a model's prediction can be easily changed under small perturbations to the input. In this work, we present a Controlled Adversarial Text Generation (CAT-Gen) model that, given an input text, generates adversarial texts through controllable attributes that are known to be invariant to task labels. For example, in order to attack a model for sentiment classification over product reviews, we can use the product categories as the controllable attribute which would not change the sentiment of the reviews. Experiments on real-world NLP datasets demonstrate that our method can generate more diverse and fluent adversarial texts, compared to many existing adversarial text generation approaches. We further use our generated adversarial examples to improve models through adversarial training, and we demonstrate that our generated attacks are more robust against model re-training and different model architectures.
翻訳日:2022-10-10 21:40:20 公開日:2020-10-05
# マルチモーダル音声認識のためのファイングラウンディング

Fine-Grained Grounding for Multimodal Speech Recognition ( http://arxiv.org/abs/2010.02384v1 )

ライセンス: Link先を確認
Tejas Srinivasan, Ramon Sanabria, Florian Metze and Desmond Elliott(参考訳) マルチモーダル自動音声認識システムは,視覚的文脈における音声の基盤化により,画像からの情報を統合して音声認識品質を向上させる。 視覚信号は、音声に隠されたエンティティを復元するのに有用であることが示されているが、これらのモデルは幅広い種類の単語を復元することができる。 既存のシステムは、画像全体を表すグローバルなビジュアル機能に依存しているが、画像の関連領域をローカライズすることで、形容詞や動詞など、より大きな単語セットを復元することができる。 本稿では,画像の異なる部分からのきめ細かい視覚情報を,オブジェクトの自動提案を用いて利用するモデルを提案する。 flickr8k音声キャプションコーパスを用いた実験では,我々のモデルが,グローバルな視覚機能を用いたアプローチよりも改良されていること,提案手法によって,形容詞などのエンティティや関連語を復元できること,適切な提案をローカライズするモデルの能力が改善されていること,などが分かりました。

Multimodal automatic speech recognition systems integrate information from images to improve speech recognition quality, by grounding the speech in the visual context. While visual signals have been shown to be useful for recovering entities that have been masked in the audio, these models should be capable of recovering a broader range of word types. Existing systems rely on global visual features that represent the entire image, but localizing the relevant regions of the image will make it possible to recover a larger set of words, such as adjectives and verbs. In this paper, we propose a model that uses finer-grained visual information from different parts of the image, using automatic object proposals. In experiments on the Flickr8K Audio Captions Corpus, we find that our model improves over approaches that use global visual features, that the proposals enable the model to recover entities and other related words, such as adjectives, and that improvements are due to the model's ability to localize the correct proposals.
翻訳日:2022-10-10 21:39:37 公開日:2020-10-05
# PUM at SemEval-2020 Task 12: Aggregation of Transformer-based models' features for offensive language recognition

PUM at SemEval-2020 Task 12: Aggregation of Transformer-based models' features for offensive language recognition ( http://arxiv.org/abs/2010.01897v1 )

ライセンス: Link先を確認
Piotr Janiszewski, Mateusz Skiba, Urszula Wali\'nska(参考訳) 本稿では,PUMチームのSemEval-2020 Task 12への参加について述べる。 我々のソリューションを作成するには、自然言語処理でよく知られた2つのモデル、BERTとXLNetの活用が必要でした。 モデルは各サブタスクごとに微調整され、隠れたレイヤから抽出した特徴を組み合わせ、完全に接続されたニューラルネットワークに入力した。 統合トランスフォーマー機能を用いたモデルは,攻撃的言語識別問題の強力なツールとして機能する。 我々のチームはサブタスクcで40人中7人、マクロf1-scoreで64.727%、サブタスク攻撃言語識別で85人中64人(89.726%f1-score)だった。

In this paper, we describe the PUM team's entry to the SemEval-2020 Task 12. Creating our solution involved leveraging two well-known pretrained models used in natural language processing: BERT and XLNet, which achieve state-of-the-art results in multiple NLP tasks. The models were fine-tuned for each subtask separately and features taken from their hidden layers were combined and fed into a fully connected neural network. The model using aggregated Transformer features can serve as a powerful tool for offensive language identification problem. Our team was ranked 7th out of 40 in Sub-task C - Offense target identification with 64.727% macro F1-score and 64th out of 85 in Sub-task A - Offensive language identification (89.726% F1-score).
翻訳日:2022-10-10 21:33:22 公開日:2020-10-05
# スパース知識グラフを用いたマルチホップ推論の動的予測と完了

Dynamic Anticipation and Completion for Multi-Hop Reasoning over Sparse Knowledge Graph ( http://arxiv.org/abs/2010.01899v1 )

ライセンス: Link先を確認
Xin Lv, Xu Han, Lei Hou, Juanzi Li, Zhiyuan Liu, Wei Zhang, Yichi Zhang, Hao Kong, Suhui Wu(参考訳) 近年,知識グラフ(KG)完成のための効果的かつ解釈可能な手法を模索するために,マルチホップ推論が広く研究されている。 従来の推論手法のほとんどは、エンティティ間の十分な経路を持つ高密度KG向けに設計されているが、推論のためのスパースパスのみを含むスパースKGではうまく機能しない。 一方、スパースKGは情報が少ないため、モデルが正しい経路を選択することは困難である。 一方,対象物に対する明らかな経路の欠如は推論過程を困難にしている。 これらの問題を解決するために,本研究では,新しい動的予測と完了戦略を適用したマルチホップ推論モデルであるDacKGRを提案する。 2) 完成戦略は,予測情報に基づいて経路探索中にエッジを動的に追加し,KGのスパース性問題を緩和する。 Freebase,NELL,Wikidataの5つのデータセットに対する実験結果から,本手法が最先端のベースラインより優れていることが示された。 私たちのコードとデータセットはhttps://github.com/THU-KEG/DacKGRから取得できます。

Multi-hop reasoning has been widely studied in recent years to seek an effective and interpretable method for knowledge graph (KG) completion. Most previous reasoning methods are designed for dense KGs with enough paths between entities, but cannot work well on those sparse KGs that only contain sparse paths for reasoning. On the one hand, sparse KGs contain less information, which makes it difficult for the model to choose correct paths. On the other hand, the lack of evidential paths to target entities also makes the reasoning process difficult. To solve these problems, we propose a multi-hop reasoning model named DacKGR over sparse KGs, by applying novel dynamic anticipation and completion strategies: (1) The anticipation strategy utilizes the latent prediction of embedding-based models to make our model perform more potential path search over sparse KGs. (2) Based on the anticipation information, the completion strategy dynamically adds edges as additional actions during the path search, which further alleviates the sparseness problem of KGs. The experimental results on five datasets sampled from Freebase, NELL and Wikidata show that our method outperforms state-of-the-art baselines. Our codes and datasets can be obtained from https://github.com/THU-KEG/DacKGR
翻訳日:2022-10-10 21:33:07 公開日:2020-10-05
# X-SRL: 並列言語間セマンティックロールラベルデータセット

X-SRL: A Parallel Cross-Lingual Semantic Role Labeling Dataset ( http://arxiv.org/abs/2010.01998v1 )

ライセンス: Link先を確認
Angel Daza and Anette Frank(参考訳) SRLは多くの言語で研究されているが、英語では大きな改良がなされており、より多くのリソースが利用できる。 実際、既存の多言語SRLデータセットは異なるアノテーションスタイルを含むか、異なるドメインから来ているため、多言語学習における一般化を妨げている。 本研究では,4つの言語(英語,フランス語,ドイツ語,スペイン語)で並列なsrlコーパスを自動的に構築する手法を提案する。 我々は、英語のCoNLL-09データセットに高品質な機械翻訳を適用し、多言語BERTを用いて、その高品質なアノテーションをターゲット言語に投影する。 プロジェクションの品質を測定するために使用する有能なテストセットを含め、プロジェクションが強いベースラインよりも密で正確であることを示す。 最後に、単言語および多言語SRLのための新しいコーパス上で異なるSOTAモデルを訓練し、多言語アノテーションが特に弱い言語の性能を向上させることを示す。

Even though SRL is researched for many languages, major improvements have mostly been obtained for English, for which more resources are available. In fact, existing multilingual SRL datasets contain disparate annotation styles or come from different domains, hampering generalization in multilingual learning. In this work, we propose a method to automatically construct an SRL corpus that is parallel in four languages: English, French, German, Spanish, with unified predicate and role annotations that are fully comparable across languages. We apply high-quality machine translation to the English CoNLL-09 dataset and use multilingual BERT to project its high-quality annotations to the target languages. We include human-validated test sets that we use to measure the projection quality, and show that projection is denser and more precise than a strong baseline. Finally, we train different SOTA models on our novel corpus for mono- and multilingual SRL, showing that the multilingual annotations improve performance especially for the weaker languages.
翻訳日:2022-10-10 21:32:28 公開日:2020-10-05
# 階層型マルチクラス分類のための完全双曲型ニューラルモデル

A Fully Hyperbolic Neural Model for Hierarchical Multi-Class Classification ( http://arxiv.org/abs/2010.02053v1 )

ライセンス: Link先を確認
Federico L\'opez, Michael Strube(参考訳) きめ細かいエンティティタイピングのためのラベル在庫は、サイズと複雑さが増している。 それにもかかわらず、それらは階層構造を示す。 双曲空間は、記号データの階層表現を学ぶ数学的に魅力的なアプローチを提供する。 しかし、ハイパーボリックコンポーネントを下流タスクに統合する方法は明らかになっていない。 これは、双曲空間におけるすべての演算を実行するマルチクラスマルチラベル分類のための完全双曲モデルを提案する最初の仕事である。 提案モデルを2つの課題データセット上で評価し,ユークリッド仮定の下で動作する異なるベースラインと比較する。 双曲モデルは,クラス分布から潜在階層を推定し,インベントリ内の暗黙の低調関係を捉え,パラメータサイズを著しく削減した細粒度分類における最先端法と同等の性能を示す。 詳細な分析は、最終予測における各コンポーネントの影響に光を当て、ユークリッド層との統合の容易さを示す。

Label inventories for fine-grained entity typing have grown in size and complexity. Nonetheless, they exhibit a hierarchical structure. Hyperbolic spaces offer a mathematically appealing approach for learning hierarchical representations of symbolic data. However, it is not clear how to integrate hyperbolic components into downstream tasks. This is the first work that proposes a fully hyperbolic model for multi-class multi-label classification, which performs all operations in hyperbolic space. We evaluate the proposed model on two challenging datasets and compare to different baselines that operate under Euclidean assumptions. Our hyperbolic model infers the latent hierarchy from the class distribution, captures implicit hyponymic relations in the inventory, and shows performance on par with state-of-the-art methods on fine-grained classification with remarkable reduction of the parameter size. A thorough analysis sheds light on the impact of each component in the final prediction and showcases its ease of integration with Euclidean layers.
翻訳日:2022-10-10 21:32:12 公開日:2020-10-05
# 推論型学習エージェントを用いた学習教材の有効性評価

Assessing the Helpfulness of Learning Materials with Inference-Based Learner-Like Agent ( http://arxiv.org/abs/2010.02179v1 )

ライセンス: Link先を確認
Yun-Hsuan Jen, Chieh-Yang Huang, Mei-Hua Chen, Ting-Hao 'Kenneth' Huang, Lun-Wei Ku(参考訳) 多くの英語学習者は、ほぼ同義語(例:小対小対小対短距離)を正しく使うのに苦労しており、2つのほぼ同義語がどう異なるかを学ぶために、しばしば例文を探す。 先行研究では、文を推薦するために手作りのスコアを用いるが、近義語にそのスコアを適用するのが困難であり、近義語は様々に異なる。 学習教材の有用性は,学習者のパフォーマンスに反映している。 そこで本研究では,学習者の行動を模倣し,優れた学習教材を識別するための推論ベース学習者ライクエージェントを提案する。 エージェントが学習者のように振る舞うために,提案した教材から回答を推測するエンテーメント・モデリングの能力を活用する。 実験の結果,提案エージェントは,FITB(Fill-in-the-Blank)と好例文選択タスクの両方において,優れた学習者ライクな動作を実現することができることがわかった。 さらに,大学esl学習者を対象に,教室ユーザ学習を行う。 ユーザ調査の結果,提案エージェントは,学生がより簡単かつ効率的に学ぶのに役立つ例文を見つけることができることがわかった。 他のモデルと比較して,提案エージェントは学習後の17%以上の生徒のスコアを改善する。

Many English-as-a-second language learners have trouble using near-synonym words (e.g., small vs.little; briefly vs.shortly) correctly, and often look for example sentences to learn how two nearly synonymous terms differ. Prior work uses hand-crafted scores to recommend sentences but has difficulty in adopting such scores to all the near-synonyms as near-synonyms differ in various ways. We notice that the helpfulness of the learning material would reflect on the learners' performance. Thus, we propose the inference-based learner-like agent to mimic learner behavior and identify good learning materials by examining the agent's performance. To enable the agent to behave like a learner, we leverage entailment modeling's capability of inferring answers from the provided materials. Experimental results show that the proposed agent is equipped with good learner-like behavior to achieve the best performance in both fill-in-the-blank (FITB) and good example sentence selection tasks. We further conduct a classroom user study with college ESL learners. The results of the user study show that the proposed agent can find out example sentences that help students learn more easily and efficiently. Compared to other models, the proposed agent improves the score of more than 17% of students after learning.
翻訳日:2022-10-10 21:30:50 公開日:2020-10-05
# 樹皮外形からの樹木の結び目予測に関する研究

A Study on Trees's Knots Prediction from their Bark Outer-Shape ( http://arxiv.org/abs/2010.03173v1 )

ライセンス: Link先を確認
Mejri Mohamed, Antoine Richard, Cedric Pradalier(参考訳) 産業において、木材ログの価値は内部構造に強く依存しており、特に木内部の結び目分布に強く依存している。 現在、CTスキャナーは木の内部構造の正確な画像を取得するための一般的なツールである。 しかし、CTスキャナーは高価で遅いため、ほとんどの産業用途では実用的ではない。 木の中の結び目がどこにあるかを知ることで、廃棄物を減らし、木ログ副産物の品質を向上させることで、木産業全体の効率を向上させることができる。 本稿では,木の内部結び目分布を外形から予測するために,異なるディープラーニングに基づくアーキテクチャを評価する。 畳み込みニューラルネットワーク(CNN)に基づく3種類の手法について検討する。 アーキテクチャは、実木と合成木の両方でテストされる。 これらの実験により,木外面に基づく内部結び目分布をcnnを用いて予測できることを実証した。 目標は、これらの安価で高速な方法がCTスキャナーを置き換えることができることを示すことである。 さらに,CTスキャン画像中の結び目を検出するために,市販の物体検出装置の性能についても検討した。 この方法では、実のCTスキャン木の一部を自動でラベル付けすることで、画像全体を手動で分割する必要がなくなる。

In the industry, the value of wood-logs strongly depends on their internal structure and more specifically on the knots' distribution inside the trees. As of today, CT-scanners are the prevalent tool to acquire accurate images of the trees internal structure. However, CT-scanners are expensive, and slow, making their use impractical for most industrial applications. Knowing where the knots are within a tree could improve the efficiency of the overall tree industry by reducing waste and improving the quality of wood-logs by-products. In this paper we evaluate different deep-learning based architectures to predict the internal knots distribution of a tree from its outer-shape, something that has never been done before. Three types of techniques based on Convolutional Neural Networks (CNN) will be studied. The architectures are tested on both real and synthetic CT-scanned trees. With these experiments, we demonstrate that CNNs can be used to predict internal knots distribution based on the external surface of the trees. The goal being to show that these inexpensive and fast methods could be used to replace the CT-scanners. Additionally, we look into the performance of several off-the-shelf object-detectors to detect knots inside CT-scanned images. This method is used to autonomously label part of our real CT-scanned trees alleviating the need to manually segment the whole of the images.
翻訳日:2022-10-10 21:24:10 公開日:2020-10-05
# 神経拡張型ALISTA

Neurally Augmented ALISTA ( http://arxiv.org/abs/2010.01930v1 )

ライセンス: Link先を確認
Freya Behrens, Jonathan Sauder and Peter Jung(参考訳) 経験的性能を改善するために学習可能なニューラルネットワークを生成するために、多くの反復的スパース再構成アルゴリズムを展開できることはよく知られている。 主な例としては、トレーニングデータからウェイト、ステップサイズ、しきい値を学ぶISTA(LISTA)がある。 近年、LISTA(Analytic LISTA)が導入され、LISTAのような完全学習アプローチの強力な経験的性能が組み合わされ、古典的な圧縮センシングアルゴリズムの理論的保証を維持し、学習するパラメータの数を著しく減らした。 しかしながら、これらのパラメータは期待通りに動作するよう訓練されており、しばしば個々のターゲットを最適に再構築する。 そこで本研究では、LSTMネットワークを用いて、再構成中の各ターゲットベクトルのステップサイズと閾値を個別に計算するニューラルネットワークALISTAを提案する。 この適応アプローチは alista の回復保証を再検討することで理論的に動機づけられている。 提案手法はスパース再構成における経験的性能をさらに向上させ,特に圧縮比がより困難になるにつれて,既存のアルゴリズムのマージンが向上することを示す。

It is well-established that many iterative sparse reconstruction algorithms can be unrolled to yield a learnable neural network for improved empirical performance. A prime example is learned ISTA (LISTA) where weights, step sizes and thresholds are learned from training data. Recently, Analytic LISTA (ALISTA) has been introduced, combining the strong empirical performance of a fully learned approach like LISTA, while retaining theoretical guarantees of classical compressed sensing algorithms and significantly reducing the number of parameters to learn. However, these parameters are trained to work in expectation, often leading to suboptimal reconstruction of individual targets. In this work we therefore introduce Neurally Augmented ALISTA, in which an LSTM network is used to compute step sizes and thresholds individually for each target vector during reconstruction. This adaptive approach is theoretically motivated by revisiting the recovery guarantees of ALISTA. We show that our approach further improves empirical performance in sparse reconstruction, in particular outperforming existing algorithms by an increasing margin as the compression ratio becomes more challenging.
翻訳日:2022-10-10 21:23:53 公開日:2020-10-05
# 構文指導によるトランスフォーマティブに基づくニューラルテキスト生成

Transformer-Based Neural Text Generation with Syntactic Guidance ( http://arxiv.org/abs/2010.01737v1 )

ライセンス: Link先を確認
Yinghao Li (Georgia Institute of Technology), Rui Feng (Georgia Institute of Technology), Isaac Rehg (Georgia Institute of Technology), Chao Zhang (Georgia Institute of Technology)(参考訳) テキスト生成の統語指導として(部分的)選挙区構文解析木を用いる問題について検討する。 この問題に対する既存のアプローチでは、長期依存問題に苦しむだけでなく、構文指導のツリー構造をモデル化するのにも不足しているリカレント構造を使っている。 解析木をよりうまく組み込むために、transformerの並列性を活用することを提案する。 提案手法はまず,入力元テキストに適合した部分テンプレート構文解析木をフルフローの構文解析木に拡張し,拡張木を用いてテキスト生成を誘導する。 このプロセスにおける我々のモデルの有効性は、2つの新しい注意のメカニズムにかかっている。 1)1つのノードに構文木内のパスにある他のノードにのみ参加するように強制するパスアテンション機構は、構文指導をよりうまく組み込む。 2) デコーダが複数のエンコーダからの情報を動的に参照できるマルチエンコーダアテンション機構。 制御されたパラフレーズ処理における実験により,本手法は意味的・統語的にSOTAモデルより優れており,最高基準のBLEUスコアが11.83から26.27に向上した。

We study the problem of using (partial) constituency parse trees as syntactic guidance for controlled text generation. Existing approaches to this problem use recurrent structures, which not only suffer from the long-term dependency problem but also falls short in modeling the tree structure of the syntactic guidance. We propose to leverage the parallelism of Transformer to better incorporate parse trees. Our method first expands a partial template constituency parse tree to a full-fledged parse tree tailored for the input source text, and then uses the expanded tree to guide text generation. The effectiveness of our model in this process hinges upon two new attention mechanisms: 1) a path attention mechanism that forces one node to attend to only other nodes located in its path in the syntax tree to better incorporate syntax guidance; 2) a multi-encoder attention mechanism that allows the decoder to dynamically attend to information from multiple encoders. Our experiments in the controlled paraphrasing task show that our method outperforms SOTA models both semantically and syntactically, improving the best baseline's BLEU score from 11.83 to 26.27.
翻訳日:2022-10-10 21:23:32 公開日:2020-10-05
# 言語モデルを用いた効果的な教師なしドメイン適応

Effective Unsupervised Domain Adaptation with Adversarially Trained Language Models ( http://arxiv.org/abs/2010.01739v1 )

ライセンス: Link先を確認
Thuy-Trang Vu, Dinh Phung and Gholamreza Haffari(参考訳) 最近の研究は、対象課題の領域における広範囲のコンテキスト化埋め込みモデルの適応の重要性を示している。 現在の自己監督型適応法は、トレーニング信号がマスクアウトトークンのわずかな割合から得られるため、単純である。 本稿では,注意深いマスキング戦略が,必要な自己スーパービジョンを割り当てることで,ドメインに関するマスキング言語モデル(mlms)の知識ギャップをより効果的に橋渡しできることを示す。 さらに,MLMの再構築が困難であるトークンを逆さまにマスキングすることで,効果的なトレーニング戦略を提案する。 逆の目標は、トークンの \emph{subsets} よりも組合せ最適化の問題に挑戦し、変分下界および動的プログラミングにリラクゼーションすることで効率的に取り組む。 名前付きエンティティ認識を含む6つの教師なしドメイン適応タスクでは、ランダムマスキング戦略を強く上回り、最大+1.64 F1スコアの改善を実現している。

Recent work has shown the importance of adaptation of broad-coverage contextualised embedding models on the domain of the target task of interest. Current self-supervised adaptation methods are simplistic, as the training signal comes from a small percentage of \emph{randomly} masked-out tokens. In this paper, we show that careful masking strategies can bridge the knowledge gap of masked language models (MLMs) about the domains more effectively by allocating self-supervision where it is needed. Furthermore, we propose an effective training strategy by adversarially masking out those tokens which are harder to reconstruct by the underlying MLM. The adversarial objective leads to a challenging combinatorial optimisation problem over \emph{subsets} of tokens, which we tackle efficiently through relaxation to a variational lowerbound and dynamic programming. On six unsupervised domain adaptation tasks involving named entity recognition, our method strongly outperforms the random masking strategy and achieves up to +1.64 F1 score improvements.
翻訳日:2022-10-10 21:23:12 公開日:2020-10-05
# sequence-to-sequence pre-trainingによるamr解析の改善

Improving AMR Parsing with Sequence-to-Sequence Pre-training ( http://arxiv.org/abs/2010.01771v1 )

ライセンス: Link先を確認
Dongqin Xu, Junhui Li, Muhua Zhu, Min Zhang, Guodong Zhou(参考訳) 文献では、抽象的意味表現(AMR)解析の研究は、優れた性能を持つAMR解析器を構築するのに欠かせない人為的なデータセットのサイズによって非常に制限されている。 このようなデータサイズ制限を軽減するため、事前訓練されたモデルはAMR解析においてますます注目を集めている。 しかし、BERTのような以前の事前学習モデルは一般的な目的のために実装されており、AMR解析の特定のタスクでは期待通りには機能しない。 本稿では,Sequence-to-sequence (seq2seq) AMR解析に焦点をあて,機械翻訳,構文解析,AMR解析という3つのタスクに対して,単一および共同で事前学習されたモデルを構築するためのセク2seq事前学習手法を提案する。 さらに,バニラファインチューニング法をマルチタスク学習ファインチューニング法に拡張し,AMR解析の性能を最適化し,事前訓練したモデルの応答を維持する。 2つのベンチマークデータセットの広範囲な実験結果から、シングルモデルとジョイント事前学習モデルの両方がパフォーマンスを著しく向上している(例えば、amr 2.0の71.5から80.2まで)。 複雑なモデルではなく、seq2seqモデルでこれを達成するので、結果は非常に有益です。 コードとモデルはhttps://github.com/xdqkid/s2s-amr-parserで利用可能です。

In the literature, the research on abstract meaning representation (AMR) parsing is much restricted by the size of human-curated dataset which is critical to build an AMR parser with good performance. To alleviate such data size restriction, pre-trained models have been drawing more and more attention in AMR parsing. However, previous pre-trained models, like BERT, are implemented for general purpose which may not work as expected for the specific task of AMR parsing. In this paper, we focus on sequence-to-sequence (seq2seq) AMR parsing and propose a seq2seq pre-training approach to build pre-trained models in both single and joint way on three relevant tasks, i.e., machine translation, syntactic parsing, and AMR parsing itself. Moreover, we extend the vanilla fine-tuning method to a multi-task learning fine-tuning method that optimizes for the performance of AMR parsing while endeavors to preserve the response of pre-trained models. Extensive experimental results on two English benchmark datasets show that both the single and joint pre-trained models significantly improve the performance (e.g., from 71.5 to 80.2 on AMR 2.0), which reaches the state of the art. The result is very encouraging since we achieve this with seq2seq models rather than complex models. We make our code and model available at https://github.com/xdqkid/S2S-AMR-Parser.
翻訳日:2022-10-10 21:22:36 公開日:2020-10-05
# コントラスト学習による教師なし参照フリー要約品質評価

Unsupervised Reference-Free Summary Quality Evaluation via Contrastive Learning ( http://arxiv.org/abs/2010.01781v1 )

ライセンス: Link先を確認
Hanlu Wu, Tengfei Ma, Lingfei Wu, Tariro Manyumwa and Shouling Ji(参考訳) 文書要約システムの評価は,要約タスクの成功に影響を及ぼす重要な要因となっている。 ROUGEのような従来のアプローチは、主に評価された要約の情報を考慮し、各テスト要約に対して人為的な参照を必要とする。 本研究では,教師なしコントラスト学習を用いて,参照要約を使わずに要約品質を評価することを提案する。 具体的には、BERTに基づく言語的品質と意味情報の両方をカバーする新しい指標を設計する。 評価基準を学習するために、各要約において、要約品質の異なる側面に関して異なるタイプの負のサンプルを構築し、ランキング損失でモデルを訓練する。 newsroomとcnn/daily mailによる実験では,新しい評価手法が参照要約なしでも他の指標よりも優れていることが示されている。 さらに,本手法は汎用的で,データセット間で転送可能であることを示す。

Evaluation of a document summarization system has been a critical factor to impact the success of the summarization task. Previous approaches, such as ROUGE, mainly consider the informativeness of the assessed summary and require human-generated references for each test summary. In this work, we propose to evaluate the summary qualities without reference summaries by unsupervised contrastive learning. Specifically, we design a new metric which covers both linguistic qualities and semantic informativeness based on BERT. To learn the metric, for each summary, we construct different types of negative samples with respect to different aspects of the summary qualities, and train our model with a ranking loss. Experiments on Newsroom and CNN/Daily Mail demonstrate that our new evaluation method outperforms other metrics even without reference summaries. Furthermore, we show that our method is general and transferable across datasets.
翻訳日:2022-10-10 21:22:08 公開日:2020-10-05
# スペクトルNormalized Identity Priorによる変圧器モデルの冗長写像

Pruning Redundant Mappings in Transformer Models via Spectral-Normalized Identity Prior ( http://arxiv.org/abs/2010.01791v1 )

ライセンス: Link先を確認
Zi Lin, Jeremiah Zhe Liu, Zi Yang, Nan Hua, Dan Roth(参考訳) トランスフォーマーモデルの伝統的な(非構造的な)プルーニング法は、個々の重みを 0 に罰することに集中する。 本研究では,Transformer モデルにおける残余モジュール全体を恒常化させる構造的プルーニング手法であるスペクトル正規化アイデンティティ事前(SNIP)について検討する。 本手法は,しきい値演算子を関数ノルムに適用することにより,残差接続における重要でない非線形写像を識別・破棄する。 単一のアテンションヘッド、全体アテンションブロック、フィードフォワードサブネットワークを含む任意の構造化モジュールに適用できる。 さらに, 変圧器層のポストアクティベーション値の分布を安定させるためにスペクトル正規化を導入し, 提案手法の刈り取り効果をさらに向上させる。 5つのGLUEベンチマークタスクでBERTを用いて実験を行い、SNIPが同等の性能を維持しながら効率的な刈り取り結果が得られることを示した。 具体的には,50%圧縮比の平均0.5~1.0%の性能向上を図る。

Traditional (unstructured) pruning methods for a Transformer model focus on regularizing the individual weights by penalizing them toward zero. In this work, we explore spectral-normalized identity priors (SNIP), a structured pruning approach that penalizes an entire residual module in a Transformer model toward an identity mapping. Our method identifies and discards unimportant non-linear mappings in the residual connections by applying a thresholding operator on the function norm. It is applicable to any structured module, including a single attention head, an entire attention block, or a feed-forward subnetwork. Furthermore, we introduce spectral normalization to stabilize the distribution of the post-activation values of the Transformer layers, further improving the pruning effectiveness of the proposed methodology. We conduct experiments with BERT on 5 GLUE benchmark tasks to demonstrate that SNIP achieves effective pruning results while maintaining comparable performance. Specifically, we improve the performance over the state-of-the-art by 0.5 to 1.0% on average at 50% compression ratio.
翻訳日:2022-10-10 21:21:54 公開日:2020-10-05
# $\xi$-torch:微分可能な科学計算ライブラリ

$\xi$-torch: differentiable scientific computing library ( http://arxiv.org/abs/2010.01921v1 )

ライセンス: Link先を確認
Muhammad F. Kasim, Sam M. Vinko(参考訳) 物理に変形した学習は、物理前科なしで学習するよりも優れた一般化が示されている。 しかし、物理インフォームドディープニューラルネットワークのトレーニングでは、物理シミュレーションのいくつかの側面を異なる方法で記述する必要がある。 残念ながら、物理シミュレーションでよく使われる操作や関数は散らばり、統合が難しく、物理シミュレーションで必要とされる高次微分が欠如している。 本稿では,科学シミュレーションのための微分可能な関数のライブラリである$\xi$-torchを提案する。 例えば、root finder や initial value problem solver などがある。 $\xi$-torch の関数の勾配は解析式に基づいて書かれ、数値安定性を改善し、メモリ要件を減少させる。 $\xi$-torchは、既存のパッケージではほとんど利用できない関数の2階と高階のデリバティブも提供する。 本ライブラリの物理シミュレーションにおけるパラメータ最適化への応用について述べる。 この作業のライブラリとすべてのテストケースはhttps://github.com/xitorch/xitorch/で、ドキュメントはhttps://xitorch.readthedocs.ioで見ることができる。

Physics-informed learning has shown to have a better generalization than learning without physical priors. However, training physics-informed deep neural networks requires some aspect of physical simulations to be written in a differentiable manner. Unfortunately, some operations and functionals commonly used in physical simulations are scattered, hard to integrate, and lack higher order derivatives which are needed in physical simulations. In this work, we present $\xi$-torch, a library of differentiable functionals for scientific simulations. Example functionals are a root finder and an initial value problem solver, among others. The gradient of functionals in $\xi$-torch are written based on their analytical expression to improve numerical stability and reduce memory requirements. $\xi$-torch also provides second and higher order derivatives of the functionals which are rarely available in existing packages. We show two applications of this library in optimizing parameters in physics simulations. The library and all test cases in this work can be found at https://github.com/xitorch/xitorch/ and the documentation at https://xitorch.readthedocs.io.
翻訳日:2022-10-10 21:15:47 公開日:2020-10-05
# 非線形変換による部分空間埋め込み

Subspace Embeddings Under Nonlinear Transformations ( http://arxiv.org/abs/2010.02264v1 )

ライセンス: Link先を確認
Aarshvi Gajjar, Cameron Musco(参考訳) 部分空間に対する低歪み埋め込みを \emph{entrywise non transformations} の下で考える。 特に、空間 $S = \{y: y = f(x)\text{ for }x \in Z\}$, ここで、$Z$ は $\mathbb{R}^n$ の $k$-次元部分空間であり、$f(x)$ は $x$ にエントリー的に適用される非線型活性化関数である。 f$ が恒等式であり、したがって $s$ が単に $k$-次元の部分空間であるとき、高い確率で $o(k/\epsilon^2)$ 次元へのランダム埋め込みは、すべての $y \in s$ のノルム(1\pm \epsilon)$ 相対誤差を保存することが知られている。 このような埋め込みは \emph{subspace embeddings} と呼ばれ、圧縮センシングや近似アルゴリズムで広く使われている。 幅広い非線形関数のクラスに対して、最初の低歪み埋め込みを$f$とする。 特に、人気のあるシグモイドソフトプラスやガウス関数を含む非線形性のクラスに対して、加法的に$\epsilon$エラー埋め込みを$o(\frac{k\log (n/\epsilon)}{\epsilon^2})$次元に与える。 例えば、Tanh、SoftSign、Exponential Linear Unit、その他多くの'soft'ステップ関数や修正ユニットによって満足される。 非線形変換の下で部分空間の埋め込みを理解することは、線形問題に対するランダムなスケッチと圧縮センシング技術を非線形に拡張するための重要なステップである。 本稿では,生成型ニューラルネットワークを用いた圧縮センシングにおける境界の改善に関する実験例について述べる。

We consider low-distortion embeddings for subspaces under \emph{entrywise nonlinear transformations}. In particular we seek embeddings that preserve the norm of all vectors in a space $S = \{y: y = f(x)\text{ for }x \in Z\}$, where $Z$ is a $k$-dimensional subspace of $\mathbb{R}^n$ and $f(x)$ is a nonlinear activation function applied entrywise to $x$. When $f$ is the identity, and so $S$ is just a $k$-dimensional subspace, it is known that, with high probability, a random embedding into $O(k/\epsilon^2)$ dimensions preserves the norm of all $y \in S$ up to $(1\pm \epsilon)$ relative error. Such embeddings are known as \emph{subspace embeddings}, and have found widespread use in compressed sensing and approximation algorithms. We give the first low-distortion embeddings for a wide class of nonlinear functions $f$. In particular, we give additive $\epsilon$ error embeddings into $O(\frac{k\log (n/\epsilon)}{\epsilon^2})$ dimensions for a class of nonlinearities that includes the popular Sigmoid SoftPlus, and Gaussian functions. We strengthen this result to give relative error embeddings under some further restrictions, which are satisfied e.g., by the Tanh, SoftSign, Exponential Linear Unit, and many other `soft' step functions and rectifying units. Understanding embeddings for subspaces under nonlinear transformations is a key step towards extending random sketching and compressing sensing techniques for linear problems to nonlinear ones. We discuss example applications of our results to improved bounds for compressed sensing via generative neural networks.
翻訳日:2022-10-10 21:14:42 公開日:2020-10-05
# 光子駆動ニューラルパス誘導

Photon-Driven Neural Path Guiding ( http://arxiv.org/abs/2010.01775v1 )

ライセンス: Link先を確認
Shilin Zhu, Zexiang Xu, Tiancheng Sun, Alexandr Kuznetsov, Mark Meyer, Henrik Wann Jensen, Hao Su, Ravi Ramamoorthi(参考訳) モンテカルロ経路追跡は、フォトリアリスティックな画像を合成するための単純かつ効果的なアルゴリズムであるが、複雑なグローバル照明を伴う場合、ノイズのない結果に収束するのは非常に遅い。 最も成功した分散還元手法の1つは、ピクセルノイズを減らすために重要サンプリングのためにより良い分布を学ぶことができるパス誘導である。 しかし、以前の手法では、信頼できるパスガイドを実現するために多数のパスサンプルが必要だった。 本稿では,オフライントレーニングニューラルネットワークを用いて,サンプルのスパース集合から経路誘導を行うための高品質サンプリング分布を再構成する新しいニューラルパス誘導手法を提案する。 我々は,光源からの光子をサンプリング密度再構成の入力として活用し,この光子は強い全球照度を持つシーンに対して非常に有効である。 ディープニューラルネットワークをフル活用するために、シーン空間を適応的な階層グリッドに分割し、このネットワークを適用して、シーン内の任意のローカル領域の高品質なサンプリング分布を再構築する。 これにより、パストレースの任意の場所において、任意のパスバウンドを効率的に導くことができる。 我々は、光子駆動ニューラルパス誘導法が、トレーニングで見られない様々な挑戦的なテストシーンをうまく一般化できることを実証する。 提案手法は,従来の最先端の経路案内手法よりも,テストシーンのレンダリング結果が大幅に向上する。

Although Monte Carlo path tracing is a simple and effective algorithm to synthesize photo-realistic images, it is often very slow to converge to noise-free results when involving complex global illumination. One of the most successful variance-reduction techniques is path guiding, which can learn better distributions for importance sampling to reduce pixel noise. However, previous methods require a large number of path samples to achieve reliable path guiding. We present a novel neural path guiding approach that can reconstruct high-quality sampling distributions for path guiding from a sparse set of samples, using an offline trained neural network. We leverage photons traced from light sources as the input for sampling density reconstruction, which is highly effective for challenging scenes with strong global illumination. To fully make use of our deep neural network, we partition the scene space into an adaptive hierarchical grid, in which we apply our network to reconstruct high-quality sampling distributions for any local region in the scene. This allows for highly efficient path guiding for any path bounce at any location in path tracing. We demonstrate that our photon-driven neural path guiding method can generalize well on diverse challenging testing scenes that are not seen in training. Our approach achieves significantly better rendering results of testing scenes than previous state-of-the-art path guiding methods.
翻訳日:2022-10-10 21:13:40 公開日:2020-10-05
# MRNetデータセットを用いた膝損傷検出のための既存および新しい深層学習法の比較検討

A Comparative Study of Existing and New Deep Learning Methods for Detecting Knee Injuries using the MRNet Dataset ( http://arxiv.org/abs/2010.01947v1 )

ライセンス: Link先を確認
David Azcona, Kevin McGuinness and Alan F. Smeaton(参考訳) この研究は、スタンフォードのMRNetデータセットを利用して膝関節損傷を検出する既存の技術と新しい技術の比較研究である。 すべてのアプローチはディープラーニングに基づいており、転送学習とスクラッチからトレーニングされたディープ残差ネットワークの比較性能について検討する。 また, 磁気共鳴イメージング(MRI)データの特徴を, 軸方向, コロナ面, 矢状面の各面から, 固定数のスライスや2次元画像を用いて利用し, 3次元平面を1つの多面ネットワークに組み合わせた。 全体として、より最近のディープラーニングアーキテクチャとデータ拡張戦略を用いて、検証データに対する93.4%のAUCの性能を達成した。 MRIを処理するモデルの開発とトレーニングに役立つ、より柔軟なアーキテクチャも提案されている。 転送学習と注意深く調整されたデータ拡張戦略が、最高のパフォーマンスを決定する上で重要な要素であることがわかった。

This work presents a comparative study of existing and new techniques to detect knee injuries by leveraging Stanford's MRNet Dataset. All approaches are based on deep learning and we explore the comparative performances of transfer learning and a deep residual network trained from scratch. We also exploit some characteristics of Magnetic Resonance Imaging (MRI) data by, for example, using a fixed number of slices or 2D images from each of the axial, coronal and sagittal planes as well as combining the three planes into one multi-plane network. Overall we achieved a performance of 93.4% AUC on the validation data by using the more recent deep learning architectures and data augmentation strategies. More flexible architectures are also proposed that might help with the development and training of models that process MRIs. We found that transfer learning and a carefully tuned data augmentation strategy were the crucial factors in determining best performance.
翻訳日:2022-10-10 21:13:20 公開日:2020-10-05
# スパースMRI情報からの確率的3次元表面再構成

Probabilistic 3D surface reconstruction from sparse MRI information ( http://arxiv.org/abs/2010.02041v1 )

ライセンス: Link先を確認
Katar\'ina T\'othov\'a, Sarah Parisot, Matthew Lee, Esther Puyol-Ant\'on, Andrew King, Marc Pollefeys, Ender Konukoglu(参考訳) 磁気共鳴画像データからの表面再構成は医用画像解析や臨床研究に欠かせない。 信頼性が高く効果的な再構築ツールは、正確な局所化および高分解能モデルの予測を高速に行い、予測の不確実性を評価し、可能な限り少ない入力データで作業する。 しかし,3次元再構成法(SOTA)の現在の深層学習状態は,標準位置に位置する限られた変動の形状や不確実性評価の欠如に限られることが多い。 本稿では,スパース2次元mr画像データとアレエータ的不確かさ予測から3次元表面再構成を同時行う新しい確率的深層学習手法を提案する。 本手法は,ガウス分布を用いて各メッシュ頂点の位置をモデル化しながら,限られたトレーニングセットから3つの準直交MR画像スライスから大きなメッシュを再構成することができる。 事前形状情報は、内蔵線形主成分分析(PCA)モデルを用いて符号化される。 心臓mrデータを用いた広範な実験により, 予測の不確かさを定量的かつ定量的に評価し, 形状予測におけるsota法を上回った。 SOTAと比較して、空間的に認識されたニューラルネットワークを用いて予測を適切に位置決めし、オリエンテーションすることができる。

Surface reconstruction from magnetic resonance (MR) imaging data is indispensable in medical image analysis and clinical research. A reliable and effective reconstruction tool should: be fast in prediction of accurate well localised and high resolution models, evaluate prediction uncertainty, work with as little input data as possible. Current deep learning state of the art (SOTA) 3D reconstruction methods, however, often only produce shapes of limited variability positioned in a canonical position or lack uncertainty evaluation. In this paper, we present a novel probabilistic deep learning approach for concurrent 3D surface reconstruction from sparse 2D MR image data and aleatoric uncertainty prediction. Our method is capable of reconstructing large surface meshes from three quasi-orthogonal MR imaging slices from limited training sets whilst modelling the location of each mesh vertex through a Gaussian distribution. Prior shape information is encoded using a built-in linear principal component analysis (PCA) model. Extensive experiments on cardiac MR data show that our probabilistic approach successfully assesses prediction uncertainty while at the same time qualitatively and quantitatively outperforms SOTA methods in shape prediction. Compared to SOTA, we are capable of properly localising and orientating the prediction via the use of a spatially aware neural network.
翻訳日:2022-10-10 21:13:04 公開日:2020-10-05
# 言語音響感情認識のためのトランスフォーマを用いた変調融合

Modulated Fusion using Transformer for Linguistic-Acoustic Emotion Recognition ( http://arxiv.org/abs/2010.02057v1 )

ライセンス: Link先を確認
Jean-Benoit Delbrouck and No\'e Tits and St\'ephane Dupont(参考訳) 本稿では,感情認識と感情分析のタスクに対して,新しい軽量かつ強力なソリューションを提案する。 我々のモチベーションは、幅広いデータセットから言語的および音響的入力を組み合わせるトランスフォーマーと変調に基づく2つのアーキテクチャを提案することである。 モデルの有効性を実証するため,IEMOCAP,MOSI,MOSEI,MELDデータセットを用いて,その性能を慎重に評価した。 実験は直接複製することができ、コードは将来の研究のために完全にオープンである。

This paper aims to bring a new lightweight yet powerful solution for the task of Emotion Recognition and Sentiment Analysis. Our motivation is to propose two architectures based on Transformers and modulation that combine the linguistic and acoustic inputs from a wide range of datasets to challenge, and sometimes surpass, the state-of-the-art in the field. To demonstrate the efficiency of our models, we carefully evaluate their performances on the IEMOCAP, MOSI, MOSEI and MELD dataset. The experiments can be directly replicated and the code is fully open for future researches.
翻訳日:2022-10-10 21:06:21 公開日:2020-10-05
# 知識蒸留を用いた神経話題モデルの改善

Improving Neural Topic Models using Knowledge Distillation ( http://arxiv.org/abs/2010.02377v1 )

ライセンス: Link先を確認
Alexander Hoyle, Pranav Goel, Philip Resnik(参考訳) トピックモデルは、大きなドキュメントコレクションを理解するのに役立つ人間の解釈可能なトピックを特定するためにしばしば使用される。 我々は知識蒸留を用いて確率的トピックモデルと事前学習されたトランスフォーマの最良の特性を組み合わせる。 我々のモジュラー手法は、どのニューラルトピックモデルでも簡単に適用でき、トピックの品質を改善し、異なるアーキテクチャを持つ2つのモデルを用いて、最先端のトピックコヒーレンスを得ることができることを示した。 適応可能なフレームワークは、一般的に報告されているように、すべての推定トピックに対するアグリゲーションのパフォーマンスを向上するだけでなく、アライメントされたトピックの直接比較においても向上することを示す。

Topic models are often used to identify human-interpretable topics to help make sense of large document collections. We use knowledge distillation to combine the best attributes of probabilistic topic models and pretrained transformers. Our modular method can be straightforwardly applied with any neural topic model to improve topic quality, which we demonstrate using two models having disparate architectures, obtaining state-of-the-art topic coherence. We show that our adaptable framework not only improves performance in the aggregate over all estimated topics, as is commonly reported, but also in head-to-head comparisons of aligned topics.
翻訳日:2022-10-10 21:06:11 公開日:2020-10-05
# TPAM:パラメータ適応法を定量的に解析するシミュレーションベースモデル

TPAM: A Simulation-Based Model for Quantitatively Analyzing Parameter Adaptation Methods ( http://arxiv.org/abs/2010.01877v1 )

ライセンス: Link先を確認
Ryoji Tanabe and Alex Fukunaga(参考訳) 多くの適応微分進化(DE)アルゴリズムが提案されているが、パラメータ適応法(PAM)はよく理解されていない。 PAMのトラッキング性能を評価するために,Target関数に基づくPAMシミュレーション(TPAM)フレームワークを提案する。 提案するTPAMシミュレーションフレームワークは, PAMが予め定義された目標パラメータを追跡する能力を測定し, PAMの適応挙動の定量的解析を可能にする。 提案したTPAMにおいて,広く使用されている5つの適応DEM(jDE, EPSDE, JADE, MDE, SHADE)の追跡性能を評価し,TPAMがPAMに重要な洞察を与えることを示す。

While a large number of adaptive Differential Evolution (DE) algorithms have been proposed, their Parameter Adaptation Methods (PAMs) are not well understood. We propose a Target function-based PAM simulation (TPAM) framework for evaluating the tracking performance of PAMs. The proposed TPAM simulation framework measures the ability of PAMs to track predefined target parameters, thus enabling quantitative analysis of the adaptive behavior of PAMs. We evaluate the tracking performance of PAMs of widely used five adaptive DEs (jDE, EPSDE, JADE, MDE, and SHADE) on the proposed TPAM, and show that TPAM can provide important insights on PAMs, e.g., why the PAM of SHADE performs better than that of JADE, and under what conditions the PAM of EPSDE fails at parameter adaptation.
翻訳日:2022-10-10 21:05:58 公開日:2020-10-05
# 物体中心ペトリネットの発見

Discovering Object-Centric Petri Nets ( http://arxiv.org/abs/2010.02047v1 )

ライセンス: Link先を確認
Wil M.P. van der Aalst and Alessandro Berti(参考訳) イベントデータからペトリネットを検出するテクニックは、イベントごとに正確に1つのケース識別子を仮定する。 これらのケース識別子はイベントの相関に使用され、結果として発見されたペトリネットは個々のケースのライフサイクルを記述することを目的としている。 実際、一つのケース概念は存在しないが、複数のケース概念がある。 例えば、イベントは注文、アイテム、パッケージ、顧客、製品の混合を指すこともある。 パッケージは複数のアイテム、複数の製品、1つの注文、1つの顧客を参照することができる。 したがって、各イベントがオブジェクトの集合を参照し、それぞれが(単一のケース識別子ではなく)型を持つと仮定する必要がある。 このようなオブジェクト中心のイベントログは、実際の情報システムのデータに近い。 オブジェクト中心のイベントログから、異なるタイプのオブジェクトのコレクションを消費し生成するオブジェクトタイプと遷移に対応する場所を持つオブジェクト中心のペトリネットを見つけたいと思っています。 オブジェクト中心のペトリネットは、異なるタイプのオブジェクト間の複雑な関係を可視化する。 本稿では,PM4Pyで実装されたプロセス発見手法について述べる。 以下に示すように、必要に応じて特定の視点にドリルダウンできる総合的なプロセスモデルを見つけることは可能である。

Techniques to discover Petri nets from event data assume precisely one case identifier per event. These case identifiers are used to correlate events, and the resulting discovered Petri net aims to describe the life-cycle of individual cases. In reality, there is not one possible case notion, but multiple intertwined case notions. For example, events may refer to mixtures of orders, items, packages, customers, and products. A package may refer to multiple items, multiple products, one order, and one customer. Therefore, we need to assume that each event refers to a collection of objects, each having a type (instead of a single case identifier). Such object-centric event logs are closer to data in real-life information systems. From an object-centric event log, we want to discover an object-centric Petri net with places that correspond to object types and transitions that may consume and produce collections of objects of different types. Object-centric Petri nets visualize the complex relationships among objects from different types. This paper discusses a novel process discovery approach implemented in PM4Py. As will be demonstrated, it is indeed feasible to discover holistic process models that can be used to drill-down into specific viewpoints if needed.
翻訳日:2022-10-10 21:05:16 公開日:2020-10-05
# ソフトアクタ-criticを用いた低レベルuav制御

Using Soft Actor-Critic for Low-Level UAV Control ( http://arxiv.org/abs/2010.02293v1 )

ライセンス: Link先を確認
Gabriel Moraes Barros and Esther Luna Colombini(参考訳) 無人航空機(UAV)またはドローンは、最近、臓器提供から遠隔地、無線ネットワークのカバレッジに至るまで、いくつかの民間アプリケーションドメインで使用されている。 しかし、これらのプラットフォームは自然に不安定なシステムであり、様々な制御アプローチが提案されている。 一般に、古典的かつ近代的な制御に基づいて、これらのアルゴリズムはロボットのダイナミクスの知識を必要とする。 しかし近年,ロボットモデルに関する事前知識のないドローン制御において,モデルレス強化学習が成功している。 本研究では,ソフトアクタ・クリティカル(SAC)アルゴリズムを,目標タスク中の4乗子を低レベルに制御するフレームワークを提案する。 実験はすべてシミュレーションによって行われた。 実験の結果,SACはロバストな政策を学習できるだけでなく,目に見えないシナリオにも対処できることがわかった。 シミュレーションのビデオはhttps://www.youtube.com/watch? v=9z8vGs0Ri5g と https://github.com/larocs/SAC_uav のコード。

Unmanned Aerial Vehicles (UAVs), or drones, have recently been used in several civil application domains from organ delivery to remote locations to wireless network coverage. These platforms, however, are naturally unstable systems for which many different control approaches have been proposed. Generally based on classic and modern control, these algorithms require knowledge of the robot's dynamics. However, recently, model-free reinforcement learning has been successfully used for controlling drones without any prior knowledge of the robot model. In this work, we present a framework to train the Soft Actor-Critic (SAC) algorithm to low-level control of a quadrotor in a go-to-target task. All experiments were conducted under simulation. With the experiments, we show that SAC can not only learn a robust policy, but it can also cope with unseen scenarios. Videos from the simulations are available in https://www.youtube.com/watch?v=9z8vGs0Ri5g and the code in https://github.com/larocs/SAC_uav.
翻訳日:2022-10-10 21:05:00 公開日:2020-10-05
# 射影効率向上法と最適非平滑フランクウルフ法

Projection Efficient Subgradient Method and Optimal Nonsmooth Frank-Wolfe Method ( http://arxiv.org/abs/2010.01848v1 )

ライセンス: Link先を確認
Kiran Koshy Thekumparampil, Prateek Jain, Praneeth Netrapalli, Sewoong Oh(参考訳) 非滑らかなリプシッツ連続凸関数を凸制約集合上で最適化する古典的な設定は、函数の(確率的な)一階オラクル(FO)と制約集合の射影オラクル(PO)にアクセスできるときに考慮する。 高次元での$\epsilon$-suboptimalityを達成するには$\theta(\epsilon^{-2})$ foコールが必要であることはよく知られている。 これは projected subgradient method (pgd) によって達成される。 しかし、pgdには$o(\epsilon^{-2})$ poコールも含まれており、fo呼び出しよりも計算コストが高い可能性がある(核規範制約など)。 PGDの複雑性は、この問題の基本的な性質と広範な文献にもかかわらず、ほとんど解明されていない。 私たちはそのような改善を最初に提示する。 これは、対象函数が制約集合の少し大きな近傍に拡張されたとき、まだリプシッツのままで FO を介してアクセス可能であるという穏やかな仮定のみを必要とする。 特に,Moreau-Yosida平滑化と高速化された1次スキームを慎重に組み合わせたMOPS法を提案する。 これは、$O(\epsilon^{-1})$ PO コールと$O(\epsilon^{-2})$ FO コールのみを使用して実現可能な $\epsilon$-suboptimal ソリューションを見つけることが保証されている。 さらに、制約集合にアクセスするための線形最小化オラクル (LMO, a la Frank-Wolfe) しか持たない PO の代わりに、我々の方法であるMOLES は、$O(\epsilon^{-2})$ LMO コールと FO コールの両方が既知の下界と一致し、White (1993) 以降に残された質問を解決し、実現可能な $\epsilon$-suboptimal ソリューションを見つける。 提案手法は,POおよびLMOコールのコストがかかる問題に対して,最先端技術に対する大幅な高速化を実現する。

We consider the classical setting of optimizing a nonsmooth Lipschitz continuous convex function over a convex constraint set, when having access to a (stochastic) first-order oracle (FO) for the function and a projection oracle (PO) for the constraint set. It is well known that to achieve $\epsilon$-suboptimality in high-dimensions, $\Theta(\epsilon^{-2})$ FO calls are necessary. This is achieved by the projected subgradient method (PGD). However, PGD also entails $O(\epsilon^{-2})$ PO calls, which may be computationally costlier than FO calls (e.g. nuclear norm constraints). Improving this PO calls complexity of PGD is largely unexplored, despite the fundamental nature of this problem and extensive literature. We present first such improvement. This only requires a mild assumption that the objective function, when extended to a slightly larger neighborhood of the constraint set, still remains Lipschitz and accessible via FO. In particular, we introduce MOPES method, which carefully combines Moreau-Yosida smoothing and accelerated first-order schemes. This is guaranteed to find a feasible $\epsilon$-suboptimal solution using only $O(\epsilon^{-1})$ PO calls and optimal $O(\epsilon^{-2})$ FO calls. Further, instead of a PO if we only have a linear minimization oracle (LMO, a la Frank-Wolfe) to access the constraint set, an extension of our method, MOLES, finds a feasible $\epsilon$-suboptimal solution using $O(\epsilon^{-2})$ LMO calls and FO calls---both match known lower bounds, resolving a question left open since White (1993). Our experiments confirm that these methods achieve significant speedups over the state-of-the-art, for a problem with costly PO and LMO calls.
翻訳日:2022-10-10 21:04:25 公開日:2020-10-05
# 傷とエピソードレベルの再送リスクまたは再送の数週間: なぜ患者は再送されるのか? 患者が再送されるのにどのくらいかかりますか。

Wound and episode level readmission risk or weeks to readmit: Why do patients get readmitted? How long does it take for a patient to get readmitted? ( http://arxiv.org/abs/2010.02742v1 )

ライセンス: Link先を確認
Subba Reddy Oota, Nafisur Rahman, Shahid Saleem Mohammed, Jeffrey Galitz, Ming Liu(参考訳) 2010年手頃なケア法(英語版)は2012年に、医療費の上昇を制御するために避けられる再送を減らすために再送削減プログラムを導入した。 ワンドケアは医療受給者の15人に影響を与え、医療医療費の主要な貢献者の一つである。 健康計画では、創傷再発の予防と、創傷治療コストを制御するための再治療に焦点を当てた積極的な医療サービスを検討している。 ワンドケア産業のコストの上昇に伴い、傷の再発と患者の再入院を減らすことが最重要になっている。 再発の原因となる要因は何で、最終的に入院や再入院につながるのか? データ駆動分析を用いて再入院するリスクのある患者を識別する方法はあるか? 糖尿病性潰瘍, 圧痛性潰瘍, 血管性潰瘍などの慢性的外傷に苦しむ患者にとって, 再治療リスク管理は極めて重要である。 患者の寛解を引き起こすリスクや要因を理解することは、ケア提供者や患者が傷の再発を避けるのに役立つ。 本研究は,再入院のリスクが高い患者を特定し,再入院の時期を決定することに焦点を当てた。 頻繁な再入院は、患者と健康計画に経済的ストレスを与え、患者の生活の質を悪化させる。 この情報を得ることで、提供者は予防措置を設定でき、予防しなければ患者の再入院を遅らせることができる。 患者の創傷情報とエピソードレベルのデータの組み合わせにより,拡張型自己予後は92のリコールと92の精度を達成し,患者の再入院リスクを予測する。 新しい患者クラスでは,正確度は91,リコール率は98。 また,患者の退院イベントを2.3週間のモデルで予測することができる。

The Affordable care Act of 2010 had introduced Readmission reduction program in 2012 to reduce avoidable re-admissions to control rising healthcare costs. Wound care impacts 15 of medicare beneficiaries making it one of the major contributors of medicare health care cost. Health plans have been exploring proactive health care services that can focus on preventing wound recurrences and re-admissions to control the wound care costs. With rising costs of Wound care industry, it has become of paramount importance to reduce wound recurrences & patient re-admissions. What factors are responsible for a Wound to recur which ultimately lead to hospitalization or re-admission? Is there a way to identify the patients at risk of re-admission before the occurrence using data driven analysis? Patient re-admission risk management has become critical for patients suffering from chronic wounds such as diabetic ulcers, pressure ulcers, and vascular ulcers. Understanding the risk & the factors that cause patient readmission can help care providers and patients avoid wound recurrences. Our work focuses on identifying patients who are at high risk of re-admission & determining the time period with in which a patient might get re-admitted. Frequent re-admissions add financial stress to the patient & Health plan and deteriorate the quality of life of the patient. Having this information can allow a provider to set up preventive measures that can delay, if not prevent, patients' re-admission. On a combined wound & episode-level data set of patient's wound care information, our extended autoprognosis achieves a recall of 92 and a precision of 92 for the predicting a patient's re-admission risk. For new patient class, precision and recall are as high as 91 and 98, respectively. We are also able to predict the patient's discharge event for a re-admission event to occur through our model with a MAE of 2.3 weeks.
翻訳日:2022-10-10 20:57:50 公開日:2020-10-05
# ベイズ型深層学習手法を用いた不確実性を考慮した建築エネルギーサロゲートモデル

Using Bayesian deep learning approaches for uncertainty-aware building energy surrogate models ( http://arxiv.org/abs/2010.03029v1 )

ライセンス: Link先を確認
Paul Westermann and Ralph Evins(参考訳) 高速な機械学習ベースのサーロゲートモデルは、低速で高忠実なエンジニアリングシミュレーションモデルをエミュレートして、エンジニアリング設計タスクを加速するように訓練される。 これは、サーロゲートが元のモデルの近似であるから不確実性をもたらす。 ベイズ的手法は、ベイズ的パラダイムに従う不確実性や深層学習モデルが存在することを定量化することができる。 これらのモデル、すなわちベイズニューラルネットワークとガウス過程モデルにより、モデルの不確実性の推定とともに予測を行うことができる。 その結果、大きなエミュレーションエラーを引き起こす未発見の設計サンプルを自動的に疑う不確実性を認識したサロゲートモデルを得ることができる。 これらのサンプルでは、代わりに高忠実度モデルに問い合わせることができる。 これはベイズパラダイムがいかに速く、近似的で、遅く、正確なモデルをハイブリダイズできるかを概説する。 本稿では,2種類のベイズモデル(ドロップアウトニューラルネットワークと確率変分ガウス過程モデル)を訓練し,複雑な高次元建築エネルギー性能シミュレーション問題をエミュレートする。 代理モデルプロセス35は、12の異なるパフォーマンス指標(アウトプット)を推定するために設計パラメータ(インプット)を構築する。 両者のアプローチをベンチマークし、その精度が競争力があることを証明し、最も不確実性が高いサンプルの10%が高忠実度モデルに転送されると、エラーを最大30%削減できることを示した。

Fast machine learning-based surrogate models are trained to emulate slow, high-fidelity engineering simulation models to accelerate engineering design tasks. This introduces uncertainty as the surrogate is only an approximation of the original model. Bayesian methods can quantify that uncertainty, and deep learning models exist that follow the Bayesian paradigm. These models, namely Bayesian neural networks and Gaussian process models, enable us to give predictions together with an estimate of the model's uncertainty. As a result we can derive uncertainty-aware surrogate models that can automatically suspect unseen design samples that cause large emulation errors. For these samples, the high-fidelity model can be queried instead. This outlines how the Bayesian paradigm allows us to hybridize fast, but approximate, and slow, but accurate models. In this paper, we train two types of Bayesian models, dropout neural networks and stochastic variational Gaussian Process models, to emulate a complex high dimensional building energy performance simulation problem. The surrogate model processes 35 building design parameters (inputs) to estimate 12 different performance metrics (outputs). We benchmark both approaches, prove their accuracy to be competitive, and show that errors can be reduced by up to 30% when the 10% of samples with the highest uncertainty are transferred to the high-fidelity model.
翻訳日:2022-10-10 20:57:20 公開日:2020-10-05
# 高次元ベイズ最適化を用いたパラメータ最適化

Parameter Optimization using high-dimensional Bayesian Optimization ( http://arxiv.org/abs/2010.03955v1 )

ライセンス: Link先を確認
David Yenicelik(参考訳) 本稿では,高次元領域におけるベイズ最適化手法の可能性について考察する。 高次元領域は数百次元から数千次元の間と定義できるが、我々は主に2次元から20次元の間の問題の設定に焦点を当てる。 そのために私たちは、電子加速器のパラメータのチューニングや、手元にある標準的なラップトップにちょうど間に合うように実行および最適化できるよりシンプルなタスクなど、実用的な問題に対するソリューションにフォーカスしています。 私たちの主な貢献は 1) 実射影行列と発見行列行列の角度差が対数類似性がどのように影響するかを比較する。 2) 強み及び欠点を含む現在の一般的な方法の広範な分析。 三 特徴選択に寸法低減技術をどのように使用できるか、及び、その方法に関する短い分析 4.)"BORING"と呼ばれる新しいアルゴリズムは、行列の識別が失敗した場合の単純なフォールバック機構を可能にし、手元の関数の小さな摂動を与える「パッシブ」部分空間を考慮に入れている。 退屈の主な特徴は 1.(他の最適化アルゴリズムとは異なり)部分空間を識別する可能性、及び 2. 最適化が依然として主要な目標であるため、識別が失敗した場合、サブスペースを特定するためのより低いペナルティを提供する。

In this thesis, I explore the possibilities of conducting Bayesian optimization techniques in high dimensional domains. Although high dimensional domains can be defined to be between hundreds and thousands of dimensions, we will primarily focus on problem settings that occur between two and 20 dimensions. As such, we focus on solutions to practical problems, such as tuning the parameters for an electron accelerator, or for even simpler tasks that can be run and optimized just in time with a standard laptop at hand. Our main contributions are 1.) comparing how the log-likelihood affects the angle-difference in the real projection matrix, and the found matrix matrix, 2.) an extensive analysis of current popular methods including strengths and shortcomings, 3.) a short analysis on how dimensionality reduction techniques can be used for feature selection, and 4.) a novel algorithm called "BORING", which allows for a simple fallback mechanism if the matrix identification fails, as well as taking into consideration "passive" subspaces which provide small perturbations of the function at hand. The main features of BORING are 1.) the possibility to identify the subspace (unlike most other optimization algorithms), and 2.) to provide a much lower penalty to identify the subspace if identification fails, as optimization is still the primary goal.
翻訳日:2022-10-10 20:56:57 公開日:2020-10-05
# アクションガイダンス:リアルタイムストラテジーゲームにおけるスリムな報酬と形をした報酬を得る

Action Guidance: Getting the Best of Sparse Rewards and Shaped Rewards for Real-time Strategy Games ( http://arxiv.org/abs/2010.03956v1 )

ライセンス: Link先を確認
Shengyi Huang, Santiago Onta\~n\'on(参考訳) 報酬の少ないゲームで強化学習を使用するトレーニングエージェントは、最初の報酬を得るには大量の探索が必要であるため、難しい問題である。 この問題に対処する一般的なアプローチは、報酬形成を使って探索を支援することである。 しかし、報酬形成の重要な欠点は、エージェントが本当の目的ではなく形をした報酬を最適化することを学ぶことがあることである。 本稿では,報酬形成に伴うサンプル効率のほとんどを維持しつつ,エージェントを訓練し,最終的に報酬の少ないゲームにおいて真の目的を最適化する,アクションガイダンスと呼ばれる新しい手法を提案する。 提案手法を,$\mu$RTSと呼ばれるシンプルなリアルタイム戦略(RTS)ゲームシミュレータで評価する。

Training agents using Reinforcement Learning in games with sparse rewards is a challenging problem, since large amounts of exploration are required to retrieve even the first reward. To tackle this problem, a common approach is to use reward shaping to help exploration. However, an important drawback of reward shaping is that agents sometimes learn to optimize the shaped reward instead of the true objective. In this paper, we present a novel technique that we call action guidance that successfully trains agents to eventually optimize the true objective in games with sparse rewards while maintaining most of the sample efficiency that comes with reward shaping. We evaluate our approach in a simplified real-time strategy (RTS) game simulator called $\mu$RTS.
翻訳日:2022-10-10 20:56:37 公開日:2020-10-05
# 畳み込みオートエンコーダの埋め込み層における多レベル特徴学習と画像クラスタリングのための深い逆特徴学習

Multi-level Feature Learning on Embedding Layer of Convolutional Autoencoders and Deep Inverse Feature Learning for Image Clustering ( http://arxiv.org/abs/2010.02343v1 )

ライセンス: Link先を確認
Behzad Ghazanfari, Fatemeh Afghah(参考訳) 本稿では、深層クラスタリングにおける新しいアプローチとして、畳み込み型自動エンコーダ(CAE-MLE)の埋め込み層と共にマルチレベル特徴学習を導入する。 我々は,潜在的な特徴空間の階層構造を提供するマルチレベル特徴学習として凝集型クラスタリングを用いる。 マルチレベル特徴学習の適用により,基本的な深層畳み込みクラスタリング(DCEC)が大幅に向上することが示されている。 CAE-MLEは、集合的クラスタリングのクラスタリング損失を、CAEの学習潜在機能と同時に考慮している。 逆特徴学習における先行研究の次の例では、エラー学習の一般的な戦略としての表現が、異なる深層クラスタリングアプローチに適用可能であることを示し、有望な結果をもたらす。 我々は, CAE-MLE を用いた深層逆特徴学習 (deep IFL) を, 同じカテゴリの手法の最先端結果につながる新しいアプローチとして開発する。 実験の結果,cae-mle は mnist と usps の 2 つの既知のデータセット上で約 7% -14% の 基本法 dcec の結果を改善した。 また,提案した深部IFLでは,9%~17%の改善が認められた。 したがって, CAE-MLE と CAE-MLE に基づく深層 IFL の両手法は, 既存の技術と比較して顕著な性能向上をもたらす可能性がある。 提案手法は,基本的畳み込みオートエンコーダをベースとして,変分オートエンコーダや生成逆数ネットワークと比較しても優れた結果をもたらす。

This paper introduces Multi-Level feature learning alongside the Embedding layer of Convolutional Autoencoder (CAE-MLE) as a novel approach in deep clustering. We use agglomerative clustering as the multi-level feature learning that provides a hierarchical structure on the latent feature space. It is shown that applying multi-level feature learning considerably improves the basic deep convolutional embedding clustering (DCEC). CAE-MLE considers the clustering loss of agglomerative clustering simultaneously alongside the learning latent feature of CAE. In the following of the previous works in inverse feature learning, we show that the representation of learning of error as a general strategy can be applied on different deep clustering approaches and it leads to promising results. We develop deep inverse feature learning (deep IFL) on CAE-MLE as a novel approach that leads to the state-of-the-art results among the same category methods. The experimental results show that the CAE-MLE improves the results of the basic method, DCEC, around 7% -14% on two well-known datasets of MNIST and USPS. Also, it is shown that the proposed deep IFL improves the primary results about 9%-17%. Therefore, both proposed approaches of CAE-MLE and deep IFL based on CAE-MLE can lead to notable performance improvement in comparison to the majority of existing techniques. The proposed approaches while are based on a basic convolutional autoencoder lead to outstanding results even in comparison to variational autoencoders or generative adversarial networks.
翻訳日:2022-10-10 20:55:48 公開日:2020-10-05
# リスク推定によるバイオメディカル仮説生成のための時間的肯定的非ラベル学習

Temporal Positive-unlabeled Learning for Biomedical Hypothesis Generation via Risk Estimation ( http://arxiv.org/abs/2010.01916v1 )

ライセンス: Link先を確認
Uchenna Akujuobi, Jun Chen, Mohamed Elhoseiny, Michael Spranger, Xiangliang Zhang(参考訳) ウイルス、薬物、症状などの生物医学用語の関係を理解することは、疾患との闘いにおいて不可欠である。 仮説生成の科学的プロセス(hg)に機械学習を導入するために多くの試みがなされており、これは生物医学用語間の有意義な暗黙的なつながりの発見を指す。 しかし、既存のほとんどの手法は、科学的用語関係の時間的ダイナミクスを真に捉えることができず、また観測されていない接続は無関係であると仮定する(すなわち、正負の学習環境において)。 これらの限界を打破するために、我々はこのHG問題を、正非ラベル学習(PU)を用いて動的属性グラフ上の将来の接続予測タスクとして定式化する。 次に鍵となるのは、ポジティブデータとラベルなしデータのみから、ノードペア(項ペア)関係の時間的進化を捉えることである。 本稿では,正の事前推定のための変分推論モデルを提案し,それをノード対埋め込みの学習に組み入れ,リンク予測に利用する。 実世界の生物医学用語関係データセットの実験結果とcovid-19データセットのケーススタディ解析は,提案モデルの有効性を検証する。

Understanding the relationships between biomedical terms like viruses, drugs, and symptoms is essential in the fight against diseases. Many attempts have been made to introduce the use of machine learning to the scientific process of hypothesis generation(HG), which refers to the discovery of meaningful implicit connections between biomedical terms. However, most existing methods fail to truly capture the temporal dynamics of scientific term relations and also assume unobserved connections to be irrelevant (i.e., in a positive-negative (PN) learning setting). To break these limits, we formulate this HG problem as future connectivity prediction task on a dynamic attributed graph via positive-unlabeled (PU) learning. Then, the key is to capture the temporal evolution of node pair (term pair) relations from just the positive and unlabeled data. We propose a variational inference model to estimate the positive prior, and incorporate it in the learning of node pair embeddings, which are then used for link prediction. Experiment results on real-world biomedical term relationship datasets and case study analyses on a COVID-19 dataset validate the effectiveness of the proposed model.
翻訳日:2022-10-10 20:49:03 公開日:2020-10-05
# 生成的対向ネットワークにおけるモード崩壊の説明としてのサンプル重み付け

Sample weighting as an explanation for mode collapse in generative adversarial networks ( http://arxiv.org/abs/2010.02035v1 )

ライセンス: Link先を確認
Aksel Wilhelm Wold Eide, Eilif Solberg, Ingebj{\o}rg K{\aa}sen(参考訳) 生成的逆ネットワークはロジスティックなミニマックスコストの定式化によって導入されたが、それは通常飽和のために訓練に失敗する。 飽和問題に対処する一方で、ns-ganはジェネレータのサンプル重み付けを反転させ、パラメータ更新時の高スケーリングから低スケーリングへの強調を暗黙的にシフトさせる。 本研究はNS-GANがモード降下する傾向にあることを示す理論と実験結果の両方を提示する。 我々は,MM-GANサンプルの重み付けを,MM-GANミニバッチ勾配を再スケーリングすることで飽和を回避しつつ保存するMM-nsatを設計する。 mm-nsat は定性的に異なるトレーニングダイナミクスを持ち、mnist と cifar-10 ではモードカバレッジ、安定性、fid の点で強い。 MM-nsatの試験結果はLS-GANとHinge-GANの定式化と比較して有望で好ましいが、NS-GANの試料重み付けがモード低下やトレーニングの崩壊を引き起こす理由と理由を示すことが主な貢献である。

Generative adversarial networks were introduced with a logistic MiniMax cost formulation, which normally fails to train due to saturation, and a Non-Saturating reformulation. While addressing the saturation problem, NS-GAN also inverts the generator's sample weighting, implicitly shifting emphasis from higher-scoring to lower-scoring samples when updating parameters. We present both theory and empirical results suggesting that this makes NS-GAN prone to mode dropping. We design MM-nsat, which preserves MM-GAN sample weighting while avoiding saturation by rescaling the MM-GAN minibatch gradient such that its magnitude approximates NS-GAN's gradient magnitude. MM-nsat has qualitatively different training dynamics, and on MNIST and CIFAR-10 it is stronger in terms of mode coverage, stability and FID. While the empirical results for MM-nsat are promising and favorable also in comparison with the LS-GAN and Hinge-GAN formulations, our main contribution is to show how and why NS-GAN's sample weighting causes mode dropping and training collapse.
翻訳日:2022-10-10 20:47:48 公開日:2020-10-05
# 視覚表現のコントラスト学習のための条件負サンプリング

Conditional Negative Sampling for Contrastive Learning of Visual Representations ( http://arxiv.org/abs/2010.02037v1 )

ライセンス: Link先を確認
Mike Wu, Milan Mosse, Chengxu Zhuang, Daniel Yamins, Noah Goodman(参考訳) コントラスト学習と呼ばれる教師なし視覚表現を学習するための最近の手法は、画像の2つのビュー間の相互情報に基づいて、ノイズコントラスト推定(NCE)を最適化する。 NCEはランダムにサンプル化された負の例を使って目的を正規化する。 本稿では, 難解な負の選択, あるいは現在の事例に類似した選択が, より強い表現をもたらすことを示す。 これを実現するために、各正の周りの「リング」に、負を条件付きでサンプリングする相互情報推定器のファミリーを導入する。 これらの推定器は, 偏差が大きいが, NCEよりも分散度が低い。 実験により,既存のモデル (IR, CMC, MoCo) 上に適用した手法により, 4つの標準画像データセットの線形評価により, 各ケースの精度を2-5%向上することがわかった。 さらに,Meta-Datasetコレクションから,オブジェクト検出やインスタンスセグメンテーション,キーポイント検出など,さまざまなダウンストリームタスクに機能を移行する場合にも,継続的なメリットがある。

Recent methods for learning unsupervised visual representations, dubbed contrastive learning, optimize the noise-contrastive estimation (NCE) bound on mutual information between two views of an image. NCE uses randomly sampled negative examples to normalize the objective. In this paper, we show that choosing difficult negatives, or those more similar to the current instance, can yield stronger representations. To do this, we introduce a family of mutual information estimators that sample negatives conditionally -- in a "ring" around each positive. We prove that these estimators lower-bound mutual information, with higher bias but lower variance than NCE. Experimentally, we find our approach, applied on top of existing models (IR, CMC, and MoCo) improves accuracy by 2-5% points in each case, measured by linear evaluation on four standard image datasets. Moreover, we find continued benefits when transferring features to a variety of new image distributions from the Meta-Dataset collection and to a variety of downstream tasks such as object detection, instance segmentation, and keypoint detection.
翻訳日:2022-10-10 20:47:22 公開日:2020-10-05
# コントラスト学習における不確実性の簡単な枠組み

A Simple Framework for Uncertainty in Contrastive Learning ( http://arxiv.org/abs/2010.02038v1 )

ライセンス: Link先を確認
Mike Wu, Noah Goodman(参考訳) 表現学習に対する対照的なアプローチは、最近大きな可能性を秘めている。 生成的アプローチとは対照的に、これらの対照的なモデルは不確実性や信頼性の概念を持たない決定論的エンコーダを学習する。 本稿では,事前学習されたコントラスト表現に対する不確かさを割り当てることを学ぶ「連続分布」に基づく単純なアプローチを提案する。 特に、表現から表現空間の分布への深いネットワークを訓練し、その分散を信頼度尺度として用いることができる。 実験では,(1)モデル行動の視覚的解釈,(2)デプロイされたモデルへの入力における新たなノイズの検出,(3)11タスクにわたるベースラインメソッドの10を上回り,最大14%の絶対値の改善,(4)完全教師なしモデルが教師付きメソッドと競合する分散外サンプルの分類を行う,という,深い不確実性モデルが有効であることを示す。

Contrastive approaches to representation learning have recently shown great promise. In contrast to generative approaches, these contrastive models learn a deterministic encoder with no notion of uncertainty or confidence. In this paper, we introduce a simple approach based on "contrasting distributions" that learns to assign uncertainty for pretrained contrastive representations. In particular, we train a deep network from a representation to a distribution in representation space, whose variance can be used as a measure of confidence. In our experiments, we show that this deep uncertainty model can be used (1) to visually interpret model behavior, (2) to detect new noise in the input to deployed models, (3) to detect anomalies, where we outperform 10 baseline methods across 11 tasks with improvements of up to 14% absolute, and (4) to classify out-of-distribution examples where our fully unsupervised model is competitive with supervised methods.
翻訳日:2022-10-10 20:47:02 公開日:2020-10-05
# オブジェクト中心世界モデルにおける生成的イマジネーションの改善

Improving Generative Imagination in Object-Centric World Models ( http://arxiv.org/abs/2010.02054v1 )

ライセンス: Link先を確認
Zhixuan Lin, Yi-Fu Wu, Skand Peri, Bofeng Fu, Jindong Jiang, Sungjin Ahn(参考訳) オブジェクト中心生成世界モデルにおける最近の注目すべき進歩は、いくつかの疑問を提起している。 第一に、近年の成果の多くは、汎用的で多目的な世界モデルを作るのに欠かせないものであるが、これらの要素が統一された枠組みにどのように統合できるかは明らかになっていない。 第2に, 生成目標を用いたにもかかわらず, 物体検出と追跡の能力について主に検討し, 時間的想像力の重要な能力に疑問を呈する。 第3に、マルチモーダル不確実性や状況認識など、より忠実な時間的想像力を持ついくつかの重要な能力が欠落している。 本稿では,G-SWM(Generative Structured World Models)を紹介する。 G-SWMは、従来のモデルの主要な特性を原則的枠組みで統一するだけでなく、2つの重要な新しい能力、マルチモーダル不確実性と状況認識を達成することで、多目的世界モデリングを実現する。 これまでのモデルと比較して,時間生成能力に関する徹底的な調査を行った結果,g-swmは,これまでテストされなかったいくつかの複雑な設定を含むすべての実験環境において,最高の,あるいは同等の性能を持つ汎用性を達成していることが示された。

The remarkable recent advances in object-centric generative world models raise a few questions. First, while many of the recent achievements are indispensable for making a general and versatile world model, it is quite unclear how these ingredients can be integrated into a unified framework. Second, despite using generative objectives, abilities for object detection and tracking are mainly investigated, leaving the crucial ability of temporal imagination largely under question. Third, a few key abilities for more faithful temporal imagination such as multimodal uncertainty and situation-awareness are missing. In this paper, we introduce Generative Structured World Models (G-SWM). The G-SWM achieves the versatile world modeling not only by unifying the key properties of previous models in a principled framework but also by achieving two crucial new abilities, multimodal uncertainty and situation-awareness. Our thorough investigation on the temporal generation ability in comparison to the previous models demonstrates that G-SWM achieves the versatility with the best or comparable performance for all experiment settings including a few complex settings that have not been tested before.
翻訳日:2022-10-10 20:46:43 公開日:2020-10-05
# 残差適応による深部異常検出

Deep Anomaly Detection by Residual Adaptation ( http://arxiv.org/abs/2010.02310v1 )

ライセンス: Link先を確認
Lucas Deecke, Lukas Ruff, Robert A. Vandermeulen, Hakan Bilen(参考訳) 深い異常検出は、高次元において、正規性の例のみを与えられると「微分」の概念を完全に特徴づけるのは難しいため、難しい課題である。 本稿では,異常検出タスクに適応する残差補正を用いた大規模事前学習ネットワークの強化に基づく,深部異常検出のための新しい手法を提案する。 提案手法は,パラメータ効率の高い学習機構を実現し,事前学習モデルにおける表現のゆがみを高め,事前学習ネットワークを利用した他のベースラインを含む既存の異常検出方法よりも優れる。 例えば、CIFAR-10 one-versus-restベンチマークでは、この手法が96.1から99.0に上昇する。

Deep anomaly detection is a difficult task since, in high dimensions, it is hard to completely characterize a notion of "differentness" when given only examples of normality. In this paper we propose a novel approach to deep anomaly detection based on augmenting large pretrained networks with residual corrections that adjusts them to the task of anomaly detection. Our method gives rise to a highly parameter-efficient learning mechanism, enhances disentanglement of representations in the pretrained model, and outperforms all existing anomaly detection methods including other baselines utilizing pretrained networks. On the CIFAR-10 one-versus-rest benchmark, for example, our technique raises the state of the art from 96.1 to 99.0 mean AUC.
翻訳日:2022-10-10 20:46:06 公開日:2020-10-05
# 球状溶融グロモフワッサーシュタインを用いた関係正規化オートエンコーダの改良

Improving Relational Regularized Autoencoders with Spherical Sliced Fused Gromov Wasserstein ( http://arxiv.org/abs/2010.01787v1 )

ライセンス: Link先を確認
Khai Nguyen and Son Nguyen and Nhat Ho and Tung Pham and Hung Bui(参考訳) リレーショナル正規化オートエンコーダ(RAE)は、遅延空間上のリレーショナル正規化とともに再構成損失を最小化し、データの分布を学習するフレームワークである。 前方分布と後方分布の差を減少させようとする最近の試みは、これらの分布の間にスライスされたグロモフ・ワッセルシュタイン (sfg) を組み込むことである。 このアプローチは、すべてのスライシング方向を同じように扱うため弱点があり、一方、いくつかの方向は判別作業には役に立たない。 そこで本稿では,関係正規化と関係正規化を両立させるため,von mises-fisher分布を特徴とする射影の重要領域を求めるために,球状スライスされたgromov wasserstein (ssfg) という新しい関係異性を提案する。 次に,SSFGの性能向上のために2種類のSSFGを提案する。 最初の変種は混合球状スライスされたグロモフ・ワッサーシュタイン (MSSFG) と呼ばれ、vMF分布をフォン・ミセス=フィッシャー分布の混合で置き換え、互いに遠く離れた複数の重要な方向を捉える。 第2の変種はパワースフィナルスライスされたGromov Wasserstein (PSSFG) と呼ばれ、高次元設定におけるサンプリング時間を改善するために、vMF分布をパワースフィラル分布に置き換える。 次に、RAEフレームワークに新しい相違を適用して、その新しい変種を達成する。 最後に,新たに提案したオートエンコーダが,潜在多様体構造,画像生成,再構成の学習に好適な性能を示した。

Relational regularized autoencoder (RAE) is a framework to learn the distribution of data by minimizing a reconstruction loss together with a relational regularization on the latent space. A recent attempt to reduce the inner discrepancy between the prior and aggregated posterior distributions is to incorporate sliced fused Gromov-Wasserstein (SFG) between these distributions. That approach has a weakness since it treats every slicing direction similarly, meanwhile several directions are not useful for the discriminative task. To improve the discrepancy and consequently the relational regularization, we propose a new relational discrepancy, named spherical sliced fused Gromov Wasserstein (SSFG), that can find an important area of projections characterized by a von Mises-Fisher distribution. Then, we introduce two variants of SSFG to improve its performance. The first variant, named mixture spherical sliced fused Gromov Wasserstein (MSSFG), replaces the vMF distribution by a mixture of von Mises-Fisher distributions to capture multiple important areas of directions that are far from each other. The second variant, named power spherical sliced fused Gromov Wasserstein (PSSFG), replaces the vMF distribution by a power spherical distribution to improve the sampling time in high dimension settings. We then apply the new discrepancies to the RAE framework to achieve its new variants. Finally, we conduct extensive experiments to show that the new proposed autoencoders have favorable performance in learning latent manifold structure, image generation, and reconstruction.
翻訳日:2022-10-10 20:40:04 公開日:2020-10-05
# Bigeminal Priors Variational Auto-Encoder

Bigeminal Priors Variational auto-encoder ( http://arxiv.org/abs/2010.01819v1 )

ライセンス: Link先を確認
Xuming Ran, Mingkun Xu, Qi Xu, Huihui Zhou, Quanying Liu(参考訳) 変分自動エンコーダ(VAEs)は、教師なし学習における可能性に基づく生成モデルに影響を及ぼし、一般的に使用される。 確率に基づく生成モデルは、オフ・オブ・ディストリビューション(OOD)入力に対して非常に堅牢であることが報告されており、このモデルがOODデータセットよりもイン・ディストリビューション(ID)データセットからのサンプルに高い確率を割り当てると仮定して、検出できる。 しかし、最近の研究は、VAEが一部のOODサンプルをIDとして認識する現象を報告している。 本研究では,この現象に対処するための新しいモデルであるBigeminal Priors Variational Auto-Encoder(BPVAE)を提案する。 BPVAEは、VAEのパワーをトレーニングデータセットに属する2つの独立した先行データと、トレーニングデータセットよりも複雑性が低い単純なデータセットと組み合わせることで、VAEの堅牢性を高めることを目指している。 BPVAEは2つのデータセットの特徴を学習し、単純なデータセットよりもトレーニングデータセットの可能性が高かった。 このようにして、BPVAEの密度推定を用いてOODサンプルを検出することができる。 定量的実験により,本モデルは標準vaesよりも一般化能力と頑健性が向上し,協調事前学習によるハイブリッド学習の有効性が実証された。 全体として、この作業は複数の潜伏先モデリングを通じて、OOD問題を克服する新たな道を開く。

Variational auto-encoders (VAEs) are an influential and generally-used class of likelihood-based generative models in unsupervised learning. The likelihood-based generative models have been reported to be highly robust to the out-of-distribution (OOD) inputs and can be a detector by assuming that the model assigns higher likelihoods to the samples from the in-distribution (ID) dataset than an OOD dataset. However, recent works reported a phenomenon that VAE recognizes some OOD samples as ID by assigning a higher likelihood to the OOD inputs compared to the one from ID. In this work, we introduce a new model, namely Bigeminal Priors Variational auto-encoder (BPVAE), to address this phenomenon. The BPVAE aims to enhance the robustness of the VAEs by combing the power of VAE with the two independent priors that belong to the training dataset and simple dataset, which complexity is lower than the training dataset, respectively. BPVAE learns two datasets'features, assigning a higher likelihood for the training dataset than the simple dataset. In this way, we can use BPVAE's density estimate for detecting the OOD samples. Quantitative experimental results suggest that our model has better generalization capability and stronger robustness than the standard VAEs, proving the effectiveness of the proposed approach of hybrid learning by collaborative priors. Overall, this work paves a new avenue to potentially overcome the OOD problem via multiple latent priors modeling.
翻訳日:2022-10-10 20:38:43 公開日:2020-10-05
# 多様性保存型K-Armedバンド、再検討

Diversity-Preserving K-Armed Bandits, Revisited ( http://arxiv.org/abs/2010.01874v1 )

ライセンス: Link先を確認
H\'edi Hadiji (LMO, CELESTE), S\'ebastien Gerchinovitz (IMT), Jean-Michel Loubes (IMT), Gilles Stoltz (LMO, CELESTE)(参考訳) celis et al. (2019) が導入した,線形バンディット設定の削減を中心にアプローチした,バンディットに基づく多様性保全推奨フレームワークについて考察する。 設定の特定の構造を用いてUPBアルゴリズムを設計し、最適混合作用が全ての作用(つまり多様性が望ましい場合)に確率質量を課す場合、自然の場合において分布依存的後悔を享受することを示す。 シミュレーションはこの事実を示している。 また,後悔の限界を低くし,分布のない後悔の限界を簡潔に議論する。

We consider the bandit-based framework for diversity-preserving recommendations introduced by Celis et al. (2019), who approached it mainly by a reduction to the setting of linear bandits. We design a UCB algorithm using the specific structure of the setting and show that it enjoys a bounded distribution-dependent regret in the natural cases when the optimal mixed actions put some probability mass on all actions (i.e., when diversity is desirable). Simulations illustrate this fact. We also provide regret lower bounds and briefly discuss distribution-free regret bounds.
翻訳日:2022-10-10 20:37:32 公開日:2020-10-05
# ラズイムパ(LazImpa) : ラズイムパとイミュータブル・ニューラルエージェントが効率よくコミュニケーションを学ぶ

"LazImpa": Lazy and Impatient neural agents learn to communicate efficiently ( http://arxiv.org/abs/2010.01878v1 )

ライセンス: Link先を確認
Mathieu Rita, Rahma Chaabouni, Emmanuel Dupoux(参考訳) これまでの研究によると、人工神経エージェントは驚くほど非効率なコードを自然に開発していた。 これは、話者とリスナーニューラルネットワークが介在する参照ゲームにおいて、離散チャネル上の正確な送信を最適化する場合、創発メッセージは最適な長さを達成できないという事実によって説明される。 さらに、頻繁なメッセージは、すべての自然言語で見られるZipf Law of Abbreviation(ZLA)に反するパターンである、頻度の低いメッセージよりも長い傾向にある。 ここでは、話者とリスナーの両方が修正された場合にのみ、ほぼ最適かつZLA互換なメッセージが現れることを示す。 そこで我々は,「LazImpa」という新たなコミュニケーションシステムを導入し,話者の怠慢化,長文の回避,聴取者の不快感,即ち意図した内容の推測をできるだけ早く行う。

Previous work has shown that artificial neural agents naturally develop surprisingly non-efficient codes. This is illustrated by the fact that in a referential game involving a speaker and a listener neural networks optimizing accurate transmission over a discrete channel, the emergent messages fail to achieve an optimal length. Furthermore, frequent messages tend to be longer than infrequent ones, a pattern contrary to the Zipf Law of Abbreviation (ZLA) observed in all natural languages. Here, we show that near-optimal and ZLA-compatible messages can emerge, but only if both the speaker and the listener are modified. We hence introduce a new communication system, "LazImpa", where the speaker is made increasingly lazy, i.e. avoids long messages, and the listener impatient, i.e.,~seeks to guess the intended content as soon as possible.
翻訳日:2022-10-10 20:31:14 公開日:2020-10-05
# 記憶すること:部分的に観察可能な強化学習の研究

The act of remembering: a study in partially observable reinforcement learning ( http://arxiv.org/abs/2010.01753v1 )

ライセンス: Link先を確認
Rodrigo Toro Icarte, Richard Valenzano, Toryn Q. Klassen, Phillip Christoffersen, Amir-massoud Farahmand, Sheila A. McIlraith(参考訳) 強化学習(rl)エージェントは通常、メモリレスなポリシーを学習します。 メモリレスポリシーの学習は、完全に観測可能な環境で効率的かつ最適である。 しかし、RLエージェントが部分可観測性に直面している場合、ある種の記憶が必要である。 本稿では,RLの部分観測可能性に取り組むための軽量なアプローチについて検討する。 エージェントに外部メモリと、何かがメモリに書き込まれるかを制御するための追加のアクションを提供します。 各ステップにおいて、現在のメモリ状態はエージェントの観察の一部であり、エージェントはタプルのアクションを選択します。 外部メモリが十分に表現可能な場合、最適なメモリレスポリシーは、グローバルに最適なソリューションをもたらす。 残念なことに、以前のバイナリメモリという形で外部メモリを使用する試みは、実際は不十分な結果をもたらしている。 本稿では,効果的なメモリレスポリシの学習を支援する代替記憶形態について検討する。 我々の新しいメモリ形態は、よく確立された部分的に観測可能な領域におけるバイナリとLSTMベースのメモリより優れている。

Reinforcement Learning (RL) agents typically learn memoryless policies---policies that only consider the last observation when selecting actions. Learning memoryless policies is efficient and optimal in fully observable environments. However, some form of memory is necessary when RL agents are faced with partial observability. In this paper, we study a lightweight approach to tackle partial observability in RL. We provide the agent with an external memory and additional actions to control what, if anything, is written to the memory. At every step, the current memory state is part of the agent's observation, and the agent selects a tuple of actions: one action that modifies the environment and another that modifies the memory. When the external memory is sufficiently expressive, optimal memoryless policies yield globally optimal solutions. Unfortunately, previous attempts to use external memory in the form of binary memory have produced poor results in practice. Here, we investigate alternative forms of memory in support of learning effective memoryless policies. Our novel forms of memory outperform binary and LSTM-based memory in well-established partially observable domains.
翻訳日:2022-10-10 20:30:36 公開日:2020-10-05
# ベイズハイパーパラメータの非自明な情報閉鎖

Non-trivial informational closure of a Bayesian hyperparameter ( http://arxiv.org/abs/2010.01855v1 )

ライセンス: Link先を確認
Martin Biehl and Ryota Kanai(参考訳) 同一かつ独立に分布する有限確率変数の基底分布を推定するベイズハイパーパラメータの非自明な情報閉包(NTIC)について検討する。 このため、ベイズ超パラメータ更新プロセスとランダムデータプロセスの両方をマルコフ連鎖に組み込む。 bertschinger et al. (2006) による最初の出版物では、nticはモデリングプロセス内の特定の内部構造や明示的な表現の存在と無関係なモデリングの抽象概念を捉えることができるかもしれないと言及している。 ベイズ超パラメータは、データ処理のモデルとしてよく定義された解釈を持つと同時に、この解釈を参照せずにそのダイナミクスを指定できるため、興味深い。 一方,ハイパーパラメータのnticが時間とともに無期限に増加することを示す。 一方、ハイパーパラメータをモデルとして解釈する特徴である量、すなわち情報ゲインと、この解釈に依存しない量である一段階のポイントワイズnticとの接続を確立する。 一般に、一段階のポイントワイズnticを情報ゲインの指標として使うことはできない。 この探索的な研究が、nticとモデリングの関係をより厳密に研究できることを期待しています。

We investigate the non-trivial informational closure (NTIC) of a Bayesian hyperparameter inferring the underlying distribution of an identically and independently distributed finite random variable. For this we embed both the Bayesian hyper-parameter updating process and the random data process into a Markov chain. The original publication by Bertschinger et al. (2006) mentioned that NTIC may be able to capture an abstract notion of modeling that is agnostic to the specific internal structure of and existence of explicit representations within the modeling process. The Bayesian hyperparameter is of interest since it has a well defined interpretation as a model of the data process and at the same time its dynamics can be specified without reference to this interpretation. On the one hand we show explicitly that the NTIC of the hyperparameter increases indefinitely over time. On the other hand we attempt to establish a connection between a quantity that is a feature of the interpretation of the hyperparameter as a model, namely the information gain, and the one-step pointwise NTIC which is a quantity that does not depend on this interpretation. We find that in general we cannot use the one-step pointwise NTIC as an indicator for information gain. We hope this exploratory work can lead to further rigorous studies of the relation between NTIC and modeling.
翻訳日:2022-10-10 20:30:22 公開日:2020-10-05
# 計画のためのオフライン学習:概要

Offline Learning for Planning: A Summary ( http://arxiv.org/abs/2010.01931v1 )

ライセンス: Link先を確認
Giorgio Angelotti, Nicolas Drougard, Caroline Ponzoni Carvalho Chanel(参考訳) 自律エージェントの訓練は、しばしば、環境との高価で安全でない試行錯誤の相互作用を必要とする。 今日では、無人車両の制御から人間とロボットのインタラクション、医療応用に至るまで、さまざまなタスクをこなすインテリジェントエージェントの記録的な経験を含むいくつかのデータセットがインターネット上でアクセス可能である。 学習手順のコストを制限する目的で、新しいデータを集めるのではなく、既に利用可能な情報を利用するのが便利である。 それにもかかわらず、バッチを増強できないことは、サンプルされた経験が環境の真の分布を適切に推定できない場合に、自律的なエージェントが最適な行動から遠ざかる可能性がある。 オフライン学習は、環境とのさらなる相互作用なしに、事前に収集した経験のバッチで最適なポリシーを効率的に取得することに関わる機械学習の分野である。 本稿では,最先端のオフライン学習ベースラインの開発を動機とするアイデアを要約する。 提案手法は,マルコフ決定過程の古典的解法における不確実性依存的制約の導入と,実世界の分布ミスマッチの悪影響を緩和することを目的としている。 これらのアルゴリズムの適用を正当化するための理論境界の実用的有用性についてコメントするとともに,提案するモデルフリーおよびモデルベースアプローチすべてに影響を与える分布シフトを推定するための生成型逆ネットワークの利用を提案する。

The training of autonomous agents often requires expensive and unsafe trial-and-error interactions with the environment. Nowadays several data sets containing recorded experiences of intelligent agents performing various tasks, spanning from the control of unmanned vehicles to human-robot interaction and medical applications are accessible on the internet. With the intention of limiting the costs of the learning procedure it is convenient to exploit the information that is already available rather than collecting new data. Nevertheless, the incapability to augment the batch can lead the autonomous agents to develop far from optimal behaviours when the sampled experiences do not allow for a good estimate of the true distribution of the environment. Offline learning is the area of machine learning concerned with efficiently obtaining an optimal policy with a batch of previously collected experiences without further interaction with the environment. In this paper we adumbrate the ideas motivating the development of the state-of-the-art offline learning baselines. The listed methods consist in the introduction of epistemic uncertainty dependent constraints during the classical resolution of a Markov Decision Process, with and without function approximators, that aims to alleviate the bad effects of the distributional mismatch between the available samples and real world. We provide comments on the practical utility of the theoretical bounds that justify the application of these algorithms and suggest the utilization of Generative Adversarial Networks to estimate the distributional shift that affects all of the proposed model-free and model-based approaches.
翻訳日:2022-10-10 20:30:02 公開日:2020-10-05
# 人工知能 : キー産業に対する研究の影響 : 上ライン人工知能シンポジウム(UR-AI 2020)

Artificial Intelligence: Research Impact on Key Industries; the Upper-Rhine Artificial Intelligence Symposium (UR-AI 2020) ( http://arxiv.org/abs/2010.16241v1 )

ライセンス: Link先を確認
Andreas Christ, Franz Quint (eds.)(参考訳) トリレナテック同盟は、2020年5月13日にカールスルーエで開催される3国間「アップパー・ライン人工インテリジェンスシンポジウム(Upper-Rhine Artificial Inteeligence Symposium)」の受理論文のコレクションを公開している。 トリレナテック・アライアンス(TriRhenaTech Alliance)は、ドイツ連邦共和国のフルトヴァンゲン大学、カイザーラウテルン大学、カールスルーエ大学、オッフェンブルク大学、バーデン=ヴュルテンベルク州立大学ロレルハ校、フランスの大学ネットワークAlsace Tech(工学、建築、管理の分野で14の「グランデス・デ・エコール」で構成されている)、およびスイス北西部の応用科学・芸術大学で構成されている。 同盟の共通の目標は、知識、研究、技術、および学生の国境を越えたモビリティの移転を強化することである。

The TriRhenaTech alliance presents a collection of accepted papers of the cancelled tri-national 'Upper-Rhine Artificial Inteeligence Symposium' planned for 13th May 2020 in Karlsruhe. The TriRhenaTech alliance is a network of universities in the Upper-Rhine Trinational Metropolitan Region comprising of the German universities of applied sciences in Furtwangen, Kaiserslautern, Karlsruhe, and Offenburg, the Baden-Wuerttemberg Cooperative State University Loerrach, the French university network Alsace Tech (comprised of 14 'grandes \'ecoles' in the fields of engineering, architecture and management) and the University of Applied Sciences and Arts Northwestern Switzerland. The alliance's common goal is to reinforce the transfer of knowledge, research, and technology, as well as the cross-border mobility of students.
翻訳日:2022-10-10 20:28:26 公開日:2020-10-05
# ランク付き範囲の最小化による学習

Learning by Minimizing the Sum of Ranked Range ( http://arxiv.org/abs/2010.01741v1 )

ライセンス: Link先を確認
Shu Hu, Yiming Ying, Xin Wang, Siwei Lyu(参考訳) 学習目標を形成するには、個々の値をひとつのアウトプットに集約する必要があることが多い。 このようなケースは、トレーニングサンプル毎の学習モデルの個人的損失と、クラスラベル全体の予測スコアを結合したマルチラベル学習の個人的損失を組み合わせた集合的損失に発生する。 本研究では,学習目標を定式化するための一般的なアプローチとして,ランキング範囲(SoRR)の和を紹介する。 ランク付き範囲は、実数の集合のソートされた値の連続的なシーケンスである。 SoRRの最小化は凸アルゴリズム(DCA)の違いによって解決される。 我々は,SoRRフレームワークの最小化のための機械学習における2つの応用,すなわち,バイナリ分類のためのAoRR集約損失とマルチラベル/マルチクラス分類のためのTKML個人損失について検討する。 提案手法の有効性を実証し,合成データと実データを用いて提案手法の有効性を実証した。

In forming learning objectives, one oftentimes needs to aggregate a set of individual values to a single output. Such cases occur in the aggregate loss, which combines individual losses of a learning model over each training sample, and in the individual loss for multi-label learning, which combines prediction scores over all class labels. In this work, we introduce the sum of ranked range (SoRR) as a general approach to form learning objectives. A ranked range is a consecutive sequence of sorted values of a set of real numbers. The minimization of SoRR is solved with the difference of convex algorithm (DCA). We explore two applications in machine learning of the minimization of the SoRR framework, namely the AoRR aggregate loss for binary classification and the TKML individual loss for multi-label/multi-class classification. Our empirical results highlight the effectiveness of the proposed optimization framework and demonstrate the applicability of proposed losses using synthetic and real datasets.
翻訳日:2022-10-10 20:28:04 公開日:2020-10-05
# 多文書要約におけるコーパス評価とシステムバイアス検出

Corpora Evaluation and System Bias Detection in Multi-document Summarization ( http://arxiv.org/abs/2010.01786v1 )

ライセンス: Link先を確認
Alvin Dey, Tanya Chowdhury, Yash Kumar Atri, Tanmoy Chakraborty(参考訳) MDS(Multi-document summarization)は、文書の集合から簡潔なテキスト段落にキーポイントを反映するタスクである。 過去には、さまざまなソースからニュースやツイート、製品レビューなどを集約するために使われてきた。 タスクの標準的な定義がないため、さまざまなレベルの重複と、参加するドキュメント間のコンフリクトを持つデータセットに遭遇する。 また、MDSの要約情報を構成する基準も存在しない。 課題に加え、新しいシステムが選択したデータセットのセットを報告し、他のデータセットのパフォーマンスとは相関しない可能性があるという事実がある。 本稿では、この異種タスクを、広く使われているMDSコーパスと最先端モデルの組の助けを借りて研究する。 我々は,要約コーパスの品質を定量化し,新しいMDSコーパスを提案しながら検討すべき点のリストを定めようとする。 次に,全コーパスにおいて優れた性能を実現するMDSシステムがない理由を分析する。 次に,システムメトリクスの影響を受ける範囲を観察し,コーパス特性によりバイアスが伝播する。 この実験を再現するスクリプトはhttps://github.com/lcs2-iiitd/summarization_bias.gitで入手できる。

Multi-document summarization (MDS) is the task of reflecting key points from any set of documents into a concise text paragraph. In the past, it has been used to aggregate news, tweets, product reviews, etc. from various sources. Owing to no standard definition of the task, we encounter a plethora of datasets with varying levels of overlap and conflict between participating documents. There is also no standard regarding what constitutes summary information in MDS. Adding to the challenge is the fact that new systems report results on a set of chosen datasets, which might not correlate with their performance on the other datasets. In this paper, we study this heterogeneous task with the help of a few widely used MDS corpora and a suite of state-of-the-art models. We make an attempt to quantify the quality of summarization corpus and prescribe a list of points to consider while proposing a new MDS corpus. Next, we analyze the reason behind the absence of an MDS system which achieves superior performance across all corpora. We then observe the extent to which system metrics are influenced, and bias is propagated due to corpus properties. The scripts to reproduce the experiments in this work are available at https://github.com/LCS2-IIITD/summarization_bias.git.
翻訳日:2022-10-10 20:22:18 公開日:2020-10-05
# seqmix: sequence mixupによるアクティブシーケンスラベリングの強化

SeqMix: Augmenting Active Sequence Labeling via Sequence Mixup ( http://arxiv.org/abs/2010.02322v1 )

ライセンス: Link先を確認
Rongzhi Zhang, Yue Yu and Chao Zhang(参考訳) アクティブラーニングは、低リソースシーケンスラベリングタスクにとって重要なテクニックである。 しかし、現在のアクティブシーケンスラベリングメソッドでは、各イテレーションでクエリされたサンプルのみを使用しており、これは人間のアノテーションを活用するための非効率な方法である。 本稿では,アクティブシーケンスラベリングのラベル効率を向上させるため,単純だが効果的なデータ拡張手法を提案する。 提案手法であるseqmixは,各イテレーションで追加ラベル付きシーケンスを生成することで,クエリされたサンプルの強化を行う。 鍵となる困難は、トークンレベルのラベルとともに、もっともらしいシーケンスを生成することである。 SeqMixでは、クエリされたサンプルのシーケンスとトークンレベルのラベルをミックスアップすることで、この問題に対処する。 さらに,シーケンスミックスアップ中の判別器の設計を行い,生成したシーケンスが妥当かどうかを判定する。 Named Entity RecognitionとEvent Detectionタスクの実験により、SeqMixは標準的なアクティブシーケンスラベリング方法を$F_1$スコアで2.27\%$--3.75\%$で改善できることが示された。 SeqMixのコードとデータはhttps://github.com/rz-zhang/SeqMixにある。

Active learning is an important technique for low-resource sequence labeling tasks. However, current active sequence labeling methods use the queried samples alone in each iteration, which is an inefficient way of leveraging human annotations. We propose a simple but effective data augmentation method to improve the label efficiency of active sequence labeling. Our method, SeqMix, simply augments the queried samples by generating extra labeled sequences in each iteration. The key difficulty is to generate plausible sequences along with token-level labels. In SeqMix, we address this challenge by performing mixup for both sequences and token-level labels of the queried samples. Furthermore, we design a discriminator during sequence mixup, which judges whether the generated sequences are plausible or not. Our experiments on Named Entity Recognition and Event Detection tasks show that SeqMix can improve the standard active sequence labeling method by $2.27\%$--$3.75\%$ in terms of $F_1$ scores. The code and data for SeqMix can be found at https://github.com/rz-zhang/SeqMix
翻訳日:2022-10-10 20:20:56 公開日:2020-10-05
# SPIGOTのメカニズムを理解する:潜在構造学習のためのサロゲート勾配

Understanding the Mechanics of SPIGOT: Surrogate Gradients for Latent Structure Learning ( http://arxiv.org/abs/2010.02357v1 )

ライセンス: Link先を確認
Tsvetomila Mihaylova, Vlad Niculae, Andr\'e F. T. Martins(参考訳) 潜在構造モデルは、言語データのモデリングのための強力なツールであり、パイプラインシステムにおけるエラーの伝播とアノテーションのボトルネックを軽減し、同時にデータに関する言語的洞察を明らかにする。 これらのモデルのエンドツーエンドトレーニングの課題の1つは、ヌル勾配を持つargmax演算である。 本稿では,この問題に対する一般的な戦略であるsurrogategradientsに着目した。 我々は,下流の学習目標を後退させる角度から潜伏構造学習を検討する。 このパラダイムでは、ストレートスルー推定器(STE)と、最近提案された構造モデルに対するSTEの変種であるSPIGOTの両方に対する基本的動機を見出す。 私たちの視点は、同じ家族の新たなアルゴリズムにつながります。 我々は、既知のものと、小説の引き戻し推定を、人気のある代替案と比較し、実践者に新たな洞察を与え、興味深い失敗事例を明らかにします。

Latent structure models are a powerful tool for modeling language data: they can mitigate the error propagation and annotation bottleneck in pipeline systems, while simultaneously uncovering linguistic insights about the data. One challenge with end-to-end training of these models is the argmax operation, which has null gradient. In this paper, we focus on surrogate gradients, a popular strategy to deal with this problem. We explore latent structure learning through the angle of pulling back the downstream learning objective. In this paradigm, we discover a principled motivation for both the straight-through estimator (STE) as well as the recently-proposed SPIGOT - a variant of STE for structured models. Our perspective leads to new algorithms in the same family. We empirically compare the known and the novel pulled-back estimators against the popular alternatives, yielding new insight for practitioners and revealing intriguing failure cases.
翻訳日:2022-10-10 20:20:38 公開日:2020-10-05
# 視覚的質問応答のための注意誘導的意味関係解析

Attention Guided Semantic Relationship Parsing for Visual Question Answering ( http://arxiv.org/abs/2010.01725v1 )

ライセンス: Link先を確認
Moshiur Farazi, Salman Khan and Nick Barnes(参考訳) 人間は視覚質問回答(VQA)のような複雑な視覚言語タスクを実行するのに必要な高いレベルの理解を示すセマンティックラベルとオブジェクト間の関係を説明する。 しかしながら、既存のVQAモデルは、モデルがマルチモーダルタスクを解決しようとしている間、単一のドメイン内のオブジェクト間の相互作用を表現することを制約するオブジェクトレベルの視覚的特徴の組み合わせとして関係を表現している。 本稿では,画像内の各主観的対象トリプレットに対して意味的特徴ベクトルを生成する汎用意味関係解析器と,与えられた問いに答える上で重要な関係三重項を識別するために学習する相互自己注意(msa)機構を提案する。 意味的関係の重要性を動機づけるために,本モデルでは,GQAデータセット上での最も近い最先端モデルよりも約25%の精度向上を実現した,地中関係三重項を用いたオラクル設定を示す。 さらに、セマンティックパーザを用いて、我々のモデルはVQAおよびGQAデータセットにおける他の同等のアプローチよりも優れていることを示す。

Humans explain inter-object relationships with semantic labels that demonstrate a high-level understanding required to perform complex Vision-Language tasks such as Visual Question Answering (VQA). However, existing VQA models represent relationships as a combination of object-level visual features which constrain a model to express interactions between objects in a single domain, while the model is trying to solve a multi-modal task. In this paper, we propose a general purpose semantic relationship parser which generates a semantic feature vector for each subject-predicate-object triplet in an image, and a Mutual and Self Attention (MSA) mechanism that learns to identify relationship triplets that are important to answer the given question. To motivate the significance of semantic relationships, we show an oracle setting with ground-truth relationship triplets, where our model achieves a ~25% accuracy gain over the closest state-of-the-art model on the challenging GQA dataset. Further, with our semantic parser, we show that our model outperforms other comparable approaches on VQA and GQA datasets.
翻訳日:2022-10-10 20:20:10 公開日:2020-10-05
# クラス不均衡解消のためのクラスワイズ難易度損失

Class-Wise Difficulty-Balanced Loss for Solving Class-Imbalance ( http://arxiv.org/abs/2010.01824v1 )

ライセンス: Link先を確認
Saptarshi Sinha, Hiroki Ohashi and Katsuyuki Nakamura(参考訳) クラス不均衡は、少数のクラス(多数派クラスと呼ばれる)が他のクラス(少数派クラスと呼ばれる)よりもはるかに多くのデータサンプルを構成する、現実世界のデータセットにおける大きな課題の1つである。 このようなデータセットを用いたディープニューラルネットワークの学習は、一般的に多数派クラスに偏ったパフォーマンスにつながる。 以前の研究の多くは、様々な方法でマイノリティクラス(例えば、データ再サンプリング、コスト感受性学習)に重みを割り当てることで、クラス不均衡を解決しようとする。 しかし,一部のマイノリティクラスは少数のトレーニングデータでも十分に表現されている可能性があるため,トレーニングデータの入手は必ずしも重み付け戦略を決定するための良い手がかりではない,と我々は論じている。 このようなクラスの過剰なサンプルは、モデル全体のパフォーマンスを低下させる可能性がある。 モデルによって知覚されるクラスの「難易度」は重み付けを決定する上でより重要であると主張する。 そこで本研究では,各試料に対して,試料が属するクラスの難易度に応じて動的に重みを分配する,クラス毎難易度バランス損失(cdb損失)と呼ばれる新しい損失関数を提案する。 モデルの 'difficulty' が学習の進行とともに変化するため、割り当てられた重みは動的に変化する。 画像(人工的に誘導されるクラス不均衡なMNIST、長い尾のCIFARとImageNet-LT)とビデオ(EGTEA)データセットの両方で大規模な実験を行う。 その結果、CDBの損失は、データタイプ(ビデオや画像など)に関係なく、最近提案されたクラス不均衡データセットの損失関数よりも一貫して優れていた。

Class-imbalance is one of the major challenges in real world datasets, where a few classes (called majority classes) constitute much more data samples than the rest (called minority classes). Learning deep neural networks using such datasets leads to performances that are typically biased towards the majority classes. Most of the prior works try to solve class-imbalance by assigning more weights to the minority classes in various manners (e.g., data re-sampling, cost-sensitive learning). However, we argue that the number of available training data may not be always a good clue to determine the weighting strategy because some of the minority classes might be sufficiently represented even by a small number of training data. Overweighting samples of such classes can lead to drop in the model's overall performance. We claim that the 'difficulty' of a class as perceived by the model is more important to determine the weighting. In this light, we propose a novel loss function named Class-wise Difficulty-Balanced loss, or CDB loss, which dynamically distributes weights to each sample according to the difficulty of the class that the sample belongs to. Note that the assigned weights dynamically change as the 'difficulty' for the model may change with the learning progress. Extensive experiments are conducted on both image (artificially induced class-imbalanced MNIST, long-tailed CIFAR and ImageNet-LT) and video (EGTEA) datasets. The results show that CDB loss consistently outperforms the recently proposed loss functions on class-imbalanced datasets irrespective of the data type (i.e., video or image).
翻訳日:2022-10-10 20:19:51 公開日:2020-10-05
# リモートセンシング画像キャプションのための新しいアクターデュアルクリティックモデル

A Novel Actor Dual-Critic Model for Remote Sensing Image Captioning ( http://arxiv.org/abs/2010.01999v1 )

ライセンス: Link先を確認
Ruchika Chavhan, Biplab Banerjee, Xiao Xiang Zhu, and Subhasis Chaudhuri(参考訳) 深部強化学習の概念を用いて,光リモートセンシング(RS)画像からテキストキャプションを生成する問題に対処する。 遠隔センシングデータを記述する参照文のクラス間類似度が高いため、文と画像を共同でエンコードすることで、多くの場合、意味的に真理よりも正確なキャプションの予測が促進される。 そこで本研究では,第2の批評家モデルをエンコーダデコーダRNNの形式で展開し,原文および生成されたキャプションに対応する潜伏情報をエンコードするアクタデュアル・クリティカルトレーニング戦略を提案する。 すべてのアクタ批判手法では,画像に対する文の予測にアクタを用いるが,提案したエンコーダデコーダRNNでは,画像の文間翻訳による高レベルの理解が保証されている。 提案モデルは、基礎的真理に非常によく似たテストデータ上で文を生成し、多くの重要なケースでさらに優れたキャプションを生成することに成功している。 RSICD(Remote Sensing Image Captioning Dataset)とUCM-Captionsデータセット(UCM-Captions Dataset)のベンチマーク実験により,ROUGE-LとCIDErの両測定値の急激な増加が得られた先行技術と比較して,提案手法の優位性が確認された。

We deal with the problem of generating textual captions from optical remote sensing (RS) images using the notion of deep reinforcement learning. Due to the high inter-class similarity in reference sentences describing remote sensing data, jointly encoding the sentences and images encourages prediction of captions that are semantically more precise than the ground truth in many cases. To this end, we introduce an Actor Dual-Critic training strategy where a second critic model is deployed in the form of an encoder-decoder RNN to encode the latent information corresponding to the original and generated captions. While all actor-critic methods use an actor to predict sentences for an image and a critic to provide rewards, our proposed encoder-decoder RNN guarantees high-level comprehension of images by sentence-to-image translation. We observe that the proposed model generates sentences on the test data highly similar to the ground truth and is successful in generating even better captions in many critical cases. Extensive experiments on the benchmark Remote Sensing Image Captioning Dataset (RSICD) and the UCM-captions dataset confirm the superiority of the proposed approach in comparison to the previous state-of-the-art where we obtain a gain of sharp increments in both the ROUGE-L and CIDEr measures.
翻訳日:2022-10-10 20:19:22 公開日:2020-10-05
# 用語の意味的能力を探る

Exploring Semantic Capacity of Terms ( http://arxiv.org/abs/2010.01898v1 )

ライセンス: Link先を確認
Jie Huang, Zilong Wang, Kevin Chen-Chuan Chang, Wen-mei Hwu, Jinjun Xiong(参考訳) 用語の意味的能力を紹介し,研究する。 例えば、人工知能の意味的能力は線形回帰のそれよりも高い、なぜなら人工知能はより広い意味範囲を持っているからだ。 用語の意味的能力を理解することは、自然言語処理における多くの下流タスクに役立つ。 そこで本研究では,大容量テキストコーパスを入力として用い,テキストコーパスが十分な共起情報を提供できる場合に,単語の意味能力を評価するための2段階モデルを提案する。 モデルの有効性と合理性は, 十分に設計されたベースラインや人間レベルの評価と比較できる。

We introduce and study semantic capacity of terms. For example, the semantic capacity of artificial intelligence is higher than that of linear regression since artificial intelligence possesses a broader meaning scope. Understanding semantic capacity of terms will help many downstream tasks in natural language processing. For this purpose, we propose a two-step model to investigate semantic capacity of terms, which takes a large text corpus as input and can evaluate semantic capacity of terms if the text corpus can provide enough co-occurrence information of terms. Extensive experiments in three fields demonstrate the effectiveness and rationality of our model compared with well-designed baselines and human-level evaluations.
翻訳日:2022-10-10 20:13:06 公開日:2020-10-05
# Spot the Bot:対話システム評価のためのロバストで効率的なフレームワーク

Spot The Bot: A Robust and Efficient Framework for the Evaluation of Conversational Dialogue Systems ( http://arxiv.org/abs/2010.02140v1 )

ライセンス: Link先を確認
Jan Deriu and Don Tuggener and Pius von D\"aniken and Jon Ander Campos and Alvaro Rodrigo and Thiziri Belkacem and Aitor Soroa and Eneko Agirre and Mark Cieliebak(参考訳) 時間効率で信頼性の高い評価手法の欠如は対話型対話システム(チャットボット)の開発を妨げる。 人間がチャットボットと会話することを要求する評価は、時間とコストがかかり、人間の判断に高い認知的要求を課し、品質の低い結果をもたらす。 本稿では,人間とボットの会話をボット間の会話に置き換える,コスト効率が高くロバストな評価フレームワークである \emph{spot the bot} を紹介する。 人間の判断は、人間であるかどうかに関わらず(これらの会話に人間が参加していると仮定すると)会話において各エンティティに注釈を付ける。 これらのアノテーションは、人間の会話行動の模倣に関するチャットボットのランク付けを可能にします。 すべてのボットが最終的にそのようなものとして認識されることを期待するので、チャットボットが人間のような行動を最も長く維持できる、すなわち \emph{Survival Analysis} の測定基準を組み込む。 このメトリクスは、ボットのパフォーマンスをその特性の特定の特性(例えば、 \ Fluency や Sensibleness)と相関させ、解釈可能な結果をもたらす能力を持つ。 比較可能な低コストなフレームワークは、評価サイクル中にチャットボットを頻繁に評価できる。 3つのドメインに \emph{Spot The Bot} を適用し、いくつかの最先端のチャットボットを評価し、関連する作業と比較することによって、我々の主張を実証的に検証する。 フレームワークは使えるツールとしてリリースされている。

The lack of time-efficient and reliable evaluation methods hamper the development of conversational dialogue systems (chatbots). Evaluations requiring humans to converse with chatbots are time and cost-intensive, put high cognitive demands on the human judges, and yield low-quality results. In this work, we introduce \emph{Spot The Bot}, a cost-efficient and robust evaluation framework that replaces human-bot conversations with conversations between bots. Human judges then only annotate for each entity in a conversation whether they think it is human or not (assuming there are humans participants in these conversations). These annotations then allow us to rank chatbots regarding their ability to mimic the conversational behavior of humans. Since we expect that all bots are eventually recognized as such, we incorporate a metric that measures which chatbot can uphold human-like behavior the longest, i.e., \emph{Survival Analysis}. This metric has the ability to correlate a bot's performance to certain of its characteristics (e.g., \ fluency or sensibleness), yielding interpretable results. The comparably low cost of our framework allows for frequent evaluations of chatbots during their evaluation cycle. We empirically validate our claims by applying \emph{Spot The Bot} to three domains, evaluating several state-of-the-art chatbots, and drawing comparisons to related work. The framework is released as a ready-to-use tool.
翻訳日:2022-10-10 20:12:42 公開日:2020-10-05
# 逐次意思決定のための一般化のための学習

Learning to Generalize for Sequential Decision Making ( http://arxiv.org/abs/2010.02229v1 )

ライセンス: Link先を確認
Xusen Yin, Ralph Weischedel, Jonathan May(参考訳) 我々は、タスクを遂行するための意思決定の順序付けや、言語媒体を介して対話する問題を考える。 これらの問題は強化学習アプローチによってしばしば取り組まれる。 これらのモデルは、新しいタスク領域に適用しても、うまく一般化しない。 しかし、逐次決定の探索空間を適切に訓練し探索するために必要な大量の計算は、強化学習パラダイムの下では、望まれる一般化能力を実現するような大きな文脈化言語モデルを含めることを妨げる。 本稿では,教師による模倣学習手法と強化学習モデルを自然言語理解モデルに変換する方法を紹介する。 これらの手法により、逐次決定問題空間に文脈化言語モデルを導入することができる。 モデルがより速く学習し、より一般化できることを示し、模倣学習と改革の両方を活用する。 本モデルでは,様々な決定問題において教師のパフォーマンスを上回り,ドメイン内問題では最大7%,ドメイン外問題では24%向上した。

We consider problems of making sequences of decisions to accomplish tasks, interacting via the medium of language. These problems are often tackled with reinforcement learning approaches. We find that these models do not generalize well when applied to novel task domains. However, the large amount of computation necessary to adequately train and explore the search space of sequential decision making, under a reinforcement learning paradigm, precludes the inclusion of large contextualized language models, which might otherwise enable the desired generalization ability. We introduce a teacher-student imitation learning methodology and a means of converting a reinforcement learning model into a natural language understanding model. Together, these methodologies enable the introduction of contextualized language models into the sequential decision making problem space. We show that models can learn faster and generalize more, leveraging both the imitation learning and the reformulation. Our models exceed teacher performance on various held-out decision problems, by up to 7% on in-domain problems and 24% on out-of-domain problems.
翻訳日:2022-10-10 20:12:18 公開日:2020-10-05
# ゴール指向ダイアログにおける自然変化の影響

Effects of Naturalistic Variation in Goal-Oriented Dialog ( http://arxiv.org/abs/2010.02260v1 )

ライセンス: Link先を確認
Jatin Ganhotra, Robert Moore, Sachindra Joshi and Kahini Wadhawan(参考訳) エンド・ツー・エンドのニューラルダイアログシステムの性能を評価するための既存のベンチマークには、重要なコンポーネントが欠けている。 ほとんどのデータセットはクラウドソーシングによって構築され、クラウドワーカーはユーザー/エージェントの役割を実行しながら、一定の指示のテンプレートに従う。 この結果、群衆労働者は実際のユーザーにとって自然に起こる行動の全範囲を表現していないため、ストレートフォワード、ややルーチン、そしてほとんどトラブルのない会話をもたらす。 本研究では,bAbIダイアログタスクとStanford Multi-Domain Dataset (SMD) の2つの目標指向データセットに対する自然主義的変動の影響について検討する。 また、ユーザによる自然な変動を導入し、両方のデータセットに対する新しいより効果的なテストベッドを提案する。 両データセットのBossNetやGLMPといった最先端のエンドツーエンドのニューラル手法では,SMDではF1が60%以上,bAbIタスクではダイアログ毎の精度が85%)が著しく低下している。

Existing benchmarks used to evaluate the performance of end-to-end neural dialog systems lack a key component: natural variation present in human conversations. Most datasets are constructed through crowdsourcing, where the crowd workers follow a fixed template of instructions while enacting the role of a user/agent. This results in straight-forward, somewhat routine, and mostly trouble-free conversations, as crowd workers do not think to represent the full range of actions that occur naturally with real users. In this work, we investigate the impact of naturalistic variation on two goal-oriented datasets: bAbI dialog task and Stanford Multi-Domain Dataset (SMD). We also propose new and more effective testbeds for both datasets, by introducing naturalistic variation by the user. We observe that there is a significant drop in performance (more than 60% in Ent. F1 on SMD and 85% in per-dialog accuracy on bAbI task) of recent state-of-the-art end-to-end neural methods such as BossNet and GLMP on both datasets.
翻訳日:2022-10-10 20:12:03 公開日:2020-10-05
# 強化学習によるマルチパラグラフ読書理解としてのインタラクティブフィクションゲーム

Interactive Fiction Game Playing as Multi-Paragraph Reading Comprehension with Reinforcement Learning ( http://arxiv.org/abs/2010.02386v1 )

ライセンス: Link先を確認
Xiaoxiao Guo, Mo Yu, Yupeng Gao, Chuang Gan, Murray Campbell, Shiyu Chang(参考訳) リアルな自然言語テキストを持つインタラクティブフィクション(if)ゲームは、言語理解技術の新たな自然な評価を提供する。 IFゲームは、主に合成テキストを持つ以前のテキストゲームとは対照的に、多様で洗練されたゲーム世界の人間によるテキスト記述における言語理解の課題と、制限の少ない組合せ空間からのアクションコマンド生成における言語生成の課題がある。 我々は,ゲーム解法をmprc(multi-passage reading comprehension)タスクとして再計算する。 提案手法は,MPRCにおけるコンテキストクエリアテンション機構と構造化予測を利用して,行動出力を効率的に生成・評価し,オブジェクト中心の歴史的観測検索戦略を適用し,テキスト観察の部分観測可能性を軽減する。 最近のIFベンチマーク(Jericho)での大規模な実験は、これまでのアプローチと比較して、高い勝利率と低いデータ要求を達成するアプローチの明確な利点を実証している。 ソースコードはhttps://github.com/xiaoxiaoguo/rcdqn。

Interactive Fiction (IF) games with real human-written natural language texts provide a new natural evaluation for language understanding techniques. In contrast to previous text games with mostly synthetic texts, IF games pose language understanding challenges on the human-written textual descriptions of diverse and sophisticated game worlds and language generation challenges on the action command generation from less restricted combinatorial space. We take a novel perspective of IF game solving and re-formulate it as Multi-Passage Reading Comprehension (MPRC) tasks. Our approaches utilize the context-query attention mechanisms and the structured prediction in MPRC to efficiently generate and evaluate action outputs and apply an object-centric historical observation retrieval strategy to mitigate the partial observability of the textual observations. Extensive experiments on the recent IF benchmark (Jericho) demonstrate clear advantages of our approaches achieving high winning rates and low data requirements compared to all previous approaches. Our source code is available at: https://github.com/XiaoxiaoGuo/rcdqn.
翻訳日:2022-10-10 20:11:24 公開日:2020-10-05
# 低リソース言語家庭における二言語辞書の一般化制約手法

A Generalized Constraint Approach to Bilingual Dictionary Induction for Low-Resource Language Families ( http://arxiv.org/abs/2010.02395v1 )

ライセンス: Link先を確認
Arbi Haza Nasution, Yohei Murakami, Toru Ishida(参考訳) 並列コーパスと同等のコーパスの欠如により、低リソース言語ではバイリンガル語彙抽出が難しい課題となっている。 ピボット言語とコグネート認識アプローチは、そのような言語に二言語レキシコンを誘導するのに有用であることが証明されている。 本稿では、近年のピボットベースの帰納法から制約を延長し、さらに複数の対称性仮定サイクルを変換でより多くのコニャートに到達させることにより、近縁言語に対する制約ベースのバイリンガル語彙誘導を提案する。 さらにコグネート同義語を同定し、多対多の翻訳対を得る。 本稿では,Austronesian Low-Resource Language と Indo-European High-Resource Language の4つのデータセットを利用する。 本稿では,入力辞書のCartesian積から生成した逆コンサルテーション法と翻訳ペアをベースラインとして,制約に基づく3つの手法を用いる。 精度,リコール,f-scoreの指標を用いて結果を評価する。 我々のカスタマイズ可能なアプローチでは、最適なハイパーパラメータ(コグネートしきい値とコグネートシノニムしきい値)をヒューリスティックスと対称性仮定サイクルの数の組み合わせで予測し、最高Fスコアを得ることができる。 提案手法は,従来の制約に基づく手法と比較して統計的に精度とFスコアが向上した。 その結果,低リソース言語をうまく処理しながら並列コーパスを用いた単語アライメントモデルなど,他のバイリンガル辞書作成手法を補完する可能性が示唆された。

The lack or absence of parallel and comparable corpora makes bilingual lexicon extraction a difficult task for low-resource languages. The pivot language and cognate recognition approaches have been proven useful for inducing bilingual lexicons for such languages. We propose constraint-based bilingual lexicon induction for closely-related languages by extending constraints from the recent pivot-based induction technique and further enabling multiple symmetry assumption cycles to reach many more cognates in the transgraph. We further identify cognate synonyms to obtain many-to-many translation pairs. This paper utilizes four datasets: one Austronesian low-resource language and three Indo-European high-resource languages. We use three constraint-based methods from our previous work, the Inverse Consultation method and translation pairs generated from the Cartesian product of input dictionaries as baselines. We evaluate our result using the metrics of precision, recall and F-score. Our customizable approach allows the user to conduct cross-validation to predict the optimal hyperparameters (cognate threshold and cognate synonym threshold) with various combinations of heuristics and the number of symmetry assumption cycles to gain the highest F-score. Our proposed methods have statistically significant improvement of precision and F-score compared to our previous constraint-based methods. The results show that our method demonstrates the potential to complement other bilingual dictionary creation methods like word alignment models using parallel corpora for high-resource languages while well handling low-resource languages.
翻訳日:2022-10-10 20:11:03 公開日:2020-10-05
# 単語埋め込みにおける知識提供データの影響について

On the Effects of Knowledge-Augmented Data in Word Embeddings ( http://arxiv.org/abs/2010.01745v1 )

ライセンス: Link先を確認
Diego Ramirez-Echavarria, Antonis Bikakis, Luke Dickens, Rob Miller, Andreas Vlachidis(参考訳) 本稿では,大量の無注データから学習した単語埋め込みへの知識注入手法について検討する。 これらの表現は単語共起統計学で訓練されており、言語知識ベースからの構文情報や意味情報を一般的に利用していない。 本稿では,データ拡張による言語知識注入のための新しいアプローチを提案し,データから意味的関係を強制する単語埋め込みを学習し,結果の表現に与える影響を体系的に評価する。 知識拡張アプローチは,下流テキスト分類タスクにおける結果を大きく変更することなく,学習埋め込みの本質的特性を改善している。

This paper investigates techniques for knowledge injection into word embeddings learned from large corpora of unannotated data. These representations are trained with word cooccurrence statistics and do not commonly exploit syntactic and semantic information from linguistic knowledge bases, which potentially limits their transferability to domains with differing language distributions or usages. We propose a novel approach for linguistic knowledge injection through data augmentation to learn word embeddings that enforce semantic relationships from the data, and systematically evaluate the impact it has on the resulting representations. We show our knowledge augmentation approach improves the intrinsic characteristics of the learned embeddings while not significantly altering their results on a downstream text classification task.
翻訳日:2022-10-10 20:10:17 公開日:2020-10-05
# Adversarial Boot Camp: 1世紀におけるラベルフリー認定ロバスト性

Adversarial Boot Camp: label free certified robustness in one epoch ( http://arxiv.org/abs/2010.02508v1 )

ライセンス: Link先を確認
Ryan Campbell, Chris Finlay, Adam M Oberman(参考訳) 機械学習モデルは敵の攻撃に弱い。 この脆弱性に対処する1つのアプローチは、所定の摂動サイズに対して堅牢であることが保証されたモデルに焦点を当てた認証である。 最近の認定モデルの欠点は、それらは確率的であり、与えられた入力にランダムノイズを加えた複数の計算コストの高いモデル評価を必要とすることである。 本研究では,検証可能なロバストモデルを実現する決定論的認証手法を提案する。 このアプローチは、特定の正規化損失を持つトレーニングとガウス平均の期待値との等価性に基づいている。 ラベル情報を用いずに,この損失のあるモデルを再訓練することにより,imagenet-1kの認証モデルを実現する。

Machine learning models are vulnerable to adversarial attacks. One approach to addressing this vulnerability is certification, which focuses on models that are guaranteed to be robust for a given perturbation size. A drawback of recent certified models is that they are stochastic: they require multiple computationally expensive model evaluations with random noise added to a given input. In our work, we present a deterministic certification approach which results in a certifiably robust model. This approach is based on an equivalence between training with a particular regularized loss, and the expected values of Gaussian averages. We achieve certified models on ImageNet-1k by retraining a model with this loss for one epoch without the use of label information.
翻訳日:2022-10-10 20:03:35 公開日:2020-10-05
# 都市屋外大気汚染をモデル化する条件付き生成型逆ネットワーク

Conditional Generative Adversarial Networks to Model Urban Outdoor Air Pollution ( http://arxiv.org/abs/2010.02244v1 )

ライセンス: Link先を確認
Jamal Toutouh(参考訳) なぜなら、ほとんどの都市の設計は、近年の空気の質を低下させ、都市健康に悪影響を及ぼす自動車の使用を優先しているからである。 環境大気汚染のモデル化、予測、予測は、意思決定者や都市計画者がその現象を理解し、解決策を取るのに役立つため、この問題に対処する重要な方法である。 一般に、屋外汚染のモデル化、予測、予測のためのデータ駆動手法は、その正確性を制限する重要な量のデータを必要とする。 このようなデータ不足に対処するため,我々は,現実的なデータを無制限に生成可能な,所定の分類に従って合成二酸化窒素時系列を生成可能なモデルを訓練することを提案する。 主な実験結果から,提案手法は計算時間削減を必要としながら,正確かつ多彩な毎日の汚染時系列を生成できることが示唆された。

This is a relevant problem because the design of most cities prioritizes the use of motorized vehicles, which has degraded air quality in recent years, having a negative effect on urban health. Modeling, predicting, and forecasting ambient air pollution is an important way to deal with this issue because it would be helpful for decision-makers and urban city planners to understand the phenomena and to take solutions. In general, data-driven methods for modeling, predicting, and forecasting outdoor pollution requires an important amount of data, which may limit their accuracy. In order to deal with such a lack of data, we propose to train models able to generate synthetic nitrogen dioxide daily time series according to a given classification that will allow an unlimited generation of realistic data. The main experimental results indicate that the proposed approach is able to generate accurate and diverse pollution daily time series, while requiring reduced computational time.
翻訳日:2022-10-10 20:03:04 公開日:2020-10-05
# リプシッツ境界平衡ネットワーク

Lipschitz Bounded Equilibrium Networks ( http://arxiv.org/abs/2010.01732v1 )

ライセンス: Link先を確認
Max Revay, Ruigang Wang, Ian R. Manchester(参考訳) 本稿では、平衡ニューラルネットワーク、すなわち暗黙の方程式で定義されるネットワークの新しいパラメータ化を提案する。 このモデルクラスは、特殊なケースとして標準多層ネットワークと残留ネットワークを含んでいる。 新しいパラメータ化では、制約のない最適化によってトレーニング中にリプシッツ境界が認められ、投影やバリア関数は不要である。 リプシッツ境界はロバスト性の一般的なプロキシであり、多くの一般化境界に現れる。 さらに、従来の研究と比較すると、ネットワーク重みに対する制約の少ない条件下での良値性(解の存在)と活性化関数に対するより自然な仮定(モノトーンおよび傾斜制限)を示す。 これらの結果は、凸最適化との新たな接続、非ユークリッド空間上の演算子分割、ニューラルODEの収縮によって証明される。 画像分類実験では,リプシッツ境界が非常に正確であり,敵の攻撃に対するロバスト性が向上することを示す。

This paper introduces new parameterizations of equilibrium neural networks, i.e. networks defined by implicit equations. This model class includes standard multilayer and residual networks as special cases. The new parameterization admits a Lipschitz bound during training via unconstrained optimization: no projections or barrier functions are required. Lipschitz bounds are a common proxy for robustness and appear in many generalization bounds. Furthermore, compared to previous works we show well-posedness (existence of solutions) under less restrictive conditions on the network weights and more natural assumptions on the activation functions: that they are monotone and slope restricted. These results are proved by establishing novel connections with convex optimization, operator splitting on non-Euclidean spaces, and contracting neural ODEs. In image classification experiments we show that the Lipschitz bounds are very accurate and improve robustness to adversarial attacks.
翻訳日:2022-10-10 20:02:48 公開日:2020-10-05
# uavを用いた移動目標探索のための動きエンコード粒子群最適化

Motion-Encoded Particle Swarm Optimization for Moving Target Search Using UAVs ( http://arxiv.org/abs/2010.02039v1 )

ライセンス: Link先を確認
Manh Duong Phung, Quang Phuc Ha(参考訳) 本稿では,無人航空機 (uavs) による移動目標探索のための運動エンコード粒子群最適化 (mpso) という新しいアルゴリズムを提案する。 ベイズ理論から、探索問題を目標を検出する確率を表すコスト関数の最適化に変換することができる。 そこで,提案したMPSOは,PSOアルゴリズムにおいて粒子生成に先立って進化する一連のUAV運動経路として探索軌道を符号化することにより,その問題を解決する。 このモーションエンコードアプローチによって、認知的および社会的コヒーレンスを含む群れの重要な特性を保存でき、その結果、より良い解決策が得られる。 既存の手法を用いた広範囲なシミュレーションの結果,mpsoは検出性能を24\%向上させ,従来のpsoに比べて4.71倍向上させるとともに,人工蜂コロニー(abc),アリコロニー最適化(aco),遺伝的アルゴリズム(ga),微分進化(de),トリーシードアルゴリズム(tsa)など他の最先端のメタヒューリスティック最適化アルゴリズムよりも優れていることがわかった。 実際のUAVを用いて,MPSOのメリットを実証するために,様々なシナリオで動的ターゲットを探す実験が実施されている。

This paper presents a novel algorithm named the motion-encoded particle swarm optimization (MPSO) for finding a moving target with unmanned aerial vehicles (UAVs). From the Bayesian theory, the search problem can be converted to the optimization of a cost function that represents the probability of detecting the target. Here, the proposed MPSO is developed to solve that problem by encoding the search trajectory as a series of UAV motion paths evolving over the generation of particles in a PSO algorithm. This motion-encoded approach allows for preserving important properties of the swarm including the cognitive and social coherence, and thus resulting in better solutions. Results from extensive simulations with existing methods show that the proposed MPSO improves the detection performance by 24\% and time performance by 4.71 times compared to the original PSO, and moreover, also outperforms other state-of-the-art metaheuristic optimization algorithms including the artificial bee colony (ABC), ant colony optimization (ACO), genetic algorithm (GA), differential evolution (DE), and tree-seed algorithm (TSA) in most search scenarios. Experiments have been conducted with real UAVs in searching for a dynamic target in different scenarios to demonstrate MPSO merits in a practical application.
翻訳日:2022-10-10 20:02:34 公開日:2020-10-05
# MCMH:知識グラフ推論のためのマルチチェーンマルチホップルールの学習

MCMH: Learning Multi-Chain Multi-Hop Rules for Knowledge Graph Reasoning ( http://arxiv.org/abs/2010.01735v1 )

ライセンス: Link先を確認
Lu Zhang, Mo Yu, Tian Gao, Yue Yu(参考訳) 知識グラフ上のマルチホップ推論アプローチは、関係の連鎖に対応するマルチホップ規則を持つエンティティ間の欠落関係を推測する。 我々は既存の研究を拡張して、各ルールが関係連鎖の集合であるような多重ホップ規則の一般化形式を考える。 このような一般化されたルールを効率的に学習するために,まず,少数の関係連鎖をルールとして選択し,選択した連鎖を協調して評価することにより,対象関係の信頼度を評価する2段階のアプローチを提案する。 ルール選択と予測ステップを同時に最適化するために,ゲーム理論の枠組みを提案する。 実験の結果,マルチチェーンマルチホップ(mcmh)ルールは,汎用ルールの定式化と提案学習フレームワークの有効性の両方を正当化し,標準シングルチェーン法と比較して優れた結果をもたらすことがわかった。

Multi-hop reasoning approaches over knowledge graphs infer a missing relationship between entities with a multi-hop rule, which corresponds to a chain of relationships. We extend existing works to consider a generalized form of multi-hop rules, where each rule is a set of relation chains. To learn such generalized rules efficiently, we propose a two-step approach that first selects a small set of relation chains as a rule and then evaluates the confidence of the target relationship by jointly scoring the selected chains. A game-theoretical framework is proposed to this end to simultaneously optimize the rule selection and prediction steps. Empirical results show that our multi-chain multi-hop (MCMH) rules result in superior results compared to the standard single-chain approaches, justifying both our formulation of generalized rules and the effectiveness of the proposed learning framework.
翻訳日:2022-10-10 20:01:58 公開日:2020-10-05
# ベトナム語テキストからsqlへの意味解析の試み

A Pilot Study of Text-to-SQL Semantic Parsing for Vietnamese ( http://arxiv.org/abs/2010.01891v1 )

ライセンス: Link先を確認
Anh Tuan Nguyen, Mai Hoang Dao and Dat Quoc Nguyen(参考訳) 意味解析は重要なNLPタスクである。 しかし、ベトナム語はこの研究領域では低資源言語である。 本稿では,ベトナム初の大規模テキストからsqlへの意味解析データセットを提案する。 データセット上でEditSQL(Zhang et al., 2019)とIRNet(Guo et al., 2019)の2つの強力なセマンティック解析ベースラインを拡張して評価する。 We compare the two baselines with key configurations and find that: automatic Vietnamese word segmentation improves the parsing results of both baselines; the normalized pointwise mutual information (NPMI) score (Bouma, 2009) is useful for schema linking; latent syntactic features extracted from a neural dependency parser for Vietnamese also improve the results; and the monolingual language model PhoBERT for Vietnamese (Nguyen and Nguyen, 2020) helps produce higher performances than the recent best multilingual language model XLM-R (Conneau et al., 2020).

Semantic parsing is an important NLP task. However, Vietnamese is a low-resource language in this research area. In this paper, we present the first public large-scale Text-to-SQL semantic parsing dataset for Vietnamese. We extend and evaluate two strong semantic parsing baselines EditSQL (Zhang et al., 2019) and IRNet (Guo et al., 2019) on our dataset. We compare the two baselines with key configurations and find that: automatic Vietnamese word segmentation improves the parsing results of both baselines; the normalized pointwise mutual information (NPMI) score (Bouma, 2009) is useful for schema linking; latent syntactic features extracted from a neural dependency parser for Vietnamese also improve the results; and the monolingual language model PhoBERT for Vietnamese (Nguyen and Nguyen, 2020) helps produce higher performances than the recent best multilingual language model XLM-R (Conneau et al., 2020).
翻訳日:2022-10-10 20:01:27 公開日:2020-10-05
# ニューラルネットワークの学習ハードウェア/ソフトウェア共同設計

Learned Hardware/Software Co-Design of Neural Accelerators ( http://arxiv.org/abs/2010.02075v1 )

ライセンス: Link先を確認
Zhan Shi, Chirag Sakhuja, Milad Hashemi, Kevin Swersky, Calvin Lin(参考訳) ディープラーニングの利用は指数関数的に増加し、ディープラーニングのための専門的なハードウェアとソフトウェアシステムを生み出している。 ディープラーニングソフトウェアスタックとハードウェアアクセラレータの設計空間は多様で広大なため、以前の研究はハードウェアアーキテクチャとは別途ソフトウェア最適化を検討し、検索スペースを効果的に減らした。 残念ながら、この分岐したアプローチは、多くの利益のある設計ポイントが決して探索されないことを意味する。 そこで本研究では,ハードウェア/ソフトウェアの共同設計として,共同設計空間における望ましい点を自動的に識別することを目的としている。 私たちのソリューションの鍵は、半連続/半離散であるこの設計空間の非常に制約された特徴を利用して、無効なソリューションを避ける新しい制約付きベイズ最適化フレームワークです。 我々は、様々なニューラルネットワークモデルに適用し、手作業による最先端システムに対してエネルギー遅延製品を18%(ResNet)、40%(DQN)改善し、MLPやTransformersなどの他のニューラルネットワークアーキテクチャに対して強力な結果を示すことにより、最適化フレームワークを評価した。

The use of deep learning has grown at an exponential rate, giving rise to numerous specialized hardware and software systems for deep learning. Because the design space of deep learning software stacks and hardware accelerators is diverse and vast, prior work considers software optimizations separately from hardware architectures, effectively reducing the search space. Unfortunately, this bifurcated approach means that many profitable design points are never explored. This paper instead casts the problem as hardware/software co-design, with the goal of automatically identifying desirable points in the joint design space. The key to our solution is a new constrained Bayesian optimization framework that avoids invalid solutions by exploiting the highly constrained features of this design space, which are semi-continuous/semi-discrete. We evaluate our optimization framework by applying it to a variety of neural models, improving the energy-delay product by 18% (ResNet) and 40% (DQN) over hand-tuned state-of-the-art systems, as well as demonstrating strong results on other neural network architectures, such as MLPs and Transformers.
翻訳日:2022-10-10 19:55:32 公開日:2020-10-05
# 先進的なモチベーションをモチベーションする世界モデル

Latent World Models For Intrinsically Motivated Exploration ( http://arxiv.org/abs/2010.02302v1 )

ライセンス: Link先を確認
Aleksandr Ermolov, Nicu Sebe(参考訳) この作業では、スパース報酬を伴う部分的に観測可能な環境について検討します。 本稿では,観察の時間的距離に関する埋め込みを配置した画像ベース観察のための自己教師あり表現学習手法を提案する。 この表現は確率性に実証的に頑健であり、予測フォワードモデルの誤差から新しい発見に適している。 我々は探索を導くために、エピソディクスと生涯の不確実性を検討する。 本稿では,学習された潜在空間で動作する世界モデルを用いて,環境の不足情報を推定することを提案する。 本手法のモチベーションとして,表状部分観察可能な迷路の探索問題を解析する。 atariベンチマークを用いて,画像に基づくハードエクスプロレーション環境における手法を実証し,先行研究に関して有意な改善を報告した。 メソッドのソースコードとすべての実験はhttps://github.com/htdt/lwm.comで公開されている。

In this work we consider partially observable environments with sparse rewards. We present a self-supervised representation learning method for image-based observations, which arranges embeddings respecting temporal distance of observations. This representation is empirically robust to stochasticity and suitable for novelty detection from the error of a predictive forward model. We consider episodic and life-long uncertainties to guide the exploration. We propose to estimate the missing information about the environment with the world model, which operates in the learned latent space. As a motivation of the method, we analyse the exploration problem in a tabular Partially Observable Labyrinth. We demonstrate the method on image-based hard exploration environments from the Atari benchmark and report significant improvement with respect to prior work. The source code of the method and all the experiments is available at https://github.com/htdt/lwm.
翻訳日:2022-10-10 19:54:34 公開日:2020-10-05
# DCT-SNN:DCTを用いた低遅延スパイクニューラルネットワーク学習のための時間的空間情報配信

DCT-SNN: Using DCT to Distribute Spatial Information over Time for Learning Low-Latency Spiking Neural Networks ( http://arxiv.org/abs/2010.01795v1 )

ライセンス: Link先を確認
Isha Garg, Sayeed Shafayet Chowdhury and Kaushik Roy(参考訳) Spiking Neural Networks(SNN)は、イベント駆動情報処理による高い計算効率を提供するため、従来のディープラーニングフレームワークに代わる有望な選択肢を提供する。 SNNはピクセル強度のアナログ値を時間とともにバイナリスパイクに分散する。 しかし、Poissonベースのレートコーディングのような最も広く使われている入力符号化方式は、SNNの時間的学習能力を効果的に活用していない。 さらに、これらのSNNは高い推論遅延に悩まされており、デプロイメントの大きなボトルネックとなっている。 そこで本研究では,離散コサイン変換(dct)を用いて,推定に必要な時間ステップを削減した,スケーラブルな時間ベースの符号化方式を提案する。 DCTは、画像を正弦波基底画像の重み付け和に分解する。 各時間ステップにおいて、DCT係数のアダマール積と、順番に取られた単一周波数ベースとが、しきい値を超えたときにスパイクを生成するアキュムレータに与えられる。 提案手法を応用して,低遅延深部SNNの漏洩積分・発火ニューロンを用いたDCT-SNNを学習し,サロゲート勾配降下に基づくバックプロパゲーションを用いて訓練した。 我々は,VGGアーキテクチャを用いて,CIFAR-10,CIFAR-100,TinyImageNetで89.94%,68.3%,52.43%のTop-1精度を達成した。 特に、DCT-SNNは他の最先端のSNNと比較して2-14倍のレイテンシで推論を行い、標準のディープラーニングと同等の精度を実現している。 変換の次元は推論に必要な時間ステップの数を制御することができる。 さらに、推論中に最も高い周波数成分を落としてレイテンシとのトレードオフを原則的に行うことができる。

Spiking Neural Networks (SNNs) offer a promising alternative to traditional deep learning frameworks, since they provide higher computational efficiency due to event-driven information processing. SNNs distribute the analog values of pixel intensities into binary spikes over time. However, the most widely used input coding schemes, such as Poisson based rate-coding, do not leverage the additional temporal learning capability of SNNs effectively. Moreover, these SNNs suffer from high inference latency which is a major bottleneck to their deployment. To overcome this, we propose a scalable time-based encoding scheme that utilizes the Discrete Cosine Transform (DCT) to reduce the number of timesteps required for inference. DCT decomposes an image into a weighted sum of sinusoidal basis images. At each time step, the Hadamard product of the DCT coefficients and a single frequency base, taken in order, is given to an accumulator that generates spikes upon crossing a threshold. We use the proposed scheme to learn DCT-SNN, a low-latency deep SNN with leaky-integrate-and-fire neurons, trained using surrogate gradient descent based backpropagation. We achieve top-1 accuracy of 89.94%, 68.3% and 52.43% on CIFAR-10, CIFAR-100 and TinyImageNet, respectively using VGG architectures. Notably, DCT-SNN performs inference with 2-14X reduced latency compared to other state-of-the-art SNNs, while achieving comparable accuracy to their standard deep learning counterparts. The dimension of the transform allows us to control the number of timesteps required for inference. Additionally, we can trade-off accuracy with latency in a principled manner by dropping the highest frequency components during inference.
翻訳日:2022-10-10 19:53:04 公開日:2020-10-05
# 双曲的知識グラフ埋め込みと知識関連

Knowledge Association with Hyperbolic Knowledge Graph Embeddings ( http://arxiv.org/abs/2010.02162v1 )

ライセンス: Link先を確認
Zequn Sun, Muhao Chen, Wei Hu, Chengming Wang, Jian Dai, Wei Zhang(参考訳) エンティティアライメント、エンティティタイプ推論、その他の関連するタスクを通じて知識グラフ(kgs)の関連を捉えることは、包括的な知識表現を持つnlpアプリケーションに役立つ。 ユークリッド埋め込みに基づく最近の関連する手法は階層構造とkgの異なるスケールによって挑戦されている。 また、十分な表現性を実現するために高い埋め込み次元に依存する。 異なることに、知識関連のための低次元双曲埋め込みを探索する。 双曲型変換と知識関連性を持つKGの埋め込みと捕捉のための双曲型関係グラフニューラルネットワークを提案する。 エンティティアライメントと型推論に関する大規模な実験により,本手法の有効性と有効性を示した。

Capturing associations for knowledge graphs (KGs) through entity alignment, entity type inference and other related tasks benefits NLP applications with comprehensive knowledge representations. Recent related methods built on Euclidean embeddings are challenged by the hierarchical structures and different scales of KGs. They also depend on high embedding dimensions to realize enough expressiveness. Differently, we explore with low-dimensional hyperbolic embeddings for knowledge association. We propose a hyperbolic relational graph neural network for KG embedding and capture knowledge associations with a hyperbolic transformation. Extensive experiments on entity alignment and type inference demonstrate the effectiveness and efficiency of our method.
翻訳日:2022-10-10 19:46:08 公開日:2020-10-05
# 低リソース言語家庭におけるバイリンガル辞書誘導のための計画最適化

Plan Optimization to Bilingual Dictionary Induction for Low-Resource Language Families ( http://arxiv.org/abs/2010.02396v1 )

ライセンス: Link先を確認
Arbi Haza Nasution, Yohei Murakami, Toru Ishida(参考訳) バイリンガル辞書の作成は、低リソース言語を豊かにする最初の重要なステップである。 特に近縁の辞書では、制約に基づくアプローチがピボット言語を介して2つの二言語辞書から二言語レキシコンを誘導するのに役立つことが示されている。 しかし、入力としてマシン可読辞書が存在しない場合、バイリンガルネイティブスピーカーによる手作業による作成を検討する必要がある。 複数のバイリンガル辞書を包括的に作成するという目標を達成するには、既にいくつかのマシン可読なバイリンガル辞書があるとしても、総コストを削減するために制約ベースのアプローチの実行順序を決定することは困難である。 計画最適化は,その方法とコストを考慮したバイリンガル辞書作成の順序を決定する上で重要である。 我々は,マルコフ決定プロセス(MDP)を用いて,二言語辞書作成のための計画最適化を定式化し,制約に基づく二言語辞書誘導を完全実装する前に,最も実現可能な最適計画をより正確に推定する。 我々は,言語の類似性とトポロジーのポリセミーを$\alpha$および$\beta$パラメータとして,バイリンガルレキシコン誘導精度の先行ベータ分布をモデル化する。 さらにコスト関数と状態遷移確率をモデル化するために使われる。 提案手法の評価基準として,全投資計画のコストを推定し,総コストを評価指標とした。 第1バッチの後方ベータ分布を利用して第2バッチの実験で事前ベータ分布を構築した後、推定された全投資計画と比較して61.5倍のコスト削減、推定されたMDP最適計画と比較して39.4倍のコスト削減を示した。 MDPベースの提案は総コストでベースラインを上回った。

Creating bilingual dictionary is the first crucial step in enriching low-resource languages. Especially for the closely-related ones, it has been shown that the constraint-based approach is useful for inducing bilingual lexicons from two bilingual dictionaries via the pivot language. However, if there are no available machine-readable dictionaries as input, we need to consider manual creation by bilingual native speakers. To reach a goal of comprehensively create multiple bilingual dictionaries, even if we already have several existing machine-readable bilingual dictionaries, it is still difficult to determine the execution order of the constraint-based approach to reducing the total cost. Plan optimization is crucial in composing the order of bilingual dictionaries creation with the consideration of the methods and their costs. We formalize the plan optimization for creating bilingual dictionaries by utilizing Markov Decision Process (MDP) with the goal to get a more accurate estimation of the most feasible optimal plan with the least total cost before fully implementing the constraint-based bilingual lexicon induction. We model a prior beta distribution of bilingual lexicon induction precision with language similarity and polysemy of the topology as $\alpha$ and $\beta$ parameters. It is further used to model cost function and state transition probability. We estimated the cost of all investment plan as a baseline for evaluating the proposed MDP-based approach with total cost as an evaluation metric. After utilizing the posterior beta distribution in the first batch of experiments to construct the prior beta distribution in the second batch of experiments, the result shows 61.5\% of cost reduction compared to the estimated all investment plan and 39.4\% of cost reduction compared to the estimated MDP optimal plan. The MDP-based proposal outperformed the baseline on the total cost.
翻訳日:2022-10-10 19:45:22 公開日:2020-10-05
# PMIマスキング:相関スパンの原理マスキング

PMI-Masking: Principled masking of correlated spans ( http://arxiv.org/abs/2010.01825v1 )

ライセンス: Link先を確認
Yoav Levine, Barak Lenz, Opher Lieber, Omri Abend, Kevin Leyton-Brown, Moshe Tennenholtz, Yoav Shoham(参考訳) ランダムなマスキングトークンは、BERTのようなマスキング言語モデル(MLM)の事前訓練における共通の欠陥を構成する。 このような一様マスキングにより、MLMは浅部局所信号にラッチを付けることでトレーニング目標を最小化できることを示す。 この問題を解決するために,PMI-Maskingを提案する。これはPMI(Pointwise Mutual Information)の概念に基づいて,コーパス上の高いコロケーションを示す場合,トークンn-gramをマスクする。 PMIマスクは、単語全体マスキング、エンティティ/フレーズマスキング、ランダムスパンマスキングなどのランダム均一トークンマスキングの欠点に対処しようとする、よりヒューリスティックなアプローチを動機付け、統一し、改善する。 具体的には,pmiマスキングがトレーニング時間の半分で先行マスキング法の性能に到達し,トレーニング終了時のパフォーマンスを一貫して向上させることを示す。

Masking tokens uniformly at random constitutes a common flaw in the pretraining of Masked Language Models (MLMs) such as BERT. We show that such uniform masking allows an MLM to minimize its training objective by latching onto shallow local signals, leading to pretraining inefficiency and suboptimal downstream performance. To address this flaw, we propose PMI-Masking, a principled masking strategy based on the concept of Pointwise Mutual Information (PMI), which jointly masks a token n-gram if it exhibits high collocation over the corpus. PMI-Masking motivates, unifies, and improves upon prior more heuristic approaches that attempt to address the drawback of random uniform token masking, such as whole-word masking, entity/phrase masking, and random-span masking. Specifically, we show experimentally that PMI-Masking reaches the performance of prior masking approaches in half the training time, and consistently improves performance at the end of training.
翻訳日:2022-10-10 19:44:51 公開日:2020-10-05
# Mind the Pad - CNNが盲点を開発できる

Mind the Pad -- CNNs can Develop Blind Spots ( http://arxiv.org/abs/2010.02178v1 )

ライセンス: Link先を確認
Bilal Alsallakh and Narine Kokhlikyan and Vivek Miglani and Jun Yuan and Orion Reblitz-Richardson(参考訳) 畳み込みネットワークにおける特徴マップが空間バイアスにどのように感受性があるかを示す。 アーキテクチャの選択の組み合わせにより、特定の場所でのアクティベーションは体系的に上昇または弱まる。 このバイアスの主な原因は、パディングメカニズムである。 畳み込み算術のいくつかの側面により、この機構はパディングを均等に適用することができ、学習した重みの非対称性をもたらす。 このようなバイアスが、小さな物体検出のような特定のタスクにどのように影響するかを実証する: 刺激が影響を受けた領域にある場合、活性化は抑制され、盲点や誤検出につながる。 空間バイアスを軽減し,モデルの精度を向上させる方法を提案する。

We show how feature maps in convolutional networks are susceptible to spatial bias. Due to a combination of architectural choices, the activation at certain locations is systematically elevated or weakened. The major source of this bias is the padding mechanism. Depending on several aspects of convolution arithmetic, this mechanism can apply the padding unevenly, leading to asymmetries in the learned weights. We demonstrate how such bias can be detrimental to certain tasks such as small object detection: the activation is suppressed if the stimulus lies in the impacted area, leading to blind spots and misdetection. We propose solutions to mitigate spatial bias and demonstrate how they can improve model accuracy.
翻訳日:2022-10-10 19:44:32 公開日:2020-10-05
# プリトレーニングトランスフォーマーのタスク非依存データ拡張はどの程度効果的か?

How Effective is Task-Agnostic Data Augmentation for Pretrained Transformers? ( http://arxiv.org/abs/2010.01764v1 )

ライセンス: Link先を確認
Shayne Longpre and Yu Wang and Christopher DuBois(参考訳) タスクに依存しないデータ拡張は、事前訓練されたモデルでもコンピュータビジョンにおいて広く有効であることが証明されている。 NLPでは、同様の結果が最もよく報告されるのは、低いデータ構造、非事前学習モデル、または事前学習モデルである。 本稿では,事前学習したトランスに適用した場合,これらの手法がどの程度有効か尋ねる。 タスクに依存しないデータ拡張(特定のタスクに合わせたものではない)、簡単なデータ拡張(wei and zou, 2019)、そしてバックトランスレーション(sennrichet al., 2015)の2つの一般的な種類を用いて、5つの分類タスク、6つのデータセット、そしてbert、xlnet、robertaを含む最新のプリトレーニングトランスフォーマの3つのバリエーションを体系的に検討する。 トレーニングデータに制限がある場合でも,非事前学習モデルに対して強い改善を報告した手法は,事前学習したトランスフォーマーの性能を一貫して改善することができない。 この経験的分析が、データ拡張技術が改善をもたらす可能性がある実践者への情報提供に役立つことを願っています。

Task-agnostic forms of data augmentation have proven widely effective in computer vision, even on pretrained models. In NLP similar results are reported most commonly for low data regimes, non-pretrained models, or situationally for pretrained models. In this paper we ask how effective these techniques really are when applied to pretrained transformers. Using two popular varieties of task-agnostic data augmentation (not tailored to any particular task), Easy Data Augmentation (Wei and Zou, 2019) and Back-Translation (Sennrichet al., 2015), we conduct a systematic examination of their effects across 5 classification tasks, 6 datasets, and 3 variants of modern pretrained transformers, including BERT, XLNet, and RoBERTa. We observe a negative result, finding that techniques which previously reported strong improvements for non-pretrained models fail to consistently improve performance for pretrained transformers, even when training data is limited. We hope this empirical analysis helps inform practitioners where data augmentation techniques may confer improvements.
翻訳日:2022-10-10 19:44:04 公開日:2020-10-05
# セマンティクスに富むモビリティモデリングのための球面隠れマルコフモデル

A Spherical Hidden Markov Model for Semantics-Rich Human Mobility Modeling ( http://arxiv.org/abs/2010.01986v1 )

ライセンス: Link先を確認
Wanzheng Zhu, Chao Zhang, Shuochao Yao, Xiaobin Gao, Jiawei Han(参考訳) 意味的トレースデータからヒューマンモビリティをモデル化する問題について検討し,トレース中の各gps記録は,ユーザの行動を記述したテキストメッセージに関連付けられる。 既存の方法は、テキストデータを全くモデル化しなかったり、テキストの疎結合に苦しんだりするため、人間の運動規則を明らかにするのに不足している。 セマンティクスに富むモビリティモデリングのためのマルチモーダル球面隠れマルコフモデルであるshmmを提案する。 隠れマルコフの仮定の下で、SHMMは、トレースの各ステップにおける観測された位置、時間、およびテキストを共同で考慮して、与えられたトレースの生成プロセスをモデル化する。 SHMMの識別特性はテキストモデリング部である。 固定サイズのベクトル表現を用いて、テキストのセマンティクスを符号化し、von Mises-Fisher (vMF) 分布を持つ単位球面上の l2-正規化テキスト埋め込みの生成をモデル化する。 多変量ガウスのような他の選択肢と比較すると、vMF分布の選択はパラメータをはるかに少なくするだけでなく、方向距離空間におけるテキスト埋め込みの識別力も活用できる。 vMF分布のパラメータ推論は、ベッセル関数の比の関数反転を伴うため、非自明ではない。 私たちは理論的にそれを証明します。 1) 古典的期待最大化アルゴリズムはvmf分布に対応できる。 2) M-ステップでは閉形式解が得られにくいが, ニュートン法は2次収束率で最適解に収束することが保証されている。 我々は合成データと実生活データの両方について広範な実験を行った。 実生活データでは,SHMMが意味のあるセマンティクスに富んだモビリティモデルを学習し,次の位置予測のために最先端のモビリティモデルを上回る性能を示し,トレーニングコストの低減を図っている。

We study the problem of modeling human mobility from semantic trace data, wherein each GPS record in a trace is associated with a text message that describes the user's activity. Existing methods fall short in unveiling human movement regularities, because they either do not model the text data at all or suffer from text sparsity severely. We propose SHMM, a multi-modal spherical hidden Markov model for semantics-rich human mobility modeling. Under the hidden Markov assumption, SHMM models the generation process of a given trace by jointly considering the observed location, time, and text at each step of the trace. The distinguishing characteristic of SHMM is the text modeling part. We use fixed-size vector representations to encode the semantics of the text messages, and model the generation of the l2-normalized text embeddings on a unit sphere with the von Mises-Fisher (vMF) distribution. Compared with other alternatives like multi-variate Gaussian, our choice of the vMF distribution not only incurs much fewer parameters, but also better leverages the discriminative power of text embeddings in a directional metric space. The parameter inference for the vMF distribution is non-trivial since it involves functional inversion of ratios of Bessel functions. We theoretically prove that: 1) the classical Expectation-Maximization algorithm can work with vMF distributions; and 2) while closed-form solutions are hard to be obtained for the M-step, Newton's method is guaranteed to converge to the optimal solution with quadratic convergence rate. We have performed extensive experiments on both synthetic and real-life data. The results on synthetic data verify our theoretical analysis; while the results on real-life data demonstrate that SHMM learns meaningful semantics-rich mobility models, outperforms state-of-the-art mobility models for next location prediction, and incurs lower training cost.
翻訳日:2022-10-10 19:37:54 公開日:2020-10-05
# 生涯の言語知識蒸留

Lifelong Language Knowledge Distillation ( http://arxiv.org/abs/2010.02123v1 )

ライセンス: Link先を確認
Yung-Sung Chuang, Shang-Yu Su, Yun-Nung Chen(参考訳) マルチタスクと比較した場合、パフォーマンスの低下を伴わずに、さまざまなタスクのストリームで生涯言語学習(lll)を行うことは困難である。 この問題に対処するために,既存のLLLアーキテクチャに容易に適用可能な簡易かつ効率的な方法であるLifelong Language Knowledge Distillation (L2KD)を提案する。 具体的には、LLLモデルを新しいタスクで訓練すると、まず教師モデルを割り当てて新しいタスクを学習し、知識蒸留を通してLLLモデルに知識を渡す。 したがって、LLLモデルは、学習済みの知識を維持しながら、新しいタスクに適応することができる。 実験により,提案するl2kdは従来の最先端モデルと一貫して改良され,lllタスクにおけるマルチタスクモデルとの比較による劣化はシーケンス生成とテキスト分類タスクの両方において十分に軽減された。

It is challenging to perform lifelong language learning (LLL) on a stream of different tasks without any performance degradation comparing to the multi-task counterparts. To address this issue, we present Lifelong Language Knowledge Distillation (L2KD), a simple but efficient method that can be easily applied to existing LLL architectures in order to mitigate the degradation. Specifically, when the LLL model is trained on a new task, we assign a teacher model to first learn the new task, and pass the knowledge to the LLL model via knowledge distillation. Therefore, the LLL model can better adapt to the new task while keeping the previously learned knowledge. Experiments show that the proposed L2KD consistently improves previous state-of-the-art models, and the degradation comparing to multi-task models in LLL tasks is well mitigated for both sequence generation and text classification tasks.
翻訳日:2022-10-10 19:34:38 公開日:2020-10-05