このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210914となっている論文です。

PDF登録状況(公開日: 20210914)

TitleAuthorsAbstract論文公表日・翻訳日
# (参考訳) UMLSメタテーラスにおける語彙アライメントのためのバイオメディカルBERTモデルの評価 [全文訳有]

Evaluating Biomedical BERT Models for Vocabulary Alignment at Scale in the UMLS Metathesaurus ( http://arxiv.org/abs/2109.13348v1 )

ライセンス: CC0 1.0
Goonmeet Bajaj, Vinh Nguyen, Thilini Wijesiriwardene, Hong Yung Yip, Vishesh Javangula, Srinivasan Parthasarathy, Amit Sheth, Olivier Bodenreider(参考訳) 現在のuml(unified medical language system)メタセサウルスは200以上の生物医学的ソース語彙を統合するためのプロセスであり、語彙的アルゴリズムと人間の編集者に依存しており、2つの生物医学的用語が同義語であるかどうかを決定する。 BERTのようなトランスフォーマーモデルのような自然言語処理の最近の進歩と、文脈的単語埋め込みによるバイオメディカルな変形は、下流タスクにおける最先端(SOTA)のパフォーマンスを達成している。 BERTモデルを用いたこれらの手法がUMLSメタセソーラスの同義語予測において既存の手法よりも優れているかどうかを検証することを目的とする。 既存のSiamese Networks と LSTM と BioWordVec の埋め込みでは,BioWordVec の埋め込みを,異なる抽出方法を用いて各 BERT モデルから抽出したバイオメディカルBERT 埋め込みに置き換える。 トランスフォーマーアーキテクチャでは、異なるデータセットやタスクを用いて事前訓練された様々な生体医学BERTモデルの使用を評価する。 Given the SOTA performance of these BERT models for other downstream tasks, our experiments yield surprisingly interesting results: (1) in both model architectures, the approaches employing these biomedical BERT-based models do not outperform the existing approaches using Siamese Network with BioWordVec embeddings for the UMLS synonymy prediction task, (2) the original BioBERT large model that has not been pre-trained with the UMLS outperforms the SapBERT models that have been pre-trained with the UMLS, and (3) using the Siamese Networks yields better performance for synonymy prediction when compared to using the biomedical BERT models.

The current UMLS (Unified Medical Language System) Metathesaurus construction process for integrating over 200 biomedical source vocabularies is expensive and error-prone as it relies on the lexical algorithms and human editors for deciding if the two biomedical terms are synonymous. Recent advances in Natural Language Processing such as Transformer models like BERT and its biomedical variants with contextualized word embeddings have achieved state-of-the-art (SOTA) performance on downstream tasks. We aim to validate if these approaches using the BERT models can actually outperform the existing approaches for predicting synonymy in the UMLS Metathesaurus. In the existing Siamese Networks with LSTM and BioWordVec embeddings, we replace the BioWordVec embeddings with the biomedical BERT embeddings extracted from each BERT model using different ways of extraction. In the Transformer architecture, we evaluate the use of the different biomedical BERT models that have been pre-trained using different datasets and tasks. Given the SOTA performance of these BERT models for other downstream tasks, our experiments yield surprisingly interesting results: (1) in both model architectures, the approaches employing these biomedical BERT-based models do not outperform the existing approaches using Siamese Network with BioWordVec embeddings for the UMLS synonymy prediction task, (2) the original BioBERT large model that has not been pre-trained with the UMLS outperforms the SapBERT models that have been pre-trained with the UMLS, and (3) using the Siamese Networks yields better performance for synonymy prediction when compared to using the biomedical BERT models.
翻訳日:2021-10-03 11:34:08 公開日:2021-09-14
# 発振性フーリエニューラルネットワーク:シーケンシャル処理のためのコンパクトで効率的なアーキテクチャ

Oscillatory Fourier Neural Network: A Compact and Efficient Architecture for Sequential Processing ( http://arxiv.org/abs/2109.13090v1 )

ライセンス: Link先を確認
Bing Han, Cheng Wang, and Kaushik Roy(参考訳) 近年のリカレントニューラルネットワークの進歩とともに, 逐次処理の進歩が進んでいる。 しかし、リカレントアーキテクチャは、トレーニング中に勾配の爆発/消滅という課題に直面し、時間を通してバックプロパゲーションを実行するためにかなりの計算資源を必要とする。 さらに、複雑なシーケンシャルタスクの実行には、一般的に大きなモデルが必要となる。 これらの課題に対処するために、シーケンシャル処理のための時間変化成分を持つコサイン活性化を有する新しいニューロンモデルを提案する。 提案したニューロンは、スペクトル領域に逐次入力を投影するための効率的なビルディングブロックを提供する。 提案したニューロンに基づく新しいタイプの繰り返しネットワークアーキテクチャであるOscillatory Fourier Neural Networkが提案され,各種のシーケンシャルタスクに適用される。 提案するニューロンモデルを用いたリカレントニューラルネットワークは、周期的活性化に適用される離散フーリエ変換の単純化形式と数学的に等価であることを示す。 特に、トレーニング中の時間による計算集約的なバックプロパゲーションを排除し、より高速なトレーニングを実現するとともに、さまざまなシーケンシャルなタスク群におけるアート推論精度の達成を実現する。 例えば、IMDBレビューデータセットの感情分析に提案したモデルを適用すると、5時間以内に89.4%のテスト精度に達し、LSTMと比較してモデルサイズが35倍以上削減された。 提案する新しいRNNアーキテクチャは、リソース制約ハードウェアにおけるインテリジェントなシーケンシャル処理に適している。

Tremendous progress has been made in sequential processing with the recent advances in recurrent neural networks. However, recurrent architectures face the challenge of exploding/vanishing gradients during training, and require significant computational resources to execute back-propagation through time. Moreover, large models are typically needed for executing complex sequential tasks. To address these challenges, we propose a novel neuron model that has cosine activation with a time varying component for sequential processing. The proposed neuron provides an efficient building block for projecting sequential inputs into spectral domain, which helps to retain long-term dependencies with minimal extra model parameters and computation. A new type of recurrent network architecture, named Oscillatory Fourier Neural Network, based on the proposed neuron is presented and applied to various types of sequential tasks. We demonstrate that recurrent neural network with the proposed neuron model is mathematically equivalent to a simplified form of discrete Fourier transform applied onto periodical activation. In particular, the computationally intensive back-propagation through time in training is eliminated, leading to faster training while achieving the state of the art inference accuracy in a diverse group of sequential tasks. For instance, applying the proposed model to sentiment analysis on IMDB review dataset reaches 89.4% test accuracy within 5 epochs, accompanied by over 35x reduction in the model size compared to LSTM. The proposed novel RNN architecture is well poised for intelligent sequential processing in resource constrained hardware.
翻訳日:2021-10-03 10:38:37 公開日:2021-09-14
# 異常な状況下での株価予測

Stock Price Prediction Under Anomalous Circumstances ( http://arxiv.org/abs/2109.15059v1 )

ライセンス: Link先を確認
Jinlong Ruan and Wei Wu and Jiebo Luo(参考訳) 株式市場は不安定で、特に2020年は複雑だ。 新型コロナウイルス(COVID-19)のパンデミックなど、世界的な「ブラックスワン」が相次いだため、米国株式市場は3月9日から16日までの1週間でサーキットブレーカーを3回引き起こした。 状況全体の影響で、個々の企業の株価は、事前に開発された予測モデルでは予測されなかったレートで急落した。 破滅的な、非常にありそうもない出来事が発生したとき、株価の変化を予測できる十分なモデルがないことが判明した。 このようなモデルの空白を埋め、不確実な時間に投資家が大きな損失を被らないようにするため、本稿では、異常な状況下で株価の変動パターンを捉えることを目的としている。 まず、標準のARIMAモデルに適合し、予測が実際の値から大きくずれる点を特定することで、順次の株価変動を検出する。 選択したデータポイントを用いて、ARIMAモデルとLSTMモデルを、それぞれ単一ストックレベル、産業レベル、一般市場レベルで訓練する。 公開感情は株式市場に大きな影響を与えているため、感情分析はredditの特定の株式に関するコメントから変換された感情スコアという形でモデルに組み込まれている。 2016年から2020年にかけての100社の株価に基づいて、モデルの平均予測精度は98%に達し、既存の予測手法を最適化することができる。

The stock market is volatile and complicated, especially in 2020. Because of a series of global and regional "black swans," such as the COVID-19 pandemic, the U.S. stock market triggered the circuit breaker three times within one week of March 9 to 16, which is unprecedented throughout history. Affected by the whole circumstance, the stock prices of individual corporations also plummeted by rates that were never predicted by any pre-developed forecasting models. It reveals that there was a lack of satisfactory models that could predict the changes in stocks prices when catastrophic, highly unlikely events occur. To fill the void of such models and to help prevent investors from heavy losses during uncertain times, this paper aims to capture the movement pattern of stock prices under anomalous circumstances. First, we detect outliers in sequential stock prices by fitting a standard ARIMA model and identifying the points where predictions deviate significantly from actual values. With the selected data points, we train ARIMA and LSTM models at the single-stock level, industry level, and general market level, respectively. Since the public moods affect the stock market tremendously, a sentiment analysis is also incorporated into the models in the form of sentiment scores, which are converted from comments about specific stocks on Reddit. Based on 100 companies' stock prices in the period of 2016 to 2020, the models achieve an average prediction accuracy of 98% which can be used to optimize existing prediction methodologies.
翻訳日:2021-10-03 10:38:13 公開日:2021-09-14
# 衝撃に焦点をあてる:本質的な動機を持つ屋内探査

Focus on Impact: Indoor Exploration with Intrinsic Motivation ( http://arxiv.org/abs/2109.08521v1 )

ライセンス: Link先を確認
Roberto Bigazzi, Federico Landi, Silvia Cascianelli, Lorenzo Baraldi, Marcella Cornia and Rita Cucchiara(参考訳) 室内環境の探索は、最近、階層的な方法で構築され、シミュレーション環境でDeep Reinforcement Learning (DRL)で訓練されたディープニューラルエージェントの導入により、大きな関心を集めている。 現在の最先端の手法は、効果的な探索政策を学ぶために、訓練環境のレイアウトに関する完全な事前知識を必要とする密集した外在的な報酬を用いる。 しかし、そのような情報は時間と資源の面で収集するには費用がかかる。 本研究では,ロボットの行動が環境に与える影響に基づく探索を導くために,純粋に内在的な報酬信号を用いてモデルを訓練することを提案する。 これまでのところ、インパクトに基づく報酬は単純なタスクや、可算状態を持つ手続き的に生成された合成環境に使われてきた。 現実的な屋内環境でエージェントが観測できる状態の数は非可算であるため、ニューラルベース密度モデルを含み、従来のカウントベースの正規化を、以前に訪れた状態の擬似数に置き換える。 提案手法は,内在的な報酬に依存するdrlベースの競争相手を上回り,環境レイアウトで計算された過剰な報酬で訓練されたエージェントを上回っている。 また,提案手法を組み込んだロボットが,ナビゲーションや実世界の展開にシームレスに適応することを示す。

Exploration of indoor environments has recently experienced a significant interest, also thanks to the introduction of deep neural agents built in a hierarchical fashion and trained with Deep Reinforcement Learning (DRL) on simulated environments. Current state-of-the-art methods employ a dense extrinsic reward that requires the complete a priori knowledge of the layout of the training environment to learn an effective exploration policy. However, such information is expensive to gather in terms of time and resources. In this work, we propose to train the model with a purely intrinsic reward signal to guide exploration, which is based on the impact of the robot's actions on the environment. So far, impact-based rewards have been employed for simple tasks and in procedurally generated synthetic environments with countable states. Since the number of states observable by the agent in realistic indoor environments is non-countable, we include a neural-based density model and replace the traditional count-based regularization with an estimated pseudo-count of previously visited states. The proposed exploration approach outperforms DRL-based competitors relying on intrinsic rewards and surpasses the agents trained with a dense extrinsic reward computed with the environment layouts. We also show that a robot equipped with the proposed approach seamlessly adapts to point-goal navigation and real-world deployment.
翻訳日:2021-09-26 22:32:56 公開日:2021-09-14
# (参考訳) どうお手伝いしますか。 ニューラルネットワークによる下流NLPタスクの改善 [全文訳有]

How May I Help You? Using Neural Text Simplification to Improve Downstream NLP Tasks ( http://arxiv.org/abs/2109.04604v2 )

ライセンス: CC BY 4.0
Hoang Van, Zheng Tang, Mihai Surdeanu(参考訳) text simplification(ts)の一般的な目標は、人間の消費に対するテキストの複雑さを減らすことである。 本稿では,自然言語処理(nlp)タスクを行う機械を支援するニューラルtsについて検討する。 我々は、予測時の入力テキストの簡素化と、トレーニング中にマシンに追加情報を提供するデータ拡張の2つの方法により、ニューラルTSの使用を評価する。 後者のシナリオが2つの別々のデータセットのマシン性能にプラスの効果をもたらすことを実証する。 特に後者のTSはLSTM(1.82-1.98%)とSpanBERT(0.7-1.3%)のTACREDにおける抽出性能を改善している。 さらに、この設定は、実際の自然言語推論データセットであるMNLI上のBERTテキスト分類器に対して、最大0.65%の一致と0.62%の誤一致の精度の改善をもたらす。

The general goal of text simplification (TS) is to reduce text complexity for human consumption. This paper investigates another potential use of neural TS: assisting machines performing natural language processing (NLP) tasks. We evaluate the use of neural TS in two ways: simplifying input texts at prediction time and augmenting data to provide machines with additional information during training. We demonstrate that the latter scenario provides positive effects on machine performance on two separate datasets. In particular, the latter use of TS improves the performances of LSTM (1.82-1.98%) and SpanBERT (0.7-1.3%) extractors on TACRED, a complex, large-scale, real-world relation extraction task. Further, the same setting yields improvements of up to 0.65% matched and 0.62% mismatched accuracies for a BERT text classifier on MNLI, a practical natural language inference dataset.
翻訳日:2021-09-19 01:11:17 公開日:2021-09-14
# (参考訳) RoR: 長いドキュメントマシンを読むための読み書き [全文訳有]

RoR: Read-over-Read for Long Document Machine Reading Comprehension ( http://arxiv.org/abs/2109.04780v2 )

ライセンス: CC BY-SA 4.0
Jing Zhao, Junwei Bao, Yifan Wang, Yongwei Zhou, Youzheng Wu, Xiaodong He, and Bowen Zhou(参考訳) BERTのようなトランスフォーマーベースの事前学習モデルは、機械読解において顕著な成果を上げている。 しかし、エンコーディングの長さ(例えば512ワードピーストークン)の制約のため、長い文書は通常、独立に読み取られる複数のチャンクに分割される。 その結果、長い文書機械読解のための情報協調なしに、読み出し領域は個々のチャンクに限られる。 そこで本研究では,読み出しフィールドをチャンクからドキュメントに拡張する読み出し読み出し手法であるRoRを提案する。 特に、RoRはチャンクリーダーとドキュメントリーダーを含む。 前者はまず各チャンクの局所的な回答のセットを予測し、それを圧縮して元のドキュメントの高密度バージョンにし、一度エンコードすることを保証します。 後者は、この凝縮文書のグローバルな回答をさらに予測する。 最終的に、最終予測のために地域と世界的な回答を集計し、再集計するために投票戦略が使用される。 QuACとTriviaQAの2つのベンチマークによる大規模な実験は、長い文書読解におけるRoRの有効性を示した。 特にRoRは、提出された時点でQuACのリーダーボード(https://quac.ai/)で1位(2021年5月17日)。

Transformer-based pre-trained models, such as BERT, have achieved remarkable results on machine reading comprehension. However, due to the constraint of encoding length (e.g., 512 WordPiece tokens), a long document is usually split into multiple chunks that are independently read. It results in the reading field being limited to individual chunks without information collaboration for long document machine reading comprehension. To address this problem, we propose RoR, a read-over-read method, which expands the reading field from chunk to document. Specifically, RoR includes a chunk reader and a document reader. The former first predicts a set of regional answers for each chunk, which are then compacted into a highly-condensed version of the original document, guaranteeing to be encoded once. The latter further predicts the global answers from this condensed document. Eventually, a voting strategy is utilized to aggregate and rerank the regional and global answers for final prediction. Extensive experiments on two benchmarks QuAC and TriviaQA demonstrate the effectiveness of RoR for long document reading. Notably, RoR ranks 1st place on the QuAC leaderboard (https://quac.ai/) at the time of submission (May 17th, 2021).
翻訳日:2021-09-19 00:24:59 公開日:2021-09-14
# (参考訳) 検査映像からの多層橋梁要素の分断支援のための半教師付き自己学習法 [全文訳有]

A semi-supervised self-training method to develop assistive intelligence for segmenting multiclass bridge elements from inspection videos ( http://arxiv.org/abs/2109.05078v2 )

ライセンス: CC BY 4.0
Muhammad Monjurul Karim, Ruwen Qin, Zhaozheng Yin, Genda Chen(参考訳) 橋梁検査は, 交通インフラの維持と整備において, サービス寿命を延ばすための重要なステップである。 移動ロボット技術の進歩により、大量の検査ビデオデータの迅速な収集が可能となった。 しかし、データは主に複雑なシーンのイメージであり、様々な構造要素の橋梁が散らばった背景と混ざり合っている。 複雑な映像データから橋梁の構造要素を抽出し、クラス別にソートするブリッジインスペクタを支援することで、橋梁の状態を決定するための要素インスペクタを作成する。 本稿では,空中検査プラットフォームで撮影した検査ビデオから,多層橋梁要素の分断を支援する支援インテリジェンスモデルを開発することを目的としている。 インスペクタによってラベル付けされた小さな初期トレーニングデータセットにより、大きなパブリックデータセットで事前トレーニングされたマスク領域ベースの畳み込みニューラルネットワーク(mask r-cnn)が、マルチクラスブリッジ要素セグメンテーションの新しいタスクに転送された。 さらに、時間的コヒーレンス分析は、偽陰性を回復し、ニューラルネットワークが改善するために学べる弱点を特定しようとする。 さらに,ネットワークを反復的に精査する経験者を対象に,半教師付き自己訓練法(S$^3$T)を開発した。 開発した深層ニューラルネットワークの評価から得られた定量的・定性的な結果は、経験豊富な検査官(66画像のラベル付けに3.58時間)による少量の時間とガイダンスを用いて、優れた性能(91.8%の精度、93.6%のリコール、92.7%のf1-score)のネットワークを構築することができることを示している。 重要なことに、本論文は、橋梁専門家のドメイン知識と経験を計算知モデルに活用し、橋梁インベントリのさまざまな橋に効率的に適用するためのアプローチを示す。

Bridge inspection is an important step in preserving and rehabilitating transportation infrastructure for extending their service lives. The advancement of mobile robotic technology allows the rapid collection of a large amount of inspection video data. However, the data are mainly images of complex scenes, wherein a bridge of various structural elements mix with a cluttered background. Assisting bridge inspectors in extracting structural elements of bridges from the big complex video data, and sorting them out by classes, will prepare inspectors for the element-wise inspection to determine the condition of bridges. This paper is motivated to develop an assistive intelligence model for segmenting multiclass bridge elements from inspection videos captured by an aerial inspection platform. With a small initial training dataset labeled by inspectors, a Mask Region-based Convolutional Neural Network (Mask R-CNN) pre-trained on a large public dataset was transferred to the new task of multiclass bridge element segmentation. Besides, the temporal coherence analysis attempts to recover false negatives and identify the weakness that the neural network can learn to improve. Furthermore, a semi-supervised self-training (S$^3$T) method was developed to engage experienced inspectors in refining the network iteratively. Quantitative and qualitative results from evaluating the developed deep neural network demonstrate that the proposed method can utilize a small amount of time and guidance from experienced inspectors (3.58 hours for labeling 66 images) to build the network of excellent performance (91.8% precision, 93.6% recall, and 92.7% f1-score). Importantly, the paper illustrates an approach to leveraging the domain knowledge and experiences of bridge professionals into computational intelligence models to efficiently adapt the models to varied bridges in the National Bridge Inventory.
翻訳日:2021-09-18 21:59:12 公開日:2021-09-14
# (参考訳) 胸部X線検査における深層学習ソリューション開発におけるオープンデータ活用の問題点 [全文訳有]

The pitfalls of using open data to develop deep learning solutions for COVID-19 detection in chest X-rays ( http://arxiv.org/abs/2109.08020v1 )

ライセンス: CC BY 4.0
Rachael Harkness, Geoff Hall, Alejandro F Frangi, Nishant Ravikumar, Kieran Zucker(参考訳) 新型コロナウイルスの出現以来、深層学習モデルは胸部X線から新型コロナウイルスを識別するために開発されてきた。 病院のデータへの直接アクセスはほとんどないが、AIコミュニティは多数のデータソースからなる公開データに大きく依存している。 モデルのパフォーマンスは、新型コロナウイルス(covid-19)感染拡大前の肺炎検出におけるaiの能力を上回る、オープンソースのデータのトレーニングとテストにおいて、例外的なものだった。 本研究は、胸部X線をCOVID-19、非肺炎、非肺炎の3つのクラスに分類するために、広く使われているオープンソースデータに基づいてトレーニングし、外部テストセットと病院データセットでテストする。 検討したモデルの分類性能は,ROC曲線,混乱行列,標準分類指標を用いて評価した。 説明可能性モジュールは、分類に最も重要な画像特徴を調べるために実装されている。 データ分析とモデル評価は、人気のあるオープンソースデータセットであるCOVIDxが実際の臨床問題を表すものではなく、その結果が膨らんでいることを示している。 オープンソースのデータへの依存は、バイアスや境界変数に弱いモデルを残し、胸部X線で新型コロナウイルスを検出するために、臨床的に有用で実行可能なAIツールを開発するために慎重に分析する必要がある。

Since the emergence of COVID-19, deep learning models have been developed to identify COVID-19 from chest X-rays. With little to no direct access to hospital data, the AI community relies heavily on public data comprising numerous data sources. Model performance results have been exceptional when training and testing on open-source data, surpassing the reported capabilities of AI in pneumonia-detection prior to the COVID-19 outbreak. In this study impactful models are trained on a widely used open-source data and tested on an external test set and a hospital dataset, for the task of classifying chest X-rays into one of three classes: COVID-19, non-COVID pneumonia and no-pneumonia. Classification performance of the models investigated is evaluated through ROC curves, confusion matrices and standard classification metrics. Explainability modules are implemented to explore the image features most important to classification. Data analysis and model evaluations show that the popular open-source dataset COVIDx is not representative of the real clinical problem and that results from testing on this are inflated. Dependence on open-source data can leave models vulnerable to bias and confounding variables, requiring careful analysis to develop clinically useful/viable AI tools for COVID-19 detection in chest X-rays.
翻訳日:2021-09-18 12:21:24 公開日:2021-09-14
# (参考訳) 検索をシンプルにする方法: ワンショットニューラルアーキテクチャ検索のための分類的パレート進化 [全文訳有]

How to Simplify Search: Classification-wise Pareto Evolution for One-shot Neural Architecture Search ( http://arxiv.org/abs/2109.07582v1 )

ライセンス: CC BY 4.0
Lianbo Ma (Member, IEEE), Nan Li, Guo Yu, Xiaoyu Geng, Min Huang and Xingwei Wang(参考訳) ディープニューラルモデルのデプロイでは、さまざまな設計目標の下で、効果的かつ自動的に実行可能なディープモデルを見つける方法が基本です。 既存のニューラルネットワーク検索(nas)メソッドの多くは、サーロゲートを使用して、検索中の候補アーキテクチャの詳細なパフォーマンス(精度やモデルサイズなど)を予測するが、複雑で非効率である。 対照的に、複雑な多目的NASタスクを単純なPareto-dominanceタスクに変換することで、NASの探索プロセスを簡素化する効率的なPareto分類器を学習することを目指している。 そこで本研究では,対象関数に適合するサロゲートを使わずに,候補と構築した参照アーキテクチャ間の支配関係を予測するオンライン分類器を訓練した,ワンショットnasのための分類指向パレート進化手法を提案する。 本研究の主な貢献は,スーパーネット適応をパレート分類器に変更することである。 また,2つの適応スキームを設計,分類境界を構築するためのアーキテクチャの参照集合を選定し,それぞれ負のサンプルに対する正のサンプルの割合を規制する。 提案手法を,広く使用されているベンチマークデータセットにおける最先端手法と比較し,提案手法が他の手法よりも優れており,様々な目的や制約の下で,モデルサイズが2mから6mの異なる複数のニューラルアーキテクチャを見出した。

In the deployment of deep neural models, how to effectively and automatically find feasible deep models under diverse design objectives is fundamental. Most existing neural architecture search (NAS) methods utilize surrogates to predict the detailed performance (e.g., accuracy and model size) of a candidate architecture during the search, which however is complicated and inefficient. In contrast, we aim to learn an efficient Pareto classifier to simplify the search process of NAS by transforming the complex multi-objective NAS task into a simple Pareto-dominance classification task. To this end, we propose a classification-wise Pareto evolution approach for one-shot NAS, where an online classifier is trained to predict the dominance relationship between the candidate and constructed reference architectures, instead of using surrogates to fit the objective functions. The main contribution of this study is to change supernet adaption into a Pareto classifier. Besides, we design two adaptive schemes to select the reference set of architectures for constructing classification boundary and regulate the rate of positive samples over negative ones, respectively. We compare the proposed evolution approach with state-of-the-art approaches on widely-used benchmark datasets, and experimental results indicate that the proposed approach outperforms other approaches and have found a number of neural architectures with different model sizes ranging from 2M to 6M under diverse objectives and constraints.
翻訳日:2021-09-18 12:12:52 公開日:2021-09-14
# (参考訳) ネットワーク表現学習体系レビュー : 祖先と現況

Network representation learning systematic review: ancestors and current development state ( http://arxiv.org/abs/2109.07583v1 )

ライセンス: CC BY 4.0
Amina Amara, Mohamed Ali Hadj Taieb, Mohamed Ben Aouicha(参考訳) 実世界の情報ネットワークは、オンラインソーシャルネットワークや引用ネットワークなど様々な分野にまたがっている。 これらのネットワークデータは、ネットワークデータから固有の特性を取得するために、ネットワーク分析タスクに異なる課題をもたらす疎性、非線形性、不均一性によって特徴づけられる。 人工知能と機械学習は最近、ネットワークデータから洞察を学び、提示された課題に対処するために強力なシステムとして活用されている。 機械学習の手法の一部として、グラフ埋め込みアプローチはもともと、ノード間のリンクを明示的に定義するイメージデータセットのような、特徴を表すデータセットから構築されたグラフに対して考案されたものだ。 従来のアプローチでは、ネットワークデータの問題に対処できない。 新しい学習パラダイムとして,ネットワーク固有の特性を保ちながら,実世界の情報ネットワークを低次元空間にマッピングするネットワーク表現学習が提案されている。 本稿では,ネットワーク埋め込みとしても知られるネットワーク表現学習を,誕生から現況まで包括的に網羅的に調査する。 本調査により,ネットワーク組込みの出現の背景にある理由,ネットワーク組込みパイプラインで使用される設定の種類,モデルについて総合的に考察する。 そこで本研究では,ネットワーク埋め込みの表現学習と単語表現学習の祖先に関する簡単な歴史を紹介する。 また,ネットワーク表現学習の理解に必要な基本的な概念の形式的定義と,ネットワーク埋め込みパイプラインの説明を提供する。 最も一般的に使用される下流タスクは、埋め込みの評価、評価メトリクス、一般的なデータセットである。 最後に,ネットワーク組込みのためのオープンソースライブラリを紹介する。

Real-world information networks are increasingly occurring across various disciplines including online social networks and citation networks. These network data are generally characterized by sparseness, nonlinearity and heterogeneity bringing different challenges to the network analytics task to capture inherent properties from network data. Artificial intelligence and machine learning have been recently leveraged as powerful systems to learn insights from network data and deal with presented challenges. As part of machine learning techniques, graph embedding approaches are originally conceived for graphs constructed from feature represented datasets, like image dataset, in which links between nodes are explicitly defined. These traditional approaches cannot cope with network data challenges. As a new learning paradigm, network representation learning has been proposed to map a real-world information network into a low-dimensional space while preserving inherent properties of the network. In this paper, we present a systematic comprehensive survey of network representation learning, known also as network embedding, from birth to the current development state. Through the undertaken survey, we provide a comprehensive view of reasons behind the emergence of network embedding and, types of settings and models used in the network embedding pipeline. Thus, we introduce a brief history of representation learning and word representation learning ancestor of network embedding. We provide also formal definitions of basic concepts required to understand network representation learning followed by a description of network embedding pipeline. Most commonly used downstream tasks to evaluate embeddings, their evaluation metrics and popular datasets are highlighted. Finally, we present the open-source libraries for network embedding.
翻訳日:2021-09-18 11:39:13 公開日:2021-09-14
# (参考訳) 基底関数近似とパラメータ推定(snape)を用いた偏微分方程式のデータ駆動理論誘導学習 [全文訳有]

Data-Driven Theory-guided Learning of Partial Differential Equations using SimultaNeous Basis Function Approximation and Parameter Estimation (SNAPE) ( http://arxiv.org/abs/2109.07471v1 )

ライセンス: CC BY 4.0
Sutanu Bhowmick and Satish Nagarajaiah(参考訳) 様々な物理過程の時空間応答の測定は、支配的偏微分方程式(PDE)を推定するために用いられる。 本研究では,100%近い騒音に対してロバストなpdesのパラメータ推定手法である同時基底関数近似法とパラメータ推定法(snape)を提案する。 一般多次元プロセスのドメイン知識は最適化フレームワークの定式化における制約として用いられる。 SNAPEは、シュリンガー方程式、カオスダッフィング振動子、ナビエ・ストークス方程式を含む幅広い科学領域を含む様々な複雑な力学系に適用可能性を示すだけでなく、プロセス応答に対する解析的近似を推定する。 この方法は、確立された科学理論の知識とデータ科学の概念を体系的に組み合わせ、観測データからプロセスの特性を推測する。

The measured spatiotemporal response of various physical processes is utilized to infer the governing partial differential equations (PDEs). We propose SimultaNeous Basis Function Approximation and Parameter Estimation (SNAPE), a technique of parameter estimation of PDEs that is robust against high levels of noise nearly 100 %, by simultaneously fitting basis functions to the measured response and estimating the parameters of both ordinary and partial differential equations. The domain knowledge of the general multidimensional process is used as a constraint in the formulation of the optimization framework. SNAPE not only demonstrates its applicability on various complex dynamic systems that encompass wide scientific domains including Schr\"odinger equation, chaotic duffing oscillator, and Navier-Stokes equation but also estimates an analytical approximation to the process response. The method systematically combines the knowledge of well-established scientific theories and the concepts of data science to infer the properties of the process from the observed data.
翻訳日:2021-09-18 11:38:01 公開日:2021-09-14
# 微分可能な物理:ポジションピース

Differentiable Physics: A Position Piece ( http://arxiv.org/abs/2109.07573v1 )

ライセンス: Link先を確認
Bharath Ramsundar and Dilip Krishnamurthy and Venkatasubramanian Viswanathan(参考訳) 微分可能物理は、物理シミュレーションのための古典的な数値法と微分可能プログラミングの新しい技術を組み合わせることによって、物理システムのモデリングと理解のための新しいアプローチを提供する。 本研究では, パラメータ推定, 学習表現, 微分方程式の解法, データと帰納的先行モデルを用いた科学基礎モデルの開発など, 急速に発展している物理技術の文献を調査した。 微分可能物理は、古典的解析解と微分可能プログラミングのブリッジを用いた数値的手法を組み合わせることによって、物理現象をモデル化するための新しいパラダイムを提供する。

Differentiable physics provides a new approach for modeling and understanding the physical systems by pairing the new technology of differentiable programming with classical numerical methods for physical simulation. We survey the rapidly growing literature of differentiable physics techniques and highlight methods for parameter estimation, learning representations, solving differential equations, and developing what we call scientific foundation models using data and inductive priors. We argue that differentiable physics offers a new paradigm for modeling physical phenomena by combining classical analytic solutions with numerical methodology using the bridge of differentiable programming.
翻訳日:2021-09-17 16:28:22 公開日:2021-09-14
# secure your ride: 乗客とドライバーのペアのリアルタイムマッチング成功率予測

Secure Your Ride: Real-time Matching Success Rate Prediction for Passenger-Driver Pairs ( http://arxiv.org/abs/2109.07571v1 )

ライセンス: Link先を確認
Yuandong Wang, Hongzhi Yin, Lian Wu, Tong Chen, Chunyang Liu(参考訳) 近年、オンライン配車プラットフォームは都市交通にとって欠かせない部分となっている。 乗客がプラットフォームによってドライバーと一致した後、乗客とドライバーの両方がワンクリックで簡単に乗車を受け入れたりキャンセルしたりすることができる。 したがって、乗客とドライバーのペアが良い一致かどうかを正確に予測することは、配車プラットフォームが即時注文を考案する上で極めて重要であることが判明した。 しかし、配車プラットフォームの利用者は2つの当事者で構成されるため、ドライバー側と乗客側の両方からのダイナミクスを同時に考慮する必要がある。 これは従来のオンライン広告のタスクよりも難しくなる。 さらに、利用可能なデータの量は異なる都市間で大きくバランスが取れず、データが少ない小さな都市で正確なモデルを訓練するのは難しい。 高度なニューラルネットワークアーキテクチャは、データ不足下での予測精度の向上に役立つが、過度に複雑な設計は、プロダクション環境でタイムリーな予測を提供するモデルの能力を妨げる。 本稿では,乗務員のmsrを正確に予測するために,乗務員,乗務員,旅行順,および状況の動的特徴間の相互作用を包括的に学習するマルチビューモデル(mv)を提案する。 データ不均衡問題に関して、我々は、より密集した都市からの知識を用いて、小都市におけるモデルの予測力を補うための知識蒸留フレームワーク(KD)をさらに設計し、効率的な展開を支援するためのシンプルなモデルを生成する。 最後に,様々な都市から実世界のデータセットを広範囲に実験し,ソリューションの優越性を示す。

In recent years, online ride-hailing platforms have become an indispensable part of urban transportation. After a passenger is matched up with a driver by the platform, both the passenger and the driver have the freedom to simply accept or cancel a ride with one click. Hence, accurately predicting whether a passenger-driver pair is a good match turns out to be crucial for ride-hailing platforms to devise instant order assignments. However, since the users of ride-hailing platforms consist of two parties, decision-making needs to simultaneously account for the dynamics from both the driver and the passenger sides. This makes it more challenging than traditional online advertising tasks. Moreover, the amount of available data is severely imbalanced across different cities, creating difficulties for training an accurate model for smaller cities with scarce data. Though a sophisticated neural network architecture can help improve the prediction accuracy under data scarcity, the overly complex design will impede the model's capacity of delivering timely predictions in a production environment. In the paper, to accurately predict the MSR of passenger-driver, we propose the Multi-View model (MV) which comprehensively learns the interactions among the dynamic features of the passenger, driver, trip order, as well as context. Regarding the data imbalance problem, we further design the Knowledge Distillation framework (KD) to supplement the model's predictive power for smaller cities using the knowledge from cities with denser data and also generate a simple model to support efficient deployment. Finally, we conduct extensive experiments on real-world datasets from several different cities, which demonstrates the superiority of our solution.
翻訳日:2021-09-17 14:13:58 公開日:2021-09-14
# マルチスケール変圧器によるセミスーパービジョン広角補正

Semi-Supervised Wide-Angle Portraits Correction by Multi-Scale Transformer ( http://arxiv.org/abs/2109.08024v1 )

ライセンス: Link先を確認
Fushun Zhu, Shan Zhao, Peng Wang, Hao Wang, Hua Yan, Shuaicheng Liu(参考訳) 広角画像補正のための半教師付きネットワークを提案する。 広角画像は、特に顔領域で目立つ遠近法歪みの影響を受け、歪や歪みに苦しむことが多い。 事前の深層学習に基づくアプローチでは、トレーニング指導のための地平線補正フローマップが必要である。 しかし、こうしたラベルは高価であり、手作業でしか入手できない。 本研究では,ラベル付きデータに加えてラベル付きデータも活用可能な半教師付きスキームを提案する。 具体的には、方向と範囲の整合性(DRC)や回帰整合性(RC)といった、新しいコンポーネントによって、整合性メカニズムの利点を生かしている。 さらに,MS-Unet(Multi-Scale Swin-Unet)と呼ばれるネットワークは,MSTB(Multi-scale Swin-Unet)上に構築されており,ローカルスケールと長距離セマンティック情報を効果的に学習することができる。 さらに、トレーニングに豊富なシナリオを持つ高品質なラベルなしデータセットも導入する。 実験の結果,提案手法は最先端の手法や代表的ベースラインよりも優れていることがわかった。

We propose a semi-supervised network for wide-angle portraits correction. Wide-angle images often suffer from skew and distortion affected by perspective distortion, especially noticeable at the face regions. Previous deep learning based approaches require the ground-truth correction flow maps for the training guidance. However, such labels are expensive, which can only be obtained manually. In this work, we propose a semi-supervised scheme, which can consume unlabeled data in addition to the labeled data for improvements. Specifically, our semi-supervised scheme takes the advantages of the consistency mechanism, with several novel components such as direction and range consistency (DRC) and regression consistency (RC). Furthermore, our network, named as Multi-Scale Swin-Unet (MS-Unet), is built upon the multi-scale swin transformer block (MSTB), which can learn both local-scale and long-range semantic information effectively. In addition, we introduce a high-quality unlabeled dataset with rich scenarios for the training. Extensive experiments demonstrate that the proposed method is superior over the state-of-the-art methods and other representative baselines.
翻訳日:2021-09-17 13:55:56 公開日:2021-09-14
# (参考訳) Mixture-of-Experts Wait-k Policy を用いたユニバーサル同時機械翻訳 [全文訳有]

Universal Simultaneous Machine Translation with Mixture-of-Experts Wait-k Policy ( http://arxiv.org/abs/2109.05238v2 )

ライセンス: CC BY 4.0
Shaolei Zhang, Yang Feng(参考訳) 同時機械翻訳(simt)は、原文全体を読む前に翻訳を生成するため、翻訳品質とレイテンシのトレードオフが必要となる。 実用アプリケーションで異なる翻訳品質とレイテンシの要件を満たすため、従来の手法では複数のSiMTモデルを異なるレイテンシレベルでトレーニングする必要があるため、計算コストが大きくなる。 本稿では,任意のレイテンシで最適な翻訳品質を実現するために,Mixture-of-Experts Wait-k Policyを用いた汎用SiMTモデルを提案する。 具体的には,各頭部が待ち語数で待ち語として扱われるような専門家の混在に多面的注意を払っており,テストレイテンシとソース入力が与えられた場合,専門家の重みを順に調整して最適な翻訳を生成する。 3つのデータセットの実験により、我々の手法は、最先端適応ポリシーを含む、異なるレイテンシの下で強いベースラインをすべて上回ることを示した。

Simultaneous machine translation (SiMT) generates translation before reading the entire source sentence and hence it has to trade off between translation quality and latency. To fulfill the requirements of different translation quality and latency in practical applications, the previous methods usually need to train multiple SiMT models for different latency levels, resulting in large computational costs. In this paper, we propose a universal SiMT model with Mixture-of-Experts Wait-k Policy to achieve the best translation quality under arbitrary latency with only one trained model. Specifically, our method employs multi-head attention to accomplish the mixture of experts where each head is treated as a wait-k expert with its own waiting words number, and given a test latency and source inputs, the weights of the experts are accordingly adjusted to produce the best translation. Experiments on three datasets show that our method outperforms all the strong baselines under different latency, including the state-of-the-art adaptive policy.
翻訳日:2021-09-17 12:35:29 公開日:2021-09-14
# (参考訳) ガウス混合モデルを用いたニューラルマシン翻訳のための集中的クロス・アテンションのモデル化 [全文訳有]

Modeling Concentrated Cross-Attention for Neural Machine Translation with Gaussian Mixture Model ( http://arxiv.org/abs/2109.05244v2 )

ライセンス: CC BY 4.0
Shaolei Zhang, Yang Feng(参考訳) クロスアテンションはニューラル・マシン・トランスレーション(NMT)の重要な構成要素であり、従来手法ではドット積の注意によって常に実現されていた。 しかし、ドット積の注意は単語間のペアワイズ相関のみを考慮し、長い文を扱うときに分散し、ソース近傍の関係を無視する。 言語学にインスパイアされた上記の問題は、集中的注意と呼ばれるある種の横断的注意を無視して、いくつかの中心的な単語に焦点を合わせ、その周辺に広がる。 本研究では,ガウス混合モデル(GMM)を用いて,横断的注意の集中度をモデル化する。 3つのデータセットを用いた実験および解析により,提案手法がベースラインを上回り,アライメント品質,n-gram精度,長文翻訳において有意な改善を示した。

Cross-attention is an important component of neural machine translation (NMT), which is always realized by dot-product attention in previous methods. However, dot-product attention only considers the pair-wise correlation between words, resulting in dispersion when dealing with long sentences and neglect of source neighboring relationships. Inspired by linguistics, the above issues are caused by ignoring a type of cross-attention, called concentrated attention, which focuses on several central words and then spreads around them. In this work, we apply Gaussian Mixture Model (GMM) to model the concentrated attention in cross-attention. Experiments and analyses we conducted on three datasets show that the proposed method outperforms the baseline and has significant improvement on alignment quality, N-gram accuracy, and long sentence translation.
翻訳日:2021-09-17 12:00:47 公開日:2021-09-14
# (参考訳) 決定に焦点をあてた要約 [全文訳有]

Decision-Focused Summarization ( http://arxiv.org/abs/2109.06896v1 )

ライセンス: CC BY 4.0
Chao-Chun Hsu and Chenhao Tan(参考訳) 要約の関連性は通常、特定の決定に関する洞察を取り入れることなく、テキスト情報のみに基づいて定義される。 その結果、膵癌のリスク分析を支援するため、医療記録の要約には膝の損傷などの無関係な情報が含まれている可能性がある。 本稿では,決定に関連のある情報を要約することを目的とした,意思決定中心の要約という新たな問題を提案する。 テキスト全体に基づいて意思決定を行う予測モデルを活用して,テキストから判断を推測する方法に関する貴重な洞察を提供する。 要約を構築するために、テキスト非冗長を考慮に入れながらフルテキストを使用するようなモデル決定につながる代表文を選択する。 提案手法を評価するため(DecSum)、Yelpの今後の評価予測を支援するために、レストランの最初の10のレビューを要約する作業を行うテストベッドを構築した。 DecSumは、決定の忠実さと代表性において、テキストのみの要約法とモデルに基づく説明法を大幅に上回る。 さらに,DecSumが,将来どのレストランが良い評価を受けるかを予測する上で,人間がランダムな確率を上回り得る唯一の方法であることを実証した。

Relevance in summarization is typically defined based on textual information alone, without incorporating insights about a particular decision. As a result, to support risk analysis of pancreatic cancer, summaries of medical notes may include irrelevant information such as a knee injury. We propose a novel problem, decision-focused summarization, where the goal is to summarize relevant information for a decision. We leverage a predictive model that makes the decision based on the full text to provide valuable insights on how a decision can be inferred from text. To build a summary, we then select representative sentences that lead to similar model decisions as using the full text while accounting for textual non-redundancy. To evaluate our method (DecSum), we build a testbed where the task is to summarize the first ten reviews of a restaurant in support of predicting its future rating on Yelp. DecSum substantially outperforms text-only summarization methods and model-based explanation methods in decision faithfulness and representativeness. We further demonstrate that DecSum is the only method that enables humans to outperform random chance in predicting which restaurant will be better rated in the future.
翻訳日:2021-09-17 05:36:53 公開日:2021-09-14
# (参考訳) データによる学習と意思決定:最適な定式化と相転移

Learning and Decision-Making with Data: Optimal Formulations and Phase Transitions ( http://arxiv.org/abs/2109.06911v1 )

ライセンス: CC BY 4.0
M. Amine Bennouna and Bart P.G. Van Parys(参考訳) 歴史的データのみを利用できる場合に最適学習と意思決定の定式化を設計する問題を考察する。 以前の作業は通常、データ駆動の特定のクラスにコミットし、その後、サンプル外のパフォーマンス保証を確立しようとします。 ここでは反対のアプローチを取ります。 まず、任意のデータ駆動定式化の品質を測定するための賢明なヤードスティックを定義し、その上で最適な定式化を探します。 非公式に、任意のデータ駆動型定式化は、推定コストと実際のコストの近接の尺度をバランスさせながら、サンプル性能のレベルを保証できる。 サンプル外性能の許容レベルを考慮すれば、同じサンプル外性能を享受する他のどの定式化よりも、真のコストに均一に近いデータ駆動型定式化を明示的に構築する。 最適データ駆動型定式化の性質が相転移を経験する3つの異なるアウト・オブ・サンプル・パフォーマンス・レジーム(超指数的レジーム、指数的レジーム、サブ指数的レジーム)の存在を示す。 最適なデータ駆動定式化は、超指数レジームにおける古典的ロバストな定式化、指数レジームにおけるエントロピーな分布的ロバストな定式化、最終的に準指数レジームにおける分散ペナライズド定式化と解釈することができる。 この最後の観測では、これらの3つの間に驚くべき関係が明らかとなり、一見無関係に見えるデータ駆動の定式化が現在まで秘められている。

We study the problem of designing optimal learning and decision-making formulations when only historical data is available. Prior work typically commits to a particular class of data-driven formulation and subsequently tries to establish out-of-sample performance guarantees. We take here the opposite approach. We define first a sensible yard stick with which to measure the quality of any data-driven formulation and subsequently seek to find an optimal such formulation. Informally, any data-driven formulation can be seen to balance a measure of proximity of the estimated cost to the actual cost while guaranteeing a level of out-of-sample performance. Given an acceptable level of out-of-sample performance, we construct explicitly a data-driven formulation that is uniformly closer to the true cost than any other formulation enjoying the same out-of-sample performance. We show the existence of three distinct out-of-sample performance regimes (a superexponential regime, an exponential regime and a subexponential regime) between which the nature of the optimal data-driven formulation experiences a phase transition. The optimal data-driven formulations can be interpreted as a classically robust formulation in the superexponential regime, an entropic distributionally robust formulation in the exponential regime and finally a variance penalized formulation in the subexponential regime. This final observation unveils a surprising connection between these three, at first glance seemingly unrelated, data-driven formulations which until now remained hidden.
翻訳日:2021-09-17 05:18:18 公開日:2021-09-14
# (参考訳) 臨床機械学習の展開? 以下を考えてみよう。 [全文訳有]

Deploying clinical machine learning? Consider the following... ( http://arxiv.org/abs/2109.06919v1 )

ライセンス: CC BY 4.0
Charles Lu, Ken Chang, Praveer Singh, Stuart Pomerantz, Sean Doyle, Sujay Kakarmath, Christopher Bridge, Jayashree Kalpathy-Cramer(参考訳) 臨床機械学習(CML)研究への注目と投資にもかかわらず、臨床実践に転換するアプリケーションは比較的少ない。 研究は最先端を推し進める上で重要であるが、翻訳はこれらの技術を最終的には患者のケアに影響を与え、医療におけるAIを取り巻く広範な期待に応えるためにも同様に重要である。 研究者や実践者の間での全体論的な視点を明らかにするために,臨床展開のためのCMLの開発経験者について調査を行った。 これらの知見を照合し、臨床機械学習アプリケーションの設計と開発のために障壁と落とし穴のいくつかの主要なカテゴリを特定する。

Despite the intense attention and investment into clinical machine learning (CML) research, relatively few applications convert to clinical practice. While research is important in advancing the state-of-the-art, translation is equally important in bringing these technologies into a position to ultimately impact patient care and live up to extensive expectations surrounding AI in healthcare. To better characterize a holistic perspective among researchers and practitioners, we survey several participants with experience in developing CML for clinical deployment about their learned experiences. We collate these insights and identify several main categories of barriers and pitfalls in order to better design and develop clinical machine learning applications.
翻訳日:2021-09-17 05:16:57 公開日:2021-09-14
# (参考訳) NOPE:英語における自然発生前置詞のコーパス [全文訳有]

NOPE: A Corpus of Naturally-Occurring Presuppositions in English ( http://arxiv.org/abs/2109.06987v1 )

ライセンス: CC BY-SA 4.0
Alicia Parrish, Sebastian Schuster, Alex Warstadt, Omar Agha, Soo-Hwan Lee, Zhuoye Zhao, Samuel R. Bowman, Tal Linzen(参考訳) 言語を理解するには、過度に記述された内容の把握だけでなく、残されたことを推論する必要がある。 これらの推論には前置詞(presuppositions)があり、リスナーが話者が与えられたことを推論することで新しい情報について学習する現象である。 前提は、より広い会話の文脈だけでなく、それらを引き起こす語彙的および構文的特性の複雑な理解を必要とする。 本研究では,英語における自然発生前置詞(NOPE)コーパスを導入し,10種類の前置詞の文脈感度を調査し,人間の推論を予測できる機械学習モデルの有効性を評価する。 調査対象のトリガのほとんどは,適度な変動を示す。 さらに, 変圧器を用いたモデルでは, 前置詞を含む単純な場合において正しい推論が得られたが, 人間の判断が文脈と引き金の間の複雑な相互作用を示す例外的な事例の少数を捉えられなかった。

Understanding language requires grasping not only the overtly stated content, but also making inferences about things that were left unsaid. These inferences include presuppositions, a phenomenon by which a listener learns about new information through reasoning about what a speaker takes as given. Presuppositions require complex understanding of the lexical and syntactic properties that trigger them as well as the broader conversational context. In this work, we introduce the Naturally-Occurring Presuppositions in English (NOPE) Corpus to investigate the context-sensitivity of 10 different types of presupposition triggers and to evaluate machine learning models' ability to predict human inferences. We find that most of the triggers we investigate exhibit moderate variability. We further find that transformer-based models draw correct inferences in simple cases involving presuppositions, but they fail to capture the minority of exceptional cases in which human judgments reveal complex interactions between context and triggers.
翻訳日:2021-09-17 05:03:04 公開日:2021-09-14
# (参考訳) 事例ベース説明法としてのk-NNの挙動 [全文訳有]

Behavior of k-NN as an Instance-Based Explanation Method ( http://arxiv.org/abs/2109.06999v1 )

ライセンス: CC BY 4.0
Chhavi Yadav and Kamalika Chaudhuri(参考訳) 臨界領域でのdlモデルの採用は、音響説明法に対する需要の高まりにつながった。 インスタンスベースの説明メソッドは、テストサンプルの予測を説明するためにトレーニングセットから選択インスタンスを返す一般的な型である。 これらの説明を予測と結びつけるひとつの方法は、以下の反事実的疑問 - トレーニングセットから説明が削除された場合、テストサンプルの損失と予測はどのように変化するか - を問うことである。 本論文は, 実例に基づく説明手法の自然競合であるk-NNに対して, この問題に答えるものである。 まず、ニューラルネットワークの最後の層によって誘導される表現空間が、k-NNの実行に最適であることを示す。 この層を用いて実験を行い、同様の疑問に答えようとする影響関数 (IFs) ~\cite{koh2017understanding } と比較する。 評価は,説明が削除された場合の損失や予測の変化を示すが,$k$と損失・予測の傾向は見つからない。 我々はMNIST vs. CIFAR-10の予測と損失に大きな安定性を見出した。 驚いたことに、この質問ではk-NNsとIFsの挙動に大きな差は見られません。 これはIFのためのトレーニングセットサブサンプリングによるものです。

Adoption of DL models in critical areas has led to an escalating demand for sound explanation methods. Instance-based explanation methods are a popular type that return selective instances from the training set to explain the predictions for a test sample. One way to connect these explanations with prediction is to ask the following counterfactual question - how does the loss and prediction for a test sample change when explanations are removed from the training set? Our paper answers this question for k-NNs which are natural contenders for an instance-based explanation method. We first demonstrate empirically that the representation space induced by last layer of a neural network is the best to perform k-NN in. Using this layer, we conduct our experiments and compare them to influence functions (IFs) ~\cite{koh2017understanding } which try to answer a similar question. Our evaluations do indicate change in loss and predictions when explanations are removed but we do not find a trend between $k$ and loss or prediction change. We find significant stability in the predictions and loss of MNIST vs. CIFAR-10. Surprisingly, we do not observe much difference in the behavior of k-NNs vs. IFs on this question. We attribute this to training set subsampling for IFs.
翻訳日:2021-09-17 04:41:32 公開日:2021-09-14
# (参考訳) wavecorr: ポートフォリオ管理のための相関性に富む深層強化学習 [全文訳有]

WaveCorr: Correlation-savvy Deep Reinforcement Learning for Portfolio Management ( http://arxiv.org/abs/2109.07005v1 )

ライセンス: CC BY 4.0
Saeed Marzban, Erick Delage, Jonathan Yumeng Li, Jeremie Desgagne-Bouchard, Carl Dussault(参考訳) ポートフォリオ管理の問題は、投資家の選好やトレーディング環境、市場状況といった多くの要因を考慮して、時間とともに再バランスの決定を行う必要があるような、ダイナミックな意思決定問題の重要かつ挑戦的なクラスである。 本稿では,より効果的に相互依存情報を活用し,最先端アーキテクチャよりも優れたパフォーマンスを実現する,深層強化学習(drl)のためのポートフォリオポリシネットワークアーキテクチャを提案する。 特に,マルチアセット時系列データを利用するポートフォリオ・ポリシー・ネットワークに対して, \textit{asset permutation invariance} と呼ばれる新たなプロパティを導入し,資産相関情報を扱う際にこの不変性を保持する最初のポートフォリオ・ポリシー・ネットワーク wavecorr を設計した。 私たちの設計の核心は、革新的な置換不変相関処理層です。 カナダ (TSX) とアメリカの株式市場 (S&P 500) の双方のデータを用いて広範な実験が行われ、WaveCorr は他のアーキテクチャを一貫して上回り、平均年率で3%-25% の絶対的な改善、シャープ比で200% 以上の相対的な改善がある。 また,初期資産の発注と重み付けのランダムな選択による性能の安定性において,最大5因子の改善も測定した。 ネットワークの安定性は、当社の産業パートナーが特に有益だと認識しています。

The problem of portfolio management represents an important and challenging class of dynamic decision making problems, where rebalancing decisions need to be made over time with the consideration of many factors such as investors preferences, trading environments, and market conditions. In this paper, we present a new portfolio policy network architecture for deep reinforcement learning (DRL)that can exploit more effectively cross-asset dependency information and achieve better performance than state-of-the-art architectures. In particular, we introduce a new property, referred to as \textit{asset permutation invariance}, for portfolio policy networks that exploit multi-asset time series data, and design the first portfolio policy network, named WaveCorr, that preserves this invariance property when treating asset correlation information. At the core of our design is an innovative permutation invariant correlation processing layer. An extensive set of experiments are conducted using data from both Canadian (TSX) and American stock markets (S&P 500), and WaveCorr consistently outperforms other architectures with an impressive 3%-25% absolute improvement in terms of average annual return, and up to more than 200% relative improvement in average Sharpe ratio. We also measured an improvement of a factor of up to 5 in the stability of performance under random choices of initial asset ordering and weights. The stability of the network has been found as particularly valuable by our industrial partner.
翻訳日:2021-09-17 04:36:40 公開日:2021-09-14
# (参考訳) モーフィックインフレクションのためのデータ拡張を用いた3段階トレーニング手法 [全文訳有]

A Three Step Training Approach with Data Augmentation for Morphological Inflection ( http://arxiv.org/abs/2109.07006v1 )

ライセンス: CC BY 4.0
Gabor Szolnok, Botond Barta, Dorina Lakatos, Judit Acs(参考訳) 本稿では,SIGMORPHON 2021 Task 0 Part 1のBME提案について述べる。 LSTMエンコーダ-デコーダモデルを使用し、3ステップのトレーニングをまずすべての言語で行い、その後各言語ファミリで微調整を行い、最後に個々の言語で微調整する。 最初の2ステップでは、異なるタイプのデータ拡張技術を使用します。 我々のシステムは、他の唯一の提案を上回った。 オーガナイザがリリースしたTransformerベースラインよりも悪いままですが、私たちのモデルはシンプルで、データ拡張技術は新しい言語に容易に適用できます。 我々はアブレーション研究を行い,強化技術と3つの訓練ステップがしばしば役に立つが,時には否定的な効果があることを示した。

We present the BME submission for the SIGMORPHON 2021 Task 0 Part 1, Generalization Across Typologically Diverse Languages shared task. We use an LSTM encoder-decoder model with three step training that is first trained on all languages, then fine-tuned on each language families and finally finetuned on individual languages. We use a different type of data augmentation technique in the first two steps. Our system outperformed the only other submission. Although it remains worse than the Transformer baseline released by the organizers, our model is simpler and our data augmentation techniques are easily applicable to new languages. We perform ablation studies and show that the augmentation techniques and the three training steps often help but sometimes have a negative effect.
翻訳日:2021-09-17 04:13:48 公開日:2021-09-14
# (参考訳) HeMI: 異種グラフのマルチビュー埋め込み [全文訳有]

HeMI: Multi-view Embedding in Heterogeneous Graphs ( http://arxiv.org/abs/2109.07008v1 )

ライセンス: CC BY 4.0
Costas Mavromatis, George Karypis(参考訳) 多くの実世界のグラフは異なる種類のノードとノード間の関係を含み、本質的に異質である。 ヘテロジニアスグラフ(HG)の表現学習は、そのようなグラフの豊富な構造と意味を低次元空間に埋め込み、ノード分類、ノードクラスタリング、リンク予測などの様々なデータマイニングタスクを促進する。 本稿では,HGの構造的セマンティクス(メタパス)間の知識交換と発見に頼って,HG表現を学習する自己教師型手法を提案する。 具体的には、メタパス表現の相互情報の最大化により、メタパス情報融合とコンセンサスを促進し、グローバルな共有セマンティクスの符号化を保証する。 ノード分類,ノードクラスタリング,リンク予測タスクに関する広範な実験により,提案手法は,全タスクに対して1%,最大10%の自己スーパービジョンを達成し,競合手法を改善した。

Many real-world graphs involve different types of nodes and relations between nodes, being heterogeneous by nature. The representation learning of heterogeneous graphs (HGs) embeds the rich structure and semantics of such graphs into a low-dimensional space and facilitates various data mining tasks, such as node classification, node clustering, and link prediction. In this paper, we propose a self-supervised method that learns HG representations by relying on knowledge exchange and discovery among different HG structural semantics (meta-paths). Specifically, by maximizing the mutual information of meta-path representations, we promote meta-path information fusion and consensus, and ensure that globally shared semantics are encoded. By extensive experiments on node classification, node clustering, and link prediction tasks, we show that the proposed self-supervision both outperforms and improves competing methods by 1% and up to 10% for all tasks.
翻訳日:2021-09-17 04:06:44 公開日:2021-09-14
# (参考訳) TESSのステラーフレアを用いた主系列の自己組織的臨界度試験 [全文訳有]

Testing Self-Organized Criticality Across the Main Sequence using Stellar Flares from TESS ( http://arxiv.org/abs/2109.07011v1 )

ライセンス: CC BY 4.0
Adina D. Feinstein, Darryl Z. Seligman, Maximilian N. G\"unther, Fred C. Adams(参考訳) 恒星は爆発的なフレアを発生させ、これはコロナ磁場配置に蓄えられたエネルギーの放出によって駆動されると考えられている。 太陽フレアは、自己組織化臨界系の典型的なエネルギー分布を示すことが示されている。 この研究は、NASAのTESSミッションによって得られたデータに新しいフレア検出技術を適用し、スペクトルタイプを越えて$\sim10^6$のフレアイベントを特定する。 以上の結果から,自己組織的臨界状態における磁場のトポロジーを維持する磁気再結合現象は,恒星コロナの中で普遍的であることが示唆された。

Stars produce explosive flares, which are believed to be powered by the release of energy stored in coronal magnetic field configurations. It has been shown that solar flares exhibit energy distributions typical of self-organized critical systems. This study applies a novel flare detection technique to data obtained by NASA's TESS mission and identifies $\sim10^6$ flaring events on $\sim10^5$ stars across spectral types. Our results suggest that magnetic reconnection events that maintain the topology of the magnetic field in a self-organized critical state are ubiquitous among stellar coronae.
翻訳日:2021-09-17 03:48:45 公開日:2021-09-14
# (参考訳) クラウドソースの予測を集約する鍵は、書面の正当性にある [全文訳有]

Written Justifications are Key to Aggregate Crowdsourced Forecasts ( http://arxiv.org/abs/2109.07017v1 )

ライセンス: CC BY 4.0
Saketh Kotamraju and Eduardo Blanco(参考訳) 本稿では,クラウドソースによる予測の集約が,予測者が提示した正当化書をモデル化することのメリットを実証する。 私たちの実験では、多数票と重み付け投票のベースラインは競争力があり、書面による正当化は、前四半期を除いて、その人生を通じて質問を呼び出すことに有益であることを示している。 また, 正当化の信頼性を損なう特性に光を当てる誤差解析を行う。

This paper demonstrates that aggregating crowdsourced forecasts benefits from modeling the written justifications provided by forecasters. Our experiments show that the majority and weighted vote baselines are competitive, and that the written justifications are beneficial to call a question throughout its life except in the last quarter. We also conduct an error analysis shedding light into the characteristics that make a justification unreliable.
翻訳日:2021-09-17 03:31:22 公開日:2021-09-14
# 人間のファクト・チェッカーを補助する: 文書中のすべてのファクト・チェッカーを検知する

Assisting the Human Fact-Checkers: Detecting All Previously Fact-Checked Claims in a Document ( http://arxiv.org/abs/2109.07410v1 )

ライセンス: Link先を確認
Shaden Shaar, Firoj Alam, Giovanni Da San Martino, Preslav Nakov(参考訳) オンライン上の偽の主張が最近急増していることを考えると、手動による事実確認の努力は多い。 これは非常に時間がかかるため、人間のファクトチェッカーはそれらをサポートし、より効率的にするツールの恩恵を受けることができる。 ここでは,このようなサポートを提供するシステムの構築に注力する。 入力文書が与えられた場合、(あるデータベースから)以前に事実チェックされたクレームによって検証可能なクレームを含むすべての文を検出することを目的としている。 出力は、文書文の再ランクリストであり、検証可能なものは、対応する証拠とともに、可能な限り上位にランクされる。 クレーム検索を扱った以前の研究とは異なり、ここではドキュメントレベルの視点を取ります。 タスクに手作業でアノテートしたデータセットを作成し,適切な評価手法を提案する。 さらに、学習からランクへのアプローチを実験し、いくつかの強力なベースライン上で大きなパフォーマンス向上を達成する。 本研究は,テキストの類似性とスタンスをモデル化することの重要性を実証するとともに,検索済みの事実確認クレームの妥当性も考慮した。 この研究は、ファクトチェック、ジャーナリスト、メディア、規制当局にとって興味深いものだと考えています。

Given the recent proliferation of false claims online, there has been a lot of manual fact-checking effort. As this is very time-consuming, human fact-checkers can benefit from tools that can support them and make them more efficient. Here, we focus on building a system that could provide such support. Given an input document, it aims to detect all sentences that contain a claim that can be verified by some previously fact-checked claims (from a given database). The output is a re-ranked list of the document sentences, so that those that can be verified are ranked as high as possible, together with corresponding evidence. Unlike previous work, which has looked into claim retrieval, here we take a document-level perspective. We create a new manually annotated dataset for the task, and we propose suitable evaluation measures. We further experiment with a learning-to-rank approach, achieving sizable performance gains over several strong baselines. Our analysis demonstrates the importance of modeling text similarity and stance, while also taking into account the veracity of the retrieved previously fact-checked claims. We believe that this research would be of interest to fact-checkers, journalists, media, and regulatory authorities.
翻訳日:2021-09-16 15:21:10 公開日:2021-09-14
# 幹細胞仮説:トランスフォーマーエンコーダを用いたマルチタスク学習の背後にあるジレンマ

The Stem Cell Hypothesis: Dilemma behind Multi-Task Learning with Transformer Encoders ( http://arxiv.org/abs/2109.06939v1 )

ライセンス: Link先を確認
Han He and Jinho D. Choi(参考訳) トランスフォーマーエンコーダ(mtl)を用いたマルチタスク学習は、密接な関連タスクのパフォーマンスを精度と効率の両方で向上させる強力な技術として登場したが、自然に異なるタスクでも機能するかどうかという疑問は残る。 まず, POS, NER, DEP, CON, SRLの5つのNLPタスクに対してMTLの結果を提示し, 単一タスク学習におけるその欠如について述べる。 次に,mtlにおいて,注意ヘッドの特定セットが他のタスクによって主張されることを示すために,広範囲なプルーニング分析を行い,そのヘッドを自己目的のために微調整するために互いに干渉することを示す。 そこで本研究では,これらの課題を十分に組み込むために,協調的に訓練できない多くのタスクにおいて,自然に有能な注意ヘッドの存在を明らかにするための幹細胞仮説を提案する。 最後に,我々の仮説を正当化する新しいパラメータフリープローブを設計し,ラベル解析により5つのタスク間で注目ヘッドがどのように変換されるかを示す。

Multi-task learning with transformer encoders (MTL) has emerged as a powerful technique to improve performance on closely-related tasks for both accuracy and efficiency while a question still remains whether or not it would perform as well on tasks that are distinct in nature. We first present MTL results on five NLP tasks, POS, NER, DEP, CON, and SRL, and depict its deficiency over single-task learning. We then conduct an extensive pruning analysis to show that a certain set of attention heads get claimed by most tasks during MTL, who interfere with one another to fine-tune those heads for their own objectives. Based on this finding, we propose the Stem Cell Hypothesis to reveal the existence of attention heads naturally talented for many tasks that cannot be jointly trained to create adequate embeddings for all of those tasks. Finally, we design novel parameter-free probes to justify our hypothesis and demonstrate how attention heads are transformed across the five tasks during MTL through label analysis.
翻訳日:2021-09-16 15:20:50 公開日:2021-09-14
# 画像分類における大きなコントラスト変化の前で頑健なトレーニング可能なモノジェニックConvNet層

A trainable monogenic ConvNet layer robust in front of large contrast changes in image classification ( http://arxiv.org/abs/2109.06926v1 )

ライセンス: Link先を確認
E. Ulises Moya-S\'anchez, Sebasti\'a Xambo-Descamps, Abraham S\'anchez, Sebasti\'an Salazar-Colores and Ulises Cort\'es(参考訳) 畳み込みニューラルネットワーク(ConvNet)は現在,画像分類タスクにおいて顕著な性能を発揮する。 しかし、現在のConvNetsは、コントラストや照明の変化に対する差異のような哺乳類の視覚システムの能力を保証できない。 照明やコントラストのバリエーションを克服するいくつかのアイデアは、通常は手動で調整しなければならず、他のタイプのデータ劣化テストで失敗する傾向がある。 この文脈では, v1視覚野で検出されたパターンに類似した低レベルな幾何学的特徴(線, エッジ, 方向)を検出する, 新しいバイオインスパイア{entry}層であるm6を提案する。 この新しいトレーニング可能なレイヤは、コントラストのバリエーションが大きい場合でも、画像の分類に対処できる。 この振る舞いの説明は、四元数を用いて3次元空間の各ピクセル値を表す一元的信号幾何(英語版)であり、ネットワークに説明可能性の度合いを与える。 m6を従来の畳み込み層(c)と決定論的四元数局所相層(q9)と比較する。 実験的なセットアップ {is designed to evaluation the robustness} of our m6 enriched convnet model には、3つのアーキテクチャ、4つのデータセット、3種類のコントラスト劣化(一様ではないhaze分解を含む)が含まれています。 数値的な結果から、m6 を持つモデルが最も頑健であることが判明した。 これはCモデルの大幅な向上であり、通常、最大劣化の場合を除いて、同じトレーニングとテスト劣化を使用する場合にのみ、合理的に優れた性能を持つ。 さらに、構造類似度指数測定(SSIM)を用いて、M6特徴写像の任意のコントラスト劣化下でのロバスト性効果を分析し、説明する。

Convolutional Neural Networks (ConvNets) at present achieve remarkable performance in image classification tasks. However, current ConvNets cannot guarantee the capabilities of the mammalian visual systems such as invariance to contrast and illumination changes. Some ideas to overcome the illumination and contrast variations usually have to be tuned manually and tend to fail when tested with other types of data degradation. In this context, we present a new bio-inspired {entry} layer, M6, which detects low-level geometric features (lines, edges, and orientations) which are similar to patterns detected by the V1 visual cortex. This new trainable layer is capable of coping with image classification even with large contrast variations. The explanation for this behavior is the monogenic signal geometry, which represents each pixel value in a 3D space using quaternions, a fact that confers a degree of explainability to the networks. We compare M6 with a conventional convolutional layer (C) and a deterministic quaternion local phase layer (Q9). The experimental setup {is designed to evaluate the robustness} of our M6 enriched ConvNet model and includes three architectures, four datasets, three types of contrast degradation (including non-uniform haze degradations). The numerical results reveal that the models with M6 are the most robust in front of any kind of contrast variations. This amounts to a significant enhancement of the C models, which usually have reasonably good performance only when the same training and test degradation are used, except for the case of maximum degradation. Moreover, the Structural Similarity Index Measure (SSIM) is used to analyze and explain the robustness effect of the M6 feature maps under any kind of contrast degradations.
翻訳日:2021-09-16 15:18:54 公開日:2021-09-14
# マルチホップによる正確な簡易モデルの構築

Building Accurate Simple Models with Multihop ( http://arxiv.org/abs/2109.06961v1 )

ライセンス: Link先を確認
Amit Dhurandhar and Tejaswini Pedapati(参考訳) 複雑なハイパフォーマンスモデルから、そのパフォーマンスを高めるために、よりシンプルで低パフォーマンスなモデルへの知識伝達は、説明可能な人工知能、モデル圧縮、堅牢なモデル構築、小さなデータからの学習といった重要な問題に応用されることから、ここ数年で大きな関心を集めてきた。 この問題に対する既知のアプローチ(知識蒸留、モデル圧縮、プロフウェイトなど)は、通常、複雑なモデルから選択された単純なモデルへの情報を直接、単純なモデルが訓練されたターゲットまたはリウェイトなトレーニング例を変更するスキームを通して伝達する。 本稿では,複雑度を小さくする中間モデルの列を動的に選択・/または構築することにより,複雑なモデルから単純なモデルに情報を転送するメタアプローチを提案する。 提案手法は, 前述した手法のいずれかを用いて連続モデル間で情報を伝達し, 1ホップ方式で動作させることで, これらの手法を一般化することができる。 実データ実験では、1-hop上で異なるモデルの選択に対して、平均で2-%以上、特定の場合で最大8-%の一貫したゲインが得られることが観察された。 また,マルチホップアプローチが従来の1ホップアプローチよりも有益である可能性のある条件を実証的に分析し,他の興味深い知見を報告する。 我々の知る限りでは、これは単一のハイパフォーマンスな複雑なモデルに与えられた知識伝達を行うためのマルチホップアプローチを提案する最初の作品であり、我々の意見では重要な方法論的貢献である。

Knowledge transfer from a complex high performing model to a simpler and potentially low performing one in order to enhance its performance has been of great interest over the last few years as it finds applications in important problems such as explainable artificial intelligence, model compression, robust model building and learning from small data. Known approaches to this problem (viz. Knowledge Distillation, Model compression, ProfWeight, etc.) typically transfer information directly (i.e. in a single/one hop) from the complex model to the chosen simple model through schemes that modify the target or reweight training examples on which the simple model is trained. In this paper, we propose a meta-approach where we transfer information from the complex model to the simple model by dynamically selecting and/or constructing a sequence of intermediate models of decreasing complexity that are less intricate than the original complex model. Our approach can transfer information between consecutive models in the sequence using any of the previously mentioned approaches as well as work in 1-hop fashion, thus generalizing these approaches. In the experiments on real data, we observe that we get consistent gains for different choices of models over 1-hop, which on average is more than 2\% and reaches up to 8\% in a particular case. We also empirically analyze conditions under which the multi-hop approach is likely to be beneficial over the traditional 1-hop approach, and report other interesting insights. To the best of our knowledge, this is the first work that proposes such a multi-hop approach to perform knowledge transfer given a single high performing complex model, making it in our opinion, an important methodological contribution.
翻訳日:2021-09-16 15:14:05 公開日:2021-09-14
# ターゲットクロスバリデーション

Targeted Cross-Validation ( http://arxiv.org/abs/2109.06949v1 )

ライセンス: Link先を確認
Jiawei Zhang, Jie Ding, Yuhong Yang(参考訳) 多くのアプリケーションでは、完全なデータセットにアクセスできますが、予測変数の特定の領域の予測のみに関心があります。 標準的なアプローチは、候補メソッドの集合からグローバルに最適なモデリング方法を見つけることである。 しかし、実際には一つの候補法が他の方法よりも一様に優れていることは稀である。 このシナリオに対する自然なアプローチは、地域固有の関心を反映してパフォーマンスアセスメントの重み付けされた$l_2$損失を適用することである。 一般の重み付き$L_2$損失に基づいてモデルやプロシージャを選択するためのターゲットクロスバリデーション(TCV)を提案する。 重み付けされた$L_2$損失の下で、TCVは最高のパフォーマンス候補を選択することに一貫性があることが示される。 グローバルCVに対するTCVの利用と潜在的な優位性、あるいは局所領域をモデル化するためにローカルデータのみを使用するアプローチを示すために実験的研究が用いられている。 cvに関する以前の調査は、サンプルサイズが十分大きい場合、2人の候補者のランクが同じであるという条件に依存している。 しかし、データ生成プロセスの変更や高度適応モデリング手法をセットアップした多くのアプリケーションでは、サンプルサイズが異なるため、相対的な性能は静的ではない。 固定データ生成プロセスであっても、2つのメソッドのランク付けが無限に何度も切り替わる可能性がある。 本研究では,サンプルサイズが変化するにつれて最適な候補が切り替えられるようにすることで,選択一貫性の概念を広げ,tcvの一貫性を確立する。 この柔軟なフレームワークは、モデリング手順の相対的なパフォーマンスが動的である高次元および複雑な機械学習シナリオに適用することができる。

In many applications, we have access to the complete dataset but are only interested in the prediction of a particular region of predictor variables. A standard approach is to find the globally best modeling method from a set of candidate methods. However, it is perhaps rare in reality that one candidate method is uniformly better than the others. A natural approach for this scenario is to apply a weighted $L_2$ loss in performance assessment to reflect the region-specific interest. We propose a targeted cross-validation (TCV) to select models or procedures based on a general weighted $L_2$ loss. We show that the TCV is consistent in selecting the best performing candidate under the weighted $L_2$ loss. Experimental studies are used to demonstrate the use of TCV and its potential advantage over the global CV or the approach of using only local data for modeling a local region. Previous investigations on CV have relied on the condition that when the sample size is large enough, the ranking of two candidates stays the same. However, in many applications with the setup of changing data-generating processes or highly adaptive modeling methods, the relative performance of the methods is not static as the sample size varies. Even with a fixed data-generating process, it is possible that the ranking of two methods switches infinitely many times. In this work, we broaden the concept of the selection consistency by allowing the best candidate to switch as the sample size varies, and then establish the consistency of the TCV. This flexible framework can be applied to high-dimensional and complex machine learning scenarios where the relative performances of modeling procedures are dynamic.
翻訳日:2021-09-16 15:13:17 公開日:2021-09-14
# トランスフォーマーネットワークを用いた転写物からの認知症の特定

Explainable Identification of Dementia from Transcripts using Transformer Networks ( http://arxiv.org/abs/2109.06980v1 )

ライセンス: Link先を確認
Loukas Ilias, Dimitris Askounis(参考訳) アルツハイマー病(英語: Alzheimer's disease、AD)は、認知症の主要な原因であり、記憶喪失を伴い、時間通りに診断されない場合、日常生活に深刻な結果をもたらす可能性がある。 変圧器ベースのネットワークを悪用した作品はほとんどなく、精度は高いものの、モデル解釈の面ではほとんど行われていない。 また、ミニメンタル状態試験(mmse)のスコアは認知症診断と不可分に結びついているが、研究は認知症診断の課題と、mmseスコアの予測の課題に2つの異なるタスクとして直面している。 これらの制限に対処するために、BERTは85.56%の精度で最高の精度を達成している。 同時に,シャイムネットワークに基づくAD患者を81.18%の精度で検出するための解釈可能な手法を提案する。 次に,2つのマルチタスク学習モデルを紹介し,主課題は認知症(バイナリ分類)の同定であり,補助課題は認知症の重症度(マルチクラス分類)の同定に対応する。 マルチタスク学習環境におけるAD患者検出の精度は84.99%である。 最後に,AD患者と非AD患者が使用する言語パターンを識別する新しい手法として,テキスト統計,語彙的特異性,単語使用量,詳細な言語分析による相関,説明可能性技術(LIME)を提案する。 発見はAD患者と非AD患者の言語に有意な差が認められた。

Alzheimer's disease (AD) is the main cause of dementia which is accompanied by loss of memory and may lead to severe consequences in peoples' everyday life if not diagnosed on time. Very few works have exploited transformer-based networks and despite the high accuracy achieved, little work has been done in terms of model interpretability. In addition, although Mini-Mental State Exam (MMSE) scores are inextricably linked with the identification of dementia, research works face the task of dementia identification and the task of the prediction of MMSE scores as two separate tasks. In order to address these limitations, we employ several transformer-based models, with BERT achieving the highest accuracy accounting for 85.56%. Concurrently, we propose an interpretable method to detect AD patients based on siamese networks reaching accuracy up to 81.18%. Next, we introduce two multi-task learning models, where the main task refers to the identification of dementia (binary classification), while the auxiliary one corresponds to the identification of the severity of dementia (multiclass classification). Our model obtains accuracy equal to 84.99% on the detection of AD patients in the multi-task learning setting. Finally, we present some new methods to identify the linguistic patterns used by AD patients and non-AD ones, including text statistics, vocabulary uniqueness, word usage, correlations via a detailed linguistic analysis, and explainability techniques (LIME). Findings indicate significant differences in language between AD and non-AD patients.
翻訳日:2021-09-16 15:12:02 公開日:2021-09-14
# 拡散ウェーブレットに基づくノード特徴分布解析によるグラフ埋め込み

Graph Embedding via Diffusion-Wavelets-B ased Node Feature Distribution Characterization ( http://arxiv.org/abs/2109.07016v1 )

ライセンス: Link先を確認
Lili Wang, Chenghan Huang, Weicheng Ma, Xinyuan Cao, Soroush Vosoughi(参考訳) 近年,グラフデータの表現学習手法の開発が進んでいる。 しかし、これらの手法のほとんどは、様々なスケール(顕微鏡、メソスコピック、マクロノード埋め込みなど)でのノードレベルの表現学習に焦点を当てている。 比較して、グラフ全体の表現学習の方法は、現在比較的少ない。 本稿では,新しい教師なし全グラフ埋め込み手法を提案する。 本手法はスペクトルグラフウェーブレットを用いて,各ノード間のkホップ部分グラフの位相的類似性を捉え,グラフ全体の埋め込みを学習する。 4つの実世界のデータセット上で12の既知のベースラインに対して評価を行い,本手法がすべての実験で最高の性能を達成できることを示す。

Recent years have seen a rise in the development of representational learning methods for graph data. Most of these methods, however, focus on node-level representation learning at various scales (e.g., microscopic, mesoscopic, and macroscopic node embedding). In comparison, methods for representation learning on whole graphs are currently relatively sparse. In this paper, we propose a novel unsupervised whole graph embedding method. Our method uses spectral graph wavelets to capture topological similarities on each k-hop sub-graph between nodes and uses them to learn embeddings for the whole graph. We evaluate our method against 12 well-known baselines on 4 real-world datasets and show that our method achieves the best performance across all experiments, outperforming the current state-of-the-art by a considerable margin.
翻訳日:2021-09-16 15:11:37 公開日:2021-09-14
# 応力汎化を用いたノード構造的役割アイデンティティの埋め込み

Embedding Node Structural Role Identity Using Stress Majorization ( http://arxiv.org/abs/2109.07023v1 )

ライセンス: Link先を確認
Lili Wang, Chenghan Huang, Weicheng Ma, Ying Lu, Soroush Vosoughi(参考訳) ネットワーク内のノードは1つ以上の関数を持ち、システム内での役割を決定する。 ノードの局所的コンテキストをキャプチャする局所的近接とは対照的に、ロールアイデンティティは、ノードがグループの中心である、あるいは2つのグループ間のブリッジであるようなネットワークで機能する"ロール"をキャプチャする。 つまり、ネットワーク内のはるかに離れたノードは、同様の構造的役割を持つことができる。 近年,ネットワークにノードの役割を埋め込む手法が研究されている。 しかし、これらの手法はすべて構造同値の近似的あるいは間接的モデリングに依存している。 本稿では,ネットワーク内の高次元の役割のアイデンティティを直接(近似や間接モデリングなしで)低次元埋め込み空間に変換する,ストレスの偏化を用いた新しいフレキシブルなフレームワークを提案する。 また,本手法は構造的類似性の定義に依存しないため,フレキシブルである。 3つの実世界と5つの合成ネットワークを用いて,ノード分類,クラスタリング,可視化のタスクについて評価を行った。 本研究では,従来のノードロール表現学習手法よりも優れた結果が得られることを示す。

Nodes in networks may have one or more functions that determine their role in the system. As opposed to local proximity, which captures the local context of nodes, the role identity captures the functional "role" that nodes play in a network, such as being the center of a group, or the bridge between two groups. This means that nodes far apart in a network can have similar structural role identities. Several recent works have explored methods for embedding the roles of nodes in networks. However, these methods all rely on either approximating or indirect modeling of structural equivalence. In this paper, we present a novel and flexible framework using stress majorization, to transform the high-dimensional role identities in networks directly (without approximation or indirect modeling) to a low-dimensional embedding space. Our method is also flexible, in that it does not rely on specific structural similarity definitions. We evaluated our method on the tasks of node classification, clustering, and visualization, using three real-world and five synthetic networks. Our experiments show that our framework achieves superior results than existing methods in learning node role representations.
翻訳日:2021-09-16 15:11:24 公開日:2021-09-14
# ニューラルダイアログモデルによる問題の自動抽出

Automatically Exposing Problems with Neural Dialog Models ( http://arxiv.org/abs/2109.06950v1 )

ライセンス: Link先を確認
Dian Yu and Kenji Sagae(参考訳) ニューラルダイアログモデルは、安全で一貫性のない応答を生成するなどの問題に苦しむことが知られている。 これらの問題は重要かつ普及しているが、ほとんどは相互作用を通じてモデルデザイナーによって手動で識別される。 最近、一部の研究は、群集にボットを駆使して問題を引き起こすよう指示している。 しかし、人間はヘイトスピーチのような表面的な手がかりを活用し、体系的な問題が潜んでいる。 本稿では,ダイアログモデルを自動的に起動して問題のある応答を生成する強化学習法を提案する。 本手法は,最先端のダイアログモデルにおける安全性と矛盾の顕在化における効果を示す。

Neural dialog models are known to suffer from problems such as generating unsafe and inconsistent responses. Even though these problems are crucial and prevalent, they are mostly manually identified by model designers through interactions. Recently, some research instructs crowdworkers to goad the bots into triggering such problems. However, humans leverage superficial clues such as hate speech, while leaving systematic problems undercover. In this paper, we propose two methods including reinforcement learning to automatically trigger a dialog model into generating problematic responses. We show the effect of our methods in exposing safety and contradiction issues with state-of-the-art dialog models.
翻訳日:2021-09-16 15:08:45 公開日:2021-09-14
# より効率的な動的プログラムの探索

Searching for More Efficient Dynamic Programs ( http://arxiv.org/abs/2109.06966v1 )

ライセンス: Link先を確認
Tim Vieira and Ryan Cotterell and Jason Eisner(参考訳) 人間言語の計算モデルは、しばしば組合せ問題を伴う。 例えば、確率論的解析器は指数関数的に多くの木を疎外して予測を行う。 このような問題のアルゴリズムは、しばしば動的プログラミングを採用し、必ずしも一意ではない。 最適な漸近ランタイムを持つものを見つけることは直観的で、時間がかかり、エラーを起こしやすい。 私たちの仕事は、この手間のかかるプロセスを自動化することを目指している。 最初の正しい宣言型プログラムが与えられたら、できるだけ実行時間を改善するために、セマンティックス保存変換のシーケンスを探索する。 この目的のために,プログラム変換のセット,変換されたプログラムの効率を評価するための簡単なメトリック,このメトリックを改善するためのヒューリスティック探索手順について述べる。 実際には、自動検索は、人間のプログラマが行うメンタル検索のように、最初のプログラムを大幅に改善できることを示している。 実験により,NLP文献に記述される多くの一般的なスピードアップが,我々のシステムによって自動的に検出されたことを示す。

Computational models of human language often involve combinatorial problems. For instance, a probabilistic parser may marginalize over exponentially many trees to make predictions. Algorithms for such problems often employ dynamic programming and are not always unique. Finding one with optimal asymptotic runtime can be unintuitive, time-consuming, and error-prone. Our work aims to automate this laborious process. Given an initial correct declarative program, we search for a sequence of semantics-preserving transformations to improve its running time as much as possible. To this end, we describe a set of program transformations, a simple metric for assessing the efficiency of a transformed program, and a heuristic search procedure to improve this metric. We show that in practice, automated search -- like the mental search performed by human programmers -- can find substantial improvements to the initial program. Empirically, we show that many common speed-ups described in the NLP literature could have been discovered automatically by our system.
翻訳日:2021-09-16 15:08:36 公開日:2021-09-14
# この質問は答えられるだろうか? 効率的な質問回答のための回答モデル蒸留による質問フィルタリング

Will this Question be Answered? Question Filtering via Answer Model Distillation for Efficient Question Answering ( http://arxiv.org/abs/2109.07009v1 )

ライセンス: Link先を確認
Siddhant Garg, Alessandro Moschitti(参考訳) 本稿では,質問応答(QA)システムの効率向上に向けた新しいアプローチを提案する。 最新のQAシステムの回答信頼性スコアは、入力された質問テキストのみを使用してモデルによってうまく近似することができる。 これにより、応答信頼度スコアがシステムしきい値よりも低いため、システムによって応答されない質問の事前フィルタリングが可能になる。 具体的には,トランスベース応答モデルを蒸留することにより,トランスベースの質問モデルを学ぶ。 一般的な3つのQAデータセットと1つの産業用QAベンチマーク実験により、ターゲットQAシステムの精度/リコール曲線をよく近似する質問モデルの能力を実証した。 これらの問題モデルは、フィルタとして使用される場合、QAシステムのより低い計算コストを、例えばリコールの削減のために効果的にトレードオフすることができる。

In this paper we propose a novel approach towards improving the efficiency of Question Answering (QA) systems by filtering out questions that will not be answered by them. This is based on an interesting new finding: the answer confidence scores of state-of-the-art QA systems can be approximated well by models solely using the input question text. This enables preemptive filtering of questions that are not answered by the system due to their answer confidence scores being lower than the system threshold. Specifically, we learn Transformer-based question models by distilling Transformer-based answering models. Our experiments on three popular QA datasets and one industrial QA benchmark demonstrate the ability of our question models to approximate the Precision/Recall curves of the target QA system well. These question models, when used as filters, can effectively trade off lower computation cost of QA systems for lower Recall, e.g., reducing computation by ~60%, while only losing ~3-4% of Recall.
翻訳日:2021-09-16 15:08:23 公開日:2021-09-14
# 変圧器の統語規則学習における周波数効果

Frequency Effects on Syntactic Rule Learning in Transformers ( http://arxiv.org/abs/2109.07020v1 )

ライセンス: Link先を確認
Jason Wei, Dan Garrette, Tal Linzen, and Ellie Pavlick(参考訳) 事前学習された言語モデルは、記号推論を必要とする様々な言語タスクでうまく機能し、そのようなモデルが暗黙的に抽象的なシンボルと規則を表現するかどうかという疑問を提起する。 本稿では, BERT の英語主観的合意におけるパフォーマンスのケーススタディを用いて, この問題を考察する。 以前の作業とは異なり、BERTの複数のインスタンスをスクラッチからトレーニングすることで、事前トレーニング時に一連の制御された介入を実行できます。 BERTはトレーニングで発生しない主語対に対してよく一般化し,規則に守られた行動の程度を示唆する。 また,動詞形態の絶対周波数と交互の反転に対する周波数の両方が,bertが推論時に行う予測に因果的に関係していることを示す実験によって,単語の頻度に大きく影響していることがわかった。 これらの周波数効果のより深い分析により、バートの振る舞いは、一般的にはsva規則を正しく適用するが、強いトレーニング優先を克服し、不適切な語彙項目に対する合意の特徴(通常対複数)を推定するのに苦労しているシステムと一致していることが分かる。

Pre-trained language models perform well on a variety of linguistic tasks that require symbolic reasoning, raising the question of whether such models implicitly represent abstract symbols and rules. We investigate this question using the case study of BERT's performance on English subject-verb agreement. Unlike prior work, we train multiple instances of BERT from scratch, allowing us to perform a series of controlled interventions at pre-training time. We show that BERT often generalizes well to subject-verb pairs that never occurred in training, suggesting a degree of rule-governed behavior. We also find, however, that performance is heavily influenced by word frequency, with experiments showing that both the absolute frequency of a verb form, as well as the frequency relative to the alternate inflection, are causally implicated in the predictions BERT makes at inference time. Closer analysis of these frequency effects reveals that BERT's behavior is consistent with a system that correctly applies the SVA rule in general but struggles to overcome strong training priors and to estimate agreement features (singular vs. plural) on infrequent lexical items.
翻訳日:2021-09-16 15:08:09 公開日:2021-09-14
# 低分解能検出のためのマルチスケールアライメント蒸留

Multi-Scale Aligned Distillation for Low-Resolution Detection ( http://arxiv.org/abs/2109.06875v1 )

ライセンス: Link先を確認
Lu Qi, Jason Kuen, Jiuxiang Gu, Zhe Lin, Yi Wang, Yukang Chen, Yanwei Li, Jiaya Jia(参考訳) インスタンスレベルの検出タスク(オブジェクト検出など)では、入力解像度の削減がランタイム効率を改善するための簡単な選択肢である。 しかし、このオプションは伝統的に検出性能を損なう。 本稿では,高分解能モデルや多分解能モデルから知識を抽出することで,低分解能モデルの性能向上に焦点をあてる。 まず、異なる入力解像度で機能する教師や学生ネットワークに知識蒸留(KD)を適用することの課題を特定する。 そこで本研究では,特徴ピラミッドの位置をシフトさせることで,入力解像度の異なるモデル間で特徴マップを空間的に整列させ,その知識を低解像度の学生に割くことができるマルチスケール教師を訓練するためのアライメントマルチスケールトレーニングを導入する。 さらに,教師のマルチレゾリューション機能を動的に融合させ,生徒の指導力を高めるための機能レベル融合を提案する。 いくつかのインスタンスレベルの検出タスクとデータセットにおいて、このアプローチで訓練された低分解能モデルは、従来のマルチスケールトレーニングで訓練された高分解能モデルと競合する。 私たちのコードはhttps://github.com/d vlab-research/MSAD.c omで公開されています。

In instance-level detection tasks (e.g., object detection), reducing input resolution is an easy option to improve runtime efficiency. However, this option traditionally hurts the detection performance much. This paper focuses on boosting the performance of low-resolution models by distilling knowledge from a high- or multi-resolution model. We first identify the challenge of applying knowledge distillation (KD) to teacher and student networks that act on different input resolutions. To tackle it, we explore the idea of spatially aligning feature maps between models of varying input resolutions by shifting feature pyramid positions and introduce aligned multi-scale training to train a multi-scale teacher that can distill its knowledge to a low-resolution student. Further, we propose crossing feature-level fusion to dynamically fuse teacher's multi-resolution features to guide the student better. On several instance-level detection tasks and datasets, the low-resolution models trained via our approach perform competitively with high-resolution models trained via conventional multi-scale training, while outperforming the latter's low-resolution models by 2.1% to 3.6% in terms of mAP. Our code is made publicly available at https://github.com/d vlab-research/MSAD.
翻訳日:2021-09-16 15:03:02 公開日:2021-09-14
# 深部ニューラルネットワークによる描画画像と位置を用いたマルチモーダルハウンド分類

Multi-modal Wound Classification using Wound Image and Location by Deep Neural Network ( http://arxiv.org/abs/2109.06969v1 )

ライセンス: Link先を確認
D. M. Anisuzzaman, Yash Patel, Behrouz Rostami, Jeffrey Niezgoda, Sandeep Gopalakrishnan, and Zeyun Yu(参考訳) 創傷分類は創傷診断の必須ステップである。 効率的な分類器は、金銭的、時間的コストの少ない創種分類の専門家を支援し、最適な治療手順を決定するのに役立つ。 本研究では,創傷画像とそれに対応する位置を用いて,糖尿病,圧,外科的,静脈性潰瘍などの創傷画像を分類する深層ニューラルネットワークを用いたマルチモーダル分類法を開発した。 位置データを作成するためにボディマップも開発されており、傷の専門医が傷の場所をより効率的にタグ付けるのに役立つ。 画像と対応する位置情報を含む3つのデータセットは、創傷専門家の助けを借りて設計されている。 このマルチモーダルネットワークは、画像ベースおよび位置ベース分類器の出力を他の変更と結合して開発されている。 混合分類(背景と正常皮膚を含む)の最大精度は、異なる実験で77.33%から100%である。 傷種分類の最大精度(糖尿病、圧力、外科的、静脈のみを含む)は、異なる実験で72.95%から98.08%である。 提案するマルチモーダルネットワークは,従来の文献の成果に大きく改善されている。

Wound classification is an essential step of wound diagnosis. An efficient classifier can assist wound specialists in classifying wound types with less financial and time costs and help them decide an optimal treatment procedure. This study developed a deep neural network-based multi-modal classifier using wound images and their corresponding locations to categorize wound images into multiple classes, including diabetic, pressure, surgical, and venous ulcers. A body map is also developed to prepare the location data, which can help wound specialists tag wound locations more efficiently. Three datasets containing images and their corresponding location information are designed with the help of wound specialists. The multi-modal network is developed by concatenating the image-based and location-based classifier's outputs with some other modifications. The maximum accuracy on mixed-class classifications (containing background and normal skin) varies from 77.33% to 100% on different experiments. The maximum accuracy on wound-class classifications (containing only diabetic, pressure, surgical, and venous) varies from 72.95% to 98.08% on different experiments. The proposed multi-modal network also shows a significant improvement in results from the previous works of literature.
翻訳日:2021-09-16 15:02:37 公開日:2021-09-14
# ZFlow: 3Dプリミティブを備えたGated Outearance Flowベースのバーチャルトライオン

ZFlow: Gated Appearance Flow-based Virtual Try-on with 3D Priors ( http://arxiv.org/abs/2109.07001v1 )

ライセンス: Link先を確認
Ayush Chopra, Rishabh Jain, Mayur Hemani, Balaji Krishnamurthy(参考訳) イメージベースの仮想試行は、特定の衣服を身に着けたモデルの知覚的に説得力のあるイメージを合成することを含み、その膨大な実用性のために、重要な研究の関心を集めている。 最近の方法は2段階のプロセスを伴う。 一 模型に合致する衣服の反り 二 歪んだ衣服及びターゲットモデルのテクスチャ融合により、試着出力を生成すること。 問題は、衣服の非剛性や、モデルや衣服に関する幾何学的情報の欠如によって生じる。 しばしば細かな細部を不適切にレンダリングする。 本稿では, 階層フロー推定値のゲート集約と, ネットワークの様々な段階における構造的先行性の組み合わせにより, 幾何学的およびテクスチャ的整合性(ポーズ, 深度順応, 皮膚, ネックライン再生など)を緩和するエンド・ツー・エンドのフレームワークであるZFlowを提案する。 ZFlowは,画像品質の定量的ベンチマーク(PSNR,SSIM,FID)において,定性的に観察される最先端の結果を達成する。 本稿では,複数のデータセットに対する我々の貢献が与える影響を計測するための詳細なユーザ研究やアブレーション研究など,既存のソリューションと広範な比較を行う。

Image-based virtual try-on involves synthesizing perceptually convincing images of a model wearing a particular garment and has garnered significant research interest due to its immense practical applicability. Recent methods involve a two stage process: i) warping of the garment to align with the model ii) texture fusion of the warped garment and target model to generate the try-on output. Issues arise due to the non-rigid nature of garments and the lack of geometric information about the model or the garment. It often results in improper rendering of granular details. We propose ZFlow, an end-to-end framework, which seeks to alleviate these concerns regarding geometric and textural integrity (such as pose, depth-ordering, skin and neckline reproduction) through a combination of gated aggregation of hierarchical flow estimates termed Gated Appearance Flow, and dense structural priors at various stage of the network. ZFlow achieves state-of-the-art results as observed qualitatively, and on quantitative benchmarks of image quality (PSNR, SSIM, and FID). The paper presents extensive comparisons with other existing solutions including a detailed user study and ablation studies to gauge the effect of each of our contributions on multiple datasets.
翻訳日:2021-09-16 15:02:15 公開日:2021-09-14
# 多言語BERTの言語特異性と微調整の影響について

On the Language-specificity of Multilingual BERT and the Impact of Fine-tuning ( http://arxiv.org/abs/2109.06935v1 )

ライセンス: Link先を確認
Marc Tanti and Lonneke van der Plas and Claudia Borg and Albert Gatt(参考訳) 近年の研究では、多言語BERT (mBERT) が獲得した知識には、言語固有の知識と言語中立的な知識の2つの要素があることが示された。 本稿では,2つのタスク(POSタグ付けと自然言語推論)の微調整の文脈において,それらの関係を分析する。 可視化の結果、mBERTは微調整後に言語による表現をクラスタリングする能力を失うことが判明した。 しかし,グラデーションリバーサルと反復逆学習を用いた「未学習」言語固有表現のさらなる実験は,微調整の効果よりも言語非依存成分にさらなる改善を加えないことが示されている。 この結果から, 微調整のプロセスは, 限られた表現能力を再編成し, 言語固有の表現を犠牲にして, 言語に依存しない表現を強化することが示唆された。

Recent work has shown evidence that the knowledge acquired by multilingual BERT (mBERT) has two components: a language-specific and a language-neutral one. This paper analyses the relationship between them, in the context of fine-tuning on two tasks -- POS tagging and natural language inference -- which require the model to bring to bear different degrees of language-specific knowledge. Visualisations reveal that mBERT loses the ability to cluster representations by language after fine-tuning, a result that is supported by evidence from language identification experiments. However, further experiments on 'unlearning' language-specific representations using gradient reversal and iterative adversarial learning are shown not to add further improvement to the language-independent component over and above the effect of fine-tuning. The results presented here suggest that the process of fine-tuning causes a reorganisation of the model's limited representational capacity, enhancing language-independent representations at the expense of language-specific ones.
翻訳日:2021-09-16 14:57:06 公開日:2021-09-14
# DPMPC-Planner:動的障害物を伴う複雑な静的環境のためのリアルタイムUAV軌道計画フレームワーク

DPMPC-Planner: A real-time UAV trajectory planning framework for complex static environments with dynamic obstacles ( http://arxiv.org/abs/2109.07024v1 )

ライセンス: Link先を確認
Zhefan Xu, Di Deng, Yiping Dong, Kenji Shimada(参考訳) 安全なUAVナビゲーションは、複雑な環境構造、動的障害物、計測ノイズによる不確実性、予測不可能な移動障害物の挙動のために困難である。 最近の多くの研究は、占有マップやESDFマップのような高度なマッピングアルゴリズムを用いて、複雑な静的環境における安全なナビゲーションを実現するが、移動障害からのマッピング制限のため、これらの手法は動的環境を確実に扱えない。 そこで本稿では,複雑な静的環境と動的障害を考慮した安全なナビゲーションを実現するための軌道計画フレームワークを提案する。 動的障害を確実に処理するために,我々は環境表現を静的マッピングと動的オブジェクト表現に分割する。 本フレームワークは,提案する反復的回廊縮小アルゴリズムに基づいて,まず静的軌道を生成する。 そして、時間的目標追跡による反応確率制約モデル予測制御を適用し、不確実性のある動的障害を回避する。 シミュレーションの結果,様々な環境において,動的障害のある複雑な静的環境において安全にナビゲートできることを示す。

Safe UAV navigation is challenging due to the complex environment structures, dynamic obstacles, and uncertainties from measurement noises and unpredictable moving obstacle behaviors. Although plenty of recent works achieve safe navigation in complex static environments with sophisticated mapping algorithms, such as occupancy map and ESDF map, these methods cannot reliably handle dynamic environments due to the mapping limitation from moving obstacles. To address the limitation, this paper proposes a trajectory planning framework to achieve safe navigation considering complex static environments with dynamic obstacles. To reliably handle dynamic obstacles, we divide the environment representation into static mapping and dynamic object representation, which can be obtained from computer vision methods. Our framework first generates a static trajectory based on the proposed iterative corridor shrinking algorithm. Then, reactive chance-constrained model predictive control with temporal goal tracking is applied to avoid dynamic obstacles with uncertainties. The simulation results in various environments demonstrate the ability of our algorithm to navigate safely in complex static environments with dynamic obstacles.
翻訳日:2021-09-16 14:55:50 公開日:2021-09-14
# fairseq S^2: スケーラブルで統合可能な音声合成ツールキット

fairseq S^2: A Scalable and Integrable Speech Synthesis Toolkit ( http://arxiv.org/abs/2109.06912v1 )

ライセンス: Link先を確認
Changhan Wang, Wei-Ning Hsu, Yossi Adi, Adam Polyak, Ann Lee, Peng-Jen Chen, Jiatao Gu, Juan Pino(参考訳) 本稿では、音声合成のためのfairseq拡張であるfairseq S^2を提案する。 自動回帰(AR)および非AR音声合成モデルとその多話者モデルを実装した。 キュレーションデータが少ない音声合成モデルの訓練を可能にするために、多くの前処理ツールを構築し、その重要性を実証的に示す。 開発と分析のより早いイテレーションを容易にするために、一連の自動メトリクスが含まれている。 この拡張用に特別に追加された機能とは別に、 Fairseq S^2 は Fairseq が提供するスケーラビリティの恩恵も受けており、このフレームワークで提供される他の最先端システムと簡単に統合できる。 コード、ドキュメント、事前学習されたモデルはhttps://github.com/p ytorch/fairseq/tree/ master/examples/spee ch_ synthesisで入手できる。

This paper presents fairseq S^2, a fairseq extension for speech synthesis. We implement a number of autoregressive (AR) and non-AR text-to-speech models, and their multi-speaker variants. To enable training speech synthesis models with less curated data, a number of preprocessing tools are built and their importance is shown empirically. To facilitate faster iteration of development and analysis, a suite of automatic metrics is included. Apart from the features added specifically for this extension, fairseq S^2 also benefits from the scalability offered by fairseq and can be easily integrated with other state-of-the-art systems provided in this framework. The code, documentation, and pre-trained models are available at https://github.com/p ytorch/fairseq/tree/ master/examples/spee ch_synthesis.
翻訳日:2021-09-16 14:53:53 公開日:2021-09-14
# 非定型音声とアクセント音声に対するパラメータ効率のよいasr適応のための残差アダプタ

Residual Adapters for Parameter-Efficient ASR Adaptation to Atypical and Accented Speech ( http://arxiv.org/abs/2109.06952v1 )

ライセンス: Link先を確認
Katrin Tomanek, Vicky Zayats, Dirk Padfield, Kara Vaillancourt, Fadi Biadsy(参考訳) 自動音声認識(ASR)システムは、標準音声パターンを持つ話者に最適に最適化されることが多い。 残念なことに、これらのシステムは非定型音声と重アクセント音声でのテストでは性能が良くない。 これまでは、モデルの微調整によるパーソナライズがパフォーマンスを大幅に改善することが示されている。 しかし、スピーカー毎にそのような大きなモデルを維持するのはコストがかかり、スケールが難しい。 残差アダプタによってエンコーダ層に比較的少数の余分なパラメータを追加することで、モデルパラメータのわずかな部分(0.5%未満)を更新しながら、モデルの微調整と比較して、同様の適応性が得られることを示した。 我々はこれを2つの言語適応タスク(非定型およびアクセント付き音声)と2つの最先端のASRアーキテクチャで実証する。

Automatic Speech Recognition (ASR) systems are often optimized to work best for speakers with canonical speech patterns. Unfortunately, these systems perform poorly when tested on atypical speech and heavily accented speech. It has previously been shown that personalization through model fine-tuning substantially improves performance. However, maintaining such large models per speaker is costly and difficult to scale. We show that by adding a relatively small number of extra parameters to the encoder layers via so-called residual adapter, we can achieve similar adaptation gains compared to model fine-tuning, while only updating a tiny fraction (less than 0.5%) of the model parameters. We demonstrate this on two speech adaptation tasks (atypical and accented speech) and for two state-of-the-art ASR architectures.
翻訳日:2021-09-16 14:53:39 公開日:2021-09-14
# アジャイル、反脆弱、人工知能対応、指揮統制

Agile, Antifragile, Artificial-Intellige nce-Enabled, Command and Control ( http://arxiv.org/abs/2109.06874v1 )

ライセンス: Link先を確認
Jacob Simpson (1), Rudolph Oosthuizen (2), Sondoss El Sawah (1) and Hussein Abbass (1) ((1) University of New South Wales Canberra, (2) University of Pretoria)(参考訳) 人工知能(AI)は、多くの防衛軍にとって戦略的優先事項として、軍事指揮統制システム(C2)システムに急速に統合されつつある。 AIの実装の成功は、自動化によるC2アジリティの大きな飛躍を告げるものだ。 しかし、近い将来、AIが達成できることに現実的な期待が設定される必要がある。 本稿では、aiが脆弱な罠につながり、c2の機能をaiに委譲することでc2の脆弱さが高まり、壊滅的な戦略的失敗を招くと論じる。 これにより、この罠を避けるために、C2でAIの新しいフレームワークが要求される。 AI対応のC2システムの中核となる設計原則は、アジリティとともに反脆弱性だ、と我々は主張する。 この双対性はAgile, Antifragile, AI-Enabled Command and Control (A3IC2)と呼ばれている。 A3IC2システムは、C2意思決定サイクル中のフィードバックからの過度な補償を通じて、ショックやサプライズに直面する能力を継続的に改善する。 a3ic2システムは複雑な運用環境の中で生き残るだけでなく、必然的なショックとボラティリティの恩恵を受け、繁栄するでしょう。

Artificial Intelligence (AI) is rapidly becoming integrated into military Command and Control (C2) systems as a strategic priority for many defence forces. The successful implementation of AI is promising to herald a significant leap in C2 agility through automation. However, realistic expectations need to be set on what AI can achieve in the foreseeable future. This paper will argue that AI could lead to a fragility trap, whereby the delegation of C2 functions to an AI could increase the fragility of C2, resulting in catastrophic strategic failures. This calls for a new framework for AI in C2 to avoid this trap. We will argue that antifragility along with agility should form the core design principles for AI-enabled C2 systems. This duality is termed Agile, Antifragile, AI-Enabled Command and Control (A3IC2). An A3IC2 system continuously improves its capacity to perform in the face of shocks and surprises through overcompensation from feedback during the C2 decision-making cycle. An A3IC2 system will not only be able to survive within a complex operational environment, it will also thrive, benefiting from the inevitable shocks and volatility of war.
翻訳日:2021-09-16 14:51:03 公開日:2021-09-14
# IoT関連サイバー脅威インテリジェンスのためのクリアでソーシャルでダークなWebを実現するクローラーアーキテクチャ

A Crawler Architecture for Harvesting the Clear, Social, and Dark Web for IoT-Related Cyber-Threat Intelligence ( http://arxiv.org/abs/2109.06932v1 )

ライセンス: Link先を確認
Paris Koloveas, Thanasis Chantzios, Christos Tryfonopoulos, Spiros Skiadopoulos(参考訳) clear、social、dark webは、最近、適切なツールやメソッドを識別し、クロールし、その後、実行可能なサイバーセキュリティ情報に活用できる、貴重なサイバーセキュリティ情報の豊富なソースとして特定されている。 本稿では,情報収集タスクに着目し,clear web のセキュリティ web サイト,social web のセキュリティフォーラム,dark web のhacker forums/marketplaces からデータを透過的に収集する新たなクローリングアーキテクチャを提案する。 提案するアーキテクチャはデータ収集に二相アプローチを採用している。 当初、機械学習ベースのクローラは、興味のあるウェブサイトへの収穫を指示するために使われ、第2段階の統計言語モデリング技術では、潜在的な低次元特徴空間で収集された情報を表現し、手元のタスクと潜在的関連性に基づいてランク付けするために使用される。 提案アーキテクチャはオープンソースツールのみを用いて実現されており,クラウドソースによる事前評価が有効であることを示す。

The clear, social, and dark web have lately been identified as rich sources of valuable cyber-security information that -given the appropriate tools and methods-may be identified, crawled and subsequently leveraged to actionable cyber-threat intelligence. In this work, we focus on the information gathering task, and present a novel crawling architecture for transparently harvesting data from security websites in the clear web, security forums in the social web, and hacker forums/marketplaces in the dark web. The proposed architecture adopts a two-phase approach to data harvesting. Initially a machine learning-based crawler is used to direct the harvesting towards websites of interest, while in the second phase state-of-the-art statistical language modelling techniques are used to represent the harvested information in a latent low-dimensional feature space and rank it based on its potential relevance to the task at hand. The proposed architecture is realised using exclusively open-source tools, and a preliminary evaluation with crowdsourced results demonstrates its effectiveness.
翻訳日:2021-09-16 14:50:43 公開日:2021-09-14
# 複素測地上の離散化独立サーロゲートモデリングのための非線形独立デュアルシステム(NIDS)

Non-linear Independent Dual System (NIDS) for Discretization-indep endent Surrogate Modeling over Complex Geometries ( http://arxiv.org/abs/2109.07018v1 )

ライセンス: Link先を確認
James Duvall, Karthik Duraisamy, Shaowu Pan(参考訳) 偏微分方程式(PDE)の数値解は高価なシミュレーションを必要とし、設計最適化ルーチン、モデルベース制御、大規模逆問題解への応用を制限する。 既存の畳み込みニューラルネットワークに基づくサロゲートモデリングフレームワークは、現実的なエンジニアリングアプリケーションには適さない、ピクセル化とデータ前処理を必要とする。 そこで我々は,PDE解の離散化に依存しない連続表現のための深層学習サロゲートモデルである非線形独立二重系(NIDS)を提案する。 NIDSは暗黙の神経表現を活用し、線形出力層におけるケースワイドパラメータネットワークとポイントワイド空間ネットワークの評価を組み合わせることで、問題パラメータと空間座標間の非線形マッピングを状態予測に展開する。 空間ネットワークの入力特徴は、問題の幾何学を暗黙的に符号化する最小距離関数評価によって強化された物理座標を含む。 全体出力層の形式は双対系を誘導し、写像内の各項は非線形で独立である。 さらに,共有パラメータネットワークを用いたNIDSモデルの最小距離関数駆動重み付け和を提案し,一定の制約の下で構成によって境界条件を強制する。 このフレームワークは、非パラメトリックで定義されたメッシュ上の複雑でパラメトリックで定義された幾何学の解を予測するために応用される。 テストケースには、複雑な形状とデータ不足を伴う車両の空力問題が含まれ、トレーニングの進行とともに、より多くのケースが徐々に追加されるトレーニング方法によって実現される。

Numerical solution of partial differential equations (PDEs) require expensive simulations, limiting their application in design optimization routines, model-based control, or solution of large-scale inverse problems. Existing Convolutional Neural Network-based frameworks for surrogate modeling require lossy pixelization and data-preprocessing, which is not suitable for realistic engineering applications. Therefore, we propose non-linear independent dual system (NIDS), which is a deep learning surrogate model for discretization-indep endent, continuous representation of PDE solutions, and can be used for prediction over domains with complex, variable geometries and mesh topologies. NIDS leverages implicit neural representations to develop a non-linear mapping between problem parameters and spatial coordinates to state predictions by combining evaluations of a case-wise parameter network and a point-wise spatial network in a linear output layer. The input features of the spatial network include physical coordinates augmented by a minimum distance function evaluation to implicitly encode the problem geometry. The form of the overall output layer induces a dual system, where each term in the map is non-linear and independent. Further, we propose a minimum distance function-driven weighted sum of NIDS models using a shared parameter network to enforce boundary conditions by construction under certain restrictions. The framework is applied to predict solutions around complex, parametrically-defin ed geometries on non-parametrically-d efined meshes with solution obtained many orders of magnitude faster than the full order models. Test cases include a vehicle aerodynamics problem with complex geometry and data scarcity, enabled by a training method in which more cases are gradually added as training progresses.
翻訳日:2021-09-16 14:50:23 公開日:2021-09-14
# コントラスト心エコー図におけるハードウェア対応リアルタイム心筋セグメンテーション品質制御

Hardware-aware Real-time Myocardial Segmentation Quality Control in Contrast Echocardiography ( http://arxiv.org/abs/2109.06909v1 )

ライセンス: Link先を確認
Dewen Zeng, Yukun Ding, Haiyun Yuan, Meiping Huang, Xiaowei Xu, Jian Zhuang, Jingtong Hu, Yiyu Shi(参考訳) 造影エコー図の自動心筋分画は心筋灌流パラメータの定量化に大きな可能性がある。 セグメンテーション品質管理は、品質研究におけるセグメンテーション結果の精度と臨床応用を確保するための重要なステップである。 通常、セグメンテーションの品質管理はデータ取得後に行われる。 データ取得時に、オペレータはセグメンテーション結果の品質を知ることができなかった。 オンザフライのセグメンテーション品質制御は、操作者が超音波プローブを調整したり、品質が満足できない場合にデータを取り戻すのに役立つ。 しかし、セグメンテーションモジュールと品質制御モジュールは、厳密なレイテンシ制約を満たしながら、超音波機械の限られたハードウェアリソースに収まる必要があるため、最先端のdnnベースのモデルをデプロイすることは不可能である。 本稿では,コントラスト心エコー法の品質管理と自動心筋セグメンテーションのためのハードウェア対応ニューラルネットワーク探索フレームワークを提案する。 トレーニング中にハードウェア遅延を正規化用語として損失関数に明示的に組み込む。 提案手法は,セグメンテーションモジュールと品質予測モジュールに最適なニューラルネットワークアーキテクチャを厳密なレイテンシで探索する。

Automatic myocardial segmentation of contrast echocardiography has shown great potential in the quantification of myocardial perfusion parameters. Segmentation quality control is an important step to ensure the accuracy of segmentation results for quality research as well as its clinical application. Usually, the segmentation quality control happens after the data acquisition. At the data acquisition time, the operator could not know the quality of the segmentation results. On-the-fly segmentation quality control could help the operator to adjust the ultrasound probe or retake data if the quality is unsatisfied, which can greatly reduce the effort of time-consuming manual correction. However, it is infeasible to deploy state-of-the-art DNN-based models because the segmentation module and quality control module must fit in the limited hardware resource on the ultrasound machine while satisfying strict latency constraints. In this paper, we propose a hardware-aware neural architecture search framework for automatic myocardial segmentation and quality control of contrast echocardiography. We explicitly incorporate the hardware latency as a regularization term into the loss function during training. The proposed method searches the best neural network architecture for the segmentation module and quality prediction module with strict latency.
翻訳日:2021-09-16 14:47:48 公開日:2021-09-14
# 木と低層ポリノミアルの再構成

Reconstruction on Trees and Low-Degree Polynomials ( http://arxiv.org/abs/2109.06915v1 )

ライセンス: Link先を確認
Frederic Koehler and Elchanan Mossel(参考訳) マルコフ過程の研究と木上の放送は、統計物理学、系統再構成、MCMCアルゴリズム、ランダムグラフにおけるコミュニティ検出など、様々な分野と深く関係している。 特に、有名なBreief Propagation (BP)アルゴリズムは、葉の値から木の根におけるマルコフ過程の値を予測する再構成問題に対してベイズ最適性能を達成する。 近年,計算と統計のギャップを予測するツールとして,低次多項式の解析が注目されている。 本研究では,木上の復元問題に対する低次多項式の性能について検討する。 Perhaps surprisingly, we show that there are simple tree models with $N$ leaves where (1) nontrivial reconstruction of the root value is possible with a simple polynomial time algorithm and with robustness to noise, but not with any polynomial of degree $N^{c}$ for $c > 0$ a constant, and (2) when the tree is unknown and given multiple samples with correlated root assignments, nontrivial reconstruction of the root value is possible with a simple, noise-robust, and computationally efficient SQ (Statistical Query) algorithm but not with any polynomial of degree $N^c$. これらの結果はベイズ推定問題に対する低次多項式と多項式時間アルゴリズムの制限を明らかにした。 彼らはまた、Belief Propagationの回路複雑性を研究したMoitra、Mossel、Sandonの最近の研究を補完している。 我々は、低次多項式とケステン・スティグムしきい値に関する関連する開疑問を提起する。

The study of Markov processes and broadcasting on trees has deep connections to a variety of areas including statistical physics, phylogenetic reconstruction, MCMC algorithms, and community detection in random graphs. Notably, the celebrated Belief Propagation (BP) algorithm achieves Bayes-optimal performance for the reconstruction problem of predicting the value of the Markov process at the root of the tree from its values at the leaves. Recently, the analysis of low-degree polynomials has emerged as a valuable tool for predicting computational-to-sta tistical gaps. In this work, we investigate the performance of low-degree polynomials for the reconstruction problem on trees. Perhaps surprisingly, we show that there are simple tree models with $N$ leaves where (1) nontrivial reconstruction of the root value is possible with a simple polynomial time algorithm and with robustness to noise, but not with any polynomial of degree $N^{c}$ for $c > 0$ a constant, and (2) when the tree is unknown and given multiple samples with correlated root assignments, nontrivial reconstruction of the root value is possible with a simple, noise-robust, and computationally efficient SQ (Statistical Query) algorithm but not with any polynomial of degree $N^c$. These results clarify some of the limitations of low-degree polynomials vs. polynomial time algorithms for Bayesian estimation problems. They also complement recent work of Moitra, Mossel, and Sandon who studied the circuit complexity of Belief Propagation. We pose related open questions about low-degree polynomials and the Kesten-Stigum threshold.
翻訳日:2021-09-16 14:47:05 公開日:2021-09-14
# 圧縮通信によるスケーラブルな平均コンセンサス

Scalable Average Consensus with Compressed Communications ( http://arxiv.org/abs/2109.06996v1 )

ライセンス: Link先を確認
Mohammad Taha Toghani and C\'esar A. Uribe(参考訳) 本稿では,ネットワークサイズnに線形にスケールする圧縮通信を用いた分散平均コンセンサスアルゴリズムを提案する。 提案手法は,エージェントが圧縮されたメッセージと通信することを許された場合,ネットワークのエージェントがローカルに保持する初期値の平均に収束することを示す。 提案アルゴリズムは、エージェントが任意の静的、無向、接続されたネットワーク上で相互作用する幅広い種類の圧縮演算子(おそらくバイアス)に対して動作する。 さらに,我々の理論結果を確認する数値実験を行い,アルゴリズムのスケーラビリティと通信効率について述べる。

We propose a new decentralized average consensus algorithm with compressed communication that scales linearly with the network size n. We prove that the proposed method converges to the average of the initial values held locally by the agents of a network when agents are allowed to communicate with compressed messages. The proposed algorithm works for a broad class of compression operators (possibly biased), where agents interact over arbitrary static, undirected, and connected networks. We further present numerical experiments that confirm our theoretical results and illustrate the scalability and communication efficiency of our algorithm.
翻訳日:2021-09-16 14:45:06 公開日:2021-09-14
# (参考訳) 進化的軌道発生器を用いた強化学習:四足歩行の一般的なアプローチ [全文訳有]

Reinforcement Learning with Evolutionary Trajectory Generator: A General Approach for Quadrupedal Locomotion ( http://arxiv.org/abs/2109.06409v1 )

ライセンス: CC BY 4.0
Haojie Shi, Bo Zhou, Hongsheng Zeng, Fan Wang, Yueqiang Dong, Jiangyong Li, Kang Wang, Hao Tian, Max Q.-H. Meng(参考訳) 近年、強化学習 (RL) が四足歩行の有望なアプローチとして登場し、熟練型コントローラの設計などの従来の手法では手作業の節約が期待できる。 しかし、四足歩行ロボットの複雑な非線形ダイナミクスと報酬空間のため、特にバランスビームの上を歩くような困難な作業において、RLがスクラッチから効果的な歩行を学習することは依然として困難である。 このような困難を緩和するために,進化的足跡生成器を含む新しいRLベースのアプローチを提案する。 固定軌道生成器を使用する従来の方法とは異なり、ジェネレータは与えられたタスクの出力軌道の形状を継続的に最適化し、ポリシー学習を導くための多様な動作前を提供する。 この方針は、異なる歩行に適合する残留制御信号を出力する強化学習で訓練されている。 次に、軌道生成器とポリシーネットワークを最適化し、トレーニングを安定させ、探索データを共有し、サンプル効率を向上させる。 その結果,本手法は,平均台の上を歩いたり,洞窟をクロールしたりすることで,スクラッチから学習することで,シミュレーション上のさまざまな課題を解決することができる。 提案手法の有効性をさらに検証するため,12-DoF四足歩行ロボットにシミュレーションで学習したコントローラを配置し,効率の良い歩行で難解なシナリオを横断することに成功した。

Recently reinforcement learning (RL) has emerged as a promising approach for quadrupedal locomotion, which can save the manual effort in conventional approaches such as designing skill-specific controllers. However, due to the complex nonlinear dynamics in quadrupedal robots and reward sparsity, it is still difficult for RL to learn effective gaits from scratch, especially in challenging tasks such as walking over the balance beam. To alleviate such difficulty, we propose a novel RL-based approach that contains an evolutionary foot trajectory generator. Unlike prior methods that use a fixed trajectory generator, the generator continually optimizes the shape of the output trajectory for the given task, providing diversified motion priors to guide the policy learning. The policy is trained with reinforcement learning to output residual control signals that fit different gaits. We then optimize the trajectory generator and policy network alternatively to stabilize the training and share the exploratory data to improve sample efficiency. As a result, our approach can solve a range of challenging tasks in simulation by learning from scratch, including walking on a balance beam and crawling through the cave. To further verify the effectiveness of our approach, we deploy the controller learned in the simulation on a 12-DoF quadrupedal robot, and it can successfully traverse challenging scenarios with efficient gaits.
翻訳日:2021-09-16 03:46:57 公開日:2021-09-14
# (参考訳) MMCoVaR: Fake News DetectionのためのマルチモーダルCOVID-19ワクチンフォーカスデータリポジトリと分類のためのベースラインアーキテクチャ [全文訳有]

MMCoVaR: Multimodal COVID-19 Vaccine Focused Data Repository for Fake News Detection and a Baseline Architecture for Classification ( http://arxiv.org/abs/2109.06416v1 )

ライセンス: CC BY 4.0
Mingxuan Chen, Xinqiao Chu, K.P. Subbalakshmi(参考訳) 新型コロナウイルス(COVID-19)の流行は、新型コロナウイルスに関する誤報の伝播を助長する「インフォデミック」を引き起こし、その結果、より大きな人口に推奨される公衆衛生対策の導入に悪影響を及ぼす可能性がある。 本稿では、新型コロナウイルスワクチンのニュース記事やツイートを含む新しいマルチモーダル(画像、テキスト、時間情報からなる)ラベル付きデータセットを提供する。 われわれは2020年2月16日から2021年5月8日までの1年間、80社から2,593件のニュース記事を収集した(2021年4月17日から2021年5月8日まで)。 medias bias chart、news guard、media bias/fact check(mbfc)という3つのニュースメディアランキングサイトからのレーティングを組み合わせることで、ニュースデータセットを信頼性と信頼性の2つのレベルに分類する。 3つのフィルタの組み合わせにより、ラベリングの精度が向上する。 また,ツイートを信頼度,信頼度,信頼度,不決定性の3レベルにアノテートするためのスタンス検出機構を提案する。 我々は,出版社分布,出版日分布,トピック分析など,いくつかの統計情報を提供している。 また、このデータセットのベースライン性能を提供するために、ニュースデータを誤情報または真実に分類する新しいアーキテクチャを提供する。 提案アーキテクチャはFスコア0.919,精度0.882で偽ニュース検出を行う。 さらに,ツイートデータセット上での誤情報検出のためのベンチマーク性能も提供する。 この新しいマルチモーダルデータセットは、誤った情報検出や偽の新型コロナウイルスワクチン情報の影響など、新型コロナウイルスワクチンの研究に使用できる。

The outbreak of COVID-19 has resulted in an "infodemic" that has encouraged the propagation of misinformation about COVID-19 and cure methods which, in turn, could negatively affect the adoption of recommended public health measures in the larger population. In this paper, we provide a new multimodal (consisting of images, text and temporal information) labeled dataset containing news articles and tweets on the COVID-19 vaccine. We collected 2,593 news articles from 80 publishers for one year between Feb 16th 2020 to May 8th 2021 and 24184 Twitter posts (collected between April 17th 2021 to May 8th 2021). We combine ratings from three news media ranking sites: Medias Bias Chart, News Guard and Media Bias/Fact Check (MBFC) to classify the news dataset into two levels of credibility: reliable and unreliable. The combination of three filters allows for higher precision of labeling. We also propose a stance detection mechanism to annotate tweets into three levels of credibility: reliable, unreliable and inconclusive. We provide several statistics as well as other analytics like, publisher distribution, publication date distribution, topic analysis, etc. We also provide a novel architecture that classifies the news data into misinformation or truth to provide a baseline performance for this dataset. We find that the proposed architecture has an F-Score of 0.919 and accuracy of 0.882 for fake news detection. Furthermore, we provide benchmark performance for misinformation detection on tweet dataset. This new multimodal dataset can be used in research on COVID-19 vaccine, including misinformation detection, influence of fake COVID-19 vaccine information, etc.
翻訳日:2021-09-16 03:34:57 公開日:2021-09-14
# (参考訳) 応答生成のためのコモンセンス焦点対話 : 実証的研究 [全文訳有]

Commonsense-Focused Dialogues for Response Generation: An Empirical Study ( http://arxiv.org/abs/2109.06427v1 )

ライセンス: CC BY 4.0
Pei Zhou, Karthik Gopalakrishnan, Behnam Hedayatnia, Seokhwan Kim, Jay Pujara, Xiang Ren, Yang Liu, Dilek Hakkani-Tur(参考訳) スムーズで効果的なコミュニケーションには、潜在あるいは明示的なコモンセンス推論を実行する能力が必要です。 従来のコモンセンス推論ベンチマーク(SocialIQAやCommonsenseQAなど)は、主に候補から正しい答えを選択するという差別的なタスクに焦点を当てており、対話のような対話型言語生成は含まない。 さらに、既存の対話データセットは、ファセットとして常識を示すことに明示的にフォーカスしていない。 本稿では,対話応答生成におけるコモンセンスの実証研究を行う。 まず,コモンセンス知識グラフであるconceptnetを用いて,既存の対話データセットからのコモンセンシカル対話の自動抽出を行う。 さらに,ソーシャルIQAにおける社会的文脈・位置に基づいて,対話環境における社会的常識の提示を目的とした対話データセットを新たに収集した。 これらのデータセットを用いてトレーニングした応答生成モデルを評価し、抽出したデータと収集したデータの両方でトレーニングしたモデルが、ベースラインよりも一貫して一般的な応答を生成することを発見した。 最後に,コンセプションネットと事前学習言語およびダイアログモデルから派生した特徴に依存したコモンセンスの自動評価手法を提案し,応答のコモンセンス品質の人間による評価と合理的な相関を示す。 収集したデータのサブセットであるCommonsense-Dialogue sをリリースしています。

Smooth and effective communication requires the ability to perform latent or explicit commonsense inference. Prior commonsense reasoning benchmarks (such as SocialIQA and CommonsenseQA) mainly focus on the discriminative task of choosing the right answer from a set of candidates, and do not involve interactive language generation as in dialogue. Moreover, existing dialogue datasets do not explicitly focus on exhibiting commonsense as a facet. In this paper, we present an empirical study of commonsense in dialogue response generation. We first auto-extract commonsensical dialogues from existing dialogue datasets by leveraging ConceptNet, a commonsense knowledge graph. Furthermore, building on social contexts/situations in SocialIQA, we collect a new dialogue dataset with 25K dialogues aimed at exhibiting social commonsense in an interactive setting. We evaluate response generation models trained using these datasets and find that models trained on both extracted and our collected data produce responses that consistently exhibit more commonsense than baselines. Finally we propose an approach for automatic evaluation of commonsense that relies on features derived from ConceptNet and pre-trained language and dialog models, and show reasonable correlation with human evaluation of responses' commonsense quality. We are releasing a subset of our collected data, Commonsense-Dialogue s, containing about 11K dialogs.
翻訳日:2021-09-16 03:21:21 公開日:2021-09-14
# (参考訳) 河岸特性推定のための知識誘導型自己教師付き学習 [全文訳有]

Knowledge-guided Self-supervised Learning for estimating River-Basin Characteristics ( http://arxiv.org/abs/2109.06429v1 )

ライセンス: CC BY 4.0
Rahul Ghosh, Arvind Renganathan, Ankush Khandelwal, Xiaowei Jia, Xiang Li, John Neiber, Chris Duffy, Vipin Kumar(参考訳) 機械学習は水文学、特に流域や流域の流量予測に広く使われている。 流域特性は流域の降雨応答のモデル化に不可欠であり,データ駆動型手法では,この漸近的特性を考慮に入れなければならない。 しかし、測定された特徴の不確実性、一部の盆地の特徴の欠如、既知の測定された集合に存在しない可能性のある未知の特性など、いくつかの制限がある。 本稿では,知識誘導型自己教師付き学習アルゴリズムを用いて,気象ドライバとストリームフロー応答データを用いて盆地特性を推定する逆モデルを提案する。 ラクダデータセットのモデルを評価し,測定の不確かさを低減し,欠落特性を誘発し,未知の特性を同定する能力を検証する。

Machine Learning is being extensively used in hydrology, especially streamflow prediction of basins/watersheds. Basin characteristics are essential for modeling the rainfall-runoff response of these watersheds and therefore data-driven methods must take into account this ancillary characteristics data. However there are several limitations, namely uncertainty in the measured characteristics, partially missing characteristics for some of the basins or unknown characteristics that may not be present in the known measured set. In this paper we present an inverse model that uses a knowledge-guided self-supervised learning algorithm to infer basin characteristics using the meteorological drivers and streamflow response data. We evaluate our model on the the CAMELS dataset and the results validate its ability to reduce measurement uncertainty, impute missing characteristics, and identify unknown characteristics.
翻訳日:2021-09-16 03:06:11 公開日:2021-09-14
# (参考訳) バドミントンマッチにおけるショット影響の長期的影響の探索 [全文訳有]

Exploring the Long Short-Term Dependencies to Infer Shot Influence in Badminton Matches ( http://arxiv.org/abs/2109.06431v1 )

ライセンス: CC BY-SA 4.0
Wei-Yao Wang, Teng-Fong Chan, Hui-Kuo Yang, Chih-Chuan Wang, Yao-Chung Fan, Wen-Chih Peng(参考訳) 集会で重要なショットを特定することは、バドミントンの試合で選手のパフォーマンスを評価するために重要である。 他のスポーツで選手のパフォーマンスを定量化した研究はいくつかあるが、バドミントンデータの分析は未解決のままである。 本稿では,バドミントン言語を導入して,ショットの過程を完全に記述し,新たな短期抽出器と,バドミントン集会におけるショット・バイ・ショット・シーケンスを抽出する長期符号化器からなるディープラーニングモデルを提案する。 本モデルでは,アグリゲーション結果に対するアクションシーケンスの透明性を実現するための注意機構が組み込まれており,バドミントンの専門家が解釈可能な予測を得ることが不可欠である。 実世界のデータセットに基づく実験評価により,提案モデルが強いベースラインより優れていることを示す。 ソースコードはhttps://github.com/y ao0510/Shot-Influenc eで公開されている。

Identifying significant shots in a rally is important for evaluating players' performance in badminton matches. While there are several studies that have quantified player performance in other sports, analyzing badminton data is remained untouched. In this paper, we introduce a badminton language to fully describe the process of the shot and propose a deep learning model composed of a novel short-term extractor and a long-term encoder for capturing a shot-by-shot sequence in a badminton rally by framing the problem as predicting a rally result. Our model incorporates an attention mechanism to enable the transparency of the action sequence to the rally result, which is essential for badminton experts to gain interpretable predictions. Experimental evaluation based on a real-world dataset demonstrates that our proposed model outperforms the strong baselines. The source code is publicly available at https://github.com/y ao0510/Shot-Influenc e.
翻訳日:2021-09-16 03:00:38 公開日:2021-09-14
# (参考訳) Tesla-Rapture:mmWave Radar Point Cloudsによる軽量ジェスチャー認識システム [全文訳有]

Tesla-Rapture: A Lightweight Gesture Recognition System from mmWave Radar Point Clouds ( http://arxiv.org/abs/2109.06448v1 )

ライセンス: CC BY 4.0
Dariush Salami, Ramin Hasibi, Sameera Palipana, Petar Popovski, Tom Michoel, and Stephan Sigg(参考訳) 我々は,mmWave Radarsによって生成された点雲のジェスチャー認識インタフェースであるTesla-Raptureを提案する。 最先端のジェスチャー認識モデルは、IoTデバイス(例:Raspberry PI)、XRハードウェア(例:HoloLens)、スマートフォンなどのウェアラブルまたは制約された機器を使用して、現実のシナリオに統合するにはリソースを消費しすぎるか、あるいは十分に正確ではない。 この問題に対処するため,我々は,ミリ波レーダポイントクラウドのためのメッセージパッシングニューラルネットワーク(MPNN)グラフ畳み込みアプローチであるTeslaを開発した。 このモデルは、計算の複雑さを減らし、従って実行時間を短縮しながら、2つのデータセットで技術の状態より優れている。 特にこのアプローチは、最も正確な競合相手の約8倍の速さでジェスチャーを予測することができる。 さまざまなシナリオ(環境、角度、距離)における当社のパフォーマンス評価から、teslaは、壁越しの設定や極端な角度でのセンシングといった困難なシナリオにおいて、優れた一般化と最大20%の精度向上を実現しています。 Teslaを利用して、Raspberry PI 4上のmmWave Radarをリアルタイムに実装したTesla-Raptureを開発し、その精度と時間複雑度を評価した。 ソースコード、トレーニングされたモデル、組み込みデバイス用のモデルの実装も公開しています。

We present Tesla-Rapture, a gesture recognition interface for point clouds generated by mmWave Radars. State of the art gesture recognition models are either too resource consuming or not sufficiently accurate for integration into real-life scenarios using wearable or constrained equipment such as IoT devices (e.g. Raspberry PI), XR hardware (e.g. HoloLens), or smart-phones. To tackle this issue, we developed Tesla, a Message Passing Neural Network (MPNN) graph convolution approach for mmWave radar point clouds. The model outperforms the state of the art on two datasets in terms of accuracy while reducing the computational complexity and, hence, the execution time. In particular, the approach, is able to predict a gesture almost 8 times faster than the most accurate competitor. Our performance evaluation in different scenarios (environments, angles, distances) shows that Tesla generalizes well and improves the accuracy up to 20% in challenging scenarios like a through-wall setting and sensing at extreme angles. Utilizing Tesla, we develop Tesla-Rapture, a real-time implementation using a mmWave Radar on a Raspberry PI 4 and evaluate its accuracy and time-complexity. We also publish the source code, the trained models, and the implementation of the model for embedded devices.
翻訳日:2021-09-16 02:51:08 公開日:2021-09-14
# (参考訳) 薬物設計と反応のための深層変性モデル [全文訳有]

Deep Denerative Models for Drug Design and Response ( http://arxiv.org/abs/2109.06469v1 )

ライセンス: CC BY 4.0
Karina Zadorozhny, Lada Nuzhna(参考訳) 医薬特性が望ましい化合物を新規に設計することは難しい課題であり、開発と試験に何年もかかる。 しかし、新薬の大多数は効果を証明できない。 近年の深部生成モデリングの成功は、新しい分子の生成と最適化を約束している。 本稿では,現在の生成モデルの概要を述べるとともに,薬物設計と薬物応答の分野を理解するために必要な分子表現を含む,生物・化学用語について述べる。 本稿では化学・生物学的データベースと生成モデリングツールについて述べる。 最後に,薬物設計と薬物応答予測のための生成モデリングの現状を概説し,現在この分野が直面している最先端のアプローチと限界を強調する。

Designing new chemical compounds with desired pharmaceutical properties is a challenging task and takes years of development and testing. Still, a majority of new drugs fail to prove efficient. Recent success of deep generative modeling holds promises of generation and optimization of new molecules. In this review paper, we provide an overview of the current generative models, and describe necessary biological and chemical terminology, including molecular representations needed to understand the field of drug design and drug response. We present commonly used chemical and biological databases, and tools for generative modeling. Finally, we summarize the current state of generative modeling for drug design and drug response prediction, highlighting the state-of-art approaches and limitations the field is currently facing.
翻訳日:2021-09-16 02:23:13 公開日:2021-09-14
# (参考訳) 時空リカレントメモリネットワーク [全文訳有]

Space Time Recurrent Memory Network ( http://arxiv.org/abs/2109.06474v1 )

ライセンス: CC BY 4.0
Hung Nguyen and Fuxin Li(参考訳) 本稿では空間-時間領域における学習・推論問題に対する新しい視覚記憶ネットワークアーキテクチャを提案する。 一般的なトランスフォーマーとは異なり、メモリネットワークに固定されたメモリスロットを維持し、新しい情報をメモリに入力し、異なるメモリスロットの情報を組み合わせて、古いメモリスロットを破棄するタイミングを決定する設計を探求します。 最後に、このアーキテクチャはビデオオブジェクトのセグメンテーションとビデオ予測の問題をベンチマークする。 実験により,メモリ容量を一定に保ちつつ,最先端のメモリアーキテクチャで競合的な結果が得られることを示した。

We propose a novel visual memory network architecture for the learning and inference problem in the spatial-temporal domain. Different from the popular transformers, we maintain a fixed set of memory slots in our memory network and explore designs to input new information into the memory, combine the information in different memory slots and decide when to discard old memory slots. Finally, this architecture is benchmarked on the video object segmentation and video prediction problems. Through the experiments, we show that our memory architecture can achieve competitive results with state-of-the-art while maintaining constant memory capacity.
翻訳日:2021-09-16 02:09:05 公開日:2021-09-14
# (参考訳) 密林天蓋下リアルタイムセマンティックスラムを用いた大規模自律飛行 [全文訳有]

Large-scale Autonomous Flight with Real-time Semantic SLAM under Dense Forest Canopy ( http://arxiv.org/abs/2109.06479v1 )

ライセンス: CC BY 4.0
Xu Liu, Guilherme V. Nardari, Fernando Cladera Ojeda, Yuezhan Tao, Alex Zhou, Thomas Donnelly, Chao Qu, Steven W. Chen, Roseli A. F. Romero, Camillo J. Taylor, Vijay Kumar(参考訳) 本稿では,高度に乱雑で非構造的でGPSを付加したアンダーキャノピー環境において,長距離ミッションとリアルタイムセマンティックマッピングを行うことができる自律飛行・セマンティックSLAMシステムを提案する。 まず、LIDARスキャンから木の幹と地上面が検出される。 ニューラルネットワークとインスタンス抽出アルゴリズムを用いて,UAV上でのセマンティックセグメンテーションをリアルタイムで実現する。 次に、検出されたツリートランクインスタンスをシリンダーとしてモデル化し、lidarシーケンス全体に関連付ける。 このセマンティックデータアソシエーションは、ロボットのポーズとトランクランドマークモデルの両方に制約を与える。 意味論的SLAMの出力は、状態推定、計画、制御アルゴリズムにリアルタイムで使用される。 グローバルプランナーは、グローバルゴールへの最短経路を計画するスパースマップに頼っており、ローカルトラジェクトリプランナーは、小さく、細分化されたロボット中心のマップを使用して、ダイナミックに実現可能で、衝突のない軌道をローカルゴールに計画する。 グローバルパスと局所軌道の両方がドリフト修正目標につながり、uavのミッションを正確かつ安全に遂行するのに役立つ。

In this letter, we propose an integrated autonomous flight and semantic SLAM system that can perform long-range missions and real-time semantic mapping in highly cluttered, unstructured, and GPS-denied under-canopy environments. First, tree trunks and ground planes are detected from LIDAR scans. We use a neural network and an instance extraction algorithm to enable semantic segmentation in real time onboard the UAV. Second, detected tree trunk instances are modeled as cylinders and associated across the whole LIDAR sequence. This semantic data association constraints both robot poses as well as trunk landmark models. The output of semantic SLAM is used in state estimation, planning, and control algorithms in real time. The global planner relies on a sparse map to plan the shortest path to the global goal, and the local trajectory planner uses a small but finely discretized robot-centric map to plan a dynamically feasible and collision-free trajectory to the local goal. Both the global path and local trajectory lead to drift-corrected goals, thus helping the UAV execute its mission accurately and safely.
翻訳日:2021-09-16 01:56:25 公開日:2021-09-14
# (参考訳) 表に基づく事実検証のための論理レベルエビデンス検索とグラフベース検証ネットワーク [全文訳有]

Logic-level Evidence Retrieval and Graph-based Verification Network for Table-based Fact Verification ( http://arxiv.org/abs/2109.06480v1 )

ライセンス: CC BY 4.0
Qi Shi, Yu Zhang, Qingyu Yin, Ting Liu(参考訳) テーブルベースの事実検証タスクは、与えられたステートメントが与えられた半構造化テーブルによってサポートされているかどうかを検証することを目的としている。 論理演算によるシンボリック推論は、このタスクにおいて重要な役割を果たす。 既存の手法では、豊富な論理情報を含むプログラムを活用して検証プロセスを強化する。 しかし、プログラム生成プロセスにおける完全な教師付き信号の欠如により、スプリアスプログラムの導出と採用が可能となり、モデルが有用な論理演算を捉えることができない。 そこで本研究では,論理レベルのエビデンス検索とグラフベースの検証ネットワーク(lergv)を提案し,テーブルベースのファクト検証タスクをエビデンス検索・推論フレームワークとして定式化する。 具体的には、まず、与えられた表と文から論理レベルのプログラムのような証拠を補足的な証拠として取り出す。 その後、検索されたエビデンス内のエンティティと関数の論理関係をキャプチャする論理レベルグラフを構築し、構築されたグラフに基づいて論理レベルグラフベースの推論を行い、最終的な包含関係を分類するグラフベースの検証ネットワークを設計する。 大規模ベンチマークTABFACTの実験結果は,提案手法の有効性を示している。

Table-based fact verification task aims to verify whether the given statement is supported by the given semi-structured table. Symbolic reasoning with logical operations plays a crucial role in this task. Existing methods leverage programs that contain rich logical information to enhance the verification process. However, due to the lack of fully supervised signals in the program generation process, spurious programs can be derived and employed, which leads to the inability of the model to catch helpful logical operations. To address the aforementioned problems, in this work, we formulate the table-based fact verification task as an evidence retrieval and reasoning framework, proposing the Logic-level Evidence Retrieval and Graph-based Verification network (LERGV). Specifically, we first retrieve logic-level program-like evidence from the given table and statement as supplementary evidence for the table. After that, we construct a logic-level graph to capture the logical relations between entities and functions in the retrieved evidence, and design a graph-based verification network to perform logic-level graph-based reasoning based on the constructed graph to classify the final entailment relation. Experimental results on the large-scale benchmark TABFACT show the effectiveness of the proposed approach.
翻訳日:2021-09-16 01:38:42 公開日:2021-09-14
# (参考訳) 多変量時系列予測のためのインスタンスワイズグラフベースフレームワーク [全文訳有]

Instance-wise Graph-based Framework for Multivariate Time Series Forecasting ( http://arxiv.org/abs/2109.06489v1 )

ライセンス: CC BY 4.0
Wentao Xu, Weiqing Liu, Jiang Bian, Jian Yin, Tie-Yan Liu(参考訳) 多変量時系列予測は、金融、交通、天候など、現実世界のさまざまな分野において重要な役割を担っているため、ますます注目を集めている。 近年,多変量時系列予測のための研究が数多く提案されている。 以前の作業では、同じタイムスタンプで異なる変数間の相互依存性を考慮していたが、既存の作業は異なるタイムスタンプで異なる変数間の相互接続を見落としている。 本稿では,異なる時刻スタンプにおける変数の相互依存性を多変量時系列予測に利用するための,簡易かつ効率的なインスタンス単位グラフベースのフレームワークを提案する。 私たちのフレームワークのキーとなるアイデアは、さまざまな変数の履歴時系列から予測すべき現在の時系列まで、情報を集約することです。 我々は、トラフィック、電気、および交換レートの時系列データセットに関する実験を行う。 その結果,提案モデルが最先端のベースラインメソッドよりも優れていることがわかった。

The multivariate time series forecasting has attracted more and more attention because of its vital role in different fields in the real world, such as finance, traffic, and weather. In recent years, many research efforts have been proposed for forecasting multivariate time series. Although some previous work considers the interdependencies among different variables in the same timestamp, existing work overlooks the inter-connections between different variables at different time stamps. In this paper, we propose a simple yet efficient instance-wise graph-based framework to utilize the inter-dependencies of different variables at different time stamps for multivariate time series forecasting. The key idea of our framework is aggregating information from the historical time series of different variables to the current time series that we need to forecast. We conduct experiments on the Traffic, Electricity, and Exchange-Rate multivariate time series datasets. The results show that our proposed model outperforms the state-of-the-art baseline methods.
翻訳日:2021-09-16 01:23:06 公開日:2021-09-14
# (参考訳) 複雑なマルチエージェント環境下での運転ポリシー学習のための視覚変換器 [全文訳有]

Vision Transformer for Learning Driving Policies in Complex Multi-Agent Environments ( http://arxiv.org/abs/2109.06514v1 )

ライセンス: CC BY 4.0
Eshagh Kargar, Ville Kyrki(参考訳) 複雑な都市環境での運転は、複雑な意思決定ポリシーを必要とする難しい作業である。 情報的な意思決定を行うには、長距離状況と他の車両の重要性を理解する必要がある。 本研究では、視覚変換器(ViT)を用いて、鳥眼ビュー(BEV)入力画像を用いた都市環境における運転方針を学習することを提案する。 vitネットワークは、以前の畳み込みニューラルネットワーク(convnets)よりも、シーンのグローバルコンテキストをより効果的に学習する。 さらに、ViTのアテンションメカニズムは、エゴカーが次の決定においてどの周囲の車が重要かを判断できるようにするシーンのアテンションマップの学習に役立つ。 本研究では,ViTバックボーンを持つDQNエージェントが,様々な方法で事前学習されたConvNetバックボーンを用いてベースラインアルゴリズムより優れていることを示す。 特に,提案手法は,学習アルゴリズムの学習を高速化し,性能が向上し,ベースラインよりも少ない。

Driving in a complex urban environment is a difficult task that requires a complex decision policy. In order to make informed decisions, one needs to gain an understanding of the long-range context and the importance of other vehicles. In this work, we propose to use Vision Transformer (ViT) to learn a driving policy in urban settings with birds-eye-view (BEV) input images. The ViT network learns the global context of the scene more effectively than with earlier proposed Convolutional Neural Networks (ConvNets). Furthermore, ViT's attention mechanism helps to learn an attention map for the scene which allows the ego car to determine which surrounding cars are important to its next decision. We demonstrate that a DQN agent with a ViT backbone outperforms baseline algorithms with ConvNet backbones pre-trained in various ways. In particular, the proposed method helps reinforcement learning algorithms to learn faster, with increased performance and less data than baselines.
翻訳日:2021-09-16 01:10:48 公開日:2021-09-14
# (参考訳) 依存性構造の効率的なサンプリング [全文訳有]

Efficient Sampling of Dependency Structures ( http://arxiv.org/abs/2109.06521v1 )

ライセンス: CC BY 4.0
Ran Zmigrod, Tim Vieira, Ryan Cotterell(参考訳) 有向グラフにおける木にまたがる確率分布は、自然言語処理や構文依存木における依存構造の基本モデルである。 NLPでは、依存木は、しばしば追加のルート制約を持ち、一方のエッジだけがルートから発散する。 しかし、この追加制約を考慮に入れたサンプリングアルゴリズムは文献には示されていない。 本稿では,2つのスパンディングツリーサンプリングアルゴリズムを用いて,根の制約を受けるグラフから依存性ツリーを忠実にサンプリングする。 wilson (1996)のサンプリングアルゴリズムは、実行時間は$\mathcal{o}(h)$であり、ここで$h$はグラフの平均ヒット時間である。 colbourn (1996) のサンプリングアルゴリズムの実行時間は$\mathcal{o}(n^3)$であり、これはしばしば有向グラフの平均ヒット時間よりも大きい。 さらに、colbournのアルゴリズムに基づいて、$\mathcal{o}(k n^3 + k^2 n)$ timeで置き換えることなく$k$木をサンプリングできる新しい拡張を提供する。 我々の知る限りでは、有向グラフから置き換えることなく木々をサンプリングするアルゴリズムは与えられていない。

Probabilistic distributions over spanning trees in directed graphs are a fundamental model of dependency structure in natural language processing, syntactic dependency trees. In NLP, dependency trees often have an additional root constraint: only one edge may emanate from the root. However, no sampling algorithm has been presented in the literature to account for this additional constraint. In this paper, we adapt two spanning tree sampling algorithms to faithfully sample dependency trees from a graph subject to the root constraint. Wilson (1996)'s sampling algorithm has a running time of $\mathcal{O}(H)$ where $H$ is the mean hitting time of the graph. Colbourn (1996)'s sampling algorithm has a running time of $\mathcal{O}(N^3)$, which is often greater than the mean hitting time of a directed graph. Additionally, we build upon Colbourn's algorithm and present a novel extension that can sample $K$ trees without replacement in $\mathcal{O}(K N^3 + K^2 N)$ time. To the best of our knowledge, no algorithm has been given for sampling spanning trees without replacement from a directed graph.
翻訳日:2021-09-16 00:57:44 公開日:2021-09-14
# (参考訳) 深層強化学習に基づくロボットと自律システムの依存性解析 [全文訳有]

Dependability Analysis of Deep Reinforcement Learning based Robotics and Autonomous Systems ( http://arxiv.org/abs/2109.06523v1 )

ライセンス: CC BY 4.0
Yi Dong, Xingyu Zhao, Xiaowei Huang(参考訳) 深層強化学習(Dep Reinforcement Learning, DRL)は、ロボットと自律システム(RAS)の制御に変換機能を提供するが、DRLのブラックボックスの性質と不確実な配置環境は、その信頼性に新たな課題をもたらす。 ミッションの完了を確実にするためにDRLポリシーに制約を課す既存の作業は数多く存在するが、すべての信頼性特性を考慮すると、DRL主導のRASを総合的に評価することは、決して適切ではない。 本稿では,時間論理における依存性特性の集合を形式的に定義し,確率的環境と相互作用するdrl駆動rasのリスク/障害のダイナミクスをモデル化する離散時間マルコフ連鎖(dtmc)を構築する。 次に、設計されたDTMCに基づいて確率モデルチェックを行い、それらの特性を検証する。 実験の結果,提案手法は総合評価フレームワークとして有効であり,また,トレーニングにおいてトレードオフが必要な特性間の矛盾を明らかにする。 また,標準のdrlトレーニングでは,信頼性が向上しないため,個別の最適化目標が必要となる。 最後に,本手法はDRLのSim-to-Real問題に対する新しい信頼性解析を提供する。

While Deep Reinforcement Learning (DRL) provides transformational capabilities to the control of Robotics and Autonomous Systems (RAS), the black-box nature of DRL and uncertain deployment-environme nts of RAS pose new challenges on its dependability. Although there are many existing works imposing constraints on the DRL policy to ensure a successful completion of the mission, it is far from adequate in terms of assessing the DRL-driven RAS in a holistic way considering all dependability properties. In this paper, we formally define a set of dependability properties in temporal logic and construct a Discrete-Time Markov Chain (DTMC) to model the dynamics of risk/failures of a DRL-driven RAS interacting with the stochastic environment. We then do Probabilistic Model Checking based on the designed DTMC to verify those properties. Our experimental results show that the proposed method is effective as a holistic assessment framework, while uncovers conflicts between the properties that may need trade-offs in the training. Moreover, we find the standard DRL training cannot improve dependability properties, thus requiring bespoke optimisation objectives concerning them. Finally, our method offers a novel dependability analysis to the Sim-to-Real challenge of DRL.
翻訳日:2021-09-16 00:36:29 公開日:2021-09-14
# (参考訳) 画像に基づく3Dスキャンのアライメント [全文訳有]

Image-Based Alignment of 3D Scans ( http://arxiv.org/abs/2109.06526v1 )

ライセンス: CC BY 4.0
Dolores Messer (1), Jakob Wilm (1 and 2), Eythor R. Eiriksson (1), Vedrana A. Dahl (1) and Anders B. Dahl (1) ((1) Technical University of Denmark, Visual Computing, Denmark, (2) University of Southern Denmark, Maersk Mc-Kinney Moller Institute, Denmark)(参考訳) 構造光走査と回転ステージを組み合わせることで、全3次元走査を効率的に得ることができる。 しかし、この設定では、オブジェクト全体をカバーするために、オブジェクトを再配置し、異なるポーズでスキャンする必要があります。 この場合、オブジェクトが移動されたため、スキャン間の対応が失われる。 本稿では,物体のスキャンを2つの異なるポーズで整列する完全自動手法を提案する。 これは、2つのポーズの画像間で2D特徴をマッチングし、スキャンされた点雲と画像の対応性を利用する。 本手法を実証するために,3つの異種物体の走査結果を示す。

Full 3D scanning can efficiently be obtained using structured light scanning combined with a rotation stage. In this setting it is, however, necessary to reposition the object and scan it in different poses in order to cover the entire object. In this case, correspondence between the scans is lost, since the object was moved. In this paper, we propose a fully automatic method for aligning the scans of an object in two different poses. This is done by matching 2D features between images from two poses and utilizing correspondence between the images and the scanned point clouds. To demonstrate the approach, we present the results of scanning three dissimilar objects.
翻訳日:2021-09-16 00:16:25 公開日:2021-09-14
# (参考訳) 教師なしドメイン適応のためのマルチレベルコントラストネットワーク [全文訳有]

Multi-Level Features Contrastive Networks for Unsupervised Domain Adaptation ( http://arxiv.org/abs/2109.06543v1 )

ライセンス: CC BY 4.0
Le Liu, Jieren Cheng, Boyi Liu, Yue Yang, Ke Zhou, Qiaobo Da(参考訳) 教師なしドメイン適応(unsupervised domain adaptation)は、ラベル付きソースドメインからモデルをトレーニングして、2つのドメインのデータ分散が異なる場合にラベルなしターゲットドメインで予測することを目的とする。 結果として、モデルの一般化能力を改善するために、2つのドメイン間のデータ分散差を減らす必要がある。 既存のメソッドは2つのドメインをドメインレベルに直接アライメントするか、あるいは深い機能に基づいてクラスレベルのドメインアライメントを実行する傾向があります。 前者は2つのドメインの様々なクラス間の関係を無視し、後者はターゲットドメインの擬似ラベルを導入することでそれを緩和するが、浅い特徴表現でクラスレベルのアライメントを実行することが重要であるとは考えていない。 本稿では,クラスレベルアライメントの手法について述べる。 提案手法は,2つの領域間の差を劇的に低減する。 2つのドメインがラベル空間を共有する場合、クラスレベルのアライメントはMLFCNet(Multi-Level Feature Contrastive Networks)を導入して実装される。 実際には、対象領域のサンプルのカテゴリは利用できないため、クラスタリングアルゴリズムを用いて擬似ラベルを取得し、さらに、より正確なクラスレベルのアライメントを実現するために、MLCD(Multi-Level Contrastive Discrepancy)の損失を最小限に抑える。 ImageCLEF-DA、Office-31、Office-Homeの3つの実世界のベンチマークの実験では、MLFCNetは既存の最先端ドメイン適応手法と好意的に比較されている。

Unsupervised domain adaptation aims to train a model from the labeled source domain to make predictions on the unlabeled target domain when the data distribution of the two domains is different. As a result, it needs to reduce the data distribution difference between the two domains to improve the model's generalization ability. Existing methods tend to align the two domains directly at the domain-level, or perform class-level domain alignment based on deep feature. The former ignores the relationship between the various classes in the two domains, which may cause serious negative transfer, the latter alleviates it by introducing pseudo-labels of the target domain, but it does not consider the importance of performing class-level alignment on shallow feature representations. In this paper, we develop this work on the method of class-level alignment. The proposed method reduces the difference between two domains dramaticlly by aligning multi-level features. In the case that the two domains share the label space, the class-level alignment is implemented by introducing Multi-Level Feature Contrastive Networks (MLFCNet). In practice, since the categories of samples in target domain are unavailable, we iteratively use clustering algorithm to obtain the pseudo-labels, and then minimize Multi-Level Contrastive Discrepancy (MLCD) loss to achieve more accurate class-level alignment. Experiments on three real-world benchmarks ImageCLEF-DA, Office-31 and Office-Home demonstrate that MLFCNet compares favorably against the existing state-of-the-art domain adaptation methods.
翻訳日:2021-09-16 00:08:02 公開日:2021-09-14
# (参考訳) スナップショット圧縮撮像に先立って3D-CNNを用いた深部展開ネットワーク

Dense Deep Unfolding Network with 3D-CNN Prior for Snapshot Compressive Imaging ( http://arxiv.org/abs/2109.06548v1 )

ライセンス: CC BY 4.0
Zhuoyuan Wu, Jian Zhang, Chong Mou(参考訳) snap compressive imaging (sci) は、2次元カメラを通して3次元の信号を記録することを目的としている。 高速で正確なsciリカバリアルゴリズムを構築するために,モデルベース手法の解釈可能性と学習ベース手法の高速化を取り入れ,sciに先立って3d-cnnを用いた新しい高密度深層展開ネットワーク(dun)を提案し,各フェーズを半量子分割(hqs)の反復から展開する。 フレーム間の空間的時間的相関をよりよく活用し, 既存のDUNの隣接位相間の情報損失問題に対処するために, 近位写像モジュールに先立って3D-CNNを採用し, 新たな高密度特徴写像(DFM)戦略を開発することを提案する。 さらに,ネットワークのロバスト性を促進するため,相間情報を適応的に融合させる高密度特徴写像適応(DFMA)モジュールを提案する。 すべてのパラメータはエンドツーエンドで学習される。 シミュレーションデータと実データに関する大規模な実験により,本手法の優位性を検証した。 ソースコードはhttps://github.com/j ianzhangcs/SCI3Dで入手できる。

Snapshot compressive imaging (SCI) aims to record three-dimensional signals via a two-dimensional camera. For the sake of building a fast and accurate SCI recovery algorithm, we incorporate the interpretability of model-based methods and the speed of learning-based ones and present a novel dense deep unfolding network (DUN) with 3D-CNN prior for SCI, where each phase is unrolled from an iteration of Half-Quadratic Splitting (HQS). To better exploit the spatial-temporal correlation among frames and address the problem of information loss between adjacent phases in existing DUNs, we propose to adopt the 3D-CNN prior in our proximal mapping module and develop a novel dense feature map (DFM) strategy, respectively. Besides, in order to promote network robustness, we further propose a dense feature map adaption (DFMA) module to allow inter-phase information to fuse adaptively. All the parameters are learned in an end-to-end fashion. Extensive experiments on simulation data and real data verify the superiority of our method. The source code is available at https://github.com/j ianzhangcs/SCI3D.
翻訳日:2021-09-15 23:52:02 公開日:2021-09-14
# (参考訳) 自己制御型自律エージェントのための連続的ホメオスタティック強化学習 [全文訳有]

Continuous Homeostatic Reinforcement Learning for Self-Regulated Autonomous Agents ( http://arxiv.org/abs/2109.06580v1 )

ライセンス: CC BY 4.0
Hugo Lauren\c{c}on, Charbel-Rapha\"el S\'egerie, Johann Lussange, Boris S. Gutkin(参考訳) ホメオスタシス(homeostasis)は、生物が最適なレベルで内部ミリューを維持する一般的なプロセスである。 複数の証拠は、生物がホメオスタシス(アロスタシス)を予防するために行動することを学ぶことを示唆している。 そのような規制の古典的な理論は、電流と最適内部状態の差の関数である駆動還元である。 最近導入されたホメオスタティック強化学習理論(HRRL)は、強化学習の枠組みの中で、エージェントの内部状態に基づいて報酬関数を定義することにより、駆動低減理論と強化学習理論の関連性を示すものである。 HRRLは複数の摂食障害を説明することができる。 しかしながら、離散時間モデリングによるエージェントの内部状態の連続的な変化の欠如は、hrrl理論の重要な欠点となっている。 本稿では,理論結果の妥当性とモデルで説明される動作を離散時間で維持しながら,時空の連続環境にホメオスタティック強化学習理論を拡張することを提案する。 また, 生物に豊富に存在する自己調節機構に着想を得て, ホメオスタシスを持続的に維持するためには, エージェントの内部状態のダイナミクスモデルも導入する。 ハミルトン・ヤコビ・ベルマン方程式とニューラルネットワークとの関数近似に基づいて,エージェントが内部機構を直接学習し,強化学習と環境の適切な探索を通じて適切な行動方針を選択するための数値スキームを導出する。 数値実験により, エージェントは環境中での生存に有益な振る舞いを学習し, 動物動態と意思決定をモデル化するための枠組みが期待できることがわかった。

Homeostasis is a prevalent process by which living beings maintain their internal milieu around optimal levels. Multiple lines of evidence suggest that living beings learn to act to predicatively ensure homeostasis (allostasis). A classical theory for such regulation is drive reduction, where a function of the difference between the current and the optimal internal state. The recently introduced homeostatic regulated reinforcement learning theory (HRRL), by defining within the framework of reinforcement learning a reward function based on the internal state of the agent, makes the link between the theories of drive reduction and reinforcement learning. The HRRL makes it possible to explain multiple eating disorders. However, the lack of continuous change in the internal state of the agent with the discrete-time modeling has been so far a key shortcoming of the HRRL theory. Here, we propose an extension of the homeostatic reinforcement learning theory to a continuous environment in space and time, while maintaining the validity of the theoretical results and the behaviors explained by the model in discrete time. Inspired by the self-regulating mechanisms abundantly present in biology, we also introduce a model for the dynamics of the agent internal state, requiring the agent to continuously take actions to maintain homeostasis. Based on the Hamilton-Jacobi-Bell man equation and function approximation with neural networks, we derive a numerical scheme allowing the agent to learn directly how its internal mechanism works, and to choose appropriate action policies via reinforcement learning and an appropriate exploration of the environment. Our numerical experiments show that the agent does indeed learn to behave in a way that is beneficial to its survival in the environment, making our framework promising for modeling animal dynamics and decision-making.
翻訳日:2021-09-15 23:51:05 公開日:2021-09-14
# (参考訳) MDAPT:単一モデルにおける多言語ドメイン適応事前学習 [全文訳有]

MDAPT: Multilingual Domain Adaptive Pretraining in a Single Model ( http://arxiv.org/abs/2109.06605v1 )

ライセンス: CC BY 4.0
Rasmus K{\ae}r J{\o}rgensen and Mareike Hartmann and Xiang Dai and Desmond Elliott(参考訳) ドメイン適応事前学習(ドメイン固有テキスト上での言語モデルの教師なし事前訓練)は、ドメイン内の下流タスクのためのテキストのモデリングを改善する。 多くの現実世界のアプリケーションは、例えば金融文書や生物医学文書を扱うなど、ドメイン固有のテキストに基づいており、これらのアプリケーションは、しばしば複数の言語をサポートする必要がある。 しかし、そのようなシナリオに対する大規模ドメイン固有の多言語事前学習データは、規制、法律、あるいは単に言語やドメイン固有のテキストが欠如しているため、入手が困難である。 1つの解決策は、できるだけ多くの言語で利用可能なデータを活用する、単一の多言語モデルをトレーニングすることである。 本稿では、特定のドメイン内の複数の言語に適応することに焦点を当て、ドメイン適応事前トレーニングの利点を探求する。 言語モデルがドメイン特化と多言語化の両立を可能にする,事前学習コーパスを構成するための異なる手法を提案する。 生物医学的な名前付きエンティティ認識と金融文分類を対象とする9つのドメイン固有データセットの評価から,単一の多言語ドメイン固有モデルが一般的な多言語モデルを上回る性能を示し,そのモノリンガルモデルに近い性能を示す。 この発見は、アダプタベースの事前トレーニングとフルモデル事前トレーニングという、2つの異なる事前トレーニング方法にまたがる。

Domain adaptive pretraining, i.e. the continued unsupervised pretraining of a language model on domain-specific text, improves the modelling of text for downstream tasks within the domain. Numerous real-world applications are based on domain-specific text, e.g. working with financial or biomedical documents, and these applications often need to support multiple languages. However, large-scale domain-specific multilingual pretraining data for such scenarios can be difficult to obtain, due to regulations, legislation, or simply a lack of language- and domain-specific text. One solution is to train a single multilingual model, taking advantage of the data available in as many languages as possible. In this work, we explore the benefits of domain adaptive pretraining with a focus on adapting to multiple languages within a specific domain. We propose different techniques to compose pretraining corpora that enable a language model to both become domain-specific and multilingual. Evaluation on nine domain-specific datasets-for biomedical named entity recognition and financial sentence classification-cover ing seven different languages show that a single multilingual domain-specific model can outperform the general multilingual model, and performs close to its monolingual counterpart. This finding holds across two different pretraining methods, adapter-based pretraining and full model pretraining.
翻訳日:2021-09-15 23:35:20 公開日:2021-09-14
# (参考訳) 辞書学習の統計的限界:確率行列理論とスペクトル複製法

Statistical limits of dictionary learning: random matrix theory and the spectral replica method ( http://arxiv.org/abs/2109.06610v1 )

ライセンス: CC BY 4.0
Jean Barbier and Nicolas Macris(参考訳) 我々は、行列がシステムサイズと線形に成長する困難な状況下で、ベイズ最適設定における行列記述と辞書学習の複雑なモデルを考える。 これは、低位制(すなわち定位制)に関する既存の文献のほとんどとは対照的である。 まず,ランダム行列理論の標準手法を用いて,相互情報と最小平均二乗誤差を計算可能な回転不変行列除算問題のクラスを考える。 次に、辞書学習のより困難なモデルを分析する。 そこで本稿では, 統計力学からのレプリカ法と, ランダム行列理論, スペクトル複製法を組み合わせた新しい組み合わせを提案する。 これにより,隠れ表現と雑音データとの相互情報と,最適な再構成誤差を定量化する重なりに関する変分公式を推測することができる。 提案手法は、自由度数を$\theta(n^2)$(行列エントリ)から$\theta(n)$(固有値または特異値)に削減し、物理学における行列モデルを想起させる相互情報のクーロンガス表現を生成する。 主な材料は、ある重なり行列の固有値(または特異値)の確率分布のレベルにおいて、HarishChandra-Itzyks on-Zuber 球面積分と新しいレプリカ対称デカップリングアンサッツの組み合わせである。

We consider increasingly complex models of matrix denoising and dictionary learning in the Bayes-optimal setting, in the challenging regime where the matrices to infer have a rank growing linearly with the system size. This is in contrast with most existing literature concerned with the low-rank (i.e., constant-rank) regime. We first consider a class of rotationally invariant matrix denoising problems whose mutual information and minimum mean-square error are computable using standard techniques from random matrix theory. Next, we analyze the more challenging models of dictionary learning. To do so we introduce a novel combination of the replica method from statistical mechanics together with random matrix theory, coined spectral replica method. It allows us to conjecture variational formulas for the mutual information between hidden representations and the noisy data as well as for the overlaps quantifying the optimal reconstruction error. The proposed methods reduce the number of degrees of freedom from $\Theta(N^2)$ (matrix entries) to $\Theta(N)$ (eigenvalues or singular values), and yield Coulomb gas representations of the mutual information which are reminiscent of matrix models in physics. The main ingredients are the use of HarishChandra-Itzyks on-Zuber spherical integrals combined with a new replica symmetric decoupling ansatz at the level of the probability distributions of eigenvalues (or singular values) of certain overlap matrices.
翻訳日:2021-09-15 23:16:28 公開日:2021-09-14
# (参考訳) 画像復元のための動的注意グラフ学習 [全文訳有]

Dynamic Attentive Graph Learning for Image Restoration ( http://arxiv.org/abs/2109.06620v1 )

ライセンス: CC BY 4.0
Chong Mou, Jian Zhang, Zhuoyuan Wu(参考訳) 自然画像における非局所的自己相似性は,画像復元に有効な前兆であることが確認されている。 しかしながら、既存のディープ非ローカルメソッドの多くは、非ローカル相関のダイナミクスを無視して、クエリ項目毎に固定数の近傍を割り当てている。 さらに、非局所相関は通常ピクセルに基づいており、画像劣化により偏りが生じる傾向がある。 本稿では,これらの弱点を解消するために,画像復元のためのパッチレベルの非局所的動的特性を探索する動的注意グラフ学習モデル(DAGL)を提案する。 具体的には,各ノードの動的かつ適応的な隣接数のグラフ畳み込みを行うための改良グラフモデルを提案する。 このようにして、画像コンテンツは、接続された隣人の数によって、過スムースやオーバーシャープのアーティファクトを適応的にバランスさせることができる。 合成画像のデノイジング,実画像のデノイジング,画像のデノイジング,圧縮アーティファクト低減などの様々な画像復元タスクにおける実験結果から,daglは精度と画質に優れた最先端の結果を生成できることがわかった。 ソースコードはhttps://github.com/j ianzhangcs/DAGLで入手できる。

Non-local self-similarity in natural images has been verified to be an effective prior for image restoration. However, most existing deep non-local methods assign a fixed number of neighbors for each query item, neglecting the dynamics of non-local correlations. Moreover, the non-local correlations are usually based on pixels, prone to be biased due to image degradation. To rectify these weaknesses, in this paper, we propose a dynamic attentive graph learning model (DAGL) to explore the dynamic non-local property on patch level for image restoration. Specifically, we propose an improved graph model to perform patch-wise graph convolution with a dynamic and adaptive number of neighbors for each node. In this way, image content can adaptively balance over-smooth and over-sharp artifacts through the number of its connected neighbors, and the patch-wise non-local correlations can enhance the message passing process. Experimental results on various image restoration tasks: synthetic image denoising, real image denoising, image demosaicing, and compression artifact reduction show that our DAGL can produce state-of-the-art results with superior accuracy and visual quality. The source code is available at https://github.com/j ianzhangcs/DAGL.
翻訳日:2021-09-15 23:15:10 公開日:2021-09-14
# (参考訳) 深層強化学習によるサッカーの批判的状況におけるアクションの最適化に向けて [全文訳有]

Towards optimized actions in critical situations of soccer games with deep reinforcement learning ( http://arxiv.org/abs/2109.06625v1 )

ライセンス: CC0 1.0
Pegah Rahimian and Afshin Oroojlooy and Laszlo Toka(参考訳) サッカーはささやかな報酬ゲームであり、重要な状況においてスマートで不注意なアクションは試合の結果を変えることができる。 そのため、選手、コーチ、スカウトは皆、ボールの所有を失ったりゴールを決めたりする確率の高い時間など、重要な状況で実行すべき最善の行動に興味を持っている。 本研究は,サッカーゲームにおける新しい状態表現と,スマートポリシーネットワークをトレーニングするためのバッチ強化学習を提案する。 このネットワークは状況のコンテキスト情報を取得し、チームが期待するゴールを最大化するための最適な行動を提案する。 欧州サッカー104試合において,instatによるサッカーログの数値実験を行った。 その結果,全104ゲームにおいて,最適化されたポリシーは行動ポリシーよりも高い報酬を得ることがわかった。 さらに,我々のフレームワークは,現実世界で期待される行動に近い政策を学習する。 例えば、最適化されたポリシーでは、特定の状況ではショットよりもファウルやボールアウトのようなアクションの方が報酬になることがある。

Soccer is a sparse rewarding game: any smart or careless action in critical situations can change the result of the match. Therefore players, coaches, and scouts are all curious about the best action to be performed in critical situations, such as the times with a high probability of losing ball possession or scoring a goal. This work proposes a new state representation for the soccer game and a batch reinforcement learning to train a smart policy network. This network gets the contextual information of the situation and proposes the optimal action to maximize the expected goal for the team. We performed extensive numerical experiments on the soccer logs made by InStat for 104 European soccer matches. The results show that in all 104 games, the optimized policy obtains higher rewards than its counterpart in the behavior policy. Besides, our framework learns policies that are close to the expected behavior in the real world. For instance, in the optimized policy, we observe that some actions such as foul, or ball out can be sometimes more rewarding than a shot in specific situations.
翻訳日:2021-09-15 23:02:14 公開日:2021-09-14
# (参考訳) 意味的役割ラベリングのためのmrcフレームワーク [全文訳有]

An MRC Framework for Semantic Role Labeling ( http://arxiv.org/abs/2109.06660v1 )

ライセンス: CC BY 4.0
Nan Wang, Jiwei Li, Yuxian Meng, Xiaofei Sun, Jun He(参考訳) 意味的役割ラベリング(srl)は、文の述語-節構造を認識することを目的としており、述語不曖昧化と引数ラベリングの2つのサブタスクに分解することができる。 先行作業は、これら2つのタスクを独立して処理し、2つのタスク間のセマンティックな接続を無視する。 本稿では,このギャップを埋めるために,機械読影理解(MRC)フレームワークを提案する。 任意の述語候補の感覚記述を正しい感覚選択の選択肢として用いるマルチチョース機械読み理解として述語不曖昧化を定式化する。 選択された述語感覚は、その述語の意味的役割を決定するために使用され、これらの意味的役割は、引数ラベルのための別のMCCモデルのクエリを構築するために使用される。 このようにして、述語意味論と、引数ラベリングのための意味的役割意味論の両方を活用できる。 また、計算効率のために考えられる全ての意味的役割のサブセットを選択することを提案する。 実験の結果,提案したフレームワークは,スパンベンチマークと依存性ベンチマークの両方で最先端の結果が得られた。

Semantic Role Labeling (SRL) aims at recognizing the predicate-argument structure of a sentence and can be decomposed into two subtasks: predicate disambiguation and argument labeling. Prior work deals with these two tasks independently, which ignores the semantic connection between the two tasks. In this paper, we propose to use the machine reading comprehension (MRC) framework to bridge this gap. We formalize predicate disambiguation as multiple-choice machine reading comprehension, where the descriptions of candidate senses of a given predicate are used as options to select the correct sense. The chosen predicate sense is then used to determine the semantic roles for that predicate, and these semantic roles are used to construct the query for another MRC model for argument labeling. In this way, we are able to leverage both the predicate semantics and the semantic role semantics for argument labeling. We also propose to select a subset of all the possible semantic roles for computational efficiency. Experiments show that the proposed framework achieves state-of-the-art results on both span and dependency benchmarks.
翻訳日:2021-09-15 22:45:57 公開日:2021-09-14
# (参考訳) 対照的に学習された意味空間を用いたアレン基準アトラスからの部分マウス脳顕微鏡像の同定 [全文訳有]

Identifying partial mouse brain microscopy images from Allen reference atlas using a contrastively learned semantic space ( http://arxiv.org/abs/2109.06662v1 )

ライセンス: CC BY 4.0
Justinas Antanavicius, Roberto Leiras Gonzalez, Raghavendra Selvan(参考訳) マウス脳の解剖学的構造を基準アトラスに登録する場合、マウス脳顕微鏡画像の正確な同定は重要な第一歩である。 実践者は、通常、完全な画像が存在すると仮定する画像やツールを手動で比較する。 本研究は、与えられた2次元マウス脳画像に対して対応する2次元参照アトラスプレートを探索する方法として、シアムネットワークを探索する。 siamese networkは、重みの共有パスを使用して入力画像のペアの低次元埋め込みを得る畳み込みニューラルネットワーク(cnns)のクラスである。 部分的マウス脳画像と参照アトラスプレートとの対応は、対照学習を用いてシャムネットワークから得られる脳スライスの低次元埋め込みとアトラスプレートとの間の距離に基づいて決定される。 実験の結果、Samese CNNは、同じソースから画像のトレーニングやテストを行うときに、アレンマウスの脳アトラスを使って脳のスライスを正確に識別できることがわかった。 TOP-1とTOP-5の精度はそれぞれ25%と100%で、29枚の画像を特定するのにわずか7.2秒しかかからなかった。

Precise identification of mouse brain microscopy images is a crucial first step when anatomical structures in the mouse brain are to be registered to a reference atlas. Practitioners usually rely on manual comparison of images or tools that assume the presence of complete images. This work explores Siamese Networks as the method for finding corresponding 2D reference atlas plates for given partial 2D mouse brain images. Siamese networks are a class of convolutional neural networks (CNNs) that use weight-shared paths to obtain low dimensional embeddings of pairs of input images. The correspondence between the partial mouse brain image and reference atlas plate is determined based on the distance between low dimensional embeddings of brain slices and atlas plates that are obtained from Siamese networks using contrastive learning. Experiments showed that Siamese CNNs can precisely identify brain slices using the Allen mouse brain atlas when training and testing images come from the same source. They achieved TOP-1 and TOP-5 accuracy of 25% and 100%, respectively, taking only 7.2 seconds to identify 29 images.
翻訳日:2021-09-15 22:31:06 公開日:2021-09-14
# (参考訳) LRWR:ロシア語による唇読解のための大規模ベンチマーク [全文訳有]

LRWR: Large-Scale Benchmark for Lip Reading in Russian language ( http://arxiv.org/abs/2109.06692v1 )

ライセンス: CC BY 4.0
Evgeniy Egorov, Vasily Kostyumov, Mikhail Konyk, Sergey Kolesnikov(参考訳) 視覚的音声認識としても知られるLipreadingは、唇とその周辺領域の視覚的変形を分析して、ビデオから音声の内容を特定することを目的としている。 この分野での研究の大きな障害の1つは、様々な言語のための適切なデータセットが欠如していることである。 本稿では,235のクラスと135の話者を含むロシア語のLipreadingを自然に分散した大規模ベンチマークであるLRWRを提案する。 データセット収集パイプラインとデータセット統計の詳細な説明を提供する。 また,lrwrにおける現在一般的なリップリード手法の包括的比較を行い,その性能の詳細な解析を行った。 その結果,ベンチマーク言語間の差異が示され,リップリーディングモデルの微調整に期待できる方向がいくつか提示された。 以上の結果から,LRWベンチマークによる最新の結果も得られた。

Lipreading, also known as visual speech recognition, aims to identify the speech content from videos by analyzing the visual deformations of lips and nearby areas. One of the significant obstacles for research in this field is the lack of proper datasets for a wide variety of languages: so far, these methods have been focused only on English or Chinese. In this paper, we introduce a naturally distributed large-scale benchmark for lipreading in Russian language, named LRWR, which contains 235 classes and 135 speakers. We provide a detailed description of the dataset collection pipeline and dataset statistics. We also present a comprehensive comparison of the current popular lipreading methods on LRWR and conduct a detailed analysis of their performance. The results demonstrate the differences between the benchmarked languages and provide several promising directions for lipreading models finetuning. Thanks to our findings, we also achieved new state-of-the-art results on the LRW benchmark.
翻訳日:2021-09-15 22:21:59 公開日:2021-09-14
# (参考訳) 呼吸障害シミュレーション装置:サロゲートデータの物理的有意義な生成 [全文訳有]

An Apparatus for the Simulation of Breathing Disorders: Physically Meaningful Generation of Surrogate Data ( http://arxiv.org/abs/2109.06699v1 )

ライセンス: CC BY-SA 4.0
Harry J. Davies, Ghena Hammour and Danilo P. Mandic(参考訳) 慢性閉塞性肺疾患 (COPD) などの呼吸障害が急速に流行しているが, 人工知能の医療への統合は継続している。 これは呼吸障害の検出とモニタリングを改善することを約束するが、AI技術は「データ空腹」であり、物理的に意味のある代理データを生成することの重要性を強調している。 このようなドメイン知識を意識したサロゲートは、異なる呼吸障害と異なる重症度で呼吸波形の変化を改良し、機械学習アルゴリズムのトレーニングを強化する。 そこで本研究では,健常者における閉塞性および拘束性呼吸波形のシミュレーション方法として,PVCチューブと3Dプリント部品からなる装置を導入する。 呼吸抵抗と呼吸抵抗の両方を独立に制御することで、慢性閉塞性肺疾患で見られる健康的な値から値まで、FEV1/FVC呼吸計比(COPDの分類に使用される)の全スペクトルを通して閉塞性呼吸障害をシミュレーションすることができる。 また、人工呼吸障害シミュレーション装置の使用による波形にも、呼吸デューティサイクルの変化やピークフローなどの呼吸障害の波形特性が観察される。 全体として,本装置は呼吸障害波形の生成に簡便で効果的かつ物理的に有意義な方法であり,呼吸健康における人工知能の利用に必須の前提条件である。

Whilst debilitating breathing disorders, such as chronic obstructive pulmonary disease (COPD), are rapidly increasing in prevalence, we witness a continued integration of artificial intelligence into healthcare. While this promises improved detection and monitoring of breathing disorders, AI techniques are "data hungry" which highlights the importance of generating physically meaningful surrogate data. Such domain knowledge aware surrogates would enable both an improved understanding of respiratory waveform changes with different breathing disorders and different severities, and enhance the training of machine learning algorithms. To this end, we introduce an apparatus comprising of PVC tubes and 3D printed parts as a simple yet effective method of simulating both obstructive and restrictive respiratory waveforms in healthy subjects. Independent control over both inspiratory and expiratory resistances allows for the simulation of obstructive breathing disorders through the whole spectrum of FEV1/FVC spirometry ratios (used to classify COPD), ranging from healthy values to values seen in severe chronic obstructive pulmonary disease. Moreover, waveform characteristics of breathing disorders, such as a change in inspiratory duty cycle or peak flow are also observed in the waveforms resulting from use of the artificial breathing disorder simulation apparatus. Overall, the proposed apparatus provides us with a simple, effective and physically meaningful way to generate surrogate breathing disorder waveforms, a prerequisite for the use of artificial intelligence in respiratory health.
翻訳日:2021-09-15 22:12:57 公開日:2021-09-14
# (参考訳) ロシアにおける科学文献からの情報抽出システム [全文訳有]

A system for information extraction from scientific texts in Russian ( http://arxiv.org/abs/2109.06703v1 )

ライセンス: CC BY 4.0
Elena Bruches, Anastasia Mezentseva, Tatiana Batura(参考訳) 本稿では,ロシア語の科学的テキストから情報抽出を行うシステムについて述べる。 このシステムは、用語認識、用語間の関係の抽出、知識ベースからエンティティとリンクする用語など、エンドツーエンドで複数のタスクを実行する。 これらのタスクは、情報検索、レコメンデーションシステム、分類において極めて重要である。 実装された手法の利点は、システムが大量のラベル付きデータを必要とせず、データラベリングの時間と労力を節約し、低リソースと中リソースの設定に適用できることである。 ソースコードは公開されており、異なる研究目的で使用することができる。

In this paper, we present a system for information extraction from scientific texts in the Russian language. The system performs several tasks in an end-to-end manner: term recognition, extraction of relations between terms, and term linking with entities from the knowledge base. These tasks are extremely important for information retrieval, recommendation systems, and classification. The advantage of the implemented methods is that the system does not require a large amount of labeled data, which saves time and effort for data labeling and therefore can be applied in low- and mid-resource settings. The source code is publicly available and can be used for different research purposes.
翻訳日:2021-09-15 22:06:40 公開日:2021-09-14
# (参考訳) KFCNet:生成コモンセンス推論のための知識フィルタリングとコントラスト学習ネットワーク [全文訳有]

KFCNet: Knowledge Filtering and Contrastive Learning Network for Generative Commonsense Reasoning ( http://arxiv.org/abs/2109.06704v1 )

ライセンス: CC BY 4.0
Haonan Li, Yeyun Gong, Jian Jiao, Ruofei Zhang, Timothy Baldwin, Nan Duan(参考訳) 事前学習された言語モデルは、幅広い自然言語処理(NLP)タスクよりも大幅に向上したが、コモンセンス生成や広告キーワード生成などの出力に高品質な要求がある自然言語生成タスクには制限があることが示されている。 本研究では,外部知識を参照し,より優れた生成性能を実現する新しい知識フィルタリング・コントラスト学習ネットワーク(KFCNet)を提案する。 具体的には, 一般のエンコーダ-デコーダアーキテクチャにおいて, 低品質の候補を取り除き, エンコーダとデコーダそれぞれに個別にコントラスト学習を適用するbertベースのフィルタモデルを提案する。 エンコーダコントラストモジュールはエンコーディング中にグローバルなターゲットセマンティクスをキャプチャするのに役立ち、デコーダコントラストモジュールは一般的な特徴を学習しながら、検索されたプロトタイプの有用性を高める。 コモンゲンベンチマークの広範な実験により、我々のモデルは、bleu-4では+6.6ポイント(42.5対35.9)、スパイスでは+3.7ポイント(33.3対29.6)、サイダーでは+1.3ポイント(18.3対17.0)という大差で先行技術を上回ることが示された。 提案するコントラストモジュールが広告キーワード生成に与える影響をさらに検証し,本モデルが商業的価値を持つ可能性を示す。

Pre-trained language models have led to substantial gains over a broad range of natural language processing (NLP) tasks, but have been shown to have limitations for natural language generation tasks with high-quality requirements on the output, such as commonsense generation and ad keyword generation. In this work, we present a novel Knowledge Filtering and Contrastive learning Network (KFCNet) which references external knowledge and achieves better generation performance. Specifically, we propose a BERT-based filter model to remove low-quality candidates, and apply contrastive learning separately to each of the encoder and decoder, within a general encoder--decoder architecture. The encoder contrastive module helps to capture global target semantics during encoding, and the decoder contrastive module enhances the utility of retrieved prototypes while learning general features. Extensive experiments on the CommonGen benchmark show that our model outperforms the previous state of the art by a large margin: +6.6 points (42.5 vs. 35.9) for BLEU-4, +3.7 points (33.3 vs. 29.6) for SPICE, and +1.3 points (18.3 vs. 17.0) for CIDEr. We further verify the effectiveness of the proposed contrastive module on ad keyword generation, and show that our model has potential commercial value.
翻訳日:2021-09-15 21:57:17 公開日:2021-09-14
# (参考訳) EHRデータから平均治療効果を推定するための実用的アプローチ : 機械的換気型COVID-19患者に対する利き位置の影響 [全文訳有]

A pragmatic approach to estimating average treatment effects from EHR data: the effect of prone positioning on mechanically ventilated COVID-19 patients ( http://arxiv.org/abs/2109.06707v1 )

ライセンス: CC BY 4.0
Adam Izdebski, Patrick J Thoral, Robbert C A Lalisang, Dean M McHugh, Robert Entjes, Nardo J M van der Meer, Dave A Dongelmans, Age D Boelens, Sander Rigter, Stefaan H A Hendriks, Remko de Jong, Marlijn J A Kamps, Marco Peters, A Karakus, Diederik Gommers, Dharmanand Ramnarain, Evert-Jan Wils, Sefanja Achterberg, Ralph Nowitzky, Walter van den Tempel, Cornelis P C de Jager, Fleur G C A Nooteboom, Evelien Oostdijk, Peter Koetsier, Alexander D Cornet, Auke C Reidinga, Wouter de Ruijter, Rob J Bosman, Tim Frenzel, Louise C Urlings-Strop, Paul de Jong, Ellen G M Smit, Olaf L Cremer, Frits H M van Osch, Harald J Faber, Judith Lens, Gert B Brunnekreef, Barbara Festen-Spanjer, Tom Dormans, Bram Simons, A A Rijkeboer, Annemieke Dijkstra, Sesmu Arbous, Marcel Aries, Menno Beukema, Rutger van Raalte, Martijn van Tellingen, Niels C Gritters van den Oever, Paul W G Elbers, Giovanni Cin\`a(参考訳) 因果推論の分野の最近の進歩にもかかわらず、現在まで観察データから治療効果を推定する手法は合意されていない。 臨床実践の結果として、ランダムな臨床試験の結果が得られていない場合、医療従事者は現実のシナリオで有効と思われるものについてのガイダンスが残される。 本稿では,観察研究から治療効果を予備評価するための実用的手法を紹介する。 本研究は, プロニング操作が酸素濃度に及ぼす影響を, 集中治療患者のコホートで評価した。 我々は,最近のプロニング用rct(proseva試験)の研究設計をモデル化した。 オランダ25病院から得られた第1波covid-19 icu患者データから得られた観察データから,線形回帰,ブロッキング,dr-ipw,bart,および2種類の偽回帰モデルを用いた。 745名の機械的換気患者の6371点を対象とした。 プロニング後2時間から8時間までのP/F比は、モデルによって14.54から20.11mm Hgと見積もられた。 プロニング後12時間から24時間までの酸素処理の遅延効果は13.53から15.26mm Hgと推定された。 すべての信頼区間がゼロ以上であることから、プロニングがcovid-19患者の酸素化に及ぼす影響は陽性であり、非covid-19患者に対する影響に匹敵する程度であった。 これらの結果は、新型コロナウイルス患者の治療効果に関するさらなる証拠となる。 本研究は,オープンソースコードとともに,RTTデータ不足のシナリオにおける治療効果推定の青写真を提供する。 資金提供: SIDN Fund、CovidPredict Consortium、Pacmed。

Despite the recent progress in the field of causal inference, to date there is no agreed upon methodology to glean treatment effect estimation from observational data. The consequence on clinical practice is that, when lacking results from a randomized trial, medical personnel is left without guidance on what seems to be effective in a real-world scenario. This article showcases a pragmatic methodology to obtain preliminary estimation of treatment effect from observational studies. Our approach was tested on the estimation of treatment effect of the proning maneuver on oxygenation levels, on a cohort of COVID-19 Intensive Care patients. We modeled our study design on a recent RCT for proning (the PROSEVA trial). Linear regression, propensity score models such as blocking and DR-IPW, BART and two versions of Counterfactual Regression were employed to provide estimates on observational data comprising first wave COVID-19 ICU patient data from 25 Dutch hospitals. 6371 data points, from 745 mechanically ventilated patients, were included in the study. Estimates for the early effect of proning -- P/F ratio from 2 to 8 hours after proning -- ranged between 14.54 and 20.11 mm Hg depending on the model. Estimates for the late effect of proning -- oxygenation from 12 to 24 hours after proning -- ranged between 13.53 and 15.26 mm Hg. All confidence interval being strictly above zero indicated that the effect of proning on oxygenation for COVID-19 patient was positive and comparable in magnitude to the effect on non COVID-19 patients. These results provide further evidence on the effectiveness of proning on the treatment of COVID-19 patients. This study, along with the accompanying open-source code, provides a blueprint for treatment effect estimation in scenarios where RCT data is lacking. Funding: SIDN fund, CovidPredict consortium, Pacmed.
翻訳日:2021-09-15 21:41:02 公開日:2021-09-14
# (参考訳) オーバーラップ通信と計算とチャネル対応公正クライアントスケジューリングによる高速フェデレーションエッジ学習 [全文訳有]

Fast Federated Edge Learning with Overlapped Communication and Computation and Channel-Aware Fair Client Scheduling ( http://arxiv.org/abs/2109.06710v1 )

ライセンス: CC BY 4.0
Mehmet Emre Ozfatura, Junlin Zhao, and Deniz G\"und\"uz(参考訳) 我々は,ダウンリンクとアップリンクチャネルの遅延とクライアントのランダムな計算遅延を考慮した無線フェージングチャネル上でのフェデレーションエッジ学習(feel)を検討する。 我々は,コミュニケーションと計算を重ねることで,学習プロセスを高速化する。 グローバルモデル更新のファウンテンコード送信により、クライアントは非同期にグローバルモデルを受け取り、ローカルな計算をすぐに開始する。 そこで我々は,パラメータサーバ(PS)にローカルモデル更新をアップロードするMRTPと呼ばれる動的クライアントスケジューリングポリシーを提案する。 しかし、MRTPは更新プロセスにおけるクライアントの偏りを招き、非IDデータシナリオのパフォーマンスが低下する可能性がある。 そこで本稿では,年齢を考慮したMRTP (A-MRTP) と,OF-MRTP (OF-MRTP) の2つの方法を提案する。 A-MRTPでは、残りの送信時間と更新時間との比率に応じて残りのクライアントをスケジュールし、OF-MRTPでは、クライアントの長期平均チャネルレートを利用して、クライアントの公正な参加を確保しながら、遅延をさらに低減する。 数値シミュレーションにより,OF-MRTPは試験精度を犠牲にすることなく遅延を著しく低減できることを示した。

We consider federated edge learning (FEEL) over wireless fading channels taking into account the downlink and uplink channel latencies, and the random computation delays at the clients. We speed up the training process by overlapping the communication with computation. With fountain coded transmission of the global model update, clients receive the global model asynchronously, and start performing local computations right away. Then, we propose a dynamic client scheduling policy, called MRTP, for uploading local model updates to the parameter server (PS), which, at any time, schedules the client with the minimum remaining upload time. However, MRTP can lead to biased participation of clients in the update process, resulting in performance degradation in non-iid data scenarios. To overcome this, we propose two alternative schemes with fairness considerations, termed as age-aware MRTP (A-MRTP), and opportunistically fair MRTP (OF-MRTP). In A-MRTP, the remaining clients are scheduled according to the ratio between their remaining transmission time and the update age, while in OF-MRTP, the selection mechanism utilizes the long term average channel rate of the clients to further reduce the latency while ensuring fair participation of the clients. It is shown through numerical simulations that OF-MRTP provides significant reduction in latency without sacrificing test accuracy.
翻訳日:2021-09-15 21:15:04 公開日:2021-09-14
# (参考訳) ISWC SMART Task 2020におけるBERT: IAIを用いた意味解答型予測 [全文訳有]

Semantic Answer Type Prediction using BERT: IAI at the ISWC SMART Task 2020 ( http://arxiv.org/abs/2109.06714v1 )

ライセンス: CC BY 4.0
Vinay Setty and Krisztian Balog(参考訳) 本稿では,ISWC 2020 ChallengeのSMARTタスクへの参加について要約する。 私たちが答えることに興味を持っている特に疑問は、ニューラルメソッド、特にBERTのようなトランスフォーマーモデルが、従来のアプローチと比較して解型予測タスクでどの程度うまく機能するかである。 我々の主な発見は、粗い答え型を95%以上の精度で標準テキスト分類法で効果的に識別できることであり、BERTは限界的な改善しかたらさないことである。 一方、詳細な型検出では、BERTは従来の検索ベースアプローチよりも明らかに優れている。

This paper summarizes our participation in the SMART Task of the ISWC 2020 Challenge. A particular question we are interested in answering is how well neural methods, and specifically transformer models, such as BERT, perform on the answer type prediction task compared to traditional approaches. Our main finding is that coarse-grained answer types can be identified effectively with standard text classification methods, with over 95% accuracy, and BERT can bring only marginal improvements. For fine-grained type detection, on the other hand, BERT clearly outperforms previous retrieval-based approaches.
翻訳日:2021-09-15 21:03:02 公開日:2021-09-14
# (参考訳) 推薦システムにおけるシミュレーション:業界展望 [全文訳有]

Simulations in Recommender Systems: An industry perspective ( http://arxiv.org/abs/2109.06723v1 )

ライセンス: CC BY 4.0
Lucas Bernardi, Sakshi Batra, Cintia Alicia Bruscantini(参考訳) 効果的なレコメンダシステム(rs)の構築は複雑なプロセスであり、主に大規模ソフトウェアシステムとヒューマンインタラクションを含むrssの性質のためである。 反復的な開発プロセスは、現在のベースラインの深い理解と、関心のある複数の変数の変化の影響を見積もる能力を必要とします。 シミュレーションは両方の課題に対処するのに適しており、商業的な文脈における基本的な要件である高速な建設プロセスにつながる可能性がある。 近年、RSシミュレーションプラットフォームに大きな関心が寄せられ、RS開発者は自分のシステムが分析できるシミュレーション環境を簡単に構築できるようになっている。 本稿では,シミュレーションが速度向上にどのように役立つかを論じるとともに,RSシミュレーションプラットフォームに関する文献を考察し,強みとギャップを分析し,RSシミュレーションプラットフォームの設計の指針として,反復的なRS構築プロセスの速度を最大化すると考えている。

The construction of effective Recommender Systems (RS) is a complex process, mainly due to the nature of RSs which involves large scale software-systems and human interactions. Iterative development processes require deep understanding of a current baseline as well as the ability to estimate the impact of changes in multiple variables of interest. Simulations are well suited to address both challenges and potentially leading to a high velocity construction process, a fundamental requirement in commercial contexts. Recently, there has been significant interest in RS Simulation Platforms, which allow RS developers to easily craft simulated environments where their systems can be analysed. In this work we discuss how simulations help to increase velocity, we look at the literature around RS Simulation Platforms, analyse strengths and gaps and distill a set of guiding principles for the design of RS Simulation Platforms that we believe will maximize the velocity of iterative RS construction processes.
翻訳日:2021-09-15 20:55:50 公開日:2021-09-14
# (参考訳) Tuna-AI:海洋学と超音波FADデータに基づく機械学習モデルによるマグロバイオマス推定 [全文訳有]

Tuna-AI: tuna biomass estimation with Machine Learning models trained on oceanography and echosounder FAD data ( http://arxiv.org/abs/2109.06732v1 )

ライセンス: CC BY 4.0
Daniel Precioso, Manuel Navarro-Garc\'ia, Kathryn Gavira-O'Neill, Alberto Torres-Barr\'an, David Gordo, Victor Gallego-Alcal\'a, David G\'omez-Ullate(参考訳) 漂流FADに付加されたブイによって登録されたエコーソーダデータはマグロの個体群とその行動に関する貴重な情報を提供する。 これらのデータをCMEMSから得られた海洋データで補うと、この値が増加する。 我々はこれらの情報源を用いて、マグロ流の日時パターンを3日間のエコーソーダデータを用いて捉え、マグロのバイオマス化を予測する機械学習モデルであるマグロAIを開発した。 トレーニングの指導的信号として,AGACマグロシーヌ艦隊が報告したマグロ捕獲と合わせて5000件以上のイベントを用いる。

Echo-sounder data registered by buoys attached to drifting FADs provide a very valuablesource of information on populations of tuna and their behaviour. This value increases whenthese data are supplemented with oceanographic data coming from CMEMS. We use thesesources to develop Tuna-AI, a Machine Learning model aimed at predicting tuna biomassunder a given buoy, which uses a 3-day window of echo-sounder data to capture the dailyspatio-temporal patterns characteristic of tuna schools. As the supervised signal for training,we employ more than5000set events with their corresponding tuna catch reported by theAGAC tuna purse seine fleet.
翻訳日:2021-09-15 20:49:43 公開日:2021-09-14
# (参考訳) オープンドメイン質問応答のための適応情報探索 [全文訳有]

Adaptive Information Seeking for Open-Domain Question Answering ( http://arxiv.org/abs/2109.06747v1 )

ライセンス: CC BY 4.0
Yunchang Zhu, Liang Pang, Yanyan Lan, Huawei Shen, Xueqi Cheng(参考訳) 情報探索は、オープンドメインの質問応答において重要なステップであり、大規模なコーパスから効率的に証拠を収集する。 近年、反復的アプローチは、各ステップで再帰的に新しい証拠を検索することによって、複雑な問題に有効であることが証明されている。 しかし、既存の反復的手法のほとんど全てが事前定義された戦略を用いており、同じ検索関数を複数回適用するか、異なる検索関数の順序を固定する。 本稿では,オープンドメイン質問応答のための新しい適応型情報探索戦略,すなわちAISOを提案する。 具体的には、3種類の検索操作(例えば、bm25、dpr、ハイパーリンク)と1つの回答操作をアクションとして定義する部分観察マルコフ決定プロセスとして、検索・回答プロセス全体をモデル化する。 学習方針によると、AISOは、収集された証拠と改定されたクエリに基づいて、各ステップで欠落した証拠を求める適切な検索行動を選択したり、その証拠が十分な場合に直接回答を出力することができる。 SQuAD OpenとHotpotQA fullwiki(シングルホップとマルチホップのオープンドメインQAベンチマーク)の実験は、AISOが検索と回答の評価の両方の観点から事前定義された戦略ですべてのベースラインメソッドより優れていることを示している。

Information seeking is an essential step for open-domain question answering to efficiently gather evidence from a large corpus. Recently, iterative approaches have been proven to be effective for complex questions, by recursively retrieving new evidence at each step. However, almost all existing iterative approaches use predefined strategies, either applying the same retrieval function multiple times or fixing the order of different retrieval functions, which cannot fulfill the diverse requirements of various questions. In this paper, we propose a novel adaptive information-seeking strategy for open-domain question answering, namely AISO. Specifically, the whole retrieval and answer process is modeled as a partially observed Markov decision process, where three types of retrieval operations (e.g., BM25, DPR, and hyperlink) and one answer operation are defined as actions. According to the learned policy, AISO could adaptively select a proper retrieval action to seek the missing evidence at each step, based on the collected evidence and the reformulated query, or directly output the answer when the evidence set is sufficient for the question. Experiments on SQuAD Open and HotpotQA fullwiki, which serve as single-hop and multi-hop open-domain QA benchmarks, show that AISO outperforms all baseline methods with predefined strategies in terms of both retrieval and answer evaluations.
翻訳日:2021-09-15 20:31:16 公開日:2021-09-14
# (参考訳) 文字レベル雑音の注入による近接言語間のゼロショット言語間移動の改善 [全文訳有]

Improving Zero-shot Cross-lingual Transfer between Closely Related Languages by injecting Character-level Noise ( http://arxiv.org/abs/2109.06772v1 )

ライセンス: CC BY 4.0
No\"emi Aepli and Rico Sennrich(参考訳) 高リソース言語とその方言や近縁言語との言語間移動は、その類似性によって促進されるべきであるが、埋め込み空間で機能する現在のアプローチは、表面的類似性を考慮していない。 本研究では,文字レベルのノイズを伴って高リソースの親言語のデータを増大させ,スペル変化に対してモデルをより堅牢にすることで,近縁な品種間の言語間移動を改善するための簡易かつ効果的な手法を提案する。 POSタグのゼロショット転送と、ゲルマン語、ウルリク語、ロマンス語からの言語品種間のトピック識別。 本研究は, 言語品種間の移動を改善する上で, 簡易な表面レベルノイズの有用性を示すものである。

Cross-lingual transfer between a high-resource language and its dialects or closely related language varieties should be facilitated by their similarity, but current approaches that operate in the embedding space do not take surface similarity into account. In this work, we present a simple yet effective strategy to improve cross-lingual transfer between closely related varieties by augmenting the data of the high-resource parent language with character-level noise to make the model more robust towards spelling variations. Our strategy shows consistent improvements over several languages and tasks: Zero-shot transfer of POS tagging and topic identification between language varieties from the Germanic, Uralic, and Romance language genera. Our work provides evidence for the usefulness of simple surface-level noise in improving transfer between language varieties.
翻訳日:2021-09-15 20:08:37 公開日:2021-09-14
# (参考訳) 教師なしドライバートレイト推論による交差点のナビゲートの学習 [全文訳有]

Learning to Navigate Intersections with Unsupervised Driver Trait Inference ( http://arxiv.org/abs/2109.06783v1 )

ライセンス: CC BY 4.0
Shuijing Liu, Peixin Chang, Haonan Chen, Neeloy Chakraborty, Katherine Driggs-Campbell(参考訳) 無制御交差点を通るナビゲーションは、自動運転車にとって重要な課題の1つだ。 他のドライバの隠れた特性の微妙な違いを特定することは、そのような環境をナビゲートするときに大きな利点をもたらす。 観測車両軌道から運転スタイルなどの運転特性を推定するための教師なし手法を提案する。 我々は,反復ニューラルネットワークを用いた変分オートエンコーダを用いて,基底的真理ラベルを伴わない特徴の潜在表現を学習する。 そして、この特徴表現を用いて、深い強化学習を伴うT交差点を走行する自動運転車のポリシーを学習する。 当社のパイプラインでは、異なる特性のドライバーを扱う際の動作を調整することで、安全性と効率性を確保することができます。 本手法は,t-intersection シナリオにおいて有望な性能を示し,最先端のベースラインを上回っている。

Navigation through uncontrolled intersections is one of the key challenges for autonomous vehicles. Identifying the subtle differences in hidden traits of other drivers can bring significant benefits when navigating in such environments. We propose an unsupervised method for inferring driver traits such as driving styles from observed vehicle trajectories. We use a variational autoencoder with recurrent neural networks to learn a latent representation of traits without any ground truth trait labels. Then, we use this trait representation to learn a policy for an autonomous vehicle to navigate through a T-intersection with deep reinforcement learning. Our pipeline enables the autonomous vehicle to adjust its actions when dealing with drivers of different traits to ensure safety and efficiency. Our method demonstrates promising performance and outperforms state-of-the-art baselines in the T-intersection scenario.
翻訳日:2021-09-15 19:57:31 公開日:2021-09-14
# (参考訳) ニューラル微分方程式を用いた多重撮影 [全文訳有]

Multiple shooting with neural differential equations ( http://arxiv.org/abs/2109.06786v1 )

ライセンス: CC BY 4.0
Evren Mert Turan and Johannes J\"aschke(参考訳) ニューラル微分方程式は、最近、時系列データをモデル化するための柔軟なデータ駆動/ハイブリッドのアプローチとして現れた。 この研究は、データが振動を含む場合、神経微分方程式の標準的な適合は、データを記述するのに失敗する平坦な軌跡を与える可能性があることを実験的に示す。 次に、本手法の多射法を導入し、標準アプローチが適合しない2つのデータセット(合成および実験)にニューラル微分方程式を適合させる実演を行う。 多重射撃によって導入された制約は、ペナルティまたは拡張ラグランジアン法を用いて満たすことができる。

Neural differential equations have recently emerged as a flexible data-driven/hybrid approach to model time-series data. This work experimentally demonstrates that if the data contains oscillations, then standard fitting of a neural differential equation may give flattened out trajectory that fails to describe the data. We then introduce the multiple shooting method and present successful demonstrations of this method for the fitting of a neural differential equation to two datasets (synthetic and experimental) that the standard approach fails to fit. Constraints introduced by multiple shooting can be satisfied using a penalty or augmented Lagrangian method.
翻訳日:2021-09-15 19:41:38 公開日:2021-09-14
# (参考訳) 超音波画像におけるマスキング胎児性器の深層学習手法 [全文訳有]

A Deep Learning Approach for Masking Fetal Gender in Ultrasound Images ( http://arxiv.org/abs/2109.06790v1 )

ライセンス: CC BY 4.0
Amit Borundiya, Arshak Navruzyan, Dennis Igoschev, Feras C. Oughali, Hemanth Pasupuleti, Mike Fuller, Vinay Kanigicherla, T S Aniruddha Kashyap, Rishabh Chaurasia, Sonali Vinod Jain(参考訳) 超音波 (US) イメージングは, リアルタイム診断における費用と多目的性の両方において有効であるが, 妊娠初期におけるUSスキャンによる胎児性判定は, 性選択性中絶の原因でもある。 本研究は, 画像中の胎児の性別を正確に隠蔽し, アクセス性を高めるためのディープラーニング物体検出手法を提案する。 本稿では, YOLOv5Lアーキテクチャが他のオブジェクト検出モデルと比較して優れた性能を示すことを示す。 テストセットでは,45.8%のAP[0.5:0.95],92%のF1スコア,0.006のFalse Positive Per Imageレートが得られた。 さらに,フレーム間構造類似性に基づくバウンディングボックス遅延ルールを導入し,偽負率を85%削減し,マスキング信頼性をさらに向上させる。

Ultrasound (US) imaging is highly effective with regards to both cost and versatility in real-time diagnosis; however, determination of fetal gender by US scan in the early stages of pregnancy is also a cause of sex-selective abortion. This work proposes a deep learning object detection approach to accurately mask fetal gender in US images in order to increase the accessibility of the technology. We demonstrate how the YOLOv5L architecture exhibits superior performance relative to other object detection models on this task. Our model achieves 45.8% AP[0.5:0.95], 92% F1-score and 0.006 False Positive Per Image rate on our test set. Furthermore, we introduce a bounding box delay rule based on frame-to-frame structural similarity to reduce the false negative rate by 85%, further improving masking reliability.
翻訳日:2021-09-15 19:32:18 公開日:2021-09-14
# (参考訳) romax:凸緩和による頑健な深層マルチエージェント強化学習 [全文訳有]

ROMAX: Certifiably Robust Deep Multiagent Reinforcement Learning via Convex Relaxation ( http://arxiv.org/abs/2109.06795v1 )

ライセンス: CC BY 4.0
Chuangchuang Sun, Dong-Ki Kim, and Jonathan P. How(参考訳) マルチロボットシステムでは、多くのサイバー物理攻撃(通信ハイジャック、観測摂動など)がエージェントの堅牢性に挑戦することができる。 このロバスト性問題は、遷移と報酬関数に影響を与える変更ポリシーを持つ学習エージェントによる環境の非定常性が存在するため、マルチエージェント強化学習において悪化する。 本稿では,他のエージェントの最悪のポリシー更新を推測するミニマックスMARL手法を提案する。 ミニマックスの定式化は計算的に解けるので、ニューラルネットワークの凸緩和を適用して内部最小化問題を解く。 このような凸緩和は、異なる振る舞いを持つ可能性のあるピアエージェントとの相互作用において堅牢性を可能にし、また元の最適化問題の証明された境界を達成する。 提案手法は,複数の協調競争課題に対するアプローチを評価し,本手法が先行する技術アプローチよりも優れていることを示す。

In a multirobot system, a number of cyber-physical attacks (e.g., communication hijack, observation perturbations) can challenge the robustness of agents. This robustness issue worsens in multiagent reinforcement learning because there exists the non-stationarity of the environment caused by simultaneously learning agents whose changing policies affect the transition and reward functions. In this paper, we propose a minimax MARL approach to infer the worst-case policy update of other agents. As the minimax formulation is computationally intractable to solve, we apply the convex relaxation of neural networks to solve the inner minimization problem. Such convex relaxation enables robustness in interacting with peer agents that may have significantly different behaviors and also achieves a certified bound of the original optimization problem. We evaluate our approach on multiple mixed cooperative-competit ive tasks and show that our method outperforms the previous state of the art approaches on this topic.
翻訳日:2021-09-15 19:24:19 公開日:2021-09-14
# (参考訳) 物語生成のための時間変動モデル [全文訳有]

A Temporal Variational Model for Story Generation ( http://arxiv.org/abs/2109.06807v1 )

ライセンス: CC BY 4.0
David Wilmot, Frank Keller(参考訳) 最近の言語モデルは、ストーリー生成において興味深く、文法的に正しいテキストを生成するが、プロット開発や長期的な一貫性を欠くことが多い。 本稿では,TD-VAE(Temporal Difference Variational Autoencoder)に基づく潜在ベクトル計画手法を,テキスト生成のための条件付けと再ランク付けのためのモデルを用いて実験する。 その結果,自動クローズおよびスワップ評価において高い性能を示した。 人的判断は、GPT-2メディアベースラインにおけるTD-VAEの再ランク付けにより生成されたストーリーを示し、階層的LSTM再ランク付けモデルに匹敵する性能を示す。 潜在ベクトルの条件付けは、生成の多様性を減らし、モデルが物語を進めることを学ばないため、人間の評価に失望し、性能を低下させる。 これは、技術的タスクのパフォーマンス(例えば、クローゼ)と興味深いストーリーの生成の間に重要な違いを浮き彫りにする。

Recent language models can generate interesting and grammatically correct text in story generation but often lack plot development and long-term coherence. This paper experiments with a latent vector planning approach based on a TD-VAE (Temporal Difference Variational Autoencoder), using the model for conditioning and reranking for text generation. The results demonstrate strong performance in automatic cloze and swapping evaluations. The human judgments show stories generated with TD-VAE reranking improve on a GPT-2 medium baseline and show comparable performance to a hierarchical LSTM reranking model. Conditioning on the latent vectors proves disappointing and deteriorates performance in human evaluation because it reduces the diversity of generation, and the models don't learn to progress the narrative. This highlights an important difference between technical task performance (e.g. cloze) and generating interesting stories.
翻訳日:2021-09-15 19:06:17 公開日:2021-09-14
# (参考訳) LM-Critic:教師なし文法誤り訂正のための言語モデル [全文訳有]

LM-Critic: Language Models for Unsupervised Grammatical Error Correction ( http://arxiv.org/abs/2109.06822v1 )

ライセンス: CC BY 4.0
Michihiro Yasunaga, Jure Leskovec, Percy Liang(参考訳) 文法的誤り訂正モデル(GEC)の訓練には、非文法的/文法的文対のラベル付きセットが必要であるが、手動で注釈をつけることは高価である。 最近、b break-it-fix-it(bifi )フレームワークは、ラベル付きサンプルなしで壊れたプログラムを修復する学習において、強力な結果を示しているが、これは、gecタスクには存在しないサンプルが有効かどうかを返却する完全な批評家(例えばコンパイラ)に依存している。 本研究は,LM-Critic の定義において事前訓練された言語モデル(LM)を活用する方法を示し,その文が局所的な摂動よりも高い確率を割り当てる場合,文を文法的に判断する。 このLM-Critic と BIFI と、ラベルなし文の集合を併用して、現実的な非文法的/文法的ペアをブートストラップし、修正子を訓練する。 我々は,複数の領域にわたるGECデータセット(CoNLL-2014,BEA-2019 ,GMEG-wiki,GMEG-yaho o)に対するアプローチを評価し,教師なし設定(+7.7 F0.5)と教師なし設定(+0.5 F0.5)の両方において既存の手法よりも優れていることを示す。

Training a model for grammatical error correction (GEC) requires a set of labeled ungrammatical / grammatical sentence pairs, but manually annotating such pairs can be expensive. Recently, the Break-It-Fix-It (BIFI) framework has demonstrated strong results on learning to repair a broken program without any labeled examples, but this relies on a perfect critic (e.g., a compiler) that returns whether an example is valid or not, which does not exist for the GEC task. In this work, we show how to leverage a pretrained language model (LM) in defining an LM-Critic, which judges a sentence to be grammatical if the LM assigns it a higher probability than its local perturbations. We apply this LM-Critic and BIFI along with a large set of unlabeled sentences to bootstrap realistic ungrammatical / grammatical pairs for training a corrector. We evaluate our approach on GEC datasets across multiple domains (CoNLL-2014, BEA-2019, GMEG-wiki and GMEG-yahoo) and show that it outperforms existing methods in both the unsupervised setting (+7.7 F0.5) and the supervised setting (+0.5 F0.5).
翻訳日:2021-09-15 18:42:58 公開日:2021-09-14
# (参考訳) アウト・オブ・ディストリビューションテキストの種類と検出方法 [全文訳有]

Types of Out-of-Distribution Texts and How to Detect Them ( http://arxiv.org/abs/2109.06827v1 )

ライセンス: CC BY 4.0
Udit Arora, William Huang, He He(参考訳) オフ・オブ・ディストリビューション(OOD)の例を検出することの重要性は一致しているものの、OODの例の形式的定義や、それらを最もよく検出する方法についてはほとんど合意がない。 背景変化や意味変化を示すかによってこれらの例を分類し,OOD検出,モデルキャリブレーション,密度推定(テキストの言語モデル)の2つの主要なアプローチが,これらのOODデータに対して異なる振る舞いを持つことを見出した。 14対の分布内分布とOOD英語の自然言語理解データセットにまたがって、密度推定手法が背景シフト設定におけるキャリブレーション手法を常に上回り、セマンティックシフト設定では悪化することがわかった。 さらに,両手法は,通常,課題データからのサンプル検出に失敗し,現在の手法の弱点を浮き彫りにしている。 すべての設定でひとつのメソッドがうまく動作しないため、異なる検出方法を評価する際にOOD例を明確に定義する必要がある。

Despite agreement on the importance of detecting out-of-distribution (OOD) examples, there is little consensus on the formal definition of OOD examples and how to best detect them. We categorize these examples by whether they exhibit a background shift or a semantic shift, and find that the two major approaches to OOD detection, model calibration and density estimation (language modeling for text), have distinct behavior on these types of OOD data. Across 14 pairs of in-distribution and OOD English natural language understanding datasets, we find that density estimation methods consistently beat calibration methods in background shift settings, while performing worse in semantic shift settings. In addition, we find that both methods generally fail to detect examples from challenge data, highlighting a weak spot for current methods. Since no single method works well across all settings, our results call for an explicit definition of OOD examples when evaluating different detection methods.
翻訳日:2021-09-15 18:23:06 公開日:2021-09-14
# (参考訳) 要約-Then-Answer:Multi-h op Reading Comprehensionのための簡潔な説明を生成する [全文訳有]

Summarize-then-Answe r: Generating Concise Explanations for Multi-hop Reading Comprehension ( http://arxiv.org/abs/2109.06853v1 )

ライセンス: CC BY 4.0
Naoya Inoue, Harsh Trivedi, Steven Sinha, Niranjan Balasubramanian and Kentaro Inui(参考訳) マルチホップ読解(RC)のための簡潔な説明を生成するには 補助文を識別する現在の戦略は、入力テキストの抽出的質問中心の要約と見なすことができる。 しかし、これらの抽出的説明は必ずしも簡潔であるとは限らない。 代わりに、我々は抽象的なアプローチを提唱し、質問に焦点を絞った、抽象的な文の要約を生成し、それをRCシステムに供給することを提案する。 人間の注釈付き抽象的説明が限られているため、抽象的説明を半教師付きで訓練し、そこで教師付きモデルから始めて、簡潔さを最大化する報酬関数の試行錯誤によってさらに訓練する。 提案する抽象的説明器は,限定的な監督(2kインスタンスのみ)を持つ抽出的説明器よりも,十分性を維持しながら,よりコンパクトな説明を生成できることを実証した。

How can we generate concise explanations for multi-hop Reading Comprehension (RC)? The current strategies of identifying supporting sentences can be seen as an extractive question-focused summarization of the input text. However, these extractive explanations are not necessarily concise i.e. not minimally sufficient for answering a question. Instead, we advocate for an abstractive approach, where we propose to generate a question-focused, abstractive summary of input paragraphs and then feed it to an RC system. Given a limited amount of human-annotated abstractive explanations, we train the abstractive explainer in a semi-supervised manner, where we start from the supervised model and then train it further through trial and error maximizing a conciseness-promoted reward function. Our experiments demonstrate that the proposed abstractive explainer can generate more compact explanations than an extractive explainer with limited supervision (only 2k instances) while maintaining sufficiency.
翻訳日:2021-09-15 18:01:06 公開日:2021-09-14
# (参考訳) one-class meta-learning: 一般化可能なオープンセット分類に向けて [全文訳有]

One-Class Meta-Learning: Towards Generalizable Few-Shot Open-Set Classification ( http://arxiv.org/abs/2109.06859v1 )

ライセンス: CC BY 4.0
Jedrzej Kozerawski, Matthew Turk(参考訳) 実世界の分類タスクは、しばしばオープンセット環境で作業する必要がある。 これは、既知のカテゴリ毎のサンプルサイズが小さく、既存のオープンセットメソッドが効果的に動作しないため、少数ショット学習問題では特に難しいが、多くのマルチクラス少数ショットメソッドはクローズドセットシナリオに限定されている。 そこで本研究では,まず,1つのクラスを分類する手法を提案し,その後に複数種類のオープンセット分類に拡張することで,オープンセット分類の課題を解決した。 本稿では,メタバイナリ・クロス・エントロピー(Meta-BCE)と,標準マルチクラスの特徴表現を与えられた一クラスの特徴表現を生成するOne-class Meta-Learning(OCML)の2つの独立した一クラスの分類方法を紹介する。 どちらの方法も、クローズドセットのパフォーマンスを低下させることなく、複数クラスのオープンセット設定で再トレーニングする必要なしに、既存の少数ショット学習方法を拡張できる。 両手法の利点と欠点を異なる問題設定で実証し, miniImageNet, tieredImageNet, Caltech-UCSD-Birds-2 00-2011の3つの標準ベンチマークデータセットで評価した。

Real-world classification tasks are frequently required to work in an open-set setting. This is especially challenging for few-shot learning problems due to the small sample size for each known category, which prevents existing open-set methods from working effectively; however, most multiclass few-shot methods are limited to closed-set scenarios. In this work, we address the problem of few-shot open-set classification by first proposing methods for few-shot one-class classification and then extending them to few-shot multiclass open-set classification. We introduce two independent few-shot one-class classification methods: Meta Binary Cross-Entropy (Meta-BCE), which learns a separate feature representation for one-class classification, and One-Class Meta-Learning (OCML), which learns to generate one-class classifiers given standard multiclass feature representation. Both methods can augment any existing few-shot learning method without requiring retraining to work in a few-shot multiclass open-set setting without degrading its closed-set performance. We demonstrate the benefits and drawbacks of both methods in different problem settings and evaluate them on three standard benchmark datasets, miniImageNet, tieredImageNet, and Caltech-UCSD-Birds-2 00-2011, where they surpass the state-of-the-art methods in the few-shot multiclass open-set and few-shot one-class tasks.
翻訳日:2021-09-15 17:42:23 公開日:2021-09-14
# (参考訳) 法的なトランスフォーマーモデル、常に役に立たないかもしれない [全文訳有]

Legal Transformer Models May Not Always Help ( http://arxiv.org/abs/2109.06862v1 )

ライセンス: CC BY 4.0
Sakbo Geng, R\'emi Lebret, Karl Aberer(参考訳) ディープラーニングベースの自然言語処理手法、特にトランスフォーマーは、ここ数年で目覚ましいパフォーマンスを達成した。 このような最先端のNLPメソッドを法的活動に適用して、簡単な作業の自動化や単純化は大きな価値があります。 本研究では,法的NLPタスクにおけるドメイン適応型事前学習と言語アダプタの価値について検討する。 言語モデルの性能と、異なるタスクと異なるデータセット分割におけるドメイン適応型事前学習を比較して、ドメイン適応型事前学習は低リソースの下流タスクにしか役に立たないことを示す。 また、典型的法定nlpタスクにおけるアダプタのパフォーマンスをベンチマークし、より少ないトレーニングコストでフルモデルのチューニングと同様のパフォーマンスが得られることを示した。 さらなる結果として、法定コーパスで事前訓練されたRoBERTaモデルであるLegalRoBERTaをリリースする。

Deep learning-based Natural Language Processing methods, especially transformers, have achieved impressive performance in the last few years. Applying those state-of-the-art NLP methods to legal activities to automate or simplify some simple work is of great value. This work investigates the value of domain adaptive pre-training and language adapters in legal NLP tasks. By comparing the performance of language models with domain adaptive pre-training on different tasks and different dataset splits, we show that domain adaptive pre-training is only helpful with low-resource downstream tasks, thus far from being a panacea. We also benchmark the performance of adapters in a typical legal NLP task and show that they can yield similar performance to full model tuning with much smaller training costs. As an additional result, we release LegalRoBERTa, a RoBERTa model further pre-trained on legal corpora.
翻訳日:2021-09-15 17:12:12 公開日:2021-09-14
# (参考訳) 音声認識のための教師なし事前学習における性能効率トレードオフ [全文訳有]

Performance-Efficien cy Trade-offs in Unsupervised Pre-training for Speech Recognition ( http://arxiv.org/abs/2109.06870v1 )

ライセンス: CC BY 4.0
Felix Wu, Kwangyoun Kim, Jing Pan, Kyu Han, Kilian Q. Weinberger, Yoav Artzi(参考訳) 本稿では,自動音声認識(ASR)のための事前学習モデルにおける性能効率トレードオフについて検討する。 我々はwav2vec 2.0に注力し、モデルの性能と効率の両方に影響を与えるいくつかのアーキテクチャ設計を形式化する。 さまざまなトレーニング環境における性能と効率の両面で大きな改善を施した,事前トレーニング済みのモデルアーキテクチャであるSEW(Squeezed and Efficient Wav2vec)を紹介します。 例えば、LibriSpeechの100h-960h半教師付きセットアップでは、SEWはwav2vec 2.0と比較して1.9倍の推論速度を実現し、単語エラー率を13.5%削減している。 同様の推論時間で、SEWは異なるモデルサイズで単語エラー率を25-50%削減する。

This paper is a study of performance-efficien cy trade-offs in pre-trained models for automatic speech recognition (ASR). We focus on wav2vec 2.0, and formalize several architecture designs that influence both the model performance and its efficiency. Putting together all our observations, we introduce SEW (Squeezed and Efficient Wav2vec), a pre-trained model architecture with significant improvements along both performance and efficiency dimensions across a variety of training setups. For example, under the 100h-960h semi-supervised setup on LibriSpeech, SEW achieves a 1.9x inference speedup compared to wav2vec 2.0, with a 13.5% relative reduction in word error rate. With a similar inference time, SEW reduces word error rate by 25-50% across different model sizes.
翻訳日:2021-09-15 17:03:45 公開日:2021-09-14
# (参考訳) Broaden the Vision: Geo-diverse Visual Commonsense Reasoning [全文訳有]

Broaden the Vision: Geo-Diverse Visual Commonsense Reasoning ( http://arxiv.org/abs/2109.06860v1 )

ライセンス: CC BY 4.0
Da Yin, Liunian Harold Li, Ziniu Hu, Nanyun Peng, Kai-Wei Chang(参考訳) Commonsenseは、すべての人が共有する知識として定義される。 しかし、ある種の常識知識は文化や地理的な場所と関連付けられ、ローカルでのみ共有される。 例えば、結婚式のシナリオは、歴史的・宗教的な要素の影響を受け、地域によって異なる。 しかし、こうした地域的特徴は概して先行研究では省略されている。 本稿では,視覚・言語モデルによる文化的・地理的コモンセンス理解能力をテストするために,GD-VCR(Geo-Diverse Visual Commonsense Reasoning dataset)を構築した。 特に、VCRで訓練されたVisualBERTとViLBERTの2つの最先端ビジョン・アンド・ランゲージモデルについて検討した。 次に,gd-vcrの解答に対して,訓練モデルがいかに一般化できるかを評価する。 その結果,東アジア,南アジア,アフリカを含む非西部地域における両モデルの性能は,西部地域に比べて有意に低いことがわかった。 パフォーマンス格差の背景にある理由を分析し、パフォーマンスギャップがQAペアよりも大きいことを確認します。 1) 結婚式,宗教活動,祭事等,文化に関するシナリオに係わる。 2)低次の認識や認識よりも,高レベルなジオディバースコモンセンス推論が必要である。 データセットとコードはhttps://github.com/w adeyin9712/gd-vcrでリリースされる。

Commonsense is defined as the knowledge that is shared by everyone. However, certain types of commonsense knowledge are correlated with culture and geographic locations and they are only shared locally. For example, the scenarios of wedding ceremonies vary across regions due to different customs influenced by historical and religious factors. Such regional characteristics, however, are generally omitted in prior work. In this paper, we construct a Geo-Diverse Visual Commonsense Reasoning dataset (GD-VCR) to test vision-and-language models' ability to understand cultural and geo-location-specifi c commonsense. In particular, we study two state-of-the-art Vision-and-Language models, VisualBERT and ViLBERT trained on VCR, a standard multimodal commonsense benchmark with images primarily from Western regions. We then evaluate how well the trained models can generalize to answering the questions in GD-VCR. We find that the performance of both models for non-Western regions including East Asia, South Asia, and Africa is significantly lower than that for Western region. We analyze the reasons behind the performance disparity and find that the performance gap is larger on QA pairs that: 1) are concerned with culture-related scenarios, e.g., weddings, religious activities, and festivals; 2) require high-level geo-diverse commonsense reasoning rather than low-order perception and recognition. Dataset and code are released at https://github.com/W adeYin9712/GD-VCR.
翻訳日:2021-09-15 16:17:08 公開日:2021-09-14
# ニューラルマシン翻訳のための非パラメトリック非教師なしドメイン適応

Non-Parametric Unsupervised Domain Adaptation for Neural Machine Translation ( http://arxiv.org/abs/2109.06604v1 )

ライセンス: Link先を確認
Xin Zheng, Zhirui Zhang, Shujian Huang, Boxing Chen, Jun Xie, Weihua Luo and Jiajun Chen(参考訳) 最近、$k$NN-MTは、トレーニング済みニューラルネットワーク翻訳(NMT)モデルをドメイン固有のトークンレベルである$k$-nearest-neighbor (k$NN)検索に直接組み込むことで、再トレーニングなしにドメイン適応を実現する、という有望な能力を示している。 概念的には魅力的だが、高品質なドメイン内並列コーパスに大きく依存しており、非教師なしのドメイン適応能力に制限されている。 本稿では,対象言語内単言語文を直接使用して,$k$-nearest-neighbo r 検索のための効果的なデータストアを構築する新しい枠組みを提案する。 この目的のために、まずターゲット言語に基づくオートエンコーダタスクを導入し、次に軽量アダプタを元のNTTモデルに挿入し、このタスクのトークンレベル表現を翻訳タスクの理想的な表現にマッピングする。 マルチドメインデータセットを用いた実験により,提案手法により,ターゲット側モノリンガルデータによる翻訳精度が向上し,バックトランスレーションと同等の性能が得られた。

Recently, $k$NN-MT has shown the promising capability of directly incorporating the pre-trained neural machine translation (NMT) model with domain-specific token-level $k$-nearest-neighbor ($k$NN) retrieval to achieve domain adaptation without retraining. Despite being conceptually attractive, it heavily relies on high-quality in-domain parallel corpora, limiting its capability on unsupervised domain adaptation, where in-domain parallel corpora are scarce or nonexistent. In this paper, we propose a novel framework that directly uses in-domain monolingual sentences in the target language to construct an effective datastore for $k$-nearest-neighbor retrieval. To this end, we first introduce an autoencoder task based on the target language, and then insert lightweight adapters into the original NMT model to map the token-level representation of this task to the ideal representation of translation task. Experiments on multi-domain datasets demonstrate that our proposed approach significantly improves the translation accuracy with target-side monolingual data, while achieving comparable performance with back-translation.
翻訳日:2021-09-15 15:59:33 公開日:2021-09-14
# 擬似推論を用いた多変量時系列の異常属性

Anomaly Attribution of Multivariate Time Series using Counterfactual Reasoning ( http://arxiv.org/abs/2109.06562v1 )

ライセンス: Link先を確認
Violeta Teodora Trifunov, Maha Shadaydeh, Bj\"orn Barz, Joachim Denzler(参考訳) 時系列の異常を検出する方法は数多く存在するが、それを理解するための第一歩に過ぎない。 私たちはそれらの異常を説明することでこれを乗り越えようとしている。 そこで我々は,反事実推論に基づく多変量時系列に対する新しい帰属スキームを開発した。 我々は,関連する変数のサブセットが異常区間外のデータにより類似して分散されていた場合,異常事象が発生したのかという反事実的疑問に答えることを目的とする。 具体的には,mdi(maximally divergent interval)アルゴリズムを用いて異常区間の検出を行い,検出区間内の変数のサブセットをその分布値に置き換え,mdiで再コードすることで異常区間が異常でないかどうかを観測する。 我々は,多変量時空間データと時空間データについて検討し,熱波やハリケーンなど複数の高度気象事象の異常属性の精度を確認した。

There are numerous methods for detecting anomalies in time series, but that is only the first step to understanding them. We strive to exceed this by explaining those anomalies. Thus we develop a novel attribution scheme for multivariate time series relying on counterfactual reasoning. We aim to answer the counterfactual question of would the anomalous event have occurred if the subset of the involved variables had been more similarly distributed to the data outside of the anomalous interval. Specifically, we detect anomalous intervals using the Maximally Divergent Interval (MDI) algorithm, replace a subset of variables with their in-distribution values within the detected interval and observe if the interval has become less anomalous, by re-scoring it with MDI. We evaluate our method on multivariate temporal and spatio-temporal data and confirm the accuracy of our anomaly attribution of multiple well-understood extreme climate events such as heatwaves and hurricanes.
翻訳日:2021-09-15 15:58:11 公開日:2021-09-14
# 低リソース関係抽出のための勾配模倣強化学習

Gradient Imitation Reinforcement Learning for Low Resource Relation Extraction ( http://arxiv.org/abs/2109.06415v1 )

ライセンス: Link先を確認
Xuming Hu, Chenwei Zhang, Yawen Yang, Xiaohe Li, Li Lin, Lijie Wen, Philip S. Yu(参考訳) 低リソース関係抽出(LRE)は,人間のアノテーションが不足している場合に,ラベル付きコーパスから関係事実を抽出することを目的としている。 既存の作業では、自己学習スキームを使用して、段階的なドリフト問題を引き起こす擬似ラベルを生成するか、あるいはフィードバックを明示的に要求しないメタラーニングスキームを利用する。 既存のlre学習パラダイムにおけるフィードバックループの欠如による選択バイアスを軽減するために,ラベル付きデータの勾配降下方向を擬似ラベルデータに模倣し,試行錯誤による最適化能力をブートストラップする勾配模倣強化学習法を開発した。 また,低リソース関係抽出における2つの主要なシナリオを扱うGradLREというフレームワークを提案する。 ラベルなしデータが十分であるシナリオに加えて、GradLREは、コンテキスト化された拡張メソッドを利用してデータを生成することで、ラベルなしデータが利用できない状況を処理する。 2つの公開データセットにおける実験結果は、ベースラインとの比較においてgradlreが低リソース関係抽出に与える影響を示す。

Low-resource Relation Extraction (LRE) aims to extract relation facts from limited labeled corpora when human annotation is scarce. Existing works either utilize self-training scheme to generate pseudo labels that will cause the gradual drift problem, or leverage meta-learning scheme which does not solicit feedback explicitly. To alleviate selection bias due to the lack of feedback loops in existing LRE learning paradigms, we developed a Gradient Imitation Reinforcement Learning method to encourage pseudo label data to imitate the gradient descent direction on labeled data and bootstrap its optimization capability through trial and error. We also propose a framework called GradLRE, which handles two major scenarios in low-resource relation extraction. Besides the scenario where unlabeled data is sufficient, GradLRE handles the situation where no unlabeled data is available, by exploiting a contextualized augmentation method to generate data. Experimental results on two public datasets demonstrate the effectiveness of GradLRE on low resource relation extraction when comparing with baselines.
翻訳日:2021-09-15 15:57:56 公開日:2021-09-14
# AligNART: 予測アライメントと翻訳を併用した非自己回帰型ニューラルマシン翻訳

AligNART: Non-autoregressive Neural Machine Translation by Jointly Learning to Estimate Alignment and Translate ( http://arxiv.org/abs/2109.06481v1 )

ライセンス: Link先を確認
Jongyoon Song, Sungwon Kim, and Sungroh Yoon(参考訳) 非自己回帰型ニューラルネットワーク翻訳(NART)モデルは、トークン繰り返しのような翻訳の不整合を引き起こす多モード問題に悩まされる。 最近のアプローチでは、出力間の依存関係を暗黙的にモデル化することでこの問題を解決しようとしている。 本稿では,全アライメント情報を利用して目標分布のモダリティを明示的に低減するAligNARTを紹介する。 AligNARTは機械翻訳タスクを$に分割する (i)$アライメント推定と$ (ii) 整列デコーダ入力による$の翻訳で、デコーダは単純化された1対1の翻訳に集中するように誘導する。 さらに,アライメント推定問題を解決するために,新しいアライメント分解法を提案する。 実験の結果、AligNARTはWMT14 En$\leftrightarrow$D e と WMT16 Ro$\rightarrow$En の明示的なモダリティ削減に焦点を当てた従来の非定性NARTモデルよりも優れていた。 さらに、AligNARTは、WMT14 En$\leftrightarrow$D eに基づく最先端のコネクショナリスト時間分類モデルに匹敵するBLEUスコアを達成している。 また、AligNARTは、シーケンスレベルの知識蒸留を必要とせずに、トークン反復問題に効果的に対処する。

Non-autoregressive neural machine translation (NART) models suffer from the multi-modality problem which causes translation inconsistency such as token repetition. Most recent approaches have attempted to solve this problem by implicitly modeling dependencies between outputs. In this paper, we introduce AligNART, which leverages full alignment information to explicitly reduce the modality of the target distribution. AligNART divides the machine translation task into $(i)$ alignment estimation and $(ii)$ translation with aligned decoder inputs, guiding the decoder to focus on simplified one-to-one translation. To alleviate the alignment estimation problem, we further propose a novel alignment decomposition method. Our experiments show that AligNART outperforms previous non-iterative NART models that focus on explicit modality reduction on WMT14 En$\leftrightarrow$D e and WMT16 Ro$\rightarrow$En. Furthermore, AligNART achieves BLEU scores comparable to those of the state-of-the-art connectionist temporal classification based models on WMT14 En$\leftrightarrow$D e. We also observe that AligNART effectively addresses the token repetition problem even without sequence-level knowledge distillation.
翻訳日:2021-09-15 15:57:39 公開日:2021-09-14
# Netmarble AI CenterのWMT21自動編集共有タスクサブミッション

Netmarble AI Center's WMT21 Automatic Post-Editing Shared Task Submission ( http://arxiv.org/abs/2109.06515v1 )

ライセンス: Link先を確認
Shinhyeok Oh, Sion Jang, Hu Xu, Shounan An, Insoo Oh(参考訳) 本稿では,Netmarble による WMT21 Automatic Post-Editing (APE) Shared Task for the English-German Language pairについて述べる。 まず,訓練段階におけるカリキュラムトレーニング戦略を提案する。 Facebook FairのWMT19ニュース翻訳モデルは、大規模で強力なトレーニング済みニューラルネットワークを扱うために選ばれた。 そして、各トレーニング段階で異なるレベルのデータで翻訳モデルをポストトレーニングする。 トレーニング段階が進むにつれて,各トレーニング段階に段階的に情報を追加して,複数のタスクを学習させる。 また,APEタスクに大量のデータを活用する方法も提示する。 さらに, 微調整段階における動的重み付け平均を用いて, マルチタスク学習戦略を適用した。 限られたデータでAPEコーパスを微調整するために、統一表現を学ぶためにいくつかの関連するサブタスクを追加します。 最後に、学習後および微調整時に、外部翻訳を拡張機械翻訳(MT)として活用する。 実験結果が示すように, APE システムは TER および BLEU の観点から, 開発データセット上の -2.848 と +3.74 による MT 結果の翻訳を大幅に改善する。 また、開発データセットよりも高い品質でテストデータセット上での有効性を示す。

This paper describes Netmarble's submission to WMT21 Automatic Post-Editing (APE) Shared Task for the English-German language pair. First, we propose a Curriculum Training Strategy in training stages. Facebook Fair's WMT19 news translation model was chosen to engage the large and powerful pre-trained neural networks. Then, we post-train the translation model with different levels of data at each training stages. As the training stages go on, we make the system learn to solve multiple tasks by adding extra information at different training stages gradually. We also show a way to utilize the additional data in large volume for APE tasks. For further improvement, we apply Multi-Task Learning Strategy with the Dynamic Weight Average during the fine-tuning stage. To fine-tune the APE corpus with limited data, we add some related subtasks to learn a unified representation. Finally, for better performance, we leverage external translations as augmented machine translation (MT) during the post-training and fine-tuning. As experimental results show, our APE system significantly improves the translations of provided MT results by -2.848 and +3.74 on the development dataset in terms of TER and BLEU, respectively. It also demonstrates its effectiveness on the test dataset with higher quality than the development dataset.
翻訳日:2021-09-15 15:57:18 公開日:2021-09-14
# 何をしているんだ、デイブ?」 NLPにおける応答性データ利用のチェックリスト

Just What do You Think You're Doing, Dave?' A Checklist for Responsible Data Use in NLP ( http://arxiv.org/abs/2109.06598v1 )

ライセンス: Link先を確認
Anna Rogers, Tim Baldwin, Kobi Leins(参考訳) NLP倫理運動の重要な部分は、データの使用に責任があるが、それが正確には何を意味するのか、どのように達成できるかは、まだ不明である。 本稿では,テキストデータの収集と共有に関する法的・倫理的原則と,それらの間の緊張関係について論じる。 我々は,カンファレンスの参加者のピアレビューを標準化し,コミュニティ全体の公開研究をより深く見ることのできる,責任あるデータ(再使用)のための潜在的チェックリストを提案する。 我々の提案は,NLPカンファレンスを通じて採用されているデータ(再使用)の一貫性のある標準の開発に寄与することを目的としている。

A key part of the NLP ethics movement is responsible use of data, but exactly what that means or how it can be best achieved remain unclear. This position paper discusses the core legal and ethical principles for collection and sharing of textual data, and the tensions between them. We propose a potential checklist for responsible data (re-)use that could both standardise the peer review of conference submissions, as well as enable a more in-depth view of published research across the community. Our proposal aims to contribute to the development of a consistent standard for data (re-)use, embraced across NLP conferences.
翻訳日:2021-09-15 15:56:58 公開日:2021-09-14
# テーブルフィリングに基づく新しいグローバル特徴指向関係三重項抽出モデル

A Novel Global Feature-Oriented Relational Triple Extraction Model based on Table Filling ( http://arxiv.org/abs/2109.06705v1 )

ライセンス: Link先を確認
Feiliang Ren, Longhui Zhang, Shujuan Yin, Xiaofeng Zhao, Shilei Liu, Bochao Li, Yaduo Liu(参考訳) テーブルフィリングに基づくリレーショナルトリプル抽出法は,その有望な性能と複雑な文からトリプルを抽出する能力により,研究の関心が高まりつつある。 しかし、これらの手法は局所的な特徴のみに焦点をあてるだけでなく、関係性やトークンペアのグローバルな関連性を無視しているため、トリプル抽出時に重要な情報を見渡す可能性が高まるため、その可能性には程遠い。 この欠点を克服するために, 上記2種類のグローバルアソシエーションをフル活用したグローバルな特徴指向トリプル抽出モデルを提案する。 具体的には、まず各関係のテーブル機能を生成します。 次に、生成された表の特徴から2種類のグローバルアソシエーションを抽出する。 次に、採掘されたグローバルアソシエーションを各関係の表の特徴に統合する。 この「生成マイン積分」処理は、各関係の表の特徴を段階的に洗練するように複数回行われる。 最後に、各関係表は、精巧なテーブル特徴に基づいて満たされ、この関係に関連付けられた全てのトリプルは、その充足テーブルに基づいて抽出される。 提案モデルを3つのベンチマークデータセットで評価した。 実験の結果,本モデルの有効性が示され,これらすべてのデータセットで最新の結果が得られた。 私たちの仕事のソースコードは、https://github.com/n eukg/grte.com/で閲覧できます。

Table filling based relational triple extraction methods are attracting growing research interests due to their promising performance and their abilities on extracting triples from complex sentences. However, this kind of methods are far from their full potential because most of them only focus on using local features but ignore the global associations of relations and of token pairs, which increases the possibility of overlooking some important information during triple extraction. To overcome this deficiency, we propose a global feature-oriented triple extraction model that makes full use of the mentioned two kinds of global associations. Specifically, we first generate a table feature for each relation. Then two kinds of global associations are mined from the generated table features. Next, the mined global associations are integrated into the table feature of each relation. This "generate-mine-integr ate" process is performed multiple times so that the table feature of each relation is refined step by step. Finally, each relation's table is filled based on its refined table feature, and all triples linked to this relation are extracted based on its filled table. We evaluate the proposed model on three benchmark datasets. Experimental results show our model is effective and it achieves state-of-the-art results on all of these datasets. The source code of our work is available at: https://github.com/n eukg/GRTE.
翻訳日:2021-09-15 15:56:48 公開日:2021-09-14
# 絡み合った多粒性スタイル仕様と属性整合性リワードを用いた制御可能な対話生成

Controllable Dialogue Generation with Disentangled Multi-grained Style Specification and Attribute Consistency Reward ( http://arxiv.org/abs/2109.06717v1 )

ライセンス: Link先を確認
Zhe Hu, Zhiwei Cao, Hou Pong Chan, Jiachen Liu, Xinyan Xiao, Jinsong Su, Hua Wu(参考訳) 制御可能なテキスト生成は魅力的だが難しいタスクであり、ユーザーは生成された出力の特定の属性を指定できる。 本稿では,多属性制約下での応答生成のための制御可能な対話生成モデルを提案する。 具体的には、一般的に使用される制御属性を、応答生成に異なる影響の粒度を持つ大域的および局所的な属性に分類する。 次に,2段階のデコーダを新たに導入することにより,従来のセク2セックフレームワークを大幅に拡張する。これはまず,多層化スタイルの仕様層を用いてスタイリスティックな制約を課し,その属性に基づいて応答のワードレベル制御状態を判定し,次に応答生成層を用いて,属性の文脈と忠実性の両方に意味的関連性を維持する最終応答を生成する。 さらに,明示的な監視信号による応答制御を促進するために,属性整合性報酬を用いてモデルを訓練する。 2つのデータセットに関する広範な実験と詳細な分析は、我々のモデルは、応答品質、コンテンツの多様性、および制御可能性の観点から、競合ベースラインを大幅に上回ることができることを示している。

Controllable text generation is an appealing but challenging task, which allows users to specify particular attributes of the generated outputs. In this paper, we propose a controllable dialogue generation model to steer response generation under multi-attribute constraints. Specifically, we define and categorize the commonly used control attributes into global and local ones, which possess different granularities of effects on response generation. Then, we significantly extend the conventional seq2seq framework by introducing a novel two-stage decoder, which first uses a multi-grained style specification layer to impose the stylistic constraints and determine word-level control states of responses based on the attributes, and then employs a response generation layer to generate final responses maintaining both semantic relevancy to the contexts and fidelity to the attributes. Furthermore, we train our model with an attribute consistency reward to promote response control with explicit supervision signals. Extensive experiments and in-depth analyses on two datasets indicate that our model can significantly outperform competitive baselines in terms of response quality, content diversity and controllability.
翻訳日:2021-09-15 15:56:26 公開日:2021-09-14
# 構造知覚解析のためのスパースファジィ注意

Sparse Fuzzy Attention for Structural Sentiment Analysis ( http://arxiv.org/abs/2109.06719v1 )

ライセンス: Link先を確認
Letain Peng, Zuchao Li and Hai Zhao(参考訳) セマンティクスや構文依存構文解析といったタスクのパースに成功している。 しかし、構造的感情分析のような構文解析にモデル化されたタスクでは、"依存性エッジ"は非常にスパースであり、パーサのパフォーマンスを妨げます。 そこで本稿では, パーサ性能を向上し, 構造的感情分析に新たな最先端を設定できる, プール層を有するスパース, ファジィアテンションスコアラを提案する。 さらに,2次解析による構造的感情分析のパースモデリングを探求し,パース性能を著しく向上させる新たな2次エッジ構築手順を提案する。

Attention scorers have achieved success in parsing tasks like semantic and syntactic dependency parsing. However, in tasks modeled into parsing, like structural sentiment analysis, "dependency edges" are very sparse which hinders parser performance. Thus we propose a sparse and fuzzy attention scorer with pooling layers which improves parser performance and sets the new state-of-the-art on structural sentiment analysis. We further explore the parsing modeling on structural sentiment analysis with second-order parsing and introduce a novel sparse second-order edge building procedure that leads to significant improvement in parsing performance.
翻訳日:2021-09-15 15:56:06 公開日:2021-09-14
# BenchIE: トークンではなく、ファクトに基づいたオープン情報抽出評価

BenchIE: Open Information Extraction Evaluation Based on Facts, Not Tokens ( http://arxiv.org/abs/2109.06850v1 )

ライセンス: Link先を確認
Kiril Gashteovski, Mingying Yu, Bhushan Kotnis, Carolin Lawrence, Goran Glavas, Mathias Niepert(参考訳) OIEシステムの本質的な評価は、人間の評価者が抽出の正しさを判断して手動で行うか、標準化されたベンチマークで自動的に行う。 後者はコスト効率がはるかに高いが、既存のoieベンチマークが不完全であるため信頼性が低く、根拠となる真理抽出は、同じ事実の許容できる全ての変種を含んでいないため、モデルのパフォーマンスの信頼性が低下する。 さらに、既存のoieベンチマークは英語のみで利用できる。 本稿では,英語,中国語,ドイツ語のOIEシステムの総合評価のためのベンチマークおよび評価フレームワークであるBenchIEを紹介する。 既存のOIEベンチマークとは対照的に、BenchIEは抽出の情報の等価性を考慮に入れています。 我々はBenchIEを用いたいくつかの最先端OIEシステムをベンチマークし、これらのシステムは既存のOIEベンチマークで示されるよりもはるかに効果が低いことを示した。 BenchIE(データおよび評価コード)を公開しています。

Intrinsic evaluations of OIE systems are carried out either manually -- with human evaluators judging the correctness of extractions -- or automatically, on standardized benchmarks. The latter, while much more cost-effective, is less reliable, primarily because of the incompleteness of the existing OIE benchmarks: the ground truth extractions do not include all acceptable variants of the same fact, leading to unreliable assessment of models' performance. Moreover, the existing OIE benchmarks are available for English only. In this work, we introduce BenchIE: a benchmark and evaluation framework for comprehensive evaluation of OIE systems for English, Chinese and German. In contrast to existing OIE benchmarks, BenchIE takes into account informational equivalence of extractions: our gold standard consists of fact synsets, clusters in which we exhaustively list all surface forms of the same fact. We benchmark several state-of-the-art OIE systems using BenchIE and demonstrate that these systems are significantly less effective than indicated by existing OIE benchmarks. We make BenchIE (data and evaluation code) publicly available.
翻訳日:2021-09-15 15:55:55 公開日:2021-09-14
# ビデオにおける時間的文定位のための適応的提案生成ネットワーク

Adaptive Proposal Generation Network for Temporal Sentence Localization in Videos ( http://arxiv.org/abs/2109.06398v1 )

ライセンス: Link先を確認
Daizong Liu, Xiaoye Qu, Jianfeng Dong, Pan Zhou(参考訳) ビデオ(TSLV)における時間文の局所化の問題に対処する。 従来の方法は、事前定義されたセグメント提案でターゲットセグメントをローカライズするトップダウンフレームワークに従う。 彼らはまともなパフォーマンスを達成したが、提案は手作りで冗長である。 近年,ボトムアップフレームワークは効率が優れ,注目を集めている。 各フレームの確率を直接境界として予測する。 しかし、ボトムアップモデルの性能は、セグメントレベルの相互作用を活用できないため、トップダウンモデルよりも劣る。 本稿では,効率を向上しつつセグメントレベルの相互作用を維持するための適応提案生成ネットワーク(APGN)を提案する。 具体的には,まずフォアグラウンドバックグラウンドの分類とフォアグラウンドフレームのレグレッションを行い,提案を適応的に生成する。 このように手作りの提案設計は破棄され、冗長な提案は減少する。 そして、生成した提案のセマンティクスを高めるために、提案統合モジュールをさらに開発する。 最後に、トップダウンフレームワークに従って生成された提案でターゲットモーメントを見つけます。 3つの挑戦的ベンチマークの大規模な実験により、提案したAPGNは従来の最先端手法よりも大幅に優れていることが示された。

We address the problem of temporal sentence localization in videos (TSLV). Traditional methods follow a top-down framework which localizes the target segment with pre-defined segment proposals. Although they have achieved decent performance, the proposals are handcrafted and redundant. Recently, bottom-up framework attracts increasing attention due to its superior efficiency. It directly predicts the probabilities for each frame as a boundary. However, the performance of bottom-up model is inferior to the top-down counterpart as it fails to exploit the segment-level interaction. In this paper, we propose an Adaptive Proposal Generation Network (APGN) to maintain the segment-level interaction while speeding up the efficiency. Specifically, we first perform a foreground-backgroun d classification upon the video and regress on the foreground frames to adaptively generate proposals. In this way, the handcrafted proposal design is discarded and the redundant proposals are decreased. Then, a proposal consolidation module is further developed to enhance the semantic of the generated proposals. Finally, we locate the target moments with these generated proposals following the top-down framework. Extensive experiments on three challenging benchmarks show that our proposed APGN significantly outperforms previous state-of-the-art methods.
翻訳日:2021-09-15 15:55:37 公開日:2021-09-14
# tentendの進化的ガイド: 時間文接地のための反復的アライメントフレームワーク

Progressively Guide to Attend: An Iterative Alignment Framework for Temporal Sentence Grounding ( http://arxiv.org/abs/2109.06400v1 )

ライセンス: Link先を確認
Daizong Liu, Xiaoye Qu, Pan Zhou(参考訳) tsg(temporal sentence grounding)に対する重要な解決策は、未編集ビデオと文記述から抽出された視覚と言語特徴の効果的なアライメントを学習する方法である。 既存の手法は主にバニラ軟化を利用して単一工程でアライメントを行う。 しかし,多段階推論によってモダリティとモダリティ間の複雑な関係が得られるため,そのような単段注意は実際には不十分である。 本稿では,TSGタスクのための反復アライメントネットワーク(IA-Net)を提案する。 具体的には, 反復的推論過程において, 学習可能なパラメータを持つマルチモーダル特徴をパットし, 非マッチングフレームワードペアのどこにも到達しない問題を軽減するとともに, 基本コアテンション機構を並列に拡張する。 また、各推論ステップによって生じる不一致注意をさらに校正するため、各注意モジュールに追従する校正モジュールを考案し、アライメント知識を洗練する。 このような反復的なアライメントスキームにより、我々のIA-Netは、時間境界を段階的に推論するために、視覚と言語ドメイン間のきめ細かい関係を確実に捉えることができる。 3つの挑戦的なベンチマークで実施された大規模な実験により、提案手法は最先端のモデルよりも優れた性能を示した。

A key solution to temporal sentence grounding (TSG) exists in how to learn effective alignment between vision and language features extracted from an untrimmed video and a sentence description. Existing methods mainly leverage vanilla soft attention to perform the alignment in a single-step process. However, such single-step attention is insufficient in practice, since complicated relations between inter- and intra-modality are usually obtained through multi-step reasoning. In this paper, we propose an Iterative Alignment Network (IA-Net) for TSG task, which iteratively interacts inter- and intra-modal features within multiple steps for more accurate grounding. Specifically, during the iterative reasoning process, we pad multi-modal features with learnable parameters to alleviate the nowhere-to-attend problem of non-matched frame-word pairs, and enhance the basic co-attention mechanism in a parallel manner. To further calibrate the misaligned attention caused by each reasoning step, we also devise a calibration module following each attention module to refine the alignment knowledge. With such iterative alignment scheme, our IA-Net can robustly capture the fine-grained relations between vision and language domains step-by-step for progressively reasoning the temporal boundaries. Extensive experiments conducted on three challenging benchmarks demonstrate that our proposed model performs better than the state-of-the-arts.
翻訳日:2021-09-15 15:55:18 公開日:2021-09-14
# 非教師付き車両再識別のためのカメラトラックレット認識コントラスト学習

Camera-Tracklet-Awar e Contrastive Learning for Unsupervised Vehicle Re-Identification ( http://arxiv.org/abs/2109.06401v1 )

ライセンス: Link先を確認
Jongmin Yu, Junsik Kim, Minkyung Kim, and Hyeontaek Oh(参考訳) 近年,深層学習に基づく車両再識別手法が目覚ましい成果である。 しかし、この達成には大規模かつ注釈付きデータセットが必要である。 データセットを構築する際には、微妙な外観の違いや視点の違いを考慮する必要があるため、多数のカメラから取得した車両にグローバルに利用可能なID(Ids)を割り当てることが労働集約的である。 本稿では,車両識別ラベルのないマルチカメラトラックレット情報を用いたカメラトラックレット認識コントラスト学習(ctacl)を提案する。 提案するctaclは、ラベルなしのドメイン、すなわち車両画像全体を複数のカメラレベルのサブドメインに分割し、サブドメイン内外のコントラスト学習を行う。 各カメラのトラックレットidを用いて、コントラスト学習のための正と負のサンプルを定義する。 さらに,学習表現の一般化性能の向上とサブドメイン間のドメインギャップによる性能低下の軽減を目的として,カメラネットワーク間のドメイン適応を導入する。 本稿では,ビデオベースおよび画像ベース車両のRe-IDデータセットに対するアプローチの有効性を示す。 実験の結果,提案手法は最新の無人車両Re-ID法よりも優れていた。 本論文のソースコードは 'https://github.com/a ndreYoo/CTAM-CTACL-V VReID.git' で公開されている。

Recently, vehicle re-identification methods based on deep learning constitute remarkable achievement. However, this achievement requires large-scale and well-annotated datasets. In constructing the dataset, assigning globally available identities (Ids) to vehicles captured from a great number of cameras is labour-intensive, because it needs to consider their subtle appearance differences or viewpoint variations. In this paper, we propose camera-tracklet-awar e contrastive learning (CTACL) using the multi-camera tracklet information without vehicle identity labels. The proposed CTACL divides an unlabelled domain, i.e., entire vehicle images, into multiple camera-level subdomains and conducts contrastive learning within and beyond the subdomains. The positive and negative samples for contrastive learning are defined using tracklet Ids of each camera. Additionally, the domain adaptation across camera networks is introduced to improve the generalisation performance of learnt representations and alleviate the performance degradation resulted from the domain gap between the subdomains. We demonstrate the effectiveness of our approach on video-based and image-based vehicle Re-ID datasets. Experimental results show that the proposed method outperforms the recent state-of-the-art unsupervised vehicle Re-ID methods. The source code for this paper is publicly available on `https://github.com/a ndreYoo/CTAM-CTACL-V VReID.git'.
翻訳日:2021-09-15 15:54:52 公開日:2021-09-14
# クラスレベルアライメントのためのクロスリージョンドメイン適応

Cross-Region Domain Adaptation for Class-level Alignment ( http://arxiv.org/abs/2109.06422v1 )

ライセンス: Link先を確認
Zhijie Wang, Xing Liu, Masanori Suganuma, Takayuki Okatani(参考訳) セマンティクスのセグメンテーションには多くのトレーニングデータが必要です。 コンピュータグラフィックスから実際の画像まで、あるドメインから別のドメインへの教師なし領域適応(UDA)に関する研究が数多く行われている。 しかし、UDAとネイティブドメインデータの教師付きトレーニングの間にはまだ精度の差がある。 ソースとターゲットのドメインデータ間のクラスレベルのミスアライメントに起因することは明らかです。 この問題に対処するため,対象領域内の2つの特徴分布を整列させるために,敵対的訓練を適用する手法を提案する。 自己学習フレームワークを使用してイメージを2つの領域(信頼と信頼の欠如)に分割し、特徴空間で整列する2つの分布を形成する。 本手法は,クロスドメイン適応(CDA)と呼ばれる,異なる領域分布を協調する従来の手法と区別するために,クロスリージョン適応(CRA)と呼ぶ。 CRAは任意のCDAメソッドの後に適用することができる。 実験の結果,CDA法の精度は常に向上し,最新技術が更新された。

Semantic segmentation requires a lot of training data, which necessitates costly annotation. There have been many studies on unsupervised domain adaptation (UDA) from one domain to another, e.g., from computer graphics to real images. However, there is still a gap in accuracy between UDA and supervised training on native domain data. It is arguably attributable to class-level misalignment between the source and target domain data. To cope with this, we propose a method that applies adversarial training to align two feature distributions in the target domain. It uses a self-training framework to split the image into two regions (i.e., trusted and untrusted), which form two distributions to align in the feature space. We term this approach cross-region adaptation (CRA) to distinguish from the previous methods of aligning different domain distributions, which we call cross-domain adaptation (CDA). CRA can be applied after any CDA method. Experimental results show that this always improves the accuracy of the combined CDA method, having updated the state-of-the-art.
翻訳日:2021-09-15 15:54:31 公開日:2021-09-14
# マルチレベルCNN機能の再定義によるFew-shotセグメンテーションの改善

Improved Few-shot Segmentation by Redifinition of the Roles of Multi-level CNN Features ( http://arxiv.org/abs/2109.06432v1 )

ライセンス: Link先を確認
Zhijie Wang, Masanori Suganuma, Takayuki Okatani(参考訳) 本研究は,クエリ画像中の未認識オブジェクトクラスの領域を,そのインスタンスのサポートイメージ(s)によって分割する,少数ショットのセグメンテーションに関するものである。 現在の方法は、サポートとクエリイメージの事前訓練されたCNN機能に依存している。 優れたパフォーマンスの鍵は、中レベルの特徴と高レベルの特徴の適切な融合に依存し、前者は形状指向情報、後者はクラス指向情報である。 現在の最先端の手法はTianらのアプローチに従っており、これは中級の特徴を主役とし、上位の特徴を二次役にする。 本稿では,マルチレベル機能の役割を再定義することで,この広く採用されているアプローチを再解釈し,プライマリとセカンダリの役割を交換する。 特に,本手法は,中間特徴量を用いた高次特徴量から生成された初期推定値を改善する。 この再解釈は、現在の方法の新しい応用を示唆している: 同じネットワークを複数回適用して、最初の見積もりから、オブジェクトの領域の推定を反復的に更新する。 実験の結果,COCO-20$^i$,PASCAL-5$^i$の1ショット設定,PASCAL-5$^i$設定において,従来のCOCO-20$^i$を更新した。

This study is concerned with few-shot segmentation, i.e., segmenting the region of an unseen object class in a query image, given support image(s) of its instances. The current methods rely on the pretrained CNN features of the support and query images. The key to good performance depends on the proper fusion of their mid-level and high-level features; the former contains shape-oriented information, while the latter has class-oriented information. Current state-of-the-art methods follow the approach of Tian et al., which gives the mid-level features the primary role and the high-level features the secondary role. In this paper, we reinterpret this widely employed approach by redifining the roles of the multi-level features; we swap the primary and secondary roles. Specifically, we regard that the current methods improve the initial estimate generated from the high-level features using the mid-level features. This reinterpretation suggests a new application of the current methods: to apply the same network multiple times to iteratively update the estimate of the object's region, starting from its initial estimate. Our experiments show that this method is effective and has updated the previous state-of-the-art on COCO-20$^i$ in the 1-shot and 5-shot settings and on PASCAL-5$^i$ in the 1-shot setting.
翻訳日:2021-09-15 15:54:15 公開日:2021-09-14
# 圧縮、変換、生成:自然言語生成を評価するための統一フレームワーク

Compression, Transduction, and Creation: A Unified Framework for Evaluating Natural Language Generation ( http://arxiv.org/abs/2109.06379v1 )

ライセンス: Link先を確認
Mingkai Deng, Bowen Tan, Zhengzhong Liu, Eric P. Xing, Zhiting Hu(参考訳) 自然言語生成(nlg)は幅広いタスクにまたがり、それぞれが特定の目的に役立ち、生成されたテキストの異なる特性を欲しがる。 この複雑さはnlgの自動評価を特に困難にしている。 これまでの作業は通常、ひとつのタスクに集中し、特定の直感に基づいて個々の評価指標を開発した。 本稿では,圧縮(要約),トランスダクション(テキスト書き換え),生成(ダイアログ)など,NLGタスクにおける情報変化の性質に基づく統一的な視点を提案する。 入力、コンテキスト、出力テキスト間の情報アライメントは、生成を特徴づける上で共通の中心的な役割を果たす。 自動アライメント予測モデルを用いて,ゴールドレファレンスデータを必要とせず,異なるNLGタスクの重要な側面を評価するのに適した,解釈可能なメトリクスのファミリーを開発する。 実験では、テキスト要約、スタイル転送、知識接地ダイアログなど、さまざまなタスクにおいて、最先端のメトリクスと比較して、統一的に設計されたメトリクスは、人間の判断と強い相関または同等の相関を達成している。

Natural language generation (NLG) spans a broad range of tasks, each of which serves for specific objectives and desires different properties of generated text. The complexity makes automatic evaluation of NLG particularly challenging. Previous work has typically focused on a single task and developed individual evaluation metrics based on specific intuitions. In this paper, we propose a unifying perspective based on the nature of information change in NLG tasks, including compression (e.g., summarization), transduction (e.g., text rewriting), and creation (e.g., dialog). Information alignment between input, context, and output text plays a common central role in characterizing the generation. With automatic alignment prediction models, we develop a family of interpretable metrics that are suitable for evaluating key aspects of different NLG tasks, often without need of gold reference data. Experiments show the uniformly designed metrics achieve stronger or comparable correlations with human judgement compared to state-of-the-art metrics in each of diverse tasks, including text summarization, style transfer, and knowledge-grounded dialog.
翻訳日:2021-09-15 15:53:18 公開日:2021-09-14
# 時系列予測の合理化

Rationales for Sequential Predictions ( http://arxiv.org/abs/2109.06387v1 )

ライセンス: Link先を確認
Keyon Vafa, Yuntian Deng, David M. Blei, Alexander M. Rush(参考訳) シーケンスモデルは現代のNLPシステムにおいて重要な要素であるが、それらの予測は説明が難しい。 モデル説明は有理だが、個々のモデル予測を説明できる文脈のサブセットを考える。 組合せ最適化を解くことで逐次的合理性を見つける: 最良の合理性は入力トークンの最小部分集合であり、全列と同じ出力を予測する。 すべての部分集合を列挙することは難解であるため、この目的を近似する効率的なグリーディアルゴリズムを提案する。 このアルゴリズムはgreedy rationalizationと呼ばれ、どんなモデルにも適用される。 このアプローチを効果的にするためには、コンテキストの不完全部分集合の予測を行う際に、モデルが互換性のある条件分布を形成する必要がある。 この条件は短い微調整ステップで強制することができる。 言語モデリングと機械翻訳における欲求合理化について検討する。 既存のベースラインと比較して、欲求的合理化は組合せ目的を最適化するのに最適であり、最も忠実な合理化を提供する。 注釈付き逐次的合理化の新しいデータセットでは、欲望的合理化は人間の合理化と最もよく似ている。

Sequence models are a critical component of modern NLP systems, but their predictions are difficult to explain. We consider model explanations though rationales, subsets of context that can explain individual model predictions. We find sequential rationales by solving a combinatorial optimization: the best rationale is the smallest subset of input tokens that would predict the same output as the full sequence. Enumerating all subsets is intractable, so we propose an efficient greedy algorithm to approximate this objective. The algorithm, which is called greedy rationalization, applies to any model. For this approach to be effective, the model should form compatible conditional distributions when making predictions on incomplete subsets of the context. This condition can be enforced with a short fine-tuning step. We study greedy rationalization on language modeling and machine translation. Compared to existing baselines, greedy rationalization is best at optimizing the combinatorial objective and provides the most faithful rationales. On a new dataset of annotated sequential rationales, greedy rationales are most similar to human rationales.
翻訳日:2021-09-15 15:52:59 公開日:2021-09-14
# パーソナリティとオンラインソーシャルエンゲージメントの探求 - twitterにおけるmbtiユーザ調査

Exploring Personality and Online Social Engagement: An Investigation of MBTI Users on Twitter ( http://arxiv.org/abs/2109.06402v1 )

ライセンス: Link先を確認
Partha Kadambi(参考訳) 計算モデルによるテキストに基づくパーソナリティ予測は,調査に基づくパーソナリティアセスメントの重要な弱点を著しく改善する可能性を持つ新興分野である。 我々は,Mers-Briggs Personal traits (MBTI) を自称したTwitterのプロフィール3848件を調査し,オンラインソーシャルエンゲージメントからテキストベースのデジタルトレースをいかにしてユーザパーソナリティ特性を予測することができるかを明らかにする。 我々は、ディープラーニングに基づく最先端のNLPアーキテクチャであるBERTを利用して、タスクに最も予測力を持つさまざまなテキストソースを分析します。 MBTIシステムの全次元に対して, 伝記, ステータス, お気に入りツイートが有意な予測力を持っていることがわかった。 本研究は,言語使用と行動の関連づける5因子モデルの基礎的理論である mbti と lexical hypothesis の有効性に関する知見とその意義について考察する。 本研究は,パーソナリティ心理学者,計算言語学者,その他の社会科学者に対して,観察テキストデータからパーソナリティを予測し,言語と行動のコア特性の関係を探索することを目的とした。

Text-based personality prediction by computational models is an emerging field with the potential to significantly improve on key weaknesses of survey-based personality assessment. We investigate 3848 profiles from Twitter with self-labeled Myers-Briggs personality traits (MBTI) - a framework closely related to the Five Factor Model of personality - to better understand how text-based digital traces from social engagement online can be used to predict user personality traits. We leverage BERT, a state-of-the-art NLP architecture based on deep learning, to analyze various sources of text that hold most predictive power for our task. We find that biographies, statuses, and liked tweets contain significant predictive power for all dimensions of the MBTI system. We discuss our findings and their implications for the validity of the MBTI and the lexical hypothesis, a foundational theory underlying the Five Factor Model that links language use and behavior. Our results hold optimistic implications for personality psychologists, computational linguists, and other social scientists aiming to predict personality from observational text data and explore the links between language and core behavioral traits.
翻訳日:2021-09-15 15:52:45 公開日:2021-09-14
# 提案分類のための知識誘導長可変階層ラベル生成

Expert Knowledge-Guided Length-Variant Hierarchical Label Generation for Proposal Classification ( http://arxiv.org/abs/2109.06661v1 )

ライセンス: Link先を確認
Meng Xiao, Ziyue Qiao, Yanjie Fu, Yi Du, Pengyang Wang(参考訳) 科学技術の発展を促進するため、研究提案は政府機関(例えばNSF)によって開発されたオープンコート競争プログラムに提出される。 提案分類は、効果的かつ公正なレビュー課題を達成する上で最も重要な課題の1つである。 提案分類は、提案をラベルの長さ可変シーケンスに分類することを目的としている。 本稿では,提案分類問題を階層型マルチラベル分類タスクに定式化する。 先行研究もあるが、提案分類には独特の特徴がある。 1) 提案の分類結果は,粒度の異なる階層的な規律構造にある。 2) 複数の種類の書類を含む提案 3) ドメインの専門家は、タスクパフォーマンスを改善するために活用できる部分的なラベルを経験的に提供できます。 本稿では,これら3つの特徴を共同でモデル化する新しい深層提案分類フレームワークの開発に着目する。 特に,ラベルを逐次生成するために,事前に生成したラベルを活用して次のレベルのラベルを予測する。専門家による部分ラベルを統合するには,これらの経験的部分ラベルを埋め込んでニューラルネットワークの状態を初期化する。 我々のモデルは,次のラベル予測を止めるために,ラベルシーケンスの最適な長さを自動的に識別することができる。 最後に,本手法がラベル配列における部分的ラベル,テキスト情報,意味的依存関係を共同でモデル化できることを実証するために,広範な結果を提示する。

To advance the development of science and technology, research proposals are submitted to open-court competitive programs developed by government agencies (e.g., NSF). Proposal classification is one of the most important tasks to achieve effective and fair review assignments. Proposal classification aims to classify a proposal into a length-variant sequence of labels. In this paper, we formulate the proposal classification problem into a hierarchical multi-label classification task. Although there are certain prior studies, proposal classification exhibit unique features: 1) the classification result of a proposal is in a hierarchical discipline structure with different levels of granularity; 2) proposals contain multiple types of documents; 3) domain experts can empirically provide partial labels that can be leveraged to improve task performances. In this paper, we focus on developing a new deep proposal classification framework to jointly model the three features. In particular, to sequentially generate labels, we leverage previously-generated labels to predict the label of next level; to integrate partial labels from experts, we use the embedding of these empirical partial labels to initialize the state of neural networks. Our model can automatically identify the best length of label sequence to stop next label prediction. Finally, we present extensive results to demonstrate that our method can jointly model partial labels, textual information, and semantic dependencies in label sequences, and, thus, achieve advanced performances.
翻訳日:2021-09-15 15:52:21 公開日:2021-09-14
# 会話空間:空間言語的意味から推測する

Talking Space: inference from spatial linguistic meanings ( http://arxiv.org/abs/2109.06554v1 )

ライセンス: Link先を確認
Vincent Wang-Mascianica and Bob Coecke(参考訳) 本稿は、私たちが生活している自然と身近な空間の交わり、私たちが観察し、その中の物事を想像することに関するものである。 言語の重要な特徴の多くは空間的意味を持ち、例えば、多くの前置詞(例えば、イン、アフター、オンなど)は基本的に空間的である。 空間は、多くの単語/フレーズ/文/テキストの意味の重要な要素であり、空間はキーではなく、参照するコンテキスト(例えば、ポインティング)とエンボディメントである。 本稿では,空間構造と言語構造を一致した構成方法で相互作用させるメカニズムを提案する。 例えば、カルテシア空間、地下鉄駅、チェス盤のチェスピース、ペンローズの階段などがある。 構築の出発点は合成自然言語の意味のDisCoCatモデルであり、物理空間に対応するためにリラックスする。 我々は、複数のエージェント/オブジェクトを空間に持つ問題に対処する。例えば、各エージェントがその空間に対して異なる能力を持っている場合、例えば、各チェスピースができる特定の動きや、到達可能な異なる速度などである。 モデルが成立すると、物理空間の構造から引き出された推論がどのように作成されるかを示す。 また,空間の言語モデルと私たちの感覚や身体に関連する他のモデル,例えば色彩,味覚,嗅覚といった概念空間との相互作用によって,世界における人間の経験や具体化に近い豊かな構成的意味モデルが生み出せるかについても検討した。

This paper concerns the intersection of natural language and the physical space around us in which we live, that we observe and/or imagine things within. Many important features of language have spatial connotations, for example, many prepositions (like in, next to, after, on, etc.) are fundamentally spatial. Space is also a key factor of the meanings of many words/phrases/senten ces/text, and space is a, if not the key, context for referencing (e.g. pointing) and embodiment. We propose a mechanism for how space and linguistic structure can be made to interact in a matching compositional fashion. Examples include Cartesian space, subway stations, chesspieces on a chess-board, and Penrose's staircase. The starting point for our construction is the DisCoCat model of compositional natural language meaning, which we relax to accommodate physical space. We address the issue of having multiple agents/objects in a space, including the case that each agent has different capabilities with respect to that space, e.g., the specific moves each chesspiece can make, or the different velocities one may be able to reach. Once our model is in place, we show how inferences drawing from the structure of physical space can be made. We also how how linguistic model of space can interact with other such models related to our senses and/or embodiment, such as the conceptual spaces of colour, taste and smell, resulting in a rich compositional model of meaning that is close to human experience and embodiment in the world.
翻訳日:2021-09-15 15:52:01 公開日:2021-09-14
# 知識蒸留と論理マッチングの関連性を探る

Exploring the Connection between Knowledge Distillation and Logits Matching ( http://arxiv.org/abs/2109.06458v1 )

ライセンス: Link先を確認
Defang Chen, Can Wang, Yan Feng, Chun Chen(参考訳) 知識蒸留はモデル圧縮のための一般化ロジットマッチング手法である。 その等価性は以前、$\textit{infinity temperature}$と$\textit{zero-mean normalization}$という条件で確立されていた。 本稿では,$\textit{infinity temperature}$ において,知識蒸留の効果は余分な正規化と一致するロジットに等しいことを証明する。 さらに、追加の弱条件 -$\textit{equal-mean initialization}$ が、元の$\textit{zero-mean normalization}$ よりも既に同値の設定に十分であることが分かる。 我々の証明の鍵は、クロスエントロピー損失とソフトマックスアクティベーションを持つ現代のニューラルネットワークでは、ロジットのバックプロパゲーション勾配の平均が常にゼロであることに気付くことです。

Knowledge distillation is a generalized logits matching technique for model compression. Their equivalence is previously established on the condition of $\textit{infinity temperature}$ and $\textit{zero-mean normalization}$. In this paper, we prove that with only $\textit{infinity temperature}$, the effect of knowledge distillation equals to logits matching with an extra regularization. Furthermore, we reveal that an additional weaker condition -- $\textit{equal-mean initialization}$ rather than the original $\textit{zero-mean normalization}$ already suffices to set up the equivalence. The key to our proof is we realize that in modern neural networks with the cross-entropy loss and softmax activation, the mean of back-propagated gradient on logits always keeps zero.
翻訳日:2021-09-15 15:50:55 公開日:2021-09-14
# DSDF:協調型マルチエージェント強化学習における確率的エージェントの扱い

DSDF: An approach to handle stochastic agents in collaborative multi-agent reinforcement learning ( http://arxiv.org/abs/2109.06609v1 )

ライセンス: Link先を確認
Satheesh K. Perepu, Kaushik Dey(参考訳) マルチエージェント強化学習は近年多くの注目を集め、様々な分野に応用されている。 集中訓練と分散実行を含む既存の方法は、最適な共同政策に到達するための協調した行動のパターンを学ぶためにエージェントを訓練しようとする。 しかし、いくつかのエージェントが様々な確率性に確率的であれば、上記のメソッドは収束に失敗し、エージェント間の調整が不十分である。 本稿では,ロボットの故障や老化によって生じるエージェントの確率性が,協調の不確実性に寄与し,不満足なグローバルな協調に寄与することを示す。 この場合、決定論的エージェントは最適な共同政策に到達しつつ、確率的エージェントの挙動と限界を理解する必要がある。 DSDFは不確実性に応じてエージェントの割引係数を調整し,その値を用いて個々のエージェントのユーティリティネットワークを更新する。 DSDFはまた、協調における信頼性の程度を付与することで、より長い計画に関わるタスクを引き受ける決定論的タスクと即時かつ短い軌道の確率的エージェントタスクを付与する。 この方法は、部分的に実行される可能性のあるエージェントの協調調整を可能にし、多くの状況においてエージェント/ロボットの代替投資を削減または遅延させることができる。 異なるシナリオのベンチマーク環境において,既存手法と比較して提案手法の有効性を示す。

Multi-Agent reinforcement learning has received lot of attention in recent years and have applications in many different areas. Existing methods involving Centralized Training and Decentralized execution, attempts to train the agents towards learning a pattern of coordinated actions to arrive at optimal joint policy. However if some agents are stochastic to varying degrees of stochasticity, the above methods often fail to converge and provides poor coordination among agents. In this paper we show how this stochasticity of agents, which could be a result of malfunction or aging of robots, can add to the uncertainty in coordination and there contribute to unsatisfactory global coordination. In this case, the deterministic agents have to understand the behavior and limitations of the stochastic agents while arriving at optimal joint policy. Our solution, DSDF which tunes the discounted factor for the agents according to uncertainty and use the values to update the utility networks of individual agents. DSDF also helps in imparting an extent of reliability in coordination thereby granting stochastic agents tasks which are immediate and of shorter trajectory with deterministic ones taking the tasks which involve longer planning. Such an method enables joint co-ordinations of agents some of which may be partially performing and thereby can reduce or delay the investment of agent/robot replacement in many circumstances. Results on benchmark environment for different scenarios shows the efficacy of the proposed approach when compared with existing approaches.
翻訳日:2021-09-15 15:50:40 公開日:2021-09-14
# COVID-Net クリニカル ICU:説明可能性と信頼度による ICU 入院の予測

COVID-Net Clinical ICU: Enhanced Prediction of ICU Admission for COVID-19 Patients via Explainability and Trust Quantification ( http://arxiv.org/abs/2109.06711v1 )

ライセンス: Link先を確認
Audrey Chung, Mahmoud Famouri, Andrew Hryniowski, and Alexander Wong(参考訳) 新型コロナウイルス(COVID-19)のパンデミックは世界的な衝撃を受け続けており、世界中で苦戦している医療システムに多大な負担をかけている。 医療計画における重要な課題は、患者が病院の集中治療室(ICU)に入院すべきかどうかを判断することである。 患者臨床データに基づくICU入院予測のためのニューラルネットワークであるCOVID-Net Clinical ICUを導入する。 透明で信頼に満ちた手法によって、提案されたCOVID-Net Clinical ICUは、1,925人のCOVID-19患者からなるシロ・リビアン病院の臨床データセットを使用して構築され、新型コロナウイルス陽性患者がICUの入院を96.9%の精度で求めることを予測できる。 定量的説明可能性戦略を用いてシステムレベルの洞察の発見を行い, 臨床特徴の意思決定への影響を調査し, 予測性能の向上に有効な洞察を得た。 さらに、信頼度定量化指標を活用し、COVID-Net Clinical ICUの信頼性に関する深い洞察を得た。 臨床予測モデルがいつ,なぜある決定を下すのかを深く掘り下げることで,ICU入院予測などの重要な臨床決定支援タスクの意思決定における重要な要因を明らかにし,臨床予測モデルが信頼性の高い説明責任を負う状況を特定することができる。

The COVID-19 pandemic continues to have a devastating global impact, and has placed a tremendous burden on struggling healthcare systems around the world. Given the limited resources, accurate patient triaging and care planning is critical in the fight against COVID-19, and one crucial task within care planning is determining if a patient should be admitted to a hospital's intensive care unit (ICU). Motivated by the need for transparent and trustworthy ICU admission clinical decision support, we introduce COVID-Net Clinical ICU, a neural network for ICU admission prediction based on patient clinical data. Driven by a transparent, trust-centric methodology, the proposed COVID-Net Clinical ICU was built using a clinical dataset from Hospital Sirio-Libanes comprising of 1,925 COVID-19 patients, and is able to predict when a COVID-19 positive patient would require ICU admission with an accuracy of 96.9% to facilitate better care planning for hospitals amidst the on-going pandemic. We conducted system-level insight discovery using a quantitative explainability strategy to study the decision-making impact of different clinical features and gain actionable insights for enhancing predictive performance. We further leveraged a suite of trust quantification metrics to gain deeper insights into the trustworthiness of COVID-Net Clinical ICU. By digging deeper into when and why clinical predictive models makes certain decisions, we can uncover key factors in decision making for critical clinical decision support tasks such as ICU admission prediction and identify the situations under which clinical predictive models can be trusted for greater accountability.
翻訳日:2021-09-15 15:50:17 公開日:2021-09-14
# 自律システムの到達可能な状態の学習密度分布

Learning Density Distribution of Reachable States for Autonomous Systems ( http://arxiv.org/abs/2109.06728v1 )

ライセンス: Link先を確認
Yue Meng, Dawei Sun, Zeng Qiu, Md Tawhid Bin Waez, Chuchu Fan(参考訳) 最悪の場合の到達可能性とは対照的に、状態密度分布は安全性に関連する問題に活用でき、潜在的に危険な状況のリスクの可能性を定量化することができる。 本研究では,非線形およびブラックボックス系の到達可能な状態の密度分布を計算するためのデータ駆動法を提案する。 半教師付きアプローチは軌道データから系のダイナミクスと状態密度を学習し、状態密度の進化はリウヴィル偏微分方程式に従うという事実に導かれる。 ニューラルネットワークのリーチビリティツールの助けを借りて、我々のアプローチは、将来のすべての状態とその密度のセットを推定できる。 さらに、安全でない行動が起こる確率範囲でオンライン安全性検証を行うこともできる。 我々は、我々の学習した解がより正確な密度分布を推定し、より保守的で柔軟にリスクを定量化できることを示すために、一連の実験を用いています。

State density distribution, in contrast to worst-case reachability, can be leveraged for safety-related problems to better quantify the likelihood of the risk for potentially hazardous situations. In this work, we propose a data-driven method to compute the density distribution of reachable states for nonlinear and even black-box systems. Our semi-supervised approach learns system dynamics and the state density jointly from trajectory data, guided by the fact that the state density evolution follows the Liouville partial differential equation. With the help of neural network reachability tools, our approach can estimate the set of all possible future states as well as their density. Moreover, we could perform online safety verification with probability ranges for unsafe behaviors to occur. We use an extensive set of experiments to show that our learned solution can produce a much more accurate estimate on density distribution, and can quantify risks less conservatively and flexibly comparing with worst-case analysis.
翻訳日:2021-09-15 15:49:48 公開日:2021-09-14
# greenformer:効率的なディープニューラルネットワークのためのファクタライゼーションツールキット

Greenformer: Factorization Toolkit for Efficient Deep Neural Networks ( http://arxiv.org/abs/2109.06762v1 )

ライセンス: Link先を確認
Samuel Cahyawijaya, Genta Indra Winata, Holy Lovenia, Bryan Wilie, Wenliang Dai, Etsuko Ishii, Pascale Fung(参考訳) 近年のディープニューラルネットワーク(DNN)の進歩は著しく成功したが、計算コストも大幅に増加する。 本稿では,性能を維持しつつ行列因子化によってニューラルネットワークの計算を高速化するツールキット greenformer を提案する。 Greenformerは、任意のDNNモデルに1行のコードで簡単に適用できる。 実験の結果,greenformerは幅広いシナリオに有効であることがわかった。 私たちはgreenformerをhttps://samuelcahyaw ijaya.github.io/gree nformer-demo/で紹介します。

While the recent advances in deep neural networks (DNN) bring remarkable success, the computational cost also increases considerably. In this paper, we introduce Greenformer, a toolkit to accelerate the computation of neural networks through matrix factorization while maintaining performance. Greenformer can be easily applied with a single line of code to any DNN model. Our experimental results show that Greenformer is effective for a wide range of scenarios. We provide the showcase of Greenformer at https://samuelcahyaw ijaya.github.io/gree nformer-demo/.
翻訳日:2021-09-15 15:49:34 公開日:2021-09-14
# エージェント能力のスペクトルのベンチマーク

Benchmarking the Spectrum of Agent Capabilities ( http://arxiv.org/abs/2109.06780v1 )

ライセンス: Link先を確認
Danijar Hafner(参考訳) 知的エージェントの汎用能力を評価するには複雑なシミュレーション環境が必要である。 既存のベンチマークは通常、環境ごとに1つの狭いタスクしか評価せず、研究者は様々な環境で高価なトレーニングを実行する必要がある。 本稿では,1つの環境における幅広い汎用能力を評価する視覚入力を備えたオープンワールドサバイバルゲームであるCrafterを紹介する。 エージェントは、与えられた報酬信号から学ぶか、本質的な目的を通じて学習し、リソースの発見や工作ツールなど、各エピソードでアンロックできる意味的に有意義な成果によって評価される。 一貫してすべての成果を解き放つには、強力な一般化、深い探究、長期的推論が必要です。 我々は,今後の研究の推進が困難であること,報酬エージェントや教師なしエージェントのベースラインスコアを提供することを実験的に検証した。 さらに,トンネルシステム,橋梁,住宅,プランテーションなど,報酬信号の最大化から生じる洗練された挙動を観察する。 Crafterが幅広い能力を迅速に評価することで、研究の進展を加速することを期待しています。

Evaluating the general abilities of intelligent agents requires complex simulation environments. Existing benchmarks typically evaluate only one narrow task per environment, requiring researchers to perform expensive training runs on many different environments. We introduce Crafter, an open world survival game with visual inputs that evaluates a wide range of general abilities within a single environment. Agents either learn from the provided reward signal or through intrinsic objectives and are evaluated by semantically meaningful achievements that can be unlocked during each episode, such as discovering resources and crafting tools. Consistently unlocking all achievements requires strong generalization, deep exploration, and long-term reasoning. We experimentally verify that Crafter is of appropriate difficulty to drive future research and provide baselines scores of reward agents and unsupervised agents. Furthermore, we observe sophisticated behaviors emerging from maximizing the reward signal, such as building tunnel systems, bridges, houses, and plantations. We hope that Crafter will accelerate research progress by quickly evaluating a wide spectrum of abilities.
翻訳日:2021-09-15 15:49:26 公開日:2021-09-14
# 攻撃者は今何をしてるの? 脅威状況の変化に伴うテキストからのサイバー脅威情報抽出の自動化:調査

What are the attackers doing now? Automating cyber threat intelligence extraction from text on pace with the changing threat landscape: A survey ( http://arxiv.org/abs/2109.06808v1 )

ライセンス: Link先を確認
Md Rayhanur Rahman, Rezvan Mahdavi-Hezaveh, Laurie Williams(参考訳) サイバーセキュリティ研究者は、サイバー攻撃戦略、手順、ツールを記述する脅威レポートやオンライン記事などのテキストソースからのCTIの自動抽出に貢献している。 本論文の目的は,サイバーセキュリティ研究者がテキストからサイバー脅威情報抽出に用いられている技術を,文献の関連研究を通じて理解することである。 文献から「テキストからのCTI抽出」に関連する研究を体系的に収集し、CTI抽出の目的を分類する。 本研究から抽出したcti抽出パイプラインを提案する。 提案するパイプラインのコンテキストで使用するデータソース,テクニック,CTI共有フォーマットを同定する。 我々の研究は、妥協抽出の抽出指標、TTP(戦術、技術、攻撃手順)、サイバーセキュリティキーワードなどの10種類の抽出目的を見つける。 また、CTI抽出のための7種類のテキストソースを特定し、ハッカーフォーラム、脅威レポート、ソーシャルメディア投稿、オンラインニュース記事から得られたテキストデータは、ほぼ90%で使用されている。 自然言語処理は、名前付きエンティティ認識、トピックモデリング、依存性解析、教師付き分類、クラスタリングなどの教師なし機械学習技術とともに、CTI抽出に使用される。 我々は、これらの研究に関連する技術的課題として、複製、検証、研究のさらなる拡張を保証することのできる、利用可能なクリーンでラベル付きデータを取得することに注目した。 テキストからCTI情報を抽出することに焦点を当てた研究から,脅威優先順位付けや自動脅威モデリングといった積極的な意思決定を行うサイバーセキュリティ実践者を支援するための,現在のCTI抽出作業の構築を提唱する。

Cybersecurity researchers have contributed to the automated extraction of CTI from textual sources, such as threat reports and online articles, where cyberattack strategies, procedures, and tools are described. The goal of this article is to aid cybersecurity researchers understand the current techniques used for cyberthreat intelligence extraction from text through a survey of relevant studies in the literature. We systematically collect "CTI extraction from text"-related studies from the literature and categorize the CTI extraction purposes. We propose a CTI extraction pipeline abstracted from these studies. We identify the data sources, techniques, and CTI sharing formats utilized in the context of the proposed pipeline. Our work finds ten types of extraction purposes, such as extraction indicators of compromise extraction, TTPs (tactics, techniques, procedures of attack), and cybersecurity keywords. We also identify seven types of textual sources for CTI extraction, and textual data obtained from hacker forums, threat reports, social media posts, and online news articles have been used by almost 90% of the studies. Natural language processing along with both supervised and unsupervised machine learning techniques such as named entity recognition, topic modelling, dependency parsing, supervised classification, and clustering are used for CTI extraction. We observe the technical challenges associated with these studies related to obtaining available clean, labelled data which could assure replication, validation, and further extension of the studies. As we find the studies focusing on CTI information extraction from text, we advocate for building upon the current CTI extraction work to help cybersecurity practitioners with proactive decision making such as threat prioritization, automated threat modelling to utilize knowledge from past cybersecurity incidents.
翻訳日:2021-09-15 15:48:58 公開日:2021-09-14
# 自律運転におけるマルチセンサ融合の安全性問題検出

Detecting Safety Problems of Multi-Sensor Fusion in Autonomous Driving ( http://arxiv.org/abs/2109.06404v1 )

ライセンス: Link先を確認
Ziyuan Zhong, Zhisheng Hu, Shengjian Guo, Xinyang Zhang, Zhenyu Zhong, Baishakhi Ray(参考訳) 近年,自律運転(AD)システムが盛んである。 一般に、センサーデータを受け取り、運転決定を計算し、車両に制御信号を出力する。 センサ入力による不確実性を円滑にするために、ADシステムは通常、マルチセンサー融合(MSF)を利用してセンサー入力を融合させ、周囲のより信頼性の高い理解を生み出す。 しかし、msfは最も正確なデータを提供するセンサに関する知識が欠けているため、不確実性を完全に排除することはできない。 その結果、致命的な結果が予想外に起こる可能性がある。 本研究では,業界グレードの高度運転支援システム(ADAS)におけるMSF手法が,車両の制御を誤認し,重大な危険を生じさせることを示した。 誤作動は、使用済みの融合法や少なくとも1つのセンサーからの正確なデータにかかわらず起こりうる。 MSF法における安全性のリスクを考慮し,融合エラーを正式に定義し,そのようなエラーによって因果的に生じる安全違反を識別する方法を提案する。 さらに,新しい進化型ドメイン固有探索フレームワークであるfusionfuzzを開発した。 広く使われている2つのMSF法について,本フレームワークの評価を行った。 %であった。 実験の結果,FusionFuzzは150以上の核融合誤差を同定した。 最後に,本研究におけるMSF法の改良について提案する。

Autonomous driving (AD) systems have been thriving in recent years. In general, they receive sensor data, compute driving decisions, and output control signals to the vehicles. To smooth out the uncertainties brought by sensor inputs, AD systems usually leverage multi-sensor fusion (MSF) to fuse the sensor inputs and produce a more reliable understanding of the surroundings. However, MSF cannot completely eliminate the uncertainties since it lacks the knowledge about which sensor provides the most accurate data. As a result, critical consequences might happen unexpectedly. In this work, we observed that the popular MSF methods in an industry-grade Advanced Driver-Assistance System (ADAS) can mislead the car control and result in serious safety hazards. Misbehavior can happen regardless of the used fusion methods and the accurate data from at least one sensor. To attribute the safety hazards to a MSF method, we formally define the fusion errors and propose a way to distinguish safety violations causally induced by such errors. Further, we develop a novel evolutionary-based domain-specific search framework, FusionFuzz, for the efficient detection of fusion errors. We evaluate our framework on two widely used MSF methods. %in two driving environments. Experimental results show that FusionFuzz identifies more than 150 fusion errors. Finally, we provide several suggestions to improve the MSF methods under study.
翻訳日:2021-09-15 15:48:12 公開日:2021-09-14
# 自動浸透試験のための深層構造強化剤

Deep hierarchical reinforcement agents for automated penetration testing ( http://arxiv.org/abs/2109.06449v1 )

ライセンス: Link先を確認
Khuong Tran (1), Ashlesha Akella (1), Maxwell Standen (2), Junae Kim (2), David Bowman (2), Toby Richer (2), Chin-Teng Lin (1) ((1) Institution One, (2) Institution Two)(参考訳) 侵入テスト 既存の防御をテストするためにコンピュータシステムの組織的な攻撃は、ネットワークセキュリティを評価するために広く使われている。 これは時間を要するプロセスであり、真のサイバー攻撃に似た戦略の確立には深い知識を必要とする。 本稿では,ha-drlと呼ばれる階層構造エージェントを用いた新しい深層強化学習アーキテクチャを提案する。ha-drlは,設計したサイバーセキュリティネットワークの複雑さにより行動数が指数関数的に増加する自律的浸透テストシミュレータの大規模離散的行動空間に対処するために,代数的行動分解戦略を用いる。 提案するアーキテクチャは,人工知能を自動浸透試験に応用する方法として広く用いられている,従来のディープq学習エージェントよりも高速かつ安定的に最適な攻撃方針を見出した。

Penetration testing the organised attack of a computer system in order to test existing defences has been used extensively to evaluate network security. This is a time consuming process and requires in-depth knowledge for the establishment of a strategy that resembles a real cyber-attack. This paper presents a novel deep reinforcement learning architecture with hierarchically structured agents called HA-DRL, which employs an algebraic action decomposition strategy to address the large discrete action space of an autonomous penetration testing simulator where the number of actions is exponentially increased with the complexity of the designed cybersecurity network. The proposed architecture is shown to find the optimal attacking policy faster and more stably than a conventional deep Q-learning agent which is commonly used as a method to apply artificial intelligence in automatic penetration testing.
翻訳日:2021-09-15 15:47:50 公開日:2021-09-14
# 深層強化学習における探索:包括的調査

Exploration in Deep Reinforcement Learning: A Comprehensive Survey ( http://arxiv.org/abs/2109.06668v1 )

ライセンス: Link先を確認
Tianpei Yang, Hongyao Tang, Chenjia Bai, Jinyi Liu, Jianye Hao, Zhaopeng Meng and Peng Liu(参考訳) Deep Reinforcement Learning (DRL)とDeep Multi-agent Reinforcement Learning (MARL)は、ゲームAI、自動運転車、ロボティクス、ファイナンスなど、幅広い領域で大きな成功を収めている。 しかし、DRLと深層MARLエージェントはサンプリング非効率であることが広く知られており、比較的単純なゲーム設定でも数百万のインタラクションが必要であるため、実際の産業シナリオにおける広範な適用を妨げている。 背景にあるボトルネックの1つは、よく知られた探索問題、すなわち、未知の環境を効率的に探索し、政策学習に最も役立つ情報的経験を集める方法である。 本稿では,drl と deep marl における既存の探索手法に関する総合的な調査を行い,重要な問題と解決策に関する理解と洞察を提供する。 まず、効率的な探査を実現するためのいくつかの重要な課題を特定します。 次に,既存のアプローチを不確実性指向探索と本質的モチベーション指向探索の2つのカテゴリに分類し,体系的な調査を行う。 不確実性指向探索の本質は、認識論的不確実性の定量化を利用して効率的な探索を導出することである。 対照的に、本質的な動機づけ指向の探索方法は、通常、内在的な探索指導に異なる報酬非依存の情報を取り入れている。 以上の2つの主な分野の他,高度な技術を採用するが,これら2つのカテゴリに分類することは困難である他の探索手法も結論づける。 さらに、よく使われるベンチマークのセット上でDRLの探索手法を総合的に比較する。 最後に,DRLと深部MARLにおける探索のオープンな問題を要約し,今後の方向性を指摘する。

Deep Reinforcement Learning (DRL) and Deep Multi-agent Reinforcement Learning (MARL) have achieved significant success across a wide range of domains, such as game AI, autonomous vehicles, robotics and finance. However, DRL and deep MARL agents are widely known to be sample-inefficient and millions of interactions are usually needed even for relatively simple game settings, thus preventing the wide application in real-industry scenarios. One bottleneck challenge behind is the well-known exploration problem, i.e., how to efficiently explore the unknown environments and collect informative experiences that could benefit the policy learning most. In this paper, we conduct a comprehensive survey on existing exploration methods in DRL and deep MARL for the purpose of providing understandings and insights on the critical problems and solutions. We first identify several key challenges to achieve efficient exploration, which most of the exploration methods aim at addressing. Then we provide a systematic survey of existing approaches by classifying them into two major categories: uncertainty-oriented exploration and intrinsic motivation-oriented exploration. The essence of uncertainty-oriented exploration is to leverage the quantification of the epistemic and aleatoric uncertainty to derive efficient exploration. By contrast, intrinsic motivation-oriented exploration methods usually incorporate different reward agnostic information for intrinsic exploration guidance. Beyond the above two main branches, we also conclude other exploration methods which adopt sophisticated techniques but are difficult to be classified into the above two categories. In addition, we provide a comprehensive empirical comparison of exploration methods for DRL on a set of commonly used benchmarks. Finally, we summarize the open problems of exploration in DRL and deep MARL and point out a few future directions.
翻訳日:2021-09-15 15:47:37 公開日:2021-09-14
# ニューラルバリア認証を用いたリアクティブかつ安全な道路ユーザシミュレーション

Reactive and Safe Road User Simulations using Neural Barrier Certificates ( http://arxiv.org/abs/2109.06689v1 )

ライセンス: Link先を確認
Yue Meng, Zengyi Qin, Chuchu Fan(参考訳) リアクティブで安全なエージェントモデリングは、今日の交通シミュレータの設計と安全な計画アプリケーションにとって重要である。 本研究では,専門家データから高レベルな意思決定のみを学習し,共同学習した分散バリア証明書によって誘導される低レベル分散コントローラを学習することにより,元の目的を構成せずに安全性を確保できるリアクティブエージェントモデルを提案する。 実験結果から,我々の学習した道路利用者シミュレーションモデルは,専門家データに誤差を小さくすることで,人間のエージェントと類似しながら,最先端の模倣学習や純粋制御に基づく手法と比較して安全性を著しく向上できることが示された。 さらに,我々の学習された反応エージェントは,交通状況の把握を向上し,他の道路利用者とよりよく対応できることが示される。

Reactive and safe agent modelings are important for nowadays traffic simulator designs and safe planning applications. In this work, we proposed a reactive agent model which can ensure safety without comprising the original purposes, by learning only high-level decisions from expert data and a low-level decentralized controller guided by the jointly learned decentralized barrier certificates. Empirical results show that our learned road user simulation models can achieve a significant improvement in safety comparing to state-of-the-art imitation learning and pure control-based methods, while being similar to human agents by having smaller errors to the expert data. Moreover, our learned reactive agents are shown to generalize better to unseen traffic conditions, and react better to other road users and therefore can help understand challenging planning problems pragmatically.
翻訳日:2021-09-15 15:47:09 公開日:2021-09-14
# IGNNITION: グラフニューラルネットワークとネットワークシステムの間のギャップを埋める

IGNNITION: Bridging the Gap Between Graph Neural Networks and Networking Systems ( http://arxiv.org/abs/2109.06715v1 )

ライセンス: Link先を確認
David Pujol-Perich, Jos\'e Su\'arez-Varela, Miquel Ferriol, Shihan Xiao, Bo Wu, Albert Cabellos-Aparicio, Pere Barlet-Ros(参考訳) 近年、グラフニューラルネットワーク(GNN)は、データがグラフ(化学、推薦システムなど)として構造化される多くの分野において大きな可能性を見出している。 特にGNNは、グラフが本質的に多くのレベル(トポロジ、ルーティングなど)に存在するため、ネットワーク分野において人気が高まっている。 GNNの主な特徴は、トレーニング中に見えない他のネットワークに一般化できることであり、ネットワークのための実用的な機械学習(ML)ソリューションを開発する上で不可欠な機能である。 しかし、機能的なGNNプロトタイプの実装は現在、ニューラルネットワークプログラミングの強力なスキルを必要とする面倒な作業である。 これは、しばしば必要なMLの専門知識を持たないネットワークエンジニアにとって重要な障壁となる。 本稿では,ネットワークシステムにおけるGNNの高速プロトタイピングを可能にする,新しいオープンソースフレームワークIGNNITIONを提案する。 IGNNITIONは直感的な高レベルの抽象化に基づいており、GNNの複雑さを隠蔽しつつ、カスタムのGNNアーキテクチャを構築するための柔軟性を提供しています。 このフレームワークの汎用性と性能を示すため、異なるネットワークユースケースに適用した2つの最先端GNNモデルを実装した。 IGNNITIONによって生成されたGNNモデルは、TensorFlowのネイティブ実装と精度と性能の面で同等であることを示す。

Recent years have seen the vast potential of Graph Neural Networks (GNN) in many fields where data is structured as graphs (e.g., chemistry, recommender systems). In particular, GNNs are becoming increasingly popular in the field of networking, as graphs are intrinsically present at many levels (e.g., topology, routing). The main novelty of GNNs is their ability to generalize to other networks unseen during training, which is an essential feature for developing practical Machine Learning (ML) solutions for networking. However, implementing a functional GNN prototype is currently a cumbersome task that requires strong skills in neural network programming. This poses an important barrier to network engineers that often do not have the necessary ML expertise. In this article, we present IGNNITION, a novel open-source framework that enables fast prototyping of GNNs for networking systems. IGNNITION is based on an intuitive high-level abstraction that hides the complexity behind GNNs, while still offering great flexibility to build custom GNN architectures. To showcase the versatility and performance of this framework, we implement two state-of-the-art GNN models applied to different networking use cases. Our results show that the GNN models produced by IGNNITION are equivalent in terms of accuracy and performance to their native implementations in TensorFlow.
翻訳日:2021-09-15 15:46:55 公開日:2021-09-14
# 数ショット品質多様性の最適化

Few-shot Quality-Diversity Optimisation ( http://arxiv.org/abs/2109.06826v1 )

ライセンス: Link先を確認
Achkan Salehi, Alexandre Coninx, Stephane Doncieux(参考訳) 近年,コンピュータビジョンから強化学習に基づく制御に至るまでの課題領域において,過去の学習経験の活用とFew-shotおよびMeta Learningアプローチの設計に多大な研究が注がれている。 注目すべき例外は、私たちの知る限り、この方向への努力はほとんど、あるいはまったく行われていない、品質多様性(QD)の最適化です。 強化学習において,QD法は知覚的最小値とスパース報酬を扱う効果的なツールであることが示されている。 しかし、それらは本質的に非効率的な進化過程のサンプルに依存するため、コストがかかるままである。 本稿では,タスク分布の例から,パラメータ空間の最適化によって得られる経路の情報を利用して,未知の環境でQD手法を初期化する場合,数発の適応が可能となることを示す。 提案手法はバックプロパゲーションを必要としない。 実装とスケールは簡単であり、さらに、トレーニング中の基盤となるモデルに非依存である。 ロボット操作とナビゲーションベンチマークを用いて、疎密な報酬設定と密集した報酬設定の両方で実施された実験は、これらの環境でのQD最適化に必要な世代数を著しく減少させることを示している。

In the past few years, a considerable amount of research has been dedicated to the exploitation of previous learning experiences and the design of Few-shot and Meta Learning approaches, in problem domains ranging from Computer Vision to Reinforcement Learning based control. A notable exception, where to the best of our knowledge, little to no effort has been made in this direction is Quality-Diversity (QD) optimisation. QD methods have been shown to be effective tools in dealing with deceptive minima and sparse rewards in Reinforcement Learning. However, they remain costly due to their reliance on inherently sample inefficient evolutionary processes. We show that, given examples from a task distribution, information about the paths taken by optimisation in parameter space can be leveraged to build a prior population, which when used to initialise QD methods in unseen environments, allows for few-shot adaptation. Our proposed method does not require backpropagation. It is simple to implement and scale, and furthermore, it is agnostic to the underlying models that are being trained. Experiments carried in both sparse and dense reward settings using robotic manipulation and navigation benchmarks show that it considerably reduces the number of generations that are required for QD optimisation in these environments.
翻訳日:2021-09-15 15:46:36 公開日:2021-09-14
# 機能外乱検出に関する幾何学的視点

A geometric perspective on functional outlier detection ( http://arxiv.org/abs/2109.06849v1 )

ライセンス: Link先を確認
Moritz Herrmann and Fabian Scheipl(参考訳) 特に, 振幅と位相の変動モードによって定義される関数多様体から引き出された関数データセットについて, 幾何学的観点からの関数的外れ検出について考察する。 この多様体に基づいて,従来提案されていたよりも広く適用可能で現実的な機能外乱検出の概念を考案する。 理論的な理解を大幅に改善し、オフマニフォールドである構造的異常な異常データと、オンマニフォールドだがマージンにある分布的外れデータとを区別することで、複雑な機能的外れデータシナリオを一貫して、そして完全に汎用的に記述し分析することができる。 これにより、機能的外れ値検出の実用性が向上する: 単純な多様体学習法を用いて、機能的データセットの幾何学的構造を確実に推論し、視覚化することができる。 また,多様体学習法から学習したベクトル値表現を入力特徴として用いることで,表データ入力を必要とする標準外れ値検出手法を機能データに適用できることを示した。 合成および実データ集合に関する実験では、このアプローチが、高度に専門的で複雑な方法論と狭いアプリケーションドメインを伴わない、多種多様な設定において、既存の機能的データ固有メソッドと同等以上の異常検出性能をもたらすことが示されています。

We consider functional outlier detection from a geometric perspective, specifically: for functional data sets drawn from a functional manifold which is defined by the data's modes of variation in amplitude and phase. Based on this manifold, we develop a conceptualization of functional outlier detection that is more widely applicable and realistic than previously proposed. Our theoretical and experimental analyses demonstrate several important advantages of this perspective: It considerably improves theoretical understanding and allows to describe and analyse complex functional outlier scenarios consistently and in full generality, by differentiating between structurally anomalous outlier data that are off-manifold and distributionally outlying data that are on-manifold but at its margins. This improves practical feasibility of functional outlier detection: We show that simple manifold learning methods can be used to reliably infer and visualize the geometric structure of functional data sets. We also show that standard outlier detection methods requiring tabular data inputs can be applied to functional data very successfully by simply using their vector-valued representations learned from manifold learning methods as input features. Our experiments on synthetic and real data sets demonstrate that this approach leads to outlier detection performances at least on par with existing functional data-specific methods in a large variety of settings, without the highly specialized, complex methodology and narrow domain of application these methods often entail.
翻訳日:2021-09-15 15:46:15 公開日:2021-09-14
# 巧妙な天然メイクアップによるドッジ攻撃

Dodging Attack Using Carefully Crafted Natural Makeup ( http://arxiv.org/abs/2109.06467v1 )

ライセンス: Link先を確認
Nitzan Guetta and Asaf Shabtai and Inderjeet Singh and Satoru Momiyama and Yuval Elovici(参考訳) ディープラーニング顔認識モデルは最先端の監視システムによって公共エリア(空港など)を通過する個人を特定するために使用されている。 従来の研究では、デジタルドメインと物理ドメインの両方において、このようなシステムによる識別を回避するために、敵対的機械学習(AML)攻撃の使用が実証されている。 しかし、物理的な領域での攻撃は、人間の顔に重大な操作を必要とするため、人間の観察者(空港の警備員など)による疑念を引き起こす可能性がある。 本研究では,自然のメイクアップを慎重に作ることによって,被験者が顔認証モデルによって識別されることを防止する新しいブラックボックス型aml攻撃を提案する。 提案するarcface顔認識モデルに対する攻撃を,2台のカメラ,異なる撮影角度,異なる照明条件を含む実世界の20名の参加者で評価した。 評価の結果、デジタルドメインでは、顔認識システムは参加者全員を識別できなかったが、物理的ドメインでは、現実的な運用環境の合理的なしきい値以下である、フレームの1.22%(化粧なしで47.57%、ランダムな自然化粧で33.73%)の参加者を識別することができた。

Deep learning face recognition models are used by state-of-the-art surveillance systems to identify individuals passing through public areas (e.g., airports). Previous studies have demonstrated the use of adversarial machine learning (AML) attacks to successfully evade identification by such systems, both in the digital and physical domains. Attacks in the physical domain, however, require significant manipulation to the human participant's face, which can raise suspicion by human observers (e.g. airport security officers). In this study, we present a novel black-box AML attack which carefully crafts natural makeup, which, when applied on a human participant, prevents the participant from being identified by facial recognition models. We evaluated our proposed attack against the ArcFace face recognition model, with 20 participants in a real-world setup that includes two cameras, different shooting angles, and different lighting conditions. The evaluation results show that in the digital domain, the face recognition system was unable to identify all of the participants, while in the physical domain, the face recognition system was able to identify the participants in only 1.22% of the frames (compared to 47.57% without makeup and 33.73% with random natural makeup), which is below a reasonable threshold of a realistic operational environment.
翻訳日:2021-09-15 15:45:17 公開日:2021-09-14
# ImUnity:マルチセンターMR画像調和のための一般化可能なVAE-GANソリューション

ImUnity: a generalizable VAE-GAN solution for multicenter MR image harmonization ( http://arxiv.org/abs/2109.06756v1 )

ライセンス: Link先を確認
Stenzel Cackowski, Emmanuel L. Barbier, Michel Dojat, Thomas Christen(参考訳) ImUnityは、効率よく柔軟なMR画像調和のために設計された、オリジナルのディープラーニングモデルである。 vae-ganネットワークは、混乱モジュールと任意の生物学的保存モジュールとを結合し、トレーニングデータベースの各主題の異なる解剖学的位置から取られた複数の2dスライスと、自己教師付きトレーニングのための画像コントラスト変換を使用する。 最終的に、様々なマルチセンター集団研究に使用できる「補正された」MR画像を生成する。 Using 3 open source databases (ABIDE, OASIS and SRPBS), which contain MR images from multiple acquisition scanner types or vendors and a large range of subjects ages, we show that ImUnity: (1) outperforms state-of-the-art methods in terms of quality of images generated using traveling subjects; (2) removes sites or scanner biases while improving patients classification; (3) harmonizes data coming from new sites or scanners without the need for an additional fine-tuning and (4) allows the selection of multiple MR reconstructed images according to the desired applications. T1強調画像でテストされたImUnityは、他の種類の医療画像の調和に使える。

ImUnity is an original deep-learning model designed for efficient and flexible MR image harmonization. A VAE-GAN network, coupled with a confusion module and an optional biological preservation module, uses multiple 2D-slices taken from different anatomical locations in each subject of the training database, as well as image contrast transformations for its self-supervised training. It eventually generates 'corrected' MR images that can be used for various multi-center population studies. Using 3 open source databases (ABIDE, OASIS and SRPBS), which contain MR images from multiple acquisition scanner types or vendors and a large range of subjects ages, we show that ImUnity: (1) outperforms state-of-the-art methods in terms of quality of images generated using traveling subjects; (2) removes sites or scanner biases while improving patients classification; (3) harmonizes data coming from new sites or scanners without the need for an additional fine-tuning and (4) allows the selection of multiple MR reconstructed images according to the desired applications. Tested here on T1-weighted images, ImUnity could be used to harmonize other types of medical images.
翻訳日:2021-09-15 15:44:32 公開日:2021-09-14
# 3D U-netによる海馬表面の自動生成とハイブリッド粒子群最適化による能動形状モデリング

Automatic hippocampal surface generation via 3D U-net and active shape modeling with hybrid particle swarm optimization ( http://arxiv.org/abs/2109.06817v1 )

ライセンス: Link先を確認
Pinyuan Zhong, Yue Zhang and Xiaoying Tang(参考訳) 本稿では,3D U-netとアクティブ形状モデリング(ASM)を組み合わせた海馬表面生成のための完全自動パイプラインの提案と検証を行った。 主に提案されたパイプラインは3つのステップで構成されていた。 まず、各磁気共鳴画像に対して、各半球で自動海馬セグメンテーションを得るための3次元u-netを用いた。 次に, 主成分分析により平均形状および形状変化パラメータを生成するために, 予め拘束されたテンプレート表面上でasmを行った。 最終的に、ハイブリッド粒子群最適化を用いて、セグメンテーションに最適な最適な形状変化パラメータを探索した。 海馬表面は, 平均形状と形状変化パラメータから生成した。 提案されたパイプラインは両半球の海馬表面を高精度で、解剖学的トポロジーを正し、十分な滑らかさで提供するために観測された。

In this paper, we proposed and validated a fully automatic pipeline for hippocampal surface generation via 3D U-net coupled with active shape modeling (ASM). Principally, the proposed pipeline consisted of three steps. In the beginning, for each magnetic resonance image, a 3D U-net was employed to obtain the automatic hippocampus segmentation at each hemisphere. Secondly, ASM was performed on a group of pre-obtained template surfaces to generate mean shape and shape variation parameters through principal component analysis. Ultimately, hybrid particle swarm optimization was utilized to search for the optimal shape variation parameters that best match the segmentation. The hippocampal surface was then generated from the mean shape and the shape variation parameters. The proposed pipeline was observed to provide hippocampal surfaces at both hemispheres with high accuracy, correct anatomical topology, and sufficient smoothness.
翻訳日:2021-09-15 15:44:14 公開日:2021-09-14
# Dense Annotationによるクロスドキュメントイベント識別

Cross-document Event Identity via Dense Annotation ( http://arxiv.org/abs/2109.06417v1 )

ライセンス: Link先を確認
Adithya Pratapa, Zhengzhong Liu, Kimihiro Hasegawa, Linwei Li, Yukari Yamakawa, Shikun Zhang, Teruko Mitamura(参考訳) 本稿では,異なる文書からのテキストイベントの同一性について検討する。 イベントアイデンティティの複雑な性質は以前に研究されている(Hovy et al., 2013)が、文書間のイベントの場合は不明である。 ドキュメント横断イベントの以前の作業 coreference には2つの大きな欠点がある。 まず、アノテーションを限定されたイベントタイプに制限する。 第二に、イベントアイデンティティの概念には不十分である。 このようなアノテーションの設定は、イベント参照のプールを減らし、擬似同一性関係の可能性を考慮するのを防ぐ。 本稿では,イベント参照の豊富なソースと関連する文書ペア間の密接なアノテーション労力からなる,クロスドキュメントイベントコリファレンスのための密接なアノテーションアプローチを提案する。 この目的のために,注意深い品質管理と使い易いアノテーションインターフェースを備えた新しいアノテーションワークフローを設計する。 リンクに加えて、時間、場所、参加者など、重複するイベントコンテキストも収集し、アイデンティティ決定とコンテキストの関係に光を当てます。 ウィキニューズから収集したクロスドキュメントイベントコアのためのオープンアクセスデータセットCDEC-WNと,クロスドキュメントタスクのさらなる研究を促進するためのアノテーションツールキットをオープンソース化する。

In this paper, we study the identity of textual events from different documents. While the complex nature of event identity is previously studied (Hovy et al., 2013), the case of events across documents is unclear. Prior work on cross-document event coreference has two main drawbacks. First, they restrict the annotations to a limited set of event types. Second, they insufficiently tackle the concept of event identity. Such annotation setup reduces the pool of event mentions and prevents one from considering the possibility of quasi-identity relations. We propose a dense annotation approach for cross-document event coreference, comprising a rich source of event mentions and a dense annotation effort between related document pairs. To this end, we design a new annotation workflow with careful quality control and an easy-to-use annotation interface. In addition to the links, we further collect overlapping event contexts, including time, location, and participants, to shed some light on the relation between identity decisions and context. We present an open-access dataset for cross-document event coreference, CDEC-WN, collected from English Wikinews and open-source our annotation toolkit to encourage further research on cross-document tasks.
翻訳日:2021-09-15 15:42:49 公開日:2021-09-14
# コモンセンス推論による物語におけるインシシティジェンダーバイアスの発見

Uncovering Implicit Gender Bias in Narratives through Commonsense Inference ( http://arxiv.org/abs/2109.06437v1 )

ライセンス: Link先を確認
Tenghao Huang, Faeze Brahman, Vered Shwartz, Snigdha Chaturvedi(参考訳) 事前訓練された言語モデルは、トレーニングコーパスから社会的に有害なバイアスを学習し、世代に使用するときにこれらのバイアスを繰り返す。 モデル生成物語における主人公に関連する性別バイアスについて検討する。 このようなバイアスは明示的に表現される("women can't park")か、暗黙的に表現される(例えば、未熟な男性キャラクターは彼女を駐車スペースに誘導する)。 暗黙のバイアスに注目し、コモンセンス推論エンジンを使ってそれらを明らかにする。 具体的には、主人公の動機、属性、精神状態、他者への影響を推測し分析する。 例えば、女性キャラクターの描写は外見に集中しており、男性の人物は知性に焦点を当てていることを示している。

Pre-trained language models learn socially harmful biases from their training corpora, and may repeat these biases when used for generation. We study gender biases associated with the protagonist in model-generated stories. Such biases may be expressed either explicitly ("women can't park") or implicitly (e.g. an unsolicited male character guides her into a parking space). We focus on implicit biases, and use a commonsense reasoning engine to uncover them. Specifically, we infer and analyze the protagonist's motivations, attributes, mental states, and implications on others. Our findings regarding implicit biases are in line with prior work that studied explicit biases, for example showing that female characters' portrayal is centered around appearance, while male figures' focus on intellect.
翻訳日:2021-09-15 15:42:31 公開日:2021-09-14
# タスク適応型事前学習と自己学習は自然言語理解を補完する

Task-adaptive Pre-training and Self-training are Complementary for Natural Language Understanding ( http://arxiv.org/abs/2109.06466v1 )

ライセンス: Link先を確認
Shiyang Li, Semih Yavuz, Wenhu Chen, Xifeng Yan(参考訳) タスク適応型事前学習(TAPT)と自己学習(ST)は、膨大な量の未ラベルデータを用いて自然言語理解(NLU)タスクを改善するための主要な半教師付きアプローチとして登場した。 しかし、類似した表現を効果的に組み合わせられるかどうかは不明である。 本稿では,TAPT と ST は,TAPT -> Finetuning -> Self-training (TFS) プロセスに従うことで,単純なTFSプロトコルと補完可能であることを示す。 実験結果から, TFSプロトコルは, 感情分類, パラフレーズ識別, 自然言語推論, 名前付きエンティティ認識, 対話スロット分類を含む6つのデータセットにおいて, ラベル付きデータを効果的に活用し, 強い組み合わせのゲインを得ることができた。 種々の半教師付き設定を調査し,TAPTおよびSTからのゲインがTFS手順に従うことで強く付加可能であることを示す。 TFSが今後のNLP研究の重要な半教師付きベースラインになることを期待しています。

Task-adaptive pre-training (TAPT) and Self-training (ST) have emerged as the major semi-supervised approaches to improve natural language understanding (NLU) tasks with massive amount of unlabeled data. However, it's unclear whether they learn similar representations or they can be effectively combined. In this paper, we show that TAPT and ST can be complementary with simple TFS protocol by following TAPT -> Finetuning -> Self-training (TFS) process. Experimental results show that TFS protocol can effectively utilize unlabeled data to achieve strong combined gains consistently across six datasets covering sentiment classification, paraphrase identification, natural language inference, named entity recognition and dialogue slot classification. We investigate various semi-supervised settings and consistently show that gains from TAPT and ST can be strongly additive by following TFS procedure. We hope that TFS could serve as an important semi-supervised baseline for future NLP studies.
翻訳日:2021-09-15 15:42:18 公開日:2021-09-14
# 信頼できないサンプルの同定:ベイズ最適化によるオープンドメイン対話のためのデータフィルタリング

Identifying Untrustworthy Samples: Data Filtering for Open-domain Dialogues with Bayesian Optimization ( http://arxiv.org/abs/2109.06471v1 )

ライセンス: Link先を確認
Lei Shen, Haolan Zhan, Xin Shen, Hongshen Chen, Xiaofang Zhao and Xiaodan Zhu(参考訳) 関連があり、流動的で、情報的な応答で返信できることは、高品質な会話エージェントを構築する上で必須の要件である。 より優れた応答を生成するために、人間のアノテーションによる大規模データセットの収集による追加情報の提供、複雑なアーキテクチャと損失関数を備えた神経会話モデル(ncms)の設計、対話属性に基づく信頼できないサンプルのフィルタリング、など、いくつかのアプローチが提案されている。 本稿では,第3の研究部門に従い,訓練データから信頼できないサンプルを識別するオープンドメイン対話のためのデータフィルタリング手法と,7つの対話属性を線形に結合する品質尺度を提案する。 属性重みは、検証セット上で対話生成のための客観的関数を反復的に最適化することを目的としたベイズ最適化(bayesopt)によって得られる。 そして、トレーニングサンプルを品質測定値でスコア付けし、下降順にソートし、下降順にフィルタリングします。 さらに,BayesOptにおける「フィルタ-訓練-評価」イテレーションを大規模データセット上で高速化するために,最大推定(MLE)と負のトレーニング手法(NEG)を統合したトレーニングフレームワークを提案する。 訓練方法は, 新しく維持された2つの小集合について, 訓練したncmsのパラメータをそれぞれ更新する。 特に、MLEは、新しく維持されたサンプルのログ類似度を最大化するために適用され、NEGは、新しく削除されたサンプルのログ類似度を最小化するために使用される。 2つのデータセットにおける実験結果から,本手法は信頼できないサンプルを効果的に同定できることがわかった。

Being able to reply with a related, fluent, and informative response is an indispensable requirement for building high-quality conversational agents. In order to generate better responses, some approaches have been proposed, such as feeding extra information by collecting large-scale datasets with human annotations, designing neural conversational models (NCMs) with complex architecture and loss functions, or filtering out untrustworthy samples based on a dialogue attribute, e.g., Relatedness or Genericness. In this paper, we follow the third research branch and present a data filtering method for open-domain dialogues, which identifies untrustworthy samples from training data with a quality measure that linearly combines seven dialogue attributes. The attribute weights are obtained via Bayesian Optimization (BayesOpt) that aims to optimize an objective function for dialogue generation iteratively on the validation set. Then we score training samples with the quality measure, sort them in descending order, and filter out those at the bottom. Furthermore, to accelerate the "filter-train-evaluat e" iterations involved in BayesOpt on large-scale datasets, we propose a training framework that integrates maximum likelihood estimation (MLE) and negative training method (NEG). The training method updates parameters of a trained NCMs on two small sets with newly maintained and removed samples, respectively. Specifically, MLE is applied to maximize the log-likelihood of newly maintained samples, while NEG is used to minimize the log-likelihood of newly removed ones. Experimental results on two datasets show that our method can effectively identify untrustworthy samples, and NCMs trained on the filtered datasets achieve better performance.
翻訳日:2021-09-15 15:42:02 公開日:2021-09-14
# トレーラーを用いた映画ジャンル分類のための状況と対話型ディープネットワークのマルチレベルプロファイリング

Multilevel profiling of situation and dialogue-based deep networks for movie genre classification using movie trailers ( http://arxiv.org/abs/2109.06488v1 )

ライセンス: Link先を確認
Dinesh Kumar Vishwakarma, Mayank Jindal, Ayush Mittal, Aditya Sharma(参考訳) 映画ジャンルの自動分類は、研究と探索の活発で不可欠な分野として現れてきた。 短編映画のトレーラーは、映像コンテンツが認知的特徴と感情的特徴から成り立っているので、映画についての有益な洞察を提供する。 従来のアプローチは認知的あるいは感情的コンテンツ分析に重点を置いていた。 本稿では,認知的特徴と感情的特徴の両方を考慮した,状況,対話,メタデータに基づく映画ジャンル分類フレームワークを提案する。 プリフィーチャーフュージョンベースのフレームワークは、トレーラーの通常のスナップショットから、対応するジャンルと有用な感情ベースのマッピングを提供する名詞と動詞を含む状況ベースの特徴、オーディオからの対話(音声)ベースの特徴、メタデータを併用して、認知と感情に基づくビデオ分析に関する関連情報を提供する。 また、アクション、ロマンス、コメディー、ホラー、サイエンスフィクションの5つのジャンルに属する2000本のハリウッド映画トレーラーを収録したイギリス映画トレーラーデータセット(EMTD)を開発し、提案フレームワークを検証するための標準LMTD-9データセット上でクロスバリデーションを行う。 その結果,映画ジャンル分類の手法は,F1スコア,精度,リコール,精度-リコール曲線の下での面積など,優れた性能を示した。

Automated movie genre classification has emerged as an active and essential area of research and exploration. Short duration movie trailers provide useful insights about the movie as video content consists of the cognitive and the affective level features. Previous approaches were focused upon either cognitive or affective content analysis. In this paper, we propose a novel multi-modality: situation, dialogue, and metadata-based movie genre classification framework that takes both cognition and affect-based features into consideration. A pre-features fusion-based framework that takes into account: situation-based features from a regular snapshot of a trailer that includes nouns and verbs providing the useful affect-based mapping with the corresponding genres, dialogue (speech) based feature from audio, metadata which together provides the relevant information for cognitive and affect based video analysis. We also develop the English movie trailer dataset (EMTD), which contains 2000 Hollywood movie trailers belonging to five popular genres: Action, Romance, Comedy, Horror, and Science Fiction, and perform cross-validation on the standard LMTD-9 dataset for validating the proposed framework. The results demonstrate that the proposed methodology for movie genre classification has performed excellently as depicted by the F1 scores, precision, recall, and area under the precision-recall curves.
翻訳日:2021-09-15 15:41:32 公開日:2021-09-14
# Tribrid: ニューラル不整合検出によるスタンス分類

Tribrid: Stance Classification with Neural Inconsistency Detection ( http://arxiv.org/abs/2109.06508v1 )

ライセンス: Link先を確認
Song Yang and Jacopo Urbani(参考訳) bertのようなニューラルアーキテクチャを用いたソーシャルメディア上での自動スタンス分類を行う問題について検討する。 これらのアーキテクチャは印象的な結果をもたらすが、そのレベルはまだ人間に匹敵せず、下流のタスク(例えばファクトチェック)に重大な影響を与えるエラーを引き起こす可能性がある。 性能を向上させるために,与えられたクレームに対して自動的に生成される否定的視点を含む新たなニューラルアーキテクチャを提案する。 モデルは同時に複数の予測を行うように共同で学習され、元の視点の分類を改善するか、疑わしい予測をフィルタリングするために使用することができる。 第1のケースでは、予測を最終的な予測と組み合わせる弱教師付き手法を提案する。 第2のケースでは,信頼度スコアを用いて疑わしい予測を除去すれば,元の入力の相当な部分である保持情報よりも人間的な性能が得られることを示す。

We study the problem of performing automatic stance classification on social media with neural architectures such as BERT. Although these architectures deliver impressive results, their level is not yet comparable to the one of humans and they might produce errors that have a significant impact on the downstream task (e.g., fact-checking). To improve the performance, we present a new neural architecture where the input also includes automatically generated negated perspectives over a given claim. The model is jointly learned to make simultaneously multiple predictions, which can be used either to improve the classification of the original perspective or to filter out doubtful predictions. In the first case, we propose a weakly supervised method for combining the predictions into a final one. In the second case, we show that using the confidence scores to remove doubtful predictions allows our method to achieve human-like performance over the retained information, which is still a sizable part of the original input.
翻訳日:2021-09-15 15:41:07 公開日:2021-09-14
# 接地ダイアログ生成のためのプロンプトベースマイトショット学習の検討

Exploring Prompt-based Few-shot Learning for Grounded Dialog Generation ( http://arxiv.org/abs/2109.06513v1 )

ライセンス: Link先を確認
Chujie Zheng, Minlie Huang(参考訳) ダイアログの基盤化により、会話モデルは外部情報を完全に活用して、知識、エンゲージメント、共感など、複数の望ましい品質を確立することができる。 しかし、自然に接地されたダイアログコーパスは通常直接利用できないため、会話モデルの数発の学習能力に要求が生じる。 本稿では,事前学習型言語モデルとプロンプトベース学習の最近の進歩に動機づけられ,グラウンドドダイアログ生成(gdg)のためのプロンプトベースマイトショット学習について検討する。 まず、GDGタスクのプロンプト構築を定式化し、テンプレートベースのプロンプトとソフトプロンプトという2つの一般的なプロンプト手法の総合的な実験分析を行う。 本稿では,gdgのためのマイトショット学習におけるプロンプトベース手法の可能性を示し,今後の作業における改善の方向性を示す。

Dialog grounding enables conversational models to make full use of external information to establish multiple desired qualities, such as knowledgeable, engaging and empathetic. However, naturally grounded dialog corpora are usually not directly available, which puts forward requirements for the few-shot learning ability of conversational models. Motivated by recent advances in pre-trained language models and prompt-based learning, in this paper we explore prompt-based few-shot learning for grounded dialog generation (GDG). We first formulate the prompt construction for GDG tasks, based on which we then conduct comprehensive empirical analysis on two common types of prompting methods: template-based prompting and soft-prompting. We demonstrate the potential of prompt-based methods in few-shot learning for GDG and provide directions of improvement for future work.
翻訳日:2021-09-15 15:40:52 公開日:2021-09-14
# 異なる人々のための異なるストローク:多様な対話タスクのための適切な事前学習アプローチの検討

Different Strokes for Different Folks: Investigating Appropriate Further Pre-training Approaches for Diverse Dialogue Tasks ( http://arxiv.org/abs/2109.06524v1 )

ライセンス: Link先を確認
Yao Qiu, Jinchao Zhang, Jie Zhou(参考訳) 一般領域の大規模コーパスで事前訓練されたモデルのロードと、特定の下流タスクの微調整は、徐々に自然言語処理のパラダイムになりつつある。 以前の研究では、事前トレーニングフェーズと微調整フェーズの間のさらなる事前トレーニングフェーズの導入によって、ドメイン固有のラベルなしデータにモデルを適用することが、ポジティブな効果をもたらすことが示されている。 しかし、これらのさらなる事前トレーニング作業のほとんどは、データ分散ギャップを橋渡しするためのドメイン適応と見なすことができるマスク言語モデルのような、従来の事前トレーニングタスクを実行し続けるだけである。 下流の多様なタスクを観察した後、タスクの定式化ギャップを埋めるためには、適切なトレーニングタスクを伴う事前学習フェーズも必要かもしれないと提案する。 そこで本研究では,様々なタスクを事前学習段階において設計することにより,複数のタスク指向の対話下流タスクを改善するための研究を行う。 実験の結果,異なる下流タスクは,本質的な相関関係を持ち,最も多くの事前学習タスクは,すべてよりも目標タスクを著しく改善する,別の事前学習タスクを好むことがわかった。 本研究は,下流タスクに有用な特定の情報をモデル化した事前学習タスクを適切に設計することが重要であることを示す。 さらに,タスク指向対話を強化するための複数の構成的経験的結論を示す。

Loading models pre-trained on the large-scale corpus in the general domain and fine-tuning them on specific downstream tasks is gradually becoming a paradigm in Natural Language Processing. Previous investigations prove that introducing a further pre-training phase between pre-training and fine-tuning phases to adapt the model on the domain-specific unlabeled data can bring positive effects. However, most of these further pre-training works just keep running the conventional pre-training task, e.g., masked language model, which can be regarded as the domain adaptation to bridge the data distribution gap. After observing diverse downstream tasks, we suggest that different tasks may also need a further pre-training phase with appropriate training tasks to bridge the task formulation gap. To investigate this, we carry out a study for improving multiple task-oriented dialogue downstream tasks through designing various tasks at the further pre-training phase. The experiment shows that different downstream tasks prefer different further pre-training tasks, which have intrinsic correlation and most further pre-training tasks significantly improve certain target tasks rather than all. Our investigation indicates that it is of great importance and effectiveness to design appropriate further pre-training tasks modeling specific information that benefit downstream tasks. Besides, we present multiple constructive empirical conclusions for enhancing task-oriented dialogues.
翻訳日:2021-09-15 15:40:37 公開日:2021-09-14
# 注釈付増補コーパスによる法案類似性の学習

Learning Bill Similarity with Annotated and Augmented Corpora of Bills ( http://arxiv.org/abs/2109.06527v1 )

ライセンス: Link先を確認
Jiseon Kim, Elden Griggs, In Song Kim, Alice Oh(参考訳) 法案の起草は民主主義の代表的要素である。 しかし、ほとんどの立法法案は、他の法案から派生したもの、あるいは直接コピーされたものとしばしば見過ごされる。 立法プロセスを理解するためにビル対ビルの連関が重要であるにもかかわらず、既存のアプローチでは法案間の意味的類似性に対処できず、法的な文書作成で一般的な順序変更やパラフレージングは行わない。 本稿では,請求書生成プロセスの性質を深く反映した5クラス分類タスクを提案することにより,これらの制約を克服する。 そこで我々は,4,721の請求対請求関係の人間ラベルデータセットをサブセクションレベルで構築し,この注釈付きデータセットを研究コミュニティに公開する。 データセットを補強するため, 複雑な請求書作成過程を模倣し, 類似度が異なる合成データを生成する。 BERTの変種を多段階のトレーニングに適用し、合成および人間ラベル付きデータセットでモデルを逐次微調整します。 人ラベルデータと合成データの両方を用いたトレーニングでは,予測性能が有意に向上することがわかった。 最後に、トレーニングされたモデルを用いて、セクションレベルの類似性を推測する。 分析の結果,提案手法は法文書間の類似性を各種の集約レベルで把握することに成功した。

Bill writing is a critical element of representative democracy. However, it is often overlooked that most legislative bills are derived, or even directly copied, from other bills. Despite the significance of bill-to-bill linkages for understanding the legislative process, existing approaches fail to address semantic similarities across bills, let alone reordering or paraphrasing which are prevalent in legal document writing. In this paper, we overcome these limitations by proposing a 5-class classification task that closely reflects the nature of the bill generation process. In doing so, we construct a human-labeled dataset of 4,721 bill-to-bill relationships at the subsection-level and release this annotated dataset to the research community. To augment the dataset, we generate synthetic data with varying degrees of similarity, mimicking the complex bill writing process. We use BERT variants and apply multi-stage training, sequentially fine-tuning our models with synthetic and human-labeled datasets. We find that the predictive performance significantly improves when training with both human-labeled and synthetic data. Finally, we apply our trained model to infer section- and bill-level similarities. Our analysis shows that the proposed methodology successfully captures the similarities across legal documents at various levels of aggregation.
翻訳日:2021-09-15 15:40:16 公開日:2021-09-14
# コントラスト学習とオートエンコーダによるテキスト分類のためのグラデーションに基づく逆学習の改善

Improving Gradient-based Adversarial Training for Text Classification by Contrastive Learning and Auto-Encoder ( http://arxiv.org/abs/2109.06536v1 )

ライセンス: Link先を確認
Yao Qiu, Jinchao Zhang, Jie Zhou(参考訳) 近年の研究では, 埋込みの勾配に基づく対向的摂動を生成するための効率的な手法が提案されており, 汚染埋込みの訓練において, モデルの性能と堅牢性を向上できることが証明されている。 彼らは、モデルがこれらの敵のサンプルをより効率的に学習するのを助ける方法にほとんど注意を払わなかった。 本研究は,モデルのトレーニング過程において,勾配に基づく敵攻撃を防御するモデルの能力の向上に焦点をあて,(1)CARLは,異なるラベル付きサンプルから距離を拡大しながら,表現空間における元のサンプルと敵のサンプルを絞り込む2つの新しい逆トレーニング手法を提案する。 2) RARは、モデルに対して、その逆表現から原サンプルを再構築するよう強制する。 実験により,提案手法が各種テキスト分類データセットの強いベースラインよりも優れていることが示された。 分析実験の結果, 提案手法では, 入力文の意味表現は, 逆摂動によって大きく影響されず, モデルの性能は逆攻撃により低下することがわかった。 つまり、私たちのアプローチはモデルの堅牢さを効果的に改善できます。 さらに、RARはテキスト形式の逆数サンプルを生成するためにも使用できる。

Recent work has proposed several efficient approaches for generating gradient-based adversarial perturbations on embeddings and proved that the model's performance and robustness can be improved when they are trained with these contaminated embeddings. While they paid little attention to how to help the model to learn these adversarial samples more efficiently. In this work, we focus on enhancing the model's ability to defend gradient-based adversarial attack during the model's training process and propose two novel adversarial training approaches: (1) CARL narrows the original sample and its adversarial sample in the representation space while enlarging their distance from different labeled samples. (2) RAR forces the model to reconstruct the original sample from its adversarial representation. Experiments show that the proposed two approaches outperform strong baselines on various text classification datasets. Analysis experiments find that when using our approaches, the semantic representation of the input sentence won't be significantly affected by adversarial perturbations, and the model's performance drops less under adversarial attack. That is to say, our approaches can effectively improve the robustness of the model. Besides, RAR can also be used to generate text-form adversarial samples.
翻訳日:2021-09-15 15:39:54 公開日:2021-09-14
# チャレージングインスタンスは価値ある学習である:応答選択訓練のための価値ある負のサンプルを生成する

Challenging Instances are Worth Learning: Generating Valuable Negative Samples for Response Selection Training ( http://arxiv.org/abs/2109.06538v1 )

ライセンス: Link先を確認
Yao Qiu, Jinchao Zhang, Huiying Ren, Jie Zhou(参考訳) 検索ベースのチャットボットは、応答選択モジュールに大きく依存するコンテキストに応じて、候補から適切な応答を選択する。 応答選択モジュールは一般に候補を評価するためのスコアリングモデルであり、通常は注釈付き正の応答とサンプルされた負の応答で訓練される。 ネガティブ反応のサンプリングは2つのリスクをもたらす。 a)。 サンプルされた負のインスタンス、特にランダムなサンプリング手法は、ほとんど対話コンテキストと無関係であり、実際のシナリオでは弱いモデルを引き起こす一方、トレーニング段階では適合しがたい。 b)。 いわゆる負のインスタンスは正であり、偽の負の問題として知られている。 上記の問題に対処するために、DialoGPTのような事前訓練された言語モデルを用いて、より困難な負のインスタンスを構築し、モデルの堅牢性を高める。 具体的には、トレーニング済みのモデルにガルブ付きコンテキストを提供し、応答を生成し、偽のネガティブなものをフィルタリングします。 このようにして、私たちの否定的なインスタンスは流動的で、コンテキストに関連し、モデルが学ぶことがより難しくなりますが、ポジティブではなりません。 実験の結果,本手法は対話応答選択能力を大幅に向上させることができた。

Retrieval-based chatbot selects the appropriate response from candidates according to the context, which heavily depends on a response selection module. A response selection module is generally a scoring model to evaluate candidates and is usually trained on the annotated positive response and sampled negative responses. Sampling negative responses lead to two risks: a). The sampled negative instances, especially that from random sampling methods, are mostly irrelevant to the dialogue context and too easy to be fitted at the training stage while causing a weak model in the real scenario. b). The so-called negative instances may be positive, which is known as the fake negative problem. To address the above issue, we employ pre-trained language models, such as the DialoGPT to construct more challenging negative instances to enhance the model robustness. Specifically, we provide garbled context to the pre-trained model to generate responses and filter the fake negative ones. In this way, our negative instances are fluent, context-related, and more challenging for the model to learn, while can not be positive. Extensive experiments show that our method brings significant and stable improvements on the dialogue response selection capacity.
翻訳日:2021-09-15 15:39:33 公開日:2021-09-14
# 多言語ニューラルマシン翻訳の効率的な推論

Efficient Inference for Multilingual Neural Machine Translation ( http://arxiv.org/abs/2109.06679v1 )

ライセンス: Link先を確認
Alexandre Berard, Dain Lee, St\'ephane Clinchant, Kweonwoo Jung, Vassilina Nikoulina(参考訳) 多言語NMTは実運用におけるMTデプロイメントの魅力的なソリューションとなっている。 しかし、バイリンガルの品質に合わせるために、より大型で遅いモデルのコストがかかる。 本研究では,その品質を劣化させることなく,多言語NMTを推論で高速化する方法について検討する。 2つの20言語マルチパラレル環境において、いくつかの"ライトデコーダ"アーキテクチャを実験した。 我々の実験は、浅いデコーダと語彙フィルタリングを組み合わせると、翻訳品質を損なうことなく、推論が2倍以上速くなることを示している。 BLEU, chrF(380言語対), 頑健性評価, 人的評価を行った。

Multilingual NMT has become an attractive solution for MT deployment in production. But to match bilingual quality, it comes at the cost of larger and slower models. In this work, we consider several ways to make multilingual NMT faster at inference without degrading its quality. We experiment with several "light decoder" architectures in two 20-language multi-parallel settings: small-scale on TED Talks and large-scale on ParaCrawl. Our experiments demonstrate that combining a shallow decoder with vocabulary filtering leads to more than twice faster inference with no loss in translation quality. We validate our findings with BLEU and chrF (on 380 language pairs), robustness evaluation and human evaluation.
翻訳日:2021-09-15 15:39:10 公開日:2021-09-14
# すべては必要なすべてだ:ゼロショット言語間情報抽出のためのマルチプロンゲット戦略

Everything Is All It Takes: A Multipronged Strategy for Zero-Shot Cross-Lingual Information Extraction ( http://arxiv.org/abs/2109.06798v1 )

ライセンス: Link先を確認
Mahsa Yarmohammadi, Shijie Wu, Marc Marone, Haoran Xu, Seth Ebner, Guanghui Qin, Yunmo Chen, Jialiang Guo, Craig Harman, Kenton Murray, Aaron Steven White, Mark Dredze, Benjamin Van Durme(参考訳) ゼロショット言語間情報抽出(IE)は、他の言語(典型的には英語)にのみ既存のアノテーションが与えられた場合、ターゲット言語用のIEモデルの構築を記述する。 事前訓練された多言語エンコーダの進歩は、"英語で学習し、あらゆる言語で実行される"という簡単な楽観主義を示唆する一方で、新しいものと古い両方のアプローチの組み合わせが、特にどの言語横断戦略よりも優れたパフォーマンスをもたらす、徹底的な探索と拡張を通じて見出す。 データプロジェクションや自己学習といったテクニックや,トレーニング済みエンコーダの違いがそれらに与える影響について検討する。 最初の例としては、英語からアラビア語のIEを使用し、イベント抽出、名前付きエンティティ認識、パート・オブ・音声タグ付け、依存性解析などにおいて、強力なパフォーマンスを示している。 次に、8つのターゲット言語にわたる3つのタスクにデータプロジェクションと自己学習を適用します。 単一のテクニックセットがすべてのタスクで最高のパフォーマンスを発揮できないため、ゼロショットトレーニングの改善を目指す際に、この作業で記述されたテクニックのさまざまな構成を実践者に検討するように促しています。

Zero-shot cross-lingual information extraction (IE) describes the construction of an IE model for some target language, given existing annotations exclusively in some other language, typically English. While the advance of pretrained multilingual encoders suggests an easy optimism of "train on English, run on any language", we find through a thorough exploration and extension of techniques that a combination of approaches, both new and old, leads to better performance than any one cross-lingual strategy in particular. We explore techniques including data projection and self-training, and how different pretrained encoders impact them. We use English-to-Arabic IE as our initial example, demonstrating strong performance in this setting for event extraction, named entity recognition, part-of-speech tagging, and dependency parsing. We then apply data projection and self-training to three tasks across eight target languages. Because no single set of techniques performs the best across all tasks, we encourage practitioners to explore various configurations of the techniques described in this work when seeking to improve on zero-shot training.
翻訳日:2021-09-15 15:38:59 公開日:2021-09-14
# オープンエンドテキスト生成の評価にメカニカル・タークを用いたペリル

The Perils of Using Mechanical Turk to Evaluate Open-Ended Text Generation ( http://arxiv.org/abs/2109.06835v1 )

ライセンス: Link先を確認
Marzena Karpinska, Nader Akoury, Mohit Iyyer(参考訳) 近年のテキスト生成研究は、物語や詩の創出といったオープンエンドドメインに焦点を絞っている。 このようなタスクのために構築されたモデルは、自動評価が難しいため、ほとんどの研究者は、アマゾン・メカニカル・トルコ(AMT)から、テキスト品質のクラウドソースによる人間の判断(例えば、コヒーレンスや文法のスコア)を収集することで、モデリングの選択を正当化する。 本稿ではまず,45件のオープンエンドテキスト生成論文の調査を行い,その大多数がATTタスクに関する重要な詳細を報告できず,再現性を阻害していることを確認した。 次に、ATT労働者と英語教師の双方でストーリー評価実験を行い、厳密な資格フィルターでも(教師以外の)ATT労働者は、モデル生成テキストと人為的参照を区別できないことを発見した。 AMT作業員の判断は、人為的基準とともに、モデル生成出力を示すと改善され、作業員の格付けが向上することを示す。 最後に、英語教師とのインタビューは、特にモデル生成テキストの評価において、評価プロセスの課題について深い洞察を与える。

Recent text generation research has increasingly focused on open-ended domains such as story and poetry generation. Because models built for such tasks are difficult to evaluate automatically, most researchers in the space justify their modeling choices by collecting crowdsourced human judgments of text quality (e.g., Likert scores of coherence or grammaticality) from Amazon Mechanical Turk (AMT). In this paper, we first conduct a survey of 45 open-ended text generation papers and find that the vast majority of them fail to report crucial details about their AMT tasks, hindering reproducibility. We then run a series of story evaluation experiments with both AMT workers and English teachers and discover that even with strict qualification filters, AMT workers (unlike teachers) fail to distinguish between model-generated text and human-generated references. We show that AMT worker judgments improve when they are shown model-generated output alongside human-generated references, which enables the workers to better calibrate their ratings. Finally, interviews with the English teachers provide deeper insights into the challenges of the evaluation process, particularly when rating model-generated text.
翻訳日:2021-09-15 15:38:37 公開日:2021-09-14
# ePiC: 抽象言語理解のためのベンチマークとしてコンテキストにProverbsを採用する

ePiC: Employing Proverbs in Context as a Benchmark for Abstract Language Understanding ( http://arxiv.org/abs/2109.06838v1 )

ライセンス: Link先を確認
Sayan Ghosh and Shashank Srivastava(参考訳) 大規模言語モデルはいくつかのnlpベンチマークでエキサイティングな進歩を見せているが、複雑な類似推論の能力の評価は未検討のままである。 本稿では,抽象言語理解のベンチマークとして,文脈の証明を取り入れた高品質なクラウドソース型物語データセットを提案する。 データセットは、段落と物語の間の配列の微妙な注釈を提供し、物語と段落の間に最小限の語彙的重複を含むため、モデルが成功するためには表面レベルの推論を超える必要がある。 提案課題は,(1)推理とアライメント予測,(2)与えられた推理と話題の物語生成,(3)類似したモチーフを持つ物語の同定の3つである。 我々の実験では、ニューラルネットワークモデルは人間に比べてタスクに苦労しており、タスクは複数の学習課題を引き起こす。

While large language models have shown exciting progress on several NLP benchmarks, evaluating their ability for complex analogical reasoning remains under-explored. Here, we introduce a high-quality crowdsourced dataset of narratives for employing proverbs in context as a benchmark for abstract language understanding. The dataset provides fine-grained annotation of aligned spans between proverbs and narratives, and contains minimal lexical overlaps between narratives and proverbs, ensuring that models need to go beyond surface-level reasoning to succeed. We explore three tasks: (1) proverb recommendation and alignment prediction, (2) narrative generation for a given proverb and topic, and (3) identifying narratives with similar motifs. Our experiments show that neural language models struggle in our tasks compared to humans, and the tasks pose multiple learning challenges.
翻訳日:2021-09-15 15:38:14 公開日:2021-09-14
# 長期計画のための最適To-Doリストゲーミフィケーション

Optimal To-Do List Gamification for Long Term Planning ( http://arxiv.org/abs/2109.06505v1 )

ライセンス: Link先を確認
Saksham Consul, Jugoslav Stojcheski, Valkyrie Felso, Falk Lieder(参考訳) ほとんどの人は仕事の優先順位付けに苦労している。 不正確なヒューリスティックは時間が経つにつれて開発されてきたが、どの日、月、週、年で取り組むべき多くのタスクのうちどれに取り組むべきかを決定する、扱いやすい原則付きアルゴリズムはいまだに存在しない。 さらに、現在のバイアスのような認知バイアスに悩まされ、長期的な結果よりもすぐれた経験を優先し、自らを先延ばしと非効率なタスク優先として表す人もいる。 本手法は最適ゲーミフィケーションを用いて,各タスクの長期的価値を伝達する複数のポイントのインセンティブを与えることにより,これらの課題を克服する。 我々は、最適なゲーミフィケーション手法の以前のバージョンを拡張し、すべての処理に十分な時間がなければ、どのタスクをすべきで、実行すべきでないかを判断するためのサービスを追加します。 to-doリストソルバの効率とスケーラビリティを改善するため,我々は,トップレベル目標からきめ細かなタスクに至るまでの問題に取り組む階層的な手順を設計した。 様々なケーススタディにおいて,価値反復を用いて正確に計算したポイントと戦略の性能を比較することにより,インセンティブ付きto-doリストの精度を検証した。 これらのケーススタディは、パフォーマンスを正確に判断するために、コーナーケースをカバーするように特別に設計された。 本手法はすべてのケーススタディの正確な方法と同じ性能を示した。 その機能を実証するため、私たちはWebやアプリサービスにメソッドを簡単にデプロイできるAPIをリリースしました。 我々は,To-Doリストに適用することで,メソッドのスケーラビリティを評価し,目標数の増加,目標ごとのサブゴール,階層的にネストしたサブゴールレベルについて検討した。 私たちのAPIを通じて提供されるメソッドは、576のタスクを持つかなり大きなto-doリストに対処できることがわかった。 これは,本手法が実世界のアプリケーションに適していることを示す。

Most people struggle with prioritizing work. While inexact heuristics have been developed over time, there is still no tractable principled algorithm for deciding which of the many possible tasks one should tackle in any given day, month, week, or year. Additionally, some people suffer from cognitive biases such as the present bias, leading to prioritization of their immediate experience over long-term consequences which manifests itself as procrastination and inefficient task prioritization. Our method utilizes optimal gamification to help people overcome these problems by incentivizing each task by a number of points that convey how valuable it is in the long-run. We extend the previous version of our optimal gamification method with added services for helping people decide which tasks should and should not be done when there is not enough time to do everything. To improve the efficiency and scalability of the to-do list solver, we designed a hierarchical procedure that tackles the problem from the top-level goals to fine-grained tasks. We test the accuracy of the incentivised to-do list by comparing the performance of the strategy with the points computed exactly using Value Iteration for a variety of case studies. These case studies were specifically designed to cover the corner cases to get an accurate judge of performance. Our method yielded the same performance as the exact method for all case studies. To demonstrate its functionality, we released an API that makes it easy to deploy our method in Web and app services. We assessed the scalability of our method by applying it to to-do lists with increasingly larger numbers of goals, sub-goals per goal, hierarchically nested levels of subgoals. We found that the method provided through our API is able to tackle fairly large to-do lists having a 576 tasks. This indicates that our method is suitable for real-world applications.
翻訳日:2021-09-15 15:37:58 公開日:2021-09-14
# 不確かさ下における認知的意思決定

Deceptive Decision-Making Under Uncertainty ( http://arxiv.org/abs/2109.06740v1 )

ライセンス: Link先を確認
Yagiz Savas, Christos K. Verginis, Ufuk Topcu(参考訳) 確率的で複雑な環境でタスクを遂行しながら、観察者の意図を判断できる自律エージェントの設計について検討する。 マルコフ決定過程としてエージェントの振る舞いをモデル化することにより、エージェントがその真のゴールについて外部のオブザーバーを欺きながら、複数の潜在的な目標の1つに到達しようとする設定を考える。 本稿では,最大エントロピーの原理に基づいて観測者予測をモデル化し,線形プログラミングによる認識戦略を効率的に生成する手法を提案する。 提案手法により, エージェントは, 行動に対する確率的制約の満足度を確保しつつ, 様々な調律可能な抑止行動を示すことができる。 提案手法の性能を比較研究を通して評価し,実旅行時間分布を用いてニューヨーク州マンハッタンの街路を事例として報告する。

We study the design of autonomous agents that are capable of deceiving outside observers about their intentions while carrying out tasks in stochastic, complex environments. By modeling the agent's behavior as a Markov decision process, we consider a setting where the agent aims to reach one of multiple potential goals while deceiving outside observers about its true goal. We propose a novel approach to model observer predictions based on the principle of maximum entropy and to efficiently generate deceptive strategies via linear programming. The proposed approach enables the agent to exhibit a variety of tunable deceptive behaviors while ensuring the satisfaction of probabilistic constraints on the behavior. We evaluate the performance of the proposed approach via comparative user studies and present a case study on the streets of Manhattan, New York, using real travel time distributions.
翻訳日:2021-09-15 15:37:27 公開日:2021-09-14
# adapruner: アダプティブチャネルのプルーニングと効果的な重み付け継承

AdaPruner: Adaptive Channel Pruning and Effective Weights Inheritance ( http://arxiv.org/abs/2109.06397v1 )

ライセンス: Link先を確認
Xiangcheng Liu, Jian Cao, Hongyi Yao, Wenyu Sun, Yuan Zhang(参考訳) チャネルプルーニングはディープニューラルネットワークにおける主要な圧縮アプローチの1つである。 従来のプルーニング手法は主に重要でないチャネルの同定に重点を置いているが、近年ではチャネルプルーニングがニューラルアーキテクチャサーチの特別な例と考えられている。 しかし、既存の手法は複雑か、あるいは準最適プルーニングの傾向がある。 本稿では,各レイヤのチャネル数とサブネットワークのwights継承基準を適応的に決定するプルーニングフレームワークを提案する。 まず、BN層のスケーリングパラメータの平均に基づいて、ネットワークにおける各ブロックの重要性を評価する。 次に、bisectionメソッドを使用して、予算を満たすコンパクトなサブネットワークを素早く見つけます。 最後に、現在のアーキテクチャに適合する重み継承基準を適応的かつ効率的に選択し、刈り取られたネットワークを微調整して性能を回復する。 adaprunerは、構造と初期化重みの両方を考慮して、迅速かつ正確かつ効率的にpruned networkを得ることができる。 現在普及しているCNNモデル (VGG, ResNet, MobileNetV2) を様々な画像分類データセット上で実験し, 提案手法の有効性を実証した。 ImageNetでは、MobileNetV2の32.8%のFLOPを削減し、トップ1の精度は0.62%しか低下しない。 コードはリリースされます。

Channel pruning is one of the major compression approaches for deep neural networks. While previous pruning methods have mostly focused on identifying unimportant channels, channel pruning is considered as a special case of neural architecture search in recent years. However, existing methods are either complicated or prone to sub-optimal pruning. In this paper, we propose a pruning framework that adaptively determines the number of each layer's channels as well as the wights inheritance criteria for sub-network. Firstly, evaluate the importance of each block in the network based on the mean of the scaling parameters of the BN layers. Secondly, use the bisection method to quickly find the compact sub-network satisfying the budget. Finally, adaptively and efficiently choose the weight inheritance criterion that fits the current architecture and fine-tune the pruned network to recover performance. AdaPruner allows to obtain pruned network quickly, accurately and efficiently, taking into account both the structure and initialization weights. We prune the currently popular CNN models (VGG, ResNet, MobileNetV2) on different image classification datasets, and the experimental results demonstrate the effectiveness of our proposed method. On ImageNet, we reduce 32.8% FLOPs of MobileNetV2 with only 0.62% decrease for top-1 accuracy, which exceeds all previous state-of-the-art channel pruning methods. The code will be released.
翻訳日:2021-09-15 15:37:12 公開日:2021-09-14
# 画像属性編集のための高忠実GANインバージョン

High-Fidelity GAN Inversion for Image Attribute Editing ( http://arxiv.org/abs/2109.06590v1 )

ライセンス: Link先を確認
Tengfei Wang, Yong Zhang, Yanbo Fan, Jue Wang, Qifeng Chen(参考訳) 本稿では, 画像固有の細部(背景, 外観, 照明など)をよく保存した属性編集を可能にする, GAN(High-fidelity Generative Adversarial Network)インバージョンフレームワークを提案する。 まず,ganインバージョンを損失データ圧縮問題として定式化し,レート・ディストリクト・editトレードオフを慎重に議論する。 このトレードオフのため、以前の作業は、低ビットレートの遅延コードでのみ魅力的な編集能力を保ちながら、高忠実な再構築を達成できなかった。 そこで本研究では,再構成基準として歪みマップを用いた歪みコンサルテーション手法を提案する。 歪みコンサルテーションインバージョン (DCI) において、歪みマップは最初、高いレートの潜時写像に投影され、その後、基本的な低レート潜時符号と(ロスト)詳細をコンサルテーション融合により補完する。 高忠実度編集を実現するために,自己教師付きトレーニングスキームを用いた適応歪みアライメント(ADA)モジュールを提案する。 顔と車領域での広範囲な実験は、反転と編集品質の両方において明らかに改善されている。

We present a novel high-fidelity generative adversarial network (GAN) inversion framework that enables attribute editing with image-specific details well-preserved (e.g., background, appearance and illumination). We first formulate GAN inversion as a lossy data compression problem and carefully discuss the Rate-Distortion-Edit trade-off. Due to this trade-off, previous works fail to achieve high-fidelity reconstruction while keeping compelling editing ability with a low bit-rate latent code only. In this work, we propose a distortion consultation approach that employs the distortion map as a reference for reconstruction. In the distortion consultation inversion (DCI), the distortion map is first projected to a high-rate latent map, which then complements the basic low-rate latent code with (lost) details via consultation fusion. To achieve high-fidelity editing, we propose an adaptive distortion alignment (ADA) module with a self-supervised training scheme. Extensive experiments in the face and car domains show a clear improvement in terms of both inversion and editing quality.
翻訳日:2021-09-15 15:36:50 公開日:2021-09-14
# 無監督点雲登録のためのサンプリングネットワーク誘導クロスエントロピー法

Sampling Network Guided Cross-Entropy Method for Unsupervised Point Cloud Registration ( http://arxiv.org/abs/2109.06619v1 )

ライセンス: Link先を確認
Haobo Jiang, Yaqi Shen, Jin Xie, Jun Li, Jianjun Qian, Jian Yang(参考訳) 本稿では,ポイントクラウド登録タスクをマルコフ決定プロセスとしてモデル化することにより,教師なし3次元登録のためのクロスエントロピー法(CEM)を組み込んだエンドツーエンドのディープモデルを提案する。 我々のモデルはサンプリングネットワークモジュールと微分可能なCEMモジュールで構成される。 サンプリングネットワークモジュールでは、一対の点雲が与えられた場合、サンプリングネットワークは変換空間上の事前サンプリング分布を学習する。 学習したサンプリング分布は、微分可能なCEMモジュールの「良い」初期化として使うことができる。 微分可能なcemモジュールでは,まず,ポイントクラウド登録タスクの報奨関数として,最大コンセンサス基準に基づくアライメントメトリックを提案する。 報酬関数に基づいて、各状態に対して融合スコア関数を構築し、サンプル変換を評価し、変換の現在および将来の報酬を重み付けます。 特に、この変換状態において反復的最接近点(icp)アルゴリズムを実行し、サンプル変換の将来的な報酬を得る。 最高スコアのtop-k変換を選択することで,サンプリング分布を反復的に更新する。 さらに、CEMを微分可能にするために、sparsemax関数を使用して、ハードトップ$k$選択を置き換える。 最後に、geman-mcclure estimatorベースの損失を定式化し、エンドツーエンドの登録モデルをトレーニングします。 大規模な実験結果から,ベンチマークデータセット上での本手法の良好な登録性能が示された。

In this paper, by modeling the point cloud registration task as a Markov decision process, we propose an end-to-end deep model embedded with the cross-entropy method (CEM) for unsupervised 3D registration. Our model consists of a sampling network module and a differentiable CEM module. In our sampling network module, given a pair of point clouds, the sampling network learns a prior sampling distribution over the transformation space. The learned sampling distribution can be used as a "good" initialization of the differentiable CEM module. In our differentiable CEM module, we first propose a maximum consensus criterion based alignment metric as the reward function for the point cloud registration task. Based on the reward function, for each state, we then construct a fused score function to evaluate the sampled transformations, where we weight the current and future rewards of the transformations. Particularly, the future rewards of the sampled transforms are obtained by performing the iterative closest point (ICP) algorithm on the transformed state. By selecting the top-k transformations with the highest scores, we iteratively update the sampling distribution. Furthermore, in order to make the CEM differentiable, we use the sparsemax function to replace the hard top-$k$ selection. Finally, we formulate a Geman-McClure estimator based loss to train our end-to-end registration model. Extensive experimental results demonstrate the good registration performance of our method on benchmark datasets.
翻訳日:2021-09-15 15:36:30 公開日:2021-09-14
# 協調デュアル変換による高分解能画像調和

High-Resolution Image Harmonization via Collaborative Dual Transformations ( http://arxiv.org/abs/2109.06671v1 )

ライセンス: Link先を確認
Wenyan Cong, Xinhao Tao, Li Niu, Jing Liang, Xuesong Gao, Qihao Sun, Liqing Zhang(参考訳) 合成画像が与えられると、画像調和はフォアグラウンドを背景と互換性を持たせるために調整することを目的としている。 高解像度画像の調和は需要が高いが、まだ未調査のままである。 従来の画像調和法は、高解像度化に努力しながら多様なローカルコンテキストを無視できるグローバルなRGB-RGB変換を学習する。 近年の深層学習法では、高調波出力を発生させることのできる高密度画素対ピクセル変換が学習されているが、低解像度では強い制約がある。 本研究では,画素間変換とrgb-to-rgb変換を結合するcdtnet(collaborative dual transformation)を用いた高分解能画像調和ネットワークを提案する。 我々のCDTNetは、画素間変換のための低解像度ジェネレータ、RGB-RGB変換のためのカラーマッピングモジュール、両方の利点を生かした改良モジュールから構成されている。 高分解能画像調和データセットに関する大規模な実験により、我々のCDTNetは効率と効率のバランスが良いことを示した。

Given a composite image, image harmonization aims to adjust the foreground to make it compatible with the background. High-resolution image harmonization is in high demand, but still remains unexplored. Conventional image harmonization methods learn global RGB-to-RGB transformation which could effortlessly scale to high resolution, but ignore diverse local context. Recent deep learning methods learn the dense pixel-to-pixel transformation which could generate harmonious outputs, but are highly constrained in low resolution. In this work, we propose a high-resolution image harmonization network with Collaborative Dual Transformation (CDTNet) to combine pixel-to-pixel transformation and RGB-to-RGB transformation coherently in an end-to-end framework. Our CDTNet consists of a low-resolution generator for pixel-to-pixel transformation, a color mapping module for RGB-to-RGB transformation, and a refinement module to take advantage of both. Extensive experiments on high-resolution image harmonization dataset demonstrate that our CDTNet strikes a good balance between efficiency and effectiveness.
翻訳日:2021-09-15 15:35:47 公開日:2021-09-14
# Sorani Kurdish Spell Checking に対する Hunspell 法と形態学的検討

Hunspell for Sorani Kurdish Spell Checking and Morphological Analysis ( http://arxiv.org/abs/2109.06374v1 )

ライセンス: Link先を確認
Sina Ahmadi(参考訳) スペルチェックと形態解析は、テキストと自然言語処理の2つの基本的なタスクであり、言語技術の発展の初期段階で対処されている。 以前の取り組みにも拘わらず、オープンソースでSorani Kurdish(Central Kurdishとしても知られる)のようなツールを、よりリソースの少ない言語として開発する進展はない。 本稿では,形態素タグを付した辞書の注釈付けと,Sorani Kurdish の形態規則を抽出し,ハンスペルを用いた形態素解析器,ステマー,スペルチェックシステムを構築した。 この実装は、研究者によるさらなる開発に使用することができ、また、公開ライセンスの下でテキストエディタに統合することもできる。

Spell checking and morphological analysis are two fundamental tasks in text and natural language processing and are addressed in the early stages of the development of language technology. Despite the previous efforts, there is no progress in open-source to create such tools for Sorani Kurdish, also known as Central Kurdish, as a less-resourced language. In this paper, we present our efforts in annotating a lexicon with morphosyntactic tags and also, extracting morphological rules of Sorani Kurdish to build a morphological analyzer, a stemmer and a spell-checking system using Hunspell. This implementation can be used for further developments in the field by researchers and also, be integrated into text editors under a publicly available license.
翻訳日:2021-09-15 15:35:31 公開日:2021-09-14
# はい! 自己関与型ランサーによる負のセマンティック空間の最適化

YES SIR!Optimizing Semantic Space of Negatives with Self-Involvement Ranker ( http://arxiv.org/abs/2109.06436v1 )

ライセンス: Link先を確認
Ruizhi Pu, Xinyu Zhang, Ruofei Lai, Zikai Guo, Yinxia Zhang, Hao Jiang, Yongkang Wu, Yantao Jia, Zhicheng Dou, Zhao Cao(参考訳) BERTのような事前学習モデルは、情報検索(IR)問題に対処するための有効なツールであることが証明されている。 インスピレーションを受けたパフォーマンスのため、文書ランキングなどの現実世界のIR問題に対処するために広く使用されている。 近年、研究者は「ランダム」陰性サンプルではなく「ハード」を選択することは、ランキングタスクの微調整済みモデルにとって有益であることを示した。 しかし、固い負のサンプルを原則的に利用する方法はいまだ解明されていない。 上記の問題に対処するために,文書ランク付けのための微調整戦略,すなわちsir(self-involvement ranker)を提案し,高品質ランキングモデルを訓練するための高品質な意味空間を構築するために,ハードネガティブなサンプルを動的に選択する。 具体的には、SIRは、事前訓練されたモデルで実装された逐次圧縮機で構成される。 前部圧縮機は後部圧縮機の硬陰サンプルを選択する。 さらに、sirは監視信号を利用して、負のサンプルの意味空間を適応的に調整する。 最後に、後部圧縮機の監視信号を条件確率に基づいて算出し、サンプルの動的制御とモデル性能の向上を図る。 SIRは、事前訓練されたモデルのための軽量で一般的なフレームワークであり、業界プラクティスのランキングプロセスを簡単にする。 提案手法を文書ランキング設定でMS MARCO上で検証し,SIRが事前学習した各種モデルのランキング性能を大幅に向上できることを示す。 さらに,2021年5月にはMS MARCO文書ランキングのリーダーボード上で,新たなSOTAモデルとなった。

Pre-trained model such as BERT has been proved to be an effective tool for dealing with Information Retrieval (IR) problems. Due to its inspiring performance, it has been widely used to tackle with real-world IR problems such as document ranking. Recently, researchers have found that selecting "hard" rather than "random" negative samples would be beneficial for fine-tuning pre-trained models on ranking tasks. However, it remains elusive how to leverage hard negative samples in a principled way. To address the aforementioned issues, we propose a fine-tuning strategy for document ranking, namely Self-Involvement Ranker (SIR), to dynamically select hard negative samples to construct high-quality semantic space for training a high-quality ranking model. Specifically, SIR consists of sequential compressors implemented with pre-trained models. Front compressor selects hard negative samples for rear compressor. Moreover, SIR leverages supervisory signal to adaptively adjust semantic space of negative samples. Finally, supervisory signal in rear compressor is computed based on condition probability and thus can control sample dynamic and further enhance the model performance. SIR is a lightweight and general framework for pre-trained models, which simplifies the ranking process in industry practice. We test our proposed solution on MS MARCO with document ranking setting, and the results show that SIR can significantly improve the ranking performance of various pre-trained models. Moreover, our method became the new SOTA model anonymously on MS MARCO Document ranking leaderboard in May 2021.
翻訳日:2021-09-15 15:35:19 公開日:2021-09-14
# conSultantBERT:ジョブとジョブシーカーのマッチングのための微調整されたシームズ文

conSultantBERT: Fine-tuned Siamese Sentence-BERT for Matching Jobs and Job Seekers ( http://arxiv.org/abs/2109.06501v1 )

ライセンス: Link先を確認
Dor Lavi, Volodymyr Medentsiy, David Graus(参考訳) 本稿では,求職者マッチングモデルにジョブ機能として組み込むことを目標とする,空き地や履歴書にテキスト情報を組み込んだ有用な埋め込みの構築に焦点をあてる。 本稿では,解析された履歴書からのノイズデータ,異なるデータソースの異種性,言語間性,多言語性といった課題について述べる。 我々は、大規模な実世界および高品質な270,000回の再開空きペアのデータセットを使用して、conSultantBERT(conSu ltantBERT)と呼ばれるSiamese Sentence-BERT(SBERT) モデルを微調整することで、これらの課題に対処する。 我々の微調整モデルはTF-IDF重み付き特徴ベクトルとBERT埋め込みに依存する教師なしおよび教師なしベースラインを著しく上回ることを示す。 さらに,本モデルでは,言語間および多言語間のテキストコンテンツとのマッチングに成功している。

In this paper we focus on constructing useful embeddings of textual information in vacancies and resumes, which we aim to incorporate as features into job to job seeker matching models alongside other features. We explain our task where noisy data from parsed resumes, heterogeneous nature of the different sources of data, and crosslinguality and multilinguality present domain-specific challenges. We address these challenges by fine-tuning a Siamese Sentence-BERT (SBERT) model, which we call conSultantBERT, using a large-scale, real-world, and high quality dataset of over 270,000 resume-vacancy pairs labeled by our staffing consultants. We show how our fine-tuned model significantly outperforms unsupervised and supervised baselines that rely on TF-IDF-weighted feature vectors and BERT embeddings. In addition, we find our model successfully matches cross-lingual and multilingual textual content.
翻訳日:2021-09-15 15:34:56 公開日:2021-09-14
# エッジクラウド分散AIシステムのための複雑度対応型学習と推論

Complexity-aware Adaptive Training and Inference for Edge-Cloud Distributed AI Systems ( http://arxiv.org/abs/2109.06440v1 )

ライセンス: Link先を確認
Yinghan Long, Indranil Chakraborty, Gopalakrishnan Srinivasan, Kaushik Roy(参考訳) IoTおよび機械学習アプリケーションのユビキタス利用は、正確でリアルタイムな処理を必要とする大量のデータを生成している。 エッジベースのスマートデータ処理は、事前訓練されたモデルをデプロイすることで実現可能だが、エッジデバイスのエネルギーとメモリの制約は、複雑なデータのためにエッジとクラウドの間の分散ディープラーニングを必要とする。 本稿では,エッジとクラウドの両方を利用してトレーニングと推論を行う分散AIシステムを提案する。 そこで本研究では,主ブロック,拡張ブロック,エッジ適応ブロックを備えた新しいアーキテクチャである meanet を提案する。 推論プロセスは、メインブロック、拡張ブロック、またはクラウドのいずれかで終了することができる。 meanetは入力をeasy/hard/complexクラスに分類するように訓練されている。 メインブロックは、簡単/ハードクラスのインスタンスを特定し、信頼性の高い簡単なクラスを分類する。 ハードクラスに属する確率の高いデータだけが、予測のために拡張ブロックに送られる。 さらに、エッジのニューラルネットワークが予測に対する信頼度が低い場合に限り、インスタンスは複雑と見なされ、さらなる処理のためにクラウドに送られる。 このトレーニングテクニックは、エッジによって決定されるような、小さな複雑なジョブセットのみをクラウドに投入しながら、エッジデバイス上での推論の大部分に役立ちます。 CIFAR-100およびImageNetデータセット上でResNetsとMobileNetV2の修正モデルを用いて,提案システムの性能評価を行った。 その結果,提案した分散モデルにより精度とエネルギー消費が向上し,適応能力が示唆された。

The ubiquitous use of IoT and machine learning applications is creating large amounts of data that require accurate and real-time processing. Although edge-based smart data processing can be enabled by deploying pretrained models, the energy and memory constraints of edge devices necessitate distributed deep learning between the edge and the cloud for complex data. In this paper, we propose a distributed AI system to exploit both the edge and the cloud for training and inference. We propose a new architecture, MEANet, with a main block, an extension block, and an adaptive block for the edge. The inference process can terminate at either the main block, the extension block, or the cloud. The MEANet is trained to categorize inputs into easy/hard/complex classes. The main block identifies instances of easy/hard classes and classifies easy classes with high confidence. Only data with high probabilities of belonging to hard classes would be sent to the extension block for prediction. Further, only if the neural network at the edge shows low confidence in the prediction, the instance is considered complex and sent to the cloud for further processing. The training technique lends to the majority of inference on edge devices while going to the cloud only for a small set of complex jobs, as determined by the edge. The performance of the proposed system is evaluated via extensive experiments using modified models of ResNets and MobileNetV2 on CIFAR-100 and ImageNet datasets. The results show that the proposed distributed model has improved accuracy and energy consumption, indicating its capacity to adapt.
翻訳日:2021-09-15 15:33:49 公開日:2021-09-14
# 初期設計における日光と視覚的快適性評価のための機械学習フレームワーク

A machine-learning framework for daylight and visual comfort assessment in early design stages ( http://arxiv.org/abs/2109.06450v1 )

ライセンス: Link先を確認
Hanieh Nourkojouri, Zahra Sadat Zomorodian, Mohammad Tahsildoost, Zohreh Shaghaghian(参考訳) 本研究は主に、初期の設計段階における日光および視覚的快適度予測における機械学習アルゴリズムの評価に焦点を当てている。 データセットは主にHoneybee for Grasshopperから派生した2880のシミュレーションから開発された。 シミュレーションは片方の窓のある靴箱のスペースで行われました。 代替案は、部屋の寸法、内面の反射率、窓の寸法と方向、窓の数、シェーディング状態など、様々な物理的特徴から生まれた。 日中評価には, UDI, sDA, mDA, ASE, sVDが5。 品質ビューは,leed v4評価フレームワークから開発されたグラスホッパーベースのアルゴリズムを用いて,同じ靴箱空間で解析された。 データセットはさらに、Pythonで書かれた人工ニューラルネットワークアルゴリズムで分析された。 予測の精度は平均97%と推定された。 既存のプラットフォームやプログラムで時間を消費するシミュレーションを必要とせずに、初期の設計段階の分析に使用できる。

This research is mainly focused on the assessment of machine learning algorithms in the prediction of daylight and visual comfort metrics in the early design stages. A dataset was primarily developed from 2880 simulations derived from Honeybee for Grasshopper. The simulations were done for a shoebox space with a one side window. The alternatives emerged from different physical features, including room dimensions, interior surfaces reflectance, window dimensions and orientations, number of windows, and shading states. 5 metrics were used for daylight evaluations, including UDI, sDA, mDA, ASE, and sVD. Quality Views were analyzed for the same shoebox spaces via a grasshopper-based algorithm, developed from the LEED v4 evaluation framework for Quality Views. The dataset was further analyzed with an Artificial Neural Network algorithm written in Python. The accuracy of the predictions was estimated at 97% on average. The developed model could be used in early design stages analyses without the need for time-consuming simulations in previously used platforms and programs.
翻訳日:2021-09-15 15:33:26 公開日:2021-09-14
# 限定的パンデミックデータを用いたロバストな機械学習アプリケーションのための条件付き合成データ生成

Conditional Synthetic Data Generation for Robust Machine Learning Applications with Limited Pandemic Data ( http://arxiv.org/abs/2109.06486v1 )

ライセンス: Link先を確認
Hari Prasanna Das, Ryan Tran, Japjot Singh, Xiangyu Yue, Geoff Tison, Alberto Sangiovanni-Vincente lli, Costas J. Spanos(参考訳) $\textbf{Background:}$COVID-19のようなパンデミックの開始時に、新しい病気に対応する適切なラベル付け/属性を持つデータが利用できないか、あるいは不足している可能性がある。 利用可能なデータでトレーニングされた機械学習(ML)モデルは、量的に制限され、多様性が低いため、バイアスや不正確な場合が多い。 同時に、パンデミックと戦うために設計されたMLアルゴリズムは、優れたパフォーマンスを備え、時間に敏感な方法で開発されなければならない。 限られたデータの課題に対処し、利用可能なデータのラベル不足に対処するため、実データと並行して条件付き合成データを生成し、堅牢なMLモデルを開発することを提案する。 $\textbf{Methods:}$ 条件生成フローと条件合成データ生成のための分類器からなるハイブリッドモデルを示す。 分類器は、局所ノイズを抽出するためにフローに供給される条件の特徴表現を分離する。 局所雑音を定条件特徴表現で操作することで合成データを生成する。 また,利用可能なデータの大部分をラベル無しで合成サンプルを生成するための半教師付き手法を提案する。 正常患者、covid-19患者、肺炎患者に対応する胸部ctスキャンで条件付き合成生成を行った。 本手法は,定性および定量的性能の両方において既存モデルよりも有意に優れており,ラベル不足下で条件付きサンプルを効率的に合成することができる。 合成データの下流利用の一例として, 条件付き合成データ拡張によるCTスキャンからのCOVID-19検出の改善を示す。

$\textbf{Background:}$ At the onset of a pandemic, such as COVID-19, data with proper labeling/attributes corresponding to the new disease might be unavailable or sparse. Machine Learning (ML) models trained with the available data, which is limited in quantity and poor in diversity, will often be biased and inaccurate. At the same time, ML algorithms designed to fight pandemics must have good performance and be developed in a time-sensitive manner. To tackle the challenges of limited data, and label scarcity in the available data, we propose generating conditional synthetic data, to be used alongside real data for developing robust ML models. $\textbf{Methods:}$ We present a hybrid model consisting of a conditional generative flow and a classifier for conditional synthetic data generation. The classifier decouples the feature representation for the condition, which is fed to the flow to extract the local noise. We generate synthetic data by manipulating the local noise with fixed conditional feature representation. We also propose a semi-supervised approach to generate synthetic samples in the absence of labels for a majority of the available data. $\textbf{Results:}$ We performed conditional synthetic generation for chest computed tomography (CT) scans corresponding to normal, COVID-19, and pneumonia afflicted patients. We show that our method significantly outperforms existing models both on qualitative and quantitative performance, and our semi-supervised approach can efficiently synthesize conditional samples under label scarcity. As an example of downstream use of synthetic data, we show improvement in COVID-19 detection from CT scans with conditional synthetic data augmentation.
翻訳日:2021-09-15 15:33:12 公開日:2021-09-14
# バイアスデータに基づく回帰分析のための変分集中損失再重み付け

Variation-Incentive Loss Re-weighting for Regression Analysis on Biased Data ( http://arxiv.org/abs/2109.06565v1 )

ライセンス: Link先を確認
Wentai Wu, Ligang He and Weiwei Lin(参考訳) 分類タスクと回帰タスクは、トレーニングデータのバイアス分布に影響を受けやすい。 しかし、既存のアプローチはクラス不均衡学習に焦点を当てており、学習対象が離散ラベルではなく連続値である数値回帰問題には適用できない。 本稿では,モデルトレーニング中のデータスキューネス/バイアスに対処し,回帰分析の精度を向上させることを目的とする。 まず,特徴(入力)空間と対象(出力)空間の観点から,局所化データ分布を反映する一意性と異常性という2つの指標を導入する。 これら2つの指標を組み合わせることで、回帰分析のための勾配降下に基づくモデルトレーニングを最適化する変分集中損失再重み付け法(VILoss)を提案する。 我々は,合成データと実世界のデータの両方について包括的な実験を行った。 その結果,VILossをトレーニングにおける損失基準として用いた場合,モデル品質(誤差の最大11.9%)が大幅に向上した。

Both classification and regression tasks are susceptible to the biased distribution of training data. However, existing approaches are focused on the class-imbalanced learning and cannot be applied to the problems of numerical regression where the learning targets are continuous values rather than discrete labels. In this paper, we aim to improve the accuracy of the regression analysis by addressing the data skewness/bias during model training. We first introduce two metrics, uniqueness and abnormality, to reflect the localized data distribution from the perspectives of their feature (i.e., input) space and target (i.e., output) space. Combining these two metrics we propose a Variation-Incentive Loss re-weighting method (VILoss) to optimize the gradient descent-based model training for regression analysis. We have conducted comprehensive experiments on both synthetic and real-world data sets. The results show significant improvement in the model quality (reduction in error by up to 11.9%) when using VILoss as the loss criterion in training.
翻訳日:2021-09-15 15:32:44 公開日:2021-09-14
# sum-product-attentio n network : 確率回路における自己アテンションの活用

Sum-Product-Attentio n Networks: Leveraging Self-Attention in Probabilistic Circuits ( http://arxiv.org/abs/2109.06587v1 )

ライセンス: Link先を確認
Zhongjie Yu, Devendra Singh Dhami, Kristian Kersting(参考訳) 確率回路(PC)は確率的モデリングにおける学習と推論のデファクトスタンダードとなっている。 本稿では,確率回路と変換器を統合する新しい生成モデルであるSum-Product-Attentio n Networks (SPAN)を紹介する。 SPANは自己アテンションを用いて確率回路の最も関連性の高い部分、すなわち和積ネットワークを選択し、基礎となる和積ネットワークのモデリング能力を改善する。 モデリング中、SPANは、総生産ネットワークのすべての製品層において、独立した仮定の特定のセットに焦点を当てている。 実験により、SPANは様々なベンチマークデータセット上で、最先端の確率的生成モデルよりも優れており、効率的な生成画像モデルであることが示された。

Probabilistic circuits (PCs) have become the de-facto standard for learning and inference in probabilistic modeling. We introduce Sum-Product-Attentio n Networks (SPAN), a new generative model that integrates probabilistic circuits with Transformers. SPAN uses self-attention to select the most relevant parts of a probabilistic circuit, here sum-product networks, to improve the modeling capability of the underlying sum-product network. We show that while modeling, SPAN focuses on a specific set of independent assumptions in every product layer of the sum-product network. Our empirical evaluations show that SPAN outperforms state-of-the-art probabilistic generative models on various benchmark data sets as well is an efficient generative image model.
翻訳日:2021-09-15 15:32:26 公開日:2021-09-14
# HPOBench: HPOの再現可能なマルチファイルベンチマーク問題集

HPOBench: A Collection of Reproducible Multi-Fidelity Benchmark Problems for HPO ( http://arxiv.org/abs/2109.06716v1 )

ライセンス: Link先を確認
Katharina Eggensperger, Philipp M\"uller, Neeratyoy Mallik, Matthias Feurer, Ren\'e Sass, Aaron Klein, Noor Awad, Marius Lindauer, Frank Hutter(参考訳) ピーク予測性能を達成するため、ハイパーパラメータ最適化(HPO)は機械学習とその応用の重要なコンポーネントである。 ここ数年、HPOの効率的なアルゴリズムとツールの数は大幅に増加した。 同時にコミュニティは、まだ現実的な、多様で、計算量的に安価で、標準化されたベンチマークを欠いている。 これは特に多元性hpo法の場合である。 このギャップを埋めるために、我々は、既存の7つのベンチマークファミリと5つの新しいベンチマークファミリを含む、合計100以上のマルチフィデリティベンチマーク問題を含むhpobenchを提案する。 HPOBenchは、個々のベンチマークをコンテナに分離してパッケージ化することで、再現可能な方法で、この拡張可能なマルチフィデリティHPOベンチマークを実行することができる。 また、計算量的に安価だが統計的に健全な評価のためのサーロゲートおよび表式ベンチマークを提供する。 我々はHPOBenchの幅広い互換性と有用性を示すために,HPOツールを6つのよく知られた多機能HPOツールを用いて評価した。

To achieve peak predictive performance, hyperparameter optimization (HPO) is a crucial component of machine learning and its applications. Over the last years,the number of efficient algorithms and tools for HPO grew substantially. At the same time, the community is still lacking realistic, diverse, computationally cheap,and standardized benchmarks. This is especially the case for multi-fidelity HPO methods. To close this gap, we propose HPOBench, which includes 7 existing and 5 new benchmark families, with in total more than 100 multi-fidelity benchmark problems. HPOBench allows to run this extendable set of multi-fidelity HPO benchmarks in a reproducible way by isolating and packaging the individual benchmarks in containers. It also provides surrogate and tabular benchmarks for computationally affordable yet statistically sound evaluations. To demonstrate the broad compatibility of HPOBench and its usefulness, we conduct an exemplary large-scale study evaluating 6 well known multi-fidelity HPO tools.
翻訳日:2021-09-15 15:32:15 公開日:2021-09-14
# B2Bレンダリングプロセスの損失リスク予測

Predicting Loss Risks for B2B Tendering Processes ( http://arxiv.org/abs/2109.06815v1 )

ライセンス: Link先を確認
Eelaaf Zahid, Yuya Jeremy Ong, Aly Megahed, Taiga Nakamura(参考訳) 複数の顧客との契約の入札パイプラインを多くの機会に維持している売り手や経営陣は、それぞれの入札の健全性に関するデータ駆動の洞察から大きな恩恵を受ける。 確率的な洞察を提供する予測モデルや、これらの機会に対する予測モデルが多数存在する。 現在、これらの勝利予測モデルは二分分類の形式であり、勝利や損失の可能性を予測しているに過ぎない。 二項定式化は、なぜ特定の取引が損失として予測されるのかについての洞察を与えることができない。 本稿では,勝率を予測するマルチクラス分類モデルを提案する。3つの損失クラスは,入札なし,顧客が追求しなかった,競争に負けたなど,損失が予測される理由を具体的に提示する。 これらのクラスは、予測の性質から、その機会がどのように扱われるかを示す指標を提供する。 本論文は,マルチクラス分類のベースラインとなる結果を提供するとともに,クラス後不均衡処理の結果を提供し,高い精度と平均 auc スコアを 0.94 とした。

Sellers and executives who maintain a bidding pipeline of sales engagements with multiple clients for many opportunities significantly benefit from data-driven insight into the health of each of their bids. There are many predictive models that offer likelihood insights and win prediction modeling for these opportunities. Currently, these win prediction models are in the form of binary classification and only make a prediction for the likelihood of a win or loss. The binary formulation is unable to offer any insight as to why a particular deal might be predicted as a loss. This paper offers a multi-class classification model to predict win probability, with the three loss classes offering specific reasons as to why a loss is predicted, including no bid, customer did not pursue, and lost to competition. These classes offer an indicator of how that opportunity might be handled given the nature of the prediction. Besides offering baseline results on the multi-class classification, this paper also offers results on the model after class imbalance handling, with the results achieving a high accuracy of 85% and an average AUC score of 0.94.
翻訳日:2021-09-15 15:32:01 公開日:2021-09-14
# ステアブルSO(2)-等変CNNの非線形性

Nonlinearities in Steerable SO(2)-Equivariant CNNs ( http://arxiv.org/abs/2109.06861v1 )

ライセンス: Link先を確認
Daniel Franzen, Michael Wand(参考訳) 対称性の下での不変性は機械学習において重要な問題である。 本稿では,入力の変換が出力の準同型変換をもたらす同変ニューラルネットワークについて考察する。 ここでは、ステアブルなCNNが標準ソリューションとして現れています。 ステアブル表現の固有の問題は、一般的な非線形層が等分散を破り、アーキテクチャ上の選択を制限することである。 本稿では,SO(2)のフーリエ表現に対する非線形性の影響を照らすために調和歪み解析を適用した。 バンドリミテーションを維持しつつ非線形変換されたアクティベーションの表現を計算する新しいfftベースアルゴリズムを開発した。 多項式(近似の)非線形性に対する完全同値であり、一般函数に対するチューナブルな精度の近似解である。 サンプル3次元表面データに対する完全E(3)同変ネットワークの構築に本手法を適用した。 2Dおよび3Dデータを用いた実験では、連続対称性と正確な等式を許容しながら、精度の観点から最先端技術と比較した結果が得られる。

Invariance under symmetry is an important problem in machine learning. Our paper looks specifically at equivariant neural networks where transformations of inputs yield homomorphic transformations of outputs. Here, steerable CNNs have emerged as the standard solution. An inherent problem of steerable representations is that general nonlinear layers break equivariance, thus restricting architectural choices. Our paper applies harmonic distortion analysis to illuminate the effect of nonlinearities on Fourier representations of SO(2). We develop a novel FFT-based algorithm for computing representations of non-linearly transformed activations while maintaining band-limitation. It yields exact equivariance for polynomial (approximations of) nonlinearities, as well as approximate solutions with tunable accuracy for general functions. We apply the approach to build a fully E(3)-equivariant network for sampled 3D surface data. In experiments with 2D and 3D data, we obtain results that compare favorably to the state-of-the-art in terms of accuracy while permitting continuous symmetry and exact equivariance.
翻訳日:2021-09-15 15:31:43 公開日:2021-09-14
# 複雑性理論のヒントで正しいアルゴリズムを選ぶ

Choosing the Right Algorithm With Hints From Complexity Theory ( http://arxiv.org/abs/2109.06584v1 )

ライセンス: Link先を確認
Shouda Wang and Weijie Zheng and Benjamin Doerr(参考訳) 異なる探索ヒューリスティックのミリアードから適切なアルゴリズムを選択することは、新しい最適化問題に直面すると困難である。 本研究では,ブラックボックスオプティマイザの幅広いクラスにおいて,どのようなアルゴリズムが最良かという純粋に学術的な疑問は,適切な最適化ヒューリスティックを探索する方向を示す実りある指標を与えることができると論じる。 最近提案されたdlbベンチマークでこのアプローチを実証し、既知の結果はいくつかの古典的な進化アルゴリズムの$o(n^3)$ランタイムと、推定分布アルゴリズムの$o(n^2 \log n)$ランタイムのみである。 単項ブラックボックスの複雑性が$O(n^2)$であることは、メトロポリスアルゴリズムを興味深い候補として提案し、二次時間でDLB問題を解くことを証明した。 我々はまた、より良いランタイムが偏りのないアルゴリズムのクラスでは得られないことを証明するので、より多くの親の情報を使って新しいソリューションを生成するアルゴリズムに注意を移す。 このタイプの人工アルゴリズムは、$O(n \log n)$ランタイムを持つので、意味に基づくコンパクト遺伝的アルゴリズム(sig-cGA)は、時間$O(n \log n)$でもDLB問題を解決することができる。 我々の実験はメトロポリスのアルゴリズムの優れた性能を示しており、明らかに妥当な問題サイズとみなす全てのアルゴリズムの中で最高のものである。

Choosing a suitable algorithm from the myriads of different search heuristics is difficult when faced with a novel optimization problem. In this work, we argue that the purely academic question of what could be the best possible algorithm in a certain broad class of black-box optimizers can give fruitful indications in which direction to search for good established optimization heuristics. We demonstrate this approach on the recently proposed DLB benchmark, for which the only known results are $O(n^3)$ runtimes for several classic evolutionary algorithms and an $O(n^2 \log n)$ runtime for an estimation-of-distri bution algorithm. Our finding that the unary unbiased black-box complexity is only $O(n^2)$ suggests the Metropolis algorithm as an interesting candidate and we prove that it solves the DLB problem in quadratic time. Since we also prove that better runtimes cannot be obtained in the class of unary unbiased algorithms, we shift our attention to algorithms that use the information of more parents to generate new solutions. An artificial algorithm of this type having an $O(n \log n)$ runtime leads to the result that the significance-based compact genetic algorithm (sig-cGA) can solve the DLB problem also in time $O(n \log n)$. Our experiments show a remarkably good performance of the Metropolis algorithm, clearly the best of all algorithms regarded for reasonable problem sizes.
翻訳日:2021-09-15 15:31:29 公開日:2021-09-14
# 階層的クラスタリングによるREST APIのテストケース生成の改善

Improving Test Case Generation for REST APIs Through Hierarchical Clustering ( http://arxiv.org/abs/2109.06655v1 )

ライセンス: Link先を確認
Dimitri Stallenberg, Mitchell Olsthoorn, Annibale Panichella(参考訳) 現代のアプリケーションでWeb APIがますます普及していく中、システム全体をテストすることがますます重要になっている。 過去10年間で、進化的アルゴリズム(EA)を使用してこれらのAPIのシステムレベルのテストケースを自動生成するツールとアプローチが提案されている。 EAの制限要因の1つは、遺伝的演算子(クロスオーバーと突然変異)が完全にランダム化されており、検索中に発見されたAPI要求のシーケンスで有望なパターンを破る可能性があることである。 これらのパターンを破ることは、テストケース生成プロセスの有効性に悪影響を及ぼす。 この制限に対処するため,本論文では,階層的階層的クラスタリング(AHC)を用いてリンクツリーモデルを推論し,これらのパターンを新しいテストケースでキャプチャし,複製し,保存する手法を提案する。 我々は, LT-MOSAと呼ばれるアプローチを, 7つの実世界ベンチマークアプリケーションw.r.t.ブランチカバレッジと実時間検出能力に関する実証的研究により評価した。 また、LT-MOSAとREST APIテスト用の2つの最先端のホワイトボックス技術(MIO、MOSA)を比較します。 その結果, LT-MOSAは, MIOおよびMOSAと比較して, 7本中4本, 5本において, 試験対象範囲の統計的に有意に増加していることがわかった。 さらに、LT-MOSAは、MIOとMOSAによって検出されていない27と18のユニークな実断層を発見した。

With the ever-increasing use of web APIs in modern-day applications, it is becoming more important to test the system as a whole. In the last decade, tools and approaches have been proposed to automate the creation of system-level test cases for these APIs using evolutionary algorithms (EAs). One of the limiting factors of EAs is that the genetic operators (crossover and mutation) are fully randomized, potentially breaking promising patterns in the sequences of API requests discovered during the search. Breaking these patterns has a negative impact on the effectiveness of the test case generation process. To address this limitation, this paper proposes a new approach that uses agglomerative hierarchical clustering (AHC) to infer a linkage tree model, which captures, replicates, and preserves these patterns in new test cases. We evaluate our approach, called LT-MOSA, by performing an empirical study on 7 real-world benchmark applications w.r.t. branch coverage and real-fault detection capability. We also compare LT-MOSA with the two existing state-of-the-art white-box techniques (MIO, MOSA) for REST API testing. Our results show that LT-MOSA achieves a statistically significant increase in test target coverage (i.e., lines and branches) compared to MIO and MOSA in 4 and 5 out of 7 applications, respectively. Furthermore, LT-MOSA discovers 27 and 18 unique real-faults that are left undetected by MIO and MOSA, respectively.
翻訳日:2021-09-15 15:31:01 公開日:2021-09-14
# 音声認識用統一双方向デコーダを用いた非自己回帰変圧器

Non-autoregressive Transformer with Unified Bidirectional Decoder for Automatic Speech Recognition ( http://arxiv.org/abs/2109.06684v1 )

ライセンス: Link先を確認
Chuan-Fei Zhang, Yan Liu, Tian-Hao Zhang, Song-Lu Chen, Feng Chen, Xu-Cheng Yin(参考訳) 非自己回帰(NAR)トランスフォーマーモデルは、自動音声認識(ASR)において集中的に研究されており、NARトランスフォーマーモデルのかなりの部分は、トークン依存を制限するためにカジュアルマスクを使用することである。 しかし、カジュアルマスクは非パラレル自己回帰(ar)変圧器の左右復号処理のために設計されており、これは左右の文脈を無視したパラレルナル変圧器には不適切である。 いくつかのモデルは、追加のデコーダで右から左のコンテキストを利用するように提案されているが、これらの方法はモデルの複雑さを増加させる。 上記の問題に対処するために,左から右へのコンテキストと右から左へのコンテキストを同時に利用できる統一双方向デコーダ (NAT-UBD) を備えた新しい非自己回帰変換器を提案する。 しかし、双方向コンテキストの直接使用は情報漏洩を引き起こすため、デコーダ出力は同じ位置の入力から文字情報に影響される可能性がある。 情報漏洩を避けるため,新しいアテンションマスクを提案し,NAT-UBDのバニラクエリ,キー,値行列を修正した。 実験の結果、NAT-UBDはAishell1の開発/テストセットで5.0%/5.5%の文字誤り率(CER)を達成でき、以前のすべてのNARトランスモデルより優れていた。 さらに、NAT-UBDは1ステップでデコードする場合、ARトランスフォーマーベースラインよりも49.8倍高速に動作することができる。

Non-autoregressive (NAR) transformer models have been studied intensively in automatic speech recognition (ASR), and a substantial part of NAR transformer models is to use the casual mask to limit token dependencies. However, the casual mask is designed for the left-to-right decoding process of the non-parallel autoregressive (AR) transformer, which is inappropriate for the parallel NAR transformer since it ignores the right-to-left contexts. Some models are proposed to utilize right-to-left contexts with an extra decoder, but these methods increase the model complexity. To tackle the above problems, we propose a new non-autoregressive transformer with a unified bidirectional decoder (NAT-UBD), which can simultaneously utilize left-to-right and right-to-left contexts. However, direct use of bidirectional contexts will cause information leakage, which means the decoder output can be affected by the character information from the input of the same position. To avoid information leakage, we propose a novel attention mask and modify vanilla queries, keys, and values matrices for NAT-UBD. Experimental results verify that NAT-UBD can achieve character error rates (CERs) of 5.0%/5.5% on the Aishell1 dev/test sets, outperforming all previous NAR transformer models. Moreover, NAT-UBD can run 49.8x faster than the AR transformer baseline when decoding in a single step.
翻訳日:2021-09-15 15:30:17 公開日:2021-09-14
# COVID-Net MLSys: 臨床ワークフローのためのCOVID-Netの設計

COVID-Net MLSys: Designing COVID-Net for the Clinical Workflow ( http://arxiv.org/abs/2109.06421v1 )

ライセンス: Link先を確認
Audrey G. Chung, Maya Pavlova, Hayden Gunraj, Naomi Terhljan, Alexander MacLean, Hossein Aboutalebi, Siddharth Surana, Andy Zhao, Saad Abbasi, and Alexander Wong(参考訳) 新型コロナウイルス(COVID-19)のパンデミックが世界中で流行し続けている中、ある有望な研究分野は、新型コロナウイルス(COVID-19)の臨床ワークフローのさまざまな部分を合理化するための機械学習駆動型コンピュータビジョンである。 これらの機械学習手法は通常、現実世界のアプリケーションワークフローに必要な統合を考慮せずに設計されたスタンドアロンモデルである。 本研究では,機械学習とシステム(mlsys)の観点から,臨床ワークフローを念頭に置いて新型コロナウイルス患者のスクリーニングシステムを設計する。 COVID-Netシステムは、継続的に進化するCOVIDxデータセット、COVID-19患者検出のためのCOVID-Netディープニューラルネットワーク、COVID-19陽性患者の重症度を評価するためのCOVID-Net Sディープニューラルネットワークで構成されている。 COVID-Netシステム内のディープニューラルネットワークは最先端のパフォーマンスを持ち、臨床診断支援のためのユーザーインターフェース(UI)に統合され、自動レポート生成によって臨床医が治療決定を支援するように設計されている。

As the COVID-19 pandemic continues to devastate globally, one promising field of research is machine learning-driven computer vision to streamline various parts of the COVID-19 clinical workflow. These machine learning methods are typically stand-alone models designed without consideration for the integration necessary for real-world application workflows. In this study, we take a machine learning and systems (MLSys) perspective to design a system for COVID-19 patient screening with the clinical workflow in mind. The COVID-Net system is comprised of the continuously evolving COVIDx dataset, COVID-Net deep neural network for COVID-19 patient detection, and COVID-Net S deep neural networks for disease severity scoring for COVID-19 positive patient cases. The deep neural networks within the COVID-Net system possess state-of-the-art performance, and are designed to be integrated within a user interface (UI) for clinical decision support with automatic report generation to assist clinicians in their treatment decisions.
翻訳日:2021-09-15 15:29:30 公開日:2021-09-14
# 重み付きニューロン配置による視覚位置認識のためのスパイキングニューラルネットワーク

Spiking Neural Networks for Visual Place Recognition via Weighted Neuronal Assignments ( http://arxiv.org/abs/2109.06452v1 )

ライセンス: Link先を確認
Somayeh Hussaini, Michael Milford, Tobias Fischer(参考訳) スパイキングニューラルネットワーク(SNN)は、エネルギー効率や低レイテンシ、イベントスパイクの非微分不可能な性質を含む潜在的な利点を提供する。 この領域における初期の研究の多くは、ディープニューラルネットワークを同等のSNNに変換するが、この変換アプローチは、スクラッチから開発されたSNNベースのアプローチの潜在的な利点を否定する可能性がある。 高性能SNNにとって有望な領域はテンプレートマッチングと画像認識である。 本研究は,視覚的位置認識(VPR)タスクのための最初の高性能SNNを紹介した。クエリ画像が与えられた場合,SNNは参照画像のリストの中から最も近いマッチングを見つける必要がある。 この新しいシステムの中核は、複数の異なる参照部位に応答するシングルプレースエンコードニューロンとダウンウェイトの"あいまいな"ニューロンによって、曖昧さを損なう敬礼の形態を実装した、新しい割り当てスキームである。 オックスフォード・ロボットカーとノルトランドのデータセットに挑戦する実験において、我々のSNNは最先端技術や古典技術に匹敵するVPR性能を達成し、参照場所の増加とともに性能が低下することを示した。 我々の結果は、堅牢で省エネで低レイテンシなロボットローカライゼーションを実現するSNNにとって重要なマイルストーンとなる。

Spiking neural networks (SNNs) offer both compelling potential advantages, including energy efficiency and low latencies, and challenges including the non-differentiable nature of event spikes. Much of the initial research in this area has converted deep neural networks to equivalent SNNs, but this conversion approach potentially negates some of the potential advantages of SNN-based approaches developed from scratch. One promising area for high performance SNNs is template matching and image recognition. This research introduces the first high performance SNN for the Visual Place Recognition (VPR) task: given a query image, the SNN has to find the closest match out of a list of reference images. At the core of this new system is a novel assignment scheme that implements a form of ambiguity-informed salience, by up-weighting single-place-encodin g neurons and down-weighting "ambiguous" neurons that respond to multiple different reference places. In a range of experiments on the challenging Oxford RobotCar and Nordland datasets, we show that our SNN achieves comparable VPR performance to state-of-the-art and classical techniques, and degrades gracefully in performance with an increasing number of reference places. Our results provide a significant milestone towards SNNs that can provide robust, energy-efficient and low latency robot localization.
翻訳日:2021-09-15 15:29:11 公開日:2021-09-14
# 脳MRIにおける非教師付き異常分割のための空間消去による3次元深層学習

3-Dimensional Deep Learning with Spatial Erasing for Unsupervised Anomaly Segmentation in Brain MRI ( http://arxiv.org/abs/2109.06540v1 )

ライセンス: Link先を確認
Marcel Bengs, Finn Behrendt, Julia Kr\"uger, Roland Opfer, Alexander Schlaefer(参考訳) 目的 脳磁気共鳴画像(MRI)は神経疾患の診断に不可欠である。 近年,脳MRI解析のための非教師付き異常検出(UAD)のためのディープラーニング手法が提案されている。 これらの手法は健常な脳MRIに頼り、教師付きディープラーニングと比較してピクセル単位の注釈データを必要としない。 UADの幅広い方法が提案されているが、これらの方法は主に2Dであり、MRIスライスからのみ学習され、脳の病変は本質的に3Dであり、MRIボリュームの空間的文脈は未解明のままである。 メソッド。 我々は,MRIボリュームと空間消去を組み合わせた空間文脈の増大が,スライスからの学習と比較して,教師なしの異常セグメンテーション性能の向上につながるかどうかを検討する。 本研究では,2次元変分オートエンコーダ(VAE)をそれらの3次元と評価・比較し,3次元入力消去を提案し,データセットサイズが性能に与える影響を体系的に検討する。 結果だ 評価のために2つの公開セグメンテーションデータセットを使用することで、3D VAEは2Dよりも優れており、ボリュームコンテキストの利点を強調している。 また、我々の3D消去手法はさらなる性能向上を可能にする。 入力消去による最高の3D VAEは、平均DICEスコアが31.40%となり、2D VAEは25.76%となった。 結論だ 脳MRIにおけるUDAの3次元深層学習法と3次元消去法を併用し、異常セグメンテーションにおいて3次元法が2次元法よりも明らかに優れていることを示す。 また,空間消去手法によりさらなる性能向上が可能となり,大規模データセットの要求を低減できる。

Purpose. Brain Magnetic Resonance Images (MRIs) are essential for the diagnosis of neurological diseases. Recently, deep learning methods for unsupervised anomaly detection (UAD) have been proposed for the analysis of brain MRI. These methods rely on healthy brain MRIs and eliminate the requirement of pixel-wise annotated data compared to supervised deep learning. While a wide range of methods for UAD have been proposed, these methods are mostly 2D and only learn from MRI slices, disregarding that brain lesions are inherently 3D and the spatial context of MRI volumes remains unexploited. Methods. We investigate whether using increased spatial context by using MRI volumes combined with spatial erasing leads to improved unsupervised anomaly segmentation performance compared to learning from slices. We evaluate and compare 2D variational autoencoder (VAE) to their 3D counterpart, propose 3D input erasing, and systemically study the impact of the data set size on the performance. Results. Using two publicly available segmentation data sets for evaluation, 3D VAE outperform their 2D counterpart, highlighting the advantage of volumetric context. Also, our 3D erasing methods allow for further performance improvements. Our best performing 3D VAE with input erasing leads to an average DICE score of 31.40% compared to 25.76% for the 2D VAE. Conclusions. We propose 3D deep learning methods for UAD in brain MRI combined with 3D erasing and demonstrate that 3D methods clearly outperform their 2D counterpart for anomaly segmentation. Also, our spatial erasing method allows for further performance improvements and reduces the requirement for large data sets.
翻訳日:2021-09-15 15:28:44 公開日:2021-09-14
# deep transfer learning を用いた髄芽腫腫瘍分類の多段階的入力戦略

Multi-Scale Input Strategies for Medulloblastoma Tumor Classification using Deep Transfer Learning ( http://arxiv.org/abs/2109.06547v1 )

ライセンス: Link先を確認
Marcel Bengs, Satish Pant, Michael Bockmayr, Ulrich Sch\"uller, Alexander Schlaefer(参考訳) 髄芽腫(MB)は原発性中枢神経系腫瘍であり,小児で最も多い悪性脳腫瘍である。 神経病理学者は、顕微鏡下で病理組織スライドの顕微鏡検査を行い、腫瘍の重症度を評価する。 これは時間のかかる作業であり、しばしばオブザーバーの変動と混同される。 近年,事前学習型畳み込みニューラルネットワーク(CNN)は,MBサブタイプ分類に有望な結果を示している。 通常、高解像度画像は分類のために小さなタイルに分割されるが、タイルのサイズは体系的に評価されていない。 タイルサイズと入力戦略の影響について検討し,2種類の病理組織学的サブタイプを分類した。 この目的のために,最近提案するefficiantnetsを用いて,様々なダウンサンプリングスケールと組み合わせて,サイズを増加させたタイルを評価する。 以上の結果から,大型の入力タイルを用いた中型ダウンサンプリングとパッチトリッピングによりMB分類性能は著しく向上した。 AUC-ROC値が90.90 %であるのに対し,入力タイルが小さい従来の手法では84.53 %であった。

Medulloblastoma (MB) is a primary central nervous system tumor and the most common malignant brain cancer among children. Neuropathologists perform microscopic inspection of histopathological tissue slides under a microscope to assess the severity of the tumor. This is a time-consuming task and often infused with observer variability. Recently, pre-trained convolutional neural networks (CNN) have shown promising results for MB subtype classification. Typically, high-resolution images are divided into smaller tiles for classification, while the size of the tiles has not been systematically evaluated. We study the impact of tile size and input strategy and classify the two major histopathological subtypes-Classic and Demoplastic/Nodular. To this end, we use recently proposed EfficientNets and evaluate tiles with increasing size combined with various downsampling scales. Our results demonstrate using large input tiles pixels followed by intermediate downsampling and patch cropping significantly improves MB classification performance. Our top-performing method achieves the AUC-ROC value of 90.90\% compared to 84.53\% using the previous approach with smaller input tiles.
翻訳日:2021-09-15 15:28:16 公開日:2021-09-14
# 画像検索のための意味インデックス構造

A Semantic Indexing Structure for Image Retrieval ( http://arxiv.org/abs/2109.06583v1 )

ライセンス: Link先を確認
Ying Wang, Tingzhen Liu, Zepeng Bu, Yuhui Huang, Lizhong Gao, Qiao Wang(参考訳) 大規模画像検索では,検索範囲を狭めるためにインデックス化手法が多数提案されている。 画像から抽出される特徴は通常、キーポイントの存在による高次元または非固定サイズである。 既存のインデックス構造のほとんどは、次元の呪い、未固定の機能サイズ、意味的類似性の喪失に苦しんでいる。 本稿では,データベース分割にクラスタリングセンタではなく意味カテゴリーを活用し,提案するインデックスsisを次元制限なしに特徴抽出器と組み合わせることが可能な,新しい分類ベースのインデックス構造であるセマンティックインデックス構造(sis)を提案する。 さらに,各セマンティックパーティションのサイズがデータベースの意味分布と正の相関関係があることが観察された。 このようにして、分割番号を5に正規化すると、提案アルゴリズムがすべてのテストで非常にうまく機能することを発見した。 最先端のモデルと比較すると、SISは優れたパフォーマンスを実現している。

In large-scale image retrieval, many indexing methods have been proposed to narrow down the searching scope of retrieval. The features extracted from images usually are of high dimensions or unfixed sizes due to the existence of key points. Most of existing index structures suffer from the dimension curse, the unfixed feature size and/or the loss of semantic similarity. In this paper a new classification-based indexing structure, called Semantic Indexing Structure (SIS), is proposed, in which we utilize the semantic categories rather than clustering centers to create database partitions, such that the proposed index SIS can be combined with feature extractors without the restriction of dimensions. Besides, it is observed that the size of each semantic partition is positively correlated with the semantic distribution of database. Along this way, we found that when the partition number is normalized to five, the proposed algorithm performed very well in all the tests. Compared with state-of-the-art models, SIS achieves outstanding performance.
翻訳日:2021-09-15 15:28:01 公開日:2021-09-14
# HDR画像とパノラマ再構成のための輝度検出ネットワーク

Luminance Attentive Networks for HDR Image and Panorama Reconstruction ( http://arxiv.org/abs/2109.06688v1 )

ライセンス: Link先を確認
Hanning Yu, Wentao Liu, Chengjiang Long, Bo Dong, Qin Zou, Chunxia Xiao(参考訳) 低ダイナミックレンジ(ldr)画像からハイダイナミックレンジ(hdr)を再構成することは不適切な問題として非常に困難である。 本稿では,単一LDR画像からのHDR再構成のためのLanetという輝度減衰ネットワークを提案する。 本手法は,1)相対輝度に蓄積されたHDR画像はスケール不変であり,任意の正の実数で乗算した場合,HDR画像が同じ情報を保持することを意味する。 そこで本研究では, 相対輝度に格納されたHDR画像に対して, HDR画像と類似の輝度スケールでキャリブレーションを行うHDRキャリブレーション法を提案する。 2) HDR 画像と LDR 画像の主な違いは,特に強調された領域において,下・上・下・下界にある。 そこで本研究では,Lanetの2ストリーム構造を用いた照度アテンションモジュールを提案する。 さらに,LDRパノラマからのHDRパノラマ再構成のためのパノラマと呼ばれる拡張ネットワークを提案し,同形パノラマによる歪み問題を解決するためにパノラマの2重ネット構造を構築した。 広汎な実験により,提案手法はHDR画像の視覚的説得性を再構築し,逆トーンマッピングにおけるすべての指標から最先端のアプローチよりも優れていることを示す。 提案したパノラマを用いた画像ベース照明アプリケーションは,LDRパノラマのみを用いて自然界照明をシミュレートできることを示す。 ソースコードはhttps://github.com/l wt3437/lanetで入手できます。

It is very challenging to reconstruct a high dynamic range (HDR) from a low dynamic range (LDR) image as an ill-posed problem. This paper proposes a luminance attentive network named LANet for HDR reconstruction from a single LDR image. Our method is based on two fundamental observations: (1) HDR images stored in relative luminance are scale-invariant, which means the HDR images will hold the same information when multiplied by any positive real number. Based on this observation, we propose a novel normalization method called " HDR calibration " for HDR images stored in relative luminance, calibrating HDR images into a similar luminance scale according to the LDR images. (2) The main difference between HDR images and LDR images is in under-/over-exposed areas, especially those highlighted. Following this observation, we propose a luminance attention module with a two-stream structure for LANet to pay more attention to the under-/over-exposed areas. In addition, we propose an extended network called panoLANet for HDR panorama reconstruction from an LDR panorama and build a dualnet structure for panoLANet to solve the distortion problem caused by the equirectangular panorama. Extensive experiments show that our proposed approach LANet can reconstruct visually convincing HDR images and demonstrate its superiority over state-of-the-art approaches in terms of all metrics in inverse tone mapping. The image-based lighting application with our proposed panoLANet also demonstrates that our method can simulate natural scene lighting using only LDR panorama. Our source code is available at https://github.com/L WT3437/LANet.
翻訳日:2021-09-15 15:27:46 公開日:2021-09-14
# MotionHint:モーション制約による自己監督型単眼視計測

MotionHint: Self-Supervised Monocular Visual Odometrywith Motion Constraints ( http://arxiv.org/abs/2109.06768v1 )

ライセンス: Link先を確認
Cong Wang, Yu-Ping Wang, Dinesh Manocha(参考訳) 本稿では,運動制約を考慮した新しい自己教師付きアルゴリズムmotionhint for monocular visual odometry (vo)を提案する。 本研究の重要な側面は、既存の自己教師付き単分子VO(SSM-VO)アルゴリズムが自己教師付き損失関数内の局所最小値に関連する問題を克服するのに役立つ適切な動作モデルを使用することである。 動きモデルは、ppnetと呼ばれるニューラルネットワークで表現される。 カメラの次のポーズとこの予測の不確実性を粗く予測するように訓練される。 我々の自己監督的アプローチは、予測と生成された自我運動の重み付けされた差である、元の損失と運動損失を組み合わせたものである。 2つの既存のssm-voシステムをベースラインとして,標準kittiおよびeurocベンチマークでmotionhintアルゴリズムを評価した。 実験の結果,既存のオープンソースSSM-VOシステムにMotionHintアルゴリズムを適用でき,その結果のATEを最大28.73%削減することで,KITTIデータセットの性能を大幅に向上できることがわかった。 EuRocデータセットでは,動作モデルを抽出できるが,ベースライン手法の性能が低かったため,MotionHintは結果を大幅に改善することができない。

We present a novel self-supervised algorithmnamedMotion Hintfor monocular visual odometry (VO) that takes motion constraints into account. A key aspect of ourapproach is to use an appropriate motion model that can help existing self-supervised monocular VO (SSM-VO) algorithms to overcome issues related to the local minima within their self-supervised loss functions. The motion model is expressed with a neural network named PPnet. It is trained to coarsely predict the next pose of the camera and the uncertainty of this prediction. Our self-supervised approach combines the original loss and the motion loss, which is the weighted difference between the prediction and the generated ego-motion. Taking two existing SSM-VO systems as our baseline, we evaluate our MotionHint algorithm on the standard KITTI and EuRoC benchmark. Experimental results show that our MotionHint algorithm can be easily applied to existing open-source state-of-the-art SSM-VO systems to greatly improve the performance on KITTI dataset by reducing the resulting ATE by up to 28.73%. For EuRoc dataset, our method can extract the motion model.But due to the poor performance of the baseline methods, MotionHint cannot significantly improve their results.
翻訳日:2021-09-15 15:27:17 公開日:2021-09-14
# 一定通信ビットを用いた分散学習について

On Distributed Learning with Constant Communication Bits ( http://arxiv.org/abs/2109.06388v1 )

ライセンス: Link先を確認
Xiangxiang Xu, Shao-Lun Huang(参考訳) 本稿では,一定の通信ビットに制約された分散学習問題について検討する。 具体的には、2つの分散ノードが一定数のビットを中央デコーダに送信することを制約する分散仮説テスト(DHT)問題を考察する。 このような場合、最適誤差指数を達成するために、観測されたデータ列の経験的分布を考慮し、それらを伝送ビットに符号化することが十分であることを示す。 このような符号化戦略を用いて,分布空間における幾何学的アプローチを開発し,最適スキームを特徴付ける。 特に、以下の事例に対して、最適達成可能なエラー指数と符号化スキームを示す。 (i)両方のノードは$\log_23$bitを送信できる。 (ii) 1つのノードが1ドルビットを送信でき、もう1つのノードは制約されない。 3) ノードの合同分布は1つの仮説から条件的に独立である。 さらに,理論結果を示す数値例をいくつか提示する。 本研究は,分散学習の実践的ルールを設計するための理論的ガイダンスを提供するとともに,より一般的な通信制約を持つDHTの誤り指数を確立するための新たな可能性を明らかにする。

In this paper, we study a distributed learning problem constrained by constant communication bits. Specifically, we consider the distributed hypothesis testing (DHT) problem where two distributed nodes are constrained to transmit a constant number of bits to a central decoder. In such cases, we show that in order to achieve the optimal error exponents, it suffices to consider the empirical distributions of observed data sequences and encode them to the transmission bits. With such a coding strategy, we develop a geometric approach in the distribution spaces and characterize the optimal schemes. In particular, we show the optimal achievable error exponents and coding schemes for the following cases: (i) both nodes can transmit $\log_23$ bits; (ii) one of the nodes can transmit $1$ bit, and the other node is not constrained; (iii) the joint distribution of the nodes are conditionally independent given one hypothesis. Furthermore, we provide several numerical examples for illustrating the theoretical results. Our results provide theoretical guidance for designing practical distributed learning rules, and the developed approach also reveals new potentials for establishing error exponents for DHT with more general communication constraints.
翻訳日:2021-09-15 15:26:56 公開日:2021-09-14
# 力学系モデリングのための物理インフォームドアーキテクチャと制約付きニューラルネットワーク

Neural Networks with Physics-Informed Architectures and Constraints for Dynamical Systems Modeling ( http://arxiv.org/abs/2109.06407v1 )

ライセンス: Link先を確認
Franck Djeumou, Cyrus Neary, Eric Goubault, Sylvie Putot, Ufuk Topcu(参考訳) 力学系のディープニューラルネットワークモデルに物理ベースの知識を効果的に組み込むことは、データの効率と一般化を大幅に改善することができる。 このようなaプライオリ知識は、物理的原理(例えば保存則)やシステムの設計(例えば、ロボットのジャコビアン行列)から生じるかもしれない。 a-prioriシステムの知識を帰納バイアスとして取り入れながら,軌道データからダイナミクスモデルを学ぶフレームワークを開発した。 より具体的には、提案されたフレームワークは、物理学に基づくサイド情報を使用して、ニューラルネットワーク自体の構造を知らせ、モデルの出力と内部状態の値に制約を課す。 システムのベクトル場を既知の関数と未知関数の合成として表現し、後者はニューラルネットワークによってパラメータ化される。 物理インフォームド制約はモデルのトレーニング中に拡張ラグランジアン法によって強制される。 本研究では,大規模状態空間,非線形力学,外部力,接触力,制御入力を含むロボット環境のベンチマークスイートを含む,様々な力学系に対する提案手法の利点を実験的に実証する。 トレーニング中にシステム知識を活用することによって、提案手法は、トレーニングデータセットが同じならば、事前知識を含まないベースラインアプローチよりも、2桁の精度でシステムダイナミクスを予測することを学ぶ。

Effective inclusion of physics-based knowledge into deep neural network models of dynamical systems can greatly improve data efficiency and generalization. Such a-priori knowledge might arise from physical principles (e.g., conservation laws) or from the system's design (e.g., the Jacobian matrix of a robot), even if large portions of the system dynamics remain unknown. We develop a framework to learn dynamics models from trajectory data while incorporating a-priori system knowledge as inductive bias. More specifically, the proposed framework uses physics-based side information to inform the structure of the neural network itself, and to place constraints on the values of the outputs and the internal states of the model. It represents the system's vector field as a composition of known and unknown functions, the latter of which are parametrized by neural networks. The physics-informed constraints are enforced via the augmented Lagrangian method during the model's training. We experimentally demonstrate the benefits of the proposed approach on a variety of dynamical systems -- including a benchmark suite of robotics environments featuring large state spaces, non-linear dynamics, external forces, contact forces, and control inputs. By exploiting a-priori system knowledge during training, the proposed approach learns to predict the system dynamics two orders of magnitude more accurately than a baseline approach that does not include prior knowledge, given the same training dataset.
翻訳日:2021-09-15 15:25:24 公開日:2021-09-14
# 無線フェデレーション学習のためのサインアライメントプリコーディングによるBayesian AirComp

Bayesian AirComp with Sign-Alignment Precoding for Wireless Federated Learning ( http://arxiv.org/abs/2109.06579v1 )

ライセンス: Link先を確認
Chanho Park, Seunghoon Lee, and Namyoon Lee(参考訳) 本稿では,信号確率勾配勾配勾配(signSGD)アルゴリズムに基づく無線フェデレーション学習の問題について,マルチアクセスチャネルを用いて検討する。 局所的に計算された勾配の符号情報を送信する場合、各モバイルデバイスは無線フェージング効果を回避するためにプリコードを適用する必要がある。 しかし、実際には全てのモバイルデバイスでチャネル状態情報(csi)の完全な知識を得ることは不可能である。 本稿では,限定的なチャネル知識を有する簡易かつ効果的なプリコーディング手法であるsign-alignment precodedingを提案する。 sign-alignment precodingのアイデアは、無線フェージングからsign-flippingエラーを保護することである。 局所勾配のガウス的前提の下では、ベイジアンオーバー・ザ・エア計算(BayAirComp)と呼ばれる平均二乗誤差(MSE)最適集約関数も導出する。 キーとなる発見は、BayAirCompアグリゲーションによる1ビットプリコーディングは、AirCompアグリゲーションによる完全CSIを使用しても、既存のプリコーディング方法よりも優れた学習性能を提供できるということです。

In this paper, we consider the problem of wireless federated learning based on sign stochastic gradient descent (signSGD) algorithm via a multiple access channel. When sending locally computed gradient's sign information, each mobile device requires to apply precoding to circumvent wireless fading effects. In practice, however, acquiring perfect knowledge of channel state information (CSI) at all mobile devices is infeasible. In this paper, we present a simple yet effective precoding method with limited channel knowledge, called sign-alignment precoding. The idea of sign-alignment precoding is to protect sign-flipping errors from wireless fadings. Under the Gaussian prior assumption on the local gradients, we also derive the mean squared error (MSE)-optimal aggregation function called Bayesian over-the-air computation (BayAirComp). Our key finding is that one-bit precoding with BayAirComp aggregation can provide a better learning performance than the existing precoding method even using perfect CSI with AirComp aggregation.
翻訳日:2021-09-15 15:25:02 公開日:2021-09-14
# 視覚課題計画のための再構成モデルとコントラストモデルの比較

Comparing Reconstruction- and Contrastive-based Models for Visual Task Planning ( http://arxiv.org/abs/2109.06737v1 )

ライセンス: Link先を確認
Constantinos Chamzas, Martina Lippi, Michael C. Welle, Anastasia Varava, Lydia E. Kavraki, Danica Kragic(参考訳) 学習状態表現は、画像などの生観察から直接ロボット計画を可能にする。 ほとんどの方法は、低次元潜在空間からの生観測の再構成に基づいて損失を利用して状態表現を学習する。 画像空間における観察間の類似性はしばしば仮定され、システムの基盤状態間の類似性を推定するためのプロキシとして使用される。 しかし、観察には、様々な照明や異なるカメラ視点など、再建に重要なタスク非関連要因が含まれている。 本研究では,関連する評価指標を定義し,状態表現学習のための損失関数を徹底的に検討する。 視覚的タスクプランニングにおいて、単純なコントラスト損失を伴うSameseネットワークのようなタスク前処理のモデルが再構成に基づく表現より優れていることを示す。

Learning state representations enables robotic planning directly from raw observations such as images. Most methods learn state representations by utilizing losses based on the reconstruction of the raw observations from a lower-dimensional latent space. The similarity between observations in the space of images is often assumed and used as a proxy for estimating similarity between the underlying states of the system. However, observations commonly contain task-irrelevant factors of variation which are nonetheless important for reconstruction, such as varying lighting and different camera viewpoints. In this work, we define relevant evaluation metrics and perform a thorough study of different loss functions for state representation learning. We show that models exploiting task priors, such as Siamese networks with a simple contrastive loss, outperform reconstruction-based representations in visual task planning.
翻訳日:2021-09-15 15:24:48 公開日:2021-09-14
# PETGEN:ディープシークエンベディングに基づく分類モデルに基づく個人化テキスト生成攻撃

PETGEN: Personalized Text Generation Attack on Deep Sequence Embedding-based Classification Models ( http://arxiv.org/abs/2109.06777v1 )

ライセンス: Link先を確認
Bing He, Mustaque Ahamad, Srijan Kumar(参考訳) 悪意のあるユーザが検出モデルを騙すために、次に書くべきものは何か? 悪意のあるユーザーを特定することは、インターネットプラットフォームの安全性と整合性を保証するために重要である。 ディープラーニングに基づく検出モデルがいくつか作成されている。 しかし、悪意のあるユーザーは、自分の行動を操作し、これらのモデルをほとんど使用せずに、深い検出モデルを避けることができる。 このような深い検出モデルの敵攻撃に対する脆弱性は不明である。 ここでは,ユーザ投稿のシーケンスを用いてユーザ埋め込みを生成し,悪意のあるユーザを検出する,深層ユーザシーケンスの埋め込みに基づく分類モデルに対する,新たな敵攻撃モデルを作成する。 攻撃では、敵は分類器を騙すために新しいポストを生成する。 本稿では,検出モデルの有効性を同時に低減し,いくつかの重要な特性を有するポストを生成する,エンドツーエンドのパーソナライズされたテキスト生成攻撃モデルである \texttt{petgen} を提案する。 具体的には、 \texttt{petgen} はユーザの書き込みスタイルにパーソナライズされたポストを生成し、特定のターゲットコンテキストに関する知識を持ち、ターゲットコンテキストにおけるユーザの履歴ポストを認識し、最近のトピックの興味をカプセル化する。 実世界の2つのデータセット(Yelpとウィキペディア、どちらも悪質なユーザーベース)で広範な実験を行い、‘texttt{PETGEN} が人気のディープユーザーシークエンスに基づく分類モデルの性能を大幅に低下させることを示す。 \texttt{petgen}は、ホワイトボックスとブラックボックスの分類設定の両方において、テキストの品質と攻撃効果の観点から5つの攻撃ベースラインを上回る。 全体として、この研究は、次世代の逆認識シーケンス分類モデルへの道を開くものである。

\textit{What should a malicious user write next to fool a detection model?} Identifying malicious users is critical to ensure the safety and integrity of internet platforms. Several deep learning based detection models have been created. However, malicious users can evade deep detection models by manipulating their behavior, rendering these models of little use. The vulnerability of such deep detection models against adversarial attacks is unknown. Here we create a novel adversarial attack model against deep user sequence embedding-based classification models, which use the sequence of user posts to generate user embeddings and detect malicious users. In the attack, the adversary generates a new post to fool the classifier. We propose a novel end-to-end Personalized Text Generation Attack model, called \texttt{PETGEN}, that simultaneously reduces the efficacy of the detection model and generates posts that have several key desirable properties. Specifically, \texttt{PETGEN} generates posts that are personalized to the user's writing style, have knowledge about a given target context, are aware of the user's historical posts on the target context, and encapsulate the user's recent topical interests. We conduct extensive experiments on two real-world datasets (Yelp and Wikipedia, both with ground-truth of malicious users) to show that \texttt{PETGEN} significantly reduces the performance of popular deep user sequence embedding-based classification models. \texttt{PETGEN} outperforms five attack baselines in terms of text quality and attack efficacy in both white-box and black-box classifier settings. Overall, this work paves the path towards the next generation of adversary-aware sequence classification models.
翻訳日:2021-09-15 15:24:37 公開日:2021-09-14
# 漁獲制御問題におけるマルコフ型ニューラルネットワークと動的プログラミングの性能

Performance of a Markovian neural network versus dynamic programming on a fishing control problem ( http://arxiv.org/abs/2109.06856v1 )

ライセンス: Link先を確認
Mathieu Lauri\`ere and Gilles Pag\`es and Olivier Pironneau(参考訳) 漁獲量は不快であるが、漁場の生産性を制御するのに効率的である。 一般的なモデルは、確率的動的計画法やハミルトン・ヤコビ・ベルマンアルゴリズムを用いて、漁獲量(英語版)の確率的制御を見つけることができるバイオマスに対する確率的微分方程式を持つ。 動的プログラミングによって得られる解と,解のマルコフ特性を保存するニューラルネットワークを用いて得られる解を比較する。 この手法は、高次元のロバスト性をチェックするために、類似の多種モデルに拡張される。

Fishing quotas are unpleasant but efficient to control the productivity of a fishing site. A popular model has a stochastic differential equation for the biomass on which a stochastic dynamic programming or a Hamilton-Jacobi-Bell man algorithm can be used to find the stochastic control -- the fishing quota. We compare the solutions obtained by dynamic programming against those obtained with a neural network which preserves the Markov property of the solution. The method is extended to a similar multi species model to check its robustness in high dimension.
翻訳日:2021-09-15 15:24:08 公開日:2021-09-14
# harmony-aware learningによる構造強調ポップ音楽生成

Structure-Enhanced Pop Music Generation via Harmony-Aware Learning ( http://arxiv.org/abs/2109.06441v1 )

ライセンス: Link先を確認
Xueyao Zhang, Jinchao Zhang, Yao Qiu, Li Wang, Jie Zhou(参考訳) ポップミュージックを満足のいく構造で自動作曲することは魅力的だが挑戦的なトピックである。 音楽構造は人間による認識が容易であるが、明確に記述し正確に定義することは困難である。 そして、ポップ音楽の生成における構造をどのようにモデル化すべきかは、まだ解明されていない。 本稿では,構造強化されたポップミュージック生成に調和学習を活用することを提案する。 一方、和声の参加者の1つであるコード(chord)は、音楽の空間構造、テクスチャと密接に統合された複数の音符の調和集合を表す。 一方、ハーモニーの他の参加者であるコード進行(chord progression)は、通常、音楽の時間的構造を促進する音楽の発展に付随する。 また、和音が和音の進行に発展していくと、そのテクスチャと形は自然に和音によって橋渡しされ、2つの構造の連成学習に寄与する。 さらに,Harmony-Aware Hierarchical Music Transformer (HAT)を提案し,その構造を音楽から適応的に利用し,複数のレベルの音楽トークンと対話することで,様々な音楽要素における構造信号を強化する。 主観的および客観的評価の結果,HATは生成した音楽の質,特に構造において著しく向上することが示された。

Automatically composing pop music with a satisfactory structure is an attractive but challenging topic. Although the musical structure is easy to be perceived by human, it is difficult to be described clearly and defined accurately. And it is still far from being solved that how we should model the structure in pop music generation. In this paper, we propose to leverage harmony-aware learning for structure-enhanced pop music generation. On the one hand, one of the participants of harmony, chord, represents the harmonic set of multiple notes, which is integrated closely with the spatial structure of music, texture. On the other hand, the other participant of harmony, chord progression, usually accompanies with the development of the music, which promotes the temporal structure of music, form. Besides, when chords evolve into chord progression, the texture and the form can be bridged by the harmony naturally, which contributes to the joint learning of the two structures. Furthermore, we propose the Harmony-Aware Hierarchical Music Transformer (HAT), which can exploit the structure adaptively from the music, and interact on the music tokens at multiple levels to enhance the signals of the structure in various musical elements. Results of subjective and objective evaluations demonstrate that HAT significantly improves the quality of generated music, especially in the structureness.
翻訳日:2021-09-15 15:22:52 公開日:2021-09-14
# 設計初期における音響設計評価のための機械学習フレームワーク

A Machine-learning Framework for Acoustic Design Assessment in Early Design Stages ( http://arxiv.org/abs/2109.06459v1 )

ライセンス: Link先を確認
Reyhane Abarghooie, Zahra Sadat Zomorodian, Mohammad Tahsildoost and Zohreh Shaghaghian(参考訳) 時間-コストスケールモデル研究において、シミュレーション手法を用いて音響性能を予測することが好まれる手法である。 この分野では、音響ツールのコストの高さ、音響専門知識の必要性、音響シミュレーションの時間消費プロセスなど、いくつかの課題により音響シミュレーションツールの構築が複雑である。 本研究の目的は,建物の初期の設計段階における室内音響条件を推定するための計算時間を短縮した簡易モデルの導入である。 本稿では、幾何学的データのみを入力特性として用い、典型的な室内音響パラメータの列を近似する機械学習(ML)の動作プロトタイプを提案する。 2916の異なる構成の1部屋の音響シミュレーションからなる新しいデータセットを使用して、提案モデルのトレーニングとテストを行う。 刺激過程において, パキダーム音響ソフトウェアを用いて, 室内寸法, 窓サイズ, 材料吸収係数, 家具, シェーディングタイプなどの特徴を解析した。 前述のデータセットは、完全接続型ディープニューラルネットワーク(dnn)に基づく7つの機械学習モデルの入力として使用される。 MLモデルの平均誤差は1%から3%であり、検証プロセス後の新しい予測サンプルの平均誤差は2%から12%である。

In time-cost scale model studies, predicting acoustic performance by using simulation methods is a commonly used method that is preferred. In this field, building acoustic simulation tools are complicated by several challenges, including the high cost of acoustic tools, the need for acoustic expertise, and the time-consuming process of acoustic simulation. The goal of this project is to introduce a simple model with a short calculation time to estimate the room acoustic condition in the early design stages of the building. This paper presents a working prototype for a new method of machine learning (ML) to approximate a series of typical room acoustic parameters using only geometric data as input characteristics. A novel dataset consisting of acoustical simulations of a single room with 2916 different configurations are used to train and test the proposed model. In the stimulation process, features that include room dimensions, window size, material absorption coefficient, furniture, and shading type have been analysed by using Pachyderm acoustic software. The mentioned dataset is used as the input of seven machine-learning models based on fully connected Deep Neural Networks (DNN). The average error of ML models is between 1% to 3%, and the average error of the new predicted samples after the validation process is between 2% to 12%.
翻訳日:2021-09-15 15:22:30 公開日:2021-09-14
# 動的交通割り当てのための機械学習予測平衡

Machine-Learned Prediction Equilibrium for Dynamic Traffic Assignment ( http://arxiv.org/abs/2109.06713v1 )

ライセンス: Link先を確認
Lukas Graf, Tobias Harks, Kostas Kollias, Michael Markl(参考訳) 本研究では,エージェントがリアルタイム遅延予測に基づいて即時経路決定を行う動的トラヒック割当モデルについて検討する。 数学的に簡潔なモデルと、動的予測平衡の存在を保証する予測子の導出特性を定式化する。 我々は,知名度の高い情報モデルと瞬時情報モデルと,さらに現実的な予測者を特別な場合として受け入れることによって,フレームワークの汎用性を示す。 本研究では,従来計算された平衡流から得られたデータに基づいて学習した機械学習モデルを含む,異なる予測器の平均走行時間を合成と実際の道路網の両方で体系的に比較する実験によって,理論解析を補完する。

We study a dynamic traffic assignment model, where agents base their instantaneous routing decisions on real-time delay predictions. We formulate a mathematically concise model and derive properties of the predictors that ensure a dynamic prediction equilibrium exists. We demonstrate the versatility of our framework by showing that it subsumes the well-known full information and instantaneous information models, in addition to admitting further realistic predictors as special cases. We complement our theoretical analysis by an experimental study, in which we systematically compare the induced average travel times of different predictors, including a machine-learning model trained on data gained from previously computed equilibrium flows, both on a synthetic and a real road network.
翻訳日:2021-09-15 15:22:12 公開日:2021-09-14
# (参考訳) BERTにおける言語依存性倫理バイアスの緩和 [全文訳有]

Mitigating Language-Dependent Ethnic Bias in BERT ( http://arxiv.org/abs/2109.05704v2 )

ライセンス: CC BY 4.0
Jaimeen Ahn and Alice Oh(参考訳) BERTや他の大規模言語モデル(LM)には、性別と人種バイアスが含まれている。 彼らはまた、他の社会的偏見の次元も示しており、そのほとんどは深く研究されておらず、一部は言語によって異なる。 本稿では、英語、ドイツ語、スペイン語、韓国語、トルコ語、中国語の単言語BERTにおける民族バイアスの分析と緩和により、民族バイアスが言語によってどのように変化するかを検討する。 民族バイアスを観察し定量化するために,カテゴリーバイアススコアと呼ばれる新しい指標を開発した。 次に,2つの単言語モデルの文脈的単語アライメントを用いた2つの緩和手法を提案する。 提案手法と単言語BERTを比較し,これらの手法が民族バイアスを効果的に緩和することを示す。 どちらの方法がうまく機能するかは、その言語で利用可能なNLPリソースの量に依存する。 さらにアラビア語とギリシャ語で実験を行い、提案手法がより幅広い言語で有効であることを検証した。

BERT and other large-scale language models (LMs) contain gender and racial bias. They also exhibit other dimensions of social bias, most of which have not been studied in depth, and some of which vary depending on the language. In this paper, we study ethnic bias and how it varies across languages by analyzing and mitigating ethnic bias in monolingual BERT for English, German, Spanish, Korean, Turkish, and Chinese. To observe and quantify ethnic bias, we develop a novel metric called Categorical Bias score. Then we propose two methods for mitigation; first using a multilingual model, and second using contextual word alignment of two monolingual models. We compare our proposed methods with monolingual BERT and show that these methods effectively alleviate the ethnic bias. Which of the two methods works better depends on the amount of NLP resources available for that language. We additionally experiment with Arabic and Greek to verify that our proposed methods work for a wider variety of languages.
翻訳日:2021-09-15 15:02:24 公開日:2021-09-14
# (参考訳) 可逆パターンマッチングのカテゴリー意味論 [全文訳有]

Categorical Semantics of Reversible Pattern-Matching ( http://arxiv.org/abs/2109.05837v2 )

ライセンス: CC BY 4.0
Louis Lemonnier, Kostia Chardonnet and Beno\^it Valiron(参考訳) 本稿では,可逆計算のカテゴリ構造について述べる。 特に,Seesusをベースとした型付き機能的可逆言語に着目する。 逆リグカテゴリの結合は一般的にパターンマッチングを捕捉しないが、この中核となるコンストラクトは可逆性を強制する。 次に、パターンマッチングをキャプチャするために逆リグのカテゴリを追加するためのカテゴリ構造を導出する。 このような構造が可逆的なパターンマッチングに適切なモデルとなることを示す。

This paper is concerned with categorical structures for reversible computation. In particular, we focus on a typed, functional reversible language based on Theseus. We discuss how join inverse rig categories do not in general capture pattern-matching, the core construct Theseus uses to enforce reversibility. We then derive a categorical structure to add to join inverse rig categories in order to capture pattern-matching. We show how such a structure makes an adequate model for reversible pattern-matching.
翻訳日:2021-09-15 14:39:45 公開日:2021-09-14
# (参考訳) DBMSにおける心性評価 : 総合的ベンチマーク評価 [全文訳有]

Cardinality Estimation in DBMS: A Comprehensive Benchmark Evaluation ( http://arxiv.org/abs/2109.05877v2 )

ライセンス: CC BY 4.0
Yuxing Han, Ziniu Wu, Peizhi Wu, Rong Zhu, Jingyi Yang, Liang Wei Tan, Kai Zeng, Gao Cong, Yanzhao Qin, Andreas Pfadler, Zhengping Qian, Jingren Zhou, Jiangneng Li, Bin Cui(参考訳) カーディナリティ推定(CardEst)はDBMSのクエリオプティマイザのための高品質なクエリプランを生成する上で重要な役割を果たす。 過去10年間で、予測精度と推論遅延に優れた高度なCardEstメソッド(特にMLベース)が提案されている。 しかし、これらの手法の質を体系的に評価し、基本的な問題に答える研究は存在せず、この手法が現実世界の設定においてクエリオプティマイザの性能をどの程度向上させるかは、カードレストの究極の目標である。 本稿では,実際のDBMSにおけるCardEst手法の有効性を包括的かつ体系的に比較する。 CardEstの新しいベンチマークは、新しい複雑な実世界のデータセットSTATSと多様なクエリワークロードSTATS-CEBを含んでいる。 複数の代表的なcardestメソッドをオープンソースのデータベースシステムpostgresqlに統合し,クエリプランの品質向上や,推論レイテンシやモデルサイズ,トレーニング時間など,その適用性に影響する重要な側面を包括的に評価して,効率と正確性を更新する。 異なるデータとクエリの設定の下で,cardestメソッドに対する多くの重要な発見を得た。 さらに,広く用いられている推定精度指標 (q-error) は,クエリ最適化において異なるサブプランクエリの重要性を識別できないため,cardestメソッドによって生成されたクエリプランの品質を真に反映できないことがわかった。 そこで本研究では,Q-Errorの限界を克服し,CardEst法全体のエンドツーエンド性能を反映できる,CardEst法の性能を評価するための新しい測度P-Errorを提案する。 ベンチマークデータと評価コードは、https://github.com/N athaniel-Han/End-to- End-CardEst-Benchmar kで公開しました。

Cardinality estimation (CardEst) plays a significant role in generating high-quality query plans for a query optimizer in DBMS. In the last decade, an increasing number of advanced CardEst methods (especially ML-based) have been proposed with outstanding estimation accuracy and inference latency. However, there exists no study that systematically evaluates the quality of these methods and answer the fundamental problem: to what extent can these methods improve the performance of query optimizer in real-world settings, which is the ultimate goal of a CardEst method. In this paper, we comprehensively and systematically compare the effectiveness of CardEst methods in a real DBMS. We establish a new benchmark for CardEst, which contains a new complex real-world dataset STATS and a diverse query workload STATS-CEB. We integrate multiple most representative CardEst methods into an open-source database system PostgreSQL, and comprehensively evaluate their true effectiveness in improving query plan quality, and other important aspects affecting their applicability, ranging from inference latency, model size, and training time, to update efficiency and accuracy. We obtain a number of key findings for the CardEst methods, under different data and query settings. Furthermore, we find that the widely used estimation accuracy metric(Q-Error) cannot distinguish the importance of different sub-plan queries during query optimization and thus cannot truly reflect the query plan quality generated by CardEst methods. Therefore, we propose a new metric P-Error to evaluate the performance of CardEst methods, which overcomes the limitation of Q-Error and is able to reflect the overall end-to-end performance of CardEst methods. We have made all of the benchmark data and evaluation code publicly available at https://github.com/N athaniel-Han/End-to- End-CardEst-Benchmar k.
翻訳日:2021-09-15 14:07:14 公開日:2021-09-14
# (参考訳) 電子デバイスに関する質問応答:新しいベンチマークデータセットとマルチタスク学習ベースのQAフレームワーク [全文訳有]

Question Answering over Electronic Devices: A New Benchmark Dataset and a Multi-Task Learning based QA Framework ( http://arxiv.org/abs/2109.05897v2 )

ライセンス: CC BY 4.0
Abhilash Nandy, Soumya Sharma, Shubham Maddhashiya, Kapil Sachdeva, Pawan Goyal, Niloy Ganguly(参考訳) Eマニュアルやレシピブックなどの教示コーパスからの質問に対する回答は、オープンドメインのファクトイドな文脈に基づく質問応答よりもはるかに少ない。 これは主に標準ベンチマークデータセットがないためである。 本稿では,Eマニュアルに関連付けられた大量のデータを慎重に生成し,その利用に適したアルゴリズムを開発する。 我々は,307,957個のe-manualsの巨大なコーパスであるe-manual corpusを収集し,この大きなコーパス上でrobertaを事前学習する。 2つのEマニュアルに基づいて専門家がキュレートした質問応答ペア、Eマニュアルに関するコミュニティ質問回答フォーラムの実際のユーザ質問など、さまざまなベンチマークQAデータセットを作成します。 EMQAP(E-Manual Question Answering Pipeline)を導入し、電子機器に関する質問に答える。 事前訓練されたRoBERTaの上に構築され、教師付きマルチタスク学習フレームワークが組み込まれており、このフレームワークは、解答の発見可能なEマニュアル内のセクションを識別し、そのセクション内に正確な回答を分散する2つのタスクを効率的に実行する。 E- Manual Annotated Question-Awer pairs に対して,ROUGE-L F1 スコアは最も競争力のあるベースラインよりも約40%向上した。 詳細なアブレーション研究を行い、異なる状況におけるEMQAPの汎用性を確立する。 コードとデータセットはhttps://github.com/a bhi1nandy2/EMNLP-202 1-Findingsで共有されている。

Answering questions asked from instructional corpora such as E-manuals, recipe books, etc., has been far less studied than open-domain factoid context-based question answering. This can be primarily attributed to the absence of standard benchmark datasets. In this paper we meticulously create a large amount of data connected with E-manuals and develop suitable algorithm to exploit it. We collect E-Manual Corpus, a huge corpus of 307,957 E-manuals and pretrain RoBERTa on this large corpus. We create various benchmark QA datasets which include question answer pairs curated by experts based upon two E-manuals, real user questions from Community Question Answering Forum pertaining to E-manuals etc. We introduce EMQAP (E-Manual Question Answering Pipeline) that answers questions pertaining to electronics devices. Built upon the pretrained RoBERTa, it harbors a supervised multi-task learning framework which efficiently performs the dual tasks of identifying the section in the E-manual where the answer can be found and the exact answer span within that section. For E-Manual annotated question-answer pairs, we show an improvement of about 40% in ROUGE-L F1 scores over the most competitive baseline. We perform a detailed ablation study and establish the versatility of EMQAP across different circumstances. The code and datasets are shared at https://github.com/a bhi1nandy2/EMNLP-202 1-Findings, and the corresponding project website is https://sites.google .com/view/emanualqa/ home.
翻訳日:2021-09-15 13:37:18 公開日:2021-09-14
# (参考訳) 言語モデルは接地なしで知覚構造を符号化できるか? 色彩のケーススタディ [全文訳有]

Can Language Models Encode Perceptual Structure Without Grounding? A Case Study in Color ( http://arxiv.org/abs/2109.06129v2 )

ライセンス: CC BY 4.0
Mostafa Abdou, Artur Kulmizev, Daniel Hershcovich, Stella Frank, Ellie Pavlick, Anders S{\o}gaard(参考訳) 事前訓練された言語モデルは、知識ベースにおける実体と概念の関係(パリ、首都、フランス)のような関係情報を符号化する。 しかし、このタイプの単純な関係はしばしばヒューリスティックに復元され、知覚構造のような世界に根ざした位相構造が暗黙的に反映される範囲は未知である。 この問題を探求するため、我々は色に関する徹底的なケーススタディを実施している。 すなわち、知覚的に意味のある距離距離の測度を持つ色空間であるCIELABで表されるモノレキセミックな色用語と色チップのデータセットを用いる。 この空間における色彩の構造的アライメントとテキスト由来の色項表現の2つの方法を用いて,有意な対応を見出す。 色スペクトル間のアライメントの違いを分析すると、平均して暖かい色は、より涼しい色空間よりも知覚的な色空間によくマッチしていることが分かり、最近のカラーネーミングにおける効率的なコミュニケーションに関する研究から、興味深い関連が示唆された。 さらに分析したところ、アライメントの違いは、部分的にはコロケーション性や統語的使用の差異を介し、色知覚と使用状況との関係について疑問を呈している。

Pretrained language models have been shown to encode relational information, such as the relations between entities or concepts in knowledge-bases -- (Paris, Capital, France). However, simple relations of this type can often be recovered heuristically and the extent to which models implicitly reflect topological structure that is grounded in world, such as perceptual structure, is unknown. To explore this question, we conduct a thorough case study on color. Namely, we employ a dataset of monolexemic color terms and color chips represented in CIELAB, a color space with a perceptually meaningful distance metric. Using two methods of evaluating the structural alignment of colors in this space with text-derived color term representations, we find significant correspondence. Analyzing the differences in alignment across the color spectrum, we find that warmer colors are, on average, better aligned to the perceptual color space than cooler ones, suggesting an intriguing connection to findings from recent work on efficient communication in color naming. Further analysis suggests that differences in alignment are, in part, mediated by collocationality and differences in syntactic usage, posing questions as to the relationship between color perception and usage and context.
翻訳日:2021-09-15 13:13:14 公開日:2021-09-14
# 対話コーパスによるConceptNetの強化による生成チャットボット内のトピックフローの誘導

Guiding Topic Flows in the Generative Chatbot by Enhancing the ConceptNet with the Conversation Corpora ( http://arxiv.org/abs/2109.05406v2 )

ライセンス: Link先を確認
Pengda Si, Yao Qiu, Jinchao Zhang, Yujiu Yang(参考訳) 人間の会話は合理的で自然な話題の流れから成り、発話をまたがる概念のシフトとして観察される。 外部コモンセンスナレッジグラフを組み込んだ従来のチャットボットは、概念シフトのモデル化が、鈍く、非形式的な応答ジレンマを効果的に軽減できることを証明している。 しかし、自然会話における概念関係と外部コモンセンス知識グラフとのギャップは依然として存在し、これは解決すべき問題である。 具体的には、外部コモンセンス知識グラフの概念関係は、会話のシナリオから直感的に構築されるのではなく、世界知識によって構築される。 このギャップを埋めるために,会話コーパスから抽出した概念関係をより多く提供し,チャットボット構築のための概念グラフを再構築する手法を提案する。 さらに,従来のgnnアーキテクチャを置き換えるために,edge-transformerと呼ばれる新しい,強力で高速なグラフエンコーディングアーキテクチャを提案する。 Redditの会話データセットを用いた実験結果から,提案手法は強いベースラインシステムよりも優れ,新たなSOTA結果が得られることが示された。 さらなる分析により、拡張概念グラフとエッジ変換アーキテクチャの有効性が個々に証明される。

Human conversations consist of reasonable and natural topic flows, which are observed as the shifts of the mentioned concepts across utterances. Previous chatbots that incorporate the external commonsense knowledge graph prove that modeling the concept shifts can effectively alleviate the dull and uninformative response dilemma. However, there still exists a gap between the concept relations in the natural conversation and those in the external commonsense knowledge graph, which is an issue to solve. Specifically, the concept relations in the external commonsense knowledge graph are not intuitively built from the conversational scenario but the world knowledge, which makes them insufficient for the chatbot construction. To bridge the above gap, we propose the method to supply more concept relations extracted from the conversational corpora and reconstruct an enhanced concept graph for the chatbot construction. In addition, we present a novel, powerful, and fast graph encoding architecture named the Edge-Transformer to replace the traditional GNN architecture. Experimental results on the Reddit conversation dataset indicate our proposed method significantly outperforms strong baseline systems and achieves new SOTA results. Further analysis individually proves the effectiveness of the enhanced concept graph and the Edge-Transformer architecture.
翻訳日:2021-09-15 12:55:43 公開日:2021-09-14
# CINS:タスク指向対話システムにおける一括学習の総合的指導

CINS: Comprehensive Instruction for Few-shot Learning in Task-oriented Dialog Systems ( http://arxiv.org/abs/2109.04645v2 )

ライセンス: Link先を確認
Fei Mi, Yitong Li, Yasheng Wang, Xin Jiang and Qun Liu(参考訳) タスク指向ダイアログ(ToD)システムにおける異なるモジュールのラベル付けコストが高いため、実際は最小限のラベル付きデータで異なるタスクを学習することが課題である。 近年, プレトレーニング言語モデル (PLM) に対するプロンプト手法は, ToD における数発の学習に有望な結果を示している。 本稿では, PLMの能力をより有効活用するために, タスク固有の命令を多用した包括的インストラクション(CINS)を提案する。 インテント分類,ダイアログ状態追跡,自然言語生成の3つの重要な下流タスクに対して,命令のスキーマ(定義,制約,プロンプト)とそのカスタマイズ実現を設計する。 これら3つのタスクを統一されたフレームワークで解くために、シーケンス・ツー・シーケンス・モデル(T5)を採用する。 これらのtodタスクについて,小さな検証データを用いて,リアルな少数ショット学習シナリオで広範な実験を行った。 実験の結果,提案手法は生のインプットやショートプロンプトでPLMを微調整する手法を一貫して改良することが示された。

As labeling cost for different modules in task-oriented dialog (ToD) systems is high, a major challenge in practice is to learn different tasks with the least amount of labeled data. Recently, prompting methods over pre-trained language models (PLMs) have shown promising results for few-shot learning in ToD. To better utilize the power of PLMs, this paper proposes Comprehensive Instruction (CINS) that exploits PLMs with extra task-specific instructions. We design a schema (definition, constraint, prompt) of instructions and their customized realizations for three important downstream tasks in ToD, i.e. intent classification, dialog state tracking, and natural language generation. A sequence-to-sequence model (T5) is adopted to solve these three tasks in a unified framework. Extensive experiments are conducted on these ToD tasks in realistic few-shot learning scenarios with small validation data. Empirical results demonstrate that the proposed CINS approach consistently improves techniques that finetune PLMs with raw input or short prompts.
翻訳日:2021-09-15 12:55:22 公開日:2021-09-14
# 分布予測リスクの形式化と推定

Formalizing and Estimating Distribution Inference Risks ( http://arxiv.org/abs/2109.06024v2 )

ライセンス: Link先を確認
Anshuman Suri and David Evans(参考訳) プロパティ推論攻撃は、トレーニングセットに関する統計特性を明らかにするが、統計機械学習の本質的な目的、すなわち分布に関する統計特性をキャプチャするモデルを作成することとの区別が難しい。 Yeomらのメンバシップ推論フレームワークを動機として,プロパティ推論攻撃の形式的かつ一般的な定義を提案する。 提案する概念は、可能なトレーニング分布を区別できる攻撃を記述し、女性の比率のようなトレーニングデータセット内の特定のタイプのデータの割合を推測する以前のプロパティ推論攻撃を超えて拡張する。 我々の定義は、トレーニンググラフの平均ノード次数やクラスタリング係数を明らかにすることができる新しい攻撃と同様に、以前のプロパティ推論攻撃をキャプチャする方法を示す。 我々の定義では、分布を区別する推論攻撃の最大精度をモデルによってリークされたデータセットの有効サイズに結びつける定理も可能である。 特性推定リスクの定量化と理解のために,ブラックボックス攻撃とホワイトボックス攻撃の両方を用いて,異なる分布の一連の実験を行う。 その結果,安価なアタックは高価なメタクラス化アタックと同等の効果を示し,アタックの有効性には驚くべき非対称性があることがわかった。 また、畳み込みニューラルネットワークで作業するために最先端のプロパティ推論攻撃を拡張し、最も多くの情報を漏洩するモデルにおけるパラメータの識別を支援する手法を提案し、メタ分類器攻撃のリソース要求を著しく低減する。

Property inference attacks reveal statistical properties about a training set but are difficult to distinguish from the intrinsic purpose of statistical machine learning, namely to produce models that capture statistical properties about a distribution. Motivated by Yeom et al.'s membership inference framework, we propose a formal and general definition of property inference attacks. The proposed notion describes attacks that can distinguish between possible training distributions, extending beyond previous property inference attacks that infer the ratio of a particular type of data in the training data set such as the proportion of females. We show how our definition captures previous property inference attacks as well as a new attack that can reveal the average node degree or clustering coefficient of a training graph. Our definition also enables a theorem that connects the maximum possible accuracy of inference attacks distinguishing between distributions to the effective size of dataset leaked by the model. To quantify and understand property inference risks, we conduct a series of experiments across a range of different distributions using both black-box and white-box attacks. Our results show that inexpensive attacks are often as effective as expensive meta-classifier attacks, and that there are surprising asymmetries in the effectiveness of attacks. We also extend the state-of-the-art property inference attack to work on convolutional neural networks, and propose techniques to help identify parameters in a model that leak the most information, thus significantly lowering resource requirements for meta-classifier attacks.
翻訳日:2021-09-15 12:55:01 公開日:2021-09-14
# ノックオフフィルタによる微分プライベート変数の選択

Differentially Private Variable Selection via the Knockoff Filter ( http://arxiv.org/abs/2109.05402v2 )

ライセンス: Link先を確認
Mehrdad Pournaderi and Yu Xiang(参考訳) 最近BarberとCandesによって開発されたノックオフフィルタは、制御された偽発見率(FDR)で変数選択を効果的に行う方法である。 ガウス機構とラプラス機構を組み込んだノックオフフィルタのプライベートバージョンを提案し,制御されたfdrを用いた変数選択が可能となることを示す。 シミュレーションは、我々の設定が合理的な統計力を持っていることを示している。

The knockoff filter, recently developed by Barber and Candes, is an effective procedure to perform variable selection with a controlled false discovery rate (FDR). We propose a private version of the knockoff filter by incorporating Gaussian and Laplace mechanisms, and show that variable selection with controlled FDR can be achieved. Simulations demonstrate that our setting has reasonable statistical power.
翻訳日:2021-09-15 12:54:38 公開日:2021-09-14
# CPT:中国語の理解と生成のための事前学習型アンバランス変換器

CPT: A Pre-Trained Unbalanced Transformer for Both Chinese Language Understanding and Generation ( http://arxiv.org/abs/2109.05729v2 )

ライセンス: Link先を確認
Yunfan Shao, Zhichao Geng, Yitao Liu, Junqi Dai, Fei Yang, Li Zhe, Hujun Bao, Xipeng Qiu(参考訳) 本稿では,従来の事前学習モデル(ptms)の利点を生かして,新しい中国予訓練不平衡変圧器(cpt)を提案する。 従来の中国のPTMとは異なり、CPTは自然言語理解(NLU)と自然言語生成(NLG)の両方のために設計されている。 cptは、共有エンコーダ、理解デコーダ、ジェネレーションデコーダの3つの部分から構成されている。 共有エンコーダを持つ2つの特定のデコーダは、それぞれマスク付き言語モデリング(MLM)と自動エンコーダ(DAE)タスクで事前訓練される。 部分共有アーキテクチャとマルチタスク事前学習により、CPTは(1)2つのデコーダでNLUまたはNLGタスクの具体的な知識を学習し、(2)モデルの可能性を完全に活用する柔軟に微調整できる。 さらに、アンバランス変換器は計算コストとストレージコストを節約し、CPTの競争力を高め、テキスト生成の推論を大幅に高速化する。 幅広い中国のNLUおよびNLGタスクの実験結果から,CPTの有効性が示された。

In this paper, we take the advantage of previous pre-trained models (PTMs) and propose a novel Chinese Pre-trained Unbalanced Transformer (CPT). Different from previous Chinese PTMs, CPT is designed for both natural language understanding (NLU) and natural language generation (NLG) tasks. CPT consists of three parts: a shared encoder, an understanding decoder, and a generation decoder. Two specific decoders with a shared encoder are pre-trained with masked language modeling (MLM) and denoising auto-encoding (DAE) tasks, respectively. With the partially shared architecture and multi-task pre-training, CPT can (1) learn specific knowledge of both NLU or NLG tasks with two decoders and (2) be fine-tuned flexibly that fully exploits the potential of the model. Moreover, the unbalanced Transformer saves the computational and storage cost, which makes CPT competitive and greatly accelerates the inference of text generation. Experimental results on a wide range of Chinese NLU and NLG tasks show the effectiveness of CPT.
翻訳日:2021-09-15 12:54:31 公開日:2021-09-14
# 効率的な高分解能画像調和のための空間分離曲線レンダリングネットワーク

Spatial-Separated Curve Rendering Network for Efficient and High-Resolution Image Harmonization ( http://arxiv.org/abs/2109.05750v2 )

ライセンス: Link先を確認
Jingtang Liang, Xiaodong Cun and Chi-Man Pun(参考訳) イメージ調和は、特定の背景に関して合成領域の色を変更することを目的としている。 以前の作業では、このタスクをUNetファミリー構造を用いたピクセル単位の画像-画像変換としてモデル化していた。 しかし、モデルのサイズと計算コストは、エッジデバイスや高解像度画像でのモデルの実行性を制限する。 そこで本研究では,空間分離型曲線描画ネットワーク(S$^2$CRNet)を提案する。 S$^2$CRNetでは、まず、マスクされた前景と背景のサムネイルから空間分離された埋め込みを個別に抽出する。 そこで我々は,前景領域の画素単位の曲線マッピングのパラメータを生成するために,線形層を用いて空間固有知識を学習・結合する曲線描画モジュール(CRM)を設計する。 最後に、学習した色曲線を用いて、元の高解像度画像を直接レンダリングする。 さらに、我々はCascaded-CRMとSemantic-CRMを通じて提案されたフレームワークの2つの拡張も行います。 実験により,従来手法と比較して90%以上のパラメータを削減できたが,iharmony4と実世界のdihテストセットの両方において最先端の性能を達成できた。 さらに,提案手法は,既存の手法よりも10$\times$以上の高解像度画像をリアルタイムにスムーズに処理することができる。 コードと事前トレーニングされたモデルはhttps://github.com/s tefanLeong/S2CRNet.c omで公開される。

Image harmonization aims to modify the color of the composited region with respect to the specific background. Previous works model this task as a pixel-wise image-to-image translation using UNet family structures. However, the model size and computational cost limit the performability of their models on edge devices and higher-resolution images. To this end, we propose a novel spatial-separated curve rendering network (S$^2$CRNet) for efficient and high-resolution image harmonization for the first time. In S$^2$CRNet, we firstly extract the spatial-separated embeddings from the thumbnails of the masked foreground and background individually. Then, we design a curve rendering module (CRM), which learns and combines the spatial-specific knowledge using linear layers to generate the parameters of the pixel-wise curve mapping in the foreground region. Finally, we directly render the original high-resolution images using the learned color curve. Besides, we also make two extensions of the proposed framework via the Cascaded-CRM and Semantic-CRM for cascaded refinement and semantic guidance, respectively. Experiments show that the proposed method reduces more than 90% parameters compared with previous methods but still achieves the state-of-the-art performance on both synthesized iHarmony4 and real-world DIH test set. Moreover, our method can work smoothly on higher resolution images in real-time which is more than 10$\times$ faster than the existing methods. The code and pre-trained models will be made available and released at https://github.com/s tefanLeong/S2CRNet.
翻訳日:2021-09-15 12:54:10 公開日:2021-09-14
# 環境にやさしい交通選択による大気汚染低減効果のシミュレーション

Simulating the Effects of Eco-Friendly Transportation Selections for Air Pollution Reduction ( http://arxiv.org/abs/2109.04831v2 )

ライセンス: Link先を確認
Keiichi Ochiai, Tsukasa Demizu, Shin Ishiguro, Shohei Maruyama, Akihiro Kawana(参考訳) CO2やPM2.5といった大気汚染の削減は、世界中の多くの国で最も重要な問題の一つである。 環境にやさしい輸送モードを選択することは、個人の日常生活における大気汚染を減らすための効果的なアプローチである。 本研究では,地図検索ログを用いて,エコフレンドリーな輸送モード選択による大気汚染低減効果をシミュレートする手法を提案する。 交通モードの選択を,大気汚染と平均走行時間の例としてco2排出量の総量に関する制約を伴い,組合せ最適化問題として定式化する。 最適化の結果、CO2排出量の総量は9.23%削減できるのに対し、平均走行時間は9.96%削減できることがわかった。 私たちの研究提案は、KDD Cup 2019で、正規機械学習コンペティショントラックタスク2で優勝しました。

Reducing air pollution, such as CO2 and PM2.5 emissions, is one of the most important issues for many countries worldwide. Selecting an environmentally friendly transport mode can be an effective approach of individuals to reduce air pollution in daily life. In this study, we propose a method to simulate the effectiveness of an eco-friendly transport mode selection for reducing air pollution by using map search logs. We formulate the transport mode selection as a combinatorial optimization problem with the constraints regarding the total amount of CO2 emissions as an example of air pollution and the average travel time. The optimization results show that the total amount of CO2 emissions can be reduced by 9.23%, whereas the average travel time can in fact be reduced by 9.96%. Our research proposal won first prize in Regular Machine Learning Competition Track Task 2 at KDD Cup 2019.
翻訳日:2021-09-15 12:53:49 公開日:2021-09-14
# 非均質画像デハジングのための高効率再パラメータ残差注意ネットワーク

Efficient Re-parameterization Residual Attention Network For Nonhomogeneous Image Dehazing ( http://arxiv.org/abs/2109.05479v2 )

ライセンス: Link先を確認
Tian Ye, ErKang Chen, XinRui Huang, Peng Chen(参考訳) 本稿では,非均一なハズ画像を直接復元する,終端から終端までの効率的な再パラメータ化Residual Attention Network(ERRA-Net)を提案する。 本論文の貢献は主に以下の3つの側面からなる。 1)新しいマルチブランチ注意ブロック(MA)。 空間的注意機構は高周波特徴をよりよく再構成し、チャネル注意機構は異なるチャネルの特徴を異なる方法で扱う。 マルチブランチ構造はモデルの表現能力を劇的に改善し、再パラメータ化後に単一パス構造に変更して推論プロセスを高速化する。 Local Residual Connectionは、非均一領域の低周波情報を処理せずにブロックを通過させ、ブロックが詳細な特徴に集中できるようにする。 2)軽量ネットワーク構造。 我々は, ステップ毎に高周波の特徴を抽出するために, カスケードMAブロックを用い, モデルの浅層および深部の特徴を結合させて, クリーン画像の残像を得る。 3) 2つの新しい損失関数を提案し,色覚失調とラプラスピラミッド失調を再現した。 ERRA-Netは1200x1600のHD画質の画像を平均166.11 fpsで処理する。 大規模な評価の結果,ERSANet は実世界のハズイ画像に対する SOTA アプローチに対して好意的に作用することが示された。

This paper proposes an end-to-end Efficient Re-parameterizationR esidual Attention Network(ERRA-Net) to directly restore the nonhomogeneous hazy image. The contribution of this paper mainly has the following three aspects: 1) A novel Multi-branch Attention (MA) block. The spatial attention mechanism better reconstructs high-frequency features, and the channel attention mechanism treats the features of different channels differently. Multi-branch structure dramatically improves the representation ability of the model and can be changed into a single path structure after re-parameterization to speed up the process of inference. Local Residual Connection allows the low-frequency information in the nonhomogeneous area to pass through the block without processing so that the block can focus on detailed features. 2) A lightweight network structure. We use cascaded MA blocks to extract high-frequency features step by step, and the Multi-layer attention fusion tail combines the shallow and deep features of the model to get the residual of the clean image finally. 3)We propose two novel loss functions to help reconstruct the hazy image ColorAttenuation loss and Laplace Pyramid loss. ERRA-Net has an impressive speed, processing 1200x1600 HD quality images with an average runtime of 166.11 fps. Extensive evaluations demonstrate that ERSANet performs favorably against the SOTA approaches on the real-world hazy images.
翻訳日:2021-09-15 12:53:37 公開日:2021-09-14