このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20201231となっている論文です。

PDF登録状況(公開日: 20201231)

TitleAuthorsAbstract論文公表日・翻訳日
# (参考訳) 任意ガウスの$kの混合を頑健に学習する

Robustly Learning Mixtures of $k$ Arbitrary Gaussians ( http://arxiv.org/abs/2012.02119v2 )

ライセンス: CC BY 4.0
Ainesh Bakshi, Ilias Diakonikolas, He Jia, Daniel M. Kane, Pravesh K. Kothari and Santosh S. Vempala(参考訳) 多項式時間アルゴリズムは、任意の破壊の一定分数の存在下において、任意のヤグシアンを$\mathbb{r}^d$ でロバストに推定する問題に対して、多項式時間アルゴリズムを与える。 このことは、アルゴリズム的ロバスト統計学に関するいくつかの過去の研究において、(a)1つのガウス、(b)テレビ距離分離ガウス、(c)2つのガウスの均一混合の特別なケースに対処する主要な開問題を解決している。 主なツールとしては,2乗法に依拠する効率の良い \emph{partial clustering} アルゴリズムと,Frobenius ノルムおよび低ランク項の誤りを許容する新しいテンソル分解アルゴリズムがある。

We give a polynomial-time algorithm for the problem of robustly estimating a mixture of $k$ arbitrary Gaussians in $\mathbb{R}^d$, for any fixed $k$, in the presence of a constant fraction of arbitrary corruptions. This resolves the main open problem in several previous works on algorithmic robust statistics, which addressed the special cases of robustly estimating (a) a single Gaussian, (b) a mixture of TV-distance separated Gaussians, and (c) a uniform mixture of two Gaussians. Our main tools are an efficient \emph{partial clustering} algorithm that relies on the sum-of-squares method, and a novel tensor decomposition algorithm that allows errors in both Frobenius norm and low-rank terms.
翻訳日:2021-05-23 19:52:39 公開日:2020-12-31
# (参考訳) COVID-MTL: 自動診断と重症度評価のためのShift3Dとランダム強調損失を用いたマルチタスク学習 [全文訳有]

COVID-MTL: Multitask Learning with Shift3D and Random-weighted Loss for Automated Diagnosis and Severity Assessment of COVID-19 ( http://arxiv.org/abs/2012.05509v3 )

ライセンス: CC BY 4.0
Guoqing Bao, Huai Chen, Tongliang Liu, Guanzhong Gong, Yong Yin, Lisheng Wang and Xiuying Wang(参考訳) 新型コロナウイルスの正確かつ効果的な評価を支援する自動化方法が緊急に必要である。 放射線学と核酸検査(NAT)は、補完的な新型コロナウイルスの診断方法である。 本稿では,自動かつ同時検出が可能なMTL(End-to-end Multitask Learning)フレームワークを提案する。 COVID-MTL learns different COVID-19 tasks in parallel through our novel random-weighted loss function, which assigns learning weights under Dirichlet distribution to prevent task dominance; our new 3D real-time augmentation algorithm (Shift3D) introduces space variances for 3D CNN components by shifting low-level feature representations of volumetric inputs in three dimensions; thereby, the MTL framework is able to accelerate convergence and improve joint learning performance compared to single-task models. 胸部CT検査のみを用いることで,930例のCTでCOVID-MTLを訓練し,399例の検査を行った。 COVID-MTL は 0.939 と 0.846 の AUC を達成し、それぞれ 90.23% と 79.20% の AUC を放射線学とNAT に対して検出した。 一方、COVID-MTL は AUC を 0.800 $\pm$ 0.020 と 0.813 $\pm$ 0.021 とし、制御/検査、軽度/規則的、重度/致命的なケースを分類した。 認識機構を解明するために,HIVの陽性度と重症度と有意な関連性(P < 0.001)を有する高スループット肺の特徴も同定した。

There is an urgent need for automated methods to assist accurate and effective assessment of COVID-19. Radiology and nucleic acid test (NAT) are complementary COVID-19 diagnosis methods. In this paper, we present an end-to-end multitask learning (MTL) framework (COVID-MTL) that is capable of automated and simultaneous detection (against both radiology and NAT) and severity assessment of COVID-19. COVID-MTL learns different COVID-19 tasks in parallel through our novel random-weighted loss function, which assigns learning weights under Dirichlet distribution to prevent task dominance; our new 3D real-time augmentation algorithm (Shift3D) introduces space variances for 3D CNN components by shifting low-level feature representations of volumetric inputs in three dimensions; thereby, the MTL framework is able to accelerate convergence and improve joint learning performance compared to single-task models. By only using chest CT scans, COVID-MTL was trained on 930 CT scans and tested on separate 399 cases. COVID-MTL achieved AUCs of 0.939 and 0.846, and accuracies of 90.23% and 79.20% for detection of COVID-19 against radiology and NAT, respectively, which outperformed the state-of-the-art models. Meanwhile, COVID-MTL yielded AUC of 0.800 $\pm$ 0.020 and 0.813 $\pm$ 0.021 (with transfer learning) for classifying control/suspected, mild/regular, and severe/critically-il l cases. To decipher the recognition mechanism, we also identified high-throughput lung features that were significantly related (P < 0.001) to the positivity and severity of COVID-19.
翻訳日:2021-05-15 20:22:32 公開日:2020-12-31
# 路面3次元再構成とポットホール検出の再考:視点変換から距離マップ分割へ

Rethinking Road Surface 3D Reconstruction and Pothole Detection: From Perspective Transformation to Disparity Map Segmentation ( http://arxiv.org/abs/2012.10802v2 )

ライセンス: Link先を確認
Rui Fan, Umar Ozgunalp, Yuan Wang, Ming Liu, Ioannis Pitas(参考訳) ポットホールは最も一般的な道路損傷の1つであり、運転の快適さ、道路の安全性、車両の状態に深刻な影響を及ぼす可能性がある。 ポトホール検出は通常、構造技術者または認定検査官によって行われる。 しかし、この仕事は人員にとって危険であるだけでなく、非常に時間を要する。 本稿では,道路差マップ推定とセグメンテーションに基づく効率的なポットホール検出アルゴリズムを提案する。 まず,ステレオリグロール角を組み込んで視点変換を一般化する。 道路の差は準グローバルマッチングを用いて推定される。 次に、損傷した道路領域をよりよく識別するために、異種マップ変換アルゴリズムを実行する。 最後に、単純な線形反復クラスタリングを用いて、変換された格差をスーパーピクセルの集合にまとめる。 そして、適応的に決定された閾値よりも低い値のスーパーピクセルを見つけることにより、穴を検出する。 提案アルゴリズムはCUDAのNVIDIA RTX 2080 Ti GPU上で実装されている。 提案手法では,99.6%の精度と89.4%のf-scoreが得られる。

Potholes are one of the most common forms of road damage, which can severely affect driving comfort, road safety and vehicle condition. Pothole detection is typically performed by either structural engineers or certified inspectors. This task is, however, not only hazardous for the personnel but also extremely time-consuming. This paper presents an efficient pothole detection algorithm based on road disparity map estimation and segmentation. We first generalize the perspective transformation by incorporating the stereo rig roll angle. The road disparities are then estimated using semi-global matching. A disparity map transformation algorithm is then performed to better distinguish the damaged road areas. Finally, we utilize simple linear iterative clustering to group the transformed disparities into a collection of superpixels. The potholes are then detected by finding the superpixels, whose values are lower than an adaptively determined threshold. The proposed algorithm is implemented on an NVIDIA RTX 2080 Ti GPU in CUDA. The experiments demonstrate the accuracy and efficiency of our proposed road pothole detection algorithm, where an accuracy of 99.6% and an F-score of 89.4% are achieved.
翻訳日:2021-05-01 11:08:06 公開日:2020-12-31
# 高解像度光触覚センシングのためのsim-to-real:画像から3次元接触力分布へ

Sim-to-real for high-resolution optical tactile sensing: From images to 3D contact force distributions ( http://arxiv.org/abs/2012.11295v2 )

ライセンス: Link先を確認
Carmelo Sferrazza and Raffaello D'Andrea(参考訳) 視覚ベースの触覚センサによって撮影された画像は、ソフトセンシング面に作用する接触力の分布など、高解像度の触覚フィールドに関する情報を運ぶ。 しかし、画像にエンコードされた情報を抽出することは困難であり、一般的に大量のトレーニングデータを必要とする学習ベースのアプローチで対処されることが多い。 本稿では,軟質材料中の球状粒子の動きを追跡する内部カメラを用いて,視覚に基づく触覚センサのシミュレーションにおいて触覚画像を生成する手法を提案する。 材料の変形は、様々な接触条件の下で有限要素環境下でシミュレートされ、シミュレートされた画像に球状粒子が投影される。 画像から抽出された特徴は3次元接触力分布にマッピングされ、有限要素シミュレーションにより基底真理も得られた。 実世界の触覚画像で評価すると高い精度を示し、さらにトレーニングすることなく複数の触覚センサ間で伝達可能であり、効率的なリアルタイム推論に適している。

The images captured by vision-based tactile sensors carry information about high-resolution tactile fields, such as the distribution of the contact forces applied to their soft sensing surface. However, extracting the information encoded in the images is challenging and often addressed with learning-based approaches, which generally require a large amount of training data. This article proposes a strategy to generate tactile images in simulation for a vision-based tactile sensor based on an internal camera that tracks the motion of spherical particles within a soft material. The deformation of the material is simulated in a finite element environment under a diverse set of contact conditions, and spherical particles are projected to a simulated image. Features extracted from the images are mapped to the 3D contact force distribution, with the ground truth also obtained via finite-element simulations, with an artificial neural network that is therefore entirely trained on synthetic data avoiding the need for real-world data collection. The resulting model exhibits high accuracy when evaluated on real-world tactile images, is transferable across multiple tactile sensors without further training, and is suitable for efficient real-time inference.
翻訳日:2021-04-27 06:22:08 公開日:2020-12-31
# 深部ネットワークのサンプルよりも少ないレベルにおける選択的フォーミング

Selective Forgetting of Deep Networks at a Finer Level than Samples ( http://arxiv.org/abs/2012.11849v2 )

ライセンス: Link先を確認
Tomohiro Hayase, Suguru Yasutomi, Takashi Katoh(参考訳) 深層ニューラルネットワーク(DNN)からの情報を選択的に忘れたり取り除いたりすることは、継続的な学習には不可欠であり、DNNを制御する上では困難である。 デプロイされたdnnは、異常値、攻撃者による毒殺、あるいはリーク/センシティブな情報によってトレーニングされる可能性があるため、このような忘れ込みは実用的な意味でも重要である。 本稿では,分類課題に対して,試料のレベルよりも細かいレベルで選択的に忘れることを定式化する。 本研究では,忘れられる情報を含むか否かと,忘れられる手順に利用できるかどうかの2つの条件で区別された4つのデータセットに基づいて,より詳細なレベルを指定する。 さらに,具体的かつ実践的な状況を示すことにより,データセットによるこのような定式化の必要性を明らかにする。 さらに, 3 つの基準,すなわち忘れ方, 修正, 記憶時間に関する最適化問題として, 忘れ方手順を導入する。 実験の結果,提案手法は分類に特定の情報を用いるのを忘れさせることができた。 特に,本手法は,忘れるべき情報を含むデータセット上でのモデルの精度を向上するが,忘れる手順では利用できない。 これらのデータは予期せぬ状況で発見され、誤分類される。

Selective forgetting or removing information from deep neural networks (DNNs) is essential for continual learning and is challenging in controlling the DNNs. Such forgetting is crucial also in a practical sense since the deployed DNNs may be trained on the data with outliers, poisoned by attackers, or with leaked/sensitive information. In this paper, we formulate selective forgetting for classification tasks at a finer level than the samples' level. We specify the finer level based on four datasets distinguished by two conditions: whether they contain information to be forgotten and whether they are available for the forgetting procedure. Additionally, we reveal the need for such formulation with the datasets by showing concrete and practical situations. Moreover, we introduce the forgetting procedure as an optimization problem on three criteria; the forgetting, the correction, and the remembering term. Experimental results show that the proposed methods can make the model forget to use specific information for classification. Notably, in specific cases, our methods improved the model's accuracy on the datasets, which contains information to be forgotten but is unavailable in the forgetting procedure. Such data are unexpectedly found and misclassified in actual situations.
翻訳日:2021-04-26 07:42:00 公開日:2020-12-31
# (参考訳) クロスドメインテキスト-SQL間セマンティック解析のためのブリッジングテキストとタブラリデータ [全文訳有]

Bridging Textual and Tabular Data for Cross-Domain Text-to-SQL Semantic Parsing ( http://arxiv.org/abs/2012.12627v2 )

ライセンス: CC BY 4.0
Xi Victoria Lin and Richard Socher and Caiming Xiong(参考訳) BRIDGEは,自然言語質問と関係データベース間の依存関係をモデリングする,強力なシーケンシャルアーキテクチャである。 BRIDGEは、フィールドのサブセットが質問に言及されたセル値で拡張されるタグ付きシーケンスで、質問とDBスキーマを表す。 ハイブリッドシーケンスはBERTによって最小層でエンコードされ、BERTの微調整深度でテキスト-DBコンテキスト化を実現する。 スキーマ一貫性駆動の検索スペースプルーニングを備えたポインタジェネレータデコーダと組み合わせて、BRIDGEは一般的なクロスDBテキスト-SQLベンチマーク、スパイダー(71.1\%、アンサンブルモデルで67.5\%)、WikiSQL(92.6\%、91.9\%)で最先端のパフォーマンスを達成した。 本分析は,BRIDGEが望まれる相互依存を効果的に捕捉し,テキストDB関連タスクに一般化する可能性を示唆している。 我々の実装は \url{https://github.com/s alesforce/TabularSem anticParsing} で利用可能です。

We present BRIDGE, a powerful sequential architecture for modeling dependencies between natural language questions and relational databases in cross-DB semantic parsing. BRIDGE represents the question and DB schema in a tagged sequence where a subset of the fields are augmented with cell values mentioned in the question. The hybrid sequence is encoded by BERT with minimal subsequent layers and the text-DB contextualization is realized via the fine-tuned deep attention in BERT. Combined with a pointer-generator decoder with schema-consistency driven search space pruning, BRIDGE attained state-of-the-art performance on popular cross-DB text-to-SQL benchmarks, Spider (71.1\% dev, 67.5\% test with ensemble model) and WikiSQL (92.6\% dev, 91.9\% test). Our analysis shows that BRIDGE effectively captures the desired cross-modal dependencies and has the potential to generalize to more text-DB related tasks. Our implementation is available at \url{https://github.com/s alesforce/TabularSem anticParsing}.
翻訳日:2021-04-26 01:18:55 公開日:2020-12-31
# BURT:BERTにインスパイアされたUniversal Representation from Learning Meaningful Segment

BURT: BERT-inspired Universal Representation from Learning Meaningful Segment ( http://arxiv.org/abs/2012.14320v2 )

ライセンス: Link先を確認
Yian Li, Hai Zhao(参考訳) bertのような事前訓練されたコンテキスト化された言語モデルは、様々な下流タスクにおいて重要な性能を発揮するが、現在の言語表現は、依然として特定の粒度での言語目標のみに焦点を当てている。 このように、この研究は普遍的な表現学習、すなわち一様ベクトル空間に異なる言語単位のレベルを埋め込むことを導入し、探求する。 本稿では,共通表現モデル BURT (BERT-inspired Universal Representation from learning meaningful segmenT) を提案し,異なる言語単位のレベルを同一ベクトル空間にエンコードする。 具体的には,ポイントワイズ相互情報(pmi)に基づいて有意義なセグメントを抽出・マスキングし,異なる粒度目標を事前学習段階に組み込む。 GLUEベンチマークやCLUEベンチマークなど、英語と中国語のデータセットで実験を行い、このモデルがベースラインを越え、幅広いダウンストリームタスクに代替手段を提供する。 本稿では,単語,句,文という用語を用いた類似データセットの構築と,学習ベクトル空間の幾何学的特性をタスク非依存評価により検証するための複数の表現モデル実験について述べる。 最後に,2つの実世界のテキストマッチングシナリオにおける統合事前学習戦略の有効性を検証する。 その結果,本モデルは既存の情報検索(ir)手法を著しく上回り,検索に基づく質問応答や自然言語生成タスクに直接適用可能な普遍表現が得られる。

Although pre-trained contextualized language models such as BERT achieve significant performance on various downstream tasks, current language representation still only focuses on linguistic objective at a specific granularity, which may not applicable when multiple levels of linguistic units are involved at the same time. Thus this work introduces and explores the universal representation learning, i.e., embeddings of different levels of linguistic unit in a uniform vector space. We present a universal representation model, BURT (BERT-inspired Universal Representation from learning meaningful segmenT), to encode different levels of linguistic unit into the same vector space. Specifically, we extract and mask meaningful segments based on point-wise mutual information (PMI) to incorporate different granular objectives into the pre-training stage. We conduct experiments on datasets for English and Chinese including the GLUE and CLUE benchmarks, where our model surpasses its baselines and alternatives on a wide range of downstream tasks. We present our approach of constructing analogy datasets in terms of words, phrases and sentences and experiment with multiple representation models to examine geometric properties of the learned vector space through a task-independent evaluation. Finally, we verify the effectiveness of our unified pre-training strategy in two real-world text matching scenarios. As a result, our model significantly outperforms existing information retrieval (IR) methods and yields universal representations that can be directly applied to retrieval-based question-answering and natural language generation tasks.
翻訳日:2021-04-19 11:06:09 公開日:2020-12-31
# TransPose: Transformerによる説明可能な人文推定を目指して

TransPose: Towards Explainable Human Pose Estimation by Transformer ( http://arxiv.org/abs/2012.14214v2 )

ライセンス: Link先を確認
Sen Yang and Zhibin Quan and Mu Nie and Wankou Yang(参考訳) 深層畳み込みニューラルネットワーク(CNN)は人間のポーズ推定タスクに顕著な進歩をもたらした。 しかし,CNNによる身体キーポイントの位置の予測には明確な理解が得られず,構造変数間の空間的依存関係がモデルでどのように学習されるかは不明である。 そこで本研究では,Transformer アーキテクチャと低レベル畳み込みブロックに基づく TransPose というモデルを構築した。 画像が与えられたら、Transformerに組み込まれたアテンション層は、キーポイント間の長距離空間関係をキャプチャし、予測キーポイント位置が依存する依存関係を説明することができる。 注意を説明として用いる合理性を分析し,この課題の空間的依存性を明らかにする。 明らかな依存関係はイメージ固有であり、異なるキーポイントタイプ、レイヤ深さ、トレーニングされたモデルに対する変数である。 実験の結果,TransPoseはキーポイントの位置を正確に予測できることがわかった。 cocoデータセットの最先端のパフォーマンスを実現し、メインストリームの完全畳み込みアーキテクチャよりも解釈可能、軽量、効率的である。

Deep Convolutional Neural Networks (CNNs) have made remarkable progress on human pose estimation task. However, there is no explicit understanding of how the locations of body keypoints are predicted by CNN, and it is also unknown what spatial dependency relationships between structural variables are learned in the model. To explore these questions, we construct an explainable model named TransPose based on Transformer architecture and low-level convolutional blocks. Given an image, the attention layers built in Transformer can capture long-range spatial relationships between keypoints and explain what dependencies the predicted keypoints locations highly rely on. We analyze the rationality of using attention as the explanation to reveal the spatial dependencies in this task. The revealed dependencies are image-specific and variable for different keypoint types, layer depths, or trained models. The experiments show that TransPose can accurately predict the positions of keypoints. It achieves state-of-the-art performance on COCO dataset, while being more interpretable, lightweight, and efficient than mainstream fully convolutional architectures.
翻訳日:2021-04-19 11:02:13 公開日:2020-12-31
# (参考訳) 自分のゲームで攻撃者を打ち負かす - 逆勾配方向を用いた逆例検出 [全文訳有]

Beating Attackers At Their Own Games: Adversarial Example Detection Using Adversarial Gradient Directions ( http://arxiv.org/abs/2012.15386v1 )

ライセンス: CC BY 4.0
Yuhang Wu, Sunpreet S. Arora, Yanhong Wu, Hao Yang(参考訳) 逆例は、特に機械学習分類器を騙すために作られた入力例である。 最先端の逆例検出手法は、複数の摂動下における特徴変動の大きさを定量化するか、推定された良質な例分布からの距離を測定することによって、入力例を逆数として特徴づける。 提案手法は,このような指標を使わずに,(新しい)対向例を作成する際の対向勾配の方向が,対向空間を特徴づける上で重要な役割を担っていることを示す。 複数の摂動を用いた検出法と比較すると,提案手法は入力例に単一のランダム摂動のみを適用するので効率的である。 CIFAR-10 と ImageNet の2つの異なるデータベースで行った実験により,提案手法は5つの異なる攻撃に対して 97.9% と 98.6% の AUC-ROC (平均) をそれぞれ達成し,複数の最先端検出手法より優れていることが示された。 その結果, 対向勾配方向を用いた対向例検出の有効性が示された。

Adversarial examples are input examples that are specifically crafted to deceive machine learning classifiers. State-of-the-art adversarial example detection methods characterize an input example as adversarial either by quantifying the magnitude of feature variations under multiple perturbations or by measuring its distance from estimated benign example distribution. Instead of using such metrics, the proposed method is based on the observation that the directions of adversarial gradients when crafting (new) adversarial examples play a key role in characterizing the adversarial space. Compared to detection methods that use multiple perturbations, the proposed method is efficient as it only applies a single random perturbation on the input example. Experiments conducted on two different databases, CIFAR-10 and ImageNet, show that the proposed detection method achieves, respectively, 97.9% and 98.6% AUC-ROC (on average) on five different adversarial attacks, and outperforms multiple state-of-the-art detection methods. Results demonstrate the effectiveness of using adversarial gradient directions for adversarial example detection.
翻訳日:2021-04-18 04:11:07 公開日:2020-12-31
# (参考訳) 金融市場におけるグラフ学習アルゴリズム

Algorithms for Learning Graphs in Financial Markets ( http://arxiv.org/abs/2012.15410v1 )

ライセンス: CC BY 4.0
Jos\'e Vin\'icius de Miranda Cardoso and Jiaxi Ying and Daniel Perez Palomar(参考訳) 過去20年間、応用金融の分野はグラフ理論から多大な恩恵を受けてきた。 その結果,アセットネットワーク推定から階層的アセット選択,ポートフォリオ割り当てに至るまで,新たな手法が実践者のツールボックスの一部となっている。 本稿では,金融市場時系列データの観点から,ラプラシアン構造制約下での非方向性のグラフィカルモデル学習の根本的な問題点を考察する。 特に、金融資産の精度行列のモデルとしてラプラシアン行列を用いた経験的証拠によって支持された自然的正当性を示すとともに、市場指数係数に関連する意味のある物理的解釈と株式間の条件的相関にラプラシアン制約がどのように結合されているかを示す直接的なリンクを確立する。 これらの解釈は、金融市場でグラフを見積もる際に実践者が気付くべきガイドラインのセットにつながります。 さらに,重みやモジュラリティといった財務データに固有の特徴を考慮に入れた,非方向の重み付きグラフを学習するための乗算器の交互方向法に基づく数値アルゴリズムを設計する。 本稿では,学習グラフを,株価時系列クラスタリングや外国為替ネットワーク推定といった実用的なシナリオに活用する方法を示す。 提案するグラフ学習アルゴリズムは,実演実験において最先端手法を上回っている。 さらに,提案アルゴリズムの理論的および経験的収束結果を得た。 金融市場におけるグラフ学習のための開発手法とともに,fingraphと呼ばれるrパッケージをリリースし,そのコードとデータを改良して,すべての実験結果を得る。

In the past two decades, the field of applied finance has tremendously benefited from graph theory. As a result, novel methods ranging from asset network estimation to hierarchical asset selection and portfolio allocation are now part of practitioners' toolboxes. In this paper, we investigate the fundamental problem of learning undirected graphical models under Laplacian structural constraints from the point of view of financial market times series data. In particular, we present natural justifications, supported by empirical evidence, for the usage of the Laplacian matrix as a model for the precision matrix of financial assets, while also establishing a direct link that reveals how Laplacian constraints are coupled to meaningful physical interpretations related to the market index factor and to conditional correlations between stocks. Those interpretations lead to a set of guidelines that practitioners should be aware of when estimating graphs in financial markets. In addition, we design numerical algorithms based on the alternating direction method of multipliers to learn undirected, weighted graphs that take into account stylized facts that are intrinsic to financial data such as heavy tails and modularity. We illustrate how to leverage the learned graphs into practical scenarios such as stock time series clustering and foreign exchange network estimation. The proposed graph learning algorithms outperform the state-of-the-art methods in an extensive set of practical experiments. Furthermore, we obtain theoretical and empirical convergence results for the proposed algorithms. Along with the developed methodologies for graph learning in financial markets, we release an R package, called fingraph, accommodating the code and data to obtain all the experimental results.
翻訳日:2021-04-18 03:55:06 公開日:2020-12-31
# (参考訳) 生体領域におけるトランスフォーマー言語モデルの実験的評価 [全文訳有]

An Experimental Evaluation of Transformer-based Language Models in the Biomedical Domain ( http://arxiv.org/abs/2012.15419v1 )

ライセンス: CC BY 4.0
Paul Grouchy, Shobhit Jain, Michael Liu, Kuhan Wang, Max Tian, Nidhi Arora, Hillary Ngai, Faiza Khan Khattak, Elham Dolatabadi, Sedef Akinli Kocak(参考訳) 健康データにおけるテキスト量の増大に伴い、タスク固有の修正を最小限に抑えた幅広いバイオメディカルタスクに適用可能な、大規模事前訓練モデルの急速な進歩があった。 本稿では,BioBERTの複製実験と,バイオメディカル領域における事前学習および注意深い微調整実験をまとめた。 また、下流バイオメディカルNLPタスクにおけるドメイン固有およびドメイン非依存の事前訓練モデルの有効性について検討した。 バイオメディカル領域のNLPタスク(QA,NER)において,事前学習モデルが影響があることが確認されたが,この改善はドメイン固有の事前学習の高コストを正当化するものではない。

With the growing amount of text in health data, there have been rapid advances in large pre-trained models that can be applied to a wide variety of biomedical tasks with minimal task-specific modifications. Emphasizing the cost of these models, which renders technical replication challenging, this paper summarizes experiments conducted in replicating BioBERT and further pre-training and careful fine-tuning in the biomedical domain. We also investigate the effectiveness of domain-specific and domain-agnostic pre-trained models across downstream biomedical NLP tasks. Our finding confirms that pre-trained models can be impactful in some downstream NLP tasks (QA and NER) in the biomedical domain; however, this improvement may not justify the high cost of domain-specific pre-training.
翻訳日:2021-04-18 03:53:33 公開日:2020-12-31
# (参考訳) jsrealb text realizer: 組織とユースケース [全文訳有]

The jsRealB Text Realizer: Organization and Use Cases ( http://arxiv.org/abs/2012.15425v1 )

ライセンス: CC BY 4.0
Guy Lapalme(参考訳) 本稿では,jsRealBの設計原理について述べる。jsRealBはJavaScriptで書かれ,構文形式にインスパイアされた仕様から英語やフランス語の文を記述した表面ファインダである。 これはwebページ内またはnode .jsモジュールとして使用することができる。 テキスト実現の一見単純なプロセスは,各言語の具体性を考慮する上で,興味深い実装課題を数多く抱えていることを示す。 jsRealBは英語とフランス語を幅広くカバーしており、現実的なデータ・テキスト・アプリケーションの開発や、Universal Dependencyアノテーションによる既存の文文や文の再生に使われている。 ソースコードとアプリケーションのソースコードはgithubで公開されている。

This paper describes the design principles behind jsRealB, a surface realizer written in JavaScript for English or French sentences from a specification inspired by the constituent syntax formalism. It can be used either within a web page or as a node .js module. We show that the seemingly simple process of text realization involves many interesting implementation challenges in order to take into account the specifics of each language. jsRealB has a large coverage of English and French and has been used to develop realistic data-to-text applications and to reproduce existing literary texts and sentences with Universal Dependency annotations. Its source code and that of its applications are available on GitHub.
翻訳日:2021-04-18 03:42:50 公開日:2020-12-31
# (参考訳) 学習セグメント単位を用いたテキスト自由音声合成 [全文訳有]

Text-Free Image-to-Speech Synthesis Using Learned Segmental Units ( http://arxiv.org/abs/2012.15454v1 )

ライセンス: CC BY 4.0
Wei-Ning Hsu, David Harwath, Christopher Song, James Glass(参考訳) 本稿では,自然言語テキストを中間表現や監督源として必要としない画像に対して,自然音声音声キャプションを直接合成する最初のモデルを提案する。 代わりに、画像キャプションモジュールと音声合成モジュールを、自己教師ありの視覚グランド化タスクで検出される離散的なサブワード音声ユニットの集合と接続する。 flickr8k音声キャプションデータセットについて実験を行い,人気のあるmscocoデータセット用に収集した音声キャプションのコーパスを用いて,そのキャプションが表現した画像の多様な視覚的意味を捉えていることを示す。 そこで本研究では,テキストのドロップイン置換として機能するためには,複数の重要な特性を満たす必要があることを実証的に確認する。

In this paper we present the first model for directly synthesizing fluent, natural-sounding spoken audio captions for images that does not require natural language text as an intermediate representation or source of supervision. Instead, we connect the image captioning module and the speech synthesis module with a set of discrete, sub-word speech units that are discovered with a self-supervised visual grounding task. We conduct experiments on the Flickr8k spoken caption dataset in addition to a novel corpus of spoken audio captions collected for the popular MSCOCO dataset, demonstrating that our generated captions also capture diverse visual semantics of the images they describe. We investigate several different intermediate speech representations, and empirically find that the representation must satisfy several important properties to serve as drop-in replacements for text.
翻訳日:2021-04-18 03:24:26 公開日:2020-12-31
# (参考訳) ランダム初期化を伴うリーマン勾配降下による低ランク行列回復のための高速大域収束

Fast Global Convergence for Low-rank Matrix Recovery via Riemannian Gradient Descent with Random Initialization ( http://arxiv.org/abs/2012.15467v1 )

ライセンス: CC BY 4.0
Thomas Y. Hou, Zhenzhen Li, Ziyun Zhang(参考訳) 本稿では,リーマン多様体上の低ランク行列回復問題のクラスに対する新しい大域的解析フレームワークを提案する。 ランダム初期化を用いたリーマン最適化の大域的挙動を解析する。 最小二乗損失関数を最小化するためにリーマン勾配降下アルゴリズムを使用し、漸近的挙動と正確な収束率について研究する。 低ランク行列多様体の以前は未知の幾何学的性質を明らかにし、これは多様体上の単純最小二乗函数に対する急激な臨界点の存在である。 いくつかの仮定の下では、確率の高い確率のランダムな初期化から始まるリーマン勾配降下はこれらの急激な臨界点を回避し、ほとんど線形収束率で基底真理に収束する。 $\mathcal{o}(\text{log}(\frac{1}{\epsilon})+ \text{log}(n))$ で$\epsilon$-accurate 解に到達する。 グローバル分析の例として2つのアプリケーションを使用します。 1つ目は rank-1 matrix recovery problem である。 2つ目はガウス位相探索問題である。 第二の例は弱等長性のみを満たすが、余分な鞍集合を除いて第一のものと類似した挙動を持つ。 我々の収束保証は、ほぼ最適であり、ほぼ次元のないものである。 大域解析は、ランダムな測定構造と経験的最小二乗損失関数を持つ他のデータ問題にも拡張できる。

In this paper, we propose a new global analysis framework for a class of low-rank matrix recovery problems on the Riemannian manifold. We analyze the global behavior for the Riemannian optimization with random initialization. We use the Riemannian gradient descent algorithm to minimize a least squares loss function, and study the asymptotic behavior as well as the exact convergence rate. We reveal a previously unknown geometric property of the low-rank matrix manifold, which is the existence of spurious critical points for the simple least squares function on the manifold. We show that under some assumptions, the Riemannian gradient descent starting from a random initialization with high probability avoids these spurious critical points and only converges to the ground truth in nearly linear convergence rate, i.e. $\mathcal{O}(\text{log}(\frac{1}{\epsilon})+ \text{log}(n))$ iterations to reach an $\epsilon$-accurate solution. We use two applications as examples for our global analysis. The first one is a rank-1 matrix recovery problem. The second one is the Gaussian phase retrieval problem. The second example only satisfies the weak isometry property, but has behavior similar to that of the first one except for an extra saddle set. Our convergence guarantee is nearly optimal and almost dimension-free, which fully explains the numerical observations. The global analysis can be potentially extended to other data problems with random measurement structures and empirical least squares loss functions.
翻訳日:2021-04-18 02:57:13 公開日:2020-12-31
# (参考訳) 見ればわかる! 知識グラフ埋め込みを用いたファクトベースビジュアル質問応答 [全文訳有]

Seeing is Knowing! Fact-based Visual Question Answering using Knowledge Graph Embeddings ( http://arxiv.org/abs/2012.15484v1 )

ライセンス: CC BY-SA 4.0
Kiran Ramnath and Mark Hasegawa-Johnson(参考訳) VQAの難解な変種であるFact-based Visual Question Answering (FVQA)は、QAシステムに様々な知識グラフ(KG)の事実を推論プロセスに含め、答えを生成する必要がある。 大きなKG、特に常識的なKGは不完全であることが知られている。 存在しない事実はいつも間違っているわけではない。 したがって、QAに対して不完全なKGを推論できることは、文献で広く扱われていない実世界のアプリケーションにおいて重要な要件である。 我々は、FVQAの下流タスクに広く使われているKG Embeddings(KG Embeddings)を用いて、現在のFVQAステート・オブ・ザ・アーティファクト(SOTA)アプローチの欠如である不完全なKGを推論できる新しいQAアーキテクチャを開発した。 また,この機能を実現するために,新たな画像表現手法「Image-as-Knowledge」を,QA中にテキストや画像に出席するための単純な1ステップのコアテンション機構と併用する。 我々のFVQAアーキテクチャは、O(N logN)である既存のFVQA SOTAメソッドとは対照的に、推論時間においてより高速で、mは頂点の数、Nはエッジの数(O(m^2))である。 我々のアーキテクチャは,既存の手法と標準的な解検索ベースラインで相容れない性能を保ちながら,我々のKG表現はSOTA表現を25%上回り,画像表現はSOTA表現を2.6%上回ります。

Fact-based Visual Question Answering (FVQA), a challenging variant of VQA, requires a QA-system to include facts from a diverse knowledge graph (KG) in its reasoning process to produce an answer. Large KGs, especially common-sense KGs, are known to be incomplete, i.e. not all non-existent facts are always incorrect. Therefore, being able to reason over incomplete KGs for QA is a critical requirement in real-world applications that has not been addressed extensively in the literature. We develop a novel QA architecture that allows us to reason over incomplete KGs, something current FVQA state-of-the-art (SOTA) approaches lack.We use KG Embeddings, a technique widely used for KG completion, for the downstream task of FVQA. We also employ a new image representation technique we call "Image-as-Knowledge&q uot; to enable this capability, alongside a simple one-step co-Attention mechanism to attend to text and image during QA. Our FVQA architecture is faster during inference time, being O(m), as opposed to existing FVQA SOTA methods which are O(N logN), where m is number of vertices, N is number of edges (which is O(m^2)). We observe that our architecture performs comparably in the standard answer-retrieval baseline with existing methods; while for missing-edge reasoning, our KG representation outperforms the SOTA representation by 25%, and image representation outperforms the SOTA representation by 2.6%.
翻訳日:2021-04-18 02:56:08 公開日:2020-12-31
# (参考訳) ゼロショット翻訳によるインクリメンタル埋め込み学習 [全文訳有]

Incremental Embedding Learning via Zero-Shot Translation ( http://arxiv.org/abs/2012.15497v1 )

ライセンス: CC BY 4.0
Kun Wei, Cheng Deng, Xu Yang, and Maosen Li(参考訳) 現代のディープラーニング手法は、事前に定義されたデータセットの集合を学習することで、機械学習とコンピュータビジョンの分野で大きな成功を収めている。 いずれにせよ、現実の状況に適用された場合、これらの手法は不満足に機能する。 この現象の理由は、新しいタスクを学ぶことで、訓練されたモデルが古いタスクの知識をすぐに忘れてしまうためである。 現在最先端の漸進的な学習手法は、従来の分類ネットワークにおける破滅的な忘れ問題に対処し、画像検索、顔認識、ゼロショット学習などの基本的なネットワークである埋め込みネットワークに存在する問題を無視している。 従来のインクリメンタルな分類ネットワークとは異なり、隣接する2つのタスクの埋め込み空間間の意味的ギャップは、インクリメンタルな学習環境下でのネットワーク埋め込みの主な課題である。 そこで本研究では,ゼロショット変換を応用したゼロショット変換クラス増分法(ZSTCI)と呼ばれる,ネットワークを埋め込む新たなクラス増分法を提案する。 そこで,2つの隣接タスクの統一表現を逐次学習プロセスで学習し,従来のクラスと現在のクラスの関係を正確に把握する。 さらに、ZSTCIを既存の正規化ベースのインクリメンタル学習手法と組み合わせることで、組み込みネットワークの性能をより向上させることができる。 CUB-200-2011 と CIFAR100 について広範な実験を行い,本手法の有効性を実証した。 私たちのメソッドのコードはリリースされました。

Modern deep learning methods have achieved great success in machine learning and computer vision fields by learning a set of pre-defined datasets. Howerver, these methods perform unsatisfactorily when applied into real-world situations. The reason of this phenomenon is that learning new tasks leads the trained model quickly forget the knowledge of old tasks, which is referred to as catastrophic forgetting. Current state-of-the-art incremental learning methods tackle catastrophic forgetting problem in traditional classification networks and ignore the problem existing in embedding networks, which are the basic networks for image retrieval, face recognition, zero-shot learning, etc. Different from traditional incremental classification networks, the semantic gap between the embedding spaces of two adjacent tasks is the main challenge for embedding networks under incremental learning setting. Thus, we propose a novel class-incremental method for embedding network, named as zero-shot translation class-incremental method (ZSTCI), which leverages zero-shot translation to estimate and compensate the semantic gap without any exemplars. Then, we try to learn a unified representation for two adjacent tasks in sequential learning process, which captures the relationships of previous classes and current classes precisely. In addition, ZSTCI can easily be combined with existing regularization-based incremental learning methods to further improve performance of embedding networks. We conduct extensive experiments on CUB-200-2011 and CIFAR100, and the experiment results prove the effectiveness of our method. The code of our method has been released.
翻訳日:2021-04-18 02:41:08 公開日:2020-12-31
# (参考訳) タスク指向対話システムにおける連続学習 [全文訳有]

Continual Learning in Task-Oriented Dialogue Systems ( http://arxiv.org/abs/2012.15504v1 )

ライセンス: CC BY 4.0
Andrea Madotto, Zhaojiang Lin, Zhenpeng Zhou, Seungwhan Moon, Paul Crook, Bing Liu, Zhou Yu, Eunjoon Cho, Zhiguang Wang(参考訳) タスク指向対話システムにおける継続的な学習は、システム全体のリトレーニングのコストを伴わずに、時間を通じて新しいドメインや機能を追加できる。 本稿では,37ドメインのタスク指向対話システムに対して,意図認識,状態追跡,自然言語生成,エンドツーエンドの4つの設定で連続的に学習するための連続学習ベンチマークを提案する。 さらに,既存の学習ベースラインを複数実装・比較し,残差アダプタをベースとした簡易かつ効果的なアーキテクチャ手法を提案する。 提案手法と簡単なリプレイ型戦略は相容れない性能を示したが、同時に全てのデータが同時に表示されるマルチタスク学習ベースラインに劣る性能を達成し、タスク指向対話システムにおける連続学習が課題であることを示す。 さらに,タスク指向対話システムの設計において重要なパラメータ使用量とメモリサイズの観点から,複数の連続学習手法のトレードオフを明らかにした。 提案されたベンチマークは、この方向のさらなる研究を促進するために、いくつかのベースラインと共にリリースされている。

Continual learning in task-oriented dialogue systems can allow us to add new domains and functionalities through time without incurring the high cost of a whole system retraining. In this paper, we propose a continual learning benchmark for task-oriented dialogue systems with 37 domains to be learned continuously in four settings, such as intent recognition, state tracking, natural language generation, and end-to-end. Moreover, we implement and compare multiple existing continual learning baselines, and we propose a simple yet effective architectural method based on residual adapters. Our experiments demonstrate that the proposed architectural method and a simple replay-based strategy perform comparably well but they both achieve inferior performance to the multi-task learning baseline, in where all the data are shown at once, showing that continual learning in task-oriented dialogue systems is a challenging task. Furthermore, we reveal several trade-offs between different continual learning methods in term of parameter usage and memory size, which are important in the design of a task-oriented dialogue system. The proposed benchmark is released together with several baselines to promote more research in this direction.
翻訳日:2021-04-18 02:27:57 公開日:2020-12-31
# (参考訳) 機械学習におけるフレキシブルモデル構成とMLJにおける実装 [全文訳有]

Flexible model composition in machine learning and its implementation in MLJ ( http://arxiv.org/abs/2012.15505v1 )

ライセンス: CC BY 4.0
Anthony D. Blaom and Sebastian J. Vollmer(参考訳) 様々な機械学習モデルをメタモデルに結合する「学習ネットワーク」と呼ばれるグラフベースのプロトコルについて述べる。 学習ネットワークは、支配的な機械学習プラットフォームで実装されているモデル構成のいくつかの制限を克服している。 プロトコルを簡単な例で説明した後、MLJフレームワークで実装された学習ネットワークを特定するための簡潔な構文を示す。 この構文を用いて、学習ネットワークはWolpertのモデルスタックを組み込むのに十分な柔軟性を持ち、ベース学習者に対してサンプル外予測を行う。

A graph-based protocol called `learning networks' which combine assorted machine learning models into meta-models is described. Learning networks are shown to overcome several limitations of model composition as implemented in the dominant machine learning platforms. After illustrating the protocol in simple examples, a concise syntax for specifying a learning network, implemented in the MLJ framework, is presented. Using the syntax, it is shown that learning networks are are sufficiently flexible to include Wolpert's model stacking, with out-of-sample predictions for the base learners.
翻訳日:2021-04-18 02:11:49 公開日:2020-12-31
# (参考訳) Neural Machine Translation: メソッド、リソース、ツールのレビュー [全文訳有]

Neural Machine Translation: A Review of Methods, Resources, and Tools ( http://arxiv.org/abs/2012.15515v1 )

ライセンス: CC BY 4.0
Zhixing Tan, Shuo Wang, Zonghan Yang, Gang Chen, Xuancheng Huang, Maosong Sun, Yang Liu(参考訳) 機械翻訳 (mt) は自然言語処理の重要な分野であり、自然言語をコンピュータで翻訳することを目的としている。 近年、エンドツーエンドのニューラルネットワーク翻訳(NMT)は大きな成功を収め、実用的なMTシステムにおいて新しい主流の手法となっている。 本稿では,まずnmtの手法の広範なレビューを行い,アーキテクチャ,デコード,データ拡張に関する手法に注目する。 次に,研究者にとって有用なリソースとツールを要約する。 最後に,今後の研究の方向性について論じる。

Machine translation (MT) is an important sub-field of natural language processing that aims to translate natural languages using computers. In recent years, end-to-end neural machine translation (NMT) has achieved great success and has become the new mainstream method in practical MT systems. In this article, we first provide a broad review of the methods for NMT and focus on methods relating to architectures, decoding, and data augmentation. Then we summarize the resources and tools that are useful for researchers. Finally, we conclude with a discussion of possible future research directions.
翻訳日:2021-04-18 02:00:27 公開日:2020-12-31
# (参考訳) 大腸内視鏡ポリープ検出:医療報告画像からリアルタイムビデオへのドメイン適応 [全文訳有]

Colonoscopy Polyp Detection: Domain Adaptation From Medical Report Images to Real-time Videos ( http://arxiv.org/abs/2012.15531v1 )

ライセンス: CC BY 4.0
Zhi-Qin Zhan, Huazhu Fu, Yan-Yao Yang, Jingjing Chen, Jie Liu, and Yu-Gang Jiang(参考訳) 大腸内視鏡ビデオにおける大腸ポリープの自動検出は重要な課題であり,注目されている。 大規模ビデオデータセットに手動でアノテートするポリプ領域は、時間と費用がかかり、ディープラーニング技術の開発が制限される。 妥協は、ラベル付き画像を使用してターゲットモデルを訓練し、大腸内視鏡ビデオで推論することである。 しかし、画像ベーストレーニングとビデオベース推論の間には、ドメイン差、陽性サンプルの欠如、時間的滑らかさなど、いくつかの問題がある。 そこで本稿では,過去の医療報告から大腸内視鏡画像とリアルタイムビデオとの領域ギャップに対処するため,ivy-net (image-video-joint polyp detection network) を提案する。 Ivy-Netでは,画素レベルの正のイメージと負の映像フレームを組み合わせて,ドメイン適応表現を学習し,正のサンプルを増強することにより,学習データを生成する。 同時に時間的コヒーレンス正則化 (TCR) を提案し, 隣接するフレームにおける特徴レベルのスムーズな制約を導入し, ラベル付き大腸内視鏡ビデオによるポリープ検出を改善する。 評価のために、新しい大腸内視鏡ポリープデータセットが収集され、889人の陽性患者の過去の医療報告と69人の7.5時間ビデオ(28の陽性)から3056枚の画像が得られた。 収集したデータセットの実験は、Ivy-Netが大腸内視鏡ビデオで最先端の結果を得ることを示した。

Automatic colorectal polyp detection in colonoscopy video is a fundamental task, which has received a lot of attention. Manually annotating polyp region in a large scale video dataset is time-consuming and expensive, which limits the development of deep learning techniques. A compromise is to train the target model by using labeled images and infer on colonoscopy videos. However, there are several issues between the image-based training and video-based inference, including domain differences, lack of positive samples, and temporal smoothness. To address these issues, we propose an Image-video-joint polyp detection network (Ivy-Net) to address the domain gap between colonoscopy images from historical medical reports and real-time videos. In our Ivy-Net, a modified mixup is utilized to generate training data by combining the positive images and negative video frames at the pixel level, which could learn the domain adaptive representations and augment the positive samples. Simultaneously, a temporal coherence regularization (TCR) is proposed to introduce the smooth constraint on feature-level in adjacent frames and improve polyp detection by unlabeled colonoscopy videos. For evaluation, a new large colonoscopy polyp dataset is collected, which contains 3056 images from historical medical reports of 889 positive patients and 7.5-hour videos of 69 patients (28 positive). The experiments on the collected dataset demonstrate that our Ivy-Net achieves the state-of-the-art result on colonoscopy video.
翻訳日:2021-04-18 01:19:37 公開日:2020-12-31
# (参考訳) HopRetriever:ウィキペディアを検索して複雑な質問に答える [全文訳有]

HopRetriever: Retrieve Hops over Wikipedia to Answer Complex Questions ( http://arxiv.org/abs/2012.15534v1 )

ライセンス: CC BY 4.0
Shaobo Li, Xiaoguang Li, Lifeng Shang, Xin Jiang, Qun Liu, Chengjie Sun, Zhenzhou Ji, Bingquan Liu(参考訳) 大量のテキストコーパス(例えばWikipedia)から証拠を収集することは、オープンドメイン質問回答(QA)にとって大きな課題である。 特に、マルチホップオープンドメインQAでは、回答抽出を支援するために散在するエビデンスピースをまとめる必要がある。 本稿では,ウィキペディアから複雑な質問応答のための隠れた推論証拠を収集する新たな検索対象であるホップを提案する。 具体的には、この論文のホップはハイパーリンクと対応するアウトバウンドリンクドキュメントの組み合わせとして定義される。 ハイパーリンクは、テキストコンテキストにおけるアウトバウンドリンクエンティティの言及方法に関する構造化知識をモデル化した参照埋め込みとして符号化され、対応するアウトバウンドリンクドキュメントは、その内部の非構造化知識を表すドキュメント埋め込みとして符号化される。 そこで私たちは、ウィキペディア上のホップを検索して複雑な質問に答えるHopRetrieverを構築しました。 HotpotQAデータセットの実験は、HopRetrieverが以前公表した証拠検索方法よりも大きなマージンで優れていることを示した。 さらに,本手法は証拠収集過程の定量的解釈ももたらしている。

Collecting supporting evidence from large corpora of text (e.g., Wikipedia) is of great challenge for open-domain Question Answering (QA). Especially, for multi-hop open-domain QA, scattered evidence pieces are required to be gathered together to support the answer extraction. In this paper, we propose a new retrieval target, hop, to collect the hidden reasoning evidence from Wikipedia for complex question answering. Specifically, the hop in this paper is defined as the combination of a hyperlink and the corresponding outbound link document. The hyperlink is encoded as the mention embedding which models the structured knowledge of how the outbound link entity is mentioned in the textual context, and the corresponding outbound link document is encoded as the document embedding representing the unstructured knowledge within it. Accordingly, we build HopRetriever which retrieves hops over Wikipedia to answer complex questions. Experiments on the HotpotQA dataset demonstrate that HopRetriever outperforms previously published evidence retrieval methods by large margins. Moreover, our approach also yields quantifiable interpretations of the evidence collection process.
翻訳日:2021-04-18 01:11:33 公開日:2020-12-31
# (参考訳) 優れた構造を持つ深部網膜画像品質評価ネットワーク [全文訳有]

A Deep Retinal Image Quality Assessment Network with Salient Structure Priors ( http://arxiv.org/abs/2012.15575v1 )

ライセンス: CC BY 4.0
Ziwen Xu, beiji Zou, Qing Liu(参考訳) 網膜画像品質評価は網膜疾患の診断に必須の前提条件である。 その目的は、眼科医の注意を惹きつける解剖学的構造と病変が、品質の悪い眼底像を拒絶しながら、明確かつ確実に示される網膜像を特定することである。 そこで我々は,眼科医が網膜画像の品質を評価する方法を模倣し,SalStructuIQAという手法を提案する。 まず、自動網膜品質評価のための2つの健全な構造。 一つは、光学ディスク領域を含む大型のサルエント構造であり、大きな大きさのエウエートである。 もう1つは、主に船を含む小型のサルエント構造である。 次に,提案する2つのsalient構造をdeep convolutional neural network (cnn) と統合し,cnnの焦点をsalient構造にシフトさせる。 そこで我々はDual-branch SalStructIQAとSalStructIQAの2つのCNNアーキテクチャを開発した。 デュアルブランチSalStructIQAは2つのCNN枝を含み、1つは大きなサリアン構造でガイドされ、もう1つは小さなサリアン構造でガイドされている。 単枝のSalStructIQAは1つのCNN分岐を含み、大型と小型の両方で塩分構造の結合によって誘導される。 その結果,提案したDual-branch SalStructIQAは網膜画像品質評価の最先端手法よりも優れており,シングルブランチ SalStructIQA は最先端の深部網膜画像品質評価手法と比較して非常に軽量であり,競争性能も高いことがわかった。

Retinal image quality assessment is an essential prerequisite for diagnosis of retinal diseases. Its goal is to identify retinal images in which anatomic structures and lesions attracting ophthalmologists 7; attention most are exhibited clearly and definitely while reject poor quality fundus images. Motivated by this, we mimic the way that ophthalmologists assess the quality of retinal images and propose a method termed SalStructuIQA. First, two salient structures for automated retinal quality assessment. One is the large-size salient structures including optic disc region and exudates in large-size. The other is the tiny-size salient structures which mainly include vessels. Then we incorporate the proposed two salient structure priors with deep convolutional neural network (CNN) to shift the focus of CNN to salient structures. Accordingly, we develop two CNN architectures: Dual-branch SalStructIQA and Single-branch SalStructIQA. Dual-branch SalStructIQA contains two CNN branches and one is guided by large-size salient structures while the other is guided by tiny-size salient structures. Single-branch SalStructIQA contains one CNN branch, which is guided by the concatenation of salient structures in both large-size and tiny-size. Experimental results on Eye-Quality dataset show that our proposed Dual-branch SalStructIQA outperforms the state-of-the-art methods for retinal image quality assessment and Single-branch SalStructIQA is much light-weight comparing with state-of-the-art deep retinal image quality assessment methods and still achieves competitive performances.
翻訳日:2021-04-18 00:53:24 公開日:2020-12-31
# (参考訳) PFL-MoE:専門家の混合に基づく個人化フェデレーション学習 [全文訳有]

PFL-MoE: Personalized Federated Learning Based on Mixture of Experts ( http://arxiv.org/abs/2012.15589v1 )

ライセンス: CC BY 4.0
Binbin Guo, Yuan Mei, Danyang Xiao, Weigang Wu, Ye Yin, Hongli Chang(参考訳) Federated Learning(FL)は、トレーニングノード間のデータ共有を回避し、データのプライバシを保護する、新興の分散機械学習パラダイムである。 FLサーバの調整の下で、各クライアントは独自のコンピューティングリソースとプライベートデータセットを使用してモデルトレーニングを行う。 グローバルモデルは、クライアントのトレーニング結果を集約することで作成できる。 高度に非IIDなデータ配信に対処するため、パーソナライズされたフェデレーション学習(PFL)が提案され、各クライアントがパーソナライズされたモデルを学ぶことで全体的なパフォーマンスを向上させる。 しかし、パーソナライズされたモデルの大きな欠点は一般化の喪失である。 一般化を維持しながらモデルパーソナライズを実現するため,本論文ではパーソナライズされたモデルとグローバルモデルの出力をMoEアーキテクチャを介して混合するPFL-MoEという新しいアプローチを提案する。 PFL-MoEは汎用的なアプローチであり、既存のPFLアルゴリズムを統合することでインスタンス化することができる。 特に,凍結ベースPFLアルゴリズムに基づくPFL-MoEの例であるPFL-MFアルゴリズムを提案する。 我々は、MoEゲーティングネットワークの意思決定能力を高め、PFL-MFEをさらに改善し、変種アルゴリズムPFL-MFEを提案する。 非IIDパーティションを持つFashion-MNISTおよびCIFAR-10データセット上で,LeNet-5およびVGG-16モデルのトレーニングによりPFL-MoEの有効性を示す。

Federated learning (FL) is an emerging distributed machine learning paradigm that avoids data sharing among training nodes so as to protect data privacy. Under coordination of the FL server, each client conducts model training using its own computing resource and private data set. The global model can be created by aggregating the training results of clients. To cope with highly non-IID data distributions, personalized federated learning (PFL) has been proposed to improve overall performance by allowing each client to learn a personalized model. However, one major drawback of a personalized model is the loss of generalization. To achieve model personalization while maintaining generalization, in this paper, we propose a new approach, named PFL-MoE, which mixes outputs of the personalized model and global model via the MoE architecture. PFL-MoE is a generic approach and can be instantiated by integrating existing PFL algorithms. Particularly, we propose the PFL-MF algorithm which is an instance of PFL-MoE based on the freeze-base PFL algorithm. We further improve PFL-MF by enhancing the decision-making ability of MoE gating network and propose a variant algorithm PFL-MFE. We demonstrate the effectiveness of PFL-MoE by training the LeNet-5 and VGG-16 models on the Fashion-MNIST and CIFAR-10 datasets with non-IID partitions.
翻訳日:2021-04-18 00:33:42 公開日:2020-12-31
# (参考訳) HateCheck: ヘイト音声検出モデルのための機能テスト [全文訳有]

HateCheck: Functional Tests for Hate Speech Detection Models ( http://arxiv.org/abs/2012.15606v1 )

ライセンス: CC BY 4.0
Paul R\"ottger, Bertram Vidgen, Dong Nguyen, Zeerak Waseem, Helen Margetts, Janet Pierrehumbert(参考訳) オンライン憎しみを検出することは、最先端のモデルでさえ苦労する難しい課題だ。 前回の研究では、ヘイトスピーチ検出モデルは、精度やf1スコアなどの指標を用いて保持テストデータのパフォーマンスを測定することで評価される。 しかし、このアプローチは特定のモデルの弱点を特定するのを難しくする。 また、ヘイトスピーチデータセットの体系的なギャップやバイアスが高まり、一般化可能なモデル品質を過大評価するリスクもある。 そこで我々は,ヘイトスピーチ検出モデルのための機能テストスイートであるhatcheckを紹介する。 これまでの研究や市民社会の利害関係者との一連のインタビューを通じて、29のモデル機能を特定し、その選択をモチベーションとした。 各機能のテストケースを作成し、構造化アノテーションプロセスを通じてデータ品質を検証する。 HateCheckの実用性を説明するために、我々は最先端のトランスフォーマー検出モデルと一般的な商用モデルをテストする。

Detecting online hate is a difficult task that even state-of-the-art models struggle with. In previous research, hate speech detection models are typically evaluated by measuring their performance on held-out test data using metrics such as accuracy and F1 score. However, this approach makes it difficult to identify specific model weak points. It also risks overestimating generalisable model quality due to increasingly well-evidenced systematic gaps and biases in hate speech datasets. To enable more targeted diagnostic insights, we introduce HateCheck, a first suite of functional tests for hate speech detection models. We specify 29 model functionalities, the selection of which we motivate by reviewing previous research and through a series of interviews with civil society stakeholders. We craft test cases for each functionality and validate data quality through a structured annotation process. To illustrate HateCheck's utility, we test near-state-of-the-ar t transformer detection models as well as a popular commercial model, revealing critical model weaknesses.
翻訳日:2021-04-18 00:14:19 公開日:2020-12-31
# (参考訳) open korea corpora: a practical report [全文訳有]

Open Korean Corpora: A Practical Report ( http://arxiv.org/abs/2012.15621v1 )

ライセンス: CC BY 4.0
Won Ik Cho, Sangwhan Moon, Youngsook Song(参考訳) 韓国語はしばしば研究コミュニティで低リソース言語と呼ばれる。 この主張は部分的には正しいが、リソースの入手が不十分で、キュレートされているためでもある。 この研究は韓国のコーパスのリストをキュレートしレビューし、まずは機関レベルのリソース開発について記述し、その後、さまざまなタスクに対する現在のオープンデータセットのリストを反復する。 次に、研究を促進するために、少ないリソース言語でどのようにオープンソースのデータセットの構築とリリースを行うべきかという方向性を提案する。

Korean is often referred to as a low-resource language in the research community. While this claim is partially true, it is also because the availability of resources is inadequately advertised and curated. This work curates and reviews a list of Korean corpora, first describing institution-level resource development, then further iterate through a list of current open datasets for different types of tasks. We then propose a direction on how open-source dataset construction and releases should be done for less-resourced languages to promote research.
翻訳日:2021-04-17 23:47:08 公開日:2020-12-31
# (参考訳) オーディオゲシュタルトによるメディアの記憶可能性予測 [全文訳有]

Leveraging Audio Gestalt to Predict Media Memorability ( http://arxiv.org/abs/2012.15635v1 )

ライセンス: CC BY 4.0
Lorin Sweeney, Graham Healy, Alan F. Smeaton(参考訳) 記憶力は、空白に何をもたらすか、そして心の奥深くに何をもたらすかを決定する。 毎日のデジタルトレントを歩きながら、より意味のあるメディアコンテンツをキュレートする鍵だ。 MediaEval 2020の予測メディア記憶可能性タスクは、自動的にビデオ記憶可能性を予測するタスクを設定することで、メディア記憶可能性の問題に対処することを目的としている。 我々のアプローチは、視覚的、意味的、聴覚的特徴を組み合わせたマルチモーダル深層学習に基づくレイトフュージョンである。 音声ジェスチャーを用いて,音声のモダリティがビデオ全体の記憶可能性に与える影響を推定し,どの特徴の組み合わせがビデオの記憶可能性スコアを最もよく予測するかを知らせた。

Memorability determines what evanesces into emptiness, and what worms its way into the deepest furrows of our minds. It is the key to curating more meaningful media content as we wade through daily digital torrents. The Predicting Media Memorability task in MediaEval 2020 aims to address the question of media memorability by setting the task of automatically predicting video memorability. Our approach is a multimodal deep learning-based late fusion that combines visual, semantic, and auditory features. We used audio gestalt to estimate the influence of the audio modality on overall video memorability, and accordingly inform which combination of features would best predict a given video's memorability scores.
翻訳日:2021-04-17 23:36:18 公開日:2020-12-31
# (参考訳) Score-based Dueling Bandits を用いたトップk選択のための爆発的トランジトリシティ [全文訳有]

Exploiting Transitivity for Top-k Selection with Score-Based Dueling Bandits ( http://arxiv.org/abs/2012.15637v1 )

ライセンス: CC BY 4.0
Matthew Groves and Juergen Branke(参考訳) 得点情報を用いたデュエルバンディット問題において,トップkサブセット選択の問題を考える。 実世界のペアワイズランキング問題はしばしば高い推移性を示し、先行研究ではブラッドリー・テリー・ルース(英語版)(btl)やサーストーン(英語版)モデルのようなパラメトリックな選好モデルを用いてそのような推移性を利用するサンプリング手法が提案されている。 これまでこの研究は、サンプル結果が勝利/損失バイナリ応答であるケースに焦点を当ててきた。 本稿では、サーストン型モデルを提案し、サブセット選択のためのPairwise Optimal Computing Budget Allocation(POCBAm)を適用することで、サンプリング結果が定量的情報を含む選択問題に拡張し、このモデルを効率的なサンプル選択に活用する。 実験性能を標準的なPOCBAmや他の競合アルゴリズムと比較する。

We consider the problem of top-k subset selection in Dueling Bandit problems with score information. Real-world pairwise ranking problems often exhibit a high degree of transitivity and prior work has suggested sampling methods that exploit such transitivity through the use of parametric preference models like the Bradley-Terry-Luce (BTL) and Thurstone models. To date, this work has focused on cases where sample outcomes are win/loss binary responses. We extend this to selection problems where sampling results contain quantitative information by proposing a Thurstonian style model and adapting the Pairwise Optimal Computing Budget Allocation for subset selection (POCBAm) sampling method to exploit this model for efficient sample selection. We compare the empirical performance against standard POCBAm and other competing algorithms.
翻訳日:2021-04-17 23:30:28 公開日:2020-12-31
# (参考訳) 動的メディアの記憶力の調査 [全文訳有]

Investigating Memorability of Dynamic Media ( http://arxiv.org/abs/2012.15641v1 )

ライセンス: CC BY 4.0
Phuc H. Le-Khac and Ayush K. Rai and Graham Healy and Alan F. Smeaton and Noel E. O'Connor(参考訳) MediaEval'20の予測メディアメモリビリティタスクは、前年と比べていくつかの難しい側面がある。 本稿では,タスクのコア課題として,ビデオ中の高ダイナミックなコンテンツと限られたサイズのデータセットを識別し,これらの課題を克服するための方向性を提案する。

The Predicting Media Memorability task in MediaEval'20 has some challenging aspects compared to previous years. In this paper we identify the high-dynamic content in videos and dataset of limited size as the core challenges for the task, we propose directions to overcome some of these challenges and we present our initial result in these directions.
翻訳日:2021-04-17 23:11:25 公開日:2020-12-31
# (参考訳) CoCoLM: 複合コモンセンス強化言語モデル [全文訳有]

CoCoLM: COmplex COmmonsense Enhanced Language Model ( http://arxiv.org/abs/2012.15643v1 )

ライセンス: CC BY 4.0
Changlong Yu, Hongming Zhang, Yangqiu Song and Wilfred Ng(参考訳) 大規模事前学習型言語モデルは強力な知識表現能力を示している。 しかし、最近の研究では、これらの巨大モデルには豊富な単純な常識知識(例えば、鳥は飛ぶことができ、魚は泳ぐことができる)が含まれていることが示唆されている。 本稿では,複数の結果(例えば,'jim yells at bob'' と 'bob is upset'' の関係を識別する動詞中心の句)を伴う複雑なコモンセンス知識に苦慮することが多い。 既存の微調整アプローチとは異なり、特定のタスクに集中せず、CoCoLMという汎用言語モデルを提案する。 大規模成果性ナレッジグラフの注意深いトレーニングを通じて,事前学習した言語モデル(bert,robertaなど)に,結果間の複雑な共通性ナレッジをうまく教えることができた。 結果の正確な理解を必要とする複数のダウンストリームコモンセンスタスクの実験は、CoCoLMの有効性を示している。

Large-scale pre-trained language models have demonstrated strong knowledge representation ability. However, recent studies suggest that even though these giant models contains rich simple commonsense knowledge (e.g., bird can fly and fish can swim.), they often struggle with the complex commonsense knowledge that involves multiple eventualities (verb-centric phrases, e.g., identifying the relationship between ``Jim yells at Bob'' and ``Bob is upset'').To address this problem, in this paper, we propose to help pre-trained language models better incorporate complex commonsense knowledge. Different from existing fine-tuning approaches, we do not focus on a specific task and propose a general language model named CoCoLM. Through the careful training over a large-scale eventuality knowledge graphs ASER, we successfully teach pre-trained language models (i.e., BERT and RoBERTa) rich complex commonsense knowledge among eventualities. Experiments on multiple downstream commonsense tasks that requires the correct understanding of eventualities demonstrate the effectiveness of CoCoLM.
翻訳日:2021-04-17 23:05:28 公開日:2020-12-31
# (参考訳) モバイルアプリにおけるディープニューラルネットワーク回帰を用いた寄宿価格予測 [全文訳有]

Boarding House Renting Price Prediction Using Deep Neural Network Regression on Mobile Apps ( http://arxiv.org/abs/2101.02033v1 )

ライセンス: CC0 1.0
Malik Abdul Aziz, Fahmi Nurrahim, Prastyo Eko Susanto, Yurio Windiatmoko(参考訳) ボードハウスは最も重要な要件であり、特に市内から遠く離れた、出身地や自宅の場所に住む大学生にとって重要である。 しかし、現在私たちが目にしている問題は、ジャワ島から最高の教育機関の75%が来ていたインドネシアにおける研究場所の不均一な分布です。 そのため、寄宿家賃を求める学生は、希望するさまざまな側面を比較するのにより多くの努力が必要である。 オンライン調査はできるものの、希望する施設に1人ずつ注意を払うのに、より多くの労力が要る。 そこで我々は,学生のニーズに応じて,都市,地域,寄宿舎の種類,施設など,いくつかの変数を比較して価格を予測するモバイルアプリケーションを開発した。 そのため、学生は理想的な価格を簡単に見積もることができる。 本研究の結果から, 入居住宅の賃貸価格の予測には, 決定した変数と, ディープニューラルネットワーク回帰を用いた変数のモデル化が有効であることが示唆された。

Boarding house is the most important requirement, especially for college students who live far away from the city, place of his origin or house. However, the problem we see now is the uneven distribution of study places in Indonesia which 75% of the best top educational institutions come from the island of Java. So, students who are looking for boarding houses rent requires more effort in comparing the various aspects desired. They need to survey one by one to the boarding house they want, even though they can survey online, it still requires more effort to pay attention to the desired facilities one by one. Therefore, we then created an Mobile Application that can predict prices based on student needs by comparing several variables, namely city, area, type of boarding house, and facilities. So, students can easily estimate the ideal price. The results of this study prove that we have succeeded in predicting prices for boarding houses rent well based on the variables we have determined, and modeling that variables using Deep Neural Network Regression.
翻訳日:2021-04-17 22:50:22 公開日:2020-12-31
# (参考訳) MediaEval 2020におけるメディアの記憶可能性の予測: ビデオの記憶に残るものは何か? [全文訳有]

Overview of MediaEval 2020 Predicting Media Memorability Task: What Makes a Video Memorable? ( http://arxiv.org/abs/2012.15650v1 )

ライセンス: CC BY 4.0
Alba Garc\'ia Seco De Herrera and Rukiye Savran Kiziltepe and Jon Chamberlain and Mihai Gabriel Constantin and Claire-H\'el\`ene Demarty and Faiyaz Doctor and Bogdan Ionescu and Alan F. Smeaton(参考訳) 本稿では,MediaEval 2020 \textit{Predicting Media Memorability}タスクについて述べる。 MediaEval 2018で最初に提案された後、予測メディア記憶可能性(Predicting Media Memorability)タスクは今年第3版で、短期的および長期的ビデオ記憶可能性(VM)の予測は依然として難しい課題である。 2020年、以前の版と同じフォーマットのままとなった。 今年のビデオは、TRECVid 2019 Video-to-Textデータセットのサブセットであり、2019年のタスクと比較してアクションリッチなビデオコンテンツを含んでいる。 本稿では,本課題の諸側面について述べる。主な特徴,コレクションの記述,基礎的真実データセット,評価指標,参加者の実行要求などである。

This paper describes the MediaEval 2020 \textit{Predicting Media Memorability} task. After first being proposed at MediaEval 2018, the Predicting Media Memorability task is in its 3rd edition this year, as the prediction of short-term and long-term video memorability (VM) remains a challenging task. In 2020, the format remained the same as in previous editions. This year the videos are a subset of the TRECVid 2019 Video-to-Text dataset, containing more action rich video content as compared with the 2019 task. In this paper a description of some aspects of this task is provided, including its main characteristics, a description of the collection, the ground truth dataset, evaluation metrics and the requirements for participants' run submissions.
翻訳日:2021-04-17 22:43:40 公開日:2020-12-31
# (参考訳) Few-Shotクロスリンガル転送の詳細:変数、ベンチマーク、ベースライン [全文訳有]

A Closer Look at Few-Shot Crosslingual Transfer: Variance, Benchmarks and Baselines ( http://arxiv.org/abs/2012.15682v1 )

ライセンス: CC BY 4.0
Mengjie Zhao, Yi Zhu, Ehsan Shareghi, Roi Reichart, Anna Korhonen, Hinrich Sch\"utze(参考訳) 事前訓練された多言語エンコーダは、まず高リソース言語(典型的には英語)の多くのアノテーションに微調整され、次にターゲット言語のいくつかのアノテーション(‘few shots’')に微調整される。 ゼロショット転送よりも大幅に改善されている。 しかし,本手法は本質的に大きなばらつきを有しており,安定な結果を得るためには複数組のショットの結果を報告し,異なるアルゴリズムの公平な比較を保証する必要がある。 この問題に対処するため、我々は少数セットを公開します。 少数ショット学習がゼロショット転送より優れている理由を調べたところ、数枚のショットを微調整すると、大きなモデルは語彙的ヒントに大きく依存することがわかった。 少数ショットアノテーションを使用する異なるメソッドを評価するが、ベースラインに対する大幅な改善は見つからない。 これにより、マイナショットアノテーションを利用するより良い方法が求められます。

We present a focused study of few-shot crosslingual transfer, a recently proposed NLP scenario: a pretrained multilingual encoder is first finetuned on many annotations in a high resource language (typically English), and then finetuned on a few annotations (the ``few shots'') in a target language. Few-shot transfer brings large improvements over zero-shot transfer. However, we show that it inherently has large variance and it is necessary to report results on multiple sets of few shots for stable results and to guarantee fair comparison of different algorithms. To address this problem, we publish our few-shot sets. In a study of why few-shot learning outperforms zero-shot transfer, we show that large models heavily rely on lexical hints when finetuned on a few shots and then overfit quickly. We evaluate different methods that use few-shot annotations, but do not observe significant improvements over the baseline. This calls for better ways of utilizing the few-shot annotations.
翻訳日:2021-04-17 22:38:44 公開日:2020-12-31
# (参考訳) NeuralMagicEye: オートステレオグラムの背後にあるシーンを学習して理解する [全文訳有]

NeuralMagicEye: Learning to See and Understand the Scene Behind an Autostereogram ( http://arxiv.org/abs/2012.15692v1 )

ライセンス: CC BY 4.0
Zhengxia Zou, Tianyang Shi, Yi Yuan, Zhenwei Shi(参考訳) autostereogram (複数形 autostereograms) マジックアイイメージ(Magic Eye Image)は、2Dテクスチャから3Dシーンの視覚的な錯覚を生成できる、シングルイメージのステレオグラムだ。 本稿では,深部CNNがオートステレオグラムの背後の深さを回復し,その内容を理解することができるかどうか,興味深い疑問について考察する。 オートステレオグラムマジックの鍵はステレオプシスにある - このような問題を解決するためには、モデルが準周期的なテクスチャから格差を発見して見積もることを学ぶ必要がある。 本稿では, ステレオプシスをシミュレートし, ディパリティを符号化する新しい畳み込み層であるディパリティ畳み込みを組み込んだディープCNNが, 大規模3次元オブジェクトデータセットを自己教師型で十分に訓練した後で, この問題をうまく解決できることを示す。 我々は、我々のメソッドを `NeuralMagicEye'' と呼ぶ。 実験結果から,本手法は高精細度および勾配の滑らかさでオートステレオグラムの奥行きを正確に復元できることがわかった。 実験はまた、ニューラルネットワークと人間の目の間でのオートステレオグラム知覚のための全く異なる作用機構を示す。 この研究が視覚障害のある人や、オートステレオグラムを見るのに苦労している人を助けることを願っている。 我々のコードは \url{https://jiupinjia.gi thub.io/neuralmagice ye/} で利用可能です。

An autostereogram, a.k.a. magic eye image, is a single-image stereogram that can create visual illusions of 3D scenes from 2D textures. This paper studies an interesting question that whether a deep CNN can be trained to recover the depth behind an autostereogram and understand its content. The key to the autostereogram magic lies in the stereopsis - to solve such a problem, a model has to learn to discover and estimate disparity from the quasi-periodic textures. We show that deep CNNs embedded with disparity convolution, a novel convolutional layer proposed in this paper that simulates stereopsis and encodes disparity, can nicely solve such a problem after being sufficiently trained on a large 3D object dataset in a self-supervised fashion. We refer to our method as ``NeuralMagicEye''. Experiments show that our method can accurately recover the depth behind autostereograms with rich details and gradient smoothness. Experiments also show the completely different working mechanisms for autostereogram perception between neural networks and human eyes. We hope this research can help people with visual impairments and those who have trouble viewing autostereograms. Our code is available at \url{https://jiupinjia.gi thub.io/neuralmagice ye/}.
翻訳日:2021-04-17 22:22:50 公開日:2020-12-31
# (参考訳) さらなるカバレッジによるロバスト性の向上:ロバストな微調整のためのmixup拡張による敵対的トレーニング [全文訳有]

Better Robustness by More Coverage: Adversarial Training with Mixup Augmentation for Robust Fine-tuning ( http://arxiv.org/abs/2012.15699v1 )

ライセンス: CC BY 4.0
Chenglei Si, Zhengyan Zhang, Fanchao Qi, Zhiyuan Liu, Yasheng Wang, Qun Liu, Maosong Sun(参考訳) 事前訓練された言語モデル(PLM)は敵の攻撃で惨めに失敗する。 強靭性を改善するために、敵データ拡張(ADA)が広く採用され、訓練中に敵データを追加することで、敵攻撃の検索スペースを増やそうとしている。 しかし、ADAが加えた敵例の数は、膨大な検索スペースのため、極めて不十分である。 本研究では,MixADA (Adversarial Data Augmentation with Mixup) と呼ばれる,攻撃検索空間のより広い割合をカバーするための簡易かつ効率的な手法を提案する。 具体的には、MixADAはトレーニングサンプルのペアの表現を線形に補間して新しい仮想サンプルを作成する。 さらに,異なるモデルのロバスト性を公平に評価するために,各モデルの新たな逆例を動的に生成する挑戦的な設定を採用する。 BERT と RoBERTa のテキスト分類実験において,MixADA は2つの強敵攻撃による顕著な堅牢性向上を実現し,元のデータに対する ADA の性能劣化を軽減する。 当社のソースコードは、さらなる調査をサポートするためにリリースされます。

Pre-trained language models (PLMs) fail miserably on adversarial attacks. To improve the robustness, adversarial data augmentation (ADA) has been widely adopted, which attempts to cover more search space of adversarial attacks by adding the adversarial examples during training. However, the number of adversarial examples added by ADA is extremely insufficient due to the enormously large search space. In this work, we propose a simple and effective method to cover much larger proportion of the attack search space, called Adversarial Data Augmentation with Mixup (MixADA). Specifically, MixADA linearly interpolates the representations of pairs of training examples to form new virtual samples, which are more abundant and diverse than the discrete adversarial examples used in conventional ADA. Moreover, to evaluate the robustness of different models fairly, we adopt a challenging setup, which dynamically generates new adversarial examples for each model. In the text classification experiments of BERT and RoBERTa, MixADA achieves significant robustness gains under two strong adversarial attacks and alleviates the performance degradation of ADA on the original data. Our source codes will be released to support further explorations.
翻訳日:2021-04-17 22:11:37 公開日:2020-12-31
# (参考訳) 悪から学ぶ:オンラインヘイト検出を改善するために動的に生成されたデータセット [全文訳有]

Learning from the Worst: Dynamically Generated Datasets to Improve Online Hate Detection ( http://arxiv.org/abs/2012.15761v1 )

ライセンス: CC BY 4.0
Bertie Vidgen, Tristan Thrush, Zeerak Waseem, Douwe Kiela(参考訳) 我々は,複数ラウンドの動的データ収集に対して,トレーニングアノテータによるスクラッチから作成した,オンラインヘイト分類のための,一級の大規模合成トレーニングデータセットを提案する。 我々は,細粒度ラベルに対するアノテーションを備えた40,623例のデータセットを提供し,多くの難解な比較摂動例を含む。 乱暴なコンテンツデータセットではまれに、54%が憎悪で、46%が憎悪ではない。 モデル性能とロバスト性は動的データ収集パラダイムを用いて大幅に改善できることを示す。 モデルエラー率は第1ラウンドで72.1%から第3ラウンドで35.8%に減少し、アノテーターがより経験を積むにつれて、コンテンツは次第に敵対的になりつつも、モデルを騙すのがますます難しくなったことを示している。 ヘイトスピーチ検出は重要で微妙な問題であり、既存のAI手法では依然として非常に難しい。 ここで提示されるモデル、データセット、動的システムは、現在のアプローチを改善するのに役立ち、社会にポジティブな影響を与えることを期待しています。

We present a first-of-its-kind large synthetic training dataset for online hate classification, created from scratch with trained annotators over multiple rounds of dynamic data collection. We provide a 40,623 example dataset with annotations for fine-grained labels, including a large number of challenging contrastive perturbation examples. Unusually for an abusive content dataset, it comprises 54% hateful and 46% not hateful entries. We show that model performance and robustness can be greatly improved using the dynamic data collection paradigm. The model error rate decreased across rounds, from 72.1% in the first round to 35.8% in the last round, showing that models became increasingly harder to trick -- even though content become progressively more adversarial as annotators became more experienced. Hate speech detection is an important and subtle problem that is still very challenging for existing AI methods. We hope that the models, dataset and dynamic system that we present here will help improve current approaches, having a positive social impact.
翻訳日:2021-04-17 22:00:20 公開日:2020-12-31
# (参考訳) 照明推定チャレンジ:過去2年間の経験 [全文訳有]

Illumination Estimation Challenge: experience of past two years ( http://arxiv.org/abs/2012.15779v1 )

ライセンス: CC BY 4.0
Egor Ershov, Alex Savchik, Ilya Semenkov, Nikola Bani\'c, Karlo Koscevi\'c, Marko Suba\v{s}i\'c, Alexander Belokopytov, Zhihao Li, Arseniy Terekhin, Daria Senshina, Artem Nikonorov, Yanlin Qian, Marco Buzzelli, Riccardo Riva, Simone Bianco, Raimondo Schettini, Sven Lon\v{c}ari\'c, Dmitry Nikolaev(参考訳) 照明推定は、現代のデジタルカメラの様々な画像処理パイプラインの中核部分の一つである計算カラーコンステンシーの重要なステップである。 画像色に対する照明効果を低減するためには、高精度で信頼性の高い照明推定が重要である。 この分野での新しいアイデアの生成と新しいアルゴリズムの開発を動機付けるために、第2の照明推定チャレンジ~(IEC\#2)を行った。 既知のデータセットのいくつかでテストするよりも、メソッドをテストすることの主な利点は、結果が提出されるまで、チャレンジテストイメージの真真正な照準が未知であるという事実であり、バイアスを受ける可能性のあるハイパーパラメータチューニングの潜在的な防止である。 チャレンジには、一般的なもの、屋内のもの、照明が2つあり、それぞれ異なるシーンのパラメーターに焦点を当てていた。 その他の主な特徴は、同じカメラセンサーモデルで撮影された新しい画像のデータセット(約5000枚)、各画像に付随する手動のマークアップ、SpyderCubeキャリブレーションオブジェクトを用いて抽出された多種多様な照明の下で多くの国で撮影されたシーンの多様なコンテンツ、IEC\#1で使用されたCube+データセットの画像のコンテストのようなマークアップである。 本稿では,過去2つの課題,各トラックで勝利したアルゴリズム,および類似した将来開発に役立つ第1および第2チャレンジで得られた結果に基づいて得られた結論について述べる。

Illumination estimation is the essential step of computational color constancy, one of the core parts of various image processing pipelines of modern digital cameras. Having an accurate and reliable illumination estimation is important for reducing the illumination influence on the image colors. To motivate the generation of new ideas and the development of new algorithms in this field, the 2nd Illumination estimation challenge~(IEC\#2) was conducted. The main advantage of testing a method on a challenge over testing in on some of the known datasets is the fact that the ground-truth illuminations for the challenge test images are unknown up until the results have been submitted, which prevents any potential hyperparameter tuning that may be biased. The challenge had several tracks: general, indoor, and two-illuminant with each of them focusing on different parameters of the scenes. Other main features of it are a new large dataset of images (about 5000) taken with the same camera sensor model, a manual markup accompanying each image, diverse content with scenes taken in numerous countries under a huge variety of illuminations extracted by using the SpyderCube calibration object, and a contest-like markup for the images from the Cube+ dataset that was used in IEC\#1. This paper focuses on the description of the past two challenges, algorithms which won in each track, and the conclusions that were drawn based on the results obtained during the 1st and 2nd challenge that can be useful for similar future developments.
翻訳日:2021-04-17 21:30:32 公開日:2020-12-31
# (参考訳) 時間順序イベントシーケンスの条件生成 [全文訳有]

Conditional Generation of Temporally-ordered Event Sequences ( http://arxiv.org/abs/2012.15786v1 )

ライセンス: CC BY 4.0
Shih-Ting Lin, Nathanael Chambers, Greg Durrett(参考訳) ナラティブスキーマの知識をカプセル化したモデルは、さまざまなイベント関連タスクに有用であることが証明されているが、これらのモデルは通常、イベント間の時間的関係には関与しない。 本稿では,イベント列の時間性だけでなくイベント共起を捉えることができるbartベースの条件生成モデルを提案する。 この単一モデルは、時間的順序付け、与えられたイベント列をそれらが発生した順序にソートすること、イベントを埋め込むことの両方に対処でき、既存のイベントの時間的順序付けシーケンスに適合する新しいイベントを予測できる。 時間順に順序付けられたイベントシーケンスを取り、シャッフルし、いくつかのイベントを削除し、元のイベントシーケンスを復元しようとします。 この方法で、モデルは、基礎となるシナリオにおけるイベントに関する不完全な知識を推論することを学ぶ。 時間的順序付けタスクでは,既存のデータセットからのイベントシーケンスを明示的にラベル付けされた時間的トレーニングデータにアクセスすることなく,BERTベースのペアワイズモデルとBERTベースのポインタネットワークの両方より優れた結果が得られることを示す。 イベントインフィルでは,GPT-2ストーリーコンプリートモデルと比較して,入力イベントに時間的に適合するイベントを生成することができる。

Models encapsulating narrative schema knowledge have proven to be useful for a range of event-related tasks, but these models typically do not engage with temporal relationships between events. We present a a BART-based conditional generation model capable of capturing event cooccurrence as well as temporality of event sequences. This single model can address both temporal ordering, sorting a given sequence of events into the order they occurred, and event infilling, predicting new events which fit into a temporally-ordered sequence of existing ones. Our model is trained as a denoising autoencoder: we take temporally-ordered event sequences, shuffle them, delete some events, and then attempting to recover the original event sequence. In this fashion, the model learns to make inferences given incomplete knowledge about the events in an underlying scenario. On the temporal ordering task, we show that our model is able to unscramble event sequences from existing datasets without access to explicitly labeled temporal training data, outperforming both a BERT-based pairwise model and a BERT-based pointer network. On event infilling, human evaluation shows that our model is able to generate events that fit better temporally into the input events when compared to GPT-2 story completion models.
翻訳日:2021-04-17 21:21:57 公開日:2020-12-31
# (参考訳) UCCAの基盤層:アノテーションガイドライン v2.1

UCCA's Foundational Layer: Annotation Guidelines v2.1 ( http://arxiv.org/abs/2012.15810v1 )

ライセンス: CC BY 4.0
Omri Abend, Nathan Schneider, Dotan Dvir, Jakob Prange, Ari Rappoport(参考訳) これはUniversal Conceptual Cognitive Annotation (UCCA; Abend and Rappoport, 2013)の注釈マニュアルであり、特にFoundational Layerである。 uccaはタイポロジー言語原理に基づいたグラフに基づく意味的アノテーションスキームである。 いくつかの言語に適用されており、説明の容易さのために、これらのガイドラインは英語で主に例を挙げている。 新しいアノテーションはUCCAフレームワークのチュートリアル(Abend et al., 2020)から始めることができる。 さらなるリソースはプロジェクトのホームページで入手できる。

This is the annotation manual for Universal Conceptual Cognitive Annotation (UCCA; Abend and Rappoport, 2013), specifically the Foundational Layer. UCCA is a graph-based semantic annotation scheme based on typological linguistic principles. It has been applied to several languages; for ease of exposition these guidelines give examples mainly in English. New annotators may wish to start with the tutorial on the UCCA framework (Abend et al., 2020). Further resources are available at the project homepage: https://universalcon ceptualcognitiveanno tation.github.io
翻訳日:2021-04-17 20:59:13 公開日:2020-12-31
# (参考訳) 一般化エントロピーの連続性と統計的学習

Continuity of Generalized Entropy and Statistical Learning ( http://arxiv.org/abs/2012.15829v1 )

ライセンス: CC BY 4.0
Aolin Xu(参考訳) 本研究では, 行動空間と損失関数で定義される確率分布の関数としての一般化エントロピーの連続性について検討し, この性質を用いて, 様々な学習手法における過剰なリスク解析である統計的学習理論における基礎的疑問に答える。 まず、2つの分布のエントロピー差について、よく使われる$f$-発散数、ワッサーシュタイン距離、および作用空間と損失関数に依存する距離で上界と下界を導出する。 各一般結果の議論と合わせて,既存のエントロピー差分境界との比較を行い,新たな結果に基づいて新たな相互情報上限を導出する。 次に、エントロピー差分境界を統計的学習の理論に適用する。 一般的な2つの学習パラダイムである頻繁な学習とベイズ学習の過大なリスクは、それぞれ、一般化エントロピーの異なる形式の連続性によって研究できることが示されている。 解析は一般化された条件エントロピーの連続性へと拡張される。 この拡張は、ミスマッチした分布でベイズ決定を行うための性能境界を提供する。 また、第三の学習パラダイムに対する過剰なリスク境界にもつながり、決定規則は予め定義された分布の族への経験的分布の予測の下で最適に設計される。 そこで我々は,一般化エントロピーの連続性を通じて,統計的学習の3つの主要なパラダイムに対する過剰リスク分析の統一的手法を確立する。

We study the continuity property of the generalized entropy as a functional of the underlying probability distribution, defined with an action space and a loss function, and use this property to answer the basic questions in statistical learning theory, the excess risk analyses for various learning methods. We first derive upper and lower bounds for the entropy difference of two distributions in terms of several commonly used $f$-divergences, the Wasserstein distance, and a distance that depends on the action space and the loss function. Examples are given along with the discussion of each general result, comparisons are made with the existing entropy difference bounds, and new mutual information upper bounds are derived based on the new results. We then apply the entropy difference bounds to the theory of statistical learning. It is shown that the excess risks in the two popular learning paradigms, the frequentist learning and the Bayesian learning, both can be studied with the continuity property of different forms of the generalized entropy. The analysis is then extended to the continuity of generalized conditional entropy. The extension provides performance bounds for Bayes decision making with mismatched distributions. It also leads to excess risk bounds for a third paradigm of learning, where the decision rule is optimally designed under the projection of the empirical distribution to a predefined family of distributions. We thus establish a unified method of excess risk analysis for the three major paradigms of statistical learning, through the continuity of generalized entropy.
翻訳日:2021-04-17 20:33:43 公開日:2020-12-31
# (参考訳) The Pile: 言語モデリングのための800GBの多言語テキストデータセット

The Pile: An 800GB Dataset of Diverse Text for Language Modeling ( http://arxiv.org/abs/2101.00027v1 )

ライセンス: CC BY 4.0
Leo Gao, Stella Biderman, Sid Black, Laurence Golding, Travis Hoppe, Charles Foster, Jason Phang, Horace He, Anish Thite, Noa Nabeshima, Shawn Presser, Connor Leahy(参考訳) 近年の研究では、訓練データセットの多様性の向上により、大規模言語モデルの汎用知識と下流一般化能力が向上することが示されている。 そこで本研究では,大規模言語モデルの学習を目的とした825 GiBの英語テキストコーパスであるtextit{the Pile}を提案する。 パイルは22の多様な高品質なサブセット - 既存のものと新しく作られたもの - から作られており、その多くは学術的あるいは専門的な情報源に由来する。 GPT-2 と GPT-3 のパイル上での未調整性能の評価は,これらのモデルが学術的記述など,その多くのコンポーネントに苦しむことを示す。 逆に、Pileでトレーニングされたモデルは、Raw CCとCC-100のいずれのコンポーネントよりも大幅に改善され、下流評価のパフォーマンスが向上した。 詳細な探索分析を通じて,将来性のあるユーザのためのデータの側面に関する可能性について文書化する。 構築に使用されるコードは公開しています。

Recent work has demonstrated that increased training dataset diversity improves general cross-domain knowledge and downstream generalization capability for large-scale language models. With this in mind, we present \textit{the Pile}: an 825 GiB English text corpus targeted at training large-scale language models. The Pile is constructed from 22 diverse high-quality subsets -- both existing and newly constructed -- many of which derive from academic or professional sources. Our evaluation of the untuned performance of GPT-2 and GPT-3 on the Pile shows that these models struggle on many of its components, such as academic writing. Conversely, models trained on the Pile improve significantly over both Raw CC and CC-100 on all components of the Pile, while improving performance on downstream evaluations. Through an in-depth exploratory analysis, we document potentially concerning aspects of the data for prospective users. We make publicly available the code used in its construction.
翻訳日:2021-04-17 19:49:34 公開日:2020-12-31
# (参考訳) 粒子群を用いた機械学習原子間ポテンシャルのハイパーパラメータ最適化 [全文訳有]

Particle Swarm Based Hyper-Parameter Optimization for Machine Learned Interatomic Potentials ( http://arxiv.org/abs/2101.00049v1 )

ライセンス: CC BY 4.0
Suresh Kondati Natarajan and Miguel A. Caro(参考訳) 機械学習(ML)アプローチを用いた非経験的および高柔軟性原子間ポテンシャルエネルギー表面(PES)のモデリングは、分子・材料研究で人気を博している。 ML-PESのトレーニングは通常、特徴抽出と構造-適合関係モデリングという2つの段階で行われる。 特徴抽出段階は原子位置を対称性不変な数学的表現に変換する。 この表現は、いわゆる"hyper-parameters&quo t;(HP)のセットを調整して微調整することができる。 その後、ニューラルネットワークやガウス過程回帰(GPR)などのMLアルゴリズムを使用して、他のHPセットに基づいて構造PES関係をモデル化する。 2組のHPに対して最適な値を選択することは、結果のML-PESモデルの高品質を保証するために重要である。 本稿では、カスタムコード並列粒子群最適化器(https://github.com/ suresh0807/PPSO.git) を用いて、ML-PES生成に適したHP最適化戦略を検討する。 我々は,GPRに基づくガウス近似ポテンシャル (GAP) と組み合わせた原子位置記述子 (SOAP) のスムーズな重なり合いを利用して, 玩具C二量体, アモルファス炭素, $\alpha$-Fe, 小さな有機分子 (QM9 データセット) のHPを最適化する。 本稿では,まず特徴抽出段階に関連するhpsを最適化し,次いで訓練段階におけるhpsの最適化を行う2段階最適化戦略を提案する。 この戦略は、最適なHPを得るために訓練されるMLモデルの数を著しく削減することで、全てのHPを同時に最適化するよりも計算効率が良い。 このアプローチは、記述子とMLアルゴリズムの他の組み合わせに自明に拡張することができ、完全に自動化されたML-PES生成にさらに一歩近づくことができます。

Modeling non-empirical and highly flexible interatomic potential energy surfaces (PES) using machine learning (ML) approaches is becoming popular in molecular and materials research. Training an ML-PES is typically performed in two stages: feature extraction and structure-property relationship modeling. The feature extraction stage transforms atomic positions into a symmetry-invariant mathematical representation. This representation can be fine-tuned by adjusting on a set of so-called "hyper-parameters&quo t; (HPs). Subsequently, an ML algorithm such as neural networks or Gaussian process regression (GPR) is used to model the structure-PES relationship based on another set of HPs. Choosing optimal values for the two sets of HPs is critical to ensure the high quality of the resulting ML-PES model. In this paper, we explore HP optimization strategies tailored for ML-PES generation using a custom-coded parallel particle swarm optimizer (available freely at https://github.com/s uresh0807/PPSO.git). We employ the smooth overlap of atomic positions (SOAP) descriptor in combination with GPR-based Gaussian approximation potentials (GAP) and optimize HPs for four distinct systems: a toy C dimer, amorphous carbon, $\alpha$-Fe, and small organic molecules (QM9 dataset). We propose a two-step optimization strategy in which the HPs related to the feature extraction stage are optimized first, followed by the optimization of the HPs in the training stage. This strategy is computationally more efficient than optimizing all HPs at the same time by means of significantly reducing the number of ML models needed to be trained to obtain the optimal HPs. This approach can be trivially extended to other combinations of descriptor and ML algorithm and brings us another step closer to fully automated ML-PES generation.
翻訳日:2021-04-17 19:47:42 公開日:2020-12-31
# (参考訳) 話し言葉におけるコヒーレンスモデリングに向けて [全文訳有]

Towards Modelling Coherence in Spoken Discourse ( http://arxiv.org/abs/2101.00056v1 )

ライセンス: CC BY 4.0
Rajaswa Patil, Yaman Kumar Singla, Rajiv Ratn Shah, Mika Hama and Roger Zimmermann(参考訳) 文言のコヒーレンスをモデル化する作業には大きな進展があったが、話し言葉コヒーレンスをモデル化する作業は限られている。 テキストのコヒーレンスとは異なり、話し言葉におけるコヒーレンスは、音声の韻律的および音響的パターンにも依存する。 本稿では,音声に基づくコヒーレンスモデルを用いた音声談話におけるコヒーレンスをモデル化する。 4つのコヒーレンス関連タスクと話し言葉による実験を行った。 実験では,専門家による音声に対する機械生成音声の評価を行った。 また,言語習熟度の異なる人間の言語学習者による音声談話も比較した。 その結果,テキストに音声モダリティを組み込むことで,下流のコヒーレンス関連タスクと話し言葉のコヒーレンスモデルが有効であることがわかった。

While there has been significant progress towards modelling coherence in written discourse, the work in modelling spoken discourse coherence has been quite limited. Unlike the coherence in text, coherence in spoken discourse is also dependent on the prosodic and acoustic patterns in speech. In this paper, we model coherence in spoken discourse with audio-based coherence models. We perform experiments with four coherence-related tasks with spoken discourses. In our experiments, we evaluate machine-generated speech against the speech delivered by expert human speakers. We also compare the spoken discourses generated by human language learners of varying language proficiency levels. Our results show that incorporating the audio modality along with the text benefits the coherence models in performing downstream coherence related tasks with spoken discourses.
翻訳日:2021-04-17 19:20:21 公開日:2020-12-31
# (参考訳) 正方形損失を訓練した深層ネットワーク分類器の明示的正規化と暗黙的バイアス [全文訳有]

Explicit regularization and implicit bias in deep network classifiers trained with the square loss ( http://arxiv.org/abs/2101.00072v1 )

ライセンス: CC BY 4.0
Tomaso Poggio and Qianli Liao(参考訳) 正方形損失で訓練された深部ReLUネットワークは、分類タスクでよく機能する。 ここでは,関連する勾配流の解析に基づく理論的正当化について述べる。 バッチ正規化 (bn) や重み正規化 (wn) といった正規化手法を重量減衰 (wd) とともに用いる場合, 絶対最小ノルムを持つ解への収束が期待される。 それらの期待誤差の境界となる最小子の主な性質はノルムである:我々はすべての近接補間解の中で、非正規化された重み行列のより小さいフロベニウスノルムに関連するものは、期待された分類誤差のマージンとより良い境界を持つことを証明する。 BN では、WD が存在しない場合、力学系は特異である。 インプリシットな動的正則化(英語版) -- ゼロ初期条件であり、高マージン解に対するダイナミクスをバイアスする - は、no-BN および no-WD の場合でも可能である。 この理論は、BNとウェイト崩壊の役割、パパヤン、ハン、ドノホのニューラル崩壊の側面、BNがネットワーク重みに対して引き起こす制約など、いくつかの予測をもたらす。

Deep ReLU networks trained with the square loss have been observed to perform well in classification tasks. We provide here a theoretical justification based on analysis of the associated gradient flow. We show that convergence to a solution with the absolute minimum norm is expected when normalization techniques such as Batch Normalization (BN) or Weight Normalization (WN) are used together with Weight Decay (WD). The main property of the minimizers that bounds their expected error is the norm: we prove that among all the close-to-interpolati ng solutions, the ones associated with smaller Frobenius norms of the unnormalized weight matrices have better margin and better bounds on the expected classification error. With BN but in the absence of WD, the dynamical system is singular. Implicit dynamical regularization -- that is zero-initial conditions biasing the dynamics towards high margin solutions -- is also possible in the no-BN and no-WD case. The theory yields several predictions, including the role of BN and weight decay, aspects of Papyan, Han and Donoho's Neural Collapse and the constraints induced by BN on the network weights.
翻訳日:2021-04-17 19:03:31 公開日:2020-12-31
# (参考訳) ビデオサムネイル選択のためのマルチモーダル深層学習モデル [全文訳有]

A Multi-modal Deep Learning Model for Video Thumbnail Selection ( http://arxiv.org/abs/2101.00073v1 )

ライセンス: CC BY 4.0
Zhifeng Yu, Nanchun Shi(参考訳) Thumbnailはオンラインビデオの顔だ。 ビデオの数とバラエティの両方が爆発的に伸びていることは、視聴者がビデオを選ぶ時間を節約し、それらをクリックするよう誘惑するので、良いサムネイルの重要性を物語っている。 良いサムネイルは、視聴者の注意を引くと同時に、ビデオのコンテンツを最もよく表現するフレームであるべきです。 しかし、過去の技術やモデルはビデオ内のフレームのみに焦点を合わせており、そのような狭められた焦点は、ビデオの一部となる有用な情報を残していると信じている。 本稿では,映像のタイトル,説明,音声を含むコンテンツの定義を拡張し,これらのモダリティによって提供される情報を選択モデルで活用する。 特に,本モデルでは,フレームを時間的に均一にサンプリングし,この部分集合の上位1000フレームを最も美的スコアの高い2列畳み込みニューラルネットワークで返却し,下流タスクにおける全フレームの処理の計算負荷を回避する。 次に、VGG16から抽出したフレーム機能、ELECTRAからのテキスト機能、TRILLからのオーディオ機能を含む。 これらのモデルが選ばれたのは、一般的なデータセットと競合するパフォーマンスの結果である。 特徴抽出後、時系列の特徴であるフレームとオーディオはトランスフォーマーエンコーダ層に供給され、対応するモダリティを表すベクトルを返す。 4つの機能(フレーム、タイトル、説明、オーディオ)はそれぞれ、結合前にコンテキストゲーティング層を通過します。 最後に、我々のモデルは潜在空間内のベクトルを生成し、潜在空間におけるこのベクトルに最も近いフレームを選択する。 我々の知る限りでは、我々はビデオサムネイルを選択するためのマルチモーダル深層学習モデルを提案しており、これは以前のState-of-The-Artモデルに勝っている。

Thumbnail is the face of online videos. The explosive growth of videos both in number and variety underpins the importance of a good thumbnail because it saves potential viewers time to choose videos and even entice them to click on them. A good thumbnail should be a frame that best represents the content of a video while at the same time capturing viewers' attention. However, the techniques and models in the past only focus on frames within a video, and we believe such narrowed focus leave out much useful information that are part of a video. In this paper, we expand the definition of content to include title, description, and audio of a video and utilize information provided by these modalities in our selection model. Specifically, our model will first sample frames uniformly in time and return the top 1,000 frames in this subset with the highest aesthetic scores by a Double-column Convolutional Neural Network, to avoid the computational burden of processing all frames in downstream task. Then, the model incorporates frame features extracted from VGG16, text features from ELECTRA, and audio features from TRILL. These models were selected because of their results on popular datasets as well as their competitive performances. After feature extraction, the time-series features, frames and audio, will be fed into Transformer encoder layers to return a vector representing their corresponding modality. Each of the four features (frames, title, description, audios) will pass through a context gating layer before concatenation. Finally, our model will generate a vector in the latent space and select the frame that is most similar to this vector in the latent space. To the best of our knowledge, we are the first to propose a multi-modal deep learning model to select video thumbnail, which beats the result from the previous State-of-The-Art models.
翻訳日:2021-04-17 18:52:06 公開日:2020-12-31
# (参考訳) DeepGreen: 非線形境界値問題に対するグリーン関数のディープラーニング [全文訳有]

DeepGreen: Deep Learning of Green's Functions for Nonlinear Boundary Value Problems ( http://arxiv.org/abs/2101.07206v1 )

ライセンス: CC BY 4.0
Craig R. Gin, Daniel E. Shea, Steven L. Brunton, J. Nathan Kutz(参考訳) 境界値問題(BVP)は、外部力の制約された物理的システムの数学的解析において中心的な役割を果たす。 その結果、bvpは、流体力学、電磁力学、量子力学、弾性など、ほぼ全ての工学分野に出現し、問題領域にまたがる。 基本解であるグリーン関数(green's function)は、外部強制下でシステムに対する新しい解のファシリな計算を可能にする線形bvpを解くための主要な方法である。 しかし、非線形BVPに対する基本的なグリーン関数解は、線型重ね合わせがもはや成り立たないので実現不可能である。 本研究では,デュアルオートエンコーダアーキテクチャを用いて非線形BVPを解くための柔軟な深層学習手法を提案する。 自己エンコーダは、非線形BVPを線型化し、線型作用素 $L$ と Green の関数 $G$ の両方を識別する可逆座標変換を発見する。 この手法は非線形ヘルムホルツ問題やストゥルム・リオウヴィル問題、非線形弾性、および2次元非線形ポアソン方程式を含む様々な非線形系において有効である。 この手法は、深層学習の普遍近似能力とグリーン関数の物理知識の強みを融合し、様々な非線形システムに対する基本的な解を識別するための柔軟なツールとなる。

Boundary value problems (BVPs) play a central role in the mathematical analysis of constrained physical systems subjected to external forces. Consequently, BVPs frequently emerge in nearly every engineering discipline and span problem domains including fluid mechanics, electromagnetics, quantum mechanics, and elasticity. The fundamental solution, or Green's function, is a leading method for solving linear BVPs that enables facile computation of new solutions to systems under any external forcing. However, fundamental Green's function solutions for nonlinear BVPs are not feasible since linear superposition no longer holds. In this work, we propose a flexible deep learning approach to solve nonlinear BVPs using a dual-autoencoder architecture. The autoencoders discover an invertible coordinate transform that linearizes the nonlinear BVP and identifies both a linear operator $L$ and Green's function $G$ which can be used to solve new nonlinear BVPs. We find that the method succeeds on a variety of nonlinear systems including nonlinear Helmholtz and Sturm--Liouville problems, nonlinear elasticity, and a 2D nonlinear Poisson equation. The method merges the strengths of the universal approximation capabilities of deep learning with the physics knowledge of Green's functions to yield a flexible tool for identifying fundamental solutions to a variety of nonlinear systems.
翻訳日:2021-04-17 18:39:55 公開日:2020-12-31
# (参考訳) スペクトルメッセージパッシングを用いたグラフネットワーク [全文訳有]

Graph Networks with Spectral Message Passing ( http://arxiv.org/abs/2101.00079v1 )

ライセンス: CC BY 4.0
Kimberly Stachenfeld, Jonathan Godwin, Peter Battaglia(参考訳) グラフニューラルネットワーク(GNN)は、リレーショナル推論に関わる問題に対して、機械学習コミュニティが集中する対象である。 gnnは広く空間的アプローチとスペクトル的アプローチに分けられる。 空間的アプローチは学習されたメッセージパッシングの形式を用いており、頂点間の相互作用は局所的に計算され、情報はより多くのメッセージパッシングステップでグラフ上の長い距離を伝播する。 スペクトルアプローチはグラフラプラシアンの固有分解を用いて、短い時間と長い時間で情報にアクセスするグラフ構造化データへの空間畳み込みの一般化を生成する。 本稿では、空間領域とスペクトル領域の両方にメッセージパッシングを適用するSpectral Graph Networkを紹介する。 我々のモデルでは空間グラフの頂点をラプラシア固有ベクトルに投影し、それぞれが完全に連結された「スペクトルグラフ」の頂点として表現され、学習されたメッセージがそれらに渡される。 このモデルを,MNIST分類のグラフに基づく変種,分子特性予測,およびランダムグラフ上の最短経路問題など,様々なベンチマークタスクに適用する。 その結果,spectrum gnは効率のよいトレーニングを促進し,より多くのパラメータを持つにもかかわらず,少ないトレーニングイテレーションで高いパフォーマンスを達成できることがわかった。 モデルはまた、エッジドロップアウトに対して堅牢性を提供し、分類タスクのベースラインを上回っます。 また、これらのパフォーマンスの利点がデータセットの特性に依存するかについても検討する。

Graph Neural Networks (GNNs) are the subject of intense focus by the machine learning community for problems involving relational reasoning. GNNs can be broadly divided into spatial and spectral approaches. Spatial approaches use a form of learned message-passing, in which interactions among vertices are computed locally, and information propagates over longer distances on the graph with greater numbers of message-passing steps. Spectral approaches use eigendecompositions of the graph Laplacian to produce a generalization of spatial convolutions to graph structured data which access information over short and long time scales simultaneously. Here we introduce the Spectral Graph Network, which applies message passing to both the spatial and spectral domains. Our model projects vertices of the spatial graph onto the Laplacian eigenvectors, which are each represented as vertices in a fully connected "spectral graph", and then applies learned message passing to them. We apply this model to various benchmark tasks including a graph-based variant of MNIST classification, molecular property prediction on MoleculeNet and QM9, and shortest path problems on random graphs. Our results show that the Spectral GN promotes efficient training, reaching high performance with fewer training iterations despite having more parameters. The model also provides robustness to edge dropout and outperforms baselines for the classification tasks. We also explore how these performance benefits depend on properties of the dataset.
翻訳日:2021-04-17 18:23:14 公開日:2020-12-31
# 言語によるオブジェクト中心表現学習

Language-Mediated, Object-Centric Representation Learning ( http://arxiv.org/abs/2012.15814v1 )

ライセンス: Link先を確認
Ruocheng Wang, Jiayuan Mao, Samuel J. Gershman, Jiajun Wu(参考訳) 本稿では,言語によるオブジェクト中心表現学習(LORL)を,視覚と言語から対象中心のシーン表現を学習するためのパラダイムとして提示する。 LORLは、教師なしオブジェクトセグメンテーション、特にMONetとSlot Attentionの最近の進歩の上に構築されている。 これらのアルゴリズムは、入力画像を再構成するだけでオブジェクト中心の表現を学習するが、LORLは学習した表現を概念、すなわち、言語入力からオブジェクトカテゴリ、プロパティ、空間関係の単語に関連付けることができる。 これらのオブジェクト指向の概念は、言語から派生したオブジェクト中心表現の学習を促進する。 LORLは言語に依存しない様々な教師なしセグメンテーションアルゴリズムと統合することができる。 実験により、LORLの統合は、言語を用いて2つのデータセット上のMONetとSlot Attentionのオブジェクトセグメンテーション性能を一貫して改善することが示された。 また,LORLが学習した概念は,MONetなどのセグメンテーションアルゴリズムとともに,表現理解の参照などの下流タスクを支援する。

We present Language-mediated, Object-centric Representation Learning (LORL), a paradigm for learning disentangled, object-centric scene representations from vision and language. LORL builds upon recent advances in unsupervised object segmentation, notably MONet and Slot Attention. While these algorithms learn an object-centric representation just by reconstructing the input image, LORL enables them to further learn to associate the learned representations to concepts, i.e., words for object categories, properties, and spatial relationships, from language input. These object-centric concepts derived from language facilitate the learning of object-centric representations. LORL can be integrated with various unsupervised segmentation algorithms that are language-agnostic. Experiments show that the integration of LORL consistently improves the object segmentation performance of MONet and Slot Attention on two datasets via the help of language. We also show that concepts learned by LORL, in conjunction with segmentation algorithms such as MONet, aid downstream tasks such as referring expression comprehension.
翻訳日:2021-04-17 17:29:41 公開日:2020-12-31
# Directed Beam Search: Plug-and-Play Rexically Constrained Language Generation

Directed Beam Search: Plug-and-Play Lexically Constrained Language Generation ( http://arxiv.org/abs/2012.15416v1 )

ライセンス: Link先を確認
Damian Pascual, Beni Egressy, Florian Bolli, Roger Wattenhofer(参考訳) 大規模な事前訓練された言語モデルは、現実的なテキストを生成することができる。 しかし、生成されたテキストが特定の単語を含む語彙的制約を満たすようにモデルを制御することは難しい問題である。 最先端の言語モデルはスクラッチからトレーニングするには大きすぎるので、再トレーニングすることなくこれらのモデルを制御することが望ましい。 これをプラグ・アンド・プレイと呼ぶ。 最近のプラグ・アンド・プレイ方式は、小さな双方向言語モデルや、例えば機械翻訳のような限定された検索空間を持つタスクの前方モデルを制限することに成功している。 しかし、レキシカル制約を満たすために大きなトランスフォーマーベースのモデルを制御することは、それらを再訓練せずには困難である。 本研究では,語彙制約付き言語生成のためのプラグアンドプレイ方式であるdirected beam search(dbs)を提案する。 提案手法は任意の言語モデルに適用可能であり,実装が容易であり,汎用言語生成に利用することができる。 実験では、GPT-2を制御するためにDBSを使用しました。 キーワード対フレーズ生成の性能を実証し,語彙制約付きストーリー生成のための最先端のノンプラグ・アンド・プレイモデルとして同等の結果を得た。

Large pre-trained language models are capable of generating realistic text. However, controlling these models so that the generated text satisfies lexical constraints, i.e., contains specific words, is a challenging problem. Given that state-of-the-art language models are too large to be trained from scratch in a manageable time, it is desirable to control these models without re-training them. Methods capable of doing this are called plug-and-play. Recent plug-and-play methods have been successful in constraining small bidirectional language models as well as forward models in tasks with a restricted search space, e.g., machine translation. However, controlling large transformer-based models to meet lexical constraints without re-training them remains a challenge. In this work, we propose Directed Beam Search (DBS), a plug-and-play method for lexically constrained language generation. Our method can be applied to any language model, is easy to implement and can be used for general language generation. In our experiments we use DBS to control GPT-2. We demonstrate its performance on keyword-to-phrase generation and we obtain comparable results as a state-of-the-art non-plug-and-play model for lexically constrained story generation.
翻訳日:2021-04-17 17:29:25 公開日:2020-12-31
# FastIF: 効率的なモデル解釈とデバッグのためのスケーラブルな影響関数

FastIF: Scalable Influence Functions for Efficient Model Interpretation and Debugging ( http://arxiv.org/abs/2012.15781v1 )

ライセンス: Link先を確認
Han Guo, Nazneen Fatema Rajani, Peter Hase, Mohit Bansal, Caiming Xiong(参考訳) 影響関数は、テスト予測のためのトレーニングデータポイントの「影響」を近似し、幅広い応用を持つ。 人気にもかかわらず、計算コストはモデルやトレーニングデータのサイズではうまくスケールしない。 fastifは、実行時間を大幅に改善する関数に影響を与えるための、単純な修正セットです。 我々はk-Nearest Neighbors (kNN) を用いて、検索空間を良い候補データポイントのサブセットに絞り込み、逆ヘッセンベクトル積を推定する際の速度品質トレードオフのバランスを最も良くする構成を特定し、高速な並列変種を導入する。 提案手法は,元の影響値と高い相関を保ちながら,約80倍の高速化を実現する。 高速影響関数が利用可能となると、4つのアプリケーションでそれらの有用性を示す。 まず、シミュレーション可能性の枠組みを用いて、影響のあるデータポイントがテスト時間の振る舞いを「説明」できるかどうかを検討する。 次に、トレーニングとテストデータポイント間の相互作用を可視化する。 第3に,特定のデータポイントを微調整することでモデル誤差を補正し,少数の勾配更新を用いたHANSチャレンジセットにおいて,トレーニング済みMNLIモデルの精度を2.6%向上できることを示す。 最後に,インフルエンス関数を用いて,トレーニング中の新たなデータポイントを探索し,モデル性能を向上させるデータ提供設定を実験する。 全体としては,高速な影響関数を大規模モデルやデータセットに適用し,モデル解釈やモデルの誤り訂正における影響関数の可能性を示す。 コードはhttps://github.com/s alesforce/fast-influ ence-functionsで入手できる。

Influence functions approximate the 'influences' of training data-points for test predictions and have a wide variety of applications. Despite the popularity, their computational cost does not scale well with model and training data size. We present FastIF, a set of simple modifications to influence functions that significantly improves their run-time. We use k-Nearest Neighbors (kNN) to narrow the search space down to a subset of good candidate data points, identify the configurations that best balance the speed-quality trade-off in estimating the inverse Hessian-vector product, and introduce a fast parallel variant. Our proposed method achieves about 80x speedup while being highly correlated with the original influence values. With the availability of the fast influence functions, we demonstrate their usefulness in four applications. First, we examine whether influential data-points can 'explain' test time behavior using the framework of simulatability. Second, we visualize the influence interactions between training and test data-points. Third, we show that we can correct model errors by additional fine-tuning on certain influential data-points, improving the accuracy of a trained MNLI model by 2.6% on the HANS challenge set using a small number of gradient updates. Finally, we experiment with a data-augmentation setup where we use influence functions to search for new data-points unseen during training to improve model performance. Overall, our fast influence functions can be efficiently applied to large models and datasets, and our experiments demonstrate the potential of influence functions in model interpretation and correcting model errors. Code is available at https://github.com/s alesforce/fast-influ ence-functions
翻訳日:2021-04-17 17:29:06 公開日:2020-12-31
# オフラインマッピングを超えて:コンテキストアンカーによる言語間埋め込みの学習

Beyond Offline Mapping: Learning Cross Lingual Word Embeddings through Context Anchoring ( http://arxiv.org/abs/2012.15715v1 )

ライセンス: Link先を確認
Aitor Ormazabal, Mikel Artetxe, Aitor Soroa, Gorka Labaka, Eneko Agirre(参考訳) 言語間単語埋め込みに関する最近の研究は、モノリンガル埋め込みを整列する教師なしマッピングアプローチによって支配されている。 このような手法は、同様の構造を持つ組込みに依存するが、最近、異なる言語での個別のトレーニングが、この仮定からの離脱を引き起こすことが示されている。 本稿では,この制限をもたない代替手法を提案するとともに,弱いシード辞書(例:同一語のリスト)を監督の唯一の形式として要求する。 2つの固定埋め込み空間を整列させるのではなく、対象言語埋め込みを固定し、それらに整列したソースコード言語に対する新しい埋め込み集合を学習することで機能する。 そこで我々は,翻訳された文脈単語をアンカーポイントとして活用するskip-gramの拡張を用い,自己学習と反復リスタートを取り入れ,辞書への依存度を低減した。 本手法は,従来のバイリンガル語彙誘導法よりも優れ,下流XNLIタスクにおける競合結果が得られる。

Recent research on cross-lingual word embeddings has been dominated by unsupervised mapping approaches that align monolingual embeddings. Such methods critically rely on those embeddings having a similar structure, but it was recently shown that the separate training in different languages causes departures from this assumption. In this paper, we propose an alternative approach that does not have this limitation, while requiring a weak seed dictionary (e.g., a list of identical words) as the only form of supervision. Rather than aligning two fixed embedding spaces, our method works by fixing the target language embeddings, and learning a new set of embeddings for the source language that are aligned with them. To that end, we use an extension of skip-gram that leverages translated context words as anchor points, and incorporates self-learning and iterative restarts to reduce the dependency on the initial dictionary. Our approach outperforms conventional mapping methods on bilingual lexicon induction, and obtains competitive results in the downstream XNLI task.
翻訳日:2021-04-17 17:28:37 公開日:2020-12-31
# 3次元人間の動き予測と分類

3D Human motion anticipation and classification ( http://arxiv.org/abs/2012.15378v1 )

ライセンス: Link先を確認
Emad Barsoum, John Kender, Zicheng Liu(参考訳) 人間の動きの予測と理解は難しい問題である。 人間の動きの複雑なダイナミクスと将来の予測の非決定論的側面のため。 本稿では,人間の動作予測と特徴学習のための新しいシーケンス・ツー・シーケンス・モデルを提案する。このモデルでは,人間の動作アニメーションからインスピレーションを得て,同一の入力ポーズから複数の予測された動作間の変動を制御できるカスタム・ロス機能を備える。 我々のモデルは、同じ入力シーケンスから複数の人間のポーズの将来のシーケンスを予測することを学ぶ。 識別器は,行動認識タスクにおける学習特徴を用いて,人間の動作の一般表現を学習することを示す。 さらに、非決定論的予測の質を定量化するために、ポーズの列が実際の人間の動きであるか否かを学習する動き品質評価ネットワークを同時に訓練する。 我々はNTURGB-DとHuman3.6Mの2つの大きな人間のポーズデータセットでモデルを検証した。 単一のアクションタイプと複数のアクションタイプの両方でトレーニングします。 動作推定の予測力は、同一の入力から複数の可視未来を生成し、各損失関数の効果を示すことによって示される。 さらに,識別器から学習した特徴を用いて行動認識ネットワークを訓練するには,エポック数の半分以下を要することを示した。

Human motion prediction and understanding is a challenging problem. Due to the complex dynamic of human motion and the non-deterministic aspect of future prediction. We propose a novel sequence-to-sequence model for human motion prediction and feature learning, trained with a modified version of generative adversarial network, with a custom loss function that takes inspiration from human motion animation and can control the variation between multiple predicted motion from the same input poses. Our model learns to predict multiple future sequences of human poses from the same input sequence. We show that the discriminator learns general presentation of human motion by using the learned feature in action recognition task. Furthermore, to quantify the quality of the non-deterministic predictions, we simultaneously train a motion-quality-asses sment network that learns the probability that a given sequence of poses is a real human motion or not. We test our model on two of the largest human pose datasets: NTURGB-D and Human3.6M. We train on both single and multiple action types. Its predictive power for motion estimation is demonstrated by generating multiple plausible futures from the same input and show the effect of each of the loss functions. Furthermore, we show that it takes less than half the number of epochs to train an activity recognition network by using the feature learned from the discriminator.
翻訳日:2021-04-17 17:28:21 公開日:2020-12-31
# Refine and Imitate: Reinforcement Learning と Human Demonstration による説得対話における繰り返しと矛盾の軽減

Refine and Imitate: Reducing Repetition and Inconsistency in Persuasion Dialogues via Reinforcement Learning and Human Demonstration ( http://arxiv.org/abs/2012.15375v1 )

ライセンス: Link先を確認
Weiyan Shi, Yu Li, Saurav Sahay, Zhou Yu(参考訳) ダウンストリームnlpタスクでの大規模言語モデルの成功にもかかわらず、対話応答生成では繰り返しや不整合の問題が続いている。 以前のアプローチでは、言語モデルの損失関数における望ましくない振る舞いを罰することで繰り返しを避けることを試みた。 しかし、これらの手法はトークンレベルの情報に焦点を当てており、一貫性のない応答や解釈不能な行動につながる可能性がある。 これらの問題を緩和するために,ユーザシミュレータを使わずにmleベースの言語モデルの洗練に強化学習を適用し,報酬による反復,不整合,タスクの関連性に関する文レベルの情報を抽出することを提案する。 さらに、対話課題をより良く達成するために、モデルは人間の実演から学習し、説得などの知的活動を模倣し、最も説得力のある応答を選択する。 実験の結果, 提案手法は, 自動計測結果と人的評価結果の両方において, 従来の対話モデルより優れており, ユーザのフィードバックに応じて, より多様で一貫した, 説得的な会話を生成することがわかった。

Despite the recent success of large-scale language models on various downstream NLP tasks, the repetition and inconsistency problems still persist in dialogue response generation. Previous approaches have attempted to avoid repetition by penalizing the language model's undesirable behaviors in the loss function. However, these methods focus on token-level information and can lead to incoherent responses and uninterpretable behaviors. To alleviate these issues, we propose to apply reinforcement learning to refine an MLE-based language model without user simulators, and distill sentence-level information about repetition, inconsistency and task relevance through rewards. In addition, to better accomplish the dialogue task, the model learns from human demonstration to imitate intellectual activities such as persuasion, and selects the most persuasive responses. Experiments show that our model outperforms previous state-of-the-art dialogue models on both automatic metrics and human evaluation results on a donation persuasion task, and generates more diverse, consistent and persuasive conversations according to the user feedback.
翻訳日:2021-04-17 17:28:02 公開日:2020-12-31
# オープンドメインダイアログ生成のためのダイアログ構造グラフの発見

Discovering Dialog Structure Graph for Open-Domain Dialog Generation ( http://arxiv.org/abs/2012.15543v1 )

ライセンス: Link先を確認
Jun Xu, Zeyang Lei, Haifeng Wang, Zheng-Yu Niu, Hua Wu, Wanxiang Che, Ting Liu(参考訳) 人間と人間の対話から解釈可能な対話構造を学習すると、会話の構造に関する基本的な洞察が得られる。 本稿では,chitchat corporaから対話構造を教師なしで発見し,それを利用して下流システムにおける対話生成を容易にする。 この目的のために,グラフニューラルネットワーク(DVAE-GNN)を用いた離散変分自動エンコーダを提案する。 この構造は、上位層頂点のセッションレベル意味論、下位層頂点の発話レベル意味論、これらの意味頂点のエッジを含む2層有向グラフである。 特に、セッションレベルのセマンティック頂点をより効果的に認識するために、GNNをDVAEに統合する。 さらに,発話レベルのセマンティクスを多数発見することの難しさを緩和するため,各発話レベルのセマンティクスを異なる句で結合する結合機構を設計し,先行セマンティクスを提供する。 2つのベンチマークコーパスによる実験の結果、dvae-gnnは有意義なダイアログ構造を発見でき、背景知識としてのダイアログ構造グラフの使用は、グラフ接地会話システムを容易にし、コヒーレントなマルチターンダイアログ生成を可能にする。

Learning interpretable dialog structure from human-human dialogs yields basic insights into the structure of conversation, and also provides background knowledge to facilitate dialog generation. In this paper, we conduct unsupervised discovery of dialog structure from chitchat corpora, and then leverage it to facilitate dialog generation in downstream systems. To this end, we present a Discrete Variational Auto-Encoder with Graph Neural Network (DVAE-GNN), to discover a unified human-readable dialog structure. The structure is a two-layer directed graph that contains session-level semantics in the upper-layer vertices, utterance-level semantics in the lower-layer vertices, and edges among these semantic vertices. In particular, we integrate GNN into DVAE to fine-tune utterance-level semantics for more effective recognition of session-level semantic vertex. Furthermore, to alleviate the difficulty of discovering a large number of utterance-level semantics, we design a coupling mechanism that binds each utterance-level semantic vertex with a distinct phrase to provide prior semantics. Experimental results on two benchmark corpora confirm that DVAE-GNN can discover meaningful dialog structure, and the use of dialog structure graph as background knowledge can facilitate a graph grounded conversational system to conduct coherent multi-turn dialog generation.
翻訳日:2021-04-17 17:27:43 公開日:2020-12-31
# 道徳物語:規範、意図、行動、そしてそれらの結果に関する推論の位置

Moral Stories: Situated Reasoning about Norms, Intents, Actions, and their Consequences ( http://arxiv.org/abs/2012.15738v1 )

ライセンス: Link先を確認
Denis Emelin, Ronan Le Bras, Jena D. Hwang, Maxwell Forbes, Yejin Choi(参考訳) 社会的環境では、人間の行動の多くは口頭で話さない行動規則によって制御される。 人工システムが社会環境に完全に統合されるためには、そのような規範への順守が重要な前提条件である。 本研究では,同時代のnlgモデルが,モラル制約下で事前定義された目標を達成する行動仮説を生成することによって,社会的設定に展開されたシステムの行動優先として機能するかどうかを検討する。 さらに、モデルが道徳的行動の結果を予測できるかどうか、あるいは関連する規範を生成することによって、ある行動が好ましい理由を説明する。 この目的のために,「モラルストーリー」という,階層的,分枝的なナラティブのクラウドソーシングデータセットを導入し,基礎的,目標指向の社会推論の研究を行う。 最後に,複数の専門家モデルを効果的に組み合わせた復号戦略を提案し,生成した行動,結果,規範の質を,例えば強いベースラインと比較して著しく向上させる。 誘惑的な推論です

In social settings, much of human behavior is governed by unspoken rules of conduct. For artificial systems to be fully integrated into social environments, adherence to such norms is a central prerequisite. We investigate whether contemporary NLG models can function as behavioral priors for systems deployed in social settings by generating action hypotheses that achieve predefined goals under moral constraints. Moreover, we examine if models can anticipate likely consequences of (im)moral actions, or explain why certain actions are preferable by generating relevant norms. For this purpose, we introduce 'Moral Stories', a crowd-sourced dataset of structured, branching narratives for the study of grounded, goal-oriented social reasoning. Finally, we propose decoding strategies that effectively combine multiple expert models to significantly improve the quality of generated actions, consequences, and norms compared to strong baselines, e.g. though abductive reasoning.
翻訳日:2021-04-17 17:27:19 公開日:2020-12-31
# 請求項の事実的誤り訂正

Factual Error Correction of Claims ( http://arxiv.org/abs/2012.15788v1 )

ライセンス: Link先を確認
James Thorne, Andreas Vlachos(参考訳) 本稿では, 事実誤り訂正の課題について紹介する: クレームに対する編集を行い, 生成したリライトを証拠によって支持する。 第一に、誤報を含む文章を訂正するメカニズムを提供し、第二に、すでに証拠によって部分的に支持されている主張に対する本質的な説明として機能する。 遠隔観察および検索した証拠を用いた追加のトレーニングデータを必要としない事実的誤り訂正が可能であることを実証する。 我々は,最近のファクト検証データセットに基づく65,000インスタンスのデータセットをリリースし,遠隔教師あり方式と完全教師付き天井方式を比較した。 手動による評価では, 自動評価指標は, 事実判断と相関し, エラーが実際に修正されたかどうかを示す。

This paper introduces the task of factual error correction: performing edits to a claim so that the generated rewrite is supported by evidence. This serves two purposes: firstly this provides a mechanism to correct written texts that contain misinformation, and secondly, this acts as an inherent explanation for claims already partially supported by evidence. We demonstrate that factual error correction is possible without the need for any additional training data using distant-supervision and retrieved evidence. We release a dataset of 65,000 instances, based on a recent fact verification dataset, to compare our distantly-supervised method to a fully supervised ceiling system. Our manual evaluation indicates which automated evaluation metrics best correlate with human judgements of factuality and whether errors were actually corrected.
翻訳日:2021-04-17 17:27:03 公開日:2020-12-31
# EarlyBERT:Early-bird Lottery Ticketsによる効率的なBERTトレーニング

EarlyBERT: Efficient BERT Training via Early-bird Lottery Tickets ( http://arxiv.org/abs/2101.00063v1 )

ライセンス: Link先を確認
Xiaohan Chen, Yu Cheng, Shuohang Wang, Zhe Gan, Zhangyang Wang, Jingjing Liu(参考訳) BERT、XLNet、T5といった非常に過度にパラメータ化された言語モデルは、多くのNLPタスクで驚くべき成功を収めた。 しかし、その高いモデルの複雑さは、事前学習と微調整の両方において、膨大な計算リソースと非常に長い訓練時間を必要とする。 多くの作品が大規模nlpモデルにおけるモデル圧縮を研究しているが、コスト/時間削減にのみ焦点をあてる一方で、高価なトレーニングプロセスも必要である。 他の作業では、非常に大きなバッチサイズを使用して、計算リソースの高需要を犠牲にして事前学習時間を短縮する。 本稿では,コンピュータビジョンタスクで研究されている早期鳥抽選券に着想を得て,大規模言語モデルの事前学習と微調整の両方に適用可能な汎用計算効率のトレーニングアルゴリズムであるearlybertを提案する。 BERTトレーニングの初期段階において、構造化された勝利チケットを最初に識別し、効率的なトレーニングに使用する。 GLUEおよびSQuADダウンストリームタスクの総合的な事前トレーニングおよび微調整実験により、EarlyBERTはトレーニング時間を35~45%削減した標準BERTと容易に同等のパフォーマンスを達成できることが示された。

Deep, heavily overparameterized language models such as BERT, XLNet and T5 have achieved impressive success in many NLP tasks. However, their high model complexity requires enormous computation resources and extremely long training time for both pre-training and fine-tuning. Many works have studied model compression on large NLP models, but only focus on reducing inference cost/time, while still requiring expensive training process. Other works use extremely large batch sizes to shorten the pre-training time at the expense of high demand for computation resources. In this paper, inspired by the Early-Bird Lottery Tickets studied for computer vision tasks, we propose EarlyBERT, a general computationally-effi cient training algorithm applicable to both pre-training and fine-tuning of large-scale language models. We are the first to identify structured winning tickets in the early stage of BERT training, and use them for efficient training. Comprehensive pre-training and fine-tuning experiments on GLUE and SQuAD downstream tasks show that EarlyBERT easily achieves comparable performance to standard BERT with 35~45% less training time.
翻訳日:2021-04-17 17:26:33 公開日:2020-12-31
# CorrNet3D:3Dポイントクラウドのためのディエンス対応の教師なしエンドツーエンド学習

CorrNet3D: Unsupervised End-to-end Learning of Dense Correspondence for 3D Point Clouds ( http://arxiv.org/abs/2012.15638v1 )

ライセンス: Link先を確認
Yiming Zeng, Yue Qian, Zhiyu Zhu, Junhui Hou, Hui Yuan, Ying He(参考訳) 本稿では,3次元形状間の密接な対応をポイントクラウドという形で計算する問題について述べる。 従来の手法では、大量のアノテートされたデータを必要とするが、入手が困難かつ高価である。 2つの整合点雲を互いに容易に有意義に変換できるという直感によって、最初の教師なし、エンドツーエンドのディープラーニングベースのフレームワークであるCorrNet3Dを提案し、変形のような再構成によって密接な対応の学習を推進し、注釈付きデータの必要性を克服する。 具体的には、corrnet3dは深い特徴埋め込みモジュールと、対応インジケータと対称変形と呼ばれる2つの新しいモジュールで構成されている。 一対の生の点雲を供給し、まずその点の特徴を学習し、それらをインジケータに渡して入力対をパーミュレートする学習可能な対応行列を生成する。 対称変形器は、さらなる正規化損失を伴い、2つの置換点雲を互いに変換し、対応の教師なし学習を促進する。 剛性および非剛性な3D形状の合成および実世界のデータセットに関する広範な実験は、CorrNet3Dがメッシュを入力として取り込むことを含む最先端の手法をかなり上回っていることを示している。 CorrNet3Dは、アノテーション付きデータが利用可能であれば、教師あり学習に容易に適応できるフレキシブルなフレームワークである。

This paper addresses the problem of computing dense correspondence between 3D shapes in the form of point clouds, which is a challenging and fundamental problem in computer vision and digital geometry processing. Conventional approaches often solve the problem in a supervised manner, requiring massive annotated data, which is difficult and/or expensive to obtain. Motivated by the intuition that one can transform two aligned point clouds to each other more easily and meaningfully than a misaligned pair, we propose CorrNet3D -- the first unsupervised and end-to-end deep learning-based framework -- to drive the learning of dense correspondence by means of deformation-like reconstruction to overcome the need for annotated data. Specifically, CorrNet3D consists of a deep feature embedding module and two novel modules called correspondence indicator and symmetric deformation. Feeding a pair of raw point clouds, our model first learns the pointwise features and passes them into the indicator to generate a learnable correspondence matrix used to permute the input pair. The symmetric deformer, with an additional regularized loss, transforms the two permuted point clouds to each other to drive the unsupervised learning of the correspondence. The extensive experiments on both synthetic and real-world datasets of rigid and non-rigid 3D shapes show our CorrNet3D outperforms state-of-the-art methods to a large extent, including those taking meshes as input. CorrNet3D is a flexible framework in that it can be easily adapted to supervised learning if annotated data are available.
翻訳日:2021-04-17 17:26:12 公開日:2020-12-31
# 自然言語処理のためのゼロショット知識蒸留

Towards Zero-Shot Knowledge Distillation for Natural Language Processing ( http://arxiv.org/abs/2012.15495v1 )

ライセンス: Link先を確認
Ahmad Rashid, Vasileios Lioutas, Abbas Ghaddar and Mehdi Rezagholizadeh(参考訳) 知識蒸留(KD)は、様々なディープラーニングベースの自然言語処理(NLP)ソリューションにおけるモデル圧縮に使用される一般的な知識伝達アルゴリズムである。 通常の表現では、kdは生徒ネットワークへの知識伝達のために教師のトレーニングデータにアクセスする必要がある。 しかし、プライバシの懸念、データ規制、プロプライエタリな理由は、そのようなデータへのアクセスを妨げる可能性がある。 我々は,NLPのためのゼロショット知識蒸留(Zero-Shot Knowledge Distillation for NLP)に関する最初の研究を行い,より大規模な教師からタスク固有のデータなしで学習した。 本ソリューションは,教師の出力分布を学習するために,ドメインデータと対人訓練を併用する。 GLUEベンチマークの6つの課題について検討し、モデルを30回圧縮しながら教師の分類スコア(精度またはF1)の75%から92%を達成できることを示した。

Knowledge Distillation (KD) is a common knowledge transfer algorithm used for model compression across a variety of deep learning based natural language processing (NLP) solutions. In its regular manifestations, KD requires access to the teacher's training data for knowledge transfer to the student network. However, privacy concerns, data regulations and proprietary reasons may prevent access to such data. We present, to the best of our knowledge, the first work on Zero-Shot Knowledge Distillation for NLP, where the student learns from the much larger teacher without any task specific data. Our solution combines out of domain data and adversarial training to learn the teacher's output distribution. We investigate six tasks from the GLUE benchmark and demonstrate that we can achieve between 75% and 92% of the teacher's classification score (accuracy or F1) while compressing the model 30 times.
翻訳日:2021-04-17 17:25:35 公開日:2020-12-31
# 事前学習型言語モデルの構築

Making Pre-trained Language Models Better Few-shot Learners ( http://arxiv.org/abs/2012.15723v1 )

ライセンス: Link先を確認
Tianyu Gao, Adam Fisch, Danqi Chen(参考訳) 最近のGPT-3モデル(Brown et al., 2020)は、自然言語のプロンプトといくつかのタスクのデモを入力コンテキストとして活用することで、目覚ましい数ショットのパフォーマンスを実現している。 これらの知見に触発されて,より実用的なシナリオで,微調整が計算効率のよい小型言語モデルを用いて,小数点学習の研究を行った。 我々は,少数のアノテーション付き例で言語モデルの微調整を行うための,単純かつ補完的な手法のスイートであるlm-bff(better few-shot fine-tuning of language models)を提案する。 提案手法は,(1)プロンプトベースの微調整と,(2)プロンプト生成を自動化する新しいパイプライン,(2)動的かつ選択的に各コンテキストにデモを組み込むための洗練された戦略を含む。 最後に,NLPタスクの分類と回帰を含む多種多様なタスクにおいて,少数ショットのパフォーマンスを解析するための体系的評価を提案する。 実験の結果,本手法は,この低リソース環境での標準微調整手順を劇的に上回り,最大30%の絶対的改善を達成し,全タスクの平均11%を達成できた。 このアプローチは、タスクリソースとドメインの専門知識を最小限に仮定するので、少数ショット学習のための強力なタスク非依存の手法となる。

The recent GPT-3 model (Brown et al., 2020) achieves remarkable few-shot performance solely by leveraging a natural-language prompt and a few task demonstrations as input context. Inspired by their findings, we study few-shot learning in a more practical scenario, where we use smaller language models for which fine-tuning is computationally efficient. We present LM-BFF--better few-shot fine-tuning of language models--a suite of simple and complementary techniques for fine-tuning language models on a small number of annotated examples. Our approach includes (1) prompt-based fine-tuning together with a novel pipeline for automating prompt generation; and (2) a refined strategy for dynamically and selectively incorporating demonstrations into each context. Finally, we present a systematic evaluation for analyzing few-shot performance on a range of NLP tasks, including classification and regression. Our experiments demonstrate that our methods combine to dramatically outperform standard fine-tuning procedures in this low resource setting, achieving up to 30% absolute improvement, and 11% on average across all tasks. Our approach makes minimal assumptions on task resources and domain expertise, and hence constitutes a strong task-agnostic method for few-shot learning.
翻訳日:2021-04-17 17:25:23 公開日:2020-12-31
# 塩分法に関する定量的評価--実験的検討

Quantitative Evaluations on Saliency Methods: An Experimental Study ( http://arxiv.org/abs/2012.15616v1 )

ライセンス: Link先を確認
Xiao-Hui Li, Yuhan Shi, Haoyang Li, Wei Bai, Yuanwei Song, Caleb Chen Cao, Lei Chen(参考訳) eXplainable AI(XAI)が重要なトピックであると長年議論されてきたが、厳密な定義と公正なメトリクスは欠如している。 本稿では,測定値の現況を簡潔に要約するとともに,忠実性,局在性,偽陽性,感度チェック,安定性などに基づく徹底的な実験を行った。 実験の結果, 比較した手法の中で, 一つの説明法が他を圧倒することはない, と結論づけた。 それでも、Grad-CAM(Grad-CAM)とRISE(Randomly Input Smpling for Explanation)は、ほとんどのメトリクスでかなりよく機能します。 さらに,一組のフィルタメトリクスを用いて,モデルの分類基準を診断するケーススタディを提案する。 メトリクスに関する総合的な実験的研究を提供する一方で、現在のメトリクスで欠落している要因を測定し、この貴重な研究が将来の研究のガイドになることを期待している。

It has been long debated that eXplainable AI (XAI) is an important topic, but it lacks rigorous definition and fair metrics. In this paper, we briefly summarize the status quo of the metrics, along with an exhaustive experimental study based on them, including faithfulness, localization, false-positives, sensitivity check, and stability. With the experimental results, we conclude that among all the methods we compare, no single explanation method dominates others in all metrics. Nonetheless, Gradient-weighted Class Activation Mapping (Grad-CAM) and Randomly Input Sampling for Explanation (RISE) perform fairly well in most of the metrics. Utilizing a set of filtered metrics, we further present a case study to diagnose the classification bases for models. While providing a comprehensive experimental study of metrics, we also examine measuring factors that are missed in current metrics and hope this valuable work could serve as a guide for future research.
翻訳日:2021-04-17 17:24:09 公開日:2020-12-31
# ニューラルネットワーク学習におけるトポロジカル障害

Topological obstructions in neural networks learning ( http://arxiv.org/abs/2012.15834v1 )

ライセンス: Link先を確認
Serguei Barannikov, Grigorii Sotnikov, Ilya Trofimov, Alexander Korotin, Evgeny Burnaev(参考訳) 本研究では,損失関数に対するトポロジカルデータ解析の手法を適用し,深層ニューラルネットワークの学習とその一般化特性について考察する。 損失関数勾配流のグローバル特性について検討する。 損失関数とそのモースコンプレックスの位相データ解析を用いて,損失面の大域的特性と勾配軌道に沿った局所的挙動を関連付ける。 我々は,ロバストな位相不変量,損失関数のバーコードを用いて,勾配に基づく最適化のための局所的ミニマの悪さを定量化するニューラルネットワークトポロジカル障害スコア,to-scoreを定義する。 我々は、これらの不変量の計算、小さなニューラルネットワーク、およびmnist、 fashion mnist、cifar10、svhnといった異なるデータセット上の完全接続、畳み込み、resnetライクなニューラルネットワークについて、いくつかの実験を行った。 主な観測は以下の2つである。 まず、ニューラルネットワークの深さと幅の増加に伴い、ニューラルネットワークバーコードとTOスコアが減少する。 第二に、バーコード内のミニマセグメントの長さとミニマ一般化誤差の間に興味深い関係がある。

We apply methods of topological data analysis to loss functions to gain insights on learning of deep neural networks and their generalization properties. We study global properties of the loss function gradient flow. We use topological data analysis of the loss function and its Morse complex to relate local behavior along gradient trajectories with global properties of the loss surface. We define neural network Topological Obstructions score, TO-score, with help of robust topological invariants, barcodes of loss function, that quantify the badness of local minima for gradient-based optimization. We have made several experiments for computing these invariants, for small neural networks, and for fully connected, convolutional and ResNet-like neural networks on different datasets: MNIST, Fashion MNIST, CIFAR10, SVHN. Our two principal observations are as follows. Firstly, the neural network barcode and TO-score decrease with the increase of the neural network depth and width. Secondly, there is an intriguing connection between the length of minima segments in the barcode and the minima generalization error.
翻訳日:2021-04-17 17:23:52 公開日:2020-12-31
# 粒子双対平均化:大域収束率解析を用いた平均場ニューラルネットワークの最適化

Particle Dual Averaging: Optimization of Mean Field Neural Networks with Global Convergence Rate Analysis ( http://arxiv.org/abs/2012.15477v1 )

ライセンス: Link先を確認
Atsushi Nitanda, Denny Wu, Taiji Suzuki(参考訳) 本稿では,2次平均化法を凸最適化で一般化したPDA法と,定量的ランタイム保証を伴う確率分布の最適化を提案する。 このアルゴリズムは内側ループと外側ループから構成されており、内側ループはランジュバンアルゴリズムを用いて定常分布を近似解き、外側ループで最適化される。 したがって、この方法は確率空間上の非線形汎函数を自然に扱うランゲヴィンアルゴリズムの拡張と解釈できる。 提案手法の重要な応用は, 平均場状態における2層ニューラルネットワークの最適化であり, 非線形特徴学習の存在により理論的に魅力的であるが, 定量的収束率の確立は困難である。 平均場限界におけるニューラルネットワークはpdaによってグローバルに最適化できることを示す。 さらに,有限次元空間における凸最適化理論を用いて収束率を特徴付ける。 理論的な結果は、ニューラルネットワークの適度な大きさの数値シミュレーションによって支持される。

We propose the particle dual averaging (PDA) method, which generalizes the dual averaging method in convex optimization to the optimization over probability distributions with quantitative runtime guarantee. The algorithm consists of an inner loop and outer loop: the inner loop utilizes the Langevin algorithm to approximately solve for a stationary distribution, which is then optimized in the outer loop. The method can thus be interpreted as an extension of the Langevin algorithm to naturally handle nonlinear functional on the probability space. An important application of the proposed method is the optimization of two-layer neural network in the mean field regime, which is theoretically attractive due to the presence of nonlinear feature learning, but quantitative convergence rate can be challenging to establish. We show that neural networks in the mean field limit can be globally optimized by PDA. Furthermore, we characterize the convergence rate by leveraging convex optimization theory in finite-dimensional spaces. Our theoretical results are supported by numerical simulations on neural networks with reasonable size.
翻訳日:2021-04-17 17:23:33 公開日:2020-12-31
# 自然言語クエリを用いた生ビデオデータベースの検索

Searching a Raw Video Database using Natural Language Queries ( http://arxiv.org/abs/2012.15565v1 )

ライセンス: Link先を確認
Sriram Krishna, Siddarth Vinay, Srinivas K S(参考訳) ビデオストリーミングプラットフォームのデータベースに保存されるビデオの数は、時間とともに指数関数的に増えている。 この巨大なデータベースは、所定の検索仕様に適合する必要なクリップやビデオを見つけるのに簡単にインデックス化でき、好ましくはテキストクエリの形で検索できる。 この作業は、エンドユーザから音声クエリでビデオデータベースを検索するためのエンドツーエンドパイプラインを提供することを目的としている。 このパイプラインでは、リカレントニューラルネットワークと畳み込みニューラルネットワークを組み合わせて、データベースに存在するビデオクリップのキャプションを生成する。

The number of videos being produced and consequently stored in databases for video streaming platforms has been increasing exponentially over time. This vast database should be easily index-able to find the requisite clip or video to match the given search specification, preferably in the form of a textual query. This work aims to provide an end-to-end pipeline to search a video database with a voice query from the end user. The pipeline makes use of Recurrent Neural Networks in combination with Convolutional Neural Networks to generate captions of the video clips present in the database.
翻訳日:2021-04-17 17:22:54 公開日:2020-12-31
# マルチクリティカルポリシー勾配最適化による無人航空機コーディネーションのマルチエージェント強化学習

Multi-Agent Reinforcement Learning for Unmanned Aerial Vehicle Coordination by Multi-Critic Policy Gradient Optimization ( http://arxiv.org/abs/2012.15472v1 )

ライセンス: Link先を確認
Yoav Alon and Huiyu Zhou(参考訳) 無人航空機(UAV)の開発における最近の技術進歩と買収コストの低減により、ドローンの運用は様々なタスクで魅力的なものとなっている。 農業、災害管理、捜索救助活動、商業および軍事用途において、ドローンの艦隊を適用する利点は、自律的に協力する能力から来ている。 ニューラルネットワークに基づく制御ポリシを最適化することを目的としたマルチエージェント強化学習アプローチ – アクター・クリティカルなポリシ勾配アルゴリズムなど – では,異なる報酬源のエラーを効果的にバックプロパゲートすることに苦労し,これまで学んだ類似性のコーディネーションや活用を無視したまま,有益なシグナルを優先する傾向にある。 エージェントの最適調整を実現するために,複数値推定ネットワークと確率的アクターポリシーネットワークを最適化する新たな利点関数を備えたマルチクリティカルポリシー最適化アーキテクチャを提案する。 その結果,物理ベースの強化学習環境において,複数のドローンの協調を必要とするタスクにアルゴリズムを適用した。 本手法は,エージェント数の増加に対して,安定したポリシーネットワーク更新と報酬信号開発における類似性を実現する。 結果として得られたポリシーは衝突回避のような制約に最適な調整とコンプライアンスを達成する。

Recent technological progress in the development of Unmanned Aerial Vehicles (UAVs) together with decreasing acquisition costs make the application of drone fleets attractive for a wide variety of tasks. In agriculture, disaster management, search and rescue operations, commercial and military applications, the advantage of applying a fleet of drones originates from their ability to cooperate autonomously. Multi-Agent Reinforcement Learning approaches that aim to optimize a neural network based control policy, such as the best performing actor-critic policy gradient algorithms, struggle to effectively back-propagate errors of distinct rewards signal sources and tend to favor lucrative signals while neglecting coordination and exploitation of previously learned similarities. We propose a Multi-Critic Policy Optimization architecture with multiple value estimating networks and a novel advantage function that optimizes a stochastic actor policy network to achieve optimal coordination of agents. Consequently, we apply the algorithm to several tasks that require the collaboration of multiple drones in a physics-based reinforcement learning environment. Our approach achieves a stable policy network update and similarity in reward signal development for an increasing number of agents. The resulting policy achieves optimal coordination and compliance with constraints such as collision avoidance.
翻訳日:2021-04-17 17:22:45 公開日:2020-12-31
# deep graph generators: 調査

Deep Graph Generators: A Survey ( http://arxiv.org/abs/2012.15544v1 )

ライセンス: Link先を確認
Faezeh Faez, Yassaman Ommi, Mahdieh Soleymani Baghshah, Hamid R. Rabiee(参考訳) 深層生成モデルは、過去数年間、画像、音声、自然言語処理などの分野で大きな成功を収めてきた。 近年,グラフに基づく深層学習,特にグラフ表現学習の進歩により,新しい分子構造発見からソーシャルネットワークのモデリングに至るまで,深層グラフ生成手法が登場している。 本稿では,ディープラーニングに基づくグラフ生成手法を包括的に調査し,それらを自己回帰型,自己エンコーダ型,自己エンコーダ型,RL型,対向型,フロー型5つのカテゴリに分類し,各クラスにおける手法の詳細な説明を提供する。 また、公開されているソースコード、一般的に使用されるデータセット、最も広く使われている評価メトリクスも提示します。 最後に,既存の課題を強調し,今後の研究方針について議論する。

Deep generative models have achieved great success in areas such as image, speech, and natural language processing in the past few years. Thanks to the advances in graph-based deep learning, and in particular graph representation learning, deep graph generation methods have recently emerged with new applications ranging from discovering novel molecular structures to modeling social networks. This paper conducts a comprehensive survey on deep learning-based graph generation approaches and classifies them into five broad categories, namely, autoregressive, autoencoder-based, RL-based, adversarial, and flow-based graph generators, providing the readers a detailed description of the methods in each class. We also present publicly available source codes, commonly used datasets, and the most widely utilized evaluation metrics. Finally, we highlight the existing challenges and discuss future research directions.
翻訳日:2021-04-17 17:22:25 公開日:2020-12-31
# 定時間適応負サンプリング

A Constant-time Adaptive Negative Sampling ( http://arxiv.org/abs/2012.15843v1 )

ライセンス: Link先を確認
Shabnam Daghaghi, Tharun Medini, Beidi Chen, Mengnan Zhao, Anshumali Shrivastava(参考訳) 非常に多数のクラスを持つsoftmax分類器は自然言語処理や情報検索といった多くのアプリケーションで自然に発生する。 フルソフトマックスの計算は計算とエネルギーの観点から非常に高価である。 この課題を克服するための様々なサンプリングアプローチがあり、一般には負サンプリング(NS)として知られている。 理想的には、NSは入力データ、現在のパラメータ、正しい正のクラスに依存する分布から負のクラスをサンプリングする必要がある。 残念ながら、動的に更新されたパラメータとデータサンプルのため、真に適応的なサンプリングスキームはなく、反復毎に一定の時間内に負のクラスをサンプリングする。 そのため、ランダムサンプリング、静的周波数ベースサンプリング、学習ベースのバイアスサンプリングといった、主にサンプリングコストとイテレーション当たりのサンプルの適応性を交換する代替ヒューリスティックが採用される。 本稿では,サンプリング方式が真に適応し,一定の時間内に負のサンプルを確実に生成する分布のクラスを示す。 C++のコモディティCPUへの実装は、標準的なソフトマックスや他の最新のGPU(V100s)へのサンプリングアプローチの最も最適化されたTensorFlow実装と比較して、ウォールクロック時間の観点からはるかに高速です。

Softmax classifiers with a very large number of classes naturally occur in many applications such as natural language processing and information retrieval. The calculation of full-softmax is very expensive from the computational and energy perspective. There have been a variety of sampling approaches to overcome this challenge, popularly known as negative sampling (NS). Ideally, NS should sample negative classes from a distribution that is dependent on the input data, the current parameters, and the correct positive class. Unfortunately, due to the dynamically updated parameters and data samples, there does not exist any sampling scheme that is truly adaptive and also samples the negative classes in constant time every iteration. Therefore, alternative heuristics like random sampling, static frequency-based sampling, or learning-based biased sampling, which primarily trade either the sampling cost or the adaptivity of samples per iteration, are adopted. In this paper, we show a class of distribution where the sampling scheme is truly adaptive and provably generates negative samples in constant time. Our implementation in C++ on commodity CPU is significantly faster, in terms of wall clock time, compared to the most optimized TensorFlow implementations of standard softmax or other sampling approaches on modern GPUs (V100s).
翻訳日:2021-04-17 17:22:12 公開日:2020-12-31
# 微分可能プログラミング \`a la Moreau

Differentiable Programming \`a la Moreau ( http://arxiv.org/abs/2012.15458v1 )

ライセンス: Link先を確認
Vincent Roulet and Zaid Harchaoui(参考訳) モロー包絡の概念は、機械学習のための一階最適化アルゴリズムの解析の中心である。 しかし、深層ネットワークや、より広い意味で、微分可能なプログラミング実装を持つ機械学習システムに適用するために、開発や拡張はされていない。 モローエンベロープに適応した構成計算を定義し、それを微分可能プログラミングに統合する方法を示す。 提案するフレームワークは,数理最適化フレームワークにおいて,仮想対象の伝播の考え方に関連する勾配バックプロパゲーションのいくつかの変種をキャストする。

The notion of a Moreau envelope is central to the analysis of first-order optimization algorithms for machine learning. Yet, it has not been developed and extended to be applied to a deep network and, more broadly, to a machine learning system with a differentiable programming implementation. We define a compositional calculus adapted to Moreau envelopes and show how to integrate it within differentiable programming. The proposed framework casts in a mathematical optimization framework several variants of gradient back-propagation related to the idea of the propagation of virtual targets.
翻訳日:2021-04-17 17:21:52 公開日:2020-12-31
# ロバスト共分散テストのサンプル複雑性

The Sample Complexity of Robust Covariance Testing ( http://arxiv.org/abs/2012.15802v1 )

ライセンス: Link先を確認
Ilias Diakonikolas and Daniel M. Kane(参考訳) 本研究では, 高次元ガウスの共分散行列をロバストな環境で検証する問題について検討する。 具体的には i. i. d. z = (1-\epsilon) x + \epsilon b$, ここで $x$ はゼロ平均で未知の共分散ガウス的$\mathcal{n}(0, \sigma)$, $b$ は固定だが未知のノイズ分布であり、$\epsilon>0$ は汚染率を表す任意に小さい定数である。 我々は、$\Sigma$が恒等行列である場合と、$\gamma$-farがフロベニウスノルムの恒等行列である場合とを区別したい。 汚染がない場合、事前の研究は、$O(d)$サンプルを使用するこの仮説テストタスクの単純なテスターを与えた。 さらに,このサンプルの上限値が一定因子内で最良であることが示された。 本研究の主な成果は,共分散試験のサンプル複雑性が汚染条件において劇的に増加することである。 特に、サンプル複雑性の下限である$\omega(d^2)$ for $\epsilon$ 任意に小さい定数と$\gamma = 1/2$ を証明する。 この下限は、$O(d^2)$サンプルが共分散を頑健に学習するのに十分であるようにできる。 この結果の概念的意味は、我々が考える自然な設定では、ロバスト仮説テストは少なくともロバストな推定と同じくらい難しいということである。

We study the problem of testing the covariance matrix of a high-dimensional Gaussian in a robust setting, where the input distribution has been corrupted in Huber's contamination model. Specifically, we are given i.i.d. samples from a distribution of the form $Z = (1-\epsilon) X + \epsilon B$, where $X$ is a zero-mean and unknown covariance Gaussian $\mathcal{N}(0, \Sigma)$, $B$ is a fixed but unknown noise distribution, and $\epsilon>0$ is an arbitrarily small constant representing the proportion of contamination. We want to distinguish between the cases that $\Sigma$ is the identity matrix versus $\gamma$-far from the identity in Frobenius norm. In the absence of contamination, prior work gave a simple tester for this hypothesis testing task that uses $O(d)$ samples. Moreover, this sample upper bound was shown to be best possible, within constant factors. Our main result is that the sample complexity of covariance testing dramatically increases in the contaminated setting. In particular, we prove a sample complexity lower bound of $\Omega(d^2)$ for $\epsilon$ an arbitrarily small constant and $\gamma = 1/2$. This lower bound is best possible, as $O(d^2)$ samples suffice to even robustly {\em learn} the covariance. The conceptual implication of our result is that, for the natural setting we consider, robust hypothesis testing is at least as hard as robust estimation.
翻訳日:2021-04-17 17:21:28 公開日:2020-12-31
# 機械学習における公正性

Fairness in Machine Learning ( http://arxiv.org/abs/2012.15816v1 )

ライセンス: Link先を確認
Luca Oneto, Silvia Chiappa(参考訳) 機械学習に基づくシステムは、日常の多くの側面において、社会に到達している。 この現象は、これらの技術の採用によって生じる倫理的問題への懸念も伴っている。 MLフェアネス(ML Fairness)は、最近確立された機械学習の分野であり、データやモデルの不正確さのバイアスが、例えば、特性に基づいて個人を好ましくない扱いをするモデルに結びつかないことを確実にする方法を研究する。 人種、性別、障害、性的または政治的指向。 本書では,公平性に関する現在の推論やそれを扱う方法にみられるいくつかの制限について論じ,それらに対処するために著者によってなされたいくつかの作品について述べる。 より具体的には、特に複雑な不公平なシナリオにおいて、因果ベイズネットワークが公平性を推論し対処する上で重要な役割を担っていることを示す。 これらの分布の低次モーメントや他の関数に制約を課すことで、最も公平なデシダラタを近似するほとんどのアプローチの制限を克服し、異なる感度属性に対応する分布の完全な形に制約を課す方法を開発するために最適な輸送理論をどのように利用できるかを説明する。 我々は,様々な設定や公平性基準に対応可能な手法を包含し,強力な理論的保証を享受する統一フレームワークを提案する。 我々は,未知のタスクに一般化できる公平な表現を学ぶためのアプローチを紹介する。 最後に,機密属性の使用に関する法的制約を考慮した手法について述べる。

Machine learning based systems are reaching society at large and in many aspects of everyday life. This phenomenon has been accompanied by concerns about the ethical issues that may arise from the adoption of these technologies. ML fairness is a recently established area of machine learning that studies how to ensure that biases in the data and model inaccuracies do not lead to models that treat individuals unfavorably on the basis of characteristics such as e.g. race, gender, disabilities, and sexual or political orientation. In this manuscript, we discuss some of the limitations present in the current reasoning about fairness and in methods that deal with it, and describe some work done by the authors to address them. More specifically, we show how causal Bayesian networks can play an important role to reason about and deal with fairness, especially in complex unfairness scenarios. We describe how optimal transport theory can be used to develop methods that impose constraints on the full shapes of distributions corresponding to different sensitive attributes, overcoming the limitation of most approaches that approximate fairness desiderata by imposing constraints on the lower order moments or other functions of those distributions. We present a unified framework that encompasses methods that can deal with different settings and fairness criteria, and that enjoys strong theoretical guarantees. We introduce an approach to learn fair representations that can generalize to unseen tasks. Finally, we describe a technique that accounts for legal restrictions about the use of sensitive attributes.
翻訳日:2021-04-17 17:20:58 公開日:2020-12-31
# 最適精度をもつランダム埋め込み

Random Embeddings with Optimal Accuracy ( http://arxiv.org/abs/2101.00029v1 )

ライセンス: Link先を確認
Maciej Skorski(参考訳) この研究は、分散、平均二乗誤差、および長さ歪みの指数集中によって測定されるように、最も正確なジョンソン・リンデンシュトラウス埋め込みを構成する。 任意のデータと埋め込み次元の低い境界は決定され、整合性および効率的なサンプリング可能な構成(直交行列上に構築される)が伴う。 新たな手法:単位球パラメトリゼーション、特異値潜在変数の使用、シュール凸性は独立した関心を持つ。

This work constructs Jonson-Lindenstrauss embeddings with best accuracy, as measured by variance, mean-squared error and exponential concentration of the length distortion. Lower bounds for any data and embedding dimensions are determined, and accompanied by matching and efficiently samplable constructions (built on orthogonal matrices). Novel techniques: a unit sphere parametrization, the use of singular-value latent variables and Schur-convexity are of independent interest.
翻訳日:2021-04-17 17:20:37 公開日:2020-12-31
# SharpGAN: 動的シーンデブロアリングのための受容フィールドブロックネット

SharpGAN: Receptive Field Block Net for Dynamic Scene Deblurring ( http://arxiv.org/abs/2012.15432v1 )

ライセンス: Link先を確認
Hui Feng and Jundong Guo and Sam Shuzhi Ge(参考訳) 海上を航行する際には、風、波、電流の作用によって必然的に揺れる動きを発生させ、視覚センサーによって収集された画像が動きをぼやける。 これにより、視覚センサに基づく物体検出アルゴリズムに悪影響を及ぼすため、スマート船の航行安全性に影響を及ぼす。 スマート船の航行中の画像中の動きのぼかしを取り除くために, 生成的対向ネットワークに基づく新たな画像デブロア法SharpGANを提案する。 まず、受信フィールドブロックネット(RFBNet)を遅延ネットワークに導入し、ぼやけた画像の特徴を抽出するネットワークの能力を強化する。 次に,異なるレベルの画像特徴を組み合わせてネットワークを誘導し,高品質なデブロアリングを行い,復元画像とシャープ画像との類似性を改善する特徴損失を提案する。 最後に、軽量RFB-sモジュールを用いて、デブロアリングネットワークのリアルタイム性能を改善することを提案する。 大規模海面画像データセットと大規模海面画像データセットのデブロアリング手法と比較して,提案手法は視覚的知覚や量的基準において優れたデブロアリング性能を有するだけでなく,デブロアリング効率も高い。

When sailing at sea, the smart ship will inevitably produce swaying motion due to the action of wind, wave and current, which makes the image collected by the visual sensor appear motion blur. This will have an adverse effect on the object detection algorithm based on the vision sensor, thereby affect the navigation safety of the smart ship. In order to remove the motion blur in the images during the navigation of the smart ship, we propose SharpGAN, a new image deblurring method based on the generative adversarial network. First of all, the Receptive Field Block Net (RFBNet) is introduced to the deblurring network to strengthen the network's ability to extract the features of blurred image. Secondly, we propose a feature loss that combines different levels of image features to guide the network to perform higher-quality deblurring and improve the feature similarity between the restored images and the sharp image. Finally, we propose to use the lightweight RFB-s module to improve the real-time performance of deblurring network. Compared with the existing deblurring methods on large-scale real sea image datasets and large-scale deblurring datasets, the proposed method not only has better deblurring performance in visual perception and quantitative criteria, but also has higher deblurring efficiency.
翻訳日:2021-04-17 17:20:01 公開日:2020-12-31
# オクターブ型残差ブロックを用いた多分解能可変レート画像圧縮

Learned Multi-Resolution Variable-Rate Image Compression with Octave-based Residual Blocks ( http://arxiv.org/abs/2012.15463v1 )

ライセンス: Link先を確認
Mohammad Akbari, Jie Liang, Jingning Han, Chengjie Tu(参考訳) 近年,深層学習に基づく画像圧縮は,従来のコーデックに勝る可能性を示している。 しかし、既存の手法の多くは複数ビットレートで複数のネットワークを訓練しており、実装の複雑さが増す。 本稿では,一般化オクターブ畳み込み(GoConv)と一般化オクターブ転置畳み込み(GoTConv)と,一般化ディビジョン正規化(GDN)と逆GDN(IGDN)を組み込んだ新しい可変レート画像圧縮フレームワークを提案する。 エンコーダネットワークやデコーダネットワークでも,新しいGoConvおよびGoTConvベースの残留ブロックが開発されている。 我々のスキームは、確率的丸めに基づくスカラー量子化も利用する。 さらに性能を向上させるため、デコーダネットワークからの入力と再構成画像の間の残差を強調層として符号化する。 単一モデルが異なるビットレートで動作し、複数レートの画像特徴を学習できるようにするため、新しい目的関数が導入される。 実験結果から,H.265/HEVCベースのBPGや最先端の学習に基づく可変レート法などの標準コーデックよりも高い性能を示した。

Recently deep learning-based image compression has shown the potential to outperform traditional codecs. However, most existing methods train multiple networks for multiple bit rates, which increase the implementation complexity. In this paper, we propose a new variable-rate image compression framework, which employs generalized octave convolutions (GoConv) and generalized octave transposed-convoluti ons (GoTConv) with built-in generalized divisive normalization (GDN) and inverse GDN (IGDN) layers. Novel GoConv- and GoTConv-based residual blocks are also developed in the encoder and decoder networks. Our scheme also uses a stochastic rounding-based scalar quantization. To further improve the performance, we encode the residual between the input and the reconstructed image from the decoder network as an enhancement layer. To enable a single model to operate with different bit rates and to learn multi-rate image features, a new objective function is introduced. Experimental results show that the proposed framework trained with variable-rate objective function outperforms the standard codecs such as H.265/HEVC-based BPG and state-of-the-art learning-based variable-rate methods.
翻訳日:2021-04-17 17:19:38 公開日:2020-12-31
# 心臓MRIセグメント化のためのニューラルネットワークの不確かさの推定:ベンチマークによる検討

Estimating Uncertainty in Neural Networks for Cardiac MRI Segmentation: A Benchmark Study ( http://arxiv.org/abs/2012.15772v1 )

ライセンス: Link先を確認
Matthew Ng, Fumin Guo, Labonny Biswas, Steffen E. Petersen, Stefan K. Piechnik, Stefan Neubauer, Graham Wright(参考訳) 畳み込みニューラルネットワーク(cnns)は、心臓磁気共鳴画像の自動セグメンテーションにおいて有望である。 しかし、大規模な実世界のデータセットでCNNを使用する場合、どのセグメンテーションが問題となるかを知るために、セグメンテーションの不確実性を定量化することが重要である。 本研究では,セグメンテーションニューラルネットワークにおける不確かさを推定するためのベイズ法と非ベイズ法を体系的に検討した。 bbb,モンテカルロ (mc) ドロップアウト, ディープアンサンブルによるベイズ評価を行い, セグメンテーション精度, 確率校正, 分布画像の不確実性, セグメンテーション品質制御について検討した。 様々な歪みのあるデータセット上でこれらのアルゴリズムをテストし、ノイズの大きい画像を除いて、深いアンサンブルが他の方法よりも優れていることを観測した。 セグメンテーション品質制御において,セグメンテーションの不確実性はセグメンテーション精度と相関することを示した。 不確実性評価の実施により、ニューラルネットワークの不確実性を用いることなく、結果のランダムなレビューよりも大幅に低い、手作業でもっとも不確実な画像の31%から48%にフラグを付けることで、不確実性評価の比率を5%に下げることができた。

Convolutional neural networks (CNNs) have demonstrated promise in automated cardiac magnetic resonance imaging segmentation. However, when using CNNs in a large real world dataset, it is important to quantify segmentation uncertainty in order to know which segmentations could be problematic. In this work, we performed a systematic study of Bayesian and non-Bayesian methods for estimating uncertainty in segmentation neural networks. We evaluated Bayes by Backprop (BBB), Monte Carlo (MC) Dropout, and Deep Ensembles in terms of segmentation accuracy, probability calibration, uncertainty on out-of-distribution images, and segmentation quality control. We tested these algorithms on datasets with various distortions and observed that Deep Ensembles outperformed the other methods except for images with heavy noise distortions. For segmentation quality control, we showed that segmentation uncertainty is correlated with segmentation accuracy. With the incorporation of uncertainty estimates, we were able to reduce the percentage of poor segmentation to 5% by flagging 31% to 48% of the most uncertain images for manual review, substantially lower than random review of the results without using neural network uncertainty.
翻訳日:2021-04-17 17:19:17 公開日:2020-12-31
# iGOS++: 双方向摂動によるグラディエント最適化サリエンシの統合

iGOS++: Integrated Gradient Optimized Saliency by Bilateral Perturbations ( http://arxiv.org/abs/2012.15783v1 )

ライセンス: Link先を確認
Saeed Khorram, Tyler Lawson, Fuxin Li(参考訳) 深層ネットワークのブラックボックスの性質は、「なぜ」ある予測を極めて困難にするのかを説明する。 衛生マップは、この問題を緩和するための最も広く使われているローカルな説明ツールの1つである。 サリエンシマップを生成する主要なアプローチの1つは、入力次元にマスクを最適化することで、ネットワークの出力がマスクによって最も影響を受けるようにすることである。 しかし、先行研究は、入力から証拠を取り除くことによってのみその影響を研究する。 本稿では,入力のごく一部だけを削除あるいは保存することにより,ブラックボックスシステムの出力変更に最適化されたサリエンシマップを生成するフレームワークiGOS++を提案する。 さらに,特に高分解能かつ薄い対象部でサリエンシーマップの連続性を改善するために,二国間総変動項を最適化に付加する。 iGOS++と最先端のサリエンシマップ法を比較して評価した結果,ヒトによって直接解釈可能なサリエント領域の配置が著しく改善された。 igos++をx線画像からcovid-19症例を分類する作業に利用し,分類を行う際,cnnネットワークがx線画像に印刷された文字に過度に適合する場合があることを発見した。 データクリーニングによるこの問題の修正は、分類器の精度とリコールを大幅に改善した。

The black-box nature of the deep networks makes the explanation for "why" they make certain predictions extremely challenging. Saliency maps are one of the most widely-used local explanation tools to alleviate this problem. One of the primary approaches for generating saliency maps is by optimizing a mask over the input dimensions so that the output of the network is influenced the most by the masking. However, prior work only studies such influence by removing evidence from the input. In this paper, we present iGOS++, a framework to generate saliency maps that are optimized for altering the output of the black-box system by either removing or preserving only a small fraction of the input. Additionally, we propose to add a bilateral total variation term to the optimization that improves the continuity of the saliency map especially under high resolution and with thin object parts. The evaluation results from comparing iGOS++ against state-of-the-art saliency map methods show significant improvement in locating salient regions that are directly interpretable by humans. We utilized iGOS++ in the task of classifying COVID-19 cases from x-ray images and discovered that sometimes the CNN network is overfitted to the characters printed on the x-ray images when performing classification. Fixing this issue by data cleansing significantly improved the precision and recall of the classifier.
翻訳日:2021-04-17 17:18:53 公開日:2020-12-31
# 完全帯域フィードバックとそれ以上の組合せ純粋探索:有限観測による不確実性下での組合せ最適化の解法

Combinatorial Pure Exploration with Full-bandit Feedback and Beyond: Solving Combinatorial Optimization under Uncertainty with Limited Observation ( http://arxiv.org/abs/2012.15584v1 )

ライセンス: Link先を確認
Yuko Kuroki, Junya Honda, Masashi Sugiyama(参考訳) 組合せ最適化は、理論計算機科学と運用研究で広く研究されている基礎研究分野の1つである。 組合せ最適化アルゴリズムを開発する際、エッジウェイトなどのパラメータは入力として正確に知られている。 しかし、この仮定は、レコメンデーションシステム、クラウドソーシング、通信ネットワーク、オンライン広告など多くのアプリケーションにおいて、入力パラメータがしばしば不確実または初期不明であるため、実現できない可能性がある。 このような不確実性を解決するために、CPE(Multi-armed bandits)とその変種の組み合わせ純粋探索の問題が注目されている。 CPEに関する以前の研究は、半帯域フィードバックを研究したり、個々のエッジからの結果は、すべてのラウンドで常にアクセス可能であると仮定していた。 しかし、予算の上限やプライバシー上の懸念といった現実的な制約のため、このような強いフィードバックは最近のアプリケーションでは必ずしも利用できない。 本稿では,限定的なフィードバックを伴う組合せ純粋探索問題の手法を最近提案した。

Combinatorial optimization is one of the fundamental research fields that has been extensively studied in theoretical computer science and operations research. When developing an algorithm for combinatorial optimization, it is commonly assumed that parameters such as edge weights are exactly known as inputs. However, this assumption may not be fulfilled since input parameters are often uncertain or initially unknown in many applications such as recommender systems, crowdsourcing, communication networks, and online advertisement. To resolve such uncertainty, the problem of combinatorial pure exploration of multi-armed bandits (CPE) and its variants have recieved increasing attention. Earlier work on CPE has studied the semi-bandit feedback or assumed that the outcome from each individual edge is always accessible at all rounds. However, due to practical constraints such as a budget ceiling or privacy concern, such strong feedback is not always available in recent applications. In this article, we review recently proposed techniques for combinatorial pure exploration problems with limited feedback.
翻訳日:2021-04-17 17:18:31 公開日:2020-12-31
# 多種エージェントに対する定常平均場平衡のためのモデル自由強化学習アルゴリズム

Model Free Reinforcement Learning Algorithm for Stationary Mean field Equilibrium for Multiple Types of Agents ( http://arxiv.org/abs/2012.15377v1 )

ライセンス: Link先を確認
Arnob Ghosh and Vaneet Aggarwal(参考訳) エージェントが複数の型を持つような無限地平線上のマルチエージェントマルコフの戦略的相互作用を考える。 我々は,各タイプのエージェント数が無限になった場合の漸近極限における平均場ゲームとして戦略的相互作用をモデル化する。 各エージェントはプライベートな状態を持ち、状態は異なるタイプのエージェントの状態の分布とエージェントのアクションに応じて進化する。 各エージェントは、エージェントの状態とリーダーとフォロワの状態の分布に依存する無限の地平線上でのディスカウントされた報酬の合計を最大化したいと考えている。 我々は,上記のゲームにおいて定常多型平均場平衡(mmfe)を特徴付け,計算する。 定常MMFEが存在する条件を特徴付ける。 最後に,政策勾配を用いた強化学習(Reinforcement Learning, RL)に基づくアルゴリズムを提案する。 我々は,このようなインタラクションがディフェンダーと敵間のサイバー攻撃をどのようにモデル化できるかを数値的に評価し,rlベースのアルゴリズムが均衡に収束するかを示す。

We consider a multi-agent Markov strategic interaction over an infinite horizon where agents can be of multiple types. We model the strategic interaction as a mean-field game in the asymptotic limit when the number of agents of each type becomes infinite. Each agent has a private state; the state evolves depending on the distribution of the state of the agents of different types and the action of the agent. Each agent wants to maximize the discounted sum of rewards over the infinite horizon which depends on the state of the agent and the distribution of the state of the leaders and followers. We seek to characterize and compute a stationary multi-type Mean field equilibrium (MMFE) in the above game. We characterize the conditions under which a stationary MMFE exists. Finally, we propose Reinforcement learning (RL) based algorithm using policy gradient approach to find the stationary MMFE when the agents are unaware of the dynamics. We, numerically, evaluate how such kind of interaction can model the cyber attacks among defenders and adversaries, and show how RL based algorithm can converge to an equilibrium.
翻訳日:2021-04-17 17:18:12 公開日:2020-12-31
# UNIMO:クロスモーダルコントラスト学習による統一モーダル理解と生成を目指して

UNIMO: Towards Unified-Modal Understanding and Generation via Cross-Modal Contrastive Learning ( http://arxiv.org/abs/2012.15409v1 )

ライセンス: Link先を確認
Wei Li, Can Gao, Guocheng Niu, Xinyan Xiao, Hao Liu, Jiachen Liu, Hua Wu, Haifeng Wang(参考訳) 既存の事前学習方法は、シングルモーダルタスクまたはマルチモーダルタスクにフォーカスしており、互いに効果的に適応できない。 単一のモーダルデータ(すなわち)しか利用できない。 テキストまたは画像)または制限されたマルチモーダルデータ(すなわち) image-text pairs)。 本稿では,単一モーダルおよびマルチモーダル理解と生成タスクの両方に効果的に対応可能な統一モーダル事前学習アーキテクチャ,unimoを提案する。 大規模な自由テキストコーパスと画像収集は、視覚的およびテキスト的理解の能力を向上させるために利用でき、クロスモーダルコントラスト学習(CMCL)を利用して、テキストと視覚情報を、画像とテキストのペアのコーパス上の統一意味空間に整合させる。 非ペアリングシングルモーダルデータは非常にリッチであるため、我々のモデルはより大規模なデータを利用してより一般化可能な表現を学習することができる。 さらに、テキスト知識と視覚知識は、統一意味空間において相互に強化することができる。 実験の結果,unimoは複数のシングルモーダルおよびマルチモーダルダウンストリームタスクの性能を大幅に向上させた。

Existed pre-training methods either focus on single-modal tasks or multi-modal tasks, and cannot effectively adapt to each other. They can only utilize single-modal data (i.e. text or image) or limited multi-modal data (i.e. image-text pairs). In this work, we propose a unified-modal pre-training architecture, namely UNIMO, which can effectively adapt to both single-modal and multi-modal understanding and generation tasks. Large scale of free text corpus and image collections can be utilized to improve the capability of visual and textual understanding, and cross-modal contrastive learning (CMCL) is leveraged to align the textual and visual information into a unified semantic space over a corpus of image-text pairs. As the non-paired single-modal data is very rich, our model can utilize much larger scale of data to learn more generalizable representations. Moreover, the textual knowledge and visual knowledge can enhance each other in the unified semantic space. The experimental results show that UNIMO significantly improves the performance of several single-modal and multi-modal downstream tasks.
翻訳日:2021-04-17 17:17:56 公開日:2020-12-31
# 多言語イベント処理のための動詞知識注入

Verb Knowledge Injection for Multilingual Event Processing ( http://arxiv.org/abs/2012.15421v1 )

ライセンス: Link先を確認
Olga Majewska, Ivan Vuli\'c, Goran Glava\v{s}, Edoardo M. Ponti, Anna Korhonen(参考訳) NLPタスク全体での圧倒的な成功と並行して、言語モデリング(LM)の目的によって事前訓練されたディープトランスフォーマーネットワークの言語能力は、広範な精査を受けている。 これらのモデルが言語の様々な構文的・意味的特性を符号化していることが明らかになっているが、より深い言語知識を活用するよりも、下流の課題を解決するための表面的な手がかりや単純なヒューリスティックに逆らう傾向にある。 本稿では,その欠如,言論的推論の1つの領域を対象とする。 動詞の意味合成動作に関する明示的な情報を注入することで、イベント抽出タスクにおけるlmプリトレーニングされたトランスフォーマーのパフォーマンスが向上するかどうかについて検討する。 具体的には,修了した語彙資源からの動詞知識を専用アダプタモジュール(dubbed verb adapters)に付与することにより,lmプリトレーニング中に得られた言語知識を,下流タスクで補うことができる。 まず,動詞知識の注入が英語イベント抽出のパフォーマンス向上につながることを示す。 そこで我々は,(1)多言語変換器を用いたゼロショット言語変換,(2)英語の動詞に基づく語彙制約の(ノイズの多い自動翻訳による)翻訳など,他の言語でのイベント抽出における動詞アダプタの有用性について検討する。 この結果から,動詞の適応者が雑音に翻訳された制約に基づいて訓練された場合でも,動詞の知識注入の利点は他の言語にも拡張できることが示唆された。

In parallel to their overwhelming success across NLP tasks, language ability of deep Transformer networks, pretrained via language modeling (LM) objectives has undergone extensive scrutiny. While probing revealed that these models encode a range of syntactic and semantic properties of a language, they are still prone to fall back on superficial cues and simple heuristics to solve downstream tasks, rather than leverage deeper linguistic knowledge. In this paper, we target one such area of their deficiency, verbal reasoning. We investigate whether injecting explicit information on verbs' semantic-syntactic behaviour improves the performance of LM-pretrained Transformers in event extraction tasks -- downstream tasks for which accurate verb processing is paramount. Concretely, we impart the verb knowledge from curated lexical resources into dedicated adapter modules (dubbed verb adapters), allowing it to complement, in downstream tasks, the language knowledge obtained during LM-pretraining. We first demonstrate that injecting verb knowledge leads to performance gains in English event extraction. We then explore the utility of verb adapters for event extraction in other languages: we investigate (1) zero-shot language transfer with multilingual Transformers as well as (2) transfer via (noisy automatic) translation of English verb-based lexical constraints. Our results show that the benefits of verb knowledge injection indeed extend to other languages, even when verb adapters are trained on noisily translated constraints.
翻訳日:2021-04-17 17:17:35 公開日:2020-12-31
# 知識蒸留を用いたニューラルマシン翻訳のための単言語データ探索

Exploring Monolingual Data for Neural Machine Translation with Knowledge Distillation ( http://arxiv.org/abs/2012.15455v1 )

ライセンス: Link先を確認
Alham Fikri Aji, Kenneth Heafield(参考訳) ニューラルマシン翻訳(nmt)のための知識蒸留訓練に含まれる2種類の単言語データについて検討する。 1つはソース側モノリンガルデータである。 第2に、バックトランスレーションデータとして使用されるターゲット側モノリンガルデータである。 両方のデータセットは、ソース言語からターゲット言語への教師モデルによって(前方に)変換され、さらに小さな学生モデルのデータセットに結合される。 ソース側モノリンガルデータは,ソース側由来のテストセットで評価した場合,モデルの性能を向上させる。 同様に、ターゲット側のデータは反対方向にテストセットにポジティブな影響を与える。 また、ドメインが同じである限り、教師が使用するデータと同じデータを用いて、生徒モデルのトレーニングは不要であることを示す。 最後に、ソース側とターゲット側を組み合わせることで、モノリンガルデータの片側だけに依存するよりもパフォーマンスが向上することがわかった。

We explore two types of monolingual data that can be included in knowledge distillation training for neural machine translation (NMT). The first is the source-side monolingual data. Second, is the target-side monolingual data that is used as back-translation data. Both datasets are (forward-)translated by a teacher model from source-language to target-language, which are then combined into a dataset for smaller student models. We find that source-side monolingual data improves model performance when evaluated by test-set originated from source-side. Likewise, target-side data has a positive effect on the test-set in the opposite direction. We also show that it is not required to train the student model with the same data used by the teacher, as long as the domains are the same. Finally, we find that combining source-side and target-side yields in better performance than relying on just one side of the monolingual data.
翻訳日:2021-04-17 17:17:09 公開日:2020-12-31
# CLEAR: 文表現のコントラスト学習

CLEAR: Contrastive Learning for Sentence Representation ( http://arxiv.org/abs/2012.15466v1 )

ライセンス: Link先を確認
Zhuofeng Wu, Sinong Wang, Jiatao Gu, Madian Khabsa, Fei Sun, Hao Ma(参考訳) 事前訓練された言語モデルは、暗黙の言語特徴をキャプチャする独自の能力を証明している。 しかし、ほとんどの事前学習のアプローチは単語レベルの訓練目標に焦点を当てているが、文レベルの目標はほとんど研究されていない。 本稿では,雑音不変の文表現を学習するために,複数の文レベルの拡張戦略を用いた文表現のためのコントラストLEArningを提案する。 これらの拡張には、単語とスパンの削除、再注文、置換が含まれる。 さらに,多くの実験を通じてコントラスト学習を効果的にする主な要因について検討した。 学習中の文の増補が様々な下流タスクで異なるパフォーマンス改善をもたらすことを観察した。 提案手法は,SentEvalベンチマークとGLUEベンチマークの両方において,既存手法よりも優れた性能を示す。

Pre-trained language models have proven their unique powers in capturing implicit language features. However, most pre-training approaches focus on the word-level training objective, while sentence-level objectives are rarely studied. In this paper, we propose Contrastive LEArning for sentence Representation (CLEAR), which employs multiple sentence-level augmentation strategies in order to learn a noise-invariant sentence representation. These augmentations include word and span deletion, reordering, and substitution. Furthermore, we investigate the key reasons that make contrastive learning effective through numerous experiments. We observe that different sentence augmentations during pre-training lead to different performance improvements on various downstream tasks. Our approach is shown to outperform multiple existing methods on both SentEval and GLUE benchmarks.
翻訳日:2021-04-17 17:16:56 公開日:2020-12-31
# FiD-Ex:抽出Rationale生成のためのシーケンス・ツー・シーケンスモデルの改善

FiD-Ex: Improving Sequence-to-Sequence Models for Extractive Rationale Generation ( http://arxiv.org/abs/2012.15482v1 )

ライセンス: Link先を確認
Kushal Lakhotia, Bhargavi Paranjape, Asish Ghoshal, Wen-tau Yih, Yashar Mehdad, Srinivasan Iyer(参考訳) 質問回答(QA)やファクト検証(Fact Verification)といったNLPタスクにおいて,大規模なブラックボックス事前学習モデルによる意思決定の理解と検証手段として,モデル予測に関する自然言語(NL)の説明が人気を集めている。 近年、事前学習されたシーケンス to sequence (seq2seq)モデルが、共同予測やnl説明の生成に非常に有効であることが証明されている。 しかし、これらのモデルには多くの欠点があり、誤った予測に対しても説明を作成でき、長い入力文書に適応することは困難であり、トレーニングには大量のラベル付きデータが必要である。 本稿では,seq2seqモデルの欠点を解決するfid-exを開発した。1) 抽出生成を促進することによって説明作成を不要にする文マーカの導入,2) 長い入力コンテキストを処理するための fusion-in-decoder アーキテクチャ,3) 再構造化されたオープンドメインqaデータセットの中間微調整により,少数ショットの性能を向上させる。 FiD-Exは、ERASER説明可能性ベンチマークの複数のタスクにおいて、説明基準とタスク精度の両方で、以前の作業よりも大幅に改善されている。

Natural language (NL) explanations of model predictions are gaining popularity as a means to understand and verify decisions made by large black-box pre-trained models, for NLP tasks such as Question Answering (QA) and Fact Verification. Recently, pre-trained sequence to sequence (seq2seq) models have proven to be very effective in jointly making predictions, as well as generating NL explanations. However, these models have many shortcomings; they can fabricate explanations even for incorrect predictions, they are difficult to adapt to long input documents, and their training requires a large amount of labeled data. In this paper, we develop FiD-Ex, which addresses these shortcomings for seq2seq models by: 1) introducing sentence markers to eliminate explanation fabrication by encouraging extractive generation, 2) using the fusion-in-decoder architecture to handle long input contexts, and 3) intermediate fine-tuning on re-structured open domain QA datasets to improve few-shot performance. FiD-Ex significantly improves over prior work in terms of explanation metrics and task accuracy, on multiple tasks from the ERASER explainability benchmark, both in the fully supervised and in the few-shot settings.
翻訳日:2021-04-17 17:16:45 公開日:2020-12-31
# 線形時間WordPieceトークン化

Linear-Time WordPiece Tokenization ( http://arxiv.org/abs/2012.15524v1 )

ライセンス: Link先を確認
Xinying Song, Alex Salcianu, Yang Song, Dave Dopson, Denny Zhou(参考訳) WordPieceトークン化(WordPieceトークン化)は、BERTで採用されているサブワードベースのトークン化スキーマである。 私たちの知る限り、公開されたmaxmatchアルゴリズムはすべて二次的(あるいはそれ以上)である。 本稿では,maxmatch と wordpiece のトークン化のための線形時間アルゴリズム linmaxmatch を提案する。 Aho-Corasickアルゴリズムにインスパイアされ、語彙から構築された三重項の上に追加のリンクを導入し、三重項マッチングが継続できないときのスマートな遷移を可能にする。 実験の結果,HuggingFaceとTensorFlow Textの2つのプロダクションシステムよりも平均3倍高速であることがわかった。 ロングテール入力に関しては、アルゴリズムは95%で4.5倍高速です。 この作業には即時的な実用価値(推論遅延の低減、計算リソースの節約など)があります。 そして、数十年前のMaxMatch問題に対して最適な複雑性ソリューションを提供することによって理論的に興味深い。

WordPiece tokenization is a subword-based tokenization schema adopted by BERT: it segments the input text via a longest-match-first tokenization strategy, known as Maximum Matching or MaxMatch. To the best of our knowledge, all published MaxMatch algorithms are quadratic (or higher). In this paper, we propose LinMaxMatch, a novel linear-time algorithm for MaxMatch and WordPiece tokenization. Inspired by the Aho-Corasick algorithm, we introduce additional linkages on top of the trie built from the vocabulary, allowing smart transitions when the trie matching cannot continue. Experimental results show that our algorithm is 3x faster on average than two production systems by HuggingFace and TensorFlow Text. Regarding long-tail inputs, our algorithm is 4.5x faster at the 95 percentile. This work has immediate practical value (reducing inference latency, saving compute resources, etc.) and is of theoretical interest by providing an optimal complexity solution to the decades-old MaxMatch problem.
翻訳日:2021-04-17 17:15:48 公開日:2020-12-31
# XLM-T:事前訓練された言語間変換器エンコーダによる多言語機械翻訳のスケールアップ

XLM-T: Scaling up Multilingual Machine Translation with Pretrained Cross-lingual Transformer Encoders ( http://arxiv.org/abs/2012.15547v1 )

ライセンス: Link先を確認
Shuming Ma, Jian Yang, Haoyang Huang, Zewen Chi, Li Dong, Dongdong Zhang, Hany Hassan Awadalla, Alexandre Muzio, Akiko Eriguchi, Saksham Singhal, Xia Song, Arul Menezes, Furu Wei(参考訳) 多言語機械翻訳により、1つのモデルが異なる言語間で翻訳することができる。 既存の多言語機械翻訳システムではトランスフォーマーのバックボーンがランダムに初期化されている。 本研究は,近年の言語モデル事前学習の成功に触発されて,市販の言語間トランスフォーマーエンコーダでモデルを初期化し,多言語並列データで微調整するXLM-Tを提案する。 この単純な方法は,10対のWMTデータセットと94対のOPUS-100コーパスにおいて,大幅な改善を実現する。 驚くべきことに、この方法はバックトランスレーションを伴う強いベースラインでも有効である。 さらに、教師なし構文解析、単語アライメント、多言語分類におけるXLM-Tの広範な分析により、機械翻訳の有効性が説明される。 コードはhttps://aka.ms/xlm-t 。

Multilingual machine translation enables a single model to translate between different languages. Most existing multilingual machine translation systems adopt a randomly initialized Transformer backbone. In this work, inspired by the recent success of language model pre-training, we present XLM-T, which initializes the model with an off-the-shelf pretrained cross-lingual Transformer encoder and fine-tunes it with multilingual parallel data. This simple method achieves significant improvements on a WMT dataset with 10 language pairs and the OPUS-100 corpus with 94 pairs. Surprisingly, the method is also effective even upon the strong baseline with back-translation. Moreover, extensive analysis of XLM-T on unsupervised syntactic parsing, word alignment, and multilingual classification explains its effectiveness for machine translation. The code will be at https://aka.ms/xlm-t .
翻訳日:2021-04-17 17:15:11 公開日:2020-12-31
# unks everywhere: 新しいスクリプトに多言語言語モデルを適用する

UNKs Everywhere: Adapting Multilingual Language Models to New Scripts ( http://arxiv.org/abs/2012.15562v1 )

ライセンス: Link先を確認
Jonas Pfeiffer, Ivan Vuli\'c, Iryna Gurevych, Sebastian Ruder(参考訳) BERT (mBERT) や XLM-R のような多言語言語モデルは、様々なNLPタスクに対して最先端の言語間転送性能を提供する。 しかし、その能力が限られており、事前学習データに大きな違いがあるため、リソース豊富な言語とリソース不足のターゲット言語の間には大きなパフォーマンスギャップがある。 最終的な課題は、事前トレーニング中にスクリプト \textit{unseen} で記述されたモデルによってまったくカバーされていないアンダーリソース言語を扱うことだ。 本研究では,事前学習した多言語モデルの低リソース言語や未知のスクリプトへの迅速な適応を可能にする,新しいデータ効率手法を提案する。 提案手法は,行列因子化に基づいて,事前学習されたモデルの埋め込み行列で既に利用可能な複数の言語について,既存の潜在知識を活用する。 さらに、mBERTとターゲット言語語彙間で共有される少数の語彙(いわゆる「textit{lexically overlapping} tokens」)を活用することで、対象言語に新たに専用の埋め込み行列を学習することにより、改善できることを示す。 私たちの適応技術は、見当たらないスクリプトを持つ言語にかなりのパフォーマンス向上をもたらします。 また、事前訓練されたモデルでカバーされたスクリプトで書かれた低リソース言語でも改善できることを示す。

Massively multilingual language models such as multilingual BERT (mBERT) and XLM-R offer state-of-the-art cross-lingual transfer performance on a range of NLP tasks. However, due to their limited capacity and large differences in pretraining data, there is a profound performance gap between resource-rich and resource-poor target languages. The ultimate challenge is dealing with under-resourced languages not covered at all by the models, which are also written in scripts \textit{unseen} during pretraining. In this work, we propose a series of novel data-efficient methods that enable quick and effective adaptation of pretrained multilingual models to such low-resource languages and unseen scripts. Relying on matrix factorization, our proposed methods capitalize on the existing latent knowledge about multiple languages already available in the pretrained model's embedding matrix. Furthermore, we show that learning of the new dedicated embedding matrix in the target language can be improved by leveraging a small number of vocabulary items (i.e., the so-called \textit{lexically overlapping} tokens) shared between mBERT's and target language vocabulary. Our adaptation techniques offer substantial performance gains for languages with unseen scripts. We also demonstrate that they can also yield improvements for low-resource languages written in scripts covered by the pretrained model.
翻訳日:2021-04-17 17:14:52 公開日:2020-12-31
# 機械読解における参照推論

Coreference Reasoning in Machine Reading Comprehension ( http://arxiv.org/abs/2012.15573v1 )

ライセンス: Link先を確認
Mingzhu Wu, Nafise Sadat Moosavi, Dan Roth, Iryna Gurevych(参考訳) 与えられた実体への複数の参照を推論する能力は自然言語理解に不可欠であり、長い間NLPで研究されてきた。 近年では、質問回答(QA)の形式が機械読解(MRC)の標準となったため、データ収集(例えばDasigiなど)が試みられている。 (2019) は, MRCモデルがコア推論を推論する能力を評価する試みである。 mrcデータセットは、自然分布を反映しておらず、その結果、共参照推論の課題を反映しない。 特に、これらのデータセットの成功は、コリファレンス推論におけるモデルの熟練度を反映していない。 そこで本研究では,共参照推論の課題をよりよく反映し,現状のモデルが依然としてこれらの現象に苦しむことを示すための読解データセットを作成する手法を提案する。 さらに,MDCモデルのトレーニングにおいて,注釈付きコア参照解決データセットから自然発生コア参照現象を効果的に利用する方法を開発した。 これにより,様々なmrcデータセットにまたがる最先端モデルのコリファレンス推論能力の向上を示すことができる。 すべてのコードと結果データセットをhttps://github.com/u kplab/coref-reasonin g-in-qaでリリースします。

The ability to reason about multiple references to a given entity is essential for natural language understanding and has been long studied in NLP. In recent years, as the format of Question Answering (QA) became a standard for machine reading comprehension (MRC), there have been data collection efforts, e.g., Dasigi et al. (2019), that attempt to evaluate the ability of MRC models to reason about coreference. However, as we show, coreference reasoning in MRC is a greater challenge than was earlier thought; MRC datasets do not reflect the natural distribution and, consequently, the challenges of coreference reasoning. Specifically, success on these datasets does not reflect a model's proficiency in coreference reasoning. We propose a methodology for creating reading comprehension datasets that better reflect the challenges of coreference reasoning and use it to show that state-of-the-art models still struggle with these phenomena. Furthermore, we develop an effective way to use naturally occurring coreference phenomena from annotated coreference resolution datasets when training MRC models. This allows us to show an improvement in the coreference reasoning abilities of state-of-the-art models across various MRC datasets. We will release all the code and the resulting dataset at https://github.com/U KPLab/coref-reasonin g-in-qa.
翻訳日:2021-04-17 17:14:28 公開日:2020-12-31
# トークンはどれくらい良いですか。 多言語モデルにおける単言語性能について

How Good is Your Tokenizer? On the Monolingual Performance of Multilingual Language Models ( http://arxiv.org/abs/2012.15613v1 )

ライセンス: Link先を確認
Phillip Rust, Jonas Pfeiffer, Ivan Vuli\'c, Sebastian Ruder, Iryna Gurevych(参考訳) 本稿では,事前学習された多言語モデルと単言語モデルのタスク性能について,単言語モデルモデルとの比較を行った。 本研究では,5つの単一言語下流タスクのセットに基づいて,事前学習可能な単言語モデルを持つ9種類の言語について検討した。 まず、その言語の多言語表現とそれに対応する単言語表現とのギャップを確定し、その後、性能差の理由を考察する。 影響する変数をアンタングルするために、同じデータ上で新しいモノリンガルモデルをトレーニングするが、異なるトークン化器(モノリンガル版とマルチリンガル版の両方)で訓練する。 事前学習データのサイズは重要な要素であるが,モノリンガルモデルの指定トークン化要因は下流のパフォーマンスにおいて等しく重要な役割を果たす。 以上の結果から,多言語モデルの語彙に適切に表現された言語は,単言語よりも無視可能な性能が低下することが示唆された。 さらに,従来の多言語トークン化器を専用単言語トークン化器に置き換えることで,ほぼすべてのタスクや言語に対する多言語モデルのダウンストリーム性能が向上することがわかった。

In this work we provide a \textit{systematic empirical comparison} of pretrained multilingual language models versus their monolingual counterparts with regard to their monolingual task performance. We study a set of nine typologically diverse languages with readily available pretrained monolingual models on a set of five diverse monolingual downstream tasks. We first establish if a gap between the multilingual and the corresponding monolingual representation of that language exists, and subsequently investigate the reason for a performance difference. To disentangle the impacting variables, we train new monolingual models on the same data, but with different tokenizers, both the monolingual and the multilingual version. We find that while the pretraining data size is an important factor, the designated tokenizer of the monolingual model plays an equally important role in the downstream performance. Our results show that languages which are adequately represented in the multilingual model's vocabulary exhibit negligible performance decreases over their monolingual counterparts. We further find that replacing the original multilingual tokenizer with the specialized monolingual tokenizer improves the downstream performance of the multilingual model for almost every task and language.
翻訳日:2021-04-17 17:14:10 公開日:2020-12-31
# TexSmart:微細粒度NERのテキスト理解システムと意味解析の強化

TexSmart: A Text Understanding System for Fine-Grained NER and Enhanced Semantic Analysis ( http://arxiv.org/abs/2012.15639v1 )

ライセンス: Link先を確認
Haisong Zhang, Lemao Liu, Haiyun Jiang, Yangming Li, Enbo Zhao, Kun Xu, Linfeng Song, Suncong Zheng, Botong Zhou, Jianchen Zhu, Xiao Feng, Tao Chen, Tao Yang, Dong Yu, Feng Zhang, Zhanhui Kang, Shuming Shi(参考訳) 本手法では,詳細な名前付きエンティティ認識(NER)とセマンティック分析機能強化をサポートするテキスト理解システムであるTexSmartを紹介する。 これまで公開されたテキスト理解システムやツールと比べ、texsmartにはユニークな機能がある。 まず、TexSmartのNER関数は1000以上のエンティティタイプをサポートし、他のほとんどの公開ツールは、通常、数十のエンティティタイプをサポートする。 第2に、TexSmartはセマンティック拡張やディープセマンティック表現のような新しいセマンティック分析機能を導入し、ほとんどの以前のシステムにはない。 第3に、(非常に高速なアルゴリズムから比較的遅いがより正確であるアルゴリズムまで)アルゴリズムのスペクトルが、TexSmartの1つの関数に対して実装され、異なる学術的および工業的アプリケーションの要求を満たす。 教師なしまたは弱教師付きアルゴリズムの採用は特に強調され、人間のアノテーションの少ない新鮮なデータを含むモデルを簡単に更新することを目的としています。 本報告の主な内容は、TexSmartの主要な機能、これらの機能を実現するアルゴリズム、TexSmartツールキットとWeb APIの使用方法、およびいくつかの重要なアルゴリズムの評価結果である。

This technique report introduces TexSmart, a text understanding system that supports fine-grained named entity recognition (NER) and enhanced semantic analysis functionalities. Compared to most previous publicly available text understanding systems and tools, TexSmart holds some unique features. First, the NER function of TexSmart supports over 1,000 entity types, while most other public tools typically support several to (at most) dozens of entity types. Second, TexSmart introduces new semantic analysis functions like semantic expansion and deep semantic representation, that are absent in most previous systems. Third, a spectrum of algorithms (from very fast algorithms to those that are relatively slow but more accurate) are implemented for one function in TexSmart, to fulfill the requirements of different academic and industrial applications. The adoption of unsupervised or weakly-supervised algorithms is especially emphasized, with the goal of easily updating our models to include fresh data with less human annotation efforts. The main contents of this report include major functions of TexSmart, algorithms for achieving these functions, how to use the TexSmart toolkit and Web APIs, and evaluation results of some key algorithms.
翻訳日:2021-04-17 17:13:52 公開日:2020-12-31
# VOLT:機械翻訳のための最適輸送による語彙化の改善

VOLT: Improving Vocabularization via Optimal Transport for Machine Translation ( http://arxiv.org/abs/2012.15671v1 )

ライセンス: Link先を確認
Jingjing Xu, Hao Zhou, Chun Gan, Zaixiang Zheng, Lei Li(参考訳) トークン語彙の選択が機械翻訳の性能に大きく影響することは、広く受け入れられている。 しかし、高価な試用コストのため、ほとんどの研究は支配的なアプローチ(例えば、bpe)と一般的な語彙サイズでのみ単純な試用を行う。 本稿では,情報理論的特徴とBLEUスコアとのエキサイティングな関係を見出す。 この観察により、最適な輸送問題として、語彙化の探求 -- 適切な大きさの最高のトークン辞書を見つける -- が定式化される。 そこで我々は,完全かつコストのかかる試行訓練を伴わない,シンプルで効率的な語彙化ソリューションVOLTを提案する。 我々は、WMT-14英語-ドイツ語翻訳、TEDバイリンガル翻訳、TED多言語翻訳など、複数の機械翻訳タスクに対するアプローチを評価した。 実験の結果、voltは多様なシナリオで広く使われている語彙を上回っている。 例えば、VOLTは英語とドイツ語の翻訳において70%の語彙サイズ縮小と0.6のBLEUゲインを達成する。 また、VOLTの利点の1つは、リソース消費の低さである。 単純なBPE検索と比較して、VOLTは検索時間を288GPU時間から0.5CPU時間に短縮する。

It is well accepted that the choice of token vocabulary largely affects the performance of machine translation. However, due to expensive trial costs, most studies only conduct simple trials with dominant approaches (e.g BPE) and commonly used vocabulary sizes. In this paper, we find an exciting relation between an information-theoreti c feature and BLEU scores. With this observation, we formulate the quest of vocabularization -- finding the best token dictionary with a proper size -- as an optimal transport problem. We then propose VOLT, a simple and efficient vocabularization solution without the full and costly trial training. We evaluate our approach on multiple machine translation tasks, including WMT-14 English-German translation, TED bilingual translation, and TED multilingual translation. Empirical results show that VOLT beats widely-used vocabularies on diverse scenarios. For example, VOLT achieves 70% vocabulary size reduction and 0.6 BLEU gain on English-German translation. Also, one advantage of VOLT lies in its low resource consumption. Compared to naive BPE-search, VOLT reduces the search time from 288 GPU hours to 0.5 CPU hours.
翻訳日:2021-04-17 17:13:30 公開日:2020-12-31
# ERNIE-DOC:Retrospect ive Long-Document Modeling Transformer

ERNIE-DOC: The Retrospective Long-Document Modeling Transformer ( http://arxiv.org/abs/2012.15688v1 )

ライセンス: Link先を確認
Siyu Ding, Junyuan Shang, Shuohuan Wang, Yu Sun, Hao Tian, Hua Wu, Haifeng Wang(参考訳) トランスフォーマーは、メモリと時間消費が二次的に増加するため、長いドキュメント入力を処理するには適していない。 単に長いドキュメントを切断したり、スパースアテンション機構を適用すると、コンテキストフラグメンテーションの問題や、同等のモデルサイズで劣るモデリング能力が発生する。 本稿では,Recurrence Transformerに基づく文書レベルの事前学習モデルであるERNIE-DOCを提案する。 ふりかえりフィード機構と拡張反復機構という2つのよく設計された技術により、ERNIE-DOCはドキュメント全体のコンテキスト情報をキャプチャできる。 我々はERNIE-DOCを事前訓練し、追加の文書認識セグメント並べ替え目的を用いてセグメント間の関係を明示的に学習する。 英語と中国語の文書レベルのタスクについて様々な実験を行った。 ERNIE-DOCは、WikiText-103上で16.8pplのSOTA言語モデリング結果を達成し、テキスト分類や質問応答など、ほとんどの言語理解タスクにおいて、競合する事前学習モデルよりも優れている。

Transformers are not suited for processing long document input due to its quadratically increasing memory and time consumption. Simply truncating a long document or applying the sparse attention mechanism will incur the context fragmentation problem or inferior modeling capability with comparable model size. In this paper, we propose ERNIE-DOC, a document-level language pretraining model based on Recurrence Transformers. Two well-designed techniques, namely the retrospective feed mechanism and the enhanced recurrence mechanism enable ERNIE-DOC with much longer effective context length to capture the contextual information of a whole document. We pretrain ERNIE-DOC to explicitly learn the relationship among segments with an additional document-aware segment reordering objective. Various experiments on both English and Chinese document-level tasks are conducted. ERNIE-DOC achieves SOTA language modeling result of 16.8 ppl on WikiText-103 and outperforms competitive pretraining models on most language understanding tasks such as text classification, question answering by a large margin.
翻訳日:2021-04-17 17:12:54 公開日:2020-12-31
# BinaryBERT:BERT量子化の限界を押し上げる

BinaryBERT: Pushing the Limit of BERT Quantization ( http://arxiv.org/abs/2012.15701v1 )

ライセンス: Link先を確認
Haoli Bai, Wei Zhang, Lu Hou, Lifeng Shang, Jing Jin, Xin Jiang, Qun Liu, Michael Lyu, Irwin King(参考訳) 大規模な事前学習型言語モデルの急速な開発により、量子化が一般的なソリューションであるモデル圧縮技術への需要が大幅に増加した。 本稿では,BERT量子化を重み二項化の限界まで押し上げるBinaryBERTを提案する。 複雑で不規則な損失環境のため,バイナリBERTは3次学習よりも直接訓練が難しいことが判明した。 そこで本研究では,半大の3次ネットワークから等価な分割によってバイナリモデルを初期化する3次重み分割を提案する。 したがって、バイナリモデルは三元モデルの優れた性能を継承し、分割後に新しいアーキテクチャを微調整することでさらに拡張することができる。 実証的な結果から,BinaryBERTは全精度のBERTベースに比べて2,4\times$小さめで,GLUEおよびSQuADベンチマークの最先端結果を達成した。

The rapid development of large pre-trained language models has greatly increased the demand for model compression techniques, among which quantization is a popular solution. In this paper, we propose BinaryBERT, which pushes BERT quantization to the limit with weight binarization. We find that a binary BERT is hard to be trained directly than a ternary counterpart due to its complex and irregular loss landscapes. Therefore, we propose ternary weight splitting, which initializes the binary model by equivalent splitting from a half-sized ternary network. The binary model thus inherits the good performance of the ternary model, and can be further enhanced by fine-tuning the new architecture after splitting. Empirical results show that BinaryBERT has negligible performance drop compared to the full-precision BERT-base while being $24\times$ smaller, achieving the state-of-the-art results on GLUE and SQuAD benchmarks.
翻訳日:2021-04-17 17:12:34 公開日:2020-12-31
# ロバストなニューラルマシン翻訳の再検討:トランスフォーマーのケーススタディ

Revisiting Robust Neural Machine Translation: A Transformer Case Study ( http://arxiv.org/abs/2012.15710v1 )

ライセンス: Link先を確認
Peyman Passban, Puneeth S.M. Saladi, Qun Liu(参考訳) トランスフォーマー(Vaswani et al., 2017)は、ニューラルマシン翻訳(NMT)システムの性能を著しく向上させたが、ノイズに対して驚くほど脆弱である可能性がある。 そこで我々は、ノイズがトランスフォーマーを壊す方法と、そのような問題に対処する解決策が存在するかどうかを調査した。 nmt文献には、騒音問題に対する従来のモデルの挙動分析に関する多くの研究があるが、この文脈ではトランスフォーマーは未熟であるようである。 そこで本研究では,学習中にノイズを組み込む新しいデータ駆動手法を提案する。 この考え方は有名な微調整戦略に匹敵する。 さらに,ニューラルアーキテクチャを改良し,ノイズ処理のためのトレーニング処理を行う,オリジナルトランスの新たな拡張を2つ提案する。 両方向に英語とドイツ語のペアを翻訳する手法を評価した。 実験結果から,我々のモデルは耐雑音性が高いことがわかった。 より具体的には、テスト語全体の最大10%がノイズに感染している場合に、劣化なく機能する。

Transformers (Vaswani et al., 2017) have brought a remarkable improvement in the performance of neural machine translation (NMT) systems, but they could be surprisingly vulnerable to noise. Accordingly, we tried to investigate how noise breaks Transformers and if there exist solutions to deal with such issues. There is a large body of work in the NMT literature on analyzing the behaviour of conventional models for the problem of noise but it seems Transformers are understudied in this context. Therefore, we introduce a novel data-driven technique to incorporate noise during training. This idea is comparable to the well-known fine-tuning strategy. Moreover, we propose two new extensions to the original Transformer, that modify the neural architecture as well as the training process to handle noise. We evaluated our techniques to translate the English--German pair in both directions. Experimental results show that our models have a higher tolerance to noise. More specifically, they perform with no deterioration where up to 10% of entire test words are infected by noise.
翻訳日:2021-04-17 17:12:18 公開日:2020-12-31
# FDMT: 機械翻訳におけるきめ細かいドメイン適応のためのベンチマークデータセット

FDMT: A Benchmark Dataset for Fine-grained Domain Adaptation in Machine Translation ( http://arxiv.org/abs/2012.15717v1 )

ライセンス: Link先を確認
Wenhao Zhu, Shujian Huang, Tong Pu, Xu Zhang, Jian Yu, Wei Chen, Yanfeng Wang and Jiajun Chen(参考訳) 従来のドメイン適応研究は、通常同じドメイン内の翻訳の多様性を無視する。これは、現実世界のシナリオにおいて、汎用ニューラルマシン翻訳(nmt)モデルを特定のドメインに適応させる上での核となる問題である。 このような難しいシナリオの1つは、特定のトピックを持つカンファレンスの翻訳システムをデプロイすることである。 コンピュータネットワークや自然言語処理では、時間スケジュールに制限があるため、リソースが極端に少ない。 このような環境下での広範な研究を動機づけるために,機械翻訳(FDMT)におけるドメイン適応タスクを現実世界で実施する。 FDMTデータセット(Zh-En)は、自動運転車、AI教育、リアルタイムネットワーク、スマートフォンの4つのサブドメインで構成されている。 現実に近づくために、FDMTはドメイン内のバイリンガルトレーニングデータを使用しない。 その代わり、各サブドメインはモノリンガルデータ、バイリンガル辞書、知識ベースを備えており、これらのリソースの詳細な探索を奨励している。 評価目的に対応する開発セットおよびテストセットを提供する。 我々は,ドメイン適応タスクのきめ細かいベンチマークを行い,対処すべき課題をいくつか明らかにする,この新たな設定における定量的実験と詳細な分析を行う。

Previous domain adaptation research usually neglect the diversity in translation within a same domain, which is a core problem for adapting a general neural machine translation (NMT) model into a specific domain in real-world scenarios. One representative of such challenging scenarios is to deploy a translation system for a conference with a specific topic, e.g. computer networks or natural language processing, where there is usually extremely less resources due to the limited time schedule. To motivate a wide investigation in such settings, we present a real-world fine-grained domain adaptation task in machine translation (FDMT). The FDMT dataset (Zh-En) consists of four sub-domains of information technology: autonomous vehicles, AI education, real-time networks and smart phone. To be closer to reality, FDMT does not employ any in-domain bilingual training data. Instead, each sub-domain is equipped with monolingual data, bilingual dictionary and knowledge base, to encourage in-depth exploration of these available resources. Corresponding development set and test set are provided for evaluation purpose. We make quantitative experiments and deep analyses in this new setting, which benchmarks the fine-grained domain adaptation task and reveals several challenging problems that need to be addressed.
翻訳日:2021-04-17 17:12:01 公開日:2020-12-31
# 文脈化談話処理による政治理解

Understanding Politics via Contextualized Discourse Processing ( http://arxiv.org/abs/2012.15784v1 )

ライセンス: Link先を確認
Rajkumar Pujari and Dan Goldwasser(参考訳) 政治家はしばしば、出来事に反応する際の基本的な議題を持つ。 様々なイベントの文脈における議論は、与えられたエンティティに対するかなり一貫したアジェンダの集合を反映している。 近年のPLM(Pretrained Language Models)の進歩にもかかわらず、これらのテキスト表現はそのようなニュアンスなパターンを捉えるように設計されていない。 本稿では,エンコーダとコントリビュータモジュールからなる合成リーダモデルを提案し,それらの情報を利用して,エンティティやイシュー,イベントをより効果的に表現する手法を提案する。 これらの表現は、ツイート、プレスリリース、イシュー、ニュース記事、参加するエンティティによってコンテキスト化される。 我々のモデルは、複数の文書を一度に処理し、複数の問題やイベントに関する複数のエンティティの合成表現を生成する。 定性的かつ定量的な実証分析により,これらの表現は有意義かつ効果的であることを示す。

Politicians often have underlying agendas when reacting to events. Arguments in contexts of various events reflect a fairly consistent set of agendas for a given entity. In spite of recent advances in Pretrained Language Models (PLMs), those text representations are not designed to capture such nuanced patterns. In this paper, we propose a Compositional Reader model consisting of encoder and composer modules, that attempts to capture and leverage such information to generate more effective representations for entities, issues, and events. These representations are contextualized by tweets, press releases, issues, news articles, and participating entities. Our model can process several documents at once and generate composed representations for multiple entities over several issues or events. Via qualitative and quantitative empirical analysis, we show that these representations are meaningful and effective.
翻訳日:2021-04-17 17:11:42 公開日:2020-12-31
# 線形化グラフ-テキスト生成におけるグラフ認識の促進

Promoting Graph Awareness in Linearized Graph-to-Text Generation ( http://arxiv.org/abs/2012.15793v1 )

ライセンス: Link先を確認
Alexander Hoyle, Ana Marasovi\'c, Noah Smith(参考訳) 意味表現やrdfトリプルのような構造化入力からテキストを生成することは、しばしば特殊なグラフエンコーディングニューラルネットワークの使用を伴う。 しかし、最近のグラフ入力の線形化への事前学習型変換器の応用は、グラフからテキストへのタスクにおける最先端生成結果をもたらしている。 本稿では,これらの線形化モデルが局所的なグラフ構造を符号化する可能性,特にグラフの線形化戦略に対する不変性,劣化した入力を再構成する能力について検討する。 本研究は,足場を通してモデルの暗黙のグラフエンコーディングの質を高めるためのソリューションを動機付けるものである。 すなわち、マルチタスクのテキスト・トゥ・テキスト・フレームワークに実装されたグラフのデノベーション・オブジェクトを使用する。 これらのデノナイジングの足場は,低リソース環境下でのダウンストリーム生成を大幅に改善することがわかった。

Generating text from structured inputs, such as meaning representations or RDF triples, has often involved the use of specialized graph-encoding neural networks. However, recent applications of pretrained transformers to linearizations of graph inputs have yielded state-of-the-art generation results on graph-to-text tasks. Here, we explore the ability of these linearized models to encode local graph structures, in particular their invariance to the graph linearization strategy and their ability to reconstruct corrupted inputs. Our findings motivate solutions to enrich the quality of models' implicit graph encodings via scaffolding. Namely, we use graph-denoising objectives implemented in a multi-task text-to-text framework. We find that these denoising scaffolds lead to substantial improvements in downstream generation in low-resource settings.
翻訳日:2021-04-17 17:11:31 公開日:2020-12-31
# minilmv2:プリトレーニング変圧器用多頭部自己着脱関係蒸留

MiniLMv2: Multi-Head Self-Attention Relation Distillation for Compressing Pretrained Transformers ( http://arxiv.org/abs/2012.15828v1 )

ライセンス: Link先を確認
Wenhui Wang, Hangbo Bao, Shaohan Huang, Li Dong, Furu Wei(参考訳) 我々は,予め訓練したトランスフォーマーのタスク非依存圧縮に,自己注意関係蒸留のみを用いることで,MiniLM(Wang et al., 2020)の深部自己注意蒸留を一般化する。 特に,マルチヘッド自己注意関係を,各自己注意モジュール内のクエリ,キー,値ベクトルのペア間の拡張ドット積として定義する。 そして、上記の関係知識を使って学生モデルを訓練する。 単純で統一された原則のほかに、学生の注意点数に関しては制限がないのが好ましいが、これまでのほとんどの研究は教師と生徒の頭部数と同じことを保証しなければならない。 さらに、微細な自己意識関係は、Transformerが学んだ相互作用知識を完全に活用する傾向がある。 また,MiniLMのような最終層に頼るのではなく,教師モデルの層選択戦略を徹底的に検討した。 実験結果から, ベースサイズおよび大規模教員(BERT, RoBERTa)から抽出したモデルが, 技術水準を上回っていることが判明した。

We generalize deep self-attention distillation in MiniLM (Wang et al., 2020) by only using self-attention relation distillation for task-agnostic compression of pretrained Transformers. In particular, we define multi-head self-attention relations as scaled dot-product between the pairs of query, key, and value vectors within each self-attention module. Then we employ the above relational knowledge to train the student model. Besides its simplicity and unified principle, more favorably, there is no restriction in terms of the number of student's attention heads, while most previous work has to guarantee the same head number between teacher and student. Moreover, the fine-grained self-attention relations tend to fully exploit the interaction knowledge learned by Transformer. In addition, we thoroughly examine the layer selection strategy for teacher models, rather than just relying on the last layer as in MiniLM. Experimental results demonstrate that our models distilled from base-size and large-size teachers (BERT, and RoBERTa) outperform the state of the art.
翻訳日:2021-04-17 17:11:20 公開日:2020-12-31
# Shortformer: 短い入力を用いたよりよい言語モデリング

Shortformer: Better Language Modeling using Shorter Inputs ( http://arxiv.org/abs/2012.15832v1 )

ライセンス: Link先を確認
Ofir Press, Noah A. Smith, Mike Lewis(参考訳) トランスの入力長を減少させる利点を考察する。 第一に、最初は短いサブシーケンスでモデルをトレーニングし、その後より長いものに移行することで、全体的なトレーニング時間を短縮し、驚くほど、パープレキシティが大幅に向上することを示します。 次に、前処理されたトークン(トランスフォーマーが一度に処理できる最大長よりも大きいシーケンスを生成する場合)をモデル条件とするトランスフォーマーにおける再帰法の効率を改善する方法を示す。 既存の手法では計算コストの高い相対的位置埋め込みが必要であり、単語埋め込みの代わりにクエリやキーに絶対位置埋め込みを追加するという単純な方法を導入する。 これらの手法を組み合わせることで、トレーニング速度を65%向上させ、生成を9倍速くし、パラメータを追加せずにWikiText-103の難易度を大幅に向上する。

We explore the benefits of decreasing the input length of transformers. First, we show that initially training the model on short subsequences, before moving on to longer ones, both reduces overall training time and, surprisingly, gives a large improvement in perplexity. We then show how to improve the efficiency of recurrence methods in transformers, which let models condition on previously processed tokens (when generating sequences that are larger than the maximal length that the transformer can handle at once). Existing methods require computationally expensive relative position embeddings; we introduce a simple alternative of adding absolute position embeddings to queries and keys instead of to word embeddings, which efficiently produces superior results. By combining these techniques, we increase training speed by 65%, make generation nine times faster, and substantially improve perplexity on WikiText-103, without adding any parameters.
翻訳日:2021-04-17 17:11:03 公開日:2020-12-31
# 完全非自己回帰型ニューラルマシン翻訳:取引のトリック

Fully Non-autoregressive Neural Machine Translation: Tricks of the Trade ( http://arxiv.org/abs/2012.15833v1 )

ライセンス: Link先を確認
Jiatao Gu, Xiang Kong(参考訳) 完全な非自己回帰型ニューラルネットワーク翻訳(NAT)は、単一前方のニューラルネットワークでトークンを同時に予測するために提案され、Transformerベースラインと比較して、品質低下を犠牲にして推論遅延を著しく低減する。 この作業では、レイテンシのアドバンテージを維持しながら、パフォーマンスのギャップを縮めることを目標としています。 まず,完全natモデルの基本課題を検証し,出力トークンの学習空間における依存性の低減を基本指導として採用する。 そこで我々は,NATモデルの改善に有効な4つの側面で手法を再検討し,これらの手法と必要な修正を慎重に組み合わせた。 3つの翻訳ベンチマーク実験により,提案システムはNATモデルに対する新しい最先端結果を実現し,自己回帰的かつ反復的NATシステムと同等の性能が得られることを示した。 例えば、提案されたモデルの1つは WMT14 En-De 上で 27.49 BLEU 点を達成する。

Fully non-autoregressive neural machine translation (NAT) is proposed to simultaneously predict tokens with single forward of neural networks, which significantly reduces the inference latency at the expense of quality drop compared to the Transformer baseline. In this work, we target on closing the performance gap while maintaining the latency advantage. We first inspect the fundamental issues of fully NAT models, and adopt dependency reduction in the learning space of output tokens as the basic guidance. Then, we revisit methods in four different aspects that have been proven effective for improving NAT models, and carefully combine these techniques with necessary modifications. Our extensive experiments on three translation benchmarks show that the proposed system achieves the new state-of-the-art results for fully NAT models, and obtains comparable performance with the autoregressive and iterative NAT systems. For instance, one of the proposed models achieves 27.49 BLEU points on WMT14 En-De with approximately 16.5X speed up at inference time.
翻訳日:2021-04-17 17:10:49 公開日:2020-12-31
# 機械理解における回答選択の自然言語関係の利用

Using Natural Language Relations between Answer Choices for Machine Comprehension ( http://arxiv.org/abs/2012.15837v1 )

ライセンス: Link先を確認
Rajkumar Pujari and Dan Goldwasser(参考訳) Reading Comprehension タスクに対する回答の選択を評価する際、質問に利用できる他の回答の選択と、同じ段落に関する関連する質問の回答は、しばしば貴重な情報を提供する。 本稿では,機械理解の性能を向上させるために,包含や矛盾といった回答選択間の自然言語関係を活用する手法を提案する。 我々は,スタンドアロン質問応答(qa)システムを用いてqaタスクを実行し,自然言語推論(nli)システムを用いて選択ペア間の関係を識別する。 Integer Linear Programming(ILP)ベースのリレーショナルフレームワークを用いて推論を行い、NLIシステムによって識別される関係を考慮してスタンドアロンのQAシステムによる決定を再評価する。 また,両タスクを共同で学習するマルチタスク学習モデルを提案する。

When evaluating an answer choice for Reading Comprehension task, other answer choices available for the question and the answers of related questions about the same paragraph often provide valuable information. In this paper, we propose a method to leverage the natural language relations between the answer choices, such as entailment and contradiction, to improve the performance of machine comprehension. We use a stand-alone question answering (QA) system to perform QA task and a Natural Language Inference (NLI) system to identify the relations between the choice pairs. Then we perform inference using an Integer Linear Programming (ILP)-based relational framework to re-evaluate the decisions made by the standalone QA system in light of the relations identified by the NLI system. We also propose a multitask learning model that learns both the tasks jointly.
翻訳日:2021-04-17 17:10:31 公開日:2020-12-31
# KART:臨床記録を事前トレーニングした言語モデルのプライバシ漏洩フレームワーク

KART: Privacy Leakage Framework of Language Models Pre-trained with Clinical Records ( http://arxiv.org/abs/2101.00036v1 )

ライセンス: Link先を確認
Yuta Nakamura (1 and 2), Shouhei Hanaoka (3), Yukihiro Nomura (4), Naoto Hayashi (4), Osamu Abe (1 and 3), Shuntaro Yada (2), Shoko Wakamiya (2), Eiji Aramaki (2) ((1) The University of Tokyo, (2) Nara Institute of Science and Technology, (3) The Department of Radiology, The University of Tokyo Hospital, (4) The Department of Computational Diagnostic Radiology and Preventive Medicine, The University of Tokyo Hospital)(参考訳) 現在、主流自然言語プロセッシング(NLP)は、事前訓練された言語モデルによって強化されている。 生物医学領域では、匿名化されたデータで事前訓練されたモデルのみが公開されている。 このポリシーは受け入れられるが、2つの疑問がある。 言語モデルのプライバシポリシは、データと異なるものなのだろうか? プライベート言語モデルが誤って公開されればどうなるのか? 我々は,muse-iiiコーパスで事前学習した複数のbertモデルを用いて,言語モデルのプライバシリスクを,データ匿名性とコーパスサイズで実験的に評価した。 モデル・インバージョン・アタックをシミュレートし,攻撃者のフルネームがすでに知られている対象者の臨床情報を取得する。 BERTのモデルは、各攻撃のTop-100の精度が偶然に予想されるよりもはるかに低かったため、おそらく低リスクであった。 さらに,ほとんどのプライバシリーク状況には,基本的な要因がいくつかあるため,知識・匿名化・資源・ターゲット(KART)フレームワークという,普遍的な新奇な枠組みの下で,さまざまなプライバシリークシナリオを定式化した。 KARTフレームワークは、複雑なプライバシー漏洩シナリオのパラメータ化と包括的な評価の簡略化を支援する。 KARTフレームワークの概念はドメインに依存しないため、バイオメディカルドメインを超えた言語モデルのプライバシーガイドラインの確立に寄与することができる。

Nowadays, mainstream natural language pro-cessing (NLP) is empowered by pre-trained language models. In the biomedical domain, only models pre-trained with anonymized data have been published. This policy is acceptable, but there are two questions: Can the privacy policy of language models be different from that of data? What happens if private language models are accidentally made public? We empirically evaluated the privacy risk of language models, using several BERT models pre-trained with MIMIC-III corpus in different data anonymity and corpus sizes. We simulated model inversion attacks to obtain the clinical information of target individuals, whose full names are already known to attackers. The BERT models were probably low-risk because the Top-100 accuracy of each attack was far below expected by chance. Moreover, most privacy leakage situations have several common primary factors; therefore, we formalized various privacy leakage scenarios under a universal novel framework named Knowledge, Anonymization, Resource, and Target (KART) framework. The KART framework helps parameterize complex privacy leakage scenarios and simplifies the comprehensive evaluation. Since the concept of the KART framework is domain agnostic, it can contribute to the establishment of privacy guidelines of language models beyond the biomedical domain.
翻訳日:2021-04-17 17:10:18 公開日:2020-12-31
# wikipedia biosにおける社会バイアスの制御分析

Controlled Analyses of Social Biases in Wikipedia Bios ( http://arxiv.org/abs/2101.00078v1 )

ライセンス: Link先を確認
Anjalie Field, Chan Young Park, Yulia Tsvetkov(参考訳) 広く読まれているグローバルプラットフォームであるWikipediaの社会的偏見は、世論に大きな影響を与える可能性がある。 過去の研究では、伝記記事の男女差を調べたが、共起変数の影響は結論を制限している。 本研究では,ウィキペディアの伝記ページの分析において,共起変数の効果を低減する手法を提案する。 分析対象コーパス(例)が与えられる。 女性に関する伝記ページ)では,対象属性を除き,可能な限り多数の属性で対象コーパスにマッチする比較コーパスを構築する方法を提案する(例)。 対象者の性別)。 本研究では,比較コーパスと目的コーパスとの適合度を測定する指標の開発により,提案手法を評価する。 次に、性別や人種的マイノリティ(女性、非バイナリー人、トランスジェンダー女性、トランスジェンダー男性、アフリカ系アメリカ人、アジア系アメリカ人、ヒスパニック/ラテン系アメリカ人)に関する記事が、交叉性のような社会理論によって導かれる分析を含む他の記事とどのように異なるかを検討する。 疑わしい社会的偏見の同定に加えて, 共起変数の制御に失敗すると, 異なる結論が得られ, マスクバイアスが生じる可能性が示唆された。 コントリビューションには、ウィキペディアの記事におけるバイアスのさらなる分析を促進する方法論、バイアスを減らすためにウィキペディア編集者を支援する発見、この領域における今後の研究を導くためのフレームワークと評価指標が含まれている。

Social biases on Wikipedia, a widely-read global platform, could greatly influence public opinion. While prior research has examined man/woman gender bias in biography articles, possible influences of confounding variables limit conclusions. In this work, we present a methodology for reducing the effects of confounding variables in analyses of Wikipedia biography pages. Given a target corpus for analysis (e.g. biography pages about women), we present a method for constructing a comparison corpus that matches the target corpus in as many attributes as possible, except the target attribute (e.g. the gender of the subject). We evaluate our methodology by developing metrics to measure how well the comparison corpus aligns with the target corpus. We then examine how articles about gender and racial minorities (cisgender women, non-binary people, transgender women, and transgender men; African American, Asian American, and Hispanic/Latinx American people) differ from other articles, including analyses driven by social theories like intersectionality. In addition to identifying suspect social biases, our results show that failing to control for confounding variables can result in different conclusions and mask biases. Our contributions include methodology that facilitates further analyses of bias in Wikipedia articles, findings that can aid Wikipedia editors in reducing biases, and framework and evaluation metrics to guide future work in this area.
翻訳日:2021-04-17 17:09:57 公開日:2020-12-31
# 競合駆動帰納論理プログラミング

Conflict-driven Inductive Logic Programming ( http://arxiv.org/abs/2101.00058v1 )

ライセンス: Link先を確認
Mark Law(参考訳) 帰納的論理プログラミング(ILP)の目標は、一連の例を説明するプログラムを学ぶことである。 近年まで、ICPがターゲットとするPrologプログラムの研究がほとんどである。 ILASP システムは代わりに Answer Set Programs (ASP) を学ぶ。 例えば、選好学習を可能にし、デフォルトや例外を含む常識的な知識を学習し、非決定論的理論を学習することである。 ILASPの初期バージョンは、学習タスクをロジックプログラムとしてエンコードし、検索をASPソルバに委譲するメタレベルのILPアプローチと見なすことができる。 最近では、ILASPは、コンフリクト駆動SATとASPソルバにインスパイアされた新しいメソッドへと移行している。 矛盾駆動型ICP(CDILP)と呼ばれるアプローチの基本的な考え方は、現在の仮説が特定の例をカバーしていない理由を説明する制約の生成を伴う仮説の探索を反復的にインターリーブすることである。 これらのカバレッジ制約により、ILASPは現在の仮説だけでなく、カバレッジ制約を満たさない仮説のクラス全体を除外できる。 本稿では,CDILP のアプローチを定式化し,従来の ILASP システムよりも拡張性が高いCDILP 用 ILASP3 および ILASP4 システムについて述べる。

The goal of Inductive Logic Programming (ILP) is to learn a program that explains a set of examples. Until recently, most research on ILP targeted learning Prolog programs. The ILASP system instead learns Answer Set Programs (ASP). Learning such expressive programs widens the applicability of ILP considerably; for example, enabling preference learning, learning common-sense knowledge, including defaults and exceptions, and learning non-deterministic theories. Early versions of ILASP can be considered meta-level ILP approaches, which encode a learning task as a logic program and delegate the search to an ASP solver. More recently, ILASP has shifted towards a new method, inspired by conflict-driven SAT and ASP solvers. The fundamental idea of the approach, called Conflict-driven ILP (CDILP), is to iteratively interleave the search for a hypothesis with the generation of constraints which explain why the current hypothesis does not cover a particular example. These coverage constraints allow ILASP to rule out not just the current hypothesis, but an entire class of hypotheses that do not satisfy the coverage constraint. This paper formalises the CDILP approach and presents the ILASP3 and ILASP4 systems for CDILP, which are demonstrated to be more scalable than previous ILASP systems, particularly in the presence of noise.
翻訳日:2021-04-17 17:09:32 公開日:2020-12-31
# SID:選択蒸留と相互蒸留によるアンカーフリー物体検出のためのインクリメンタルラーニング

SID: Incremental Learning for Anchor-Free Object Detection via Selective and Inter-Related Distillation ( http://arxiv.org/abs/2012.15439v1 )

ライセンス: Link先を確認
Can Peng, Kun Zhao, Sam Maksoud, Meng Li, Brian C. Lovell(参考訳) 増分学習は、ストリーミングデータから新しいタスクを継続的に学習するモデルを必要とする。 しかし、新しいタスクにおけるよく訓練されたディープニューラルネットワークの従来の微調整は、旧タスクのパフォーマンスを劇的に低下させる。 本稿では,コンピュータビジョンの新しいトレンドであるアンカーフリー物体検出の文脈でこの問題に対処する。 現在のインクリメンタルな学習戦略を単純に適応することは、これらのアンカーフリーな検出器では、特定のモデル構造に対する考慮の欠如のために失敗する。 アンカーフリー物体検出器における漸進的学習の課題に対処するために,Selective and Inter-related Distillation (SID)と呼ばれる新たな漸進的学習パラダイムを提案する。 さらに,インクリメンタル学習条件下での検知器の性能を評価するための新しい評価指標を提案する。 適切な場所での選択蒸留を行い,さらに追加のインスタンス関連知識を伝達することにより,ベンチマークデータセットPASCALVOCとCOCOに大きな利点を示す。

Incremental learning requires a model to continually learn new tasks from streaming data. However, traditional fine-tuning of a well-trained deep neural network on a new task will dramatically degrade performance on the old task -- a problem known as catastrophic forgetting. In this paper, we address this issue in the context of anchor-free object detection, which is a new trend in computer vision as it is simple, fast, and flexible. Simply adapting current incremental learning strategies fails on these anchor-free detectors due to lack of consideration of their specific model structures. To deal with the challenges of incremental learning on anchor-free object detectors, we propose a novel incremental learning paradigm called Selective and Inter-related Distillation (SID). In addition, a novel evaluation metric is proposed to better assess the performance of detectors under incremental learning conditions. By selective distilling at the proper locations and further transferring additional instance relation knowledge, our method demonstrates significant advantages on the benchmark datasets PASCAL VOC and COCO.
翻訳日:2021-04-17 17:08:54 公開日:2020-12-31
# TransTrack: Transformerを使った複数オブジェクト追跡

TransTrack: Multiple-Object Tracking with Transformer ( http://arxiv.org/abs/2012.15460v1 )

ライセンス: Link先を確認
Peize Sun, Yi Jiang, Rufeng Zhang, Enze Xie, Jinkun Cao, Xinting Hu, Tao Kong, Zehuan Yuan, Changhu Wang, Ping Luo(参考訳) マルチオブジェクト追跡(MOT)は主に、オブジェクト検出、特徴抽出、時間的関連を別々に行う、複雑かつ多段階追跡検出アルゴリズムによって支配されている。 単一オブジェクト追跡(sot)におけるクエリキー機構は、現在のフレームのオブジェクトを、前のフレームのオブジェクト特徴によって追跡するが、単純なジョイント検出と追跡のmotパラダイムを設定する大きな可能性を秘めている。 それでも、クエリキー法は、新しいオブジェクトを検出できないため、ほとんど研究されない。 本研究では,Transformerを用いたMOTのベースラインであるTransTrackを提案する。 クエリキー機構を利用し、学習したオブジェクトクエリのセットをパイプラインに導入することで、新しいオブジェクトの検出を可能にする。 TransTrackには3つの大きな利点がある。(1)クエリキー機構に基づいたオンライン共同検出/追跡パイプラインである。 従来手法の複雑多段構成を単純化した。 (2) Transformerをベースにした新しいアーキテクチャである。 学習したオブジェクトクエリは、現在のフレーム内のオブジェクトを検出する。 前のフレームからのオブジェクトフィーチャークエリは、現在のオブジェクトと前のオブジェクトを関連付ける。 3) mot17チャレンジデータセット上では,クエリキー機構とトランスフォーマーアーキテクチャによる65.8\% motaの競合を実現することが可能な,極めて単純かつ効果的な手法を初めて実証した。 TransTrackがマルチオブジェクトトラッキングの新しい視点を提供することを期待しています。 コードは以下の通り。 \url{https://github.com/P eizeSun/TransTrack}。

Multiple-object tracking(MOT) is mostly dominated by complex and multi-step tracking-by-detectio n algorithm, which performs object detection, feature extraction and temporal association, separately. Query-key mechanism in single-object tracking(SOT), which tracks the object of the current frame by object feature of the previous frame, has great potential to set up a simple joint-detection-and- tracking MOT paradigm. Nonetheless, the query-key method is seldom studied due to its inability to detect new-coming objects. In this work, we propose TransTrack, a baseline for MOT with Transformer. It takes advantage of query-key mechanism and introduces a set of learned object queries into the pipeline to enable detecting new-coming objects. TransTrack has three main advantages: (1) It is an online joint-detection-and- tracking pipeline based on query-key mechanism. Complex and multi-step components in the previous methods are simplified. (2) It is a brand new architecture based on Transformer. The learned object query detects objects in the current frame. The object feature query from the previous frame associates those current objects with the previous ones. (3) For the first time, we demonstrate a much simple and effective method based on query-key mechanism and Transformer architecture could achieve competitive 65.8\% MOTA on the MOT17 challenge dataset. We hope TransTrack can provide a new perspective for multiple-object tracking. The code is available at: \url{https://github.com/P eizeSun/TransTrack}.
翻訳日:2021-04-17 17:08:33 公開日:2020-12-31
# 視聴覚床計画再構成

Audio-Visual Floorplan Reconstruction ( http://arxiv.org/abs/2012.15470v1 )

ライセンス: Link先を確認
Senthil Purushwalkam, Sebastian Vicenc Amengual Gari, Vamsi Krishna Ithapu, Carl Schissler, Philip Robinson, Abhinav Gupta, Kristen Grauman(参考訳) 環境を少しだけ垣間見るだけで、そのフロアプラン全体についてどれだけ推測できるだろうか? 既存の方法では、コンテキストから見えるものやすぐに見えるものだけをマッピングできるため、完全にマッピングするには空間を通してかなりの動きが必要となる。 音声と視覚の両方を組み合わせることで、限られた視点から素早くフロアプランを再構築する方法について検討する。 オーディオはカメラの視野の外側の幾何を感知するだけでなく、遠方のフリースペース(例えば、別の部屋でbarえている犬)の存在も明らかにし、カメラに見えない部屋の存在を示唆する(例えば、台所の左側にあるはずのものをハミングする食器洗い機)。 AV-Mapはマルチモーダルエンコーダ・デコーダ・フレームワークで,音声と視覚を併用して短い入力ビデオシーケンスからフロアプランを再構築する。 我々は、環境の内部構造と関連する部屋のセマンティックラベルの両方を予測するためにモデルを訓練する。 私たちの85の大規模な実世界の環境における結果は、その影響を示しています。ある領域の26%にまたがるほんの少しの垣根を見れば、その領域全体を66%の精度で見積もることができるのです。

Given only a few glimpses of an environment, how much can we infer about its entire floorplan? Existing methods can map only what is visible or immediately apparent from context, and thus require substantial movements through a space to fully map it. We explore how both audio and visual sensing together can provide rapid floorplan reconstruction from limited viewpoints. Audio not only helps sense geometry outside the camera's field of view, but it also reveals the existence of distant freespace (e.g., a dog barking in another room) and suggests the presence of rooms not visible to the camera (e.g., a dishwasher humming in what must be the kitchen to the left). We introduce AV-Map, a novel multi-modal encoder-decoder framework that reasons jointly about audio and vision to reconstruct a floorplan from a short input video sequence. We train our model to predict both the interior structure of the environment and the associated rooms' semantic labels. Our results on 85 large real-world environments show the impact: with just a few glimpses spanning 26% of an area, we can estimate the whole area with 66% accuracy -- substantially better than the state of the art approach for extrapolating visual maps.
翻訳日:2021-04-17 17:08:11 公開日:2020-12-31
# 非剛性シーンの教師なし単眼深度再構成

Unsupervised Monocular Depth Reconstruction of Non-Rigid Scenes ( http://arxiv.org/abs/2012.15680v1 )

ライセンス: Link先を確認
Ay\c{c}a Takmaz, Danda Pani Paudel, Thomas Probst, Ajad Chhatkuli, Martin R. Oswald, Luc Van Gool(参考訳) 複雑でダイナミックなシーンの単眼深度再構成は、非常に難しい問題である。 厳密な場面の学習手法は教師なしのケースでも有望な結果を提供しているが、動的かつ変形可能な場面でも同様に対処する文献はほとんど存在しない。 本研究では,カメラ動作を明示的にモデル化することなく,剛体部分と非剛体部分を同時に再構成する動的シーンの奥行き推定のための教師なし単眼フレームワークを提案する。 密接な対応を用いて,再構成された3次元点間の対関係距離を日和見的に保存することを目的とした学習目標を導出する。 この過程において、密度深度写像は、厳密な仮説を用いて暗黙的に学習される。 提案手法は,非剛性シーンの挑戦的な映像から3Dを再構成する能力を示す。 さらに,提案手法では補助出力として教師なし動作分割結果も提供する。

Monocular depth reconstruction of complex and dynamic scenes is a highly challenging problem. While for rigid scenes learning-based methods have been offering promising results even in unsupervised cases, there exists little to no literature addressing the same for dynamic and deformable scenes. In this work, we present an unsupervised monocular framework for dense depth estimation of dynamic scenes, which jointly reconstructs rigid and non-rigid parts without explicitly modelling the camera motion. Using dense correspondences, we derive a training objective that aims to opportunistically preserve pairwise distances between reconstructed 3D points. In this process, the dense depth map is learned implicitly using the as-rigid-as-possible hypothesis. Our method provides promising results, demonstrating its capability of reconstructing 3D from challenging videos of non-rigid scenes. Furthermore, the proposed method also provides unsupervised motion segmentation results as an auxiliary output.
翻訳日:2021-04-17 17:07:21 公開日:2020-12-31
# CNNによる単一画像群カウント:ネットワーク設計、損失関数、監督信号

CNN-based Single Image Crowd Counting: Network Design, Loss Function and Supervisory Signal ( http://arxiv.org/abs/2012.15685v1 )

ライセンス: Link先を確認
Haoyue Bai, S.-H. Gary Chan(参考訳) 単一画像の群衆カウントは、公共の安全、都市計画、交通管理などの幅広い応用において、コンピュータビジョンの問題である。 本調査は,CNN(Convolutional Neural Network)に基づく近年の観客数計測技術について,密度マップ推定を通じて概説する。 私たちの目標は、最近のアプローチの最新のレビューを提供し、この分野の新しい研究者に設計原則とトレードオフを教えることです。 公開データセットと評価メトリクスを提示した後、クラウドカウントのための3つの主要な設計モジュール(ディープニューラルネットワーク設計、損失関数、監督信号)の詳細な比較を行い、最近の進歩を概観する。 我々は今後の方向性で調査を終える。

Single image crowd counting is a challenging computer vision problem with wide applications in public safety, city planning, traffic management, etc. This survey is to provide a comprehensive summary of recent advanced crowd counting techniques based on Convolutional Neural Network (CNN) via density map estimation. Our goals are to provide an up-to-date review of recent approaches, and educate new researchers in this field the design principles and trade-offs. After presenting publicly available datasets and evaluation metrics, we review the recent advances with detailed comparisons on three major design modules for crowd counting: deep neural network designs, loss functions, and supervisory signals. We conclude the survey with some future directions.
翻訳日:2021-04-17 17:07:06 公開日:2020-12-31
# 蒸留BERTモデルに基づく統合マンダリンTSフロントエンド

Unified Mandarin TTS Front-end Based on Distilled BERT Model ( http://arxiv.org/abs/2012.15404v1 )

ライセンス: Link先を確認
Yang Zhang, Liqun Deng, Yasheng Wang(参考訳) 典型的なmandarin text-to-speech system(tts)のフロントエンドモジュールは、長いテキスト処理コンポーネントのパイプラインで構成されており、ビルドに多大な労力がかかり、大きな累積モデルサイズとカスケードエラーが発生しやすい。 本稿では,PSP(Prosodic Structure Prediction)とG2P(Grapheme-to-phon eme)変換という,TTSフロントエンドにおける2つの重要なタスクに同時に取り組むための事前学習言語モデルを提案する。 事前学習した中国語BERT[1]をテキストエンコーダとして使用し、マルチタスク学習技術を用いて2つのTSフロントエンドタスクに適応する。 次に、TinyBERT[2]と呼ばれる知識蒸留技術を用いて、BERTエンコーダをより小さなモデルに蒸留し、ベンチマークパイプラインモデルの25%のモデルサイズを両タスクの競争性能を維持しながら、より小さなモデルにする。 提案手法により,TTSフロントエンドモジュール全体を軽量かつ統一的に動作させることができる。

The front-end module in a typical Mandarin text-to-speech system (TTS) is composed of a long pipeline of text processing components, which requires extensive efforts to build and is prone to large accumulative model size and cascade errors. In this paper, a pre-trained language model (PLM) based model is proposed to simultaneously tackle the two most important tasks in TTS front-end, i.e., prosodic structure prediction (PSP) and grapheme-to-phoneme (G2P) conversion. We use a pre-trained Chinese BERT[1] as the text encoder and employ multi-task learning technique to adapt it to the two TTS front-end tasks. Then, the BERT encoder is distilled into a smaller model by employing a knowledge distillation technique called TinyBERT[2], making the whole model size 25% of that of benchmark pipeline models while maintaining competitive performance on both tasks. With the proposed the methods, we are able to run the whole TTS front-end module in a light and unified manner, which is more friendly to deployment on mobile devices.
翻訳日:2021-04-17 17:05:23 公開日:2020-12-31
# 広告予測における木に基づく履歴特徴の自動生成

Automatic Historical Feature Generation through Tree-based Method in Ads Prediction ( http://arxiv.org/abs/2012.15522v1 )

ライセンス: Link先を確認
Hongjian Wang, Qi Li, Lanbo Zhang, Yue Lu, Steven Yoo, Srinivas Vadrevu, Zhenhui Li(参考訳) 歴史的特徴は、ユーザーと広告の間の過去のエンゲージメントを考慮に入れているため、広告クリックスルー率(CTR)予測において重要である。 本稿では,過去の特徴を計数的特徴量を用いて効率的に構築する方法について検討する。 このような問題の鍵となる課題は、カウントキーを自動的に識別する方法にある。 キー選択を数える木に基づく手法を提案する。 直感的には、決定木は自然に様々な特徴の組み合わせを提供し、キー候補の数え上げに使うことができる。 パーソナライズされた計数機能を選択するために,ユーザ毎に1つの決定木モデルをトレーニングし,各ユーザ間で計数キーを頻度ベースの重要度尺度で選択する。 提案手法の有効性を検証するため,twitterビデオ広告データを用いて大規模実験を行った。 オンライン学習とオフライントレーニングの両方で、自動的に識別されるカウント機能は、手作業によるカウント機能よりも優れている。

Historical features are important in ads click-through rate (CTR) prediction, because they account for past engagements between users and ads. In this paper, we study how to efficiently construct historical features through counting features. The key challenge of such problem lies in how to automatically identify counting keys. We propose a tree-based method for counting key selection. The intuition is that a decision tree naturally provides various combinations of features, which could be used as counting key candidate. In order to select personalized counting features, we train one decision tree model per user, and the counting keys are selected across different users with a frequency-based importance measure. To validate the effectiveness of proposed solution, we conduct large scale experiments on Twitter video advertising data. In both online learning and offline training settings, the automatically identified counting features outperform the manually curated counting features.
翻訳日:2021-04-17 17:04:09 公開日:2020-12-31
# CNNにおける畳み込みの自動調整のためのI/O下界

I/O Lower Bounds for Auto-tuning of Convolutions in CNNs ( http://arxiv.org/abs/2012.15667v1 )

ライセンス: Link先を確認
Xiaoyang Zhang, Junmin Xiao, Guangming Tan(参考訳) 畳み込みは畳み込みニューラルネットワーク(CNN)の計算において最も時間を要する部分であり、多くのアプリケーションで大きな成功を収めている。 複雑なデータ依存とモデルサンプルの量の増加により、畳み込みはデータ移動(すなわちメモリアクセス)のオーバーヘッドが高くなる。 この研究は、CNNにおける畳み込みの通信を最小化する包括的な分析と方法論を提供する。 赤-青ゲームモデルに基づく最近のI/O複雑性理論の詳細な解析により、複数のサブ計算からなる合成アルゴリズムの一般I/O低境界理論を開発する。 提案する理論に基づき,cnnにおける2つの代表畳み込みアルゴリズム,すなわち直接畳み込みとウィノグラードアルゴリズムのデータ移動下限結果を定式化する。 次に、I/O低境界結果から導かれる2つの主要な畳み込みアルゴリズムに対して、データ再利用を完全に活用して、近いI/O最適データフロー戦略を設計する。 さらに、近I/O最適データフロー戦略の性能のエンベロープをさらに推し進めるために、各スレッドブロックで使用されるスレッド数や共有メモリのサイズなど、GPU上の直接畳み込みおよびウィノグラードアルゴリズムの最適パラメータ設定を探索するために、I/O下界に基づく自動チューニングの積極的な設計を提案する。 最後に、直接畳み込みとWinogradアルゴリズムの実験結果から、自動チューニングアプローチによるデータフロー戦略は、cuDNN上で平均約3.32倍の性能向上を達成できることが示された。 また,自動チューニングの最先端技術であるTVMと比較して,I/O下界に基づく自動チューニング手法は最適パラメータ設定を高速化するだけでなく,TVMが提供する最適解よりも高い性能を有する。

Convolution is the most time-consuming part in the computation of convolutional neural networks (CNNs), which have achieved great successes in numerous applications. Due to the complex data dependency and the increase in the amount of model samples, the convolution suffers from high overhead on data movement (i.e., memory access). This work provides comprehensive analysis and methodologies to minimize the communication for the convolution in CNNs. With an in-depth analysis of the recent I/O complexity theory under the red-blue game model, we develop a general I/O lower bound theory for a composite algorithm which consists of several different sub-computations. Based on the proposed theory, we establish the data movement lower bound results of two representative convolution algorithms in CNNs, namely the direct convolution and Winograd algorithm. Next, derived from I/O lower bound results, we design the near I/O-optimal dataflow strategies for the two main convolution algorithms by fully exploiting the data reuse. Furthermore, in order to push the envelope of performance of the near I/O-optimal dataflow strategies further, an aggressive design of auto-tuning based on I/O lower bounds, is proposed to search an optimal parameter configuration for the direct convolution and Winograd algorithm on GPU, such as the number of threads and the size of shared memory used in each thread block. Finally, experiment evaluation results on the direct convolution and Winograd algorithm show that our dataflow strategies with the auto-tuning approach can achieve about 3.32x performance speedup on average over cuDNN. In addition, compared with TVM, which represents the state-of-the-art technique for auto-tuning, not only our auto-tuning method based on I/O lower bounds can find the optimal parameter configuration faster, but also our solution has higher performance than the optimal solution provided by TVM.
翻訳日:2021-04-17 17:03:55 公開日:2020-12-31
# バッテリモデルに対するロバストなデータ駆動エラー補償

Robust Data-Driven Error Compensation for a Battery Model ( http://arxiv.org/abs/2012.15686v1 )

ライセンス: Link先を確認
Philipp Gesner, Frank Kirschbaum, Richard Jakobi, Bernard B\"aker(参考訳) -この作業はIFACに提出され、自動車駆動車の開発を通じて、トラクションバッテリーのモデルが不可欠である。 驚くべきことに、現在の膨大なバッテリーデータは、より正確で信頼性の高いシミュレーションにはまだ使われていません。 主に、通常の電池操作中の非一様励起は、測定値の連続的利用を防止する。 したがって、大規模なデータセットに基づいた堅牢なモデルを可能にする方法が必要である。 そのため、既存の物理的動機付けモデルを拡張するデータ駆動型エラーモデルが導入される。 ニューラルネットワークは、既存の動的エラーを補償し、基礎となるデータの記述に基づいてさらに制限される。 本稿では, 一般設定の有効性とロバスト性を検証し, トレーニングデータ分布のモデルとして一級支援ベクトルマシンについても検討する。 5つのデータセットに基づいて、境界外のデータ駆動エラー補償を徐々に制限することで、同様の改善と全体的なロバスト性が向上することを示した。

- This work has been submitted to IFAC for possible publication - Models of traction batteries are an essential tool throughout the development of automotive drivetrains. Surprisingly, today's massively collected battery data is not yet used for more accurate and reliable simulations. Primarily, the non-uniform excitation during regular battery operations prevent a consequent utilization of such measurements. Hence, there is a need for methods which enable robust models based on large datasets. For that reason, a data-driven error model is introduced enhancing an existing physically motivated model. A neural network compensates the existing dynamic error and is further limited based on a description of the underlying data. This paper tries to verify the effectiveness and robustness of the general setup and additionally evaluates a one-class support vector machine as the proposed model for the training data distribution. Based on a five datasets it is shown, that gradually limiting the data-driven error compensation outside the boundary leads to a similar improvement and an increased overall robustness.
翻訳日:2021-04-17 17:03:24 公開日:2020-12-31
# Coded Machine Unlearning

Coded Machine Unlearning ( http://arxiv.org/abs/2012.15721v1 )

ライセンス: Link先を確認
Nasser Aldaghri, Hessam Mahdavifar, Ahmad Beirami(参考訳) 機械学習プロセスでトレーニングされたモデルは、トレーニングプロセスで使用される個々のサンプルに関する情報を格納することができる。 個々のサンプルの影響がモデルから削除されて(すなわち取り除く)必要がある場合が多々あります。 トレーニングセットからサンプルを取り除いた後にモデルをスクラッチから再トレーニングすることは、完全なアンラーニングを保証するが、トレーニングデータセットのサイズが大きくなるにつれて、ますます高価になる。 この問題の解決策の1つは、データセットを分離したシャードに分割し、非コミュニケーションの弱い学習者に割り当て、事前に定義されたルールを使ってモデルを集約するアンサンブル学習手法を使用することである。 このフレームワークはパフォーマンスと未学習のコストのトレードオフを導入し、特にシャードの数が増加するにつれて、不合理なパフォーマンス劣化を引き起こす可能性がある。 本稿では,学習フェーズの前に,データセットを線形に符号化する符号化学習プロトコルを提案する。 また、上述した符号化学習モデルに対応するアンラーニングプロトコルを提案し、提案プロトコルが完全アンラーニングを実現する上での成功について論じる。 最後に, 性能と学習コストのトレードオフの観点から, コーデックマシンアンラーニングプロトコルの有効性を実験的に示した。

Models trained in machine learning processes may store information about individual samples used in the training process. There are many cases where the impact of an individual sample may need to be deleted and unlearned (i.e., removed) from the model. Retraining the model from scratch after removing a sample from its training set guarantees perfect unlearning, however, it becomes increasingly expensive as the size of training dataset increases. One solution to this issue is utilizing an ensemble learning method that splits the dataset into disjoint shards and assigns them to non-communicating weak learners and then aggregates their models using a pre-defined rule. This framework introduces a trade-off between performance and unlearning cost which may result in an unreasonable performance degradation, especially as the number of shards increases. In this paper, we present a coded learning protocol where the dataset is linearly coded before the learning phase. We also present the corresponding unlearning protocol for the aforementioned coded learning model along with a discussion on the proposed protocol's success in ensuring perfect unlearning. Finally, experimental results show the effectiveness of the coded machine unlearning protocol in terms of performance versus unlearning cost trade-off.
翻訳日:2021-04-17 17:03:13 公開日:2020-12-31
# フェデレーション非凸スパース学習

Federated Nonconvex Sparse Learning ( http://arxiv.org/abs/2101.00052v1 )

ライセンス: Link先を確認
Qianqian Tong, Guannan Liang, Tan Zhu and Jinbo Bi(参考訳) 非凸スパース学習は、信号処理やディープネットワーク圧縮など、多くの分野で重要な役割を果たす。 反復的ハードしきい値法(IHT)は、大規模なデータセットで真のサポートとスケーラビリティを回復する能力のため、非凸スパース学習の最先端技術である。 ihtの理論解析は現在集中型iidデータに基づいている。 しかし、現実的な大規模状況では、データは分散され、IDがほとんどなく、ローカルエッジコンピューティングデバイスにプライベートである。 したがって、ローカルデバイス上で並列に更新され、ローカルデータを共有せずに一度だけ中央サーバと通信するフェデレーション設定におけるIHTの特性を調べる必要がある。 本稿では,Federated Hard Thresholding (Fed-HT) とFederated Iterative Hard Thresholding (FedIter-HT) の2つの方法を提案する。 両アルゴリズムが線形収束率を保ち、従来のIHT法と同様に最適なスパース推定器を復元する強力な保証を持つが、現在では非IIDデータを分散化している。 実証的な結果から、Fed-HTとFedIter-HTは、通信ラウンドと帯域幅の低要件で目標値を下げるという点で、競合相手である分散IHTよりも優れていた。

Nonconvex sparse learning plays an essential role in many areas, such as signal processing and deep network compression. Iterative hard thresholding (IHT) methods are the state-of-the-art for nonconvex sparse learning due to their capability of recovering true support and scalability with large datasets. Theoretical analysis of IHT is currently based on centralized IID data. In realistic large-scale situations, however, data are distributed, hardly IID, and private to local edge computing devices. It is thus necessary to examine the property of IHT in federated settings, which update in parallel on local devices and communicate with a central server only once in a while without sharing local data. In this paper, we propose two IHT methods: Federated Hard Thresholding (Fed-HT) and Federated Iterative Hard Thresholding (FedIter-HT). We prove that both algorithms enjoy a linear convergence rate and have strong guarantees to recover the optimal sparse estimator, similar to traditional IHT methods, but now with decentralized non-IID data. Empirical results demonstrate that the Fed-HT and FedIter-HT outperform their competitor - a distributed IHT, in terms of decreasing the objective values with lower requirements on communication rounds and bandwidth.
翻訳日:2021-04-17 17:02:55 公開日:2020-12-31
# グラフ学習のためのボソニックランダムウォークネットワーク

Bosonic Random Walk Networks for Graph Learning ( http://arxiv.org/abs/2101.00082v1 )

ライセンス: Link先を確認
Shiv Shankar, Don Towsley(参考訳) グラフニューラルネットワーク(gnns)の開発は、グラフ構造化データでの機械学習の大きな進歩をもたらした。 これらのネットワークは、グラフの構造を捉えながら、グラフノード間の拡散情報を介して動作する。 近年、量子コンピューティング技術も飛躍的に進歩している。 本研究では,多粒子量子ウォークのグラフ間の拡散情報への応用について検討する。 我々のモデルは、グラフ上の量子ランダムウォーカーのダイナミクスを制御する演算子の学習に基づいている。 分類および回帰作業における本手法の有効性を実証する。

The development of Graph Neural Networks (GNNs) has led to great progress in machine learning on graph-structured data. These networks operate via diffusing information across the graph nodes while capturing the structure of the graph. Recently there has also seen tremendous progress in quantum computing techniques. In this work, we explore applications of multi-particle quantum walks on diffusing information across graphs. Our model is based on learning the operators that govern the dynamics of quantum random walkers on graphs. We demonstrate the effectiveness of our method on classification and regression tasks.
翻訳日:2021-04-17 17:02:32 公開日:2020-12-31
# RF知覚を用いた完全付加物体のロボットグラスピング

Robotic Grasping of Fully-Occluded Objects using RF Perception ( http://arxiv.org/abs/2012.15436v1 )

ライセンス: Link先を確認
Tara Boroushaki, Junshan Leng, Ian Clester, Alberto Rodriguez, Fadel Adib(参考訳) 本稿では,未知および非構造環境における完全閉塞物体を把握可能なロボットシステムrf-graspの設計,実装,評価について述べる。 視線と赤外線センサーの視線知覚に制約される従来のシステムとは異なり、RF-GraspはRF(Radio Frequency)の知覚を用いて、オクルージョンを通して対象物を識別し、特定し、非視線設定で効率的な探索と複雑な操作を行う。 RF-Graspは、目玉カメラと、興味のある物体に装着されたバッテリーレスRFIDタグに依存している。 1)RFIDの位置を利用して環境を選択的に探索し、隠蔽対象に向かって効率的な軌道を計画するRF視覚サーボ制御と,2)効果的かつ複雑な解離・把握ポリシーを学習・実行可能なRF視覚深部強化学習ネットワークである。 RF-Graspのプロトタイプと最先端のベースラインを実装,評価した。 乱雑な設定で成功率と効率を最大40~50%向上させることを示した。 また,障害物の背後の物体を機械的に探索し,ロボット操作の新たな可能性を開くなど,新たな課題としてrf-graspを提示する。

We present the design, implementation, and evaluation of RF-Grasp, a robotic system that can grasp fully-occluded objects in unknown and unstructured environments. Unlike prior systems that are constrained by the line-of-sight perception of vision and infrared sensors, RF-Grasp employs RF (Radio Frequency) perception to identify and locate target objects through occlusions, and perform efficient exploration and complex manipulation tasks in non-line-of-sight settings. RF-Grasp relies on an eye-in-hand camera and batteryless RFID tags attached to objects of interest. It introduces two main innovations: (1) an RF-visual servoing controller that uses the RFID's location to selectively explore the environment and plan an efficient trajectory toward an occluded target, and (2) an RF-visual deep reinforcement learning network that can learn and execute efficient, complex policies for decluttering and grasping. We implemented and evaluated an end-to-end physical prototype of RF-Grasp and a state-of-the-art baseline. We demonstrate it improves success rate and efficiency by up to 40-50% in cluttered settings. We also demonstrate RF-Grasp in novel tasks such mechanical search of fully-occluded objects behind obstacles, opening up new possibilities for robotic manipulation.
翻訳日:2021-04-17 17:02:25 公開日:2020-12-31
# 無線ネットワークにおけるルーティングのための関係強化学習

Relational Deep Reinforcement Learning for Routing in Wireless Networks ( http://arxiv.org/abs/2012.15700v1 )

ライセンス: Link先を確認
Victoria Manfredi, Alicia Wolfe, Bing Wang, Xiaolan Zhang(参考訳) 無線ネットワークのルーティングは広く研究されてきたが、既存のプロトコルは通常、特定のネットワーク条件のために設計されているため、そのような条件における劇的な変化に対応できない。 例えば、接続されたネットワーク用に設計されたプロトコルは、切断されたネットワークに容易に適用できない。 本稿では,多様なトラフィックパターン,混雑レベル,ネットワーク接続性,リンクダイナミクスを一般化した,深層強化学習に基づく分散ルーティング戦略を開発する。 We make the following key innovations in our design: (i) the use of relational features as inputs to the deep neural network approximating the decision space, which enables our algorithm to generalize to diverse network conditions, (ii) the use of packet-centric decisions to transform the routing problem into an episodic task by viewing packets, rather than wireless devices, as reinforcement learning agents, which provides a natural way to propagate and model rewards accurately during learning, and (iii) the use of extended-time actions to model the time spent by a packet waiting in a queue, which reduces the amount of training data needed and allows the learning algorithm to converge more quickly. 我々は,パケットレベルのシミュレータを用いてルーティングアルゴリズムを評価し,トレーニング中に学習するポリシが,より大規模で密集したネットワーク,異なるトポロジ,多様なリンクダイナミクスに一般化可能であることを示す。 提案アルゴリズムは,パケットの配送やパケット毎の遅延に対して,最短経路とバックプレッシャルーティングに優れる。

While routing in wireless networks has been studied extensively, existing protocols are typically designed for a specific set of network conditions and so cannot accommodate any drastic changes in those conditions. For instance, protocols designed for connected networks cannot be easily applied to disconnected networks. In this paper, we develop a distributed routing strategy based on deep reinforcement learning that generalizes to diverse traffic patterns, congestion levels, network connectivity, and link dynamics. We make the following key innovations in our design: (i) the use of relational features as inputs to the deep neural network approximating the decision space, which enables our algorithm to generalize to diverse network conditions, (ii) the use of packet-centric decisions to transform the routing problem into an episodic task by viewing packets, rather than wireless devices, as reinforcement learning agents, which provides a natural way to propagate and model rewards accurately during learning, and (iii) the use of extended-time actions to model the time spent by a packet waiting in a queue, which reduces the amount of training data needed and allows the learning algorithm to converge more quickly. We evaluate our routing algorithm using a packet-level simulator and show that the policy our algorithm learns during training is able to generalize to larger and more congested networks, different topologies, and diverse link dynamics. Our algorithm outperforms shortest path and backpressure routing with respect to packets delivered and delay per packet.
翻訳日:2021-04-17 17:02:01 公開日:2020-12-31
# efficientnet-absolut e zeroによる連続音声キーワードスポッティング

EfficientNet-Absolut e Zero for Continuous Speech Keyword Spotting ( http://arxiv.org/abs/2012.15695v1 )

ライセンス: Link先を確認
Amir Mohammad Rostami, Ali Karimi, Mohammad Ali Akhaee(参考訳) キーワードスポッティング(英: keyword spotting)は、コンピュータが録音した音声から特定の単語やフレーズを見つけるプロセスである。 強力なエンジンであるディープニューラルネットワークアルゴリズムは、適切なデータセット上でトレーニングされた場合、この問題に対処することができる。 この目的のために、ペルシャ語の新しいキーワードスポッティングデータセットであるフットボールキーワードデータセット(FKD)は、クラウドソーシングによって収集される。 このデータセットは18のクラスに31000近いサンプルを含んでいる。 連続音声合成法を用いて,fkdを連続音声と併用する実用的な応用法を提案する。 さらに,キーワードスポッティングタスクに対して,EfficientNet-B0に複合スケーリング手法を適用し,EfficientNet-A0(絶対零)という軽量アーキテクチャを提案する。 最後に,提案アーキテクチャを様々なモデルを用いて評価する。 efficientnet-a0とresnetモデルは、このデータセット上の他のモデルよりも優れています。

Keyword spotting is a process of finding some specific words or phrases in recorded speeches by computers. Deep neural network algorithms, as a powerful engine, can handle this problem if they are trained over an appropriate dataset. To this end, the football keyword dataset (FKD), as a new keyword spotting dataset in Persian, is collected with crowdsourcing. This dataset contains nearly 31000 samples in 18 classes. The continuous speech synthesis method proposed to made FKD usable in the practical application which works with continuous speeches. Besides, we proposed a lightweight architecture called EfficientNet-A0 (absolute zero) by applying the compound scaling method on EfficientNet-B0 for keyword spotting task. Finally, the proposed architecture is evaluated with various models. It is realized that EfficientNet-A0 and Resnet models outperform other models on this dataset.
翻訳日:2021-04-17 17:01:42 公開日:2020-12-31
# 適応サンプリング法による制約付き複合最適化

Constrained and Composite Optimization via Adaptive Sampling Methods ( http://arxiv.org/abs/2012.15411v1 )

ライセンス: Link先を確認
Yuchen Xie, Raghu Bollapragada, Richard Byrd and Jorge Nocedal(参考訳) 本論文の動機は,目的関数が確率的かつ制約が決定論的である制約付き最適化問題を解くための適応的サンプリング法を開発することにある。 本稿では,合成最適化問題min f(x) + h(x)に対しても,f が確率的かつ h が凸(必ずしも微分可能ではない)である場合に適用可能な近位勾配法を提案する。 適応サンプリング法は、計算コストを最小限に抑えるため、勾配近似の品質を徐々に改善するメカニズムを用いる。 制約のない最適化において一般的に用いられるメカニズムは、近位勾配ステップの品質を正確に予測できない点的決定に基づくため、制約付きあるいは複合的な最適化設定ではもはや信頼性が低い。 提案手法は, 勾配近似が十分正確かどうかを判定する完全ステップの結果を測定し, それ以外の場合, より正確な勾配を生成し, 新たなステップを計算する。 強凸と一般凸fの両方について収束結果が確立された。

The motivation for this paper stems from the desire to develop an adaptive sampling method for solving constrained optimization problems in which the objective function is stochastic and the constraints are deterministic. The method proposed in this paper is a proximal gradient method that can also be applied to the composite optimization problem min f(x) + h(x), where f is stochastic and h is convex (but not necessarily differentiable). Adaptive sampling methods employ a mechanism for gradually improving the quality of the gradient approximation so as to keep computational cost to a minimum. The mechanism commonly employed in unconstrained optimization is no longer reliable in the constrained or composite optimization settings because it is based on pointwise decisions that cannot correctly predict the quality of the proximal gradient step. The method proposed in this paper measures the result of a complete step to determine if the gradient approximation is accurate enough; otherwise a more accurate gradient is generated and a new step is computed. Convergence results are established both for strongly convex and general convex f. Numerical experiments are presented to illustrate the practical behavior of the method.
翻訳日:2021-04-17 17:01:27 公開日:2020-12-31
# 複数の計画の方が1より優れている: 異種確率計画

Multiple Plans are Better than One: Diverse Stochastic Planning ( http://arxiv.org/abs/2012.15485v1 )

ライセンス: Link先を確認
Mahsa Ghasemi, Evan Scope Crafts, Bo Zhao, Ufuk Topcu(参考訳) 計画の問題では、望ましい仕様を完全にモデル化することがしばしば困難である。 特に、人間とロボットの相互作用において、そのような困難は人間の好みによって生じる可能性がある。 その結果、結果として得られた目的関数は、仕様を部分的にキャプチャし、真の仕様に関して性能が低下する可能性のある最適化のみを行えます。 この課題に動機づけられた我々は、既知の目的に関してほぼ最適である一連の代表的行動を生成することを目的とした、多様な確率計画と呼ばれる問題を定式化します。 特に、この問題はマルコフ決定プロセスによってモデル化されたシステムの多様でほぼ最適のポリシーの集合を計算することを目的としている。 この問題を制約付き非線形最適化として,フランク=ウルフ法に依存する解を提案する。 次に,提案手法が定常点に収束し,いくつかの計画問題において有効性を示す。

In planning problems, it is often challenging to fully model the desired specifications. In particular, in human-robot interaction, such difficulty may arise due to human's preferences that are either private or complex to model. Consequently, the resulting objective function can only partially capture the specifications and optimizing that may lead to poor performance with respect to the true specifications. Motivated by this challenge, we formulate a problem, called diverse stochastic planning, that aims to generate a set of representative -- small and diverse -- behaviors that are near-optimal with respect to the known objective. In particular, the problem aims to compute a set of diverse and near-optimal policies for systems modeled by a Markov decision process. We cast the problem as a constrained nonlinear optimization for which we propose a solution relying on the Frank-Wolfe method. We then prove that the proposed solution converges to a stationary point and demonstrate its efficacy in several planning problems.
翻訳日:2021-04-17 17:00:50 公開日:2020-12-31
# FREA-Unet:モード転送のための周波数対応U-net

FREA-Unet: Frequency-aware U-net for Modality Transfer ( http://arxiv.org/abs/2012.15397v1 )

ライセンス: Link先を確認
Hajar Emami, Qiong Liu, Ming Dong(参考訳) ポジトロン・エミッション・トモグラフィー(PET)は疾患の診断に広く用いられているが、患者への放射線曝露を伴う高価な取得プロセスがある。 しかし、MRI(MRI)は、患者の放射線曝露を伴わない、より安全な画像モダリティである。 したがって、MRIデータから効率よく自動化されたPET画像を生成する必要がある。 本稿では,合成PET画像を生成するための新しい周波数認識型U-netを提案する。 具体的には、画像の低/高周波数スケールを推定する様々なu-net層に注意機構を組み込む。 我々の周波数アウェアメントUnetは、低周波層における特徴写像の注意スコアを計算し、それをモデルがより重要な領域に集中するのに役立て、よりリアルな出力画像を生み出す。 アルツハイマー病ニューロイメージングイニシアチブ(ADNI)データセットを用いた30名の被験者による実験結果から,現状よりも質的,定量的に優れたPET画像合成性能を示した。

While Positron emission tomography (PET) imaging has been widely used in diagnosis of number of diseases, it has costly acquisition process which involves radiation exposure to patients. However, magnetic resonance imaging (MRI) is a safer imaging modality that does not involve patient's exposure to radiation. Therefore, a need exists for an efficient and automated PET image generation from MRI data. In this paper, we propose a new frequency-aware attention U-net for generating synthetic PET images. Specifically, we incorporate attention mechanism into different U-net layers responsible for estimating low/high frequency scales of the image. Our frequency-aware attention Unet computes the attention scores for feature maps in low/high frequency layers and use it to help the model focus more on the most important regions, leading to more realistic output images. Experimental results on 30 subjects from Alzheimers Disease Neuroimaging Initiative (ADNI) dataset demonstrate good performance of the proposed model in PET image synthesis that achieved superior performance, both qualitative and quantitative, over current state-of-the-arts.
翻訳日:2021-04-17 17:00:35 公開日:2020-12-31
# CTおよびX線による肺病変の検出と分類に関する調査

Survey of the Detection and Classification of Pulmonary Lesions via CT and X-Ray ( http://arxiv.org/abs/2012.15442v1 )

ライセンス: Link先を確認
Yixuan Sun, Chengyao Li, Qian Zhang, Aimin Zhou and Guixu Zhang(参考訳) 近年ではいくつかの肺疾患、特に新型コロナウイルス感染症(COVID-19)の流行が世界的に注目を集めている。 これらの疾患は、肺イメージングの助けを借りて効果的に診断および治療することができる。 深層学習技術の発展と多くの公開医用画像データセットの出現により、医用画像による肺疾患の診断はさらに改善されている。 本稿では過去10年間の肺CTおよびX線画像の検出と分類について概説する。 また, 各種病変の画像的特徴に基づいて, 肺結節, 肺炎, その他の一般的な肺病変の検出について概説する。 さらに,26の一般用医用画像データセットを紹介し,最新の技術を要約し,現在の課題と今後の研究方向性について考察する。

In recent years, the prevalence of several pulmonary diseases, especially the coronavirus disease 2019 (COVID-19) pandemic, has attracted worldwide attention. These diseases can be effectively diagnosed and treated with the help of lung imaging. With the development of deep learning technology and the emergence of many public medical image datasets, the diagnosis of lung diseases via medical imaging has been further improved. This article reviews pulmonary CT and X-ray image detection and classification in the last decade. It also provides an overview of the detection of lung nodules, pneumonia, and other common lung lesions based on the imaging characteristics of various lesions. Furthermore, this review introduces 26 commonly used public medical image datasets, summarizes the latest technology, and discusses current challenges and future research directions.
翻訳日:2021-04-17 17:00:15 公開日:2020-12-31
# 非共発性病変の共有知識をアノテーション効率のよいcovid-19 ct肺感染分画に活用する

Exploiting Shared Knowledge from Non-COVID Lesions for Annotation-Efficient COVID-19 CT Lung Infection Segmentation ( http://arxiv.org/abs/2012.15564v1 )

ライセンス: Link先を確認
Yichi Zhang, Qingcheng Liao, Lin Yuan, He Zhu, Jiezhen Xing, Jicong Zhang(参考訳) 新型コロナウイルス(covid-19)は非常に伝染性が高く、世界中に広がり、すべての国に深刻な脅威となっている。 コンピュータ断層撮影(CT)による肺感染症の自動分離は、COVID-19の定量的解析において重要な役割を担っている。 しかし、大きな課題は、注釈付きcovid-19データセットの不十分さにある。 現在、いくつかのパブリックな非新型コロナウイルス肺病変セグメンテーションデータセットがあり、関連するCOVID-19セグメンテーションタスクに有用な情報を一般化する可能性がある。 本稿では,アノテーション効率の高いct肺感染分画のための,新しい関係駆動協調学習モデルを提案する。 ネットワークは、同じアーキテクチャのエンコーダと共有デコーダで構成される。 一般的なエンコーダは、複数の非ウイルス病変に基づいて一般的な肺病変の特徴を捉えるために採用され、ターゲットエンコーダは、COVID-19感染症のタスク固有の特徴に焦点を当てる。 次に、2つの並列エンコーダから抽出された特徴をデコーダ部に連結する。 新型コロナウイルスと非ウイルス病変の共通知識を徹底的に活用するために,抽出した入力の特徴間の関係の整合性を規則化する協調学習手法を開発した。 個々の予測の一貫性を単純に強制する既存の一貫性に基づく方法以外に、本手法はサンプル間の特徴関係の一貫性を強制し、covid-19と非共有のケースからセマンティックな情報を探索するようモデルに促す。 1つの公開 COVID-19 データセットと2つの公開 非 COVID データセットに対する大規模な実験により、我々の手法は、十分な高品質 COVID-19 アノテーションが欠如している既存の方法と比較して、より良いセグメンテーション性能を達成することが示された。

The novel Coronavirus disease (COVID-19) is a highly contagious virus and has spread all over the world, posing an extremely serious threat to all countries. Automatic lung infection segmentation from computed tomography (CT) plays an important role in the quantitative analysis of COVID-19. However, the major challenge lies in the inadequacy of annotated COVID-19 datasets. Currently, there are several public non-COVID lung lesion segmentation datasets, providing the potential for generalizing useful information to the related COVID-19 segmentation task. In this paper, we propose a novel relation-driven collaborative learning model for annotation-efficient COVID-19 CT lung infection segmentation. The network consists of encoders with the same architecture and a shared decoder. The general encoder is adopted to capture general lung lesion features based on multiple non-COVID lesions, while the target encoder is adopted to focus on task-specific features of COVID-19 infections. Features extracted from the two parallel encoders are concatenated for the subsequent decoder part. To thoroughly exploit shared knowledge between COVID and non-COVID lesions, we develop a collaborative learning scheme to regularize the relation consistency between extracted features of given input. Other than existing consistency-based methods that simply enforce the consistency of individual predictions, our method enforces the consistency of feature relation among samples, encouraging the model to explore semantic information from both COVID-19 and non-COVID cases. Extensive experiments on one public COVID-19 dataset and two public non-COVID datasets show that our method achieves superior segmentation performance compared with existing methods in the absence of sufficient high-quality COVID-19 annotations.
翻訳日:2021-04-17 17:00:03 公開日:2020-12-31
# FGF-GAN:高速誘導フィルタによるパンシャルペン用軽量生成逆数ネットワーク

FGF-GAN: A Lightweight Generative Adversarial Network for Pansharpening via Fast Guided Filter ( http://arxiv.org/abs/2101.00062v1 )

ライセンス: Link先を確認
Zixiang Zhao, Jiangshe Zhang, Shuang Xu, Kai Sun, Lu Huang, Junmin Liu, Chunxia Zhang(参考訳) pansharpeningはリモートセンシングに広く使われている画像強調技術である。 その原理は、入力された高分解能単一チャネルパノクロマティック(PAN)画像と低分解能マルチスペクトル像を融合させ、高分解能マルチスペクトル(HRMS)画像を得ることである。 既存のDeep Learning Pansharpening法には2つの欠点がある。 まず、2つの入力画像の特徴をチャネル次元に沿って結合してhrms画像を再構成する必要があるため、pan画像の重要性は顕著ではなく、計算コストも高くなる。 第2に,手動で設計した損失関数から特徴情報を抽出することは困難である。 そこで本研究では,高速誘導フィルタ(FGF)を用いたパンシャーピングによる生成対向ネットワークを提案する。 ジェネレータでは、従来のチャネル結合はFGFに置き換えられ、パラメータの数を減らしながら空間情報をよりよく保持する。 一方、融合オブジェクトは空間的注意モジュールによってハイライトすることができる。 また, 特徴の潜伏情報は, 敵対的訓練によって効果的に保存できる。 多数の実験により、我々のネットワークは既存の手法を超越し、パラメータが少なく、高品質なHRMS画像を生成することを示した。

Pansharpening is a widely used image enhancement technique for remote sensing. Its principle is to fuse the input high-resolution single-channel panchromatic (PAN) image and low-resolution multi-spectral image and to obtain a high-resolution multi-spectral (HRMS) image. The existing deep learning pansharpening method has two shortcomings. First, features of two input images need to be concatenated along the channel dimension to reconstruct the HRMS image, which makes the importance of PAN images not prominent, and also leads to high computational cost. Second, the implicit information of features is difficult to extract through the manually designed loss function. To this end, we propose a generative adversarial network via the fast guided filter (FGF) for pansharpening. In generator, traditional channel concatenation is replaced by FGF to better retain the spatial information while reducing the number of parameters. Meanwhile, the fusion objects can be highlighted by the spatial attention module. In addition, the latent information of features can be preserved effectively through adversarial training. Numerous experiments illustrate that our network generates high-quality HRMS images that can surpass existing methods, and with fewer parameters.
翻訳日:2021-04-17 16:59:38 公開日:2020-12-31
# 超不均衡セグメンテーションのための損失アンサンブル

Loss Ensembles for Extremely Imbalanced Segmentation ( http://arxiv.org/abs/2101.10815v1 )

ライセンス: Link先を確認
Jun Ma(参考訳) 本総説では,脳mriスキャンから脳動脈瘤の自動分割法について概説する。 異なる損失関数から訓練された複数のモデルのアンサンブルを用いる。 本手法はADAMチャレンジセグメンテーションタスクにおいて第1位にランクインした。 コードとトレーニングされたモデルはhttps://github.com/J unMa11/ADAM2020で公開されている。

This short paper briefly presents our methodology details of automatic intracranial aneurysms segmentation from brain MR scans. We use ensembles of multiple models trained from different loss functions. Our method ranked first place in the ADAM challenge segmentation task. The code and trained models are publicly available at https://github.com/J unMa11/ADAM2020.
翻訳日:2021-04-17 16:59:21 公開日:2020-12-31
# グループスパース回帰モデルの選択後の推論

Inference post Selection of Group-sparse Regression Models ( http://arxiv.org/abs/2012.15664v1 )

ライセンス: Link先を確認
Snigdha Panigrahi, Peter W. MacDonald, Daniel Kessler(参考訳) 条件推論は、自動モデル選択からのデータが推論のために再利用されるとき、バイアスに対処するための厳密なアプローチを提供する。 本稿では,線形モデル内の不確実性を評価するための統計的に一貫性のあるベイズフレームワークを開発した。 遺伝子、タンパク質、遺伝的変異体、神経画像計測がそれぞれ生物学的経路、分子機能、調節領域、認知的役割によってグループ化された場合、これらのモデルはグループスパース学習アルゴリズムの有用なクラスによって選択される。 ラプラス型近似の一般化版で展開される有望群の選択を正確に考慮する調整因子が、我々の新しい手法の中心である。 グループLASSO, 重なり合うグループLASSO, スパースグループLASSOなどのグループスパースモデルを用いて, 広範囲にわたる実験およびヒト神経画像アプリケーションからのデータに基づいて, 提案手法の有効性について述べる。

Conditional inference provides a rigorous approach to counter bias when data from automated model selections is reused for inference. We develop in this paper a statistically consistent Bayesian framework to assess uncertainties within linear models that are informed by grouped sparsities in covariates. Finding wide applications when genes, proteins, genetic variants, neuroimaging measurements are grouped respectively by their biological pathways, molecular functions, regulatory regions, cognitive roles, these models are selected through a useful class of group-sparse learning algorithms. An adjustment factor to account precisely for the selection of promising groups, deployed with a generalized version of Laplace-type approximations is the centerpiece of our new methods. Accommodating well known group-sparse models such as those selected by the Group LASSO, the overlapping Group LASSO, the sparse Group LASSO etc., we illustrate the efficacy of our methodology in extensive experiments and on data from a human neuroimaging application.
翻訳日:2021-04-17 16:59:16 公開日:2020-12-31
# 移動目標インジケータシステムのための適応フィルタ

Adaptive filters for the moving target indicator system ( http://arxiv.org/abs/2012.15440v1 )

ライセンス: Link先を確認
Boris N. Oreshkin(参考訳) 適応アルゴリズムは、干渉共分散の事前の不確かさを克服するためにレーダーターゲット検出で使用される重要な種類のアルゴリズムに属する。 有用な信号による経験的共分散行列の汚染は、この種の適応アルゴリズムの性能を著しく低下させる。 正規化は、レーダー文献でもサンプル共分散負荷として知られており、サンプル共分散行列インバージョンに基づく適応アルゴリズムの要求信号による元の問題の悪条件と経験共分散の汚染の両方に対処することができる。 しかし、共分散行列と有用な信号の浸透モデルの構造について強い仮定をしなければ、負荷係数の最適値は導出できない。 同様に、線形制約付きまたは制約のない最小平均二乗アルゴリズムは、学習サンプルと対象信号との汚染にも敏感である。 適応アルゴリズムの収束性を向上させるための2つの手法を合成し,対象からの信号による学習サンプルの汚染から保護する。 提案手法は,干渉+雑音比(sinr)に対する経験的信号の最大化に基づいている。 シミュレーションデータを用いてその効果を示す。

Adaptive algorithms belong to an important class of algorithms used in radar target detection to overcome prior uncertainty of interference covariance. The contamination of the empirical covariance matrix by the useful signal leads to significant degradation of performance of this class of adaptive algorithms. Regularization, also known in radar literature as sample covariance loading, can be used to combat both ill conditioning of the original problem and contamination of the empirical covariance by the desired signal for the adaptive algorithms based on sample covariance matrix inversion. However, the optimum value of loading factor cannot be derived unless strong assumptions are made regarding the structure of covariance matrix and useful signal penetration model. Similarly, least mean square algorithm with linear constraint or without constraint, is also sensitive to the contamination of the learning sample with the target signal. We synthesize two approaches to improve the convergence of adaptive algorithms and protect them from the contamination of the learning sample with the signal from the target. The proposed approach is based on the maximization of empirical signal to interference plus noise ratio (SINR). Its effectiveness is demonstrated using simulated data.
翻訳日:2021-04-17 16:58:56 公開日:2020-12-31
# 無線ネットワークによるベイジアンフェデレーション学習

Bayesian Federated Learning over Wireless Networks ( http://arxiv.org/abs/2012.15486v1 )

ライセンス: Link先を確認
Seunghoon Lee, Chanho Park, Song-Nam Hong, Yonina C. Eldar, Namyoon Lee(参考訳) フェデレーション学習(federated learning)は、ローカルデバイスに格納された異種データセットを用いた、プライバシ保護および分散トレーニング手法である。 無線ネットワークによる連合学習では、モバイルデバイスが異種通信リンク上で統計的に異なる勾配情報を送信するサーバで、局所的に計算された勾配を集約する必要がある。 本稿では,平均二乗誤差 (mse) を最小化する意味で,不均一量子化勾配情報を最適に集約するベイズ型フェデレート学習 (bfl) アルゴリズムを提案する。 BFL の考え方は、i) 局所勾配の事前分布、i) 勾配量子化関数、iii) チャネル分布を共同で利用することで、サーバにおける1ビットの量子化局所勾配を集約することである。 BFLの実装には、モバイル機器の数が増えるにつれて、高い通信と計算コストが必要となる。 この課題に対処するために、スケーラブルBFL (SBFL) と呼ばれる効率的な修正BFLアルゴリズムを提案する。 SBFLでは局所勾配の簡易分布を仮定する。 各モバイルデバイスは、この分布を表す2つのスカラーパラメータとともに、1ビットの量子化局所勾配を送信する。 サーバはノイズとフェードした量子化勾配を集約してmseを最小化する。 非凸損失関数のクラスに対するSBFLの収束解析を提供する。 本分析は,通信路のパラメータと勾配が収束に与える影響を解明する。 シミュレーションから,mnistデータセットを用いたニューラルネットワークのトレーニングとテストにおいて,sbflは従来の符号確率勾配降下アルゴリズムをかなり上回っていることを示す。

Federated learning is a privacy-preserving and distributed training method using heterogeneous data sets stored at local devices. Federated learning over wireless networks requires aggregating locally computed gradients at a server where the mobile devices send statistically distinct gradient information over heterogenous communication links. This paper proposes a Bayesian federated learning (BFL) algorithm to aggregate the heterogeneous quantized gradient information optimally in the sense of minimizing the mean-squared error (MSE). The idea of BFL is to aggregate the one-bit quantized local gradients at the server by jointly exploiting i) the prior distributions of the local gradients, ii) the gradient quantizer function, and iii) channel distributions. Implementing BFL requires high communication and computational costs as the number of mobile devices increases. To address this challenge, we also present an efficient modified BFL algorithm called scalable-BFL (SBFL). In SBFL, we assume a simplified distribution on the local gradient. Each mobile device sends its one-bit quantized local gradient together with two scalar parameters representing this distribution. The server then aggregates the noisy and faded quantized gradients to minimize the MSE. We provide a convergence analysis of SBFL for a class of non-convex loss functions. Our analysis elucidates how the parameters of communication channels and the gradient priors affect convergence. From simulations, we demonstrate that SBFL considerably outperforms the conventional sign stochastic gradient descent algorithm when training and testing neural networks using MNIST data sets over heterogeneous wireless networks.
翻訳日:2021-04-17 16:58:16 公開日:2020-12-31
# 非同期アドバンテージアクター批判:非漸近解析と線形高速化

Asynchronous Advantage Actor Critic: Non-asymptotic Analysis and Linear Speedup ( http://arxiv.org/abs/2012.15511v1 )

ライセンス: Link先を確認
Han Shen, Kaiqing Zhang, Mingyi Hong, Tianyi Chen(参考訳) 標準強化学習(RL)アルゴリズムの非同期並列実装は、現代のRLの大きな成功の鍵となる。 多くの非同期rlアルゴリズムの中で、最も人気があり効果的なアルゴリズムはa3c(asyncer advantage actor-critic)アルゴリズムである。 A3C は RL のワークホースになりつつあるが、その理論的性質はまだよく理解されておらず、非漸近解析や並列性(a.k.a)の性能向上がある。 スピードアップ)。 本稿では、A3CアルゴリズムをTD(0)で修正し、A3C-TD(0)と呼ばれ、証明可能な収束を保証する。 TD更新に対する線形値関数近似により、A3C-TD(0)の収束は両方のi.d.の下で確立される。 そしてマルコフのサンプリング。 i.i.d. サンプリングすると、A3C-TD(0)は、労働者あたり$\mathcal{O}(\epsilon^{-2.5}/N)$のサンプル複雑さを取得し、$\epsilon$精度を達成する。 2時間スケールのACに対して$\mathcal{O}(\epsilon^{-2.5})$の最もよく知られたサンプル複雑性と比較すると、A3C-TD(0) は、ACアルゴリズムの並列性と非同期性の利点を理論的に初めて正当化する \emph{linear speedup} を達成する。 合成インスタンスとOpenAI Gym環境に関する数値実験を行い,我々の理論解析を検証した。

Asynchronous and parallel implementation of standard reinforcement learning (RL) algorithms is a key enabler of the tremendous success of modern RL. Among many asynchronous RL algorithms, arguably the most popular and effective one is the asynchronous advantage actor-critic (A3C) algorithm. Although A3C is becoming the workhorse of RL, its theoretical properties are still not well-understood, including the non-asymptotic analysis and the performance gain of parallelism (a.k.a. speedup). This paper revisits the A3C algorithm with TD(0) for the critic update, termed A3C-TD(0), with provable convergence guarantees. With linear value function approximation for the TD update, the convergence of A3C-TD(0) is established under both i.i.d. and Markovian sampling. Under i.i.d. sampling, A3C-TD(0) obtains sample complexity of $\mathcal{O}(\epsilon^{-2.5}/N)$ per worker to achieve $\epsilon$ accuracy, where $N$ is the number of workers. Compared to the best-known sample complexity of $\mathcal{O}(\epsilon^{-2.5})$ for two-timescale AC, A3C-TD(0) achieves \emph{linear speedup}, which justifies the advantage of parallelism and asynchrony in AC algorithms theoretically for the first time. Numerical tests on synthetically generated instances and OpenAI Gym environments have been provided to verify our theoretical analysis.
翻訳日:2021-04-17 16:57:49 公開日:2020-12-31
# AoI駆動の深層強化学習によるIoTネットワークの自律的メンテナンス

Autonomous Maintenance in IoT Networks via AoI-driven Deep Reinforcement Learning ( http://arxiv.org/abs/2012.15548v1 )

ライセンス: Link先を確認
George Stamatakis, Nikolaos Pappas, Alexandros Fragkiadakis, Apostolos Traganitis(参考訳) IoT(Internet of Things)は、デプロイされるデバイスやアプリケーションの数の増加とともに、ネットワークのメンテナンス手順に大きな課題をもたらしている。 本研究では,IoTネットワークにおける自律的保守の問題を,部分観測可能なマルコフ決定プロセスとして定式化する。 その後,深層強化学習アルゴリズム(drl)を用いて,メンテナンス手順が整っているか否かを判断するエージェントを訓練し,前者の場合,適切なメンテナンスタイプが必要となる。 IoTネットワークの不足するリソースの無駄を避けるため、AI(Age of Information)メトリクスをスマートエージェントのトレーニングのための報酬信号として使用しています。 AoIは、通常のサービス提供の一部としてIoTセンサによって送信されるセンサデータの鮮度をキャプチャする。 シミュレーションの結果,AoIはネットワークの自律的メンテナンスのためのスマートエージェントのトレーニングにおいて,システムの過去と現在の状態に関する情報を十分に統合していることがわかった。

Internet of Things (IoT) with its growing number of deployed devices and applications raises significant challenges for network maintenance procedures. In this work, we formulate a problem of autonomous maintenance in IoT networks as a Partially Observable Markov Decision Process. Subsequently, we utilize Deep Reinforcement Learning algorithms (DRL) to train agents that decide if a maintenance procedure is in order or not and, in the former case, the proper type of maintenance needed. To avoid wasting the scarce resources of IoT networks we utilize the Age of Information (AoI) metric as a reward signal for the training of the smart agents. AoI captures the freshness of the sensory data which are transmitted by the IoT sensors as part of their normal service provision. Numerical results indicate that AoI integrates enough information about the past and present states of the system to be successfully used in the training of smart agents for the autonomous maintenance of the network.
翻訳日:2021-04-17 16:57:17 公開日:2020-12-31
# 観測データの3/4リグレッション

Three-quarter Sibling Regression for Denoising Observational Data ( http://arxiv.org/abs/2101.00074v1 )

ライセンス: Link先を確認
Shiv Shankar, Daniel Sheldon, Tao Sun, John Pickering, and Thomas G. Dietterich(参考訳) 多くの生態学的研究と保全政策は、観察プロセスによってもたらされた系統的変動の影響を受けうる種の現地観測に基づいている。 最近導入された「半兄弟回帰」と呼ばれる因果モデリング技術は、複数の独立した確率変数の測定における系統的誤りを検出し、訂正することができる。 しかし、変数が依存している場合、本質的な変数は排除されるため、共通の原因によって制御される種数のモデリングを含む多くの状況には適用されない。 この制限を部分的に克服する「3/4兄弟回帰」手法を提案する。 潜在変数が共通の原因を観測した場合、系統的なノイズの影響をフィルターすることができる。 本手法を理論的に正当化し, 合成データに有効性を示すとともに, 月の明るさによる系統的な検出変動を低減できることを示す。

Many ecological studies and conservation policies are based on field observations of species, which can be affected by systematic variability introduced by the observation process. A recently introduced causal modeling technique called 'half-sibling regression' can detect and correct for systematic errors in measurements of multiple independent random variables. However, it will remove intrinsic variability if the variables are dependent, and therefore does not apply to many situations, including modeling of species counts that are controlled by common causes. We present a technique called 'three-quarter sibling regression' to partially overcome this limitation. It can filter the effect of systematic noise when the latent variables have observed common causes. We provide theoretical justification of this approach, demonstrate its effectiveness on synthetic data, and show that it reduces systematic detection variability due to moon brightness in moth surveys.
翻訳日:2021-04-17 16:57:02 公開日:2020-12-31
# クリーングラウンド真実を用いたリアルタイムWebカメラハートレートと変動評価

Real-time Webcam Heart-Rate and Variability Estimation with Clean Ground Truth for Evaluation ( http://arxiv.org/abs/2012.15846v1 )

ライセンス: Link先を確認
Amogh Gudi, Marian Bittner, Jan van Gemert(参考訳) RPPG(Remote Photo-plethysmograph y)は、カメラを用いて人の心拍数(HR)を推定する。 心拍数がどのように人のバイタルサインに関する有用な情報を提供するかと同様に、基礎となる生理的・心理学的条件についての洞察は心拍変動(HRV)から得られる。 HRVは心拍間の微妙な変動の尺度である。 しかし、この測定には高い精度で心臓の鼓動を時間的に位置決めする必要がある。 本稿では,心拍数を推定するだけでなく,パルス波形を心拍数に抽出し,心拍変動を計測する,新しいフィルタリングと運動抑制機能を備えた高効率リアルタイムrPPGパイプラインを提案する。 この教師なしの方法は、rPPG特有の訓練を必要とせず、リアルタイムで動作することができる。 また、HRおよびHRV推定におけるrPPGアルゴリズムの評価に特化して設計された、新しいマルチモーダルビデオデータセットであるVicarPPG 2を導入する。 提案手法を,公開および自己記録データセットの包括的範囲において様々な条件下で検証・検討し,最先端の結果を示し,いくつかのユニークな側面について有用な洞察を提供する。 最後に、既存のrPPGデータセットに対して、人間による検証済みの真理ピーク/ハイトビートアノテーションのコレクションであるCleanerPPGを利用可能にします。 これらの検証済みアノテーションは、rppgアルゴリズムの将来の評価とベンチマークをより正確で、標準化され、公平にする。

Remote photo-plethysmograph y (rPPG) uses a camera to estimate a person's heart rate (HR). Similar to how heart rate can provide useful information about a person's vital signs, insights about the underlying physio/psychological conditions can be obtained from heart rate variability (HRV). HRV is a measure of the fine fluctuations in the intervals between heart beats. However, this measure requires temporally locating heart beats with a high degree of precision. We introduce a refined and efficient real-time rPPG pipeline with novel filtering and motion suppression that not only estimates heart rates, but also extracts the pulse waveform to time heart beats and measure heart rate variability. This unsupervised method requires no rPPG specific training and is able to operate in real-time. We also introduce a new multi-modal video dataset, VicarPPG 2, specifically designed to evaluate rPPG algorithms on HR and HRV estimation. We validate and study our method under various conditions on a comprehensive range of public and self-recorded datasets, showing state-of-the-art results and providing useful insights into some unique aspects. Lastly, we make available CleanerPPG, a collection of human-verified ground truth peak/heart-beat annotations for existing rPPG datasets. These verified annotations should make future evaluations and benchmarking of rPPG algorithms more accurate, standardized and fair.
翻訳日:2021-04-17 16:56:50 公開日:2020-12-31
# 深層学習のための汎用的な操作手順--制約のない最適設計の視点から

Generalized Operating Procedure for Deep Learning: an Unconstrained Optimal Design Perspective ( http://arxiv.org/abs/2012.15391v1 )

ライセンス: Link先を確認
Shen Chen, Mingwei Zhang, Jiamin Cui, Wei Yao(参考訳) 深層学習(DL)は、非常に抽象的な表現を抽出し、非常に複雑な関数を学習する効果により、画像、ビデオ、音声の処理において顕著なブレークスルーをもたらした。 しかし、実際のユースケースで行う方法については、手術手順が報告されることはめったにない。 本稿では,dlの使用の障壁を取り除くための簡単なインテンションによって動機付けられた,制約のない最適設計の観点から,dlの汎用的な運用手順を提示することで,この問題に対処することを目的とする。 提案手法は,プロジェクト/プロブレム文,データ収集,アーキテクチャ設計,パラメータの初期化,損失関数の定義,最適パラメータの計算,推論の7つのステップを含む。 そこで本研究では,入力音声発話を周波数範囲の異なる複数の並列ストリームで処理することにより,特徴の多様性から音響モデルがより堅牢になるように,マルチストリームのエンド・ツー・エンドの話者照合システムを構築する。 VoxCelebデータセットを用いて学習し,提案手法の有効性を検証するとともに,マルチストリームフレームワークが最小決定コスト関数(minDCF)を20%削減してシングルストリームベースラインを上回っていることを示す。

Deep learning (DL) has brought about remarkable breakthrough in processing images, video and speech due to its efficacy in extracting highly abstract representation and learning very complex functions. However, there is seldom operating procedure reported on how to make it for real use cases. In this paper, we intend to address this problem by presenting a generalized operating procedure for DL from the perspective of unconstrained optimal design, which is motivated by a simple intension to remove the barrier of using DL, especially for those scientists or engineers who are new but eager to use it. Our proposed procedure contains seven steps, which are project/problem statement, data collection, architecture design, initialization of parameters, defining loss function, computing optimal parameters, and inference, respectively. Following this procedure, we build a multi-stream end-to-end speaker verification system, in which the input speech utterance is processed by multiple parallel streams within different frequency range, so that the acoustic modeling can be more robust resulting from the diversity of features. Trained with VoxCeleb dataset, our experimental results verify the effectiveness of our proposed operating procedure, and also show that our multi-stream framework outperforms single-stream baseline with 20 % relative reduction in minimum decision cost function (minDCF).
翻訳日:2021-04-17 16:56:28 公開日:2020-12-31
# CADA: コミュニケーション適応型分散アダム

CADA: Communication-Adapti ve Distributed Adam ( http://arxiv.org/abs/2012.15469v1 )

ライセンス: Link先を確認
Tianyi Chen, Ziye Guo, Yuejiao Sun and Wotao Yin(参考訳) 確率勾配降下(SGD)は、大規模機械学習の第一の作業場である。 AdaGrad、Adam、AMSGradなどの適応型でよく使われている。 本稿では,分散機械学習における適応確率勾配降下法を提案する。これは,有名なAdam方式の通信適応的手法とみなすことができ,CADAという名称を正当化することができる。 CADAの重要なコンポーネントは、通信アップロードを保存するために実装できる適応確率勾配に適した新しいルールのセットである。 新しいアルゴリズムは、古いadam勾配を適応的に再利用し、通信を節約し、元のadamに匹敵する収束率を持つ。 数値実験では、CADAは、全通信ラウンドの削減の観点から、印象的な経験的性能を達成する。

Stochastic gradient descent (SGD) has taken the stage as the primary workhorse for large-scale machine learning. It is often used with its adaptive variants such as AdaGrad, Adam, and AMSGrad. This paper proposes an adaptive stochastic gradient descent method for distributed machine learning, which can be viewed as the communication-adapti ve counterpart of the celebrated Adam method - justifying its name CADA. The key components of CADA are a set of new rules tailored for adaptive stochastic gradients that can be implemented to save communication upload. The new algorithms adaptively reuse the stale Adam gradients, thus saving communication, and still have convergence rates comparable to original Adam. In numerical experiments, CADA achieves impressive empirical performance in terms of total communication round reduction.
翻訳日:2021-04-17 16:55:47 公開日:2020-12-31
# 最大量子状態トモグラフィーのためのオンラインアルゴリズム

An Online Algorithm for Maximum-Likelihood Quantum State Tomography ( http://arxiv.org/abs/2012.15498v1 )

ライセンス: Link先を確認
Chien-Ming Lin, Yu-Min Hsu, Yen-Huan Li(参考訳) 我々は、我々の知る限り、量子状態トモグラフィーを最大化するための最初のオンラインアルゴリズムを提案する。 推定される量子状態が、密度行列 \(d \)-by(d \)-by(d \) に対応すると仮定する。 このアルゴリズムのイテレーションごとの計算複雑性は、データサイズとは独立に \(o (d ^ 3 ) \) である。 アルゴリズムの期待される数値誤差は$o(\sqrt{ (1 / t ) d \log d })$であり、ここで$t$は反復数を表す。 このアルゴリズムは、最近のオンラインポートフォリオ選択アルゴリズムであるsoft-bayes(oreau et al.)の量子拡張と見なすことができる。 soft-bayes: 専門家とログロスの混合のためのプロジェクション。 \textit{Int。 Conf アルゴリズム学習理論。 2017).

We propose, to the best of our knowledge, the first online algorithm for maximum-likelihood quantum state tomography. Suppose the quantum state to be estimated corresponds to a \( D \)-by-\( D \) density matrix. The per-iteration computational complexity of the algorithm is \( O ( D ^ 3 ) \), independent of the data size. The expected numerical error of the algorithm is $O(\sqrt{ ( 1 / T ) D \log D })$, where $T$ denotes the number of iterations. The algorithm can be viewed as a quantum extension of Soft-Bayes, a recent algorithm for online portfolio selection (Orseau et al. Soft-Bayes: Prod for mixtures of experts with log-loss. \textit{Int. Conf. Algorithmic Learning Theory}. 2017).
翻訳日:2021-04-17 16:55:37 公開日:2020-12-31
# リチウムイオン電池の周期容量予測のための修正ガウス過程回帰モデル

Modified Gaussian Process Regression Models for Cyclic Capacity Prediction of Lithium-ion Batteries ( http://arxiv.org/abs/2101.00035v1 )

ライセンス: Link先を確認
Kailong Liu, Xiaosong Hu, Zhongbao Wei, Yi Li, and Yan Jiang(参考訳) 本稿では,異なる周期条件下でのリチウムイオン電池の有効容量予測のための機械学習可能なデータ駆動モデルの開発について述べる。 これを実現するために,まず,バッテリ老化傾向と操作温度および放電深度を考慮したモデル構造を提案する。 次に,ガウス過程回帰における共分散関数の系統的理解に基づき,関連する2つのデータ駆動モデルを開発した。 具体的には、等方性二乗指数核を自動関連性決定構造で修正することにより、「モデルA」はキャパシティ予測のための高関連な入力特徴を抽出することができる。 アレニウス法則と多項式方程式を合成核に結合することにより、「モデルB」は電池劣化の電気化学的および経験的知識を考慮できる。 開発モデルは、様々なサイクルパターンを持つニッケルマンガンコバルトオキシド(NMC)リチウムイオン電池で検証され、比較される。 実験結果から, 電池の電気化学的および経験的老化特性を考慮したガウス過程回帰モデルが他の手法よりも優れており, 一段階および多段階の予測に満足できることがわかった。 提案手法は,各種サイクリングケースにおけるバッテリ容量予測に有望である。

This paper presents the development of machine learning-enabled data-driven models for effective capacity predictions for lithium-ion batteries under different cyclic conditions. To achieve this, a model structure is first proposed with the considerations of battery ageing tendency and the corresponding operational temperature and depth-of-discharge. Then based on a systematic understanding of covariance functions within the Gaussian process regression, two related data-driven models are developed. Specifically, by modifying the isotropic squared exponential kernel with an automatic relevance determination structure, 'Model A' could extract the highly relevant input features for capacity predictions. Through coupling the Arrhenius law and a polynomial equation into a compositional kernel, 'Model B' is capable of considering the electrochemical and empirical knowledge of battery degradation. The developed models are validated and compared on the Nickel Manganese Cobalt Oxide (NMC) lithium-ion batteries with various cycling patterns. Experimental results demonstrate that the modified Gaussian process regression model considering the battery electrochemical and empirical ageing signature outperforms other counterparts and is able to achieve satisfactory results for both one-step and multi-step predictions. The proposed technique is promising for battery capacity predictions under various cycling cases.
翻訳日:2021-04-17 16:55:10 公開日:2020-12-31
# 効率的なエンドツーエンドニューラルオーディオ符号化のための損失関数の心理音響校正

Psychoacoustic Calibration of Loss Functions for Efficient End-to-End Neural Audio Coding ( http://arxiv.org/abs/2101.00054v1 )

ライセンス: Link先を確認
Kai Zhen, Mi Suk Lee, Jongmo Sung, Seungkwon Beack, Minje Kim(参考訳) 従来の音声符号化技術では、人間の音の知覚を利用して、復号された音声信号の知覚品質を保ちながら、ビットレートを減少させる。 しかし、ニューラルオーディオコーデックの場合、損失関数の客観的性質は、通常、大きめのモデルサイズのために、最適音質と高い実行時間複雑さをもたらす。 本研究では,ニューラルオーディオ符号化システムの損失関数を再定義し,参照とより知覚的に類似した信号の復号化を実現するための心理音響キャリブレーション手法を提案する。 提案した損失関数にはグローバルマスキングしきい値が組み込まれており、難解なアーティファクトに対応する再構成誤差が可能である。 実験結果は,提案モデルがベースラインのニューラルコーデックを2倍に上回り,毎秒23.4%のビットを消費することを示した。 提案手法では、わずか0.9万パラメータの軽量ニューラルネットワークコーデックが、商用mpeg-1オーディオレイヤiiiコーデックに匹敵するほぼ透明なオーディオ符号化を112kbpsで実行する。

Conventional audio coding technologies commonly leverage human perception of sound, or psychoacoustics, to reduce the bitrate while preserving the perceptual quality of the decoded audio signals. For neural audio codecs, however, the objective nature of the loss function usually leads to suboptimal sound quality as well as high run-time complexity due to the large model size. In this work, we present a psychoacoustic calibration scheme to re-define the loss functions of neural audio coding systems so that it can decode signals more perceptually similar to the reference, yet with a much lower model complexity. The proposed loss function incorporates the global masking threshold, allowing the reconstruction error that corresponds to inaudible artifacts. Experimental results show that the proposed model outperforms the baseline neural codec twice as large and consuming 23.4% more bits per second. With the proposed method, a lightweight neural codec, with only 0.9 million parameters, performs near-transparent audio coding comparable with the commercial MPEG-1 Audio Layer III codec at 112 kbps.
翻訳日:2021-04-17 16:54:49 公開日:2020-12-31
# エージェント・ベース・シミュレーションによる不動産市場における投資家のタイプ同定

How to Identify Investor's types in real financial markets by means of agent based simulation ( http://arxiv.org/abs/2101.03127v1 )

ライセンス: Link先を確認
Filippo Neri(参考訳) 本稿では,金融時系列および金融市場のための新しいモデリング手法を作成するために,エージェントベースシミュレーションによる主成分分析の基礎となる原理の計算適応を提案する。 提案手法の目標は、対象の金融時系列を近似または説明可能な投資家sモデル(agents)の縮小セットを見つけることである。 本研究の計算テストベッドとして,シミュレーションアニールとエージェントベースシミュレーションを組み合わせた金融時系列の近似学習システム L FABS を選択する。 また、L FABS s アーキテクチャは、大規模なエージェントシミュレーションを扱う際に並列計算をいかに活用できるかについてもコメントする。 提案手法の有効性を示す2つの実験事例を報告する。

The paper proposes a computational adaptation of the principles underlying principal component analysis with agent based simulation in order to produce a novel modeling methodology for financial time series and financial markets. Goal of the proposed methodology is to find a reduced set of investor s models (agents) which is able to approximate or explain a target financial time series. As computational testbed for the study, we choose the learning system L FABS which combines simulated annealing with agent based simulation for approximating financial time series. We will also comment on how L FABS s architecture could exploit parallel computation to scale when dealing with massive agent simulations. Two experimental case studies showing the efficacy of the proposed methodology are reported.
翻訳日:2021-04-17 16:54:29 公開日:2020-12-31