このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210602となっている論文です。

PDF登録状況(公開日: 20210602)

TitleAuthorsAbstract論文公表日・翻訳日
# マルチドメイン環境意思決定における不均一雑音短信号カモフラージュ

Heterogeneous Noisy Short Signal Camouflage in Multi-Domain Environment Decision-Making ( http://arxiv.org/abs/2106.02044v1 )

ライセンス: Link先を確認
Piyush K. Sharma(参考訳) 業界と政府の2つ以上のデジタルデバイス間のデータ転送は、安全でアジャイルな技術を要求する。 デジタル情報配信にはiot(internet of things, モノのインターネット)デバイスや、スマートシティの出現や戦場のインターネット(internet of battlefield things, iobt)など、文民と軍事の両方で人気を集めているデータ融合技術が必要となることが多い。 これは通常、複数のソースからデータをキャプチャして統合する必要がある。 データセットは必ずしも同じセンサー起源ではないため、融合データは通常、複雑なビッグデータ問題を引き起こす。 IoTデータセットの潜在的にセンシティブな性質のため、ブロックチェーン技術はIoTデータセットのセキュアな共有を容易にするために使用される。 しかし、ブロックチェーンには複雑さ、スケーラビリティ、過度のエネルギー消費に関するいくつかの制限がある。 画像や音声信号に変換することで,情報(センサ信号)を隠蔽する手法を提案する。 軍事近代化に向けた最新の試みの1つとして、インテリジェントな識別・検出操作を実現する上での課題を調査し、ウェアラブルデバイスからの特定のジェスチャー警告システムへの将来の応用を支援するためのディープラーニング・異常検出モデルの有効性を実証する。

Data transmission between two or more digital devices in industry and government demands secure and agile technology. Digital information distribution often requires deployment of Internet of Things (IoT) devices and Data Fusion techniques which have also gained popularity in both, civilian and military environments, such as, emergence of Smart Cities and Internet of Battlefield Things (IoBT). This usually requires capturing and consolidating data from multiple sources. Because datasets do not necessarily originate from identical sensors, fused data typically results in a complex Big Data problem. Due to potentially sensitive nature of IoT datasets, Blockchain technology is used to facilitate secure sharing of IoT datasets, which allows digital information to be distributed, but not copied. However, blockchain has several limitations related to complexity, scalability, and excessive energy consumption. We propose an approach to hide information (sensor signal) by transforming it to an image or an audio signal. In one of the latest attempts to the military modernization, we investigate sensor fusion approach by investigating the challenges of enabling an intelligent identification and detection operation and demonstrates the feasibility of the proposed Deep Learning and Anomaly Detection models that can support future application for specific hand gesture alert system from wearable devices.
翻訳日:2021-06-07 14:48:19 公開日:2021-06-02
# (参考訳) 自己教師付き特徴学習と共起解析による教師なし行動セグメンテーション [全文訳有]

Unsupervised Action Segmentation with Self-supervised Feature Learning and Co-occurrence Parsing ( http://arxiv.org/abs/2105.14158v2 )

ライセンス: CC BY 4.0
Zhe Wang, Hao Chen, Xinyu Li, Chunhui Liu, Yuanjun Xiong, Joseph Tighe, Charless Fowlkes(参考訳) 時間的アクションセグメンテーションは、ビデオの各フレームをアクションラベルで分類するタスクである。 しかし、大規模なビデオコーパス内のすべてのフレームに注釈を付けることで、包括的な教師付きトレーニングデータセットを構築するのは非常にコストがかかる。 そこで本研究では,ラベルのないビデオのコーパス上で動作し,ビデオ全体の時間的セグメント集合を予測できる自己教師あり手法について検討する。 これを実現するために,自己教師付きビデオ分類アプローチを活用して,教師なし特徴抽出を行う。 これらの特徴に加えて,行動の構造に基づくサブアクション間の相関を捉えるだけでなく,そのサブアクションの時間軌道を正確かつ一般的な方法で推定する,新しい共起動作解析アルゴリズムであるCAPを開発した。 従来のデータセット(Breakfast, 50Salads)と、より複雑なアクティビティ構造と類似のサブアクションを持つよりきめ細かなアクションデータセット(FineGym)の両方を評価した。 その結果,提案手法は最大22倍の精度で3つのデータセットの最先端性能を達成し,その有効性と一般化性を示すとともに,弱教師付きアプローチよりも優れていることがわかった。

Temporal action segmentation is a task to classify each frame in the video with an action label. However, it is quite expensive to annotate every frame in a large corpus of videos to construct a comprehensive supervised training dataset. Thus in this work we explore a self-supervised method that operates on a corpus of unlabeled videos and predicts a likely set of temporal segments across the videos. To do this we leverage self-supervised video classification approaches to perform unsupervised feature extraction. On top of these features we develop CAP, a novel co-occurrence action parsing algorithm that can not only capture the correlation among sub-actions underlying the structure of activities, but also estimate the temporal trajectory of the sub-actions in an accurate and general way. We evaluate on both classic datasets (Breakfast, 50Salads) and emerging fine-grained action datasets (FineGym) with more complex activity structures and similar sub-actions. Results show that our method achieves state-of-the-art performance on all three datasets with up to 22\% improvement, and can even outperform some weakly-supervised approaches, demonstrating its effectiveness and generalizability.
翻訳日:2021-06-05 23:07:23 公開日:2021-06-02
# (参考訳) DNA-GCN:DNA-タンパク質結合予測のためのグラフ畳み込みネットワーク [全文訳有]

DNA-GCN: Graph convolutional networks for predicting DNA-protein binding ( http://arxiv.org/abs/2106.01836v1 )

ライセンス: CC BY 4.0
Yuhang Guo, Xiao Luo, Liang Chen and Minghua Deng(参考訳) DNA-タンパク質結合の予測はバイオインフォマティクスにおいて重要で古典的な問題である。 畳み込みニューラルネットワークは、DNA-タンパク質結合の配列特異性をモデル化する従来の手法よりも優れている。 しかし、これらの研究はグラフ畳み込みネットワークをモチーフ推論に用いていない。 本研究では,グラフ畳み込みネットワークをモチーフ推論に用いることを提案する。 我々は、k-mer共起およびk-mer配列関係に基づくデータセット全体のシーケンスk-merグラフを構築し、データセット全体のDNA-GCN(DNA-GCN)を学習する。 私たちのdna-gcnは、すべてのノードの1つのホットな表現で初期化され、k-merと配列の両方の埋め込みを共同で学習します。 ENCODEから50のデータセットでモデルを評価した。 DNA-GCNはベースラインモデルと競合する性能を示した。 さらに、モデルを分析し、異なるデータセットに適合するようにいくつかの異なるアーキテクチャを設計します。

Predicting DNA-protein binding is an important and classic problem in bioinformatics. Convolutional neural networks have outperformed conventional methods in modeling the sequence specificity of DNA-protein binding. However, none of the studies has utilized graph convolutional networks for motif inference. In this work, we propose to use graph convolutional networks for motif inference. We build a sequence k-mer graph for the whole dataset based on k-mer co-occurrence and k-mer sequence relationship and then learn DNA Graph Convolutional Network (DNA-GCN) for the whole dataset. Our DNA-GCN is initialized with a one-hot representation for all nodes, and it then jointly learns the embeddings for both k-mers and sequences, as supervised by the known labels of sequences. We evaluate our model on 50 datasets from ENCODE. DNA-GCN shows its competitive performance compared with the baseline model. Besides, we analyze our model and design several different architectures to help fit different datasets.
翻訳日:2021-06-05 07:41:09 公開日:2021-06-02
# (参考訳) MP-MRIによる前立腺癌のディープラーニング解析

Deep Learning Based Analysis of Prostate Cancer from MP-MRI ( http://arxiv.org/abs/2106.01835v1 )

ライセンス: CC BY 4.0
Pedro C. Neto(参考訳) 前立腺癌の診断は、過剰診断の問題に直面し、不必要な治療による副作用を損なう。 生体生検を行うためにマルチパラメトリック磁気共鳴画像を使用することで、過度な診断を軽減し、健康な患者に対する副作用を減少させることが研究で示されている。 本研究では,MRIを応用したコンピュータ支援診断のための深層学習手法について検討する。 臨床的に重要な病変の分類から、病変の検出・分節化まで、いくつかの診断問題は、深層学習に基づくアプローチによって解決される。 前立腺癌の診断には2つの問題があった。 まず、XmasNetは病変の分類に関する2つの大きな実験に使われた。 第2に, 前立腺および後発の前立腺癌病変について, 検出および分節化実験を行った。 前者は2次元空間を通して病変を探索し、後者は3次元入力を扱うモデルを検討した。 この作業のために、探索された3Dモデルは、3D U-Netと事前訓練された3D ResNet-18である。 これらすべての問題を厳密に分析し,2つのネットワーク,2つの収穫技術,2つの再サンプリング技術,2つの作物サイズ,5つの入力サイズとデータ拡張実験を行った。 セグメンテーションには2つのモデルがあり、2つの入力サイズとデータ拡張が実験された。 しかし, 病変の臨床的意義の2次分類と前立腺の検出・分節化は, 所望の結果(0.870 AUC, 0.915 点)をすでに達成しているが, PIRADS スコアの分類と病変の分節化は, 改善すべきマージンが大きい(0.664 点, 0.690 点)。

The diagnosis of prostate cancer faces a problem with overdiagnosis that leads to damaging side effects due to unnecessary treatment. Research has shown that the use of multi-parametric magnetic resonance images to conduct biopsies can drastically help to mitigate the overdiagnosis, thus reducing the side effects on healthy patients. This study aims to investigate the use of deep learning techniques to explore computer-aid diagnosis based on MRI as input. Several diagnosis problems ranging from classification of lesions as being clinically significant or not to the detection and segmentation of lesions are addressed with deep learning based approaches. This thesis tackled two main problems regarding the diagnosis of prostate cancer. Firstly, XmasNet was used to conduct two large experiments on the classification of lesions. Secondly, detection and segmentation experiments were conducted, first on the prostate and afterward on the prostate cancer lesions. The former experiments explored the lesions through a two-dimensional space, while the latter explored models to work with three-dimensional inputs. For this task, the 3D models explored were the 3D U-Net and a pretrained 3D ResNet-18. A rigorous analysis of all these problems was conducted with a total of two networks, two cropping techniques, two resampling techniques, two crop sizes, five input sizes and data augmentations experimented for lesion classification. While for segmentation two models, two input sizes and data augmentations were experimented. However, while the binary classification of the clinical significance of lesions and the detection and segmentation of the prostate already achieve the desired results (0.870 AUC and 0.915 dice score respectively), the classification of the PIRADS score and the segmentation of lesions still have a large margin to improve (0.664 accuracy and 0.690 dice score respectively).
翻訳日:2021-06-05 07:32:57 公開日:2021-06-02
# (参考訳) 変分量子アルゴリズムの単一成分勾配規則 [全文訳有]

Single-component gradient rules for variational quantum algorithms ( http://arxiv.org/abs/2106.01388v1 )

ライセンス: CC BY 4.0
Thomas Hubregtsen, Frederik Wilde, Shozab Qasim, Jens Eisert(参考訳) 多くの短期量子コンピューティングアルゴリズムは変分量子アルゴリズムとして考え出され、パラメータ化量子回路はハイブリッド量子古典的な構成で最適化される。 例えば、変分量子固有解法、量子近似最適化アルゴリズム、および量子支援機械学習の文脈における様々なアルゴリズムである。 このようなアルゴリズムの一般的なボトルネックは、変動パラメータの最適化によって構成される。 一般的な最適化手法のセットは、回路評価によって得られる勾配の推定に有効である。 我々は、これらの回路評価を勾配規則として組み合わせる方法を参照する。 この研究は、量子ゲートのパラメータを個別に変化する勾配規則の族を包括的に描いている。 このファミリーの最も有名なメンバーはパラメータシフト則と有限差分法である。 このファミリーを統一するために,上記のファミリーのすべてのメンバを特別なケースとして表現する一般化されたパラメータシフトルールを提案し,これらすべてがどのようにして完全一階と二階の導関数の線形結合へのアクセスを提供するかについて議論する。 さらに, 1 つの非シフト評価と 1 つのシフト回路評価が存在しないパラメータシフト規則が存在しないことを証明し,新しい勾配規則への新たな展望を提案する。

Many near-term quantum computing algorithms are conceived as variational quantum algorithms, in which parameterized quantum circuits are optimized in a hybrid quantum-classical setup. Examples are variational quantum eigensolvers, quantum approximate optimization algorithms as well as various algorithms in the context of quantum-assisted machine learning. A common bottleneck of any such algorithm is constituted by the optimization of the variational parameters. A popular set of optimization methods work on the estimate of the gradient, obtained by means of circuit evaluations. We will refer to the way in which one can combine these circuit evaluations as gradient rules. This work provides a comprehensive picture of the family of gradient rules that vary parameters of quantum gates individually. The most prominent known members of this family are the parameter shift rule and the finite differences method. To unite this family, we propose a generalized parameter shift rule that expresses all members of the aforementioned family as special cases, and discuss how all of these can be seen as providing access to a linear combination of exact first- and second-order derivatives. We further prove that a parameter shift rule with one non-shifted evaluation and only one shifted circuit evaluation can not exist does not exist, and introduce a novel perspective for approaching new gradient rules.
翻訳日:2021-06-05 07:03:38 公開日:2021-06-02
# (参考訳) パーソナライズされたフィードバックによるpythonプログラムの設計品質の自動評価 [全文訳有]

Automatic Assessment of the Design Quality of Python Programs with Personalized Feedback ( http://arxiv.org/abs/2106.01399v1 )

ライセンス: CC BY 4.0
J. Walker Orr, Nathaniel Russell(参考訳) プログラム機能の評価は、一般的に直進単体テストで行うことができる。 しかし、プログラムの設計品質を評価することは、はるかに困難で微妙な問題である。 プログラムの可読性と保守性に影響を与えるため、設計品質は重要な考慮事項である。 デザイン品質を評価し、パーソナライズされたフィードバックを与えることは、インストラクターやアシスタントのタスクに非常に時間がかかる。 これにより、小さなクラス設定にパーソナライズされたフィードバックを与えるスケールが制限される。 さらに、設計品質はニュアンスが高く、規則の集合として簡潔に表現することが難しい。 これらの理由から,プログラムの設計を自動評価するニューラルネットワークモデルを提案し,修正方法を学生に指導するパーソナライズされたフィードバックを提供する。 モデルの有効性はPythonで書かれた学生プログラムのコーパスで評価される。 このモデルの精度はデータセットによって83.67%から94.27%であり、過去のインストラクターの評価と比べて設計スコアを予測する。 最後に,モデルが生成したパーソナライズされたフィードバックに基づいて,学生がプログラムの設計を改善する方法を提案する。 この研究に参加した学生はプログラムのデザインスコアを19.58%改善した。

The assessment of program functionality can generally be accomplished with straight-forward unit tests. However, assessing the design quality of a program is a much more difficult and nuanced problem. Design quality is an important consideration since it affects the readability and maintainability of programs. Assessing design quality and giving personalized feedback is very time consuming task for instructors and teaching assistants. This limits the scale of giving personalized feedback to small class settings. Further, design quality is nuanced and is difficult to concisely express as a set of rules. For these reasons, we propose a neural network model to both automatically assess the design of a program and provide personalized feedback to guide students on how to make corrections. The model's effectiveness is evaluated on a corpus of student programs written in Python. The model has an accuracy rate from 83.67% to 94.27%, depending on the dataset, when predicting design scores as compared to historical instructor assessment. Finally, we present a study where students tried to improve the design of their programs based on the personalized feedback produced by the model. Students who participated in the study improved their program design scores by 19.58%.
翻訳日:2021-06-05 06:48:55 公開日:2021-06-02
# (参考訳) 変形性音声変換における話者識別のための2段階パラダイムの予備的検討 [全文訳有]

A Preliminary Study of a Two-Stage Paradigm for Preserving Speaker Identity in Dysarthric Voice Conversion ( http://arxiv.org/abs/2106.01415v1 )

ライセンス: CC BY 4.0
Wen-Chin Huang, Kazuhiro Kobayashi, Yu-Huai Peng, Ching-Feng Liu, Yu Tsao, Hsin-Min Wang, Tomoki Toda(参考訳) ダイアートリック音声変換(dvc)における話者アイデンティティ維持のための新しいパラダイムを提案する。 統計学的vcにより, 構音の質の低下は著しく改善するが, 構音障害患者の正常な発話は収集がほぼ不可能であるため, これまでの研究は患者の個性回復に失敗した。 そこで本研究では,DVCに対する新たな2段階的アプローチを提案する。 まず、強力な並列シーケンス・ツー・シーケンスモデルにより、入力されたdysarthric音声を中間生成物として基準話者の通常の音声に変換し、変分オートエンコーダで実現された非並列フレームワイズvcモデルにより、拡張された品質を保ちながら、基準音声の話者アイデンティティを患者の声に変換する。 いくつかの設計オプションについて検討する。 実験評価の結果, 話者同一性を維持しつつ, 構音質を向上させるためのアプローチの可能性が示された。

We propose a new paradigm for maintaining speaker identity in dysarthric voice conversion (DVC). The poor quality of dysarthric speech can be greatly improved by statistical VC, but as the normal speech utterances of a dysarthria patient are nearly impossible to collect, previous work failed to recover the individuality of the patient. In light of this, we suggest a novel, two-stage approach for DVC, which is highly flexible in that no normal speech of the patient is required. First, a powerful parallel sequence-to-sequence model converts the input dysarthric speech into a normal speech of a reference speaker as an intermediate product, and a nonparallel, frame-wise VC model realized with a variational autoencoder then converts the speaker identity of the reference speech back to that of the patient while assumed to be capable of preserving the enhanced quality. We investigate several design options. Experimental evaluation results demonstrate the potential of our approach to improving the quality of the dysarthric speech while maintaining the speaker identity.
翻訳日:2021-06-05 06:40:47 公開日:2021-06-02
# (参考訳) ebola optimization search algorithm (eosa) : エボラウイルス病の伝播モデルに基づく新しいメタヒューリスティックアルゴリズム

Ebola Optimization Search Algorithm (EOSA): A new metaheuristic algorithm based on the propagation model of Ebola virus disease ( http://arxiv.org/abs/2106.01416v1 )

ライセンス: CC BY 4.0
Olaide N. Oyelade and Absalom E. Ezugwu(参考訳) エボラウイルスと事実上の病気は、感受性、感染、隔離、入院、回復、死亡する集団の周囲にランダムに個体を移動させる傾向がある。 ウイルスを媒介する病気の伝播効果により,新たなバイオインスパイアされた集団最適化アルゴリズムが提案されている。 本稿では,エボラ最適化アルゴリズム(EOSA)というメタヒューリスティックアルゴリズムを提案する。 本研究は、エボラウイルス病の伝播機構をモデル化し、伝播の全ての一貫した状態を強調した。 このモデルはさらに一階微分方程式に基づく数学的モデルを用いて表現された。 その後、新しいメタヒューリスティックアルゴリズムを開発するために、伝播と数学的モデルの組み合わせが適応された。 提案手法の性能と性能を他の最適化手法と比較して評価するため,基礎となる伝搬モデルと数理モデルを用いてEVDのシミュレーションを成功させる方法について検討した。 さらに, IEEE CEC-2017ベンチマーク関数は, 古典的(47) と制約付き(30) の2つのベンチマーク関数からなる。 その結果,提案アルゴリズムの性能は,スケーラビリティ解析,収束解析,感度解析に基づく他の最先端最適化手法と競合することが示唆された。 広範なシミュレーション結果から,eosaはpso( particle swarm optimization algorithm)やga(genetic algorithm)、abc(artificial bee colony algorithm)など、シフト・高次元・大規模探索範囲の問題において、他の最先端のメタヒューリスティック最適化アルゴリズムよりも優れていることが示された。

The Ebola virus and the disease in effect tend to randomly move individuals in the population around susceptible, infected, quarantined, hospitalized, recovered, and dead sub-population. Motivated by the effectiveness in propagating the disease through the virus, a new bio-inspired and population-based optimization algorithm is proposed. This paper presents a novel metaheuristic algorithm named Ebola optimization algorithm (EOSA). To correctly achieve this, this study models the propagation mechanism of the Ebola virus disease, emphasising all consistent states of the propagation. The model was further represented using a mathematical model based on first-order differential equations. After that, the combined propagation and mathematical models were adapted for developing the new metaheuristic algorithm. To evaluate the proposed method's performance and capability compared with other optimization methods, the underlying propagation and mathematical models were first investigated to determine how they successfully simulate the EVD. Furthermore, two sets of benchmark functions consisting of forty-seven (47) classical and over thirty (30) constrained IEEE CEC-2017 benchmark functions are investigated numerically. The results indicate that the performance of the proposed algorithm is competitive with other state-of-the-art optimization methods based on scalability analysis, convergence analysis, and sensitivity analysis. Extensive simulation results indicate that the EOSA outperforms other state-of-the-art popular metaheuristic optimization algorithms such as the Particle Swarm Optimization Algorithm (PSO), Genetic Algorithm (GA), and Artificial Bee Colony Algorithm (ABC) on some shifted, high dimensional and large search range problems.
翻訳日:2021-06-05 06:28:50 公開日:2021-06-02
# (参考訳) 並列化トンプソンサンプリング

Parallelizing Thompson Sampling ( http://arxiv.org/abs/2106.01420v1 )

ライセンス: CC BY 4.0
Amin Karbasi, Vahab Mirrokni, Mohammad Shadravan(参考訳) 探索と探索のトレードオフを効率的にバランスしながら、オンライン意思決定問題において情報並列性をどのように活用できるか? 本稿では,2つの正準オンライン意思決定問題,すなわち,有限個のアームを持つ確率的多腕バンディットと線形文脈バンディットに対するバッチトンプソンサンプリングフレームワークを提案する。 時間軸の$T$、我々の \textit{batch} Thompson Sampling ポリシは、完全にシーケンシャルなものと同じ(漸近的な)後悔境界を達成すると同時に、$O(\log T)$バッチクエリのみを実行します。 この指数関数的縮小、すなわち相互作用の数を$t$から$o(\log t)$に減らすために、われわれのバッチポリシーは探索と爆発のトレードオフのバランスをとるために各バッチの持続時間を動的に決定する。 また,動的バッチ割り当てが静的バッチ割り当てなどの自然なベースラインを劇的に上回ることを示す。

How can we make use of information parallelism in online decision making problems while efficiently balancing the exploration-exploita tion trade-off? In this paper, we introduce a batch Thompson Sampling framework for two canonical online decision making problems, namely, stochastic multi-arm bandit and linear contextual bandit with finitely many arms. Over a time horizon $T$, our \textit{batch} Thompson Sampling policy achieves the same (asymptotic) regret bound of a fully sequential one while carrying out only $O(\log T)$ batch queries. To achieve this exponential reduction, i.e., reducing the number of interactions from $T$ to $O(\log T)$, our batch policy dynamically determines the duration of each batch in order to balance the exploration-exploita tion trade-off. We also demonstrate experimentally that dynamic batch allocation dramatically outperforms natural baselines such as static batch allocations.
翻訳日:2021-06-05 06:16:22 公開日:2021-06-02
# (参考訳) Unsharp Mask Guided Filtering [全文訳有]

Unsharp Mask Guided Filtering ( http://arxiv.org/abs/2106.01428v1 )

ライセンス: CC BY 4.0
Zenglin Shi, Yunlu Chen, Efstratios Gavves, Pascal Mettes, and Cees G.M. Snoek(参考訳) 本論文の目的は、追加のガイダンス画像によるフィルタリングにおける構造伝達の重要性を強調するガイド付き画像フィルタリングである。 手動設計関数を用いた古典的ガイド付きフィルタ転送構造に対し、最近のガイド付きフィルタはディープネットワークのパラメトリック学習によってかなり進歩している。 最先端技術はディープネットワークを利用して誘導フィルタの2つのコア係数を推定する。 本研究では,両係数を同時に推定することで,haloアーチファクトと構造的不整合が生じることを仮定する。 単一係数のみを必要とするエッジエンハンスメントの古典的な手法であるunsharp maskingに着想を得て,ガイド付きフィルタの新規で簡易な定式化を提案する。 我々の定式化は低域フィルタに先立ってフィルタを楽しみ、単一の係数を推定することで明示的な構造伝達を可能にする。 提案した定式化に基づいて,1つのネットワークから複数のフィルタリング結果を提供する連続的なガイド付きフィルタリングネットワークを導入し,精度と効率のトレードオフを可能にする。 広範なアブレーション,比較,分析により,提案手法とネットワークの有効性と効率が示され,アップサンプリング,デノイジング,クロスモダリティフィルタリングなどのフィルタリングタスクにまたがって最先端の結果が得られた。 コードは \url{https://github.com/s hizenglin/unsharp-ma sk-guided-filtering} で入手できる。

The goal of this paper is guided image filtering, which emphasizes the importance of structure transfer during filtering by means of an additional guidance image. Where classical guided filters transfer structures using hand-designed functions, recent guided filters have been considerably advanced through parametric learning of deep networks. The state-of-the-art leverages deep networks to estimate the two core coefficients of the guided filter. In this work, we posit that simultaneously estimating both coefficients is suboptimal, resulting in halo artifacts and structure inconsistencies. Inspired by unsharp masking, a classical technique for edge enhancement that requires only a single coefficient, we propose a new and simplified formulation of the guided filter. Our formulation enjoys a filtering prior from a low-pass filter and enables explicit structure transfer by estimating a single coefficient. Based on our proposed formulation, we introduce a successive guided filtering network, which provides multiple filtering results from a single network, allowing for a trade-off between accuracy and efficiency. Extensive ablations, comparisons and analysis show the effectiveness and efficiency of our formulation and network, resulting in state-of-the-art results across filtering tasks like upsampling, denoising, and cross-modality filtering. Code is available at \url{https://github.com/s hizenglin/Unsharp-Ma sk-Guided-Filtering}.
翻訳日:2021-06-05 06:15:15 公開日:2021-06-02
# (参考訳) スパース正規化のための滑らかなバイレベルプログラミング

Smooth Bilevel Programming for Sparse Regularization ( http://arxiv.org/abs/2106.01429v1 )

ライセンス: CC BY 4.0
Clarice Poon and Gabriel Peyr\'e(参考訳) 反復的重み付け最小正方形(irls)は、機械学習におけるスパーシティ強化回帰問題を解決するための一般的なアプローチである。 state of the artアプローチはより効率的だが、通常は特定の座標プラニングスキームに依存している。 本研究では,irlsの驚くほど単純な再パラメータ化と,(交互なスキームではなく)2段階の解像度を組み合わせることで,幅広いスパース性(ラッソ,グループラッソ,トレースノルム正規化など),正規化強度(ハード制約を含む),設計行列(微分作用素と相関した設計から配置)において最高性能を達成できることを示す。 IRLSと同様に、この手法は線形システム分解のみを含むが、鋭いコントラストでは滑らかな関数の最小化に対応する。 非凸であるにもかかわらず、スパイラルなミニマが存在しないことと、サドル点が常に降下方向が存在することを示せる。 したがって、bfgs準ニュートンソルバの使用を提唱し、この手法をシンプルでロバストで効率的なものにする。 我々は,ラッソ,グループラッソ,トレースノルム,線形制約問題に対して,アルゴリズムの収束速度の数値ベンチマークを行う。 これらの結果は,本手法の汎用性を強調し,研究中のML問題の特異性に応じて,異なる解法を使用する必要性を排除した。

Iteratively reweighted least square (IRLS) is a popular approach to solve sparsity-enforcing regression problems in machine learning. State of the art approaches are more efficient but typically rely on specific coordinate pruning schemes. In this work, we show how a surprisingly simple reparametrization of IRLS, coupled with a bilevel resolution (instead of an alternating scheme) is able to achieve top performances on a wide range of sparsity (such as Lasso, group Lasso and trace norm regularizations), regularization strength (including hard constraints), and design matrices (ranging from correlated designs to differential operators). Similarly to IRLS, our method only involves linear systems resolutions, but in sharp contrast, corresponds to the minimization of a smooth function. Despite being non-convex, we show that there is no spurious minima and that saddle points are "ridable", so that there always exists a descent direction. We thus advocate for the use of a BFGS quasi-Newton solver, which makes our approach simple, robust and efficient. We perform a numerical benchmark of the convergence speed of our algorithm against state of the art solvers for Lasso, group Lasso, trace norm and linearly constrained problems. These results highlight the versatility of our approach, removing the need to use different solvers depending on the specificity of the ML problem under study.
翻訳日:2021-06-05 05:50:12 公開日:2021-06-02
# (参考訳) AI計画ヒューリスティックと機械学習による異種システムの最適化:性能とエネルギー意識のアプローチ [全文訳有]

Optimization of Heterogeneous Systems with AI Planning Heuristics and Machine Learning: A Performance and Energy Aware Approach ( http://arxiv.org/abs/2106.01441v1 )

ライセンス: CC BY 4.0
Suejb Memeti and Sabri Pllana(参考訳) ヘテロジニアスコンピューティングシステムは高性能でエネルギー効率が高い。 しかし、このようなシステムを最適に活用するには、ホストCPUと高速化デバイスに分散するソリューションが必要である。 本稿では、パラメータ空間探索のためのAI計画ヒューリスティックスと、性能とエネルギー評価のための機械学習モデルを組み合わせて、ほぼ最適システム構成を決定する性能とエネルギー意識のアプローチを提案する。 データ並列アプリケーションでは、作業のほぼ最適ホストデバイス分布、必要な処理ユニット数、それに対応するスケジューリング戦略を決定する。 我々はGPUやIntel Xeon Phiで高速化された異種システムに対するアプローチを評価する。 実験の結果, 合理的な構成の約7%しか評価せず, 最適に近いシステム構成が得られた。 さらに,機械学習モデルを用いたシステム構成のジュール当たりの性能推定は,プログラム実行によるシステム評価よりも1000倍以上高速である。

Heterogeneous computing systems provide high performance and energy efficiency. However, to optimally utilize such systems, solutions that distribute the work across host CPUs and accelerating devices are needed. In this paper, we present a performance and energy aware approach that combines AI planning heuristics for parameter space exploration with a machine learning model for performance and energy evaluation to determine a near-optimal system configuration. For data-parallel applications our approach determines a near-optimal host-device distribution of work, number of processing units required and the corresponding scheduling strategy. We evaluate our approach for various heterogeneous systems accelerated with GPU or the Intel Xeon Phi. The experimental results demonstrate that our approach finds a near-optimal system configuration by evaluating only about 7% of reasonable configurations. Furthermore, the performance per Joule estimation of system configurations using our machine learning model is more than 1000x faster compared to the system evaluation by program execution.
翻訳日:2021-06-05 05:48:59 公開日:2021-06-02
# (参考訳) ベイズ減衰ニューラルプロセスを用いた天文多変量時系列からのブラックホール特性の推定 [全文訳有]

Inferring Black Hole Properties from Astronomical Multivariate Time Series with Bayesian Attentive Neural Processes ( http://arxiv.org/abs/2106.01450v1 )

ライセンス: CC BY 4.0
Ji Won Park, Ashley Villar, Yin Li, Yan-Fei Jiang, Shirley Ho, Joshua Yao-Yu Lin, Philip J. Marshall, Aaron Roodman(参考訳) 宇宙で最も極端な天体のうち、活動銀河核 (AGN) は、ブラックホールが周囲の物質を供給している銀河の中心である。 AGNによって放出される光の変動パターンは、基礎となるブラックホールの物理的性質に関する情報を含んでいる。 今後の望遠鏡は、複数のブロードバンド波長で1億AGN以上を観測し、長いギャップと不規則サンプリングを備えた多変量時系列の大規模なサンプルを生成する。 本稿では,AGN時系列を再構成し,その質量と光度を含むブラックホールの物理量に対して後方確率密度分布(PDF)を同時に推定する手法を提案する。 本手法を11,000 AGNのシミュレーションデータセットに適用し, 推定ブラックホール質量の0.4 dexと0.3 dexの精度と精度を報告する。 この研究は、AGNの確率的時系列再構成とパラメータ推論をエンドツーエンドで扱う最初のものである。

Among the most extreme objects in the Universe, active galactic nuclei (AGN) are luminous centers of galaxies where a black hole feeds on surrounding matter. The variability patterns of the light emitted by an AGN contain information about the physical properties of the underlying black hole. Upcoming telescopes will observe over 100 million AGN in multiple broadband wavelengths, yielding a large sample of multivariate time series with long gaps and irregular sampling. We present a method that reconstructs the AGN time series and simultaneously infers the posterior probability density distribution (PDF) over the physical quantities of the black hole, including its mass and luminosity. We apply this method to a simulated dataset of 11,000 AGN and report precision and accuracy of 0.4 dex and 0.3 dex in the inferred black hole mass. This work is the first to address probabilistic time series reconstruction and parameter inference for AGN in an end-to-end fashion.
翻訳日:2021-06-05 05:32:08 公開日:2021-06-02
# (参考訳) 多言語音声翻訳のための軽量アダプタチューニング [全文訳有]

Lightweight Adapter Tuning for Multilingual Speech Translation ( http://arxiv.org/abs/2106.01463v1 )

ライセンス: CC BY 4.0
Hang Le, Juan Pino, Changhan Wang, Jiatao Gu, Didier Schwab, Laurent Besacier(参考訳) 適応モジュールはNLPのファインチューニングの代替として最近導入された。 アダプタチューニングは、モデルの事前訓練されたパラメータを凍結し、レイヤ間で軽量モジュールを注入することで、少数のタスク固有のトレーニング可能なパラメータを追加する。 本稿では,多言語ニューラルマシン翻訳のためのアダプタチューニングについて検討する一方で,多言語音声翻訳のためのアダプタの包括的解析を提案する。 異なる事前学習モデル(並列データで訓練された多言語STや、非並列多言語データで訓練された多言語BART(mBART))から始めると、(a)パラメータで低いコストでSTを特定の言語対に効率よく専門化し、(b)自動音声認識(ASR)タスクとmBART事前学習モデルから多言語STタスクへ変換できることが示される。 実験によると、アダプタチューニングは完全な微調整に競合する結果をもたらすが、パラメータ効率ははるかに高い。

Adapter modules were recently introduced as an efficient alternative to fine-tuning in NLP. Adapter tuning consists in freezing pretrained parameters of a model and injecting lightweight modules between layers, resulting in the addition of only a small number of task-specific trainable parameters. While adapter tuning was investigated for multilingual neural machine translation, this paper proposes a comprehensive analysis of adapters for multilingual speech translation (ST). Starting from different pre-trained models (a multilingual ST trained on parallel data or a multilingual BART (mBART) trained on non-parallel multilingual data), we show that adapters can be used to: (a) efficiently specialize ST to specific language pairs with a low extra cost in terms of parameters, and (b) transfer from an automatic speech recognition (ASR) task and an mBART pre-trained model to a multilingual ST task. Experiments show that adapter tuning offer competitive results to full fine-tuning, while being much more parameter-efficient.
翻訳日:2021-06-05 04:54:58 公開日:2021-06-02
# (参考訳) 言語間の要約評価の有効性の評価 [全文訳有]

Evaluating the Efficacy of Summarization Evaluation across Languages ( http://arxiv.org/abs/2106.01478v1 )

ライセンス: CC BY 4.0
Fajri Koto and Jey Han Lau and Timothy Baldwin(参考訳) 英語向けに開発された自動要約評価法は、他の言語にも日常的に適用されるが、パン言語学的効果を体系的に定量化する最初の試みである。 我々は、8つの異なる言語に対する要約コーパスを取り、フォーカス(精度)とカバレッジ(リコール)のために手動で生成された要約を注釈付けする。 これに基づいて,19の要約評価指標を評価し,bertscoreにおける多言語bertの使用は,英語のそれよりも高いレベルにおいて,すべての言語で良好に機能することを示す。

While automatic summarization evaluation methods developed for English are routinely applied to other languages, this is the first attempt to systematically quantify their panlinguistic efficacy. We take a summarization corpus for eight different languages, and manually annotate generated summaries for focus (precision) and coverage (recall). Based on this, we evaluate 19 summarization evaluation metrics, and find that using multilingual BERT within BERTScore performs well across all languages, at a level above that for English.
翻訳日:2021-06-05 04:38:43 公開日:2021-06-02
# (参考訳) MedNLIは免疫ではない:臨床領域における自然言語推論アーティファクト [全文訳有]

MedNLI Is Not Immune: Natural Language Inference Artifacts in the Clinical Domain ( http://arxiv.org/abs/2106.01491v1 )

ライセンス: CC BY 4.0
Christine Herlihy and Rachel Rudinger(参考訳) crowdworkerが構築した自然言語推論(nli)データセットには、仮説のみの分類器がランダム以上のパフォーマンスを達成するためのアノテーションプロセスに関連する統計的アーティファクトが含まれていることが示されている(poliak et al., 2018; gururanganet et al., 2018; tsuchiya, 2018)。 臨床記録から抽出した前提付き医師注記データセットであるMedNLIには,これらのアーティファクトが含まれているかを検討した(Romanov and Shivade, 2018)。 仮説は、応答性、持続性、確率に関連する修飾子と同様に、前提において特定の概念のジェネリックバージョンを含む。 ニュートラル仮説(Neutral hypothess)は、前提における条件と共起する、あるいは原因となる条件と振舞いを特徴付ける。 矛盾仮説は、前提を明確に否定し、良い健康の主張を通じて暗黙的に否定する。 逆フィルタリングは、難しいサブセットで評価すると性能が劣化することを示す。 知識集約ドメインのための代替データセット構築戦略の分割情報とレコメンデーションを提供する。

Crowdworker-construc ted natural language inference (NLI) datasets have been found to contain statistical artifacts associated with the annotation process that allow hypothesis-only classifiers to achieve better-than-random performance (Poliak et al., 2018; Gururanganet et al., 2018; Tsuchiya, 2018). We investigate whether MedNLI, a physician-annotated dataset with premises extracted from clinical notes, contains such artifacts (Romanov and Shivade, 2018). We find that entailed hypotheses contain generic versions of specific concepts in the premise, as well as modifiers related to responsiveness, duration, and probability. Neutral hypotheses feature conditions and behaviors that co-occur with, or cause, the condition(s) in the premise. Contradiction hypotheses feature explicit negation of the premise and implicit negation via assertion of good health. Adversarial filtering demonstrates that performance degrades when evaluated on the difficult subset. We provide partition information and recommendations for alternative dataset construction strategies for knowledge-intensive domains.
翻訳日:2021-06-05 04:25:04 公開日:2021-06-02
# (参考訳) 質問についてもっと知ることが役に立つ: 質問回答における校正の改善 [全文訳有]

Knowing More About Questions Can Help: Improving Calibration in Question Answering ( http://arxiv.org/abs/2106.01494v1 )

ライセンス: CC BY 4.0
Shujian Zhang, Chengyue Gong, Eunsol Choi(参考訳) 質問応答のキャリブレーションについて検討し、各質問に対する解答が正しいかどうかを推定する。 モデルの信頼性スコアに主に依存する以前の作業とは異なり、キャリブレータは入力例に関する情報(質問やエビデンスコンテキストなど)を組み込んでいます。 逆変換によるデータ拡張と合わせて,本手法は読解ベンチマークの校正精度を5~10%向上させる。 さらに、検索に基づくスパン予測モデルと回答生成モデルの校正精度を比較し、オープン検索設定における第1の校正結果を示す。 ここでも、我々のアプローチはモデルの信頼性に依存するキャリブレータよりも一貫した利得を示している。 我々のシンプルで効率的な校正器は、多くのタスクやモデルアーキテクチャに容易に適応でき、全ての設定で堅牢なゲインを示す。

We study calibration in question answering, estimating whether model correctly predicts answer for each question. Unlike prior work which mainly rely on the model's confidence score, our calibrator incorporates information about the input example (e.g., question and the evidence context). Together with data augmentation via back translation, our simple approach achieves 5-10% gains in calibration accuracy on reading comprehension benchmarks. Furthermore, we present the first calibration study in the open retrieval setting, comparing the calibration accuracy of retrieval-based span prediction models and answer generation models. Here again, our approach shows consistent gains over calibrators relying on the model confidence. Our simple and efficient calibrator can be easily adapted to many tasks and model architectures, showing robust gains in all settings.
翻訳日:2021-06-05 04:13:03 公開日:2021-06-02
# (参考訳) 人との説明空間と説明可能なAIチームワーク [全文訳有]

Towards an Explanation Space to Align Humans and Explainable-AI Teamwork ( http://arxiv.org/abs/2106.01503v1 )

ライセンス: CC BY 4.0
Garrick Cabour, Andr\'es Morales, \'Elise Ledoux, Samuel Bassetto(参考訳) エンドユーザに有意義で実行可能な説明を提供することは、現実世界で説明可能なインテリジェントシステムを実装するための基本的な前提条件である。 説明可能性とは、静的設計の原則ではなく、ユーザとaiシステム間のインタラクションである。 説明の内容はコンテキスト依存であり、ユーザとそのコンテキストに関するエビデンスによって定義されなければならない。 本稿では,ユーザインスパイアされた視点から説明空間を定義する形式的アーキテクチャを提案する。 このアーキテクチャは、(1)エンドユーザー精神モデル、(2)エンドユーザー認知プロセス、(3)ユーザーインターフェース、(4)人間-説明エージェント、(5)エージェントプロセス、という5つのタスクの説明要件を概説する。 まずアーキテクチャの各コンポーネントを定義します。 次に、設計者を支援するためにアーキテクチャのコンポーネントを集約したモデリングツールであるabstracted explanation spaceを提案する。 説明すべき事項の仕様(コンテンツ - エンドユーザのメンタルモデル)、なぜこの説明が必要なのか(コンテキスト - エンドユーザの認知プロセス)、それを説明する方法(フォーマット人間-説明エージェントとユーザインターフェース)、そしていつ説明すべきかをガイドする。 次に、航空機のメンテナンスドメインで進行中のケーススタディでツールの使用例を示す。 最後に、ツールの潜在的な貢献、改善のための既知の制限/課題、今後の作業について論じる。

Providing meaningful and actionable explanations to end-users is a fundamental prerequisite for implementing explainable intelligent systems in the real world. Explainability is a situated interaction between a user and the AI system rather than being static design principles. The content of explanations is context-dependent and must be defined by evidence about the user and its context. This paper seeks to operationalize this concept by proposing a formative architecture that defines the explanation space from a user-inspired perspective. The architecture comprises five intertwined components to outline explanation requirements for a task: (1) the end-users mental models, (2) the end-users cognitive process, (3) the user interface, (4) the human-explainer agent, and the (5) agent process. We first define each component of the architecture. Then we present the Abstracted Explanation Space, a modeling tool that aggregates the architecture's components to support designers in systematically aligning explanations with the end-users work practices, needs, and goals. It guides the specifications of what needs to be explained (content - end-users mental model), why this explanation is necessary (context - end-users cognitive process), to delimit how to explain it (format - human-explainer agent and user interface), and when should the explanations be given. We then exemplify the tool's use in an ongoing case study in the aircraft maintenance domain. Finally, we discuss possible contributions of the tool, known limitations/areas for improvement, and future work to be done.
翻訳日:2021-06-05 03:56:08 公開日:2021-06-02
# ドメイン識別とグラディエント・リバーサルによる表情分類器のドメイン適応

Domain Adaptation for Facial Expression Classifier via Domain Discrimination and Gradient Reversal ( http://arxiv.org/abs/2106.01467v1 )

ライセンス: Link先を確認
Kamil Akhmetov(参考訳) コンピュータシステムへの共感は、マシンが顧客の意図を理解し、ニーズによりよいサービスを提供できるようになれば、人間とコンピュータのコミュニケーションの質を大幅に向上させることができる。 異なる研究(文学的レビュー)によると、視覚情報は人間の相互作用の最も重要な経路の1つであり、表情から捉えられる重要な行動信号を含んでいる。 そのため、医療、社会学、心理学、ドライバーセーフティ、バーチャルリアリティー、認知科学、セキュリティ、エンタテインメント、マーケティングなど様々な応用分野があるため、表情認識(fer)の分野での研究が過去10年間にわたって関心を集めてきたのは、一貫して自然である。 本稿では、FERタスクのための新しいアーキテクチャを提案し、ドメイン識別損失正規化が学習プロセスに与える影響を検討する。 古典的なトレーニング条件と教師なしのドメイン適応シナリオの両方を含む観察に関して、考慮されたドメイン適応アプローチ統合の重要な側面が追跡される。 この結果は、この分野におけるさらなる研究の基礎となるかもしれない。

Bringing empathy to a computerized system could significantly improve the quality of human-computer communications, as soon as machines would be able to understand customer intentions and better serve their needs. According to different studies (Literature Review), visual information is one of the most important channels of human interaction and contains significant behavioral signals, that may be captured from facial expressions. Therefore, it is consistent and natural that the research in the field of Facial Expression Recognition (FER) has acquired increased interest over the past decade due to having diverse application area including health-care, sociology, psychology, driver-safety, virtual reality, cognitive sciences, security, entertainment, marketing, etc. We propose a new architecture for the task of FER and examine the impact of domain discrimination loss regularization on the learning process. With regard to observations, including both classical training conditions and unsupervised domain adaptation scenarios, important aspects of the considered domain adaptation approach integration are traced. The results may serve as a foundation for further research in the field.
翻訳日:2021-06-04 16:27:29 公開日:2021-06-02
# LLC: 正確な多目的学習低次元バイナリコード

LLC: Accurate, Multi-purpose Learnt Low-dimensional Binary Codes ( http://arxiv.org/abs/2106.01487v1 )

ライセンス: Link先を確認
Aditya Kusupati, Matthew Wallingford, Vivek Ramanujan, Raghav Somani, Jae Sung Park, Krishna Pillutla, Prateek Jain, Sham Kakade, Ali Farhadi(参考訳) インスタンスとクラスのバイナリ表現を学ぶことは、いくつかの高ポテンシャルアプリケーションを持つ古典的な問題である。 現代の設定では、高次元のニューラル表現を低次元のバイナリコードに圧縮することは難しい作業であり、しばしば大きなビットコードが必要である。 本稿では,インスタンスやクラスに対して,低次元バイナリコード(llc)を学習するための新しい手法を提案する。 本手法では,アノテート属性やラベルメタデータなどのサイド情報を必要としないため,超低次元バイナリコード(ImageNet-1Kでは約20ビット)を学習する。 学習したコードは超効率的であり、ImageNet-1K上のResNet50のほぼ最適な分類精度を保証している。 学習したコードは、クラスを直感的に分類することで、データの中で本質的に重要な特徴を捉える。 さらに,効率的な画像検索やoed(out-of-distribut ion)検出問題に適用することにより,コードの品質を定量的に測定する。 imagenet-100検索問題では、学習したバイナリコードは10ビットのみを使用して16ビットハッシュネットを上回り、10次元の実表現と同じくらい正確である。 最後に、学習したバイナリコードは、しきい値を調整するのに3000近いサンプルを必要とするベースラインと同じくらい正確にood検出を実行できます。 コードと事前訓練されたモデルはhttps://github.com/R AIVNLab/LLC.comで入手できる。

Learning binary representations of instances and classes is a classical problem with several high potential applications. In modern settings, the compression of high-dimensional neural representations to low-dimensional binary codes is a challenging task and often require large bit-codes to be accurate. In this work, we propose a novel method for Learning Low-dimensional binary Codes (LLC) for instances as well as classes. Our method does not require any side-information, like annotated attributes or label meta-data, and learns extremely low-dimensional binary codes (~20 bits for ImageNet-1K). The learnt codes are super-efficient while still ensuring nearly optimal classification accuracy for ResNet50 on ImageNet-1K. We demonstrate that the learnt codes capture intrinsically important features in the data, by discovering an intuitive taxonomy over classes. We further quantitatively measure the quality of our codes by applying it to the efficient image retrieval as well as out-of-distribution (OOD) detection problems. For ImageNet-100 retrieval problem, our learnt binary codes outperform 16 bit HashNet using only 10 bits and also are as accurate as 10 dimensional real representations. Finally, our learnt binary codes can perform OOD detection, out-of-the-box, as accurately as a baseline that needs ~3000 samples to tune its threshold, while we require none. Code and pre-trained models are available at https://github.com/R AIVNLab/LLC.
翻訳日:2021-06-04 16:27:10 公開日:2021-06-02
# 弱い教師付き学習はモデリング文化の融合を生み出す

Weakly Supervised Learning Creates a Fusion of Modeling Cultures ( http://arxiv.org/abs/2106.01485v1 )

ライセンス: Link先を確認
Chengliang Tang, Gan Yuan, Tian Zheng(参考訳) 過去20年間、breimanらによって提唱されたアルゴリズムモデリングフレームワークが大きな成功を収めてきた。 (2001). それでも、これらのブラックボックスモデルの優れた予測性能は、強い監督の可用性に大きく依存しています。 正確で正確な接地ラベルの大規模なセット。 実際には、強力な監督は利用できないか高価なものになり、弱い監督下でのモデリング技術を要求する。 本稿では、弱教師付き学習における鍵となる概念を要約し、この分野の最近の発展について論じる。 弱い監督下でのアルゴリズムモデリングだけでは、不安定で誤解を招く結果につながる可能性がある。 有望な方向性は、データモデリング文化をこのようなフレームワークに統合することだ。

The past two decades have witnessed the great success of the algorithmic modeling framework advocated by Breiman et al. (2001). Nevertheless, the excellent prediction performance of these black-box models rely heavily on the availability of strong supervision, i.e. a large set of accurate and exact ground-truth labels. In practice, strong supervision can be unavailable or expensive, which calls for modeling techniques under weak supervision. In this comment, we summarize the key concepts in weakly supervised learning and discuss some recent developments in the field. Using algorithmic modeling alone under a weak supervision might lead to unstable and misleading results. A promising direction would be integrating the data modeling culture into such a framework.
翻訳日:2021-06-04 16:24:24 公開日:2021-06-02
# DeepCompress: 効率的なポイントクラウドジオメトリ圧縮

DeepCompress: Efficient Point Cloud Geometry Compression ( http://arxiv.org/abs/2106.01504v1 )

ライセンス: Link先を確認
Ryan Killea, Yun Li, Saeed Bastani, Paul McLachlan(参考訳) ポイントクラウドは基本的なデータ型であり、3dコンテンツがよりユビキタスになるにつれてますます関心を集めている。 ポイントクラウドを使用するアプリケーションは、仮想、拡張現実、複合現実と自律運転を含む。 本稿では,既存の3次元オブジェクト検出および画像圧縮アーキテクチャの原理を取り入れた,点雲圧縮のためのより効率的なディープラーニングベースのエンコーダアーキテクチャを提案する。 本研究では,計算効率の高いニューラルネットワーク圧縮(cenic)から学習した活性化関数を取り入れ,よりパラメータ効率の高い畳み込みブロックを設計することで,効率と性能が劇的に向上することを示す。 提案するアーキテクチャは一般化された分割正規化活性化を取り入れ、空間分離可能なインセプションv4インスパイアドブロックを提案する。 次に、標準JPEG Pleno 8i Voxelized Full Bodiesデータセットの速度歪み曲線を評価し、モデルの性能を評価する。 提案手法は,BjontegardデルタレートとPSNR値において,ベースラインアプローチよりも小さなマージンで優れているが,必要なエンコーダ畳み込み操作を8%削減し,総エンコーダパラメータを20%削減する。 提案するアーキテクチャは, 単独で考えると, シャムファー距離0.02パーセントの小さなペナルティと, 同じピーク信号対雑音比で, 点から平面距離へのビットレート 0.32 % の増大である。

Point clouds are a basic data type that is increasingly of interest as 3D content becomes more ubiquitous. Applications using point clouds include virtual, augmented, and mixed reality and autonomous driving. We propose a more efficient deep learning-based encoder architecture for point clouds compression that incorporates principles from established 3D object detection and image compression architectures. Through an ablation study, we show that incorporating the learned activation function from Computational Efficient Neural Image Compression (CENIC) and designing more parameter-efficient convolutional blocks yields dramatic gains in efficiency and performance. Our proposed architecture incorporates Generalized Divisive Normalization activations and propose a spatially separable InceptionV4-inspired block. We then evaluate rate-distortion curves on the standard JPEG Pleno 8i Voxelized Full Bodies dataset to evaluate our model's performance. Our proposed modifications outperform the baseline approaches by a small margin in terms of Bjontegard delta rate and PSNR values, yet reduces necessary encoder convolution operations by 8 percent and reduces total encoder parameters by 20 percent. Our proposed architecture, when considered on its own, has a small penalty of 0.02 percent in Chamfer's Distance and 0.32 percent increased bit rate in Point to Plane Distance for the same peak signal-to-noise ratio.
翻訳日:2021-06-04 16:23:03 公開日:2021-06-02
# 不確実性定量化360:AIの不確かさの定量化とコミュニケーションのためのホロスティックツールキット

Uncertainty Quantification 360: A Holistic Toolkit for Quantifying and Communicating the Uncertainty of AI ( http://arxiv.org/abs/2106.01410v1 )

ライセンス: Link先を確認
Soumya Ghosh, Q. Vera Liao, Karthikeyan Natesan Ramamurthy, Jiri Navratil, Prasanna Sattigeri, Kush R. Varshney, Yunfeng Zhang(参考訳) 本稿では,AIモデルの不確実性定量化のためのオープンソースのPythonツールキットUncertainty Quantification 360 (UQ360)について述べる。 The goal of this toolkit is twofold: firstly, to provide a broad range of capabilities to streamline, and hopefully foster the common practices of quantifying, evaluating, improving, and communicating uncertainty in the AI application development lifecycle; secondly, to disseminate the latest research and educational materials for uncertainty quantification in machine learning, and encourage further exploration of its utility and connections to other pillars of trustworthy AI such as fairness and explainability. Pythonパッケージ(\url{https://github.com/I BM/UQ360})の他に、インタラクティブな体験(\url{http://uq360.mybluem ix.net})と、研究者や開発者が高品質の不確かさを効果的に生成・伝達するのに役立つ教育ツールとしてのガイダンス教材を開発しました。

In this paper, we describe an open source Python toolkit named Uncertainty Quantification 360 (UQ360) for the uncertainty quantification of AI models. The goal of this toolkit is twofold: firstly, to provide a broad range of capabilities to streamline, and hopefully foster the common practices of quantifying, evaluating, improving, and communicating uncertainty in the AI application development lifecycle; secondly, to disseminate the latest research and educational materials for uncertainty quantification in machine learning, and encourage further exploration of its utility and connections to other pillars of trustworthy AI such as fairness and explainability. Beyond the Python package (\url{https://github.com/I BM/UQ360}), we have developed an interactive experience (\url{http://uq360.mybluem ix.net}) and guidance materials as educational tools to aid researchers and developers in producing and communicating high-quality uncertainties in an effective manner.
翻訳日:2021-06-04 16:13:04 公開日:2021-06-02
# container: コンテキスト集約ネットワーク

Container: Context Aggregation Network ( http://arxiv.org/abs/2106.01401v1 )

ライセンス: Link先を確認
Peng Gao, Jiasen Lu, Hongsheng Li, Roozbeh Mottaghi, Aniruddha Kembhavi(参考訳) 畳み込みニューラルネットワーク(CNN)はコンピュータビジョンにおいて、無数の効率的かつ効率的なバリエーションを持ち、ユビキタスである。 近年,自然言語処理に最初に導入されたトランスフォーマーがコンピュータビジョンに採用されている。 アーリーアダプターは引き続きCNNバックボーンを採用するが、最新のネットワークはエンドツーエンドのCNNフリートランスフォーマーソリューションである。 最近の驚くべき発見は、従来の畳み込みやトランスフォーマーコンポーネントを持たない単純なMLPベースのソリューションが、効果的な視覚表現を生成できることを示している。 CNN, Transformer および MLP-Mixers は完全に異なるアーキテクチャと見なすことができるが,ニューラルネットワークスタック内の空間コンテキストを集約するより一般的な手法の特殊なケースであることを示す統一ビューを提供する。 我々は,CNNでよく見られる,局所畳み込み操作の帰納的バイアスを引き続き活用しながら,長距離相互作用 \emph{a la} 変換器を利用するマルチヘッドコンテキストアグリゲーションのための汎用ビルディングブロックである \model (CONText AggregatIon NEtwoRk) を提案する。 In contrast to Transformer-based methods that do not scale well to downstream tasks that rely on larger input image resolutions, our efficient network, named \modellight, can be employed in object detection and instance segmentation networks such as DETR, RetinaNet and Mask-RCNN to obtain an impressive detection mAP of 38.9, 43.8, 45.1 and mask mAP of 41.3, providing large improvements of 6.6, 7.3, 6.9 and 6.6 pts respectively, compared to a ResNet-50 backbone with a comparable compute and parameter size. また,DINOフレームワーク上のDeiTと比較して,自己教師型学習における有望な結果が得られる。

Convolutional neural networks (CNNs) are ubiquitous in computer vision, with a myriad of effective and efficient variations. Recently, Transformers -- originally introduced in natural language processing -- have been increasingly adopted in computer vision. While early adopters continue to employ CNN backbones, the latest networks are end-to-end CNN-free Transformer solutions. A recent surprising finding shows that a simple MLP based solution without any traditional convolutional or Transformer components can produce effective visual representations. While CNNs, Transformers and MLP-Mixers may be considered as completely disparate architectures, we provide a unified view showing that they are in fact special cases of a more general method to aggregate spatial context in a neural network stack. We present the \model (CONText AggregatIon NEtwoRk), a general-purpose building block for multi-head context aggregation that can exploit long-range interactions \emph{a la} Transformers while still exploiting the inductive bias of the local convolution operation leading to faster convergence speeds, often seen in CNNs. In contrast to Transformer-based methods that do not scale well to downstream tasks that rely on larger input image resolutions, our efficient network, named \modellight, can be employed in object detection and instance segmentation networks such as DETR, RetinaNet and Mask-RCNN to obtain an impressive detection mAP of 38.9, 43.8, 45.1 and mask mAP of 41.3, providing large improvements of 6.6, 7.3, 6.9 and 6.6 pts respectively, compared to a ResNet-50 backbone with a comparable compute and parameter size. Our method also achieves promising results on self-supervised learning compared to DeiT on the DINO framework.
翻訳日:2021-06-04 16:11:36 公開日:2021-06-02
# クロスドメインオブジェクト検出のためのマルチスケールドメイン適応yolo

Multiscale Domain Adaptive YOLO for Cross-Domain Object Detection ( http://arxiv.org/abs/2106.01483v1 )

ライセンス: Link先を確認
Mazin Hnewa and Hayder Radha(参考訳) ドメイン適応の領域は多くのアプリケーションで遭遇するドメインシフト問題に対処するのに役立ちました。 この問題は、トレーニングに使用されるソースデータの分布と、実際のテストシナリオで使用されるターゲットデータとの差に起因する。 本稿では、複数のドメイン適応パスと対応するドメイン分類器を、最近導入されたYOLOv4オブジェクト検出器の異なるスケールで利用し、ドメイン不変性を生成する新しいMultiScale Domain Adaptive YOLO(MS-DAYOLO)フレームワークを提案する。 一般的なデータセットを用いて提案手法を訓練・テストする。 本実験は,提案したMS-DAYOLOを用いたYOLOv4のトレーニングや,自律運転用車両の厳しい気象条件を示す目標データを用いたテストにおいて,物体検出性能が著しく向上したことを示す。

The area of domain adaptation has been instrumental in addressing the domain shift problem encountered by many applications. This problem arises due to the difference between the distributions of source data used for training in comparison with target data used during realistic testing scenarios. In this paper, we introduce a novel MultiScale Domain Adaptive YOLO (MS-DAYOLO) framework that employs multiple domain adaptation paths and corresponding domain classifiers at different scales of the recently introduced YOLOv4 object detector to generate domain-invariant features. We train and test our proposed method using popular datasets. Our experiments show significant improvements in object detection performance when training YOLOv4 using the proposed MS-DAYOLO and when tested on target data representing challenging weather conditions for autonomous driving applications.
翻訳日:2021-06-04 16:11:11 公開日:2021-06-02
# 事前学習モデルのパーソナライズ

Personalizing Pre-trained Models ( http://arxiv.org/abs/2106.01499v1 )

ライセンス: Link先を確認
Mina Khan, P Srivatsa, Advait Rane, Shriram Chenniappa, Asadali Hazariwala, and Pattie Maes(参考訳) 大規模データセットでトレーニングされた自己監督的あるいは弱い教師付きモデルでは、数ショット設定で多様なデータセットへのサンプル効率の移行が示されている。 我々は,上流の事前学習モデルが下流のマイナショット,マルチラベル,継続的な学習タスクにどのように活用できるかを検討する。 私たちのモデルであるCLIPPER(CLIP PERsonalized)では,弱い自然言語による画像表現学習モデルであるCLIPのイメージ表現を使用している。 マルチラベル・連続・少数ショット学習のためのMWI(Multi-label Weight Imprinting)と呼ばれる手法を開発し,CLIPPERはMWIを用いてCLIPの画像表現を行う。 CLIPPERを10のシングルラベルと5のマルチラベルデータセットで評価した。 我々のモデルは、堅牢で競争力のある性能を示し、数ショット、複数ラベル、連続学習のための新しいベンチマークを設定しました。 当社の軽量技術は計算効率も高く,データが上流モデルに送信されないため,プライバシ保護アプリケーションを可能にする。

Self-supervised or weakly supervised models trained on large-scale datasets have shown sample-efficient transfer to diverse datasets in few-shot settings. We consider how upstream pretrained models can be leveraged for downstream few-shot, multilabel, and continual learning tasks. Our model CLIPPER (CLIP PERsonalized) uses image representations from CLIP, a large-scale image representation learning model trained using weak natural language supervision. We developed a technique, called Multi-label Weight Imprinting (MWI), for multi-label, continual, and few-shot learning, and CLIPPER uses MWI with image representations from CLIP. We evaluated CLIPPER on 10 single-label and 5 multi-label datasets. Our model shows robust and competitive performance, and we set new benchmarks for few-shot, multi-label, and continual learning. Our lightweight technique is also compute-efficient and enables privacy-preserving applications as the data is not sent to the upstream model for fine-tuning.
翻訳日:2021-06-04 16:10:54 公開日:2021-06-02
# 勾配支援学習

Gradient Assisted Learning ( http://arxiv.org/abs/2106.01425v1 )

ライセンス: Link先を確認
Enmao Diao, Jie Ding, Vahid Tarokh(参考訳) 分散環境では、金融機関、医療センター、小売市場といった様々な組織間のコラボレーションが、サービスとパフォーマンスの向上に不可欠である。 しかし、基盤となるエンティティは、プライベートデータ、プロプライエタリなモデル、客観的関数を共有することにはほとんど関心がないかもしれない。 これらのプライバシー要件はコラボレーションの新たな課題を生み出した。 本研究では,データやモデル,目的関数を共有せずに,教師付き学習タスクにおいて相互に支援を行う新しい手法であるグラディエント支援学習(GAL)を提案する。 この枠組みでは,各参加者は局所的損失関数の集合を協調的に最適化し,各参加者は目的関数の勾配を反復的に適合させることで,自発的に独自のモデルを構築する。 実験により、すべてのデータ、モデル、目的関数が完全に開示されると、グラディエント支援学習は集中学習に近いパフォーマンスを達成できることが示された。

In distributed settings, collaborations between different entities, such as financial institutions, medical centers, and retail markets, are crucial to providing improved service and performance. However, the underlying entities may have little interest in sharing their private data, proprietary models, and objective functions. These privacy requirements have created new challenges for collaboration. In this work, we propose Gradient Assisted Learning (GAL), a new method for various entities to assist each other in supervised learning tasks without sharing data, models, and objective functions. In this framework, all participants collaboratively optimize the aggregate of local loss functions, and each participant autonomously builds its own model by iteratively fitting the gradients of the objective function. Experimental studies demonstrate that Gradient Assisted Learning can achieve performance close to centralized learning when all data, models, and objective functions are fully disclosed.
翻訳日:2021-06-04 16:06:10 公開日:2021-06-02
# SemiFL: ラベルなしクライアントによる半教師付きフェデレーション学習

SemiFL: Communication Efficient Semi-Supervised Federated Learning with Unlabeled Clients ( http://arxiv.org/abs/2106.01432v1 )

ライセンス: Link先を確認
Enmao Diao, Jie Ding, Vahid Tarokh(参考訳) Federated Learningは、スマートフォンやIoTデバイスなど、多数の分散クライアントの計算とプライベートデータリソースを使用することで、マシンラーニングモデルをトレーニングすることが可能になる。 フェデレーション学習(fl)に関する既存の研究の多くは、クライアントが接地ラベルを持っていると仮定している。 しかし、多くの実践シナリオでは、クライアントは専門知識の欠如など、タスク固有のデータをラベル付けできない場合がある。 本研究では,ラベル付きデータセットをホストするサーバについて検討し,未ラベルのデータをクライアントに活用して教師あり学習を行う。 本稿では,Semi-Supervised Federated Learning (SSFL) の課題に対処するため,SemiFLと呼ばれる新しいフェデレートラーニングフレームワークを提案する。 SemiFLでは、クライアントは完全にラベル付きデータを持ち、サーバはラベル付きデータが少ない。 SemiFLはサーバ側の教師なしデータとクライアント側の教師なしデータのトレーニングを分離するため通信効率が良い。 学習性能を向上させるsemiflの様々な効率的な戦略を示す。 広範な経験的評価により,通信効率のよい手法がラベルなしクライアントによるラベル付きサーバの性能を大幅に向上できることが証明された。 さらに,semiflは,完全教師付きデータでトレーニングされた既存のfl結果を上回ることができ,最先端の中央集中型半教師付き学習(ssl)法と競合することを示した。 例えば、標準的な通信効率の良いシナリオでは、サーバで4000のラベル付きサンプルしか持たないcifar10データセットで93%の精度を実現できる。 このような精度は、50000のラベル付きデータからトレーニングされた結果からわずか2%離れており、通信効率の良い設定で既存のssflメソッドで約30%改善されている。

Federated Learning allows training machine learning models by using the computation and private data resources of a large number of distributed clients such as smartphones and IoT devices. Most existing works on Federated Learning (FL) assume the clients have ground-truth labels. However, in many practical scenarios, clients may be unable to label task-specific data, e.g., due to lack of expertise. In this work, we consider a server that hosts a labeled dataset, and wishes to leverage clients with unlabeled data for supervised learning. We propose a new Federated Learning framework referred to as SemiFL in order to address the problem of Semi-Supervised Federated Learning (SSFL). In SemiFL, clients have completely unlabeled data, while the server has a small amount of labeled data. SemiFL is communication efficient since it separates the training of server-side supervised data and client-side unsupervised data. We demonstrate various efficient strategies of SemiFL that enhance learning performance. Extensive empirical evaluations demonstrate that our communication efficient method can significantly improve the performance of a labeled server with unlabeled clients. Moreover, we demonstrate that SemiFL can outperform many existing FL results trained with fully supervised data, and perform competitively with the state-of-the-art centralized Semi-Supervised Learning (SSL) methods. For instance, in standard communication efficient scenarios, our method can perform 93% accuracy on the CIFAR10 dataset with only 4000 labeled samples at the server. Such accuracy is only 2% away from the result trained from 50000 fully labeled data, and it improves about 30% upon existing SSFL methods in the communication efficient setting.
翻訳日:2021-06-04 16:05:55 公開日:2021-06-02
# Twitterのメンタルヘルスをめぐる言語変化の定量化

Quantifying language changes surrounding mental health on Twitter ( http://arxiv.org/abs/2106.01481v1 )

ライセンス: Link先を確認
Anne Marie Stupinski, Thayer Alshaabi, Michael V. Arnold, Jane Lydia Adams, Joshua R. Minot, Matthew Price, Peter Sheridan Dodds, Christopher M. Danforth(参考訳) メンタルヘルスの課題は、毎年世界の人口の約10%を苦しめていると考えられており、多くは汚名とサービスへのアクセスが制限されているため治療を受けていない。 ここでは,2012年以降の英語ツイートの約10%のデータストリームから解析した1-,2-,3-gramの収集を通じて,メンタルヘルスに関連する単語やフレーズの傾向を考察する。 精神保健言語の時間的ダイナミクスについて検討し,2012年から2018年の間に「メンタルヘルス」という言葉の人気が2桁近く増加したことを発見した。 我々は,「メンタルヘルス」が毎年,精神的健康意識のキャンペーンによって確実に急増していること,また,自殺による乱射事件や有名人の死亡,自殺を描写する人気フィクションなどに対して,予測不可能な反応を示した。 成長期を通じて安定しながらも, 「メンタルヘルス」を含むメッセージの陽性度は近年低下している。 最後に、元のツイートの割合を使ってリツイートし、社会的増幅によるメンタルヘルス言語の出現率を定量化する。 2015年以降、リツイートによるメンタルヘルスの言及はますます増加しており、Twitter上でのメンタルヘルスに関する議論に関連するスティグマは時間とともに減少していることを示唆している。

Mental health challenges are thought to afflict around 10% of the global population each year, with many going untreated due to stigma and limited access to services. Here, we explore trends in words and phrases related to mental health through a collection of 1- , 2-, and 3-grams parsed from a data stream of roughly 10% of all English tweets since 2012. We examine temporal dynamics of mental health language, finding that the popularity of the phrase 'mental health' increased by nearly two orders of magnitude between 2012 and 2018. We observe that mentions of 'mental health' spike annually and reliably due to mental health awareness campaigns, as well as unpredictably in response to mass shootings, celebrities dying by suicide, and popular fictional stories portraying suicide. We find that the level of positivity of messages containing 'mental health', while stable through the growth period, has declined recently. Finally, we use the ratio of original tweets to retweets to quantify the fraction of appearances of mental health language due to social amplification. Since 2015, mentions of mental health have become increasingly due to retweets, suggesting that stigma associated with discussion of mental health on Twitter has diminished with time.
翻訳日:2021-06-04 16:02:59 公開日:2021-06-02
# ntire 2021 challenge on high dynamic range imaging: dataset, methods and results

NTIRE 2021 Challenge on High Dynamic Range Imaging: Dataset, Methods and Results ( http://arxiv.org/abs/2106.01439v1 )

ライセンス: Link先を確認
Eduardo P\'erez-Pellitero and Sibi Catley-Chandar and Ale\v{s} Leonardis and Radu Timofte(参考訳) 本稿では, cvpr 2021 とともに開催された新しい画像復元・強調技術ワークショップ (ntire) の一環として, 高ダイナミックレンジ (hdr) イメージングに関する最初の課題について述べる。 本写本は,新たに導入されたデータセット,提案手法,その成果に焦点を当てている。 この課題は、1つまたは複数の低ダイナミックレンジ(LDR)観測からHDR画像を推定することを目的としている。 トラック1では1つのLDR画像のみが入力として提供され、トラック2では3つの異なるフレーム間の動きを持つLDR画像が利用可能である。 両トラックの最終的な目標は,直立トネマッピング操作と直立トネマッピング操作の両方を用いて,PSNRによる最適目標HDR再構成を実現することである。

This paper reviews the first challenge on high-dynamic range (HDR) imaging that was part of the New Trends in Image Restoration and Enhancement (NTIRE) workshop, held in conjunction with CVPR 2021. This manuscript focuses on the newly introduced dataset, the proposed methods and their results. The challenge aims at estimating a HDR image from one or multiple respective low-dynamic range (LDR) observations, which might suffer from under- or over-exposed regions and different sources of noise. The challenge is composed by two tracks: In Track 1 only a single LDR image is provided as input, whereas in Track 2 three differently-exposed LDR images with inter-frame motion are available. In both tracks, the ultimate goal is to achieve the best objective HDR reconstruction in terms of PSNR with respect to a ground-truth image, evaluated both directly and with a canonical tonemapping operation.
翻訳日:2021-06-04 16:02:25 公開日:2021-06-02
# Barbershop: セグメンテーションマスクを用いたGANベースの画像合成

Barbershop: GAN-based Image Compositing using Segmentation Masks ( http://arxiv.org/abs/2106.01505v1 )

ライセンス: Link先を確認
Peihao Zhu, Rameen Abdal, John Femiani, Peter Wonka(参考訳) 複数の画像から特徴をシームレスにブレンドすることは、画像の異なる部分間の結合を引き起こす照明、幾何学、部分的閉塞の複雑な関係のため、非常に困難である。 gansに関する最近の研究は、写実的な髪や顔の合成を可能にするが、それらを結合したイメージパッチではなく、単一のコヒーレントで妥当なイメージにまとめることは依然として困難である。 本稿では,GAN-インバージョンに基づく画像ブレンディング,特にヘアスタイル転写問題に対する新しい解を提案する。 本稿では,画像の細部保存や空間情報の符号化に優れる画像ブレンディングのための新しい潜時空間を提案し,共通セグメンテーションマスクに適合するように画像をわずかに修正できる新しいGAN埋め込みアルゴリズムを提案する。 提案手法では,モグラやシワなどの具体的詳細を含む複数の参照画像から視覚特性の転送が可能であり,潜在空間で画像ブレンドを行うため,コヒーレントな画像の合成が可能である。 我々のアプローチは、他のアプローチに存在するアーティファクトのブレンドを回避し、グローバルに一貫したイメージを見つける。 ユーザによる調査では,ブレンディングソリューションが95%以上であるのに対して,ユーザによる評価では,現在の技術よりも大きな改善が見られた。

Seamlessly blending features from multiple images is extremely challenging because of complex relationships in lighting, geometry, and partial occlusion which cause coupling between different parts of the image. Even though recent work on GANs enables synthesis of realistic hair or faces, it remains difficult to combine them into a single, coherent, and plausible image rather than a disjointed set of image patches. We present a novel solution to image blending, particularly for the problem of hairstyle transfer, based on GAN-inversion. We propose a novel latent space for image blending which is better at preserving detail and encoding spatial information, and propose a new GAN-embedding algorithm which is able to slightly modify images to conform to a common segmentation mask. Our novel representation enables the transfer of the visual properties from multiple reference images including specific details such as moles and wrinkles, and because we do image blending in a latent-space we are able to synthesize images that are coherent. Our approach avoids blending artifacts present in other approaches and finds a globally consistent image. Our results demonstrate a significant improvement over the current state of the art in a user study, with users preferring our blending solution over 95 percent of the time.
翻訳日:2021-06-04 16:02:07 公開日:2021-06-02
# q-RBFNN:量子計算に基づくRBFニューラルネットワーク

q-RBFNN:A Quantum Calculus-based RBF Neural Network ( http://arxiv.org/abs/2106.01370v1 )

ライセンス: Link先を確認
Syed Saiq Hussain, Muhammad Usman, Taha Hasan Masood Siddique, Imran Naseem, Roberto Togneri, Mohammed Bennamoun(参考訳) 本研究では,放射状基底関数ニューラルネットワーク(RBFNN)に対する確率勾配降下に基づく新しい学習手法を提案する。 提案手法は、ジャクソン微分(Jackson derivative)とも呼ばれるq勾配に基づく。 接点を求める従来の勾配とは対照的に、q-勾配は関数のセカントを見つけ、最適な解に向かって大きなステップを取る。 提案した$q$-RBFNNは最小二乗アルゴリズムの文脈における収束性能について解析する。 特に、ウィナー溶液の閉形式式を求め、学習率(ステップサイズ)の安定性境界を求める。 解析結果はコンピュータシミュレーションによって検証される。 さらに,安定状態性能のトレードオフを伴わない収束速度を改善するために,時間変化の$q$-parameterの適応手法を提案する。

In this research a novel stochastic gradient descent based learning approach for the radial basis function neural networks (RBFNN) is proposed. The proposed method is based on the q-gradient which is also known as Jackson derivative. In contrast to the conventional gradient, which finds the tangent, the q-gradient finds the secant of the function and takes larger steps towards the optimal solution. The proposed $q$-RBFNN is analyzed for its convergence performance in the context of least square algorithm. In particular, a closed form expression of the Wiener solution is obtained, and stability bounds of the learning rate (step-size) is derived. The analytical results are validated through computer simulation. Additionally, we propose an adaptive technique for the time-varying $q$-parameter to improve convergence speed with no trade-offs in the steady state performance.
翻訳日:2021-06-04 15:58:52 公開日:2021-06-02
# 中国ショップのロボット:位置特定ナビゲーション行動における強化学習の利用

Robot in a China Shop: Using Reinforcement Learning for Location-Specific Navigation Behaviour ( http://arxiv.org/abs/2106.01434v1 )

ライセンス: Link先を確認
Xihan Bian and Oscar Mendez and Simon Hadfield(参考訳) ロボットは複数の異なる環境で動作する必要がある。 同様のタスクを実行しても、現在の環境に最も合うように、異なる振る舞いをデプロイする必要がある。 本稿では,マルチタスク学習問題として扱われるナビゲーションの新しいアプローチを提案する。 これにより、ロボットは異なる環境の視覚的ナビゲーションタスクで異なる振る舞いを学べると同時に、環境間での専門知識の共有も学べる。 シミュレーション環境と実環境データの両方において,本手法を評価した。 本手法では, 学習時間を26%削減するとともに, 精度を向上させることができる。

Robots need to be able to work in multiple different environments. Even when performing similar tasks, different behaviour should be deployed to best fit the current environment. In this paper, We propose a new approach to navigation, where it is treated as a multi-task learning problem. This enables the robot to learn to behave differently in visual navigation tasks for different environments while also learning shared expertise across environments. We evaluated our approach in both simulated environments as well as real-world data. Our method allows our system to converge with a 26% reduction in training time, while also increasing accuracy.
翻訳日:2021-06-04 15:58:41 公開日:2021-06-02
# 滑らかなアルゴリズムによるミニマックス最適化

Minimax Optimization with Smooth Algorithmic Adversaries ( http://arxiv.org/abs/2106.01488v1 )

ライセンス: Link先を確認
Tanner Fiez, Chi Jin, Praneeth Netrapalli, Lillian J. Ratliff(参考訳) 本稿では,$f$ が$x$ の非凸と$y$の非凸の両方になるような困難な設定において,minimax 最適化 $\min_x \max_y f(x, y)$ を考える。 このような最適化問題は、GAN(generative adversarial network)のトレーニングを含む多くの機械学習パラダイムに生じるが、効率的な計算可能な最適性の概念の欠如や、既存のアルゴリズムの循環的・変動的挙動など、理論上の基本的問題は残っている。 我々のフレームワークは、計算予算の下では、非凹型最大化が一般にnpハードであるため、max-playerが$f(x,\cdot)$を完全に最大化することはできないという実践的考察から生まれたものです。 そこで,本研究では,対戦相手が展開するスムーズなアルゴリズム(すなわち,最大最大化ではなく最大化)に対して,Min-playerが対戦する新しいアルゴリズムを提案する。 我々のアルゴリズムは、単調な進行(極限周期を持たないため)を保証し、多項式数反復において適切な「定常点」を求める。 本フレームワークでは,複数ステップの確率勾配を加味したスムーズなアルゴリズムとその高速化版について検討する。 さらに,理論的な結果を確認し,提案手法の有効性を実証する補完実験を行った。

This paper considers minimax optimization $\min_x \max_y f(x, y)$ in the challenging setting where $f$ can be both nonconvex in $x$ and nonconcave in $y$. Though such optimization problems arise in many machine learning paradigms including training generative adversarial networks (GANs) and adversarially robust models, many fundamental issues remain in theory, such as the absence of efficiently computable optimality notions, and cyclic or diverging behavior of existing algorithms. Our framework sprouts from the practical consideration that under a computational budget, the max-player can not fully maximize $f(x,\cdot)$ since nonconcave maximization is NP-hard in general. So, we propose a new algorithm for the min-player to play against smooth algorithms deployed by the adversary (i.e., the max-player) instead of against full maximization. Our algorithm is guaranteed to make monotonic progress (thus having no limit cycles), and to find an appropriate "stationary point" in a polynomial number of iterations. Our framework covers practical settings where the smooth algorithms deployed by the adversary are multi-step stochastic gradient ascent, and its accelerated version. We further provide complementing experiments that confirm our theoretical findings and demonstrate the effectiveness of the proposed approach in practice.
翻訳日:2021-06-04 15:58:33 公開日:2021-06-02
# セキュアなデータ転送と決定のためのマルチセンサフュージョンと信号画像符号化によるIoTソリューション

IoT Solutions with Multi-Sensor Fusion and Signal-Image Encoding for Secure Data Transfer and Decision Making ( http://arxiv.org/abs/2106.01497v1 )

ライセンス: Link先を確認
Piyush K. Sharma, Mark Dennison, Adrienne Raglin(参考訳) IoT(Internet of Things)デバイスのデプロイとデータフュージョン技術は、パブリックドメインと政府ドメインで人気を集めている。 これは通常、複数のソースからデータをキャプチャして統合する必要がある。 データセットは必ずしも同じセンサー起源ではないため、融合データは通常複雑なデータ問題を引き起こす。 軍では、異質なIoTデバイスがプロセスやタスクをどのように役立つかを調査しているため、マルチセンサーアプローチを調査している。 さらに,情報(信号)を変換し,IoTウェアラブルデバイスから可逆で,意思決定支援の可視化が容易な画像にデータを統合(融合)するための画像符号化手法の信号を提案する。 さらに、インテリジェントな識別・検出操作を可能にする課題を調査し、ウェアラブルデバイスからのハンドジェスチャデータを活用した将来のアプリケーションを支援する深層学習・異常検出モデルの実現可能性を示す。

Deployment of Internet of Things (IoT) devices and Data Fusion techniques have gained popularity in public and government domains. This usually requires capturing and consolidating data from multiple sources. As datasets do not necessarily originate from identical sensors, fused data typically results in a complex data problem. Because military is investigating how heterogeneous IoT devices can aid processes and tasks, we investigate a multi-sensor approach. Moreover, we propose a signal to image encoding approach to transform information (signal) to integrate (fuse) data from IoT wearable devices to an image which is invertible and easier to visualize supporting decision making. Furthermore, we investigate the challenge of enabling an intelligent identification and detection operation and demonstrate the feasibility of the proposed Deep Learning and Anomaly Detection models that can support future application that utilizes hand gesture data from wearable devices.
翻訳日:2021-06-04 15:58:07 公開日:2021-06-02
# Ember: 類似性ベースのキーレス結合によるコードのコンテキスト拡張

Ember: No-Code Context Enrichment via Similarity-Based Keyless Joins ( http://arxiv.org/abs/2106.01501v1 )

ライセンス: Link先を確認
Sahaana Suri, Ihab F. Ilyas, Christopher R\'e, Theodoros Rekatsinas(参考訳) 単一のエンティティを記述する情報は、特定のビジネスニーズに合わせた複数のデータセットやテーブルに分散することができ、明示的なリンクキー(キーと外部のキーの関係やヒューリスティック関数など)は存在しない。 キーレスジョインを使用したコンテキスト強化あるいは断片化コンテキストの再構築は、構造化データソース上の機械学習(ML)パイプラインの暗黙的あるいは明示的なステップである。 このプロセスは退屈でドメイン固有であり、入力データと高レベルの設定ファイルだけでMLパイプラインを作成できる、今や普及しているノーコードMLシステムではサポートされていない。 そこで本稿では,キーレス結合を抽象化し,自動化してコンテキストエンリッチメントを一般化するシステムであるEmberを提案する。 私たちのキーとなる洞察は、Emberがタスク固有の埋め込みに集約されたインデックスを構築することで、一般的なキーレスジョイン演算を可能にすることです。 EmberはTransformerベースの表現学習技術を利用して、これらの埋め込みを学ぶ。 emberを開発する際のアーキテクチャの原則と運用者について説明し、emberが検索、推薦、質問応答を含む5つのドメインでコードなしのパイプラインを開発することができ、選択肢を最大39%リコールでき、1行構成の変更しかできないことを実証的に示します。

Structured data, or data that adheres to a pre-defined schema, can suffer from fragmented context: information describing a single entity can be scattered across multiple datasets or tables tailored for specific business needs, with no explicit linking keys (e.g., primary key-foreign key relationships or heuristic functions). Context enrichment, or rebuilding fragmented context, using keyless joins is an implicit or explicit step in machine learning (ML) pipelines over structured data sources. This process is tedious, domain-specific, and lacks support in now-prevalent no-code ML systems that let users create ML pipelines using just input data and high-level configuration files. In response, we propose Ember, a system that abstracts and automates keyless joins to generalize context enrichment. Our key insight is that Ember can enable a general keyless join operator by constructing an index populated with task-specific embeddings. Ember learns these embeddings by leveraging Transformer-based representation learning techniques. We describe our core architectural principles and operators when developing Ember, and empirically demonstrate that Ember allows users to develop no-code pipelines for five domains, including search, recommendation and question answering, and can exceed alternatives by up to 39% recall, with as little as a single line configuration change.
翻訳日:2021-06-04 15:57:53 公開日:2021-06-02
# 学習能力の不確定性

Undecidability of Learnability ( http://arxiv.org/abs/2106.01382v1 )

ライセンス: Link先を確認
Matthias C. Caro(参考訳) 機械学習の研究者や実践者は、さまざまな学習モデルを着実に拡大している。 彼らはこれを深い理論分析と経験的ヒューリスティックを通して達成した。 しかし、新たに提案されたモデルが実際にデータから学べるかどうかを厳格に評価するための汎用的な手順は知られていない。 そのような手続きは存在しないことを示す。 PACのバイナリ分類、一様および普遍的なオンライン学習、および教師と教師の相互作用による正確な学習においては、学習性は一般に、形式的なシステムにおける公理の独立性や計算不可能性の両方において決定不可能である。 我々の証明は、形式システムの一貫性問題とチューリングマシンの停止問題を学習可能性を特徴付ける複雑性尺度にコード化する関数クラスの計算可能構成を通じて進行する。 私たちの研究は、機械学習の理論的基礎に決定不能が現れていることを示しています。 新しい学習モデルを評価するプロセスを一般的に自動化することはできません。

Machine learning researchers and practitioners steadily enlarge the multitude of successful learning models. They achieve this through in-depth theoretical analyses and experiential heuristics. However, there is no known general-purpose procedure for rigorously evaluating whether newly proposed models indeed successfully learn from data. We show that such a procedure cannot exist. For PAC binary classification, uniform and universal online learning, and exact learning through teacher-learner interactions, learnability is in general undecidable, both in the sense of independence of the axioms in a formal system and in the sense of uncomputability. Our proofs proceed via computable constructions of function classes that encode the consistency problem for formal systems and the halting problem for Turing machines into complexity measures that characterize learnability. Our work shows that undecidability appears in the theoretical foundations of machine learning: There is no one-size-fits-all algorithm for deciding whether a machine learning model can be successful. We cannot in general automatize the process of assessing new learning models.
翻訳日:2021-06-04 15:56:23 公開日:2021-06-02
# multilingual and code-switching asrのためのデュアルスクリプトe2eフレームワーク

Dual Script E2E framework for Multilingual and Code-Switching ASR ( http://arxiv.org/abs/2106.01400v1 )

ライセンス: Link先を確認
Mari Ganesh Kumar, Jom Kuriakose, Anand Thyagachandran, Arun Kumar A, Ashish Seth, Lodagala Durga Prasad, Saish Jaiswal, Anusha Prakash, Hema Murthy(参考訳) インドには複数の言語があるが、言語の自動音声認識(asr)システムの訓練は難しい。 時間とともに、各言語は英語などの他の言語からの単語を採用し、コードミキシングに繋がる。 インドのほとんどの言語にも独自のスクリプトがあり、多言語およびコードスイッチングASRシステムのトレーニングにおいて大きな制限となる。 本研究は,テキスト音声合成の結果に触発されて,インド語の多言語およびコードスイッチングASRを学習するために,社内ルールベースの音素レベル共通ラベルセット(CLS)表現を使用する。 本稿では2つのエンドツーエンド(E2E)ASRシステムを提案する。 最初のシステムでは、E2EモデルはCLS表現に基づいて訓練され、我々はネイティブ言語スクリプトを復元するために、新しいデータ駆動バックエンドを使用する。 第2のシステムでは,CLS表現とネイティブ言語文字を同時に学習に使用するE2Eモデルの変更を提案する。 我々は,indic asr challenge 2021の多言語およびコードスイッチングタスクについて結果を示す。 課題開発データに基づいて,多言語タスクとコードスイッチングタスクのベースラインシステムに対する単語誤り率の6%と5%の改善(近似)を実現した。

India is home to multiple languages, and training automatic speech recognition (ASR) systems for languages is challenging. Over time, each language has adopted words from other languages, such as English, leading to code-mixing. Most Indian languages also have their own unique scripts, which poses a major limitation in training multilingual and code-switching ASR systems. Inspired by results in text-to-speech synthesis, in this work, we use an in-house rule-based phoneme-level common label set (CLS) representation to train multilingual and code-switching ASR for Indian languages. We propose two end-to-end (E2E) ASR systems. In the first system, the E2E model is trained on the CLS representation, and we use a novel data-driven back-end to recover the native language script. In the second system, we propose a modification to the E2E model, wherein the CLS representation and the native language characters are used simultaneously for training. We show our results on the multilingual and code-switching tasks of the Indic ASR Challenge 2021. Our best results achieve 6% and 5% improvement (approx) in word error rate over the baseline system for the multilingual and code-switching tasks, respectively, on the challenge development data.
翻訳日:2021-06-04 15:56:08 公開日:2021-06-02
# Ethical-Advice Taker: 言語モデルは自然言語の介入を理解するか?

Ethical-Advice Taker: Do Language Models Understand Natural Language Interventions? ( http://arxiv.org/abs/2106.01465v1 )

ライセンス: Link先を確認
Jieyu Zhao, Daniel Khashabi, Tushar Khot, Ashish Sabharwal, and Kai-Wei Chang(参考訳) 自然言語を使用してモデルの振る舞いに介入し、望ましい方法で予測を変更することは可能か? 読解システムにおける自然言語介入の有効性について検討し,社会ステレオタイプの文脈で検討した。 具体的には,言語理解タスクであるLingguistic Ethical Interventions (LEI)を提案する。そこでは,倫理と公平の文脈固有の原則を伝達することにより,QAモデルの非倫理的行動を修正することを目的とする。 そこで本研究では, システムの社会的ステレオタイプを定量化し, 異なる倫理的介入や, 望ましいモデル行動によって定量化する手法を提案する。 私たちのゼロショット評価では、今日の強力なニューラルネットワークモデルでさえ、極めて倫理的な対応が不十分であること、つまり、これらの介入が単純な文として述べられているにもかかわらず、驚くほど倫理的な介入に反応しないことが分かりました。 少ないショット学習はモデルの振る舞いを改善するが、特に様々な種類の一般化を評価する場合、望ましい結果には程遠い。 我々の新しい課題は、コミュニティに新しい言語理解の挑戦をもたらす。

Is it possible to use natural language to intervene in a model's behavior and alter its prediction in a desired way? We investigate the effectiveness of natural language interventions for reading-comprehensio n systems, studying this in the context of social stereotypes. Specifically, we propose a new language understanding task, Linguistic Ethical Interventions (LEI), where the goal is to amend a question-answering (QA) model's unethical behavior by communicating context-specific principles of ethics and equity to it. To this end, we build upon recent methods for quantifying a system's social stereotypes, augmenting them with different kinds of ethical interventions and the desired model behavior under such interventions. Our zero-shot evaluation finds that even today's powerful neural language models are extremely poor ethical-advice takers, that is, they respond surprisingly little to ethical interventions even though these interventions are stated as simple sentences. Few-shot learning improves model behavior but remains far from the desired outcome, especially when evaluated for various types of generalization. Our new task thus poses a novel language understanding challenge for the community.
翻訳日:2021-06-04 12:28:05 公開日:2021-06-02
# すべてを統括する1つの表現:ジェネリック表現を用いた数少ない学習におけるサポート外例の同定

One Representation to Rule Them All: Identifying Out-of-Support Examples in Few-shot Learning with Generic Representations ( http://arxiv.org/abs/2106.01423v1 )

ライセンス: Link先を確認
Henry Kvinge, Scott Howland, Nico Courts, Lauren A. Phillips, John Buckheit, Zachary New, Elliott Skomski, Jung H. Lee, Sandeep Tiwari, Jessica Hibler, Courtney D. Corley, Nathan O. Hodas(参考訳) 数発の学習の分野では、小さなデータ体制で運用できる強力なモデルの開発に顕著な進歩を遂げている。 これらのメソッドのほぼ全てが、遭遇したすべてのラベルのないインスタンスは、サンプルを持ついくつかの既知のクラスに属していると仮定する。 の例を日常的に見つけている実世界のユースケースでは、これは問題となる可能性がある。 本稿では,OOS(out-of- supported)の例について述べる。 本稿では,この問題が分布外検出と微妙に異なるかを説明し,汎用表現と呼ぶ固定点を用いたプロトタイプネットワークフレームワーク内でのOOS例の同定方法について述べる。 本稿では,本稿で提案する他の手法と同様に,文献における既存手法よりも優れていることを示す。 最後に,このような汎用点の使用がモデルの特徴空間の幾何学にどのように影響するかを検討する。

The field of few-shot learning has made remarkable strides in developing powerful models that can operate in the small data regime. Nearly all of these methods assume every unlabeled instance encountered will belong to a handful of known classes for which one has examples. This can be problematic for real-world use cases where one routinely finds 'none-of-the-above&#x 27; examples. In this paper we describe this challenge of identifying what we term 'out-of-support' (OOS) examples. We describe how this problem is subtly different from out-of-distribution detection and describe a new method of identifying OOS examples within the Prototypical Networks framework using a fixed point which we call the generic representation. We show that our method outperforms other existing approaches in the literature as well as other approaches that we propose in this paper. Finally, we investigate how the use of such a generic point affects the geometry of a model's feature space.
翻訳日:2021-06-04 12:26:45 公開日:2021-06-02
# すべての知識が平等であるとは限らない

Not All Knowledge Is Created Equal ( http://arxiv.org/abs/2106.01489v1 )

ライセンス: Link先を確認
Ziyun Li, Xinshao Wang, Haojin Yang, Di Hu, Neil M. Robertson, David A. Clifton, Christoph Meinel(参考訳) 相互知識蒸留(mkd)は、他のモデルから知識を蒸留することでモデルを改善する。 しかし、すべての知識が確実かつ正しいわけではない。 例えば、ラベルノイズは通常、望ましくない記憶のために信頼性の低いモデルをもたらす [1, 2]。 間違った知識は助けよりも学習を誤解させる。 この問題は、2つの側面によって処理できる: (i) 知識が(知識源の信頼性)から得られるモデルの信頼性を改善する; (ii) 蒸留のための信頼できる知識を選択する。 文献では、モデルをより信頼性の高いものにしながら、選択的なMKDはほとんど注目されない。 そこで我々は選択的MKDの研究に焦点をあて,本研究におけるその重要性を強調した。 具体的には、MKDフレームワーク、信頼性知識の選択、そして相互蒸留(Mutual Distillation, CMD)を設計する。 CMDのキーコンポーネントは汎用的な知識選択の定式化であり、選択しきい値が静的(CMD-S)かプログレッシブ(CMD-P)になる。 さらにcmdは、ゼロ知識とすべての知識という2つの特別なケースをカバーし、統一mkdフレームワークへと導かれる。 CMD-PはCMD-Sよりも優れていた。 主な理由は、モデルの知識がアップグレードされ、トレーニングが進むにつれて自信が増すからです。 CMDの有効性を実証し、CMDの設計を徹底的に正当化するために、大規模な実験を行う。 例えば、CMD-Pはラベルノイズに対するロバスト性を示す新しい最先端結果を得る。

Mutual knowledge distillation (MKD) improves a model by distilling knowledge from another model. However, not all knowledge is certain and correct, especially under adverse conditions. For example, label noise usually leads to less reliable models due to the undesired memorisation [1, 2]. Wrong knowledge misleads the learning rather than helps. This problem can be handled by two aspects: (i) improving the reliability of a model where the knowledge is from (i.e., knowledge source's reliability); (ii) selecting reliable knowledge for distillation. In the literature, making a model more reliable is widely studied while selective MKD receives little attention. Therefore, we focus on studying selective MKD and highlight its importance in this work. Concretely, a generic MKD framework, Confident knowledge selection followed by Mutual Distillation (CMD), is designed. The key component of CMD is a generic knowledge selection formulation, making the selection threshold either static (CMD-S) or progressive (CMD-P). Additionally, CMD covers two special cases: zero knowledge and all knowledge, leading to a unified MKD framework. We empirically find CMD-P performs better than CMD-S. The main reason is that a model's knowledge upgrades and becomes confident as the training progresses. Extensive experiments are present to demonstrate the effectiveness of CMD and thoroughly justify the design of CMD. For example, CMD-P obtains new state-of-the-art results in robustness against label noise.
翻訳日:2021-06-04 12:26:10 公開日:2021-06-02
# 音声認識のための注意に基づく文脈言語モデル適応

Attention-based Contextual Language Model Adaptation for Speech Recognition ( http://arxiv.org/abs/2106.01451v1 )

ライセンス: Link先を確認
Richard Diehl Martinez, Scott Novotney, Ivan Bulyko, Ariya Rastrow, Andreas Stolcke, Ankur Gandhe(参考訳) 音声認識のための言語モデリング(LM)は通常、発話レベルの文脈情報を組み込まない。 しかし、音声アシスタントのような一部のドメインでは、発話が話される時間などの追加のコンテキストが、豊富な入力信号を提供する。 本稿では,テキストと非言語文脈データの両方でニューラルネットワークの音声認識モデルを学習するための注意機構を提案する。 一般的な音声アシスタントプラットフォームで収集された発話の大規模非特定データセットに適用すると,文脈情報を含まない標準LMに対して,難読度を7.0%削減する。 提案手法は,データセットの長い尾から抽出した発話に対して,標準的なLMに対して9.0%,文脈的LMの最先端モデルと比較して2.8%以上のパープレキシティを向上する。

Language modeling (LM) for automatic speech recognition (ASR) does not usually incorporate utterance level contextual information. For some domains like voice assistants, however, additional context, such as the time at which an utterance was spoken, provides a rich input signal. We introduce an attention mechanism for training neural speech recognition language models on both text and non-linguistic contextual data. When applied to a large de-identified dataset of utterances collected by a popular voice assistant platform, our method reduces perplexity by 7.0% relative over a standard LM that does not incorporate contextual information. When evaluated on utterances extracted from the long tail of the dataset, our method improves perplexity by 9.0% relative over a standard LM and by over 2.8% relative when compared to a state-of-the-art model for contextual LM.
翻訳日:2021-06-04 12:23:41 公開日:2021-06-02
# 選択の学習:新しいオブジェクトキャプションのための完全な注意的アプローチ

Learning to Select: A Fully Attentive Approach for Novel Object Captioning ( http://arxiv.org/abs/2106.01424v1 )

ライセンス: Link先を確認
Marco Cagrandi, Marcella Cornia, Matteo Stefanini, Lorenzo Baraldi, Rita Cucchiara(参考訳) 画像キャプションモデルは最近、標準的なデータセットに適用すると印象的な結果が得られた。 しかし、現実のシナリオに切り替えることは、既存のトレーニングセットでカバーされていない、より多種多様なビジュアルコンセプトによって、課題となる。 このため、最近、トレーニングフェーズで目に見えないオブジェクトのキャプションモデルをテストするパラダイムとして、斬新なオブジェクトキャプション(noc)が登場している。 本稿では,画像の最も関連性の高い対象を学習するnocに対して,学習セットへの順応性によらず選択し,それに従って言語モデルの生成過程を制約する新しい手法を提案する。 私たちのアーキテクチャは、制約を組み込む際にも、完全に適応的でエンドツーエンドのトレーニングが可能です。 保持されたCOCOデータセットで実験を行い、新しいオブジェクトへの適応性とキャプションの品質の両方の観点から、最先端の技術を実証した。

Image captioning models have lately shown impressive results when applied to standard datasets. Switching to real-life scenarios, however, constitutes a challenge due to the larger variety of visual concepts which are not covered in existing training sets. For this reason, novel object captioning (NOC) has recently emerged as a paradigm to test captioning models on objects which are unseen during the training phase. In this paper, we present a novel approach for NOC that learns to select the most relevant objects of an image, regardless of their adherence to the training set, and to constrain the generative process of a language model accordingly. Our architecture is fully-attentive and end-to-end trainable, also when incorporating constraints. We perform experiments on the held-out COCO dataset, where we demonstrate improvements over the state of the art, both in terms of adaptability to novel objects and caption quality.
翻訳日:2021-06-04 12:22:47 公開日:2021-06-02
# SMURF:典型的分析によるカプセル評価のための意味的・言語的不定形核融合

SMURF: SeMantic and linguistic UndeRstanding Fusion for Caption Evaluation via Typicality Analysis ( http://arxiv.org/abs/2106.01444v1 )

ライセンス: Link先を確認
Joshua Feinglass and Yezhou Yang(参考訳) 視覚キャプションのオープンエンドな性質は、評価の難しい領域となっている。 提案されたモデルの大部分は、人間関係を改善するための専門的なトレーニングに依存しているため、採用、一般化、説明性は限られている。 我々は,情報理論に根ざした評価の新しい定式化である「定型性(typicality)」を導入する。 典型性は、新しいセマンティック比較、SPARCS、および参照なし流速評価指標を開発するためのフレームワークとして役立ちます。 分析の過程で, 計量SPURTSで捉えたスタイルと, 文法的なアウトリー・ペナルティ(outlier penalties)の形で捉えた文法という, フラレンシの2つの次元が自然に現れる。 ベンチマークデータセットに関する広範な実験とアブレーション研究を通じて、これらの分割された意味論と流布の次元が、キャプタの違いに対するシステムレベルの洞察をいかに高めるかを示す。 提案手法とそれらの組み合わせであるSMURFは,他のルールベース評価指標と比較した場合,人間の判断と最先端の相関が得られた。

The open-ended nature of visual captioning makes it a challenging area for evaluation. The majority of proposed models rely on specialized training to improve human-correlation, resulting in limited adoption, generalizability, and explainabilty. We introduce "typicality", a new formulation of evaluation rooted in information theory, which is uniquely suited for problems lacking a definite ground truth. Typicality serves as our framework to develop a novel semantic comparison, SPARCS, as well as referenceless fluency evaluation metrics. Over the course of our analysis, two separate dimensions of fluency naturally emerge: style, captured by metric SPURTS, and grammar, captured in the form of grammatical outlier penalties. Through extensive experiments and ablation studies on benchmark datasets, we show how these decomposed dimensions of semantics and fluency provide greater system-level insight into captioner differences. Our proposed metrics along with their combination, SMURF, achieve state-of-the-art correlation with human judgment when compared with other rule-based evaluation metrics.
翻訳日:2021-06-04 12:22:34 公開日:2021-06-02
# BERT-Defense:認知刺激による対人攻撃に対するBERTに基づく確率モデル

BERT-Defense: A Probabilistic Model Based on BERT to Combat Cognitively Inspired Orthographic Adversarial Attacks ( http://arxiv.org/abs/2106.01452v1 )

ライセンス: Link先を確認
Yannik Keller, Jan Mackensen, Steffen Eger(参考訳) 敵対的攻撃は、ディープラーニングシステムの重要な盲点を露呈する。 単語と文レベルの攻撃シナリオは主に、NLPモデルを騙す入力の意味的なパラフレーズを見つけることを扱うが、文字レベルの攻撃は通常、入力ストリームにタイプミスを挿入する。 これらはスペル修正モジュールによって容易に防御できると考えられている。 本研究では,標準スペルチェッカーとPruthi et alのアプローチの両方を示す。 (2019)は、挿入、削除、スワップに対する防御訓練を行い、Eger and Benz (2020)で最近提案された文字レベルのベンチマークでは、視覚的および音声的摂動や単語分割の欠如など、より困難な攻撃を含むパフォーマンスが不十分である。 対照的に、文脈非依存の文字レベル情報とBERTのマスキング言語モデリングの文脈依存情報を組み合わせた非訓練的反復的アプローチは、アマゾン・メカニカル・トルク(AMT)が監督する3ショット・ラーニング(3ショット・ラーニング)による人間の群衆労働者に匹敵する。

Adversarial attacks expose important blind spots of deep learning systems. While word- and sentence-level attack scenarios mostly deal with finding semantic paraphrases of the input that fool NLP models, character-level attacks typically insert typos into the input stream. It is commonly thought that these are easier to defend via spelling correction modules. In this work, we show that both a standard spellchecker and the approach of Pruthi et al. (2019), which trains to defend against insertions, deletions and swaps, perform poorly on the character-level benchmark recently proposed in Eger and Benz (2020) which includes more challenging attacks such as visual and phonetic perturbations and missing word segmentations. In contrast, we show that an untrained iterative approach which combines context-independent character-level information with context-dependent information from BERT's masked language modeling can perform on par with human crowd-workers from Amazon Mechanical Turk (AMT) supervised via 3-shot learning.
翻訳日:2021-06-04 12:21:39 公開日:2021-06-02
# 目標ベース強化学習のための表現学習としての変分エンパワーメント

Variational Empowerment as Representation Learning for Goal-Based Reinforcement Learning ( http://arxiv.org/abs/2106.01404v1 )

ライセンス: Link先を確認
Jongwook Choi, Archit Sharma, Honglak Lee, Sergey Levine, Shixiang Shane Gu(参考訳) 目標達成のための学習と相互情報(MI)の最大化による多様なスキルの学習が,自己指導型強化学習の原則として提案されている。 標準目標条件付きRL(GCRL)が変分エンハンスメントの最適化目標によってカプセル化されているという単純な観察から始まり、GCRLとMIベースのRLを単一のファミリに一般化し、変分型GCRL(VGCRL)、変分MI最大化、変分エンハンスメントをゴールゴール達成のための機能的に認識された状態表現を取得する表現学習手法として解釈する。 This novel perspective allows us to: (1) derive simple but unexplored variants of GCRL to study how adding small representation capacity can already expand its capabilities; (2) investigate how discriminator function capacity and smoothness determine the quality of discovered skills, or latent goals, through modifying latent dimensionality and applying spectral normalization; (3) adapt techniques such as hindsight experience replay (HER) from GCRL to MI-based RL; and lastly, (4) propose a novel evaluation metric, named latent goal reaching (LGR), for comparing empowerment algorithms with different choices of latent dimensionality and discriminator parameterization. 原理的数学的導出と注意深い実験研究を通じて,本研究は,目標ベースrlにおける表現学習手法の評価,解析,開発のための新しい基礎を築いている。

Learning to reach goal states and learning diverse skills through mutual information (MI) maximization have been proposed as principled frameworks for self-supervised reinforcement learning, allowing agents to acquire broadly applicable multitask policies with minimal reward engineering. Starting from a simple observation that the standard goal-conditioned RL (GCRL) is encapsulated by the optimization objective of variational empowerment, we discuss how GCRL and MI-based RL can be generalized into a single family of methods, which we name variational GCRL (VGCRL), interpreting variational MI maximization, or variational empowerment, as representation learning methods that acquire functionally-aware state representations for goal reaching. This novel perspective allows us to: (1) derive simple but unexplored variants of GCRL to study how adding small representation capacity can already expand its capabilities; (2) investigate how discriminator function capacity and smoothness determine the quality of discovered skills, or latent goals, through modifying latent dimensionality and applying spectral normalization; (3) adapt techniques such as hindsight experience replay (HER) from GCRL to MI-based RL; and lastly, (4) propose a novel evaluation metric, named latent goal reaching (LGR), for comparing empowerment algorithms with different choices of latent dimensionality and discriminator parameterization. Through principled mathematical derivations and careful experimental studies, our work lays a novel foundation from which to evaluate, analyze, and develop representation learning techniques in goal-based RL.
翻訳日:2021-06-04 12:19:53 公開日:2021-06-02
# 多様体学習のための矩形流れ

Rectangular Flows for Manifold Learning ( http://arxiv.org/abs/2106.01413v1 )

ライセンス: Link先を確認
Anthony L. Caterini, Gabriel Loaiza-Ganem, Geoff Pleiss, John P. Cunningham(参考訳) フローの正規化は可逆的なニューラルネットワークであり、容量の移動可能な変更項を持ち、パラメータの最適化を最大確率で効率的に行うことができる。 しかし、興味のあるデータは一般に、高次元の環境空間に埋め込まれた(しばしば未知の)低次元多様体に存在すると仮定される。 構成上、可逆性要求は学習された分布の高次元的サポートを意味するため、結果はモデリングミスマッチとなる。 低次元空間から高次元空間への写像である射出流は、多様体上の分布を学習することでこの矛盾を解消しようとするが、結果として得られる体積変化項は評価が難しくなる。 現在のアプローチでは、この項を完全に様々なヒューリスティックを使って計算するのを避けるか、多様体が事前に知られていると仮定する。 代わりに, 数値線形代数から自動微分法や手法を注意深く利用して, モデルのパラメータに関して, この項の勾配を気軽に計算する方法を2つ提案する。 どちらの手法も、この多様体上に投影されたデータのエンドツーエンドの非線形多様体学習と密度推定を行う。 提案手法のトレードオフを実証的に検証し, 体積変化項を無視するアプローチを, 多様体とそれに対応する分布をより正確に学習し, アウト・オブ・ディストリビューション検出の有望な結果を示す。

Normalizing flows are invertible neural networks with tractable change-of-volume terms, which allows optimization of their parameters to be efficiently performed via maximum likelihood. However, data of interest is typically assumed to live in some (often unknown) low-dimensional manifold embedded in high-dimensional ambient space. The result is a modelling mismatch since -- by construction -- the invertibility requirement implies high-dimensional support of the learned distribution. Injective flows, mapping from low- to high-dimensional space, aim to fix this discrepancy by learning distributions on manifolds, but the resulting volume-change term becomes more challenging to evaluate. Current approaches either avoid computing this term entirely using various heuristics, or assume the manifold is known beforehand and therefore are not widely applicable. Instead, we propose two methods to tractably calculate the gradient of this term with respect to the parameters of the model, relying on careful use of automatic differentiation and techniques from numerical linear algebra. Both approaches perform end-to-end nonlinear manifold learning and density estimation for data projected onto this manifold. We study the trade-offs between our proposed methods, empirically verify that we outperform approaches ignoring the volume-change term by more accurately learning manifolds and the corresponding distributions on them, and show promising results on out-of-distribution detection.
翻訳日:2021-06-04 12:17:17 公開日:2021-06-02
# 構造的、教師付き、生成的逆行学習による非循環グラフのテスト

Testing Directed Acyclic Graph via Structural, Supervised and Generative Adversarial Learning ( http://arxiv.org/abs/2106.01474v1 )

ライセンス: Link先を確認
Chengchun Shi, Yunzhe Zhou and Lexin Li(参考訳) 本稿では,有向非巡回グラフ(DAG)の新しい仮説テスト法を提案する。 DAG推定法には豊富なクラスがあるが、DAG推論法には相対的な妥当性がある。 さらに、既存の手法は、線形モデルや追加モデルのような特定のモデル構造を課し、独立したデータ観測を仮定することが多い。 提案したテストでは、ランダム変数間の関連性は非線形であり、データは時間依存である。 非常に柔軟なニューラルネットワーク学習者に基づいてテストを構築します。 実験の漸近的保証を定めつつ,被験者数や各被験者の時点数を無限に分散させることを可能とした。 シミュレーションと脳結合ネットワーク解析により,実験の有効性を示す。

In this article, we propose a new hypothesis testing method for directed acyclic graph (DAG). While there is a rich class of DAG estimation methods, there is a relative paucity of DAG inference solutions. Moreover, the existing methods often impose some specific model structures such as linear models or additive models, and assume independent data observations. Our proposed test instead allows the associations among the random variables to be nonlinear and the data to be time-dependent. We build the test based on some highly flexible neural networks learners. We establish the asymptotic guarantees of the test, while allowing either the number of subjects or the number of time points for each subject to diverge to infinity. We demonstrate the efficacy of the test through simulations and a brain connectivity network analysis.
翻訳日:2021-06-04 12:16:52 公開日:2021-06-02
# トランスフォーマーは、無限次元の非マーサーバイナリカーネルマシンである

Transformers are Deep Infinite-Dimensional Non-Mercer Binary Kernel Machines ( http://arxiv.org/abs/2106.01506v1 )

ライセンス: Link先を確認
Matthew A. Wright, Joseph E. Gonzalez(参考訳) 自然言語処理のようなコアai分野に普及しているにもかかわらず、トランスフォーマーモデルのような深い注意に基づくニューラルネットワークの仕組みは、完全には理解されていない。 本稿では,トランスフォーマーの動作を理解するための新しい視点を提案する。 特に,一対のバナッハ空間上のカーネル学習法として,トランスフォーマの演算の核となる「ドート生成的注意」を特徴付けることができることを示す。 特に、トランスフォーマーのカーネルは無限の特徴次元を持つのが特徴である。 その過程で、標準的なカーネル学習問題をバイナリ設定に拡張し、2つの入力ドメインからデータを取得し、各クロスドメインペアに対して応答を定義する。 非マーサー(非定義、非対称)なカーネル(学習した関数はヒルベルト空間ではなく、カーネルバナッハ空間を再現する要素である)を持つこれらのバイナリカーネルマシンの新しい表現子定理を証明し、トランスフォーマー計算が任意のバイナリ非マーサー再生成核バナッハ空間を学習できることを示す新しい普遍近似定理を証明した。 我々はTransformerの新しいカーネルを実験し、標準Transformerカーネルの無限次元性が部分的に性能に寄与することを示す結果を得た。 本論文は,現代機械-学習における非常に重要だが理解が不十分なモデルに対する新たな理論的理解を提供する。

Despite their ubiquity in core AI fields like natural language processing, the mechanics of deep attention-based neural networks like the Transformer model are not fully understood. In this article, we present a new perspective towards understanding how Transformers work. In particular, we show that the "dot-product attention" that is the core of the Transformer's operation can be characterized as a kernel learning method on a pair of Banach spaces. In particular, the Transformer's kernel is characterized as having an infinite feature dimension. Along the way we consider an extension of the standard kernel learning problem to a binary setting, where data come from two input domains and a response is defined for every cross-domain pair. We prove a new representer theorem for these binary kernel machines with non-Mercer (indefinite, asymmetric) kernels (implying that the functions learned are elements of reproducing kernel Banach spaces rather than Hilbert spaces), and also prove a new universal approximation theorem showing that the Transformer calculation can learn any binary non-Mercer reproducing kernel Banach space pair. We experiment with new kernels in Transformers, and obtain results that suggest the infinite dimensionality of the standard Transformer kernel is partially responsible for its performance. This paper's results provide a new theoretical understanding of a very important but poorly understood model in modern machine~learning.
翻訳日:2021-06-04 12:16:40 公開日:2021-06-02
# (参考訳) 分類的モジュラリティを用いた単語埋め込みの評価 [全文訳有]

Evaluating Word Embeddings with Categorical Modularity ( http://arxiv.org/abs/2106.00877v1 )

ライセンス: CC BY 4.0
S\'ilvia Casacuberta, Karina Halevy, Dami\'an E. Blasi(参考訳) 単語埋め込み品質を評価するために,新しい低リソース内在指標である分類的モジュラリティを導入する。 カテゴリーモジュラリティ(英: Categorical modularity)とは、ある固定された意味圏の集合から単語のベクトルを埋め込んだ$k$-nearest(英語版)近傍グラフに基づくグラフモジュラリティの計量である。 我々は29言語で59の神経生物学的に動機付けられた意味カテゴリーに属する500語のコアセットを使用し、言語ごとの3つの単語埋め込みモデル(FastText, MUSE, subs2vec)を分析した。 感情分析と単語類似性計算の単言語的タスク,およびバイリンガル語彙誘導の両言語間タスクにおいて,カテゴリー的モジュラリティと性能との間には,中程度の正の相関関係が認められた。 全体として、分類モジュラリティは、下流タスクのパフォーマンスに関する非自明な予測情報を提供し、セマンティック情報損失に関するメタ予測特性のモデルによる相関関係の分解も提案する。

We introduce categorical modularity, a novel low-resource intrinsic metric to evaluate word embedding quality. Categorical modularity is a graph modularity metric based on the $k$-nearest neighbor graph constructed with embedding vectors of words from a fixed set of semantic categories, in which the goal is to measure the proportion of words that have nearest neighbors within the same categories. We use a core set of 500 words belonging to 59 neurobiologically motivated semantic categories in 29 languages and analyze three word embedding models per language (FastText, MUSE, and subs2vec). We find moderate to strong positive correlations between categorical modularity and performance on the monolingual tasks of sentiment analysis and word similarity calculation and on the cross-lingual task of bilingual lexicon induction both to and from English. Overall, we suggest that categorical modularity provides non-trivial predictive information about downstream task performance, with breakdowns of correlations by model suggesting some meta-predictive properties about semantic information loss as well.
翻訳日:2021-06-04 09:12:01 公開日:2021-06-02
# (参考訳) 部分的ワッサースタイン被覆 [全文訳有]

Partial Wasserstein Covering ( http://arxiv.org/abs/2106.00886v1 )

ライセンス: CC BY 4.0
Keisuke Kawano, Satoshi Koide, Keisuke Otaki(参考訳) 候補データセットから小さなサブセットを選択し、それを小さなデータセットに追加することで、経験的分布の観点から、小さなデータセット(例えば、開発データセット)を使用して大きなデータセット(例えば、アプリケーションデータセット)をエミュレートすることを目的として、partment wassersteinと呼ばれる一般的なタスクを検討する。 我々はこのタスクをワッサーシュタイン偏差を目的関数とする離散最適化問題としてモデル化する。 この問題はnp-hardであるが、亜モジュラー性を持つことを証明し、0.63近似のグリーディアルゴリズムを使うことができる。 しかし,目的関数評価ごとに線形計画が必要となるため,アルゴリズムの効率は低下する。 この難しさを克服するため,我々は,強い双対性に基づく感度解析や,最適移動場におけるいわゆる$c$-transformといった一連の手法からなる加速度アルゴリズムを提案する。 実験により,運転シーンデータセットを含む部分的なwassersteinダイバージェンスの観点から2つのデータセットを効率的に作成できることを実証した。

We consider a general task called partial Wasserstein covering with the goal of emulating a large dataset (e.g., application dataset) using a small dataset (e.g., development dataset) in terms of the empirical distribution by selecting a small subset from a candidate dataset and adding it to the small dataset. We model this task as a discrete optimization problem with partial Wasserstein divergence as an objective function. Although this problem is NP-hard, we prove that it has the submodular property, allowing us to use a greedy algorithm with a 0.63 approximation. However, the greedy algorithm is still inefficient because it requires linear programming for each objective function evaluation. To overcome this difficulty, we propose quasi-greedy algorithms for acceleration, which consist of a series of techniques such as sensitivity analysis based on strong duality and the so-called $C$-transform in the optimal transport field. Experimentally, we demonstrate that we can efficiently make two datasets similar in terms of partial Wasserstein divergence, including driving scene datasets.
翻訳日:2021-06-04 08:56:59 公開日:2021-06-02
# (参考訳) 微分可能な点過程とそのスパイクニューラルネットワークへの応用 [全文訳有]

A Differentiable Point Process with Its Application to Spiking Neural Networks ( http://arxiv.org/abs/2106.00901v1 )

ライセンス: CC BY 4.0
Hiroshi Kajino(参考訳) 本稿では,スパイクニューラルネットワーク(SNN)の確率論的モデルに対する学習アルゴリズムについて述べる。 Jimenez Rezende & Gerstner (2014) は隠れたニューロンでSNNを訓練するための確率的変分推論アルゴリズムを提案した。 このアルゴリズムはスコア関数勾配推定器を用いて変動分布を更新する。 本稿では,経路方向勾配推定器に基づくSNNの代替勾配推定器を提案する。 主な技術的困難は、任意の点過程の実現を区別するための一般的な方法の欠如である。 本稿では,本論文の技術的ハイライトである微分可能な点過程を開発し,snsのパスワイズ勾配推定器の導出に適用する。 勾配推定器の有効性を数値シミュレーションにより検証する。

This paper is concerned about a learning algorithm for a probabilistic model of spiking neural networks (SNNs). Jimenez Rezende & Gerstner (2014) proposed a stochastic variational inference algorithm to train SNNs with hidden neurons. The algorithm updates the variational distribution using the score function gradient estimator, whose high variance often impedes the whole learning algorithm. This paper presents an alternative gradient estimator for SNNs based on the path-wise gradient estimator. The main technical difficulty is a lack of a general method to differentiate a realization of an arbitrary point process, which is necessary to derive the path-wise gradient estimator. We develop a differentiable point process, which is the technical highlight of this paper, and apply it to derive the path-wise gradient estimator for SNNs. We investigate the effectiveness of our gradient estimator through numerical simulation.
翻訳日:2021-06-04 08:40:24 公開日:2021-06-02
# (参考訳) 低頻度単語の再生:非自己回帰翻訳における並列データの利用 [全文訳有]

Rejuvenating Low-Frequency Words: Making the Most of Parallel Data in Non-Autoregressive Translation ( http://arxiv.org/abs/2106.00903v1 )

ライセンス: CC0 1.0
Liang Ding, Longyue Wang, Xuebo Liu, Derek F. Wong, Dacheng Tao and Zhaopeng Tu(参考訳) 知識蒸留(KD)は、非自己回帰翻訳(NAT)モデルを訓練するための合成データを構築するために一般的に用いられる。 しかし、蒸留された単語と原データとの間には低周波単語の相違があり、低周波単語の予測により多くの誤りが生じる。 問題を緩和するために、プレトレーニングを利用して生データをNATに直接公開する。 有向アライメントを解析した結果,KD は低周波ソース語をより確定的にターゲットに整合させるが,十分な低周波ワードをターゲットからソースに整合させることができないことがわかった。 そこで本研究では,低周波ターゲット単語のアライメントを増加させる逆kdを提案する。 そこで本研究では,NAT性能向上のための新たなトレーニング戦略として,これらの相補的アプローチを組み合わせる。 2つの高度なアーキテクチャで5つの翻訳ベンチマーク実験を行った。 提案手法は低周波単語の翻訳誤りを低減し,翻訳品質を大幅に向上させることができることを示す。 提案手法は,WMT14 と WMT16 のルーマニア英語データセットに対して,それぞれ 28.2 と 33.9 のBLEU 点を達成している。 私たちのコード、データ、トレーニングされたモデルは、 \url{https://github.com/l ongyuewangdcu/RLFW-N AT}で利用可能です。

Knowledge distillation (KD) is commonly used to construct synthetic data for training non-autoregressive translation (NAT) models. However, there exists a discrepancy on low-frequency words between the distilled and the original data, leading to more errors on predicting low-frequency words. To alleviate the problem, we directly expose the raw data into NAT by leveraging pretraining. By analyzing directed alignments, we found that KD makes low-frequency source words aligned with targets more deterministically but fails to align sufficient low-frequency words from target to source. Accordingly, we propose reverse KD to rejuvenate more alignments for low-frequency target words. To make the most of authentic and synthetic data, we combine these complementary approaches as a new training strategy for further boosting NAT performance. We conduct experiments on five translation benchmarks over two advanced architectures. Results demonstrate that the proposed approach can significantly and universally improve translation quality by reducing translation errors on low-frequency words. Encouragingly, our approach achieves 28.2 and 33.9 BLEU points on the WMT14 English-German and WMT16 Romanian-English datasets, respectively. Our code, data, and trained models are available at \url{https://github.com/l ongyuewangdcu/RLFW-N AT}.
翻訳日:2021-06-04 08:17:04 公開日:2021-06-02
# (参考訳) 低価格ステレオビジョンシステム(格差マップ)を数ドルで提供 [全文訳有]

Low-cost Stereovision system (disparity map) for few dollars ( http://arxiv.org/abs/2106.00905v1 )

ライセンス: CC0 1.0
R. Ildar and E. Pomazov(参考訳) 本稿では,プロトタイプと工業設計の両方において,低コストセグメントにおけるステレオビジョンの分野における最新の展開について分析する。 ステレオビジョンの理論を解説し,カメラとデータ転送プロトコルに関する情報と各種デバイスとの互換性について述べる。 ステレオビジョンプロセスにおける画像処理の分野における理論を考察し,キャリブレーションプロセスについて詳述する。 最終的に,開発したステレオビジョンシステムを示し,このようなシステムを開発する際に考慮すべき要点を提示した。 最後に,Windows オペレーティングシステムのpython言語におけるステレオビジョンパラメータをリアルタイムに調整するソフトウェアを紹介した。

The paper presents an analysis of the latest developments in the field of stereo vision in the low-cost segment, both for prototypes and for industrial designs. We described the theory of stereo vision and presented information about cameras and data transfer protocols and their compatibility with various devices. The theory in the field of image processing for stereo vision processes is considered and the calibration process is described in detail. Ultimately, we presented the developed stereo vision system and provided the main points that need to be considered when developing such systems. The final, we presented software for adjusting stereo vision parameters in real-time in the python language in the Windows operating system.
翻訳日:2021-06-04 08:03:10 公開日:2021-06-02
# (参考訳) 固定点ネットワークによる平衡予測を学ぶ [全文訳有]

Learn to Predict Equilibria via Fixed Point Networks ( http://arxiv.org/abs/2106.00906v1 )

ライセンス: CC BY 4.0
Howard Heaton, Daniel McKenzie, Qiuwei Li, Samy Wu Fung, Stanley Osher, Wotao Yin(参考訳) 対話エージェントのシステムはコンテキストゲームとしてモデル化され、コンテキストは任意のエージェント(例えば)の制御を超えて追加情報を符号化する。 交通の天気と市場経済の財政政策) そのようなシステムでは、最も可能性の高い結果はナッシュ平衡によって与えられる。 多くの実践的な設定では、ゲーム平衡のみが観察され、ゲームモデルの最適パラメータが不明である。 この研究は、暗黙の深度ニューラルネットワークのクラスであるNash Fixed Point Networks (N-FPNs)を導入し、コンテキストゲームのNash平衡を出力する。 N-FPNアーキテクチャはデータ駆動モデリングを制約付きで融合させる。 文脈ゲームにおける平衡観測から、N-FPNパラメータは、文脈のみに与えられる平衡結果を予測するために学習される。 本稿では,N-FPNのエンドツーエンドトレーニング方式を提案する。 N-FPNはまた、コストのかかる投影を避けるために、新しい制約デカップリングスキームを利用する。 与えられた数値的な例は、原子ゲームや非原子ゲーム(例えば、N-FPN)に対する効果を示している。 交通経路)。

Systems of interacting agents can often be modeled as contextual games, where the context encodes additional information, beyond the control of any agent (e.g. weather for traffic and fiscal policy for market economies). In such systems, the most likely outcome is given by a Nash equilibrium. In many practical settings, only game equilibria are observed, while the optimal parameters for a game model are unknown. This work introduces Nash Fixed Point Networks (N-FPNs), a class of implicit-depth neural networks that output Nash equilibria of contextual games. The N-FPN architecture fuses data-driven modeling with provided constraints. Given equilibrium observations of a contextual game, N-FPN parameters are learnt to predict equilibria outcomes given only the context. We present an end-to-end training scheme for N-FPNs that is simple and memory efficient to implement with existing autodifferentiation tools. N-FPNs also exploit a novel constraint decoupling scheme to avoid costly projections. Provided numerical examples show the efficacy of N-FPNs on atomic and non-atomic games (e.g. traffic routing).
翻訳日:2021-06-04 07:58:40 公開日:2021-06-02
# (参考訳) TransMIL:全スライド画像の古典化のためのトランスフォーマーベース関連マルチインスタンス学習 [全文訳有]

TransMIL: Transformer based Correlated Multiple Instance Learning for Whole Slide Image Classication ( http://arxiv.org/abs/2106.00908v1 )

ライセンス: CC BY 4.0
Zhuchen Shao, Hao Bian, Yang Chen, Yifeng Wang, Jian Zhang, Xiangyang Ji, Yongbing Zhang(参考訳) マルチプル・インスタンス・ラーニング(MIL)は,スライド画像全体(WSI)に基づく病理診断において,弱い教師付き分類を解く強力なツールである。 しかし、現在のMIL法は通常、独立分布と同一分布の仮説に基づいているため、異なるインスタンス間の相関は無視される。 この問題に対処するため,我々は相関型MILと呼ばれる新しいフレームワークを提案し,収束の証明を提供した。 この枠組みに基づいて、形態情報と空間情報の両方を探索するトランスフォーマーベースのMIL(TransMIL)を考案した。 提案するtransmilは,非バランス・バランス・バイナリ/マルチプル分類を効果的に処理でき,可視化と解釈性が向上する。 3つの異なる計算病理問題に対して様々な実験を行い,最先端法と比較して高い性能と高速収束を達成した。 バイナリ腫瘍分類のためのAUCのテストは、CAMELYON16データセットよりも最大93.09%高い。 また、がんサブタイプの分類に関するAUCは、それぞれTGA-NSCLCデータセットとTGA-RCCデータセットよりも96.03%、98.82%である。

Multiple instance learning (MIL) is a powerful tool to solve the weakly supervised classification in whole slide image (WSI) based pathology diagnosis. However, the current MIL methods are usually based on independent and identical distribution hypothesis, thus neglect the correlation among different instances. To address this problem, we proposed a new framework, called correlated MIL, and provided a proof for convergence. Based on this framework, we devised a Transformer based MIL (TransMIL), which explored both morphological and spatial information. The proposed TransMIL can effectively deal with unbalanced/balanced and binary/multiple classification with great visualization and interpretability. We conducted various experiments for three different computational pathology problems and achieved better performance and faster convergence compared with state-of-the-art methods. The test AUC for the binary tumor classification can be up to 93.09% over CAMELYON16 dataset. And the AUC over the cancer subtypes classification can be up to 96.03% and 98.82% over TCGA-NSCLC dataset and TCGA-RCC dataset, respectively.
翻訳日:2021-06-04 07:33:20 公開日:2021-06-02
# (参考訳) ガウス過程を用いた非線形システムの同時学習に基づく追従制御 [全文訳有]

Concurrent Learning Based Tracking Control of Nonlinear Systems using Gaussian Process ( http://arxiv.org/abs/2106.00910v1 )

ライセンス: CC BY 4.0
Vedant Bhandari and Erkan Kayacan(参考訳) 本稿では,オンライン外乱学習におけるパラメータ推定と非パラメトリックガウス過程のツールとしての同時学習の適用性を示す。 フィードバック線形化の文脈において,両手法を順次利用して制御則を構築する。 並列学習アルゴリズムは、フィードバック線形化法則の設計に使用される永続的な励起を必要としない構造的不確実性のシステムパラメータを推定する。 そして、非パラメトリックガウス過程は非構造不確かさを学習する。 n階系の閉ループ系安定性はリャプノフ安定性定理を用いて証明される。 シミュレーションの結果, モデルパラメータの真の値が提供されていない場合, (ii) パラメータが真の値に収束した後に導入された外乱が存在する場合, (iii) システムパラメータが外乱の存在下で真の値に収束していない場合, 追跡誤差が最小化されていることがわかった。

This paper demonstrates the applicability of the combination of concurrent learning as a tool for parameter estimation and non-parametric Gaussian Process for online disturbance learning. A control law is developed by using both techniques sequentially in the context of feedback linearization. The concurrent learning algorithm estimates the system parameters of structured uncertainty without requiring persistent excitation, which are used in the design of the feedback linearization law. Then, a non-parametric Gaussian Process learns unstructured uncertainty. The closed-loop system stability for the nth-order system is proven using the Lyapunov stability theorem. The simulation results show that the tracking error is minimized (i) when true values of model parameters have not been provided, (ii) in the presence of disturbances introduced once the parameters have converged to their true values and (iii) when system parameters have not converged to their true values in the presence of disturbances.
翻訳日:2021-06-04 07:15:27 公開日:2021-06-02
# (参考訳) 3次元建物再建のための翻訳対称性を考慮したファサード解析 [全文訳有]

Translational Symmetry-Aware Facade Parsing for 3D Building Reconstruction ( http://arxiv.org/abs/2106.00912v1 )

ライセンス: CC BY 4.0
Hantang Liu, Wentong Li, Jianke Zhu(参考訳) ファサードを効果的に解析することは、ナビゲーション、コンピュータ支援設計、デジタルエンターテイメントのための都市生成など、高精度な地図に大量の応用を施した重要なコンピュータビジョン問題である3Dビルディング再構築に不可欠である。 この目的のために、キーは2次元画像から形状文法を正確に効率的に取得する方法である。 セマンティック解析における有望な結果のメリットを享受しながらも、ディープラーニング手法は、人造構造において重要な役割を果たすアーキテクチャルールを直接利用することはできない。 本稿では,深部ニューラルネットワーク改善のための新しい翻訳対称性に基づくアプローチを提案する。 本手法では,ベースパーサとしてディープラーニングモデルを用い,翻訳対称性を利用したモジュールを用いて初期解析結果を洗練する。 従来のセマンティクスセグメンテーションやバウンディングボックス予測とは対照的に,単一ステージネットワークにおいてアンカーフリー検出を伴うセグメンテーションを融合する新しい手法を提案する。 ファサードを形状文法に解析した後、Blenderのような市販のレンダリングエンジンを使用して、手続きモデルを用いて現実的な高品質な3Dモデルを再構築する。 提案手法が最先端手法よりも優れている3つの公開データセットについて実験を行った。 さらに,2次元ファサード画像から構築した3次元ビルディングモデルについて解説した。

Effectively parsing the facade is essential to 3D building reconstruction, which is an important computer vision problem with a large amount of applications in high precision map for navigation, computer aided design, and city generation for digital entertainments. To this end, the key is how to obtain the shape grammars from 2D images accurately and efficiently. Although enjoying the merits of promising results on the semantic parsing, deep learning methods cannot directly make use of the architectural rules, which play an important role for man-made structures. In this paper, we present a novel translational symmetry-based approach to improving the deep neural networks. Our method employs deep learning models as the base parser, and a module taking advantage of translational symmetry is used to refine the initial parsing results. In contrast to conventional semantic segmentation or bounding box prediction, we propose a novel scheme to fuse segmentation with anchor-free detection in a single stage network, which enables the efficient training and better convergence. After parsing the facades into shape grammars, we employ an off-the-shelf rendering engine like Blender to reconstruct the realistic high-quality 3D models using procedural modeling. We conduct experiments on three public datasets, where our proposed approach outperforms the state-of-the-art methods. In addition, we have illustrated the 3D building models built from 2D facade images.
翻訳日:2021-06-04 07:03:42 公開日:2021-06-02
# (参考訳) 拡張性、グラフニューラルネットワークに基づく大規模柔軟有機分子の精密力場開発 [全文訳有]

An Extendible, Graph-Neural-Network -Based Approach for Accurate Force Field Development of Large Flexible Organic Molecules ( http://arxiv.org/abs/2106.00927v1 )

ライセンス: CC BY 4.0
Xufei Wang, Yuanda Xu, Han Zheng, Kuang Yu(参考訳) 正確な力場は、有機高分子と生体分子の全ての分子力学シミュレーションの成功の鍵である。 密度汎関数理論を超える精度は分子間相互作用を記述するためにしばしば必要であるが、ほとんどの相関波動関数 (CW) 法は大きな分子では違法に高価である。 したがって、CWレベルの精度で大きなフレキシブルな有機分子のための拡張可能なab initio力場を開発することが大きな課題である。 本研究では,物理駆動非結合ポテンシャルとデータ駆動サブグラフニューラルネットワーク結合モデル(sgnn)を組み合わせることで,この課題に対処した。 ポリエチレングリコールポリマー鎖の試験により, 異なる大きさの分子に対して高い精度とロバスト性が得られた。 したがって、小さな分子断片(CW法に容易にアクセス可能なサイズ)から力場を開発し、それを大きなポリマーに安全に移動させることで、次世代の有機力場への新たな経路を開拓することができる。

An accurate force field is the key to the success of all molecular mechanics simulations on organic polymers and biomolecules. Accuracy beyond density functional theory is often needed to describe the intermolecular interactions, while most correlated wavefunction (CW) methods are prohibitively expensive for large molecules. Therefore, it posts a great challenge to develop an extendible ab initio force field for large flexible organic molecules at CW level of accuracy. In this work, we face this challenge by combining the physics-driven nonbonding potential with a data-driven subgraph neural network bonding model (named sGNN). Tests on polyethylene glycol polymer chains show that our strategy is highly accurate and robust for molecules of different sizes. Therefore, we can develop the force field from small molecular fragments (with sizes easily accessible to CW methods) and safely transfer it to large polymers, thus opening a new path to the next-generation organic force fields.
翻訳日:2021-06-04 06:48:01 公開日:2021-06-02
# (参考訳) OntoGum: コンテキスト化されたSOTA参照解決を12世代で評価する [全文訳有]

OntoGUM: Evaluating Contextualized SOTA Coreference Resolution on 12 More Genres ( http://arxiv.org/abs/2106.00933v1 )

ライセンス: CC BY 4.0
Yilun Zhu, Sameer Pradhan, Amir Zeldes(参考訳) SOTAコアレゾリューションはOntoNotesベンチマークでますます印象的なスコアを生成する。 しかし、より多くのジャンルで同じスキームに従う比較データの欠如は、ドメインデータを開く一般化可能性を評価するのを難しくしている。 本稿では、最新のニューラルLMベースのエンドツーエンドシステムがドメイン外において著しく劣化していることを示すデータセットと包括的評価を提供する。 OntoNotesライクなコア推論データセットOntoGUMを公開し、12のジャンルをカバーする英語コーパスであるGUMから変換し、決定論的ルールを用いて評価する。 GUMのリッチな構文および談話アノテーションのおかげで,OntoNotesガイドラインに従って,最大規模の人間注釈付きコア参照コーパスを作成することができ,OntoNotesスキームとの整合性を評価するための最初の方法となる。 12分野にわたる領域外評価は、決定論的および深層学習システムにおいて15-20%の劣化を示し、既存のコア参照解決モデルに一般化性や隠蔽性がないことを示している。

SOTA coreference resolution produces increasingly impressive scores on the OntoNotes benchmark. However lack of comparable data following the same scheme for more genres makes it difficult to evaluate generalizability to open domain data. This paper provides a dataset and comprehensive evaluation showing that the latest neural LM based end-to-end systems degrade very substantially out of domain. We make an OntoNotes-like coreference dataset called OntoGUM publicly available, converted from GUM, an English corpus covering 12 genres, using deterministic rules, which we evaluate. Thanks to the rich syntactic and discourse annotations in GUM, we are able to create the largest human-annotated coreference corpus following the OntoNotes guidelines, and the first to be evaluated for consistency with the OntoNotes scheme. Out-of-domain evaluation across 12 genres shows nearly 15-20% degradation for both deterministic and deep learning systems, indicating a lack of generalizability or covert overfitting in existing coreference resolution models.
翻訳日:2021-06-04 06:28:57 公開日:2021-06-02
# (参考訳) モデルがいつ、なぜ失敗するのか? 感性分析のためのヒューマン・イン・ザ・ループ誤差検出フレームワーク [全文訳有]

When and Why does a Model Fail? A Human-in-the-loop Error Detection Framework for Sentiment Analysis ( http://arxiv.org/abs/2106.00954v1 )

ライセンス: CC BY 4.0
Zhe Liu, Yufan Guo, Jalal Mahmud(参考訳) ディープニューラルネットワークは感情分析タスクに広く採用され、有効であることが証明されているが、モデル開発者が、デプロイ前に存在する可能性のある誤った予測のためにモデルを評価することは依然として困難である。 一度デプロイすると、創発的エラーは予測実行時に識別しにくくなり、ソースへのトレースが不可能になる。 そこで本研究では,説明可能な特徴に基づく感情分析のための誤り検出フレームワークを提案する。 我々は,グローバルレベルの特徴量評価を行い,続いてグローバルレベルの特徴量分析とローカルレベルの特徴量分析を統合した。 実験結果から,ループ内介入の制限により,未確認データの誤モデル予測を高精度に検出できることがわかった。

Although deep neural networks have been widely employed and proven effective in sentiment analysis tasks, it remains challenging for model developers to assess their models for erroneous predictions that might exist prior to deployment. Once deployed, emergent errors can be hard to identify in prediction run-time and impossible to trace back to their sources. To address such gaps, in this paper we propose an error detection framework for sentiment analysis based on explainable features. We perform global-level feature validation with human-in-the-loop assessment, followed by an integration of global and local-level feature contribution analysis. Experimental results show that, given limited human-in-the-loop intervention, our method is able to identify erroneous model predictions on unseen data with high precision.
翻訳日:2021-06-04 06:20:03 公開日:2021-06-02
# (参考訳) 相互増強ステレオ画像の超解像化と差分推定のためのフィードバックネットワーク [全文訳有]

Feedback Network for Mutually Boosted Stereo Image Super-Resolution and Disparity Estimation ( http://arxiv.org/abs/2106.00985v1 )

ライセンス: CC BY 4.0
Qinyan Dai, Juncheng Li, Qiaosi Yi, Faming Fang and Guixu Zhang(参考訳) ステレオ設定では、画像超解像(SR)と不均一性推定の問題は、各問題の結果が他方の解決に役立つように相互に関連している。 異なるビュー間の対応を効果的に活用することでsrの性能が向上する一方、より詳細な高分解能(hr)特徴は対応推定に有用である。 このモチベーションに基づき,ステレオ画像の超解像と不均質推定を同時に処理し,それらを相互に相互作用させて性能を向上するステレオ超解像・不均質推定フィードバックネットワーク(SSRDE-FNet)を提案する。 具体的には、SSRDE-FNetは左右のビューのための2つの二重再帰サブネットワークで構成されている。 低分解能(LR)空間におけるクロスビュー情報利用に加えて、SRプロセスによって生成されたHR表現を利用して、HR特徴を集約してより微細なSR結果を生成することができる高精度なHR不均質推定を行う。 その後、提案したHR Disparity Information Feedback (HRDIF) メカニズムは、HR Disparityによって運ばれた情報を以前のレイヤに返却し、SR画像再構成をさらに洗練する。 大規模な実験はSSRDE-FNetの有効性と進歩を示す。

Under stereo settings, the problem of image super-resolution (SR) and disparity estimation are interrelated that the result of each problem could help to solve the other. The effective exploitation of correspondence between different views facilitates the SR performance, while the high-resolution (HR) features with richer details benefit the correspondence estimation. According to this motivation, we propose a Stereo Super-Resolution and Disparity Estimation Feedback Network (SSRDE-FNet), which simultaneously handles the stereo image super-resolution and disparity estimation in a unified framework and interact them with each other to further improve their performance. Specifically, the SSRDE-FNet is composed of two dual recursive sub-networks for left and right views. Besides the cross-view information exploitation in the low-resolution (LR) space, HR representations produced by the SR process are utilized to perform HR disparity estimation with higher accuracy, through which the HR features can be aggregated to generate a finer SR result. Afterward, the proposed HR Disparity Information Feedback (HRDIF) mechanism delivers information carried by HR disparity back to previous layers to further refine the SR image reconstruction. Extensive experiments demonstrate the effectiveness and advancement of SSRDE-FNet.
翻訳日:2021-06-04 06:10:38 公開日:2021-06-02
# (参考訳) OctoPath: 移動ロボットの局所軌道計画へのOcTreeによる自己教師付き学習アプローチ [全文訳有]

OctoPath: An OcTree Based Self-Supervised Learning Approach to Local Trajectory Planning for Mobile Robots ( http://arxiv.org/abs/2106.00988v1 )

ライセンス: CC BY 4.0
Bogdan Trasnea, Cosmin Ginerica, Mihai Zaha, Gigel Macesanu, Claudiu Pozna, Sorin Grigorescu(参考訳) 自律移動ロボットは通常、複雑な環境で運転する場合、困難な状況に直面します。 すなわち、静的および動的障害を認識し、運転経路を計画し、動作を実行する必要がある。 知覚と経路計画の問題に対処するため,本論文では,エンコーダ・デコーダ深層ニューラルネットワークであるoctopathを提案する。 3次元octree環境モデルによって提供される離散化を用いて, 軌道予測を構成可能な分解能を持つ分類問題として再評価する。 トレーニング中、OctoPathは、所定のトレーニングデータセット内の予測と手動で駆動するトラジェクトリ間のエラーを最小限にする。 これにより、出力軌道点に無限の状態空間が存在する場合、回帰に基づく軌道推定の落とし穴を避けることができる。 環境センシングは40チャンネルの機械式LiDARセンサを用いて行われ、慣性測定ユニットと車輪のオドメトリーを用いて状態推定を行う。 実験はシミュレーションと実生活の両方で実施され、我々の開発したGridSimシミュレータとRovisLabのAutonomous Mobile Test Unitプラットフォームを用いて行われた。 我々は,CNN学習に基づく最適経路計画法と同様に,ベースラインハイブリッドA-Starアルゴリズムと回帰型教師あり学習法とをベンチマークしながら,屋内と屋外の異なる運転シナリオにおけるOctoPathの予測を評価する。

Autonomous mobile robots are usually faced with challenging situations when driving in complex environments. Namely, they have to recognize the static and dynamic obstacles, plan the driving path and execute their motion. For addressing the issue of perception and path planning, in this paper, we introduce OctoPath , which is an encoder-decoder deep neural network, trained in a self-supervised manner to predict the local optimal trajectory for the ego-vehicle. Using the discretization provided by a 3D octree environment model, our approach reformulates trajectory prediction as a classification problem with a configurable resolution. During training, OctoPath minimizes the error between the predicted and the manually driven trajectories in a given training dataset. This allows us to avoid the pitfall of regression-based trajectory estimation, in which there is an infinite state space for the output trajectory points. Environment sensing is performed using a 40-channel mechanical LiDAR sensor, fused with an inertial measurement unit and wheels odometry for state estimation. The experiments are performed both in simulation and real-life, using our own developed GridSim simulator and RovisLab's Autonomous Mobile Test Unit platform. We evaluate the predictions of OctoPath in different driving scenarios, both indoor and outdoor, while benchmarking our system against a baseline hybrid A-Star algorithm and a regression-based supervised learning method, as well as against a CNN learning-based optimal path planning method.
翻訳日:2021-06-04 05:52:00 公開日:2021-06-02
# (参考訳) sequence to general tree: knowledge-guided geometry word problem solve [全文訳有]

Sequence to General Tree: Knowledge-Guided Geometry Word Problem Solving ( http://arxiv.org/abs/2106.00990v1 )

ライセンス: CC BY 4.0
Shih-hung Tsai, Chao-Chun Liang, Hsin-Min Wang, Keh-Yih Su(参考訳) 近年のディープラーニングの進歩により、ニューラルソルバは数学用語の問題解決において有望な結果を得た。 しかし、これらのSOTAソルバは基本演算子を含む二進表現木しか生成せず、数学公式を明示的に用いていない。 結果として、それらが生成する式木は、複数の演算子と定数を使って1つの式を表現する必要があるため、長く解釈できない。 本稿では,ノードを任意の数の引数で定式化できる解釈可能かつ実行可能な演算木を生成することを学習するシーケンス・ツー・ジェネラル・ツリー(S2G)を提案する。 ノードが公式になることが許されたため、S2Gは数学的領域の知識を問題解決に取り入れることを学び、結果をより解釈できる。 実験により、S2Gはドメイン知識を必要とする問題に対する強力なベースラインに対してより良いパフォーマンスを達成できることが示された。

With the recent advancements in deep learning, neural solvers have gained promising results in solving math word problems. However, these SOTA solvers only generate binary expression trees that contain basic arithmetic operators and do not explicitly use the math formulas. As a result, the expression trees they produce are lengthy and uninterpretable because they need to use multiple operators and constants to represent one single formula. In this paper, we propose sequence-to-general tree (S2G) that learns to generate interpretable and executable operation trees where the nodes can be formulas with an arbitrary number of arguments. With nodes now allowed to be formulas, S2G can learn to incorporate mathematical domain knowledge into problem-solving, making the results more interpretable. Experiments show that S2G can achieve a better performance against strong baselines on problems that require domain knowledge.
翻訳日:2021-06-04 05:31:53 公開日:2021-06-02
# (参考訳) 到達可能なマルチテスタビリティを最大化するためのウォーミングアップリカレントニューラルネットワーク [全文訳有]

Warming-up recurrent neural networks to maximize reachable multi-stability greatly improves learning ( http://arxiv.org/abs/2106.01001v1 )

ライセンス: CC BY 4.0
Nicolas Vecoven and Damien Ernst and Guillaume Drion(参考訳) リカレントニューラルネットワークのトレーニングは、時間依存が長くなると難しいことが知られている。 そのため、長期メモリを必要とするベンチマークにおいて、ゲートリカレントユニットや長時間メモリなどの標準ゲートセルをトレーニングすることは困難な作業である。 本研究では「ウォームアップ(warm-up)」と呼ばれるプロセスを通じて、任意のリカレントネットワーク接続を初期化する一般的な方法を提案する。 この初期化プロセスは、ネットワーク到達可能なマルチ安定性を最大化するように設計されている。 関連する入力トラジェクタを通じて到達可能なネットワーク内のアトラクタの数。 ウォーミングアップはトレーニング前に、特別に設計された損失に対する確率的勾配降下を用いて行われる。 温暖化は、複数のリカレントセルタイプに対する長期記憶ベンチマークにおいて、リカレントニューラルネットワークの性能を大幅に改善するが、精度を損なうことがある。 そこで本研究では,高レベルな精度を維持しつつ,長時間連続学習の大幅な向上を示す部分ウォームアップを伴う並列リカレントネットワーク構造を提案する。 このアプローチは、長期記憶を必要とする場合の再発細胞タイプの学習能力を改善するための一般的なフレームワークを提供する。

Training recurrent neural networks is known to be difficult when time dependencies become long. Consequently, training standard gated cells such as gated recurrent units and long-short term memory on benchmarks where long-term memory is required remains an arduous task. In this work, we propose a general way to initialize any recurrent network connectivity through a process called "warm-up" to improve its capability to learn arbitrarily long time dependencies. This initialization process is designed to maximize network reachable multi-stability, i.e. the number of attractors within the network that can be reached through relevant input trajectories. Warming-up is performed before training, using stochastic gradient descent on a specifically designed loss. We show that warming-up greatly improves recurrent neural network performance on long-term memory benchmarks for multiple recurrent cell types, but can sometimes impede precision. We therefore introduce a parallel recurrent network structure with partial warm-up that is shown to greatly improve learning on long time-series while maintaining high levels of precision. This approach provides a general framework for improving learning abilities of any recurrent cell type when long-term memory is required.
翻訳日:2021-06-04 05:21:56 公開日:2021-06-02
# (参考訳) fedhealth 2: 個別医療のためのバッチ正規化による重み付きフェデレーション転送学習 [全文訳有]

FedHealth 2: Weighted Federated Transfer Learning via Batch Normalization for Personalized Healthcare ( http://arxiv.org/abs/2106.01009v1 )

ライセンス: CC BY 4.0
Yiqiang Chen, Wang Lu, Jindong Wang, Xin Qin(参考訳) 機械学習アプリケーションの成功は、しばしば大量のデータを必要とする。 近年,特に医療分野において,データプライバシやセキュリティの需要により,フェデレートラーニング(FL)が注目されている。 しかし、クライアント間でドメインシフトが存在する場合、既存のFLアプローチのパフォーマンスは低下することが多く、以前の研究ではヘルスケアのパーソナライズに重点を置いていた。 本稿では、FedHealth \cite{chen2020fedhealth}の拡張であるFedHealth 2を提案し、ドメインシフトに対処し、ローカルクライアント向けにパーソナライズされたモデルを取得する。 fedhealth 2は、事前トレーニングされたモデルを介してクライアントの類似性を取得し、局所的なバッチ正規化を保ちながら、すべての重み付きモデルの平均化を行う。 ウェアラブルな活動認識とCOVID-19補助診断実験は、プライバシとセキュリティを損なうことなく、FedHealth 2がより良い精度(アクティビティ認識の10%以上の改善)とパーソナライズされた医療を実現することを評価している。

The success of machine learning applications often needs a large quantity of data. Recently, federated learning (FL) is attracting increasing attention due to the demand for data privacy and security, especially in the medical field. However, the performance of existing FL approaches often deteriorates when there exist domain shifts among clients, and few previous works focus on personalization in healthcare. In this article, we propose FedHealth 2, an extension of FedHealth \cite{chen2020fedhealth} to tackle domain shifts and get personalized models for local clients. FedHealth 2 obtains the client similarities via a pretrained model, and then it averages all weighted models with preserving local batch normalization. Wearable activity recognition and COVID-19 auxiliary diagnosis experiments have evaluated that FedHealth 2 can achieve better accuracy (10%+ improvement for activity recognition) and personalized healthcare without compromising privacy and security.
翻訳日:2021-06-04 05:10:42 公開日:2021-06-02
# (参考訳) 一人の教師は十分か? 複数の教師による事前学習型言語モデル蒸留 [全文訳有]

One Teacher is Enough? Pre-trained Language Model Distillation from Multiple Teachers ( http://arxiv.org/abs/2106.01023v1 )

ライセンス: CC BY 4.0
Chuhan Wu, Fangzhao Wu, Yongfeng Huang(参考訳) プレトレーニング言語モデル(PLM)はNLPにおいて大きな成功を収めている。 しかし、その巨大なモデルサイズは、多くの実用的なシステムでその応用を妨げる。 知識蒸留はPLMを圧縮する一般的な手法であり、大きな教師のPLMから小さな学生モデルを学ぶ。 しかし、一人の教師から学んだ知識は限定的であり、偏りもあるため、低品質の生徒モデルとなる。 本稿では,事前学習型言語モデル圧縮のためのマルチ教師ナレッジ蒸留フレームワークMT-BERTを提案する。 MT-BERT では,複数の教師 PLM を下流タスクで協調的に微調整するマルチ教師共同ファインタニング手法を設計する。 さらに,隠蔽状態とソフトラベルの両方において有用な知識を複数の教師PLMから学生モデルに伝達するために,多教師の隠蔽損失と多教師の蒸留損失を提案する。 PLMの圧縮におけるMT-BERTの有効性を3つのベンチマークデータセットで検証した。

Pre-trained language models (PLMs) achieve great success in NLP. However, their huge model sizes hinder their applications in many practical systems. Knowledge distillation is a popular technique to compress PLMs, which learns a small student model from a large teacher PLM. However, the knowledge learned from a single teacher may be limited and even biased, resulting in low-quality student model. In this paper, we propose a multi-teacher knowledge distillation framework named MT-BERT for pre-trained language model compression, which can train high-quality student model from multiple teacher PLMs. In MT-BERT we design a multi-teacher co-finetuning method to jointly finetune multiple teacher PLMs in downstream tasks with shared pooling and prediction layers to align their output space for better collaborative teaching. In addition, we propose a multi-teacher hidden loss and a multi-teacher distillation loss to transfer the useful knowledge in both hidden states and soft labels from multiple teacher PLMs to the student model. Experiments on three benchmark datasets validate the effectiveness of MT-BERT in compressing PLMs.
翻訳日:2021-06-04 05:00:23 公開日:2021-06-02
# (参考訳) Who Blames or Endors Whom? ニューステキストにおけるエンティティ対エンティティ指向感情抽出 [全文訳有]

Who Blames or Endorses Whom? Entity-to-Entity Directed Sentiment Extraction in News Text ( http://arxiv.org/abs/2106.01033v1 )

ライセンス: CC BY-SA 4.0
Kunwoo Park, Zhufeng Pan, and Jungseock Joo(参考訳) 誰がニューステキストで誰を非難するか、支持するかを理解することは、計算社会科学における重要な研究課題である。 しかし、感情分析の伝統的な方法やデータセットは、エンティティ間で表現される感情の方向を考慮しないため、政治的テキストの領域には適していない。 本稿では、あるニュース文書から政治団体間の有向感情関係を識別する新たなNLPタスクを提案し、これを「有向感情抽出」と呼ぶ。 百万規模のニュースコーパスから、政治団体の感情関係を手作業で注釈付けしたニュース文のデータセットを構築する。 本稿では,複数問合せタスクの予測と結果の組み合わせにより,対象クラスを推論する事前学習型トランスフォーマーの簡易かつ効果的な手法を提案する。 2016年アメリカ合衆国大統領選挙と新型コロナウイルス(covid-19)の2つの主要イベントにおいて、政体間の肯定的・否定的な意見を分析し、社会科学研究のための提案手法の有用性を実証する。 新たに提案された問題,データ,手法は,学際的NLP法と応用の今後の研究を促進する。

Understanding who blames or supports whom in news text is a critical research question in computational social science. Traditional methods and datasets for sentiment analysis are, however, not suitable for the domain of political text as they do not consider the direction of sentiments expressed between entities. In this paper, we propose a novel NLP task of identifying directed sentiment relationship between political entities from a given news document, which we call directed sentiment extraction. From a million-scale news corpus, we construct a dataset of news sentences where sentiment relations of political entities are manually annotated. We present a simple but effective approach for utilizing a pretrained transformer, which infers the target class by predicting multiple question-answering tasks and combining the outcomes. We demonstrate the utility of our proposed method for social science research questions by analyzing positive and negative opinions between political entities in two major events: 2016 U.S. presidential election and COVID-19. The newly proposed problem, data, and method will facilitate future studies on interdisciplinary NLP methods and applications.
翻訳日:2021-06-04 04:52:05 公開日:2021-06-02
# (参考訳) Hi-Transformer: 効率的な文書モデリングのための階層型インタラクティブトランス [全文訳有]

Hi-Transformer: Hierarchical Interactive Transformer for Efficient and Effective Long Document Modeling ( http://arxiv.org/abs/2106.01040v1 )

ライセンス: CC0 1.0
Chuhan Wu, Fangzhao Wu, Tao Qi, Yongfeng Huang(参考訳) Transformerはテキストモデリングにおいて重要である。 しかし,入力テキスト長の二次的複雑さのため,長い文書を扱うのが困難である。 この問題に対処するために,効率的な長文モデリングのための階層型対話型変換器(Hi-Transformer)を提案する。 ハイトランスフォーマーは、まず文表現を学習し、次に文書表現を学習する階層的な方法で文書をモデル化する。 複雑性を効果的に低減し、また各文のモデリングにおいてグローバルな文書コンテキストをキャプチャする。 具体的には,まず文変換器を用いて各文の表現を学習する。 次に、これらの文表現からグローバル文書コンテキストをモデル化するために文書トランスフォーマを使用する。 次に、別の文変換器を用いて、グローバル文書コンテキストを用いた文モデリングを強化する。 最後に,階層的プーリング手法を用いて文書埋め込みを行う。 長期文書モデリングにおけるHi-Transformerの有効性と有効性を検証する。

Transformer is important for text modeling. However, it has difficulty in handling long documents due to the quadratic complexity with input text length. In order to handle this problem, we propose a hierarchical interactive Transformer (Hi-Transformer) for efficient and effective long document modeling. Hi-Transformer models documents in a hierarchical way, i.e., first learns sentence representations and then learns document representations. It can effectively reduce the complexity and meanwhile capture global document context in the modeling of each sentence. More specifically, we first use a sentence Transformer to learn the representations of each sentence. Then we use a document Transformer to model the global document context from these sentence representations. Next, we use another sentence Transformer to enhance sentence modeling using the global document context. Finally, we use hierarchical pooling method to obtain document embedding. Extensive experiments on three benchmark datasets validate the efficiency and effectiveness of Hi-Transformer in long document modeling.
翻訳日:2021-06-04 04:37:11 公開日:2021-06-02
# (参考訳) 非ガウス分布の不斉性を利用した知識グラフの因果発見 [全文訳有]

Causal Discovery in Knowledge Graphs by Exploiting Asymmetric Properties of Non-Gaussian Distributions ( http://arxiv.org/abs/2106.01043v1 )

ライセンス: CC BY 4.0
Rohan Giriraj, Sinnu Susan Thomas(参考訳) 近年,機械学習モデルにおける一般化と解釈可能性向上のために,因果モデリングが広く用いられている。 ランダムな試行がない場合の因果関係を判断するために、十分なドメイン知識を与えられた反ファクトや介入を用いて因果系をモデル化することができる。 しかし、ドメイン知識がほとんど欠落しているケースがいくつかあり、唯一のリコースは統計的手法を用いて因果関係を推定することである。 構造化されていないデータにおける因果関係を推定する方法はいくつかあるが、知識グラフ(KG)における因果関係を推定するための明確に定義されたフレームワークはまだ見つかっていない。 ドメイン間の複雑な関係を持つデータのためのセマンティックフレームワークを提供するのが一般的である。 本研究では, kg における因果関係の発見を可能にするハイブリッドアプローチを定義する。 提案手法は,非ガウス的モデルを用いた非ガウス的行列の瞬時因果構造,すなわち非ガウス的セッティングにおける変数の因果順序を求めることに基づく。 非実験行列は、KGの隣接テンソルを分解して得られる低次元テンソル射影である。 因果発見のための2つのアルゴリズムと、kgを分解し、それらを組み合わせて1kgの因果構造を得る2つのアルゴリズムを用いる。

In recent years, causal modelling has been used widely to improve generalization and to provide interpretability in machine learning models. To determine cause-effect relationships in the absence of a randomized trial, we can model causal systems with counterfactuals and interventions given enough domain knowledge. However, there are several cases where domain knowledge is almost absent and the only recourse is using a statistical method to estimate causal relationships. While there have been several works done in estimating causal relationships in unstructured data, we are yet to find a well-defined framework for estimating causal relationships in Knowledge Graphs (KG). It is commonly used to provide a semantic framework for data with complex inter-domain relationships. In this work, we define a hybrid approach that allows us to discover cause-effect relationships in KG. The proposed approach is based around the finding of the instantaneous causal structure of a non-experimental matrix using a non-Gaussian model, i.e; finding the causal ordering of the variables in a non-Gaussian setting. The non-experimental matrix is a low-dimensional tensor projection obtained by decomposing the adjacency tensor of a KG. We use two different pre-existing algorithms, one for the causal discovery and the other for decomposing the KG and combining them to get the causal structure in a KG.
翻訳日:2021-06-04 04:29:59 公開日:2021-06-02
# (参考訳) 期待されるScalarised Returns支配 - 複数目的決定のための新しいソリューションコンセプト

Expected Scalarised Returns Dominance: A New Solution Concept for Multi-Objective Decision Making ( http://arxiv.org/abs/2106.01048v1 )

ライセンス: CC BY 4.0
Conor F. Hayes, Timothy Verstraeten, Diederik M. Roijers, Enda Howley, Patrick Mannion(参考訳) 多くの現実世界のシナリオでは、ユーザのユーティリティはポリシーの単一の実行から派生しています。 この場合、多目的強化学習を適用するには、期待するリターンの有用性を最適化する必要がある。 目的(ユーティリティ関数としても知られる)に対するユーザの好みが不明で、特定が難しい、さまざまなシナリオが存在する。 このようなシナリオでは、最適なポリシーのセットを学ぶ必要があります。 しかし、期待されるユーティリティを最大化しなければならない設定は、多目的強化学習コミュニティによってほとんど見過ごされ、その結果、最適解のセットがまだ定義されていない。 本稿では,期待できる実用性を最大化するための解集合を構築するための基準として,一階の確率的支配を提案する。 また,一階の確率的支配を拡張して,一連の最適政策を実践的に学習可能にする,期待スカラーリターン(destination scalarised return, esr)支配と呼ばれる新しい支配基準を提案する。 次に、ESR支配的なポリシーの集合であるESRセットと呼ばれる新しいソリューションの概念を定義します。 最後に,多目的分散表型強化学習(MOT-DRL)アルゴリズムを定義し,多目的マルチアームバンディット設定のESR集合を学習する。

In many real-world scenarios, the utility of a user is derived from the single execution of a policy. In this case, to apply multi-objective reinforcement learning, the expected utility of the returns must be optimised. Various scenarios exist where a user's preferences over objectives (also known as the utility function) are unknown or difficult to specify. In such scenarios, a set of optimal policies must be learned. However, settings where the expected utility must be maximised have been largely overlooked by the multi-objective reinforcement learning community and, as a consequence, a set of optimal solutions has yet to be defined. In this paper we address this challenge by proposing first-order stochastic dominance as a criterion to build solution sets to maximise expected utility. We also propose a new dominance criterion, known as expected scalarised returns (ESR) dominance, that extends first-order stochastic dominance to allow a set of optimal policies to be learned in practice. We then define a new solution concept called the ESR set, which is a set of policies that are ESR dominant. Finally, we define a new multi-objective distributional tabular reinforcement learning (MOT-DRL) algorithm to learn the ESR set in a multi-objective multi-armed bandit setting.
翻訳日:2021-06-04 04:17:37 公開日:2021-06-02
# (参考訳) 拡張現実応用における建物識別のための新しいエッジ検出演算子 [全文訳有]

A Novel Edge Detection Operator for Identifying Buildings in Augmented Reality Applications ( http://arxiv.org/abs/2106.01055v1 )

ライセンス: CC0 1.0
Ciprian Orhei and Silviu Vert and Radu Vasiu(参考訳) 拡張現実(Augmented Reality)は環境改善技術であり、観光や文化など多くの分野に広く応用されている。 この分野での大きな課題の1つは、コンピュータビジョン技術による正確な建物情報の検出と抽出である。 エッジ検出は、コンピュータビジョンにおける多くの特徴抽出ソリューションのビルディングブロック操作の1つである。 ARシステムは、建物の抽出や建物からのファサード詳細の抽出にエッジ検出を使用する。 本稿では,建築輪郭やファサードの特徴をよりよく抽出することを目的とした,エッジ検出のための新しいフィルタ演算子を提案する。 提案フィルタは,我々の目的にとって重要な垂直・水平方向のエッジを見つけるための重みを与える。

Augmented Reality is an environment-enhancin g technology, widely applied in many domains, such as tourism and culture. One of the major challenges in this field is precise detection and extraction of building information through Computer Vision techniques. Edge detection is one of the building blocks operations for many feature extraction solutions in Computer Vision. AR systems use edge detection for building extraction or for extraction of facade details from buildings. In this paper, we propose a novel filter operator for edge detection that aims to extract building contours or facade features better. The proposed filter gives more weight for finding vertical and horizontal edges that is an important feature for our aim.
翻訳日:2021-06-04 04:16:34 公開日:2021-06-02
# (参考訳) ジョンはメアリーを褒めたの? LMにおける難因性バイアスと明示的キューとの相互作用 [全文訳有]

John praised Mary because he? Implicit Causality Bias and Its Interaction with Explicit Cues in LMs ( http://arxiv.org/abs/2106.01060v1 )

ライセンス: CC BY 4.0
Yova Kementchedjhieva, Mark Anderson and Anders S{\o}gaard(参考訳) 一部の対人動詞は、因果関係を主題または対象に暗黙的に関連付けることができ、従って暗黙の因果性(IC)バイアスを持つとされる。 このバイアスにより、因果関係は物語から推論され、言語理解を支援する。 我々は,事前学習言語モデル(PLM)がICバイアスを符号化し,推論時に利用するかどうかを検討する。 3つの異なるPLMアーキテクチャでは、異なる度合いではあるものの、そうであることがわかる。 しかし、因果関係は必ずしも暗黙的である必要はなく、従属節で明示された原因がある場合、主節の動詞に付随する矛盾したICバイアスが人間の処理の遅れにつながる。 動詞の語彙意味論から,文レベルの意味論から,2つの矛盾する信号を統合する際に人間が直面する一時的な課題は,因果関係に依存するタスクのモデルに対する高い誤り率に反映されると仮定した。 以上の結果から,PLMは高次信号よりも語彙パターンを優先する傾向が示唆された。

Some interpersonal verbs can implicitly attribute causality to either their subject or their object and are therefore said to carry an implicit causality (IC) bias. Through this bias, causal links can be inferred from a narrative, aiding language comprehension. We investigate whether pre-trained language models (PLMs) encode IC bias and use it at inference time. We find that to be the case, albeit to different degrees, for three distinct PLM architectures. However, causes do not always need to be implicit -- when a cause is explicitly stated in a subordinate clause, an incongruent IC bias associated with the verb in the main clause leads to a delay in human processing. We hypothesize that the temporary challenge humans face in integrating the two contradicting signals, one from the lexical semantics of the verb, one from the sentence-level semantics, would be reflected in higher error rates for models on tasks dependent on causal links. The results of our study lend support to this hypothesis, suggesting that PLMs tend to prioritize lexical patterns over higher-order signals.
翻訳日:2021-06-04 04:10:56 公開日:2021-06-02
# (参考訳) 議論的テキストに対する情報的結論の生成 [全文訳有]

Generating Informative Conclusions for Argumentative Texts ( http://arxiv.org/abs/2106.01064v1 )

ライセンス: CC BY 4.0
Shahbaz Syed, Khalid Al-Khatib, Milad Alshomary, Henning Wachsmuth, and Martin Potthast(参考訳) 議論的なテキストの目的は、ある結論を支持することである。 しかし、しばしば省略され、読者がそれを推測することを期待する。 個々のテキストを読むのに適しているが、この修辞的装置は多くのテキスト(例えば検索エンジンやソーシャルメディア)を閲覧する場合のアクセシビリティを制限する。 これらのシナリオでは、明示的な結論は議論的なテキストのよい要約となる。 これは、結論が情報であり、特定の概念をテキストから強調する場合に特に当てはまる。 本稿では,まず webis-conclugen-21 をコンパイルし,136,996 個の議論テキストの大規模コーパスを作成し,その結論を述べる。 第2に、結論生成のための2つのパラダイム、すなわち1つの抽出、もう1つの抽象的な性質について検討する。 後者は、制御コードを通じてデータを増大させ、コーパスのいくつかのサブセットでBARTモデルを微調整する議論的な知識を利用する。 第3に、タスクに対するコーパスの適合性、二つの世代のパラダイムの違い、情報性と簡潔さのトレードオフ、議論的知識のエンコーディングの影響について、洞察を提供する。 コーパス、コード、トレーニングされたモデルが公開されている。

The purpose of an argumentative text is to support a certain conclusion. Yet, they are often omitted, expecting readers to infer them rather. While appropriate when reading an individual text, this rhetorical device limits accessibility when browsing many texts (e.g., on a search engine or on social media). In these scenarios, an explicit conclusion makes for a good candidate summary of an argumentative text. This is especially true if the conclusion is informative, emphasizing specific concepts from the text. With this paper we introduce the task of generating informative conclusions: First, Webis-ConcluGen-21 is compiled, a large-scale corpus of 136,996 samples of argumentative texts and their conclusions. Second, two paradigms for conclusion generation are investigated; one extractive, the other abstractive in nature. The latter exploits argumentative knowledge that augment the data via control codes and finetuning the BART model on several subsets of the corpus. Third, insights are provided into the suitability of our corpus for the task, the differences between the two generation paradigms, the trade-off between informativeness and conciseness, and the impact of encoding argumentative knowledge. The corpus, code, and the trained models are publicly available.
翻訳日:2021-06-04 03:50:38 公開日:2021-06-02
# (参考訳) 最適輸送予測によるグループフェアネスの検証 [全文訳有]

Testing Group Fairness via Optimal Transport Projections ( http://arxiv.org/abs/2106.01070v1 )

ライセンス: CC BY 4.0
Nian Si and Karthyek Murthy and Jose Blanchet and Viet Anh Nguyen(参考訳) 与えられた機械学習分類器が、幅広いグループフェアネスの概念を満たさないかどうかを検出するための統計的テストフレームワークを提案する。 提案したテストは、アルゴリズムに固有のバイアスがあるか、あるいはデータのランダム性のために、柔軟で解釈可能で統計的に厳密な検査ツールである。 グループフェアネスを定義し、モデルパラメータに不連続な複数の影響基準から生じる可能性のある統計的課題は、最適輸送を用いたグループフェア確率モデルの集合に経験的測度を投影することによって、都合よく取り組まれる。 この統計は線形プログラミングを用いて効率的に計算し、その漸近分布を明示的に求める。 提案フレームワークは, 複合フェアネス仮説と複数の感度特性を用いた公正性試験にも利用できる。 最適輸送試験定式化は、監査で観測されるバイアスをなくすための最小共変量摂動を特徴付けることにより、解釈性を向上させる。

We present a statistical testing framework to detect if a given machine learning classifier fails to satisfy a wide range of group fairness notions. The proposed test is a flexible, interpretable, and statistically rigorous tool for auditing whether exhibited biases are intrinsic to the algorithm or due to the randomness in the data. The statistical challenges, which may arise from multiple impact criteria that define group fairness and which are discontinuous on model parameters, are conveniently tackled by projecting the empirical measure onto the set of group-fair probability models using optimal transport. This statistic is efficiently computed using linear programming and its asymptotic distribution is explicitly obtained. The proposed framework can also be used to test for testing composite fairness hypotheses and fairness with multiple sensitive attributes. The optimal transport testing formulation improves interpretability by characterizing the minimal covariate perturbations that eliminate the bias observed in the audit.
翻訳日:2021-06-04 03:31:33 公開日:2021-06-02
# (参考訳) KO-PDE:変数係数を持つ部分微分方程式のカーネル最適化発見 [全文訳有]

KO-PDE: Kernel Optimized Discovery of Partial Differential Equations with Varying Coefficients ( http://arxiv.org/abs/2106.01078v1 )

ライセンス: CC BY 4.0
Yingtao Luo, Qiang Liu, Yuntian Chen, Wenbo Hu, Jun Zhu(参考訳) 科学データに適合する偏微分方程式(PDE)は、様々な数学的対象に対する説明可能なメカニズムで物理法則を表現することができる。 ほとんどの自然力学は、PDE発見の重要性を強調する様々な係数 (PDEs-VC) を持つPDEによって表現される。 従来のアルゴリズムはPDEs-VCのいくつかの単純な例を発見できるが、係数推定の不正確さの結果、より複雑な係数を持つPDEの発見には失敗する。 本稿では,隣接係数のカーネル密度推定を取り入れ,係数推定誤差を低減したカーネル最適化回帰手法であるko-pdeを提案する。 KO-PDEは、以前のベースラインが失敗し、データ内の避けられないノイズに対してより堅牢なPDE-VCを発見することができる。 実験では、流体力学における7つの挑戦的時空間科学的データセットのPDE-VCがすべてKO-PDEによって発見され、3つのベースラインがほとんどのケースで誤った結果を示す。 KO-PDEは最先端の性能で、現実世界で発見されたPDEを用いて自然現象の自動記述に光を当てる。

Partial differential equations (PDEs) fitting scientific data can represent physical laws with explainable mechanisms for various mathematically-orien ted subjects. Most natural dynamics are expressed by PDEs with varying coefficients (PDEs-VC), which highlights the importance of PDE discovery. Previous algorithms can discover some simple instances of PDEs-VC but fail in the discovery of PDEs with coefficients of higher complexity, as a result of coefficient estimation inaccuracy. In this paper, we propose KO-PDE, a kernel optimized regression method that incorporates the kernel density estimation of adjacent coefficients to reduce the coefficient estimation error. KO-PDE can discover PDEs-VC on which previous baselines fail and is more robust against inevitable noise in data. In experiments, the PDEs-VC of seven challenging spatiotemporal scientific datasets in fluid dynamics are all discovered by KO-PDE, while the three baselines render false results in most cases. With state-of-the-art performance, KO-PDE sheds light on the automatic description of natural phenomenons using discovered PDEs in the real world.
翻訳日:2021-06-04 02:47:58 公開日:2021-06-02
# (参考訳) リハーサル型連続学習のためのオンラインコアセット選択 [全文訳有]

Online Coreset Selection for Rehearsal-based Continual Learning ( http://arxiv.org/abs/2106.01085v1 )

ライセンス: CC BY 4.0
Jaehong Yoon, Divyam Madaan, Eunho Yang, Sung Ju Hwang(参考訳) データセットはタスクを記述するための重要な証拠の集まりです。 しかしながら、データセット内の各データポイントは、他のデータポイントよりも代表的あるいは情報的であるため、同じポテンシャルを持っていない。 データポイント間のこの不平等な重要性は、リハーサルベースの継続的学習に大きな影響を与え、そこでは、後に再生されるトレーニング例(コアセット)のサブセットを格納し、破滅的な忘れを軽減します。 連続学習では、コアセットに格納されたサンプルの品質がモデルの有効性と効率に直接影響する。 コアセット選択問題は、不均衡連続学習や騒がしいデータシナリオなど、現実的な設定の下でさらに重要になる。 そこで本研究では,オンライン・コアセット選択 (ocs) を提案する。オンライン・コアセット選択 (ocs, online coreset selection) は,各イテレーションにおいて最も代表的かつ情報的なコアセットを選択し,オンラインで学習する手法である。 提案手法は,過去のタスクに対して高親和性サンプルを選択しながら,目標データセットへのモデル適応を最大化する。 我々は,様々な標準,不均衡,騒がしいデータセットに対するコアセット選択機構の有効性を検証するとともに,タスク適応性が向上し,サンプル効率のよい方法で壊滅的な忘れることを防止することを実証した。

A dataset is a shred of crucial evidence to describe a task. However, each data point in the dataset does not have the same potential, as some of the data points can be more representative or informative than others. This unequal importance among the data points may have a large impact in rehearsal-based continual learning, where we store a subset of the training examples (coreset) to be replayed later to alleviate catastrophic forgetting. In continual learning, the quality of the samples stored in the coreset directly affects the model's effectiveness and efficiency. The coreset selection problem becomes even more important under realistic settings, such as imbalanced continual learning or noisy data scenarios. To tackle this problem, we propose Online Coreset Selection (OCS), a simple yet effective method that selects the most representative and informative coreset at each iteration and trains them in an online manner. Our proposed method maximizes the model's adaptation to a target dataset while selecting high-affinity samples to past tasks, which directly inhibits catastrophic forgetting. We validate the effectiveness of our coreset selection mechanism over various standard, imbalanced, and noisy datasets against strong continual learning baselines, demonstrating that it improves task adaptation and prevents catastrophic forgetting in a sample-efficient manner.
翻訳日:2021-06-04 01:14:27 公開日:2021-06-02
# (参考訳) belabBERT: 精神医学分類に適用されるオランダのRoBERTaベースの言語モデル [全文訳有]

belabBERT: a Dutch RoBERTa-based language model applied to psychiatric classification ( http://arxiv.org/abs/2106.01091v1 )

ライセンス: CC BY 4.0
Joppe Wouts, Janna de Boer, Alban Voppel, Sanne Brederoo, Sander van Splunter and Iris Sommer(参考訳) 自然言語処理(nlp)は、酔い、精神疾患の存在、気道障害の存在、ストレス状態など、人間の特性や状態を自動的に認識するための重要な手段になりつつある。 このようなアプリケーションはオンラインヘルプラインの重要な柱となり、徐々にehealthモジュールに導入される可能性がある。 しかし、NLPは言語固有のものであり、オランダ語のような言語ではNLPモデルは少ない。 その結果、近年のオランダのNLPモデルは、文に対する長い範囲のセマンティックな依存性を低く捉えている。 本稿では,RoBERTaアーキテクチャを拡張した新しいオランダ語モデルであるbelabBERTを紹介する。 belabBERTは、大規模なオランダ語コーパス(+32GB)のWebクロードテキストでトレーニングされている。 精神疾患の分類にbelabBERTを適用した。 まず、belabBERTを用いたテキスト分類の強度を評価し、既存のRobBERTモデルと比較した。 そして,精神疾患の音声分類とbelabBERTの性能を比較した。 最後に、簡単な調査を行い、フレームワークをハイブリッドテキストとオーディオベースの分類に拡張した。 以上の結果から,BlabBERTはオランダ語でもっとも優れたテキスト分類ネットワークであるRobBERTよりも優れていた。 BelabBERTはオーディオのみに基づく分類でも優れている。

Natural language processing (NLP) is becoming an important means for automatic recognition of human traits and states, such as intoxication, presence of psychiatric disorders, presence of airway disorders and states of stress. Such applications have the potential to be an important pillar for online help lines, and may gradually be introduced into eHealth modules. However, NLP is language specific and for languages such as Dutch, NLP models are scarce. As a result, recent Dutch NLP models have a low capture of long range semantic dependencies over sentences. To overcome this, here we present belabBERT, a new Dutch language model extending the RoBERTa architecture. belabBERT is trained on a large Dutch corpus (+32 GB) of web crawled texts. We applied belabBERT to the classification of psychiatric illnesses. First, we evaluated the strength of text-based classification using belabBERT, and compared the results to the existing RobBERT model. Then, we compared the performance of belabBERT to audio classification for psychiatric disorders. Finally, a brief exploration was performed, extending the framework to a hybrid text- and audio-based classification. Our results show that belabBERT outperformed the current best text classification network for Dutch, RobBERT. belabBERT also outperformed classification based on audio alone.
翻訳日:2021-06-04 00:39:49 公開日:2021-06-02
# (参考訳) 圧縮アンサンブルの統計的最適条件

Statistical optimality conditions for compressive ensembles ( http://arxiv.org/abs/2106.01092v1 )

ライセンス: CC BY 4.0
Henry W. J. Reeve, Ata Kaban(参考訳) 本稿では,高次元データの独立ランダム圧縮を訓練した低複雑さ経験的リスクミニマイザのアンサンブルを理論的に解析する枠組みを提案する。 まず, 圧縮可能性の自然な概念を用いて, 過剰リスクに対する一般分布依存上界を導入する。 この境界は元のデータ表現の次元とは独立であり、圧縮的アプローチの組込み正規化効果を説明する。 次に、ジョンソン-リンデンシュトラウス写像を圧縮スキームとして考慮し、この一般化を分類および回帰タスクに縛り付ける。 これらの課題のそれぞれに対して、圧縮可能性関数の厳密な上限を策定し、圧縮アルゴリズムが最小値-最適値の最大値を得るような幾何学的性質の分布条件を明らかにする。 圧縮分類の場合、これは、境界領域の仮定よりもはるかに一般的なフレキシブルモーメント条件とともに、穏やかな幾何学的マージン条件で達成される。 強い凸な滑らかな損失関数を持つ回帰の場合、圧縮回帰は、ほぼ最適の保証でスペクトル減衰を利用することができる。 加えて、中央上界の鍵となる要素は、依存経験過程の統合的偏差の高確率一様上界であり、これは独立した興味を持つかもしれない。

We present a framework for the theoretical analysis of ensembles of low-complexity empirical risk minimisers trained on independent random compressions of high-dimensional data. First we introduce a general distribution-depende nt upper-bound on the excess risk, framed in terms of a natural notion of compressibility. This bound is independent of the dimension of the original data representation, and explains the in-built regularisation effect of the compressive approach. We then instantiate this general bound to classification and regression tasks, considering Johnson-Lindenstraus s mappings as the compression scheme. For each of these tasks, our strategy is to develop a tight upper bound on the compressibility function, and by doing so we discover distributional conditions of geometric nature under which the compressive algorithm attains minimax-optimal rates up to at most poly-logarithmic factors. In the case of compressive classification, this is achieved with a mild geometric margin condition along with a flexible moment condition that is significantly more general than the assumption of bounded domain. In the case of regression with strongly convex smooth loss functions we find that compressive regression is capable of exploiting spectral decay with near-optimal guarantees. In addition, a key ingredient for our central upper bound is a high probability uniform upper bound on the integrated deviation of dependent empirical processes, which may be of independent interest.
翻訳日:2021-06-04 00:27:41 公開日:2021-06-02
# (参考訳) T-BERT -- トピックモデルとBERTを統合したマイクロブロッグの知覚解析モデル [全文訳有]

T-BERT -- Model for Sentiment Analysis of Micro-blogs Integrating Topic Model and BERT ( http://arxiv.org/abs/2106.01097v1 )

ライセンス: CC BY 4.0
Sarojadevi Palani, Prabhu Rajagopal, Sidharth Pancholi(参考訳) 近年, 感情分析(SA)は, ソーシャルメディアプラットフォームの採用や利用の増加を契機に, 電子商取引, 消費者ビジネス, 政治など様々な分野に影響を及ぼす研究領域となっている。 このような文脈に現れる教師なしの短いテキストからトピックや感情を抽出することは困難であり、それらには比喩的な単語、強みのあるデータ、そして一つの単語やフレーズに考えられる多くの意味の共存が含まれている。 ほとんどの先行研究は、クリーンデータセット上の特定のテーマ/レトリック/フォーカスコンテンツに基づいている。 本報告では、人気のあるマイクロブログプラットフォームから得られた生の生のデータセットから、感情分類タスクにおけるBERT(Bidirectional Encoder Representations from Transformers)の有効性を示す。 T-BERT フレームワークは、潜在トピックとコンテキスト BERT 埋め込みを組み合わせることで得られる性能向上を示す。 NimbleBox.aiプラットフォームを使用して,Nvidia Tesla K80(CUDA),4コアCPU,Google Cloud Platformインスタンス上で動作する15GB RAMを備えた,約42000データセットのアンサンブルで数値実験を行った。 実験の結果,提案手法を用いた感情分類において,BERTにトピックを追加し,90.81%の精度で精度を向上した。

Sentiment analysis (SA) has become an extensive research area in recent years impacting diverse fields including ecommerce, consumer business, and politics, driven by increasing adoption and usage of social media platforms. It is challenging to extract topics and sentiments from unsupervised short texts emerging in such contexts, as they may contain figurative words, strident data, and co-existence of many possible meanings for a single word or phrase, all contributing to obtaining incorrect topics. Most prior research is based on a specific theme/rhetoric/focus ed-content on a clean dataset. In the work reported here, the effectiveness of BERT(Bidirectional Encoder Representations from Transformers) in sentiment classification tasks from a raw live dataset taken from a popular microblogging platform is demonstrated. A novel T-BERT framework is proposed to show the enhanced performance obtainable by combining latent topics with contextual BERT embeddings. Numerical experiments were conducted on an ensemble with about 42000 datasets using NimbleBox.ai platform with a hardware configuration consisting of Nvidia Tesla K80(CUDA), 4 core CPU, 15GB RAM running on an isolated Google Cloud Platform instance. The empirical results show that the model improves in performance while adding topics to BERT and an accuracy rate of 90.81% on sentiment classification using BERT with the proposed approach.
翻訳日:2021-06-04 00:26:35 公開日:2021-06-02
# (参考訳) 安全な肺癌放射線治療のための非バイアスオンライン再発最適化を用いた再発ニューラルネットワークを用いた外部マーカーの位置予測 [全文訳有]

Prediction of the Position of External Markers Using a Recurrent Neural Network Trained With Unbiased Online Recurrent Optimization for Safe Lung Cancer Radiotherapy ( http://arxiv.org/abs/2106.01100v1 )

ライセンス: CC BY 4.0
Michel Pohl, Mitsuru Uesaka, Hiroyuki Takahashi, Kazuyuki Demachi and Ritu Bhusal Chhatkuli(参考訳) 肺癌放射線療法では、胸部における赤外線反射物体の位置を記録し、腫瘍の位置を推定することができる。 しかし、放射線治療システムは通常、放射線伝達精度を阻害するロボット制御の制限に固有の遅延を有する。 この現象を考慮していないと、健康な組織に不必要に損傷を与え、放射線肺炎などの副作用を引き起こす可能性がある。 本研究では,73秒から222秒の間隔で呼吸する健常人の胸部と腹部の3つの外部マーカーの3次元位置に関する9つの観察記録を用いた。 サンプリング周波数は10hzで、記録された軌跡の振幅は優占方向の6mmから40mmである。 我々は、未バイアスオンライン再帰最適化(UORO)を訓練したリカレントニューラルネットワーク(RNN)を用いて、各マーカーの位置を0.1秒から2.0秒間の地平線値(事前の時間間隔)と同時に予測する。 実時間繰り返し学習、最小平均平方(LMS)、オフライン線形回帰を訓練したRNNと比較した。 訓練と相互評価は、各シーケンスの1分間に行われる。 UOROは平均して最低根平均二乗(RMS)と最大誤差(それぞれ1.3mmと8.8mm)を達成し、時間当たりの予測時間は2.8ms以下である(Dell Intel core i9-9900K 3.60Ghz)。 線形回帰は地平線値0.1sと0.2sに対して最も低いRMS誤差を持ち、次は地平線値0.3sから0.5s、UOROは0.6s以上である。

During lung cancer radiotherapy, the position of infrared reflective objects on the chest can be recorded to estimate the tumor location. However, radiotherapy systems usually have a latency inherent to robot control limitations that impedes the radiation delivery precision. Not taking this phenomenon into account may cause unwanted damage to healthy tissues and lead to side effects such as radiation pneumonitis. In this research, we use nine observation records of the three-dimensional position of three external markers on the chest and abdomen of healthy individuals breathing during intervals from 73s to 222s. The sampling frequency is equal to 10Hz and the amplitudes of the recorded trajectories range from 6mm to 40mm in the superior-inferior direction. We forecast the location of each marker simultaneously with a horizon value (the time interval in advance for which the prediction is made) between 0.1s and 2.0s, using a recurrent neural network (RNN) trained with unbiased online recurrent optimization (UORO). We compare its performance with an RNN trained with real-time recurrent learning, least mean squares (LMS), and offline linear regression. Training and cross-validation are performed during the first minute of each sequence. On average, UORO achieves the lowest root-mean-square (RMS) and maximum error, equal respectively to 1.3mm and 8.8mm, with a prediction time per time step lower than 2.8ms (Dell Intel core i9-9900K 3.60Ghz). Linear regression has the lowest RMS error for the horizon values 0.1s and 0.2s, followed by LMS for horizon values between 0.3s and 0.5s, and UORO for horizon values greater than 0.6s.
翻訳日:2021-06-04 00:13:20 公開日:2021-06-02
# (参考訳) ピンボール損失支援ベクトルマシンの改良 [全文訳有]

Improvement over Pinball Loss Support Vector Machine ( http://arxiv.org/abs/2106.01109v1 )

ライセンス: CC BY 4.0
Pritam Anand, Reshma Rastogi and Suresh Chandra(参考訳) 近年,Huangらによって提案されたPinball Los Support Vector Machine(Pin-SVM)モデルの拡張について議論する論文がいくつかある。 Pin-SVM分類器は、パラメータ$\tau$で定義されたPinball損失関数を扱う。 パラメータ $\tau$ は $[ -1,1]$ で値を取ることができる。 既存のPin-SVMモデルは、$\tau$ in $[ -1,1]$のすべての値に対して同じ最適化問題を解決する必要がある。 本稿では,バイナリ分類タスクのための既存のPin-SVMモデルを改善する。 最初は、pin-svmモデル(huangなど)には大きな困難があることに気付きました。 [1]) for $ -1 \leq \tau < 0$。 具体的には、pin-svmモデルは、異なる最適化問題の解が -1 \leq \tau < 0$ であることを示す。 さらに、統一pin-svmと呼ばれる統一モデルを提案し、すべての$-1\leq \tau \leq 1$に対してqppが有効となり、使用がより便利になる。 提案する統一pin-svmモデルは,実世界のデータセットを用いた広範囲な数値実験によって実証的に正当化されてきた既存のpin-svmモデルよりも精度が大幅に向上する。

Recently, there have been several papers that discuss the extension of the Pinball loss Support Vector Machine (Pin-SVM) model, originally proposed by Huang et al.,[1][2]. Pin-SVM classifier deals with the pinball loss function, which has been defined in terms of the parameter $\tau$. The parameter $\tau$ can take values in $[ -1,1]$. The existing Pin-SVM model requires to solve the same optimization problem for all values of $\tau$ in $[ -1,1]$. In this paper, we improve the existing Pin-SVM model for the binary classification task. At first, we note that there is major difficulty in Pin-SVM model (Huang et al. [1]) for $ -1 \leq \tau < 0$. Specifically, we show that the Pin-SVM model requires the solution of different optimization problem for $ -1 \leq \tau < 0$. We further propose a unified model termed as Unified Pin-SVM which results in a QPP valid for all $-1\leq \tau \leq 1$ and hence more convenient to use. The proposed Unified Pin-SVM model can obtain a significant improvement in accuracy over the existing Pin-SVM model which has also been empirically justified by extensive numerical experiments with real-world datasets.
翻訳日:2021-06-03 23:54:06 公開日:2021-06-02
# (参考訳) センサノードのエネルギー管理のための強化学習における逆関数の設計と比較 [全文訳有]

Design and Comparison of Reward Functions in Reinforcement Learning for Energy Management of Sensor Nodes ( http://arxiv.org/abs/2106.01114v1 )

ライセンス: CC BY 4.0
Yohann Rioual (1), Yannick Le Moullec (2), Johann Laurent (1), Muhidul Islam Khan (2) and Jean-Philippe Diguet (3) ((1) Lab-STICC, University Bretagne Sud, (2) Thomas Johann Seebeck Department of Electronics, Tallinn University of Technology, (3) IRL CNRS CROSSING)(参考訳) IoT(Internet-of-Thin gs)パラダイムの最近の進歩により、リモート監視への関心が高まっている。 センサノードと呼ばれる小さなデバイスを使って、環境からデータを収集して処理できる新しいアプリケーションが登場した。 しかし、より多くのデータが処理され、より長い運用期間で送信される。 同時に、バッテリー技術は、こうした需要の増加に対応するのに十分な速度で改善されていない。 これによりエネルギー消費問題はますます難しくなり、従来のエネルギー源を補完する小型のエネルギー収穫装置が出現した。 それでも、収穫されたエネルギーはノード操作中に著しく変動し、実際に利用可能なエネルギー資源の不確実性が増大する。 近年,特に強化学習を用いたエネルギー管理手法が開発されている。 しかし、強化学習では、アルゴリズムの性能は報酬関数に大きく依存する。 本稿では2つの貢献について述べる。 まず、5つの異なる報酬関数を探索し、そのような関数で使用する最も適切な変数を特定し、望ましい振る舞いを得る。 q-learningアルゴリズムを用いて, 収穫エネルギーに応じてエネルギー消費量を調整する実験を行った。 5つの報酬関数による結果は、その選択がノードのエネルギー消費に与える影響を示す。 次に,非固定型バランシングパラメータを用いて,エネルギー消費とノード性能の妥協を見出すことのできる2つの報酬関数を提案する。 シミュレーションの結果,提案した報奨関数は,バッテリレベルに応じてノードの性能を調整し,学習時間を短縮することがわかった。

Interest in remote monitoring has grown thanks to recent advancements in Internet-of-Things (IoT) paradigms. New applications have emerged, using small devices called sensor nodes capable of collecting data from the environment and processing it. However, more and more data are processed and transmitted with longer operational periods. At the same, the battery technologies have not improved fast enough to cope with these increasing needs. This makes the energy consumption issue increasingly challenging and thus, miniaturized energy harvesting devices have emerged to complement traditional energy sources. Nevertheless, the harvested energy fluctuates significantly during the node operation, increasing uncertainty in actually available energy resources. Recently, approaches in energy management have been developed, in particular using reinforcement learning approaches. However, in reinforcement learning, the algorithm's performance relies greatly on the reward function. In this paper, we present two contributions. First, we explore five different reward functions to identify the most suitable variables to use in such functions to obtain the desired behaviour. Experiments were conducted using the Q-learning algorithm to adjust the energy consumption depending on the energy harvested. Results with the five reward functions illustrate how the choice thereof impacts the energy consumption of the node. Secondly, we propose two additional reward functions able to find the compromise between energy consumption and a node performance using a non-fixed balancing parameter. Our simulation results show that the proposed reward functions adjust the node's performance depending on the battery level and reduce the learning time.
翻訳日:2021-06-03 23:43:12 公開日:2021-06-02
# (参考訳) 反実および不変データ生成によるロバスト分類モデルの構築 [全文訳有]

Towards Robust Classification Model by Counterfactual and Invariant Data Generation ( http://arxiv.org/abs/2106.01127v1 )

ライセンス: CC BY 4.0
Chun-Hao Chang, George Alexandru Adam, Anna Goldenberg(参考訳) 科学、産業、社会全般における機械学習の応用の成功にもかかわらず、多くのアプローチは非破壊的であることが知られており、しばしば予測を行うために急激な相関に依存する。 このような特徴に依存することで、そのような相関関係が壊れている未発見の環境への一般化が妨げられる。 本研究では,画像分類に焦点をあてて2つのデータ生成プロセスを提案する。 ラベルに責任のある機能(causal)のサブセットの人間のアノテーションが与えられた場合(例えば) 境界ボックス) この因果集合を変更して、同じラベル(すなわち、もはや同じラベルを持たない代理画像を生成する。 counterfactual (複数形 counterfactuals) また、元のラベルとして認識されている画像を生成するために、非因果的特徴を変更し、これらの特徴に不変なモデルを学ぶのに役立ちます。 いくつかの挑戦的なデータセットでは、我々のデータ生成は、急激な相関が壊れたときの精度で最先端の手法より優れており、より優れた説明を提供する因果的特徴に焦点を絞っている。

Despite the success of machine learning applications in science, industry, and society in general, many approaches are known to be non-robust, often relying on spurious correlations to make predictions. Spuriousness occurs when some features correlate with labels but are not causal; relying on such features prevents models from generalizing to unseen environments where such correlations break. In this work, we focus on image classification and propose two data generation processes to reduce spuriousness. Given human annotations of the subset of the features responsible (causal) for the labels (e.g. bounding boxes), we modify this causal set to generate a surrogate image that no longer has the same label (i.e. a counterfactual image). We also alter non-causal features to generate images still recognized as the original labels, which helps to learn a model invariant to these features. In several challenging datasets, our data generations outperform state-of-the-art methods in accuracy when spurious correlations break, and increase the saliency focus on causal features providing better explanations.
翻訳日:2021-06-03 23:29:14 公開日:2021-06-02
# (参考訳) 低ランク結合とコストを用いた線形時間Gromov Wasserstein距離 [全文訳有]

Linear-Time Gromov Wasserstein Distances using Low Rank Couplings and Costs ( http://arxiv.org/abs/2106.01128v1 )

ライセンス: CC BY 4.0
Meyer Scetbon, Gabriel Peyr\'e, Marco Cuturi(参考訳) 異種空間に居住する関連するデータセットを比較して整列する能力は、機械学習においてますます重要な役割を果たす。 gromov-wasserstein (gw)形式はこの問題に取り組むのに役立つ。 その主な目標は、比較不能なデータセットにポイントを登録できる代入(より一般的には結合行列)を求めることである。 非凸かつ二次的な最適輸送(OT)の一般化として、GWはNPハードである。 しかし、ヒューリスティックスは実際かなりうまく機能することが知られており、最先端の手法は入れ子化された正規化ot問題の列を解くことである。 人気があるとはいえ、このヒューリスティックはスケールするにはコストがかかりすぎ、サンプル数に3分の1の複雑さがある。 本稿では,Sinkhornアルゴリズムの最近の変種が,GWの分解能を大幅に向上させる方法を示す。 この変種は、許容結合の集合を2つの部分結合の積として低階分解を許容するものに制限する。 各サブカップリングを交互に更新することで、本アルゴリズムはサンプル数に対して二次時間で問題の静止点を計算する。 コスト行列が低ランクであるとき、我々のアルゴリズムは時間複雑性$\mathcal{O}(n)$である。 シミュレーションおよび実データに対する提案手法の有効性を実証する。

The ability to compare and align related datasets living in heterogeneous spaces plays an increasingly important role in machine learning. The Gromov-Wasserstein (GW) formalism can help tackle this problem. Its main goal is to seek an assignment (more generally a coupling matrix) that can register points across otherwise incomparable datasets. As a non-convex and quadratic generalization of optimal transport (OT), GW is NP-hard. Yet, heuristics are known to work reasonably well in practice, the state of the art approach being to solve a sequence of nested regularized OT problems. While popular, that heuristic remains too costly to scale, with cubic complexity in the number of samples $n$. We show in this paper how a recent variant of the Sinkhorn algorithm can substantially speed up the resolution of GW. That variant restricts the set of admissible couplings to those admitting a low rank factorization as the product of two sub-couplings. By updating alternatively each sub-coupling, our algorithm computes a stationary point of the problem in quadratic time with respect to the number of samples. When cost matrices have themselves low rank, our algorithm has time complexity $\mathcal{O}(n)$. We demonstrate the efficiency of our method on simulated and real data.
翻訳日:2021-06-03 23:12:42 公開日:2021-06-02
# (参考訳) 深層強化学習に向けて [全文訳有]

Towards Deeper Deep Reinforcement Learning ( http://arxiv.org/abs/2106.01151v1 )

ライセンス: CC BY 4.0
Johan Bjorck, Carla P. Gomes, Kilian Q. Weinberger(参考訳) コンピュータビジョンや自然言語処理では、モデルの能力向上につながるモデルアーキテクチャの革新が、確実にパフォーマンスの向上に変換されている。 この傾向とは対照的に、最先端強化学習(RL)アルゴリズムは小さなMLPしか使用せず、性能の向上はアルゴリズムの革新から生じることが多い。 RLの小さなデータセットは過剰適合を避けるために単純なモデルを必要とするという仮説は自然であるが、この仮説は証明されていない。 本稿では,小型MLPをスキップ接続と正規化を備えた大規模ネットワークと交換することにより,RLエージェントがどのように影響するかについて検討する。 経験的に、このようなアーキテクチャをna\"積極的に採用することは不安定さと性能の低下をもたらし、実際に単純なモデルが普及する原因となる可能性が高いことを検証します。 しかし,データセットのサイズが制限要因ではないことを示し,その代わりに,sacのアクタが批判者を通じて勾配を取る内在的不安定性が原因であると主張する。 簡単な平滑化手法がこの問題を緩和し,大規模アーキテクチャによる安定したトレーニングを可能にすることを実証する。 平滑化の後、より大きなモデルは最先端のエージェントに劇的なパフォーマンス改善をもたらす - アルゴリズム的なイノベーションに加えて、モデルアーキテクチャに重点を置くことで、より"簡単"な成果が得られることを示唆する。

In computer vision and natural language processing, innovations in model architecture that lead to increases in model capacity have reliably translated into gains in performance. In stark contrast with this trend, state-of-the-art reinforcement learning (RL) algorithms often use only small MLPs, and gains in performance typically originate from algorithmic innovations. It is natural to hypothesize that small datasets in RL necessitate simple models to avoid overfitting; however, this hypothesis is untested. In this paper we investigate how RL agents are affected by exchanging the small MLPs with larger modern networks with skip connections and normalization, focusing specifically on soft actor-critic (SAC) algorithms. We verify, empirically, that na\"ively adopting such architectures leads to instabilities and poor performance, likely contributing to the popularity of simple models in practice. However, we show that dataset size is not the limiting factor, and instead argue that intrinsic instability from the actor in SAC taking gradients through the critic is the culprit. We demonstrate that a simple smoothing method can mitigate this issue, which enables stable training with large modern architectures. After smoothing, larger models yield dramatic performance improvements for state-of-the-art agents -- suggesting that more "easy" gains may be had by focusing on model architectures in addition to algorithmic innovations.
翻訳日:2021-06-03 22:23:35 公開日:2021-06-02
# (参考訳) エンドツーエンドNLP知識グラフ構築 [全文訳有]

End-to-End NLP Knowledge Graph Construction ( http://arxiv.org/abs/2106.01167v1 )

ライセンス: CC BY 4.0
Ishani Mondal, Yufang Hou and Charles Jochim(参考訳) 本稿では科学論文からNLP知識グラフ(KG)のエンドツーエンド構築について考察する。 タスクとデータセット間の評価、タスクと評価メトリクス間の評価、および同じタイプのエンティティ間のcoreferentおよび関連関係の4つのタイプの関係の抽出に焦点を当てた。 例えば、F1スコアはF測度とコアフェレントである。 我々はこれらの関係タイプごとに新しい手法を導入し、最終フレームワーク(SciNLP-KG)をACLアンソロジーから30,000のNLP論文に適用して大規模なKGを構築する。 その結果,KGは高品質な情報を含むことがわかった。

This paper studies the end-to-end construction of an NLP Knowledge Graph (KG) from scientific papers. We focus on extracting four types of relations: evaluatedOn between tasks and datasets, evaluatedBy between tasks and evaluation metrics, as well as coreferent and related relations between the same type of entities. For instance, F1-score is coreferent with F-measure. We introduce novel methods for each of these relation types and apply our final framework (SciNLP-KG) to 30,000 NLP papers from ACL Anthology to build a large-scale KG, which can facilitate automatically constructing scientific leaderboards for the NLP community. The results of our experiments indicate that the resulting KG contains high-quality information.
翻訳日:2021-06-03 22:02:55 公開日:2021-06-02
# (参考訳) 人間とボットの相互作用における言語的制約を特徴付けるボット生成テキストの検出 [全文訳有]

Detecting Bot-Generated Text by Characterizing Linguistic Accommodation in Human-Bot Interactions ( http://arxiv.org/abs/2106.01170v1 )

ライセンス: CC BY 4.0
Paras Bhatt and Anthony Rios(参考訳) 言語生成モデルの民主化は、健康に関する質問に答えることから、AI駆動のチューリングサービスを提供することで教育を強化することまで、多くのドメインに恩恵をもたらす。 しかし、言語生成モデルの民主化は、誤情報を拡散するから、ヘイトスピーチのある特定のグループをターゲットにするまで、人間のようなテキストを大規模に生成しやすくする。 したがって、人々がボットとどのように相互作用するかを理解し、ボット生成テキストを検出する方法を開発することが不可欠である。 本稿では,ボットが生成したテキスト検出手法が,ボットのテキストを直接使用するのではなく,人々の反応に関する情報を使用する場合,データセットやモデル間でより堅牢であることを示す。 また,言語的アライメントを分析し,人間とロボットの会話の違いについて考察する。

Language generation models' democratization benefits many domains, from answering health-related questions to enhancing education by providing AI-driven tutoring services. However, language generation models' democratization also makes it easier to generate human-like text at-scale for nefarious activities, from spreading misinformation to targeting specific groups with hate speech. Thus, it is essential to understand how people interact with bots and develop methods to detect bot-generated text. This paper shows that bot-generated text detection methods are more robust across datasets and models if we use information about how people respond to it rather than using the bot's text directly. We also analyze linguistic alignment, providing insight into differences between human-human and human-bot conversations.
翻訳日:2021-06-03 21:47:32 公開日:2021-06-02
# (参考訳) 不均衡データ分類のための遺伝的プログラミングに基づくハイブリッドアンサンブル最適化アルゴリズム [全文訳有]

Hybrid Ensemble optimized algorithm based on Genetic Programming for imbalanced data classification ( http://arxiv.org/abs/2106.01176v1 )

ライセンス: CC BY 4.0
Maliheh Roknizadeh, Hossein Monshizadeh Naeen(参考訳) データマイニングの分野で最も重要な議論の1つは、不均衡なデータの分類である。 近年,アルゴリズムレベル(内部)アプローチ,データレベル(外部)技術,コスト依存手法など,いくつかの手法が提案されている。 不均衡なデータ分類に関する広範な研究が行われているが、バランスを取るためにサンプルの重要性に注意を払わない、分類器の適切な数を決定する、分類器の組み合わせで分類器の最適化を行わないなど、未解決の課題がいくつか残っている。 本稿では,訓練データセット,特にマイノリティクラスにおけるサンプリングにおけるアンサンブル法の効率を向上させること,および既存の手法よりも分類器を結合するための基本的な分類器を決定することを目的とする。 我々は2種類の不均衡データ分類のための遺伝的プログラミング(GP)に基づくハイブリッドアンサンブルアルゴリズムを提案した。 本研究では,uci機械学習リポジトリの履歴データを用いて,不均衡データセットのマイノリティクラスを評価する。 提案アルゴリズムの性能はrapid-miner studio v.7.5で評価した。 実験結果から,提案手法をトレーニングセットのサイズで指定したデータセット上での性能は,マイノリティクラス予測の他の次元よりも40%,50%高い精度を示した。

One of the most significant current discussions in the field of data mining is classifying imbalanced data. In recent years, several ways are proposed such as algorithm level (internal) approaches, data level (external) techniques, and cost-sensitive methods. Although extensive research has been carried out on imbalanced data classification, however, several unsolved challenges remain such as no attention to the importance of samples to balance, determine the appropriate number of classifiers, and no optimization of classifiers in the combination of classifiers. The purpose of this paper is to improve the efficiency of the ensemble method in the sampling of training data sets, especially in the minority class, and to determine better basic classifiers for combining classifiers than existing methods. We proposed a hybrid ensemble algorithm based on Genetic Programming (GP) for two classes of imbalanced data classification. In this study uses historical data from UCI Machine Learning Repository to assess minority classes in imbalanced datasets. The performance of our proposed algorithm is evaluated by Rapid-miner studio v.7.5. Experimental results show the performance of the proposed method on the specified data sets in the size of the training set shows 40% and 50% better accuracy than other dimensions of the minority class prediction.
翻訳日:2021-06-03 21:30:29 公開日:2021-06-02
# (参考訳) 情報ボトルネックによるスパイクニューラルネットワークの時間デコードへの学習 [全文訳有]

Learning to Time-Decode in Spiking Neural Networks Through the Information Bottleneck ( http://arxiv.org/abs/2106.01177v1 )

ライセンス: CC BY 4.0
Nicolas Skatchkovsky, Osvaldo Simeone, Hyeryung Jang(参考訳) スパイキングニューラルネットワーク(SNN)のトレーニングにおける重要な課題の1つは、ターゲットの出力は通常、分類のラベルや生成モデルの画像のような自然な信号の形で発生し、スパイクにエンコードする必要があることである。 これはターゲットスパイキング信号を手作りすることで行われ、スパイクを自然信号(例えばレートデコード)にデコードするメカニズムを暗黙的に修正する。 ターゲット信号と復号規則の任意の選択は、一般的にスパイクのタイミングで情報をエンコードし処理するsnの能力を損なう。 この問題に対処するため、この研究は、符号化SNNと復号ニューラルネットワーク(ANN)からなるハイブリッド変分オートエンコーダアーキテクチャを導入している。 復号ANNの役割は、SNNによって出力されるスパイキング信号をターゲットの自然信号に変換する方法を学ぶことである。 代理勾配による情報ボトルネック訓練基準を最適化する新しいエンドツーエンド学習ルールが導入された。 本手法の適用性を実生活データセットを含む様々なタスクの実験的な設定で示す。

One of the key challenges in training Spiking Neural Networks (SNNs) is that target outputs typically come in the form of natural signals, such as labels for classification or images for generative models, and need to be encoded into spikes. This is done by handcrafting target spiking signals, which in turn implicitly fixes the mechanisms used to decode spikes into natural signals, e.g., rate decoding. The arbitrary choice of target signals and decoding rule generally impairs the capacity of the SNN to encode and process information in the timing of spikes. To address this problem, this work introduces a hybrid variational autoencoder architecture, consisting of an encoding SNN and a decoding Artificial Neural Network (ANN). The role of the decoding ANN is to learn how to best convert the spiking signals output by the SNN into the target natural signal. A novel end-to-end learning rule is introduced that optimizes a directed information bottleneck training criterion via surrogate gradients. We demonstrate the applicability of the technique in an experimental settings on various tasks, including real-life datasets.
翻訳日:2021-06-03 21:18:44 公開日:2021-06-02
# (参考訳) 文的内容認識における表現言語 [全文訳有]

Figurative Language in Recognizing Textual Entailment ( http://arxiv.org/abs/2106.01195v1 )

ライセンス: CC BY 4.0
Tuhin Chakrabarty, Debanjan Ghosh, Adam Poliak, Smaranda Muresan(参考訳) 本稿では、図形言語に焦点をあてたRTEデータセットの集合を紹介する。 我々は、さまざまなフィギュラティブ言語に注釈付けされた5つの既存のデータセット(シミュラ、比喩、皮肉)を活用し、12,500以上のRTEサンプルにフレーム化します。 結果と分析から,これらのモデルでは図形言語を十分に捉えられず,現実的な推論や世界知識の推論に苦慮している可能性が示唆された。 最終的に、私たちのデータセットはRTEモデルを評価する上で困難なテストベッドを提供します。

We introduce a collection of recognizing textual entailment (RTE) datasets focused on figurative language. We leverage five existing datasets annotated for a variety of figurative language -- simile, metaphor, and irony -- and frame them into over 12,500 RTE examples.We evaluate how well state-of-the-art models trained on popular RTE datasets capture different aspects of figurative language. Our results and analyses indicate that these models might not sufficiently capture figurative language, struggling to perform pragmatic inference and reasoning about world knowledge. Ultimately, our datasets provide a challenging testbed for evaluating RTE models.
翻訳日:2021-06-03 20:59:05 公開日:2021-06-02
# (参考訳) irene: トランスフォーマーの解釈可能なエネルギー予測 [全文訳有]

IrEne: Interpretable Energy Prediction for Transformers ( http://arxiv.org/abs/2106.01199v1 )

ライセンス: CC BY-SA 4.0
Qingqing Cao, Yash Kumar Lal, Harsh Trivedi, Aruna Balasubramanian, Niranjan Balasubramanian(参考訳) NLPモデルの既存のソフトウェアベースのエネルギー測定は、エネルギー消費とモデル実行の間の複雑な相互作用を考慮していないため正確ではない。 本稿では,幅広いトランスフォーマーベースNLPモデルの推定エネルギー消費を正確に予測する,解釈可能で拡張可能なエネルギー予測システムIrEneを提案する。 IrEneはモデルツリーグラフを構築し、NLPモデルを低レベルの機械学習プリミティブ(ML)に分解したモジュールに分解する。 IrEne氏はMLプリミティブの推論エネルギー消費を、一般化可能な機能と詳細なランタイムリソース使用量の関数として予測する。 IrEneはこれらの低レベルの予測を再帰的に集約し、各モジュールのエネルギーと最終的にモデル全体のエネルギーを予測する。 複数のトランスフォーマーモデルに対する実験により、IrEneは基底真実と比較して7%以下の誤差でトランスフォーマーモデルの推論エネルギー消費を予測する。 対照的に、既存のエネルギーモデルでは50%以上の誤差がある。 また, エネルギーボトルネック分析や, 異なる建築選択のエネルギー影響の簡易評価にイレンが利用できることを示す。 コードとデータはhttps://github.com/s tonybrooknlp/ireneでリリースします。

Existing software-based energy measurements of NLP models are not accurate because they do not consider the complex interactions between energy consumption and model execution. We present IrEne, an interpretable and extensible energy prediction system that accurately predicts the inference energy consumption of a wide range of Transformer-based NLP models. IrEne constructs a model tree graph that breaks down the NLP model into modules that are further broken down into low-level machine learning (ML) primitives. IrEne predicts the inference energy consumption of the ML primitives as a function of generalizable features and fine-grained runtime resource usage. IrEne then aggregates these low-level predictions recursively to predict the energy of each module and finally of the entire model. Experiments across multiple Transformer models show IrEne predicts inference energy consumption of transformer models with an error of under 7% compared to the ground truth. In contrast, existing energy models see an error of over 50%. We also show how IrEne can be used to conduct energy bottleneck analysis and to easily evaluate the energy impact of different architectural choices. We release the code and data at https://github.com/S tonyBrookNLP/irene.
翻訳日:2021-06-03 20:48:22 公開日:2021-06-02
# (参考訳) 予知妊娠におけるクロスドキュメント照合 [全文訳有]

Cross-document Coreference Resolution over Predicted Mentions ( http://arxiv.org/abs/2106.01210v1 )

ライセンス: CC BY 4.0
Arie Cattan, Alon Eirew, Gabriel Stanovsky, Mandar Joshi, Ido Dagan(参考訳) コリファレンスの解決は、主に単一のドキュメントの範囲内で調査されており、エンドツーエンドモデルに基づいた近年の印象的な進歩を示している。 しかし、クロスドキュメント(CD)コア参照解決のより困難な課題は、金の言及にのみ適用された最近のモデルでは、比較的未調査のままであった。 本稿では,文書内コリファレンスの顕著なモデルをcd設定に拡張した,原文からのcdコリファレンス解決のための最初のエンド・ツー・エンドモデルを提案する。 当社のモデルは、ゴールド言及に関するイベントとエンティティのコリファレンス解決の競合結果を達成します。 さらに重要なことは、予測された言及に対するCDコア参照解決のための標準ECB+データセットに基づいて、第一基準結果を設定しました。 さらに,本モデルでは外部リソースを使用しないため,最近のCDコア参照解決システムよりもシンプルで効率的である。

Coreference resolution has been mostly investigated within a single document scope, showing impressive progress in recent years based on end-to-end models. However, the more challenging task of cross-document (CD) coreference resolution remained relatively under-explored, with the few recent models applied only to gold mentions. Here, we introduce the first end-to-end model for CD coreference resolution from raw text, which extends the prominent model for within-document coreference to the CD setting. Our model achieves competitive results for event and entity coreference resolution on gold mentions. More importantly, we set first baseline results, on the standard ECB+ dataset, for CD coreference resolution over predicted mentions. Further, our model is simpler and more efficient than recent CD coreference resolution systems, while not using any external resources.
翻訳日:2021-06-03 20:29:07 公開日:2021-06-02
# (参考訳) 立証的チューリング過程 [全文訳有]

Evidential Turing Processes ( http://arxiv.org/abs/2106.01216v1 )

ライセンス: CC BY 4.0
Melih Kandemir, Abdullah Akg\"ul, Manuel Haussmann, Gozde Unal(参考訳) 信頼性の高い予測不確実性i)のある確率的分類器は、ターゲット領域データに適合し、i)ターゲット領域の困難な領域(例えば、)で校正されたクラス確率を提供する。 クラスオーバーラップ) と iii) ターゲットドメインから出てくるクエリを正確に識別し、拒否する。 本稿では, 上記の3つの重要な特性を全て備え, 完全不確実性定量化を実現することができる, 顕在的深層学習, ニューラルプロセス, ニューラルチューリングマシンのオリジナルの組み合わせを紹介する。 本手法は,3つの画像分類ベンチマークと2つのニューラルネットアーキテクチャを用いて,複数の不確実性定量化指標に対して,その1つまたは数つに明示的に調整した手法に対して,一貫性のある,あるいは優れたスコアを与える。 この統一ソリューションは、安全性クリアランスのための実装フレンドリで計算効率の良いレシピを提供し、ディープニューラルネットにおける認識認知のアルゴリズム的ルーツの調査に知的経済を提供する。

A probabilistic classifier with reliable predictive uncertainties i) fits successfully to the target domain data, ii) provides calibrated class probabilities in difficult regions of the target domain (e.g. class overlap), and iii) accurately identifies queries coming out of the target domain and reject them. We introduce an original combination of evidential deep learning, neural processes, and neural Turing machines capable of providing all three essential properties mentioned above for total uncertainty quantification. We observe our method on three image classification benchmarks and two neural net architectures to consistently give competitive or superior scores with respect to multiple uncertainty quantification metrics against state-of-the-art methods explicitly tailored to one or a few of them. Our unified solution delivers an implementation-frien dly and computationally efficient recipe for safety clearance and provides intellectual economy to an investigation of algorithmic roots of epistemic awareness in deep neural nets.
翻訳日:2021-06-03 20:17:45 公開日:2021-06-02
# (参考訳) Cross Pseudo Supervision を用いた半監督セマンティックセマンティックセグメンテーション [全文訳有]

Semi-Supervised Semantic Segmentation with Cross Pseudo Supervision ( http://arxiv.org/abs/2106.01226v1 )

ライセンス: CC BY 4.0
Xiaokang Chen, Yuhui Yuan, Gang Zeng, Jingdong Wang(参考訳) 本稿では,ラベル付きデータと追加ラベル付きデータの両方を探索し,半教師付きセマンティックセマンティックセマンティクス問題について検討する。 本稿では,クロス擬似監視(CPS)と呼ばれる新しい整合性正規化手法を提案する。 提案手法は,入力画像の初期化の異なる2つのセグメンテーションネットワークに一貫性を付与する。 1つの摂動セグメンテーションネットワークから出力される擬似1ホットラベルマップは、標準のクロスエントロピー損失で他のセグメンテーションネットワークを監督するために使用される。 CPS整合性には2つの役割がある: 同じ入力画像に対する2つの摂動ネットワークの予測間の高い類似性を奨励し、擬似ラベル付きラベル付きラベル付きデータを使用することでトレーニングデータを拡張する。 実験の結果,Cityscapes と PASCAL VOC 2012 を用いた半教師付きセグメンテーション性能が得られた。

In this paper, we study the semi-supervised semantic segmentation problem via exploring both labeled data and extra unlabeled data. We propose a novel consistency regularization approach, called cross pseudo supervision (CPS). Our approach imposes the consistency on two segmentation networks perturbed with different initialization for the same input image. The pseudo one-hot label map, output from one perturbed segmentation network, is used to supervise the other segmentation network with the standard cross-entropy loss, and vice versa. The CPS consistency has two roles: encourage high similarity between the predictions of two perturbed networks for the same input image, and expand training data by using the unlabeled data with pseudo labels. Experiment results show that our approach achieves the state-of-the-art semi-supervised segmentation performance on Cityscapes and PASCAL VOC 2012.
翻訳日:2021-06-03 19:57:13 公開日:2021-06-02
# (参考訳) ドメイン外データによる低リソースASRの性能向上 [全文訳有]

Improving low-resource ASR performance with untranscribed out-of-domain data ( http://arxiv.org/abs/2106.01227v1 )

ライセンス: CC BY 4.0
Jayadev Billa(参考訳) 半教師付き訓練(SST)は、低リソース言語における音声認識性能を改善するために、非転写/ラベル付き音声データを活用する一般的な手法である。 しかし、利用可能なラベルなし音声が対象領域に不一致である場合、SSTは効果が低く、多くの場合、元のシステムよりも悪い性能を示す。 本稿では、未転写のドメイン外音声データのみをターゲット言語で容易に利用できる場合、低リソースASRの問題に対処する。 具体的には、Webリソース、特にニュース/トピック放送データに近いYouTubeデータを用いて、会話/電話音声(ターゲットドメイン)の性能向上を図る。 SSTを利用すると、トレーニングデータでドメイン外のデータをプールするだけでワードエラー率(WER)が低下するケースもあるが、いずれの場合も、ドメイン外のデータをトレーニングして、元のトレーニングデータで結果モデルを微調整すると改善が見られる。 準教師付き書き起こしによる2000時間の目標言語でのYouTubeオーディオの摂動を利用して、複数の言語/データセットの改善、ベースラインシステムに対するWERの最大16.3%の改善、トレーニングデータにドメイン外のデータをプールするシステムに対するWERの最大7.4%の改善を示す。

Semi-supervised training (SST) is a common approach to leverage untranscribed/unlabe led speech data to improve automatic speech recognition performance in low-resource languages. However, if the available unlabeled speech is mismatched to the target domain, SST is not as effective, and in many cases performs worse than the original system. In this paper, we address the issue of low-resource ASR when only untranscribed out-of-domain speech data is readily available in the target language. Specifically, we look to improve performance on conversational/telep hony speech (target domain) using web resources, in particular YouTube data, which more closely resembles news/topical broadcast data. Leveraging SST, we show that while in some cases simply pooling the out-of-domain data with the training data lowers word error rate (WER), in all cases, we see improvements if we train first with the out-of-domain data and then fine-tune the resulting model with the original training data. Using 2000 hours of speed perturbed YouTube audio in each target language, with semi-supervised transcripts, we show improvements on multiple languages/data sets, of up to 16.3% relative improvement in WER over the baseline systems and up to 7.4% relative improvement in WER over a system that simply pools the out-of-domain data with the training data.
翻訳日:2021-06-03 19:43:09 公開日:2021-06-02
# (参考訳) 概念マッピングを用いたメタファー生成 [全文訳有]

Metaphor Generation with Conceptual Mappings ( http://arxiv.org/abs/2106.01228v1 )

ライセンス: CC BY 4.0
Kevin Stowe, Tuhin Chakrabarty, Nanyun Peng, Smaranda Muresan, Iryna Gurevych(参考訳) 抽象概念間のニュアンス関係を理解する必要があるため、メタファの生成は難しい作業である。 本稿では,関連する動詞を置換することで,リテラル表現を付与したメタファ文を生成することを目的とする。 概念的メタファー理論の導出により,認知領域間の概念的マッピングを符号化して有意義なメタファー表現を生成することにより,生成過程を制御することを提案する。 これを実現するために,1) FrameNet ベースの埋め込みを用いてドメイン間のマッピングを学習し,レキシカルレベル (CM-Lex) に適用し,2) ソース/ターゲットペアを導出し,制御されたSeq-to-seq生成モデル (CM-BART) を訓練する。 基礎的メタファーと概念的メタファーの存在度を自動的および人間的評価により評価する。 教師なしCM-Lexモデルは近年のディープラーニングメタファ生成システムと競合し,CM-BARTは自動評価と人的評価の両方において,他のモデルよりも優れていることを示す。

Generating metaphors is a difficult task as it requires understanding nuanced relationships between abstract concepts. In this paper, we aim to generate a metaphoric sentence given a literal expression by replacing relevant verbs. Guided by conceptual metaphor theory, we propose to control the generation process by encoding conceptual mappings between cognitive domains to generate meaningful metaphoric expressions. To achieve this, we develop two methods: 1) using FrameNet-based embeddings to learn mappings between domains and applying them at the lexical level (CM-Lex), and 2) deriving source/target pairs to train a controlled seq-to-seq generation model (CM-BART). We assess our methods through automatic and human evaluation for basic metaphoricity and conceptual metaphor presence. We show that the unsupervised CM-Lex model is competitive with recent deep learning metaphor generation systems, and CM-BART outperforms all other models both in automatic and human evaluations.
翻訳日:2021-06-03 19:32:40 公開日:2021-06-02
# (参考訳) 低いパープレキシティは人間らしくない [全文訳有]

Lower Perplexity is Not Always Human-Like ( http://arxiv.org/abs/2106.01229v1 )

ライセンス: CC BY 4.0
Tatsuki Kuribayashi, Yohei Oseki, Takumi Ito, Ryo Yoshida, Masayuki Asahara, Kentaro Inui(参考訳) 計算精神言語学では、人間の読書行動(例えば目の動き)に対して様々な言語モデルが評価され、人間のような計算モデルを構築している。 しかし、最近の一般社会における言語的普遍化の傾向にもかかわらず、以前のほとんどの取り組みは英語にのみ焦点をあててきた。 このギャップを埋めるために,計算心理言語学の確立された結果を言語間で一般化できるかどうかを検討する。 具体的には,言語モデルが持つ低いパープレキシティ,より人間的な言語モデルという,確立された一般化を再検討する。 我々の実験は、この確立された一般化が驚くべき普遍性の欠如を示すことを示した。 さらに、この英語と日本語の相違は、(一様でない)情報密度の観点からさらに考察される。 この結果から,人型計算モデルの構築には言語間評価が必要であることが示唆された。

In computational psycholinguistics, various language models have been evaluated against human reading behavior (e.g., eye movement) to build human-like computational models. However, most previous efforts have focused almost exclusively on English, despite the recent trend towards linguistic universal within the general community. In order to fill the gap, this paper investigates whether the established results in computational psycholinguistics can be generalized across languages. Specifically, we re-examine an established generalization -- the lower perplexity a language model has, the more human-like the language model is -- in Japanese with typologically different structures from English. Our experiments demonstrate that this established generalization exhibits a surprising lack of universality; namely, lower perplexity is not always human-like. Moreover, this discrepancy between English and Japanese is further explored from the perspective of (non-)uniform information density. Overall, our results suggest that a cross-lingual evaluation will be necessary to construct human-like computational models.
翻訳日:2021-06-03 19:16:40 公開日:2021-06-02
# (参考訳) 農村保健情報アクセスのための多言語医療質問応答と情報検索 [全文訳有]

Multilingual Medical Question Answering and Information Retrieval for Rural Health Intelligence Access ( http://arxiv.org/abs/2106.01251v1 )

ライセンス: CC BY 4.0
Vishal Vinod, Susmit Agrawal, Vipul Gaurav, Pallavi R, Savita Choudhary(参考訳) いくつかの発展途上国の農村地域では、質の高い医療、医療インフラ、専門的な診断へのアクセスはほとんど利用できない。 これらの地域の多くは徐々にインターネットインフラにアクセスし始めているが、医療従事者との持続的なコミュニケーションを可能にする十分な接続を持っていない。 この医療アクセスの欠如、患者の以前の健康記録の欠如、先住民族の言語における情報の入手不能などによるいくつかの死亡は容易に防止できる。 本稿では,機械学習とNLP(Natural Language Processing)技術の驚異的な進歩を生かして,低リソース,多言語,医用予備的な一対一の医療アシスタントを設計するアプローチについて述べる。 我々の貢献には、名前付き認識に必要なNLPパイプラインの定義、言語に依存しない文の埋め込み、自然言語翻訳、情報検索、質問応答、最終クエリ処理のための生成事前学習が含まれる。 本パイプラインの有望な結果とEHR(Electronic Health Record)解析の予備的結果を得た。 このNLPパイプラインを通じて,患者に予備医療情報を提供することを目標とし,認定医の診断に取って代わるものではない。 対象分野の専門家からの入力を用いて,BioBERTをベースとしたNLPモデルを事前学習・微調整するための大規模なコーパスを作成した。 我々はNLPアーキテクチャの最近の進歩を期待し、その一部は効率的でプライバシ保護のモデルであり、ソリューションのさらなる影響と個々のタスクパフォーマンスの改善を期待する。

In rural regions of several developing countries, access to quality healthcare, medical infrastructure, and professional diagnosis is largely unavailable. Many of these regions are gradually gaining access to internet infrastructure, although not with a strong enough connection to allow for sustained communication with a medical practitioner. Several deaths resulting from this lack of medical access, absence of patient's previous health records, and the unavailability of information in indigenous languages can be easily prevented. In this paper, we describe an approach leveraging the phenomenal progress in Machine Learning and NLP (Natural Language Processing) techniques to design a model that is low-resource, multilingual, and a preliminary first-point-of-conta ct medical assistant. Our contribution includes defining the NLP pipeline required for named-entity-recogni tion, language-agnostic sentence embedding, natural language translation, information retrieval, question answering, and generative pre-training for final query processing. We obtain promising results for this pipeline and preliminary results for EHR (Electronic Health Record) analysis with text summarization for medical practitioners to peruse for their diagnosis. Through this NLP pipeline, we aim to provide preliminary medical information to the user and do not claim to supplant diagnosis from qualified medical practitioners. Using the input from subject matter experts, we have compiled a large corpus to pre-train and fine-tune our BioBERT based NLP model for the specific tasks. We expect recent advances in NLP architectures, several of which are efficient and privacy-preserving models, to further the impact of our solution and improve on individual task performance.
翻訳日:2021-06-03 19:00:20 公開日:2021-06-02
# (参考訳) 調査等価性:人間ラベルに対する分類器の精度測定方法 [全文訳有]

Survey Equivalence: A Procedure for Measuring Classifier Accuracy Against Human Labels ( http://arxiv.org/abs/2106.01254v1 )

ライセンス: CC BY 4.0
Paul Resnick, Yuqing Kong, Grant Schoenebeck, Tim Weninger(参考訳) 多くの分類タスクでは、根底的な真理はうるさいか主観的である。 2つの代替紙タイトルのうちどちらが優れているか? このコメントは有毒ですか? このニュース記事の政治的傾向は何か。 我々は,1人以上のレイパーを対象にした調査によって,基礎的真理が定義されているため,調査設定などのタスクを参照する。 調査設定では, 精度, リコール, クロスエントロピーといった従来の分類器の精度測定では, 評価器の質と, 人間のレーダ間の一致度が一致している。 したがって、彼ら自身に意味のある解釈はない。 分類器から予測されたデータセットと項目毎のKレーティングが与えられた場合、任意の精度測定を直観的な解釈に再スケールする手順を述べる。 重要な洞察は、パーサーの過半数の投票など、基礎的真理の最良の代理者ではなく、一度に1人の人間格付け者に対して分類器を得点させることである。 このスコアは、他の予測者のスコア、特に他の複数の人格のラベルを組み合わせた予測値と比較することができる。 任意の分類器の調査等価性は、分類器で見られるものと同じ期待スコアを生成するのに必要な最小限のラッカー数である。

In many classification tasks, the ground truth is either noisy or subjective. Examples include: which of two alternative paper titles is better? is this comment toxic? what is the political leaning of this news article? We refer to such tasks as survey settings because the ground truth is defined through a survey of one or more human raters. In survey settings, conventional measurements of classifier accuracy such as precision, recall, and cross-entropy confound the quality of the classifier with the level of agreement among human raters. Thus, they have no meaningful interpretation on their own. We describe a procedure that, given a dataset with predictions from a classifier and K ratings per item, rescales any accuracy measure into one that has an intuitive interpretation. The key insight is to score the classifier not against the best proxy for the ground truth, such as a majority vote of the raters, but against a single human rater at a time. That score can be compared to other predictors' scores, in particular predictors created by combining labels from several other human raters. The survey equivalence of any classifier is the minimum number of raters needed to produce the same expected score as that found for the classifier.
翻訳日:2021-06-03 18:53:19 公開日:2021-06-02
# (参考訳) ステップサイズを固定した線形確率近似の高次確率境界 [全文訳有]

Tight High Probability Bounds for Linear Stochastic Approximation with Fixed Stepsize ( http://arxiv.org/abs/2106.01257v1 )

ライセンス: CC BY 4.0
Alain Durmus, Eric Moulines, Alexey Naumov, Sergey Samsonov, Kevin Scaman, Hoi-To Wai(参考訳) 本稿では,線形確率近似 (lsa) アルゴリズムの非漸近的解析について述べる。 この手法の族は、多くの機械学習タスクに現れ、線型システムの近似解を得るために使われる: $\bar{A}\theta = \bar{b}$ for that $\bar{A}$ and $\bar{b}$ can only access through random estimates $\{({\bf A}_n, {\bf b}_n): n \in \mathbb{N}^*\}$。 本解析は,タイトであることが示される行列の積に対するモーメントと高確率境界に関する新しい結果に基づいている。 従来より弱い条件下での lsa の性能に関する高い確率境界を導出する。 $\{({\bf a}_n, {\bf b}_n): n \in \mathbb{n}^*\}$ である。 しかし,それとは対照的に,多項式濃度境界をステップ化によって順序付きで定めている。 我々の結論は、ランダム行列の列$\{{\bf A}_n: n \in \mathbb{N}^*\}$に関する追加の仮定なしでは改善できないことを示し、特にガウス的あるいは指数関数的な高確率境界は保持できない。 最後に、我々は、反復の数とステップ化に関してシャープな順序で境界を確立することに特に注意し、その主項は中央極限定理に現れる共分散行列を含む。

This paper provides a non-asymptotic analysis of linear stochastic approximation (LSA) algorithms with fixed stepsize. This family of methods arises in many machine learning tasks and is used to obtain approximate solutions of a linear system $\bar{A}\theta = \bar{b}$ for which $\bar{A}$ and $\bar{b}$ can only be accessed through random estimates $\{({\bf A}_n, {\bf b}_n): n \in \mathbb{N}^*\}$. Our analysis is based on new results regarding moments and high probability bounds for products of matrices which are shown to be tight. We derive high probability bounds on the performance of LSA under weaker conditions on the sequence $\{({\bf A}_n, {\bf b}_n): n \in \mathbb{N}^*\}$ than previous works. However, in contrast, we establish polynomial concentration bounds with order depending on the stepsize. We show that our conclusions cannot be improved without additional assumptions on the sequence of random matrices $\{{\bf A}_n: n \in \mathbb{N}^*\}$, and in particular that no Gaussian or exponential high probability bounds can hold. Finally, we pay a particular attention to establishing bounds with sharp order with respect to the number of iterations and the stepsize and whose leading terms contain the covariance matrices appearing in the central limit theorems.
翻訳日:2021-06-03 18:19:03 公開日:2021-06-02
# (参考訳) ロバストネス評価と操作プロファイルによる深層学習分類器の信頼性の評価 [全文訳有]

Assessing the Reliability of Deep Learning Classifiers Through Robustness Evaluation and Operational Profiles ( http://arxiv.org/abs/2106.01258v1 )

ライセンス: CC BY 4.0
Xingyu Zhao, Wei Huang, Alec Banks, Victoria Cox, David Flynn, Sven Schewe, Xiaowei Huang(参考訳) ディープラーニング(DL)の利用は、ますます高度なアプリケーションへと進歩している。 トランスフォーメーション機能を提供する大きな可能性を示す一方で、DLは重要な機能の信頼性に関する新たな課題も提起している。 本稿では,与えられたアプリケーションのロバスト性評価と運用プロファイル(op)から得られた証拠に基づいて,dl分類器のモデル非依存信頼性評価手法を提案する。 入力空間を小さなセルに分割し、そのロバスト性(基礎的真実まで)をopに従って「組み立てる」ことで、セルのロバスト性と運用に関する推定器が提供されます。 信頼度推定 入力毎の誤分類の確率(pmi)の観点からは、信頼度レベルとともに導出することができる。 簡単なケーススタディでプロトタイプツールを実演する。 モデル仮定と実世界のアプリケーションの拡張についても論じる。 私たちのモデルは、DLの信頼性を評価することの難しさを容易に明らかにします(例)。 基礎的な真実とスケーラビリティの問題を伴うデータの欠如) この研究の方向性を進めるための予備的かつ妥協されたソリューションを提供する。

The utilisation of Deep Learning (DL) is advancing into increasingly more sophisticated applications. While it shows great potential to provide transformational capabilities, DL also raises new challenges regarding its reliability in critical functions. In this paper, we present a model-agnostic reliability assessment method for DL classifiers, based on evidence from robustness evaluation and the operational profile (OP) of a given application. We partition the input space into small cells and then "assemble" their robustness (to the ground truth) according to the OP, where estimators on the cells' robustness and OPs are provided. Reliability estimates in terms of the probability of misclassification per input (pmi) can be derived together with confidence levels. A prototype tool is demonstrated with simplified case studies. Model assumptions and extension to real-world applications are also discussed. While our model easily uncovers the inherent difficulties of assessing the DL dependability (e.g. lack of data with ground truth and scalability issues), we provide preliminary/compromi sed solutions to advance in this research direction.
翻訳日:2021-06-03 17:48:05 公開日:2021-06-02
# (参考訳) 行列分解と測地線距離の解釈 [全文訳有]

Matrix factorisation and the interpretation of geodesic distance ( http://arxiv.org/abs/2106.01260v1 )

ライセンス: CC BY 4.0
Nick Whiteley, Annie Gray and Patrick Rubin-Delanchy(参考訳) グラフや類似性行列が与えられたとき、ノード間の真の距離の概念を回復する問題を考える。 汎用的潜在位置モデルに基づく多様体幾何学の新しい知見を通して、これは行列分解と非線形次元還元の2つのステップで達成できることを示した。 この組み合わせは、最初のステップで得られる点雲が、潜在距離が測地線距離として符号化される多様体に近いため有効である。 したがって、測地距離を近似する非線形次元縮小ツールは、単純な変換まで潜在位置を回復することができる。 スペクトル埋め込みが使用される場合の詳細な説明と、isomapが続き、他の手法の組み合わせに対する実験的な証拠を提供する。

Given a graph or similarity matrix, we consider the problem of recovering a notion of true distance between the nodes, and so their true positions. Through new insights into the manifold geometry underlying a generic latent position model, we show that this can be accomplished in two steps: matrix factorisation, followed by nonlinear dimension reduction. This combination is effective because the point cloud obtained in the first step lives close to a manifold in which latent distance is encoded as geodesic distance. Hence, a nonlinear dimension reduction tool, approximating geodesic distance, can recover the latent positions, up to a simple transformation. We give a detailed account of the case where spectral embedding is used, followed by Isomap, and provide encouraging experimental evidence for other combinations of techniques.
翻訳日:2021-06-03 17:31:59 公開日:2021-06-02
# (参考訳) テキスト分類のためのより識別可能かつ等速なトランスフォーマー [全文訳有]

More Identifiable yet Equally Performant Transformers for Text Classification ( http://arxiv.org/abs/2106.01269v1 )

ライセンス: CC BY-SA 4.0
Rishabh Bhardwaj, Navonil Majumder, Soujanya Poria, Eduard Hovy(参考訳) 解釈性はモデルの予測の信頼性の重要な側面である。 トランスフォーマーの予測は注意重み、すなわち自己着脱単位(ヘッド)で生成される確率分布によって広く説明される。 現在の実証研究は、注意重みが特異でないことを証明することによって説明できないという証拠のシャーレを提供している。 最近の研究では、注意重みの非識別性を証明することによって、この観察に対する理論的正当性を示した。 ヘッドへの入力とその出力に対して、その中に生成される注意重みがユニークであれば、その重みを識別可能なものとします。 本研究では,注目重みの識別可能性に関する理論的解析と実証観察を行う。 以前の研究で無視されているように、キーベクトルの隠れた役割を明らかにすることで、現在認識しているよりも注意重みが識別可能である。 しかし、重みは、解釈に不適当な非普遍的な注意を向ける傾向にある。 この問題に対処するために,キーと値ベクトルの関係を分離し,入力の所望の長さまで識別可能な重みを与えるエンコーダレイヤの変種を提供する。 多様なテキスト分類タスクに対して経験的正当化を提供することにより,このようなバリエーションの適用性を証明する。 実装はhttps://github.com/d eclare-lab/identizab le-transformersで利用可能である。

Interpretability is an important aspect of the trustworthiness of a model's predictions. Transformer's predictions are widely explained by the attention weights, i.e., a probability distribution generated at its self-attention unit (head). Current empirical studies provide shreds of evidence that attention weights are not explanations by proving that they are not unique. A recent study showed theoretical justifications to this observation by proving the non-identifiability of attention weights. For a given input to a head and its output, if the attention weights generated in it are unique, we call the weights identifiable. In this work, we provide deeper theoretical analysis and empirical observations on the identifiability of attention weights. Ignored in the previous works, we find the attention weights are more identifiable than we currently perceive by uncovering the hidden role of the key vector. However, the weights are still prone to be non-unique attentions that make them unfit for interpretation. To tackle this issue, we provide a variant of the encoder layer that decouples the relationship between key and value vector and provides identifiable weights up to the desired length of the input. We prove the applicability of such variations by providing empirical justifications on varied text classification tasks. The implementations are available at https://github.com/d eclare-lab/identifia ble-transformers.
翻訳日:2021-06-03 16:56:34 公開日:2021-06-02
# (参考訳) 安定保証をもつ動的ネットワークに対するスペクトル埋め込み [全文訳有]

Spectral embedding for dynamic networks with stability guarantees ( http://arxiv.org/abs/2106.01282v1 )

ライセンス: CC BY 4.0
Ian Gallagher, Andrew Jones and Patrick Rubin-Delanchy(参考訳) 各ノードの時間発展するベクトル表現を得るために動的ネットワークを組み込むことの問題を考察し、一つのノード、複数のコミュニティ、あるいはグラフ全体の振る舞いの変化を記述するのに使うことができる。 このオープン・エンド・リミットが与えられた場合、各ノードの時空間的位置の安定性を保証したい: 与えられた時刻(断面的安定性)と一定位置(断面的安定性)が同じ位置にあるノードに、異なる時間(縦的安定性)にわたって同じ位置にある単一ノードに割り当てる。 これらの性質は、ジェネリック動的潜在位置モデルで正式に定義される。 このモデルを多層ランダムドット積グラフとして再キャストする方法を示すことにより,動的確率ブロックモデルの下での時空間クラスタリングなどの安定性の両条件を満たす拡張隣接スペクトル埋め込みが実現可能であることを示す。 また,オムニバス,独立あるいは時間平均スペクトル埋め込みなどの代替手法は,いずれかの安定性を欠いていることを示す。

We consider the problem of embedding a dynamic network, to obtain time-evolving vector representations of each node, which can then be used to describe the changes in behaviour of a single node, one or more communities, or the entire graph. Given this open-ended remit, we wish to guarantee stability in the spatio-temporal positioning of the nodes: assigning the same position, up to noise, to nodes behaving similarly at a given time (cross-sectional stability) and a constant position, up to noise, to a single node behaving similarly across different times (longitudinal stability). These properties are defined formally within a generic dynamic latent position model. By showing how this model can be recast as a multilayer random dot product graph, we demonstrate that unfolded adjacency spectral embedding satisfies both stability conditions, allowing, for example, spatio-temporal clustering under the dynamic stochastic block model. We also show how alternative methods, such as omnibus, independent or time-averaged spectral embedding, lack one or the other form of stability.
翻訳日:2021-06-03 16:43:50 公開日:2021-06-02
# (参考訳) SAINT:Row AttentionとContrastive Pre-Trainingによる語彙データのためのニューラルネットワークの改良 [全文訳有]

SAINT: Improved Neural Networks for Tabular Data via Row Attention and Contrastive Pre-Training ( http://arxiv.org/abs/2106.01342v1 )

ライセンス: CC BY 4.0
Gowthami Somepalli, Micah Goldblum, Avi Schwarzschild, C. Bayan Bruss, Tom Goldstein(参考訳) タブラルデータは、不正検出からゲノム学、医療に至るまで、機械学習の多くの影響の高い応用を支えている。 勾配上昇や無作為林などの表層問題に対する古典的なアプローチは、実践者によって広く用いられている。 しかし、近年のディープラーニング手法は、一般的な技術と競合する性能を達成している。 テーブル型データ問題を解決するために,ハイブリッドなディープラーニングアプローチを考案する。 提案手法である saint は行と列の両方に注意を払っており,拡張埋め込みメソッドも備えている。 また,ラベルの不足時に使用するコントラスト型自己教師付き事前学習法についても検討した。 SAINTは、従来のディープラーニングメソッドよりもパフォーマンスを継続的に改善し、XGBoost、CatBoost、LightGBMなど、さまざまなベンチマークタスクにおいて、勾配向上メソッドよりもパフォーマンスが向上している。

Tabular data underpins numerous high-impact applications of machine learning from fraud detection to genomics and healthcare. Classical approaches to solving tabular problems, such as gradient boosting and random forests, are widely used by practitioners. However, recent deep learning methods have achieved a degree of performance competitive with popular techniques. We devise a hybrid deep learning approach to solving tabular data problems. Our method, SAINT, performs attention over both rows and columns, and it includes an enhanced embedding method. We also study a new contrastive self-supervised pre-training method for use when labels are scarce. SAINT consistently improves performance over previous deep learning methods, and it even outperforms gradient boosting methods, including XGBoost, CatBoost, and LightGBM, on average over a variety of benchmark tasks.
翻訳日:2021-06-03 16:22:58 公開日:2021-06-02
# (参考訳) グラフベース分類器の効率的な説明について [全文訳有]

On Efficiently Explaining Graph-Based Classifiers ( http://arxiv.org/abs/2106.01350v1 )

ライセンス: CC BY 4.0
Xuanxiang Huang, Yacine Izza, Alexey Ignatiev, Joao Marques-Silva(参考訳) 近年の研究では、決定木(DT)は解釈可能であるだけでなく、DTの1つのPI展開を計算するための多項式時間アルゴリズムも提案されている。 本稿では,決定木や二分決定ダイアグラムを含む大域的に決定グラフと呼ばれる幅広い分類器に対して,その多値変種に対して,多項式時間計算アルゴリズムが存在することを示す。 さらに,1つの対照的な説明を計算するための多項式時間アルゴリズムを提案する。 これらの新しいアルゴリズムは説明グラフ(xpg)に基づいている。 XpGは、決定グラフに対する説明の理論的および実用的な計算を可能にするグラフ表現である。 さらに,本論文では,説明の列挙に有効な解法を提案するとともに,ある特徴が何らかの説明に含まれるかどうかを判断する複雑さについて考察する。 決定木を具体例にすると、すべての対照的な説明の集合は多項式時間で列挙できることを示した。 最後に,本論文で提案するアルゴリズムの実用性について,幅広い公開ベンチマークで検証した。

Recent work has shown that not only decision trees (DTs) may not be interpretable but also proposed a polynomial-time algorithm for computing one PI-explanation of a DT. This paper shows that for a wide range of classifiers, globally referred to as decision graphs, and which include decision trees and binary decision diagrams, but also their multi-valued variants, there exist polynomial-time algorithms for computing one PI-explanation. In addition, the paper also proposes a polynomial-time algorithm for computing one contrastive explanation. These novel algorithms build on explanation graphs (XpG's). XpG's denote a graph representation that enables both theoretical and practically efficient computation of explanations for decision graphs. Furthermore, the paper pro- poses a practically efficient solution for the enumeration of explanations, and studies the complexity of deciding whether a given feature is included in some explanation. For the concrete case of decision trees, the paper shows that the set of all contrastive explanations can be enumerated in polynomial time. Finally, the experimental results validate the practical applicability of the algorithms proposed in the paper on a wide range of publicly available benchmarks.
翻訳日:2021-06-03 16:04:55 公開日:2021-06-02
# (参考訳) FGVC8ワークショップにおけるセミスーパービジョンiNaturalistチャレンジ [全文訳有]

The Semi-Supervised iNaturalist Challenge at the FGVC8 Workshop ( http://arxiv.org/abs/2106.01364v1 )

ライセンス: CC BY 4.0
Jong-Chyi Su and Subhransu Maji(参考訳) Semi-iNatは、クラス、きめ細かいカテゴリ、ラベル付きデータとラベルなしデータのドメインシフトの長い分布を持つ、半教師付き分類のための挑戦的なデータセットである。 このデータセットは、CVPR 2021のFGVC8ワークショップで開催される、半教師付き認識チャレンジの第2回の背後にある。 このデータセット(i)は、以前のものと異なり、自然分類学における異なる王国の種のイメージを含み、(ii)より大きなスケールで、合計330kの画像に対して810種と1629種がクラス外種、(iii)クラス外ラベルを提供していないが、ラベルのない画像に対して粗い分類学的ラベル(キングダムとフィラム)を提供する。 この文書では、ベースラインの結果と、ここで利用可能なデータセットの詳細を次のように記述している。

Semi-iNat is a challenging dataset for semi-supervised classification with a long-tailed distribution of classes, fine-grained categories, and domain shifts between labeled and unlabeled data. This dataset is behind the second iteration of the semi-supervised recognition challenge to be held at the FGVC8 workshop at CVPR 2021. Different from the previous one, this dataset (i) includes images of species from different kingdoms in the natural taxonomy, (ii) is at a larger scale --- with 810 in-class and 1629 out-of-class species for a total of 330k images, and (iii) does not provide in/out-of-class labels, but provides coarse taxonomic labels (kingdom and phylum) for the unlabeled images. This document describes baseline results and the details of the dataset which is available here: \url{https://github.com/c vl-umass/semi-inat-2 021}.
翻訳日:2021-06-03 15:19:34 公開日:2021-06-02
# 教師なし視覚検査による極低データ体制のためのデータ強化と事前学習ネットワーク

Data augmentation and pre-trained networks for extremely low data regimes unsupervised visual inspection ( http://arxiv.org/abs/2106.01277v1 )

ライセンス: Link先を確認
Pierre Gutierrez, Antoine Cordier, Tha\"is Caldeira, Th\'eophile Sautory(参考訳) 教師なし異常検出のための事前学習されたニューラルネットワークからの深い機能の利用は、最近コンピュータビジョンの分野で勢いを増している。 特に、産業検査アプリケーションは、MVTec Anomaly Detection (MVTec AD)データセットにおける関連手法の複数の成功によって示されているように、このような特徴を利用することができる。 これらの手法は、ImageNetのような補助的な分類タスクで事前訓練されたニューラルネットワークを利用する。 しかし、我々の知る限り、これらのアプローチ間の低データ構造に対する堅牢性の比較研究はまだ行われていない。 品質検査の応用においては,小シリーズでは大量の画像が利用できないため,限られたサンプルサイズを扱うことが重要である。 本研究では,MVTec ADで利用可能なデータ量,KNN,Mahalanobis,PaD iMの3つの手法を比較することを目的とする。 これらの手法はほとんどの場合、小さなサンプルサイズに対して堅牢であるが、元の画像空間でデータ拡張を使用することで大きな恩恵を受けることができる。

The use of deep features coming from pre-trained neural networks for unsupervised anomaly detection purposes has recently gathered momentum in the computer vision field. In particular, industrial inspection applications can take advantage of such features, as demonstrated by the multiple successes of related methods on the MVTec Anomaly Detection (MVTec AD) dataset. These methods make use of neural networks pre-trained on auxiliary classification tasks such as ImageNet. However, to our knowledge, no comparative study of robustness to the low data regimes between these approaches has been conducted yet. For quality inspection applications, the handling of limited sample sizes may be crucial as large quantities of images are not available for small series. In this work, we aim to compare three approaches based on deep pre-trained features when varying the quantity of available data in MVTec AD: KNN, Mahalanobis, and PaDiM. We show that although these methods are mostly robust to small sample sizes, they still can benefit greatly from using data augmentation in the original image space, which allows to deal with very small production runs.
翻訳日:2021-06-03 14:52:31 公開日:2021-06-02
# 質問応答に対する逆データ収集の有効性について:大規模ランダム化研究の結果から

On the Efficacy of Adversarial Data Collection for Question Answering: Results from a Large-Scale Randomized Study ( http://arxiv.org/abs/2106.00872v1 )

ライセンス: Link先を確認
Divyansh Kaushik, Douwe Kiela, Zachary C. Lipton, Wen-tau Yih(参考訳) 逆データ収集(ADC)では、人間の労働力がモデルとリアルタイムで対話し、誤った予測を誘発する例を作成しようとする。 研究者たちは、これらのより困難なデータセットで訓練されたモデルが表面パターンに頼らず、脆くならないことを望んでいる。 しかし、ADCの直感的な魅力にもかかわらず、敵対的データセットのトレーニングがより堅牢なモデルを生成するかどうかは不明だ。 本稿では,質問応答に焦点をあてた大規模制御研究を行い,作業員をランダムに割り当て,(i)逆方向(ループ内モデル付き)あるいは(ii)標準方式(モデルなし)の問合せを行う。 様々なモデルやデータセットを通して、敵データに基づいて訓練されたモデルは、通常、他の敵データセットよりも優れているが、ドメイン外評価セットの多様なコレクションでは、より悪い。 最後に,vs標準(adversarial)データの質的分析を行い,重要な違いを特定し,今後の研究のためのガイダンスを提供する。

In adversarial data collection (ADC), a human workforce interacts with a model in real time, attempting to produce examples that elicit incorrect predictions. Researchers hope that models trained on these more challenging datasets will rely less on superficial patterns, and thus be less brittle. However, despite ADC's intuitive appeal, it remains unclear when training on adversarial datasets produces more robust models. In this paper, we conduct a large-scale controlled study focused on question answering, assigning workers at random to compose questions either (i) adversarially (with a model in the loop); or (ii) in the standard fashion (without a model). Across a variety of models and datasets, we find that models trained on adversarial data usually perform better on other adversarial datasets but worse on a diverse collection of out-of-domain evaluation sets. Finally, we provide a qualitative analysis of adversarial (vs standard) data, identifying key differences and offering guidance for future research.
翻訳日:2021-06-03 14:51:47 公開日:2021-06-02
# DialoGraph: 解釈可能な戦略グラフネットワークをネゴシエーション対話に組み込む

DialoGraph: Incorporating Interpretable Strategy-Graph Networks into Negotiation Dialogues ( http://arxiv.org/abs/2106.00920v1 )

ライセンス: Link先を確認
Rishabh Joshi, Vidhisha Balachandran, Shikhar Vashishth, Alan Black, Yulia Tsvetkov(参考訳) 交渉を成功させるためには、流動的なコミュニケーションが十分ではなく、説得力のある交渉戦略の実践的な計画が不可欠である。 現代の対話エージェントは流麗な文を生成するのに優れているが、それらはまだ実用的根拠がなく、戦略的に推論できない。 本稿では,グラフニューラルネットワークを用いた対話における実用的戦略を取り入れた交渉システムであるdialogographを提案する。 DialoGraphは、対話コンテキストを考慮して、戦略のシーケンス間の依存関係を明示的に組み込んで、次の最適な戦略の改善と解釈を可能にする。 本手法は,戦略/ダイアローグ行動予測の精度と下流対話応答生成の質の両方において,先行手法よりも優れている。 学習戦略グラフのさらなるメリットを質的に示し、対話の過程における効果的な交渉戦略の明確な関連性を提供し、解釈可能かつ戦略的対話をもたらす。

To successfully negotiate a deal, it is not enough to communicate fluently: pragmatic planning of persuasive negotiation strategies is essential. While modern dialogue agents excel at generating fluent sentences, they still lack pragmatic grounding and cannot reason strategically. We present DialoGraph, a negotiation system that incorporates pragmatic strategies in a negotiation dialogue using graph neural networks. DialoGraph explicitly incorporates dependencies between sequences of strategies to enable improved and interpretable prediction of next optimal strategies, given the dialogue context. Our graph-based method outperforms prior state-of-the-art negotiation models both in the accuracy of strategy/dialogue act prediction and in the quality of downstream dialogue response generation. We qualitatively show further benefits of learned strategy-graphs in providing explicit associations between effective negotiation strategies over the course of the dialogue, leading to interpretable and strategic dialogues.
翻訳日:2021-06-03 14:51:31 公開日:2021-06-02
# 少数の部分ラベル学習

Few-Shot Partial-Label Learning ( http://arxiv.org/abs/2106.00984v1 )

ライセンス: Link先を確認
Yunfeng Zhao, Guoxian Yu, Lei Liu, Zhongmin Yan, Lizhen Cui and Carlotta Domeniconi(参考訳) 部分ラベル学習(PLL)は一般に、過度に注釈付けされたサンプルをトレーニングすることで、耐雑音性のあるマルチクラス分類器を誘導することに焦点を当てている。 既存のPLLソリューションの基本的な約束は、トレーニングに十分な部分ラベル(PL)サンプルが存在することである。 しかし、新しいタスクを扱う際に手元にいくつかのplサンプルを持っていない方が一般的である。 さらに、既存の数発の学習アルゴリズムはサポートセットの正確なラベルを仮定するので、無関係なラベルはメタラーナーを著しく誤解させ、それによって性能が損なわれる可能性がある。 数ショットの学習環境でPLLを有効にする方法は重要な問題であるが、まだ十分に研究されていない。 本稿では,FsPLL (Few-shot PLL) と呼ばれる手法を提案する。 FsPLLはまず、埋め込みネットワークによる適応距離メトリック学習を行い、以前に遭遇したタスクのプロトタイプを修正する。 次に、埋め込みネットワークにおいて、新しいタスクの各クラスのプロトタイプを計算する。 見えない例を各プロトタイプまでの距離で分類することができる。 広く使用されているマイナショットデータセット(omniglotとminiimagenet)の実験結果から、fspllは、さまざまな設定で最先端のメソッドよりも優れたパフォーマンスを実現でき、新しいタスクに迅速に適応するにはサンプルが少ないことが分かりました。

Partial-label learning (PLL) generally focuses on inducing a noise-tolerant multi-class classifier by training on overly-annotated samples, each of which is annotated with a set of labels, but only one is the valid label. A basic promise of existing PLL solutions is that there are sufficient partial-label (PL) samples for training. However, it is more common than not to have just few PL samples at hand when dealing with new tasks. Furthermore, existing few-shot learning algorithms assume precise labels of the support set; as such, irrelevant labels may seriously mislead the meta-learner and thus lead to a compromised performance. How to enable PLL under a few-shot learning setting is an important problem, but not yet well studied. In this paper, we introduce an approach called FsPLL (Few-shot PLL). FsPLL first performs adaptive distance metric learning by an embedding network and rectifying prototypes on the tasks previously encountered. Next, it calculates the prototype of each class of a new task in the embedding network. An unseen example can then be classified via its distance to each prototype. Experimental results on widely-used few-shot datasets (Omniglot and miniImageNet) demonstrate that our FsPLL can achieve a superior performance than the state-of-the-art methods across different settings, and it needs fewer samples for quickly adapting to new tasks.
翻訳日:2021-06-03 14:51:16 公開日:2021-06-02
# Evidence-based Factual Error Correction

Evidence-based Factual Error Correction ( http://arxiv.org/abs/2106.01072v1 )

ライセンス: Link先を確認
James Thorne, Andreas Vlachos(参考訳) 本稿では,クレームに対して編集を行うことで,生成した書き換えが証拠によってより良く支持されるようにする,事実的誤り訂正の課題を紹介する。 これは、否定された、または証拠によって部分的に支持された文章を訂正するメカニズムを提供することで、よく検討された事実検証のタスクを拡張する。 証拠を伴うラベル付きクレームのみを含む既存の事実チェックデータセットから事実誤り訂正システムを訓練することは可能であるが,その補正は不可能である。 そこで我々は,2段階の遠隔監視手法を用いて,証拠を疑似クレームに組み込んで修正を行う。 提案手法はt5トランスフォーマ(英語版)と検索されたエビデンス(英語版)に基づき、ポインタのコピーネットワークと金の証拠を用いた既存の研究よりも優れた結果を達成し、人間の評価で5倍以上のインスタンスに対して正確な事実的誤り訂正を行い、sariスコアを125倍に増やした。 この評価は,最近のfact verification shared taskに基づく65,000インスタンスのデータセット上で実施し,タスクのさらなる作業を可能にするためにリリースする。

This paper introduces the task of factual error correction: performing edits to a claim so that the generated rewrite is better supported by evidence. This extends the well-studied task of fact verification by providing a mechanism to correct written texts that are refuted or only partially supported by evidence. We demonstrate that it is feasible to train factual error correction systems from existing fact checking datasets which only contain labeled claims accompanied by evidence, but not the correction. We achieve this by employing a two-stage distant supervision approach that incorporates evidence into masked claims when generating corrections. Our approach, based on the T5 transformer and using retrieved evidence, achieved better results than existing work which used a pointer copy network and gold evidence, producing accurate factual error corrections for 5x more instances in human evaluation and a .125 increase in SARI score. The evaluation is conducted on a dataset of 65,000 instances based on a recent fact verification shared task and we release it to enable further work on the task.
翻訳日:2021-06-03 14:50:51 公開日:2021-06-02
# 抽象要約のための構造的テンソル生成表現を用いた変換器の強化

Enriching Transformers with Structured Tensor-Product Representations for Abstractive Summarization ( http://arxiv.org/abs/2106.01317v1 )

ライセンス: Link先を確認
Yichen Jiang, Asli Celikyilmaz, Paul Smolensky, Paul Soulos, Sudha Rao, Hamid Palangi, Roland Fernandez, Caitlin Smith, Mohit Bansal, Jianfeng Gao(参考訳) 抽象要約は、入力文書の簡潔な要約を作成する作業であり、(1)ソース文書を推論して、長い文書に散在する有意義な情報の断片を判断し、(2)これら有能な事実を再構成して結束したテキストを、これらの事実を結びつける複雑な関係を忠実に反映する短い要約に構成することが必要である。 本稿では, 抽象的な要約作業のために, TP-TRANSFORMER (Schlag et al., 2019) を用いて, オリジナルのTransformer (Vaswani et al., 2017) を明示的に構成したTensor Product Representation (TPR) に適応させる。 このモデルの重要な特徴は、各トークンに対して2つの別々の表現をエンコードして、(ロールベクターで)構文構造と(フィラーベクターで)意味コンテンツを表す構造バイアスである。 次にモデルがロールとフィラーベクトルを層出力としてTPRにバインドする。 構造化された中間表現は、要約を生成する際に、モデルが内容(有意な事実)と構造(事実を接続する構文)をよりよく制御できると主張している。 実験により, TP-TRANSFORMERは, 自動評価と人的評価の両方に基づいて, 抽象的な要約データセットにおいて, トランスフォーマと元のTP-TRANSFORMERを著しく上回っていることがわかった。 いくつかの構文的および意味的探索タスクにおいて、ロールベクトルにおける創発的構造情報を示し、TPR層出力における構文的解釈性を改善した。 コードとモデルはhttps://github.com/j iangycTarheel/TPT-Su mm.comで公開されている。

Abstractive summarization, the task of generating a concise summary of input documents, requires: (1) reasoning over the source document to determine the salient pieces of information scattered across the long document, and (2) composing a cohesive text by reconstructing these salient facts into a shorter summary that faithfully reflects the complex relations connecting these facts. In this paper, we adapt TP-TRANSFORMER (Schlag et al., 2019), an architecture that enriches the original Transformer (Vaswani et al., 2017) with the explicitly compositional Tensor Product Representation (TPR), for the task of abstractive summarization. The key feature of our model is a structural bias that we introduce by encoding two separate representations for each token to represent the syntactic structure (with role vectors) and semantic content (with filler vectors) separately. The model then binds the role and filler vectors into the TPR as the layer output. We argue that the structured intermediate representations enable the model to take better control of the contents (salient facts) and structures (the syntax that connects the facts) when generating the summary. Empirically, we show that our TP-TRANSFORMER outperforms the Transformer and the original TP-TRANSFORMER significantly on several abstractive summarization datasets based on both automatic and human evaluations. On several syntactic and semantic probing tasks, we demonstrate the emergent structural information in the role vectors and improved syntactic interpretability in the TPR layer outputs. Code and models are available at https://github.com/j iangycTarheel/TPT-Su mm.
翻訳日:2021-06-03 14:50:31 公開日:2021-06-02
# multiprover: ルール推論における解釈性向上のための複数の証明を生成する

multiPRover: Generating Multiple Proofs for Improved Interpretability in Rule Reasoning ( http://arxiv.org/abs/2106.01354v1 )

ライセンス: Link先を確認
Swarnadeep Saha, Prateek Yadav, Mohit Bansal(参考訳) 我々は、自然言語の事実とルールの形で明示的な知識を推論すること(Clark et al., 2020)を目標とする言語形式推論の一種に焦点を当てる。 PRover (Saha et al., 2020) と名付けられた最近の研究は、質問に答え、答えを説明する証明グラフを生成することによってそのような推論を行う。 しかし、構成的推論は必ずしもユニークではなく、正しい答えに到達するには複数の方法があるかもしれない。 そこで本研究では,自然言語規則ベースの推論のために複数の証明グラフを生成するという,新たな課題に対処する。 それぞれの証明は、答えに対する異なる理論的根拠を与え、そのような推論システムの解釈可能性を改善する。 すべての証明グラフから共同で学習し,複数の証明間の相関関係を利用するために,各証明が有向グラフとして表現される構造化出力空間上の集合生成問題として,この課題を提起する。 証明セット生成モデルの2つの変種である multiPRover を提案する。 第1のモデルであるMultilabel-multiPRov erは、証明間の複数ラベル分類と暗黙条件による証明の集合を生成するが、第2のモデルであるIterative-multiPRove rは、以前に生成された証明を明示的に条件付けすることによって、反復的に証明を生成する。 複数の合成、ゼロショット、ヒューマンパラフレーズデータセットの実験により、両方のマルチプローバーモデルが複数の金の証明を含むデータセット上でPRoverを著しく上回っていることが明らかとなった。 iteration-multiprove r はゼロショットシナリオにおいて最先端の証明 f1 を得る。 また、複数の証明がより頻繁に行われる推論の深みを必要とする問題に対して、より一般化する。 私たちのコードとモデルはhttps://github.com/s warnaHub/multiPRover で公開されています。

We focus on a type of linguistic formal reasoning where the goal is to reason over explicit knowledge in the form of natural language facts and rules (Clark et al., 2020). A recent work, named PRover (Saha et al., 2020), performs such reasoning by answering a question and also generating a proof graph that explains the answer. However, compositional reasoning is not always unique and there may be multiple ways of reaching the correct answer. Thus, in our work, we address a new and challenging problem of generating multiple proof graphs for reasoning over natural language rule-bases. Each proof provides a different rationale for the answer, thereby improving the interpretability of such reasoning systems. In order to jointly learn from all proof graphs and exploit the correlations between multiple proofs for a question, we pose this task as a set generation problem over structured output spaces where each proof is represented as a directed graph. We propose two variants of a proof-set generation model, multiPRover. Our first model, Multilabel-multiPRov er, generates a set of proofs via multi-label classification and implicit conditioning between the proofs; while the second model, Iterative-multiPRove r, generates proofs iteratively by explicitly conditioning on the previously generated proofs. Experiments on multiple synthetic, zero-shot, and human-paraphrased datasets reveal that both multiPRover models significantly outperform PRover on datasets containing multiple gold proofs. Iterative-multiPRove r obtains state-of-the-art proof F1 in zero-shot scenarios where all examples have single correct proofs. It also generalizes better to questions requiring higher depths of reasoning where multiple proofs are more frequent. Our code and models are publicly available at https://github.com/s warnaHub/multiPRover
翻訳日:2021-06-03 14:50:02 公開日:2021-06-02
# 学習オプティマイザへの一般化アプローチ

A Generalizable Approach to Learning Optimizers ( http://arxiv.org/abs/2106.00958v1 )

ライセンス: Link先を確認
Diogo Almeida, Clemens Winter, Jie Tang, Wojciech Zaremba(参考訳) ニューラルネットワークを最適化する学習の核となる問題は、現実世界の問題に対する一般化の欠如である。 そこで本研究では,モデルパラメータではなくオプティマイザハイパーパラメータを,新たな特徴やアクション,報酬関数を用いて直接更新する方法を,一般化優先の観点から設計したシステムについて述べる。 このシステムはトレーニング中に見えないモダリティを含むすべてのニューラルネットワークタスクでadamを上回っている。 ImageNetでは2倍のスピードアップを実現し、トレーニングタスクよりも5桁以上の計算量で言語モデリングタスクの2.5倍のスピードアップを実現しています。

A core issue with learning to optimize neural networks has been the lack of generalization to real world problems. To address this, we describe a system designed from a generalization-first perspective, learning to update optimizer hyperparameters instead of model parameters directly using novel features, actions, and a reward function. This system outperforms Adam at all neural network tasks including on modalities not seen during training. We achieve 2x speedups on ImageNet, and a 2.5x speedup on a language modeling task using over 5 orders of magnitude more compute than the training tasks.
翻訳日:2021-06-03 14:49:04 公開日:2021-06-02
# 政策後悔によるml決定の長期的影響への取り組み

Addressing the Long-term Impact of ML Decisions via Policy Regret ( http://arxiv.org/abs/2106.01325v1 )

ライセンス: Link先を確認
David Lindner and Hoda Heidari and Andreas Krause(参考訳) 機械学習(ml)は、ローン、教育、雇用などの分野における個人やコミュニティへの機会配分をますます知らしめている。 このような決定は、しばしば被写体の将来の特性や能力に前もって未知の方法で影響する。 したがって、意思決定者は、マルチアームのバンディットのような探索探索のジレンマに直面している。 以前の作業の後、私たちはコミュニティを武器としてモデル化します。 MLに基づくアロケーション決定の長期的効果を捉えるため、意思決定者が腕を引っ張るたびに各腕からの報酬が進化する環境について検討する。 プル数は当初増加するが、ある時点の後に減少する(そして残る)かもしれない報酬機能に焦点を当てています。 我々は、許容できる機会の逐次配置は、armの成長の可能性を考慮に入れなければならないと主張している。 我々は、しばしば議論される外部の後悔よりも強い概念である政策後悔の概念を通じてこれらの考察を捉え、十分長い時間軸に対して確実に下位線形の政策後悔を持つアルゴリズムを提案する。 私たちは経験的にアルゴリズムをいくつかのベースラインと比較し、特に長い時間軸において、一貫してアルゴリズムを上回っています。

Machine Learning (ML) increasingly informs the allocation of opportunities to individuals and communities in areas such as lending, education, employment, and beyond. Such decisions often impact their subjects' future characteristics and capabilities in an a priori unknown fashion. The decision-maker, therefore, faces exploration-exploita tion dilemmas akin to those in multi-armed bandits. Following prior work, we model communities as arms. To capture the long-term effects of ML-based allocation decisions, we study a setting in which the reward from each arm evolves every time the decision-maker pulls that arm. We focus on reward functions that are initially increasing in the number of pulls but may become (and remain) decreasing after a certain point. We argue that an acceptable sequential allocation of opportunities must take an arm's potential for growth into account. We capture these considerations through the notion of policy regret, a much stronger notion than the often-studied external regret, and present an algorithm with provably sub-linear policy regret for sufficiently long time horizons. We empirically compare our algorithm with several baselines and find that it consistently outperforms them, in particular for long time horizons.
翻訳日:2021-06-03 14:48:54 公開日:2021-06-02
# 文書レベルの名前付きエンティティ認識におけるグローバルコンテキスト情報の利用

Exploiting Global Contextual Information for Document-level Named Entity Recognition ( http://arxiv.org/abs/2106.00887v1 )

ライセンス: Link先を確認
Zanbo Wang, Wei Wei, Xianling Mao, Shanshan Feng, Pan Zhou, Zhiyong He and Sheng Jiang(参考訳) 既存の名前付きエンティティ認識(NER)アプローチのほとんどは、ローカルコンテキストの依存関係をキャプチャするシーケンスラベリングモデルに基づいている。 しかし、入力として1つの文を取る方法は、特に局所的文脈情報が限定的または曖昧である場合に有用である、連続的でないグローバルコンテキストのモデリングを妨げている。 そこで本稿では,グローバルコンテキスト拡張ドキュメントレベルner(gcdoc)と呼ばれるモデルを提案する。 単語レベルでは、文書グラフは単語間のより広範な依存関係をモデル化し、グラフニューラルネットワーク(GNN)を介して各単語の豊富な文脈表現を得る。 ノイズ情報の干渉を避けるため,我々はさらに2つの戦略を提案する。 まず,認識的不確実性理論を応用して,表現が信頼性の低いトークンを見つけ出すことにより,文書グラフのプルネリングを支援する。 次に、文書グラフのエッジの重みを効果的に学習し、雑音の隣ノードの重要性を低減するために、選択的補助分類器を提案する。 文レベルでは、単一文以外の広い文脈を適切にモデル化するために、隣接文をエンコードし、注意とゲーティング機構を介して現在の文表現と融合するクロスセンスモジュールを用いる。 2つのベンチマークNERデータセット(CoNLL 2003 と Ontonotes 5.0 の英語データセット)の大規模な実験により,提案モデルの有効性が示された。 我々のモデルは,CoNLL 2003データセットで92.22(BERTで93.40),Ontonotes 5.0データセットで88.32(BERTで90.49)に達し,新たな最先端パフォーマンスを実現する。

Most existing named entity recognition (NER) approaches are based on sequence labeling models, which focus on capturing the local context dependencies. However, the way of taking one sentence as input prevents the modeling of non-sequential global context, which is useful especially when local context information is limited or ambiguous. To this end, we propose a model called Global Context enhanced Document-level NER (GCDoc) to leverage global contextual information from two levels, i.e., both word and sentence. At word-level, a document graph is constructed to model a wider range of dependencies between words, then obtain an enriched contextual representation for each word via graph neural networks (GNN). To avoid the interference of noise information, we further propose two strategies. First we apply the epistemic uncertainty theory to find out tokens whose representations are less reliable, thereby helping prune the document graph. Then a selective auxiliary classifier is proposed to effectively learn the weight of edges in document graph and reduce the importance of noisy neighbour nodes. At sentence-level, for appropriately modeling wider context beyond single sentence, we employ a cross-sentence module which encodes adjacent sentences and fuses it with the current sentence representation via attention and gating mechanisms. Extensive experiments on two benchmark NER datasets (CoNLL 2003 and Ontonotes 5.0 English dataset) demonstrate the effectiveness of our proposed model. Our model reaches F1 score of 92.22 (93.40 with BERT) on CoNLL 2003 dataset and 88.32 (90.49 with BERT) on Ontonotes 5.0 dataset, achieving new state-of-the-art performance.
翻訳日:2021-06-03 14:48:22 公開日:2021-06-02
# COM2SENSE: 補完文による常識推論ベンチマーク

COM2SENSE: A Commonsense Reasoning Benchmark with Complementary Sentences ( http://arxiv.org/abs/2106.00969v1 )

ライセンス: Link先を確認
Shikhar Singh, Nuan Wen, Yu Hou, Pegah Alipoormolabashi, Te-Lin Wu, Xuezhe Ma, Nanyun Peng(参考訳) 常識推論は人間にとって直感的であるが、人工知能(AI)の長期的な課題であった。 事前学習された言語モデルの最近の進歩は、いくつかのcommonsenseベンチマークデータセットで有望な結果を示している。 しかし、モデルの常識推論能力を評価するためのこれらのベンチマークの信頼性と包括性はまだ不明である。 この目的のために,自然言語true/false文を含む新しい共通意味推論ベンチマークデータセットを導入し,各サンプルとそれと相補的なサンプルを組み合わせることにより,4k文対を生成する。 エージェントが与えられた状況に対して常識推論を行う能力を確実に測定するためのペアワイズ精度指標を提案する。 データセットはクラウドソースされ、挑戦的なサンプルにインセンティブを与えるために、敵対的なmodel-in-the-loopセットアップで拡張される。 常識能力の体系的分析を容易にするため,知識領域,推論シナリオ,数理性の次元に沿ったデータセットを設計する。 実験結果から,我々の最強のベースライン(UnifiedQA-3B)は,微調整後の標準精度が約71%,対角精度が約51%,人的性能が約95%であった。 データセットはhttps://github.com/P lusLabNLP/Com2Senseで公開されている。

Commonsense reasoning is intuitive for humans but has been a long-term challenge for artificial intelligence (AI). Recent advancements in pretrained language models have shown promising results on several commonsense benchmark datasets. However, the reliability and comprehensiveness of these benchmarks towards assessing model's commonsense reasoning ability remains unclear. To this end, we introduce a new commonsense reasoning benchmark dataset comprising natural language true/false statements, with each sample paired with its complementary counterpart, resulting in 4k sentence pairs. We propose a pairwise accuracy metric to reliably measure an agent's ability to perform commonsense reasoning over a given situation. The dataset is crowdsourced and enhanced with an adversarial model-in-the-loop setup to incentivize challenging samples. To facilitate a systematic analysis of commonsense capabilities, we design our dataset along the dimensions of knowledge domains, reasoning scenarios and numeracy. Experimental results demonstrate that our strongest baseline (UnifiedQA-3B), after fine-tuning, achieves ~71% standard accuracy and ~51% pairwise accuracy, well below human performance (~95% for both metrics). The dataset is available at https://github.com/P lusLabNLP/Com2Sense.
翻訳日:2021-06-03 14:47:53 公開日:2021-06-02
# SocAoG:対話における社会的関係推論のためのインクリメンタルグラフ解析

SocAoG: Incremental Graph Parsing for Social Relation Inference in Dialogues ( http://arxiv.org/abs/2106.01006v1 )

ライセンス: Link先を確認
Liang Qiu, Yuan Liang, Yizhou Zhao, Pan Lu, Baolin Peng, Zhou Yu, Ying Nian Wu, Song-Chun Zhu(参考訳) 対話から社会的関係を推測することは、人間の言語をより良く解釈し、それに応じて行動するために感情的にインテリジェントなロボットを構築するために不可欠である。 我々は、グループ間の関係の整合性を保ち、属性を推論の手がかりとして活用するために、SocAoGという名前のAnd-or Graphをモデル化する。 さらに, 逐次構造予測タスクを定式化し, 着信音声の動的推論に対してSocAoGを漸進的に解析するための$\alpha$-$\beta$-$\g amma$戦略を提案する。 (i) 対話の意味論に基づく属性と関係の予測を行う$\alpha$プロセス, (ii) 関連属性に基づく社会的関係の更新を行う$\beta$プロセス, (iii) 対人関係に基づく個人属性の更新を行う$\gamma$プロセス。 DialogRE と MovieGraph の実証実験結果から,我々のモデルは最先端の手法よりも社会的関係を正確に推定できることがわかった。 さらに, アブレーション研究は3つのプロセスが互いに補完し合うことを示し, 事例研究は動的関係推論を示す。

Inferring social relations from dialogues is vital for building emotionally intelligent robots to interpret human language better and act accordingly. We model the social network as an And-or Graph, named SocAoG, for the consistency of relations among a group and leveraging attributes as inference cues. Moreover, we formulate a sequential structure prediction task, and propose an $\alpha$-$\beta$-$\g amma$ strategy to incrementally parse SocAoG for the dynamic inference upon any incoming utterance: (i) an $\alpha$ process predicting attributes and relations conditioned on the semantics of dialogues, (ii) a $\beta$ process updating the social relations based on related attributes, and (iii) a $\gamma$ process updating individual's attributes based on interpersonal social relations. Empirical results on DialogRE and MovieGraph show that our model infers social relations more accurately than the state-of-the-art methods. Moreover, the ablation study shows the three processes complement each other, and the case study demonstrates the dynamic relational inference.
翻訳日:2021-06-03 14:47:32 公開日:2021-06-02
# 事実検証のためのトピック・アウェア・エビデンス推論とスタンス・アグリゲーション

Topic-Aware Evidence Reasoning and Stance-Aware Aggregation for Fact Verification ( http://arxiv.org/abs/2106.01191v1 )

ライセンス: Link先を確認
Jiasheng Si, Deyu Zhou, Tongzhe Li, Xingyu Shi, Yulan He(参考訳) ファクト検証は、クレームの真正性を評価するために、複数の回収された証拠を同時に推論および集約する必要がある、困難なタスクである。 既存のアプローチは、典型的には(i)異なる粒度レベルでのクレームとエビデンス間のセマンティックな相互作用を探求するが、検証に不可欠であると考えられる推論過程においてそれらのトピックの一貫性を捉えることができず、(ii)クレームに対する暗黙の姿勢を考慮せずに複数のエビデンスを等しく集約し、刺激的な情報を導入する。 To alleviate the above issues, we propose a novel topic-aware evidence reasoning and stance-aware aggregation model for more accurate fact verification, with the following four key properties: 1) checking topical consistency between the claim and evidence; 2) maintaining topical coherence among multiple pieces of evidence; 3) ensuring semantic similarity between the global topic information and the semantic representation of evidence; 4) aggregating evidence based on their implicit stances to the claim. 2つのベンチマークデータセットで実施された大規模な実験は、事実検証のためのいくつかの最先端アプローチよりも提案モデルの方が優れていることを示す。 ソースコードはhttps://github.com/j asenchn/TARSAから取得できる。

Fact verification is a challenging task that requires simultaneously reasoning and aggregating over multiple retrieved pieces of evidence to evaluate the truthfulness of a claim. Existing approaches typically (i) explore the semantic interaction between the claim and evidence at different granularity levels but fail to capture their topical consistency during the reasoning process, which we believe is crucial for verification; (ii) aggregate multiple pieces of evidence equally without considering their implicit stances to the claim, thereby introducing spurious information. To alleviate the above issues, we propose a novel topic-aware evidence reasoning and stance-aware aggregation model for more accurate fact verification, with the following four key properties: 1) checking topical consistency between the claim and evidence; 2) maintaining topical coherence among multiple pieces of evidence; 3) ensuring semantic similarity between the global topic information and the semantic representation of evidence; 4) aggregating evidence based on their implicit stances to the claim. Extensive experiments conducted on the two benchmark datasets demonstrate the superiority of the proposed model over several state-of-the-art approaches for fact verification. The source code can be obtained from https://github.com/j asenchn/TARSA.
翻訳日:2021-06-03 14:47:07 公開日:2021-06-02
# Global-Selector: マルチターン応答選択のためのベンチマークデータセットとモデルアーキテクチャ

Global-Selector: A New Benchmark Dataset and Model Architecture for Multi-turn Response Selection ( http://arxiv.org/abs/2106.01263v1 )

ライセンス: Link先を確認
Chiyu Song, Hongliang He, Huachuan Qiu, Haofei Yu, Zhenzhong Lan(参考訳) 対話システムの本質的な構成要素として,マルチターン応答選択は,対話流動性を改善するために候補群間の最適な応答を選択することを目的としている。 本稿では,現在の応答選択アプローチの3つの問題,特に世代ベースの対話エージェントについて検討する: (i)既存のアプローチは文のスコアリング問題としてしばしば定式化され,応答間の関係を考慮しない。 (II)既存のモデルは対話履歴に大きく重なる望ましくない候補を選択する傾向がある。 (iii) 学習中の負のインスタンスは主にコーパスからのランダムサンプリングによって構築されるが、実際には生成された候補はより密接な分布を持つ。 上記の問題に対処するため、ConvAI2+と呼ばれる新しいデータセットを作成し、Global-Selectorと呼ばれる新しい応答セレクタを提案する。 実験の結果、convai2+でトレーニングされたグローバルセレクタは精度と推論速度の両方において顕著な改善が見られた。

As an essential component of dialogue systems, multi-turn response selection aims to pick out the optimal response among a set of candidates to improve the dialogue fluency. In this paper, we investigate three problems of current response selection approaches, especially for generation-based conversational agents: (i) Existing approaches are often formulated as a sentence scoring problem, which does not consider relationships between responses. (ii) Existing models tend to select undesirable candidates that have large overlaps with the dialogue history. (iii) Negative instances in training are mainly constructed by random sampling from the corpus, whereas generated candidates in practice typically have a closer distribution. To address the above problems, we create a new dataset called ConvAI2+ and propose a new response selector called Global-Selector. Experimental results show that Global-Selector trained on ConvAI2+ have noticeable improvements in both accuracy and inference speed.
翻訳日:2021-06-03 14:46:46 公開日:2021-06-02
# 事前学習トランスフォーマーによる非教師なし領域検出

Unsupervised Out-of-Domain Detection via Pre-trained Transformers ( http://arxiv.org/abs/2106.00948v1 )

ライセンス: Link先を確認
Keyang Xu, Tongzheng Ren, Shikun Zhang, Yihao Feng and Caiming Xiong(参考訳) 実世界の機械学習アプリケーションは、しばしば制御不能で悪意のある入力を受ける。 ドメイン外の入力は予測不能なアウトプットを引き起こし、時には破滅的な安全上の問題を引き起こす可能性がある。 ドメイン外検出に関する以前の研究では、ドメイン内タスクラベルが必要であり、教師付き分類シナリオに限定されている。 本研究は、教師なしのドメイン内データのみを用いて、ドメイン外サンプルを検出する問題に取り組む。 事前学習したトランスの潜在表現を利用し、全ての層にまたがる特徴を変換してドメイン外検出器を効率的に構築する方法を提案する。 検出精度を高めるために, 2つの領域特異的微調整手法がさらに提案されている。 2つのデータセットにおける関連手法の実証評価により,本手法がドメイン外検出能力を大幅に向上することを確認した。

Deployed real-world machine learning applications are often subject to uncontrolled and even potentially malicious inputs. Those out-of-domain inputs can lead to unpredictable outputs and sometimes catastrophic safety issues. Prior studies on out-of-domain detection require in-domain task labels and are limited to supervised classification scenarios. Our work tackles the problem of detecting out-of-domain samples with only unsupervised in-domain data. We utilize the latent representations of pre-trained transformers and propose a simple yet effective method to transform features across all layers to construct out-of-domain detectors efficiently. Two domain-specific fine-tuning approaches are further proposed to boost detection accuracy. Our empirical evaluations of related methods on two datasets validate that our method greatly improves out-of-domain detection ability in a more general scenario.
翻訳日:2021-06-03 14:46:27 公開日:2021-06-02
# 衝突課題におけるオフポリシー予測学習アルゴリズムの実証的比較

An Empirical Comparison of Off-policy Prediction Learning Algorithms on the Collision Task ( http://arxiv.org/abs/2106.00922v1 )

ライセンス: Link先を確認
Sina Ghiassian, Richard S. Sutton(参考訳) オフポリシー予測 -- 別のポリシーに従って生成されたデータから、あるポリシーの価値関数を学習する -- は、強化学習において最も難しい部分課題の1つです。 本稿では,線形関数近似を用いた11の顕著なオフポリシー学習アルゴリズムによる実証的な結果を示す:5つのグラディエント-TD法,2つの強調-TD法,オフポリシーTD($\lambda$),Vtrace ,およびツリーバックアップとABQのバージョンを予測設定に適用する。 私たちの実験では、衝突が障害物と衝突するかどうかを予測しようとする自動運転車に類似した、小さな理想化されたオフポリシー問題である衝突タスクを使用しました。 学習速度,漸近的誤差レベル,ステップサイズおよびブートストラップパラメータに対する感度に応じてアルゴリズムの性能を評価した。 これらの尺度により、11のアルゴリズムは衝突タスクで部分的に順序付けできる。 上位層では、2つのEmphatic-TDアルゴリズムが最も速く、最も低いエラーに達し、パラメータ設定に堅牢であった。 中間層では5つの勾配tdアルゴリズムとオフポリシーtd($\lambda$)はブートストラップパラメータに敏感であった。 下位層はvtrace、tree backup、abqで構成されており、これらのアルゴリズムは高速ではなく、他のアルゴリズムよりも漸近的エラーを持っていた。 我々の結果はこの課題に決定的だが、アルゴリズムのメリットを総合的に評価する前に、より多くのタスクで実験する必要がある。

Off-policy prediction -- learning the value function for one policy from data generated while following another policy -- is one of the most challenging subproblems in reinforcement learning. This paper presents empirical results with eleven prominent off-policy learning algorithms that use linear function approximation: five Gradient-TD methods, two Emphatic-TD methods, Off-policy TD($\lambda$), Vtrace, and versions of Tree Backup and ABQ modified to apply to a prediction setting. Our experiments used the Collision task, a small idealized off-policy problem analogous to that of an autonomous car trying to predict whether it will collide with an obstacle. We assessed the performance of the algorithms according to their learning rate, asymptotic error level, and sensitivity to step-size and bootstrapping parameters. By these measures, the eleven algorithms can be partially ordered on the Collision task. In the top tier, the two Emphatic-TD algorithms learned the fastest, reached the lowest errors, and were robust to parameter settings. In the middle tier, the five Gradient-TD algorithms and Off-policy TD($\lambda$) were more sensitive to the bootstrapping parameter. The bottom tier comprised Vtrace, Tree Backup, and ABQ; these algorithms were no faster and had higher asymptotic error than the others. Our results are definitive for this task, though of course experiments with more tasks are needed before an overall assessment of the algorithms' merits can be made.
翻訳日:2021-06-03 14:46:01 公開日:2021-06-02
# jumbo: オフラインデータを用いたスケーラブルなマルチタスクベイズ最適化

JUMBO: Scalable Multi-task Bayesian Optimization using Offline Data ( http://arxiv.org/abs/2106.00942v1 )

ライセンス: Link先を確認
Kourosh Hakhamaneshi, Pieter Abbeel, Vladimir Stojanovic, Aditya Grover(参考訳) マルチタスクベイズ最適化(MBO)の目標は、他の補助関数のオフライン評価へのアクセスを前提として、ターゲットのブラックボックス関数を正確に最適化するために必要なクエリ数を最小化することである。 オフラインデータセットが大きい場合、以前のアプローチのスケーラビリティは表現力と推論品質を犠牲にしている。 JUMBOは,2つのガウス過程(GP)のトレーニングから得られる取得信号と,オフラインデータを用いて事前訓練したディープニューラルネットワークの特徴空間で動作するウォームGPを組み合わせて,これらの制約を副次的に処理するMBOアルゴリズムである。 このような分解は、オンラインデータとオフラインデータから派生した情報の信頼性を動的に制御し、事前トレーニングされたニューラルネットワークを使用することで、大規模なオフラインデータセットへのスケーラビリティを実現する。 理論的には、ジャンボの後悔の限界を導出し、gp-ucb(srinivas et. srinivas. )に似た条件下では、no-regretを実現できることを示した。 アル 2010). 実世界の2つの最適化問題(ハイパーパラメータ最適化と自動回路設計)における既存手法に対する性能改善を実証的に示す。

The goal of Multi-task Bayesian Optimization (MBO) is to minimize the number of queries required to accurately optimize a target black-box function, given access to offline evaluations of other auxiliary functions. When offline datasets are large, the scalability of prior approaches comes at the expense of expressivity and inference quality. We propose JUMBO, an MBO algorithm that sidesteps these limitations by querying additional data based on a combination of acquisition signals derived from training two Gaussian Processes (GP): a cold-GP operating directly in the input domain and a warm-GP that operates in the feature space of a deep neural network pretrained using the offline data. Such a decomposition can dynamically control the reliability of information derived from the online and offline data and the use of pretrained neural networks permits scalability to large offline datasets. Theoretically, we derive regret bounds for JUMBO and show that it achieves no-regret under conditions analogous to GP-UCB (Srinivas et. al. 2010). Empirically, we demonstrate significant performance improvements over existing approaches on two real-world optimization problems: hyper-parameter optimization and automated circuit design.
翻訳日:2021-06-03 14:45:37 公開日:2021-06-02
# 密度比補正を用いたオフポリティポリシ最適化手法の収束率について

On the Convergence Rate of Off-Policy Policy Optimization Methods with Density-Ratio Correction ( http://arxiv.org/abs/2106.00993v1 )

ライセンス: Link先を確認
Jiawei Huang, Nan Jiang(参考訳) 本稿では,関数近似条件下での状態-作用密度比を補正したオフ政治政策改善アルゴリズムの収束特性について検討し,目的関数を最大値最適化問題として定式化する。 学習目標のバイアスを特徴付け,有限時間収束保証を持つ2つの戦略を提案する。 最初の戦略では、収束率$O(\epsilon^{-3})$で、$\epsilon$への依存が最適であるアルゴリズムP-SREDAを提案する。 第2の戦略として,O-SPIMという非政治アクター批判型アルゴリズムを提案する。 我々はO-SPIMが総複雑性$O(\epsilon^{-4})$の定常点に収束していることを証明する。

In this paper, we study the convergence properties of off-policy policy improvement algorithms with state-action density ratio correction under function approximation setting, where the objective function is formulated as a max-max-min optimization problem. We characterize the bias of the learning objective and present two strategies with finite-time convergence guarantees. In our first strategy, we present algorithm P-SREDA with convergence rate $O(\epsilon^{-3})$, whose dependency on $\epsilon$ is optimal. In our second strategy, we propose a new off-policy actor-critic style algorithm named O-SPIM. We prove that O-SPIM converges to a stationary point with total complexity $O(\epsilon^{-4})$, which matches the convergence rate of some recent actor-critic algorithms in the on-policy setting.
翻訳日:2021-06-03 14:45:13 公開日:2021-06-02
# 決定トランスフォーマー:シーケンスモデリングによる強化学習

Decision Transformer: Reinforcement Learning via Sequence Modeling ( http://arxiv.org/abs/2106.01345v1 )

ライセンス: Link先を確認
Lili Chen, Kevin Lu, Aravind Rajeswaran, Kimin Lee, Aditya Grover, Michael Laskin, Pieter Abbeel, Aravind Srinivas, Igor Mordatch(参考訳) 本稿ではシーケンスモデリング問題として強化学習(RL)を抽象化するフレームワークを提案する。 これにより、Transformerアーキテクチャのシンプルさとスケーラビリティ、およびGPT-xやBERTといった言語モデリングにおける関連する進歩について説明できる。 特に,RLの問題を条件付きシーケンスモデルとして用いたアーキテクチャであるDecision Transformerを提案する。 値関数や計算ポリシー勾配に適合する以前のRLのアプローチとは異なり、決定変換器は因果的にマスクされた変換器を利用して最適な動作を出力する。 所望のリターン(リワード)、過去の状態、アクションに自己回帰モデルを条件付けすることで、決定変換モデルは、所望のリターンを達成する将来のアクションを生成することができる。 その単純さにもかかわらず、Decision Transformerは、Atari、OpenAI Gym、Key-to-Doorタスク上での最先端のモデルフリーオフラインRLベースラインのパフォーマンスにマッチする。

We present a framework that abstracts Reinforcement Learning (RL) as a sequence modeling problem. This allows us to draw upon the simplicity and scalability of the Transformer architecture, and associated advances in language modeling such as GPT-x and BERT. In particular, we present Decision Transformer, an architecture that casts the problem of RL as conditional sequence modeling. Unlike prior approaches to RL that fit value functions or compute policy gradients, Decision Transformer simply outputs the optimal actions by leveraging a causally masked Transformer. By conditioning an autoregressive model on the desired return (reward), past states, and actions, our Decision Transformer model can generate future actions that achieve the desired return. Despite its simplicity, Decision Transformer matches or exceeds the performance of state-of-the-art model-free offline RL baselines on Atari, OpenAI Gym, and Key-to-Door tasks.
翻訳日:2021-06-03 14:44:59 公開日:2021-06-02
# 会話型質問への回答:調査

Conversational Question Answering: A Survey ( http://arxiv.org/abs/2106.00874v1 )

ライセンス: Link先を確認
Munazza Zaib and Wei Emma Zhang and Quan Z. Sheng and Adnan Mahmood and Yang Zhang(参考訳) 質問応答(QA)システムは、自然言語の非構造化データや構造化データを含む様々なフォーマットで利用可能な情報をクエリする方法を提供する。 これは会話型人工知能(ai)のかなりの部分を構成するもので、会話型質問応答(cqa)に関する特別な研究トピックの導入につながった。 既存の研究の焦点はシングルターンQAとなっているが、マルチターンQAの分野は、大規模なマルチターンQAデータセットが利用可能であることや、事前訓練された言語モデルの開発などにより、近年注目を集めている。 最近、毎年多くのモデルや研究論文が文献に追加されているため、今後の研究を合理化するために、関連する研究を統一的に整理し提示する必要がある。 この調査は、2016-2021年のレビュー論文に基づいて、CQAの最先端研究動向を包括的にレビューする試みである。 以上の結果から,会話型AIの分野をさまざまな観点から活性化する一ターンQAから多ターンQAへの傾向が示唆された。 この調査は、CQA分野の強力な基盤を築きたいと願う研究コミュニティにエピトームを提供することを目的としている。

Question answering (QA) systems provide a way of querying the information available in various formats including, but not limited to, unstructured and structured data in natural languages. It constitutes a considerable part of conversational artificial intelligence (AI) which has led to the introduction of a special research topic on Conversational Question Answering (CQA), wherein a system is required to understand the given context and then engages in multi-turn QA to satisfy the user's information needs. Whilst the focus of most of the existing research work is subjected to single-turn QA, the field of multi-turn QA has recently grasped attention and prominence owing to the availability of large-scale, multi-turn QA datasets and the development of pre-trained language models. With a good amount of models and research papers adding to the literature every year recently, there is a dire need of arranging and presenting the related work in a unified manner to streamline future research. This survey, therefore, is an effort to present a comprehensive review of the state-of-the-art research trends of CQA primarily based on reviewed papers from 2016-2021. Our findings show that there has been a trend shift from single-turn to multi-turn QA which empowers the field of Conversational AI from different perspectives. This survey is intended to provide an epitome for the research community with the hope of laying a strong foundation for the field of CQA.
翻訳日:2021-06-03 14:44:20 公開日:2021-06-02
# テキストによるデータベース推論

Database Reasoning Over Text ( http://arxiv.org/abs/2106.01074v1 )

ライセンス: Link先を確認
James Thorne, Majid Yazdani, Marzieh Saeidi, Fabrizio Silvestri, Sebastian Riedel, Alon Halevy(参考訳) ニューラルモデルでは、自然言語テキストからのクエリに対する応答のパフォーマンスが印象的な向上を見せている。 しかし、既存の作品では「20世紀に誕生したすべての女性アスリートのリスト」のようなデータベースクエリをサポートできないため、結合、フィルタリング、集約といった操作に関連する一連の事実を推論する必要がある。 現状の変圧器モデルは, 小型データベースではよく機能するが, ノイズの多いデータ処理, 数値演算, 事実を集約するクエリに制限があることを示す。 テキストから複数のスパンにまたがるデータベーススタイルのクエリに応答し,大規模に集約するモジュールアーキテクチャを提案する。 このようなクエリを探索する新しいデータセットであるWikiNLDBを用いてアーキテクチャを評価する。 私たちのアーキテクチャは数千の事実を含むデータベースにスケールしますが、現代のモデルはどれだけの事実をエンコードできるかによって制限されています。 小さなデータベースを直接比較すると,回答全体の精度は85%から90%に向上する。 大規模データベースでは,この手法は精度を保ちながら,トランスフォーマーベースラインはコンテキストを符号化できなかった。

Neural models have shown impressive performance gains in answering queries from natural language text. However, existing works are unable to support database queries, such as "List/Count all female athletes who were born in 20th century", which require reasoning over sets of relevant facts with operations such as join, filtering and aggregation. We show that while state-of-the-art transformer models perform very well for small databases, they exhibit limitations in processing noisy data, numerical operations, and queries that aggregate facts. We propose a modular architecture to answer these database-style queries over multiple spans from text and aggregating these at scale. We evaluate the architecture using WikiNLDB, a novel dataset for exploring such queries. Our architecture scales to databases containing thousands of facts whereas contemporary models are limited by how many facts can be encoded. In direct comparison on small databases, our approach increases overall answer accuracy from 85% to 90%. On larger databases, our approach retains its accuracy whereas transformer baselines could not encode the context.
翻訳日:2021-06-03 14:43:57 公開日:2021-06-02
# 対照的なACE: 因果メカニズムのアライメントによるドメインの一般化

Contrastive ACE: Domain Generalization Through Alignment of Causal Mechanisms ( http://arxiv.org/abs/2106.00925v1 )

ライセンス: Link先を確認
Yunqi Wang, Furui Liu, Zhitang Chen, Qing Lian, Shoubo Hu, Jianye Hao, Yik-Chung Wu(参考訳) ドメインの一般化は、複数のソースドメインから下流のタスクに意味的に意味を持ちながら、異なるディストリビューションにまたがる知識の不変性を学ぶことを目的としている。 基本的な目的は、これらの観測分布の背後にある「不変」を理解することであり、そのような不変性は因果関係に密接な関係があることが示されている。 既存の多くのアプローチでは、因果的特徴がドメイン間で不変であるという特性を利用するが、その特徴のラベルに対する平均因果的効果の因果的不変性を考慮する。 この不変性は、ドメイン間の分類器による因果予測の安定性を強制する特徴に対して介入を行う訓練アプローチを規則化する。 そこで本研究では,学習過程に機構の不変性を導入することで,領域の一般化問題に光を当てる。 いくつかのベンチマークデータセットの実験では,SOTAに対する提案手法の性能が示されている。

Domain generalization aims to learn knowledge invariant across different distributions while semantically meaningful for downstream tasks from multiple source domains, to improve the model's generalization ability on unseen target domains. The fundamental objective is to understand the underlying "invariance" behind these observational distributions and such invariance has been shown to have a close connection to causality. While many existing approaches make use of the property that causal features are invariant across domains, we consider the causal invariance of the average causal effect of the features to the labels. This invariance regularizes our training approach in which interventions are performed on features to enforce stability of the causal prediction by the classifier across domains. Our work thus sheds some light on the domain generalization problem by introducing invariance of the mechanisms into the learning process. Experiments on several benchmark datasets demonstrate the performance of the proposed method against SOTAs.
翻訳日:2021-06-03 14:42:34 公開日:2021-06-02
# カーネル手法としてのRNNのフラーミング:ニューラルODEアプローチ

Framing RNN as a kernel method: A neural ODE approach ( http://arxiv.org/abs/2106.01202v1 )

ライセンス: Link先を確認
Adeline Fermanian, Pierre Marion, Jean-Philippe Vert, G\'erard Biau(参考訳) リカレントニューラルネットワーク(recurrent neural network, rnn)を連続時間神経微分方程式として解釈し、適切な条件下では、rnnの解は、シグネチャとして知られる入力シーケンスの特定の特徴集合の線形関数と見なすことができることを示した。 この接続により、適切な再生カーネルヒルベルト空間において、RNNをカーネルメソッドとしてフレーム化することができる。 その結果、大規模な再帰型ネットワークの一般化と安定性に関する理論的保証が得られる。 その結果はシミュレーションデータセットで示される。

Building on the interpretation of a recurrent neural network (RNN) as a continuous-time neural differential equation, we show, under appropriate conditions, that the solution of a RNN can be viewed as a linear function of a specific feature set of the input sequence, known as the signature. This connection allows us to frame a RNN as a kernel method in a suitable reproducing kernel Hilbert space. As a consequence, we obtain theoretical guarantees on generalization and stability for a large class of recurrent networks. Our results are illustrated on simulated datasets.
翻訳日:2021-06-03 14:42:17 公開日:2021-06-02
# 深層学習に基づくPV生成の多出力量子化予測

Deep learning-based multi-output quantile forecasting of PV generation ( http://arxiv.org/abs/2106.01271v1 )

ライセンス: Link先を確認
Jonathan Dumas, Colin Cointe, Xavier Fettweis, Bertrand Corn\'elusse(参考訳) 本稿では,近年のディープラーニングの進展を利用して,確率的PV予測器を開発する。 encorder-decoderという名前のカスタマイズされた予測ツールは、日内複数出力のpv量子量予測を計算し、時間相関を効率的に捉えるために実装されている。 モデルは、確率予測分布の事前知識を前提としない非パラメトリックなアプローチである量子回帰を用いて訓練される。 ケーススタディはベルギーのリエージュ大学 (ULi\`ege) の現場で測定されたPV生産から成り立っている。 深層学習モデルの入力には,気候学研究室が提供する地域気候モデルからの天気予報が用いられる。 予測品質は連続的なランク付け確率と間隔スコアによって定量的に評価される。 その結果、このアーキテクチャは予測品質を向上し、堅牢な最適化のために日々の意思決定ツールに組み込まれる計算効率が向上した。

This paper develops probabilistic PV forecasters by taking advantage of recent breakthroughs in deep learning. It tailored forecasting tool, named encoder-decoder, is implemented to compute intraday multi-output PV quantiles forecasts to efficiently capture the time correlation. The models are trained using quantile regression, a non-parametric approach that assumes no prior knowledge of the probabilistic forecasting distribution. The case study is composed of PV production monitored on-site at the University of Li\`ege (ULi\`ege), Belgium. The weather forecasts from the regional climate model provided by the Laboratory of Climatology are used as inputs of the deep learning models. The forecast quality is quantitatively assessed by the continuous ranked probability and interval scores. The results indicate this architecture improves the forecast quality and is computationally efficient to be incorporated in an intraday decision-making tool for robust optimization.
翻訳日:2021-06-03 14:42:08 公開日:2021-06-02
# 監視シナリオにおけるオンラインおよびリアルタイム追跡

Online and Real-Time Tracking in a Surveillance Scenario ( http://arxiv.org/abs/2106.01153v1 )

ライセンス: Link先を確認
Oliver Urbann, Oliver Bredtmann, Maximilian Otten, Jan-Philip Richter, Thilo Bauer, David Zibriczky(参考訳) 本稿では,監視シナリオにおける追跡手法を提案する。 このシナリオの典型的な側面は24/7の動作で、多数の物体や人物を持つ人間の高さの上に静的カメラが取り付けられている。 Multiple Object Tracking Benchmark 20 (MOT20)はこのシナリオを最もよく反映している。 このベンチマークでは,我々のアプローチがリアルタイムに実現可能であることを示すことができ,HOTA,MOTA,IFF1の他のリアルタイム能力を持つアプローチよりも優れています。 我々は,線形実行時(二次的ではなく)に修正された高速シャムネットワークを用いて,検出から指紋を生成することで,これを実現する。 これにより、指紋のコサイン類似性、結合点の交叉、画像の画素距離比など、複数の追跡特定格付けに基づいてカルマンフィルタに検出を関連付けることができる。

This paper presents an approach for tracking in a surveillance scenario. Typical aspects for this scenario are a 24/7 operation with a static camera mounted above the height of a human with many objects or people. The Multiple Object Tracking Benchmark 20 (MOT20) reflects this scenario best. We can show that our approach is real-time capable on this benchmark and outperforms all other real-time capable approaches in HOTA, MOTA, and IDF1. We achieve this by contributing a fast Siamese network reformulated for linear runtime (instead of quadratic) to generate fingerprints from detections. Thus, it is possible to associate the detections to Kalman filters based on multiple tracking specific ratings: Cosine similarity of fingerprints, Intersection over Union, and pixel distance ratio in the image.
翻訳日:2021-06-03 14:41:53 公開日:2021-06-02
# ニューラルネットワークによる大規模拡張型ネットワークセキュリティゲームの実現

Solving Large-Scale Extensive-Form Network Security Games via Neural Fictitious Self-Play ( http://arxiv.org/abs/2106.00897v1 )

ライセンス: Link先を確認
Wanqi Xue, Youzhi Zhang, Shuxin Li, Xinrun Wang, Bo An, Chai Kiat Yeo(参考訳) ネットワークインフラストラクチャのセキュリティは、現実世界では重要だ。 ネットワークドメインにおける攻撃者を保護するためにセキュリティリソースをデプロイする問題は、Network Security Games(NSG)としてモデル化できる。 残念ながら、ディープラーニングベースのアプローチを含む既存のアプローチは、大規模な大規模nsgを解決するには非効率である。 本稿では,ニューラル・フィクション・セルフプレイ(NFSP)に基づく大規模広義NSGを解くための新しい学習パラダイムNSG-NFSPを提案する。 Our main contributions include: i) reforming the best response (BR) policy network in NFSP to be a mapping from action-state pair to action-value, to make the calculation of BR possible in NSGs; ii) converting the average policy network of an NFSP agent into a metric-based classifier, helping the agent to assign distributions only on legal actions rather than all actions; iii) enabling NFSP with high-level actions, which can benefit training efficiency and stability in NSGs; and iv) leveraging information contained in graphs of NSGs by learning efficient graph node embeddings. 我々のアルゴリズムはスケーラビリティとソリューションの品質の両方において最先端のアルゴリズムを大幅に上回っている。

Securing networked infrastructures is important in the real world. The problem of deploying security resources to protect against an attacker in networked domains can be modeled as Network Security Games (NSGs). Unfortunately, existing approaches, including the deep learning-based approaches, are inefficient to solve large-scale extensive-form NSGs. In this paper, we propose a novel learning paradigm, NSG-NFSP, to solve large-scale extensive-form NSGs based on Neural Fictitious Self-Play (NFSP). Our main contributions include: i) reforming the best response (BR) policy network in NFSP to be a mapping from action-state pair to action-value, to make the calculation of BR possible in NSGs; ii) converting the average policy network of an NFSP agent into a metric-based classifier, helping the agent to assign distributions only on legal actions rather than all actions; iii) enabling NFSP with high-level actions, which can benefit training efficiency and stability in NSGs; and iv) leveraging information contained in graphs of NSGs by learning efficient graph node embeddings. Our algorithm significantly outperforms state-of-the-art algorithms in both scalability and solution quality.
翻訳日:2021-06-03 14:41:43 公開日:2021-06-02
# プライバシー保護と信頼性のあるマルチエージェント学習フレームワーク

A Privacy-Preserving and Trustable Multi-agent Learning Framework ( http://arxiv.org/abs/2106.01242v1 )

ライセンス: Link先を確認
Anudit Nagar, Cuong Tran, Ferdinando Fioretto(参考訳) 分散マルチエージェント学習により、エージェントはデータセットを共有することなく、モデルを協調的にトレーニングできる。 この設定によってある程度のプライバシーが保証されるが、データが直接共有されていない場合でも、トレーニングプロセスはデータ再構成やモデル反転攻撃といったプライバシー攻撃に弱いことが示されている。 さらに、逆ラベルやランダムなデータをトレーニングする悪意のあるエージェントは、グローバルモデルの精度を任意に弱める可能性がある。 本稿では,これらの課題に対処し,エージェントデータの強力なプライバシ保護を保証するために差分プライバシに依存する分散学習(PT-DL)と,信頼性を保証するEthereumスマートコントラクトを提案する。 本論文は,PT-DLが悪意のある信頼モデルにおいて50%の衝突攻撃に対して高い確率で回復可能であることを示し,その実験により,複数の分類タスクにおいて,プライバシ保護および信頼性の高い分散マルチエージェント学習システムとして提案されたモデルの利点が示された。

Distributed multi-agent learning enables agents to cooperatively train a model without requiring to share their datasets. While this setting ensures some level of privacy, it has been shown that, even when data is not directly shared, the training process is vulnerable to privacy attacks including data reconstruction and model inversion attacks. Additionally, malicious agents that train on inverted labels or random data, may arbitrarily weaken the accuracy of the global model. This paper addresses these challenges and presents Privacy-preserving and trustable Distributed Learning (PT-DL), a fully decentralized framework that relies on Differential Privacy to guarantee strong privacy protections of the agents' data, and Ethereum smart contracts to ensure trustability. The paper shows that PT-DL is resilient up to a 50% collusion attack, with high probability, in a malicious trust model and the experimental evaluation illustrates the benefits of the proposed model as a privacy-preserving and trustable distributed multi-agent learning system on several classification tasks.
翻訳日:2021-06-03 14:41:28 公開日:2021-06-02
# NeRP:未知物体のニューラル再構成計画

NeRP: Neural Rearrangement Planning for Unknown Objects ( http://arxiv.org/abs/2106.01352v1 )

ライセンス: Link先を確認
Ahmed H. Qureshi, Arsalan Mousavian, Chris Paxton, Michael C. Yip, and Dieter Fox(参考訳) ロボットは、人間の環境でより広く使われるようになるにつれて、様々な物体を複雑で任意の方法で操作することが期待される。 そのため、オブジェクトの再配置は近年、AI能力の重要なベンチマークとして注目されている。 提案するNeRP(Neural Rearrangement Planning, ニューラルリアレンジ計画)は, 未確認物体と協調して動作し, シミュレーションデータに基づいて学習し, 実世界へ一般化する多段階ニューラルオブジェクトアレンジメント計画法である。 我々はNeRPをいくつかの単純でモデルベースのベースラインと比較し、我々のアプローチが測定しやすく、未確認のオブジェクトを少ないステップで効率的に配置できることを示した。 最後に、実世界のいくつかの挑戦的な再配置問題について示す。

Robots will be expected to manipulate a wide variety of objects in complex and arbitrary ways as they become more widely used in human environments. As such, the rearrangement of objects has been noted to be an important benchmark for AI capabilities in recent years. We propose NeRP (Neural Rearrangement Planning), a deep learning based approach for multi-step neural object rearrangement planning which works with never-before-seen objects, that is trained on simulation data, and generalizes to the real world. We compare NeRP to several naive and model-based baselines, demonstrating that our approach is measurably better and can efficiently arrange unseen objects in fewer steps and with less planning time. Finally, we demonstrate it on several challenging rearrangement problems in the real world.
翻訳日:2021-06-03 14:41:08 公開日:2021-06-02
# ベクトル変数を用いた潜在木学習のロバスト化アルゴリズム

Robustifying Algorithms of Learning Latent Trees with Vector Variables ( http://arxiv.org/abs/2106.00885v1 )

ライセンス: Link先を確認
Fengzhuo Zhang, Vincent Y. F. Tan(参考訳) 我々は,その部分集合が任意に破損した場合に,ベクトル観測によりガウスの潜在木モデルの構造を学習することを検討する。 まず、実効深度が観測ノード数で有界であるという仮定なしに、再帰的グループ (RG) と Chow-Liu Recursive Grouping (CLRG) のサンプル複雑度を示し、Choi et al において結果を著しく一般化する。 (2011). CLRGにおけるChow-Liu初期化は,木径の指数関数化から隠れマルコフモデル(HMM)の対数化まで,RGのサンプル複雑性を大幅に減少させることを示す。 次に,RG,CLRG,Neighbor Joining (NJ) およびSpectral NJ (SNJ) をトラッピングした内積を用いて強化する。 これらの堅牢化アルゴリズムは、クリーンサンプル数の平方根まで多くの汚職を許容することができる。 最後に、潜在木の構造学習において、最初の既知のインスタンス依存不合理性を導出する。 CLRG と NJ のロバストバージョンの最適性は、それらのサンプルの複雑さと不合理性の結果を比較して検証する。

We consider learning the structures of Gaussian latent tree models with vector observations when a subset of them are arbitrarily corrupted. First, we present the sample complexities of Recursive Grouping (RG) and Chow-Liu Recursive Grouping (CLRG) without the assumption that the effective depth is bounded in the number of observed nodes, significantly generalizing the results in Choi et al. (2011). We show that Chow-Liu initialization in CLRG greatly reduces the sample complexity of RG from being exponential in the diameter of the tree to only logarithmic in the diameter for the hidden Markov model (HMM). Second, we robustify RG, CLRG, Neighbor Joining (NJ) and Spectral NJ (SNJ) by using the truncated inner product. These robustified algorithms can tolerate a number of corruptions up to the square root of the number of clean samples. Finally, we derive the first known instance-dependent impossibility result for structure learning of latent trees. The optimalities of the robust version of CLRG and NJ are verified by comparing their sample complexities and the impossibility result.
翻訳日:2021-06-03 14:40:17 公開日:2021-06-02
# グラフ生成モデルのための評価指標:問題、落とし穴、実践的解決策

Evaluation Metrics for Graph Generative Models: Problems, Pitfalls, and Practical Solutions ( http://arxiv.org/abs/2106.01098v1 )

ライセンス: Link先を確認
Leslie O'Bray, Max Horn, Bastian Rieck, Karsten Borgwardt(参考訳) グラフ生成モデルは機械学習の非常に活発な分野である。 複雑さが増し続ける新しいモデルが着実に発展していることを考えると、それらを評価し比較するための原則に基づいた方法を提供する必要がある。 本稿では,比較指標の望ましい基準を列挙し,これらの指標の開発について議論し,それぞれの表現力の比較を行う。 現在使用されている主要なメトリクスを体系的に評価し、研究者が必然的に経験できる課題と落とし穴を強調します。 次に、適切な指標の集合を記述し、それらの実用的適合性について推奨し、合成生成した摂動グラフおよび最近提案されたグラフ生成モデル上での挙動を分析する。

Graph generative models are a highly active branch of machine learning. Given the steady development of new models of ever-increasing complexity, it is necessary to provide a principled way to evaluate and compare them. In this paper, we enumerate the desirable criteria for comparison metrics, discuss the development of such metrics, and provide a comparison of their respective expressive power. We perform a systematic evaluation of the main metrics in use today, highlighting some of the challenges and pitfalls researchers inadvertently can run into. We then describe a collection of suitable metrics, give recommendations as to their practical suitability, and analyse their behaviour on synthetically generated perturbed graphs as well as on recently proposed graph generative models.
翻訳日:2021-06-03 14:40:00 公開日:2021-06-02
# Gradient Descent を用いた単一ニューロンのバイアス学習

Learning a Single Neuron with Bias Using Gradient Descent ( http://arxiv.org/abs/2106.01101v1 )

ライセンス: Link先を確認
Gal Vardi, Gilad Yehudai, Ohad Shamir(参考訳) reluアクティベーションで実現可能な設定において、偏り項 (\mathbf{x} \mapsto \sigma(<\mathbf{w},\mathbf{x}> + b) を持つ単一ニューロンを勾配降下を用いて学習するという根本的な問題を理論的に研究する。 おそらく、これはバイアスのないケース(かつては単一ニューロンに焦点をあてていた)と、最適化幾何学といくつかのシナリオにおいて勾配法が成功する能力の両方において、かなり異なる、より難しい問題であることを示している。 我々は,この問題に関する詳細な研究を行い,目的の臨界点を特徴付け,失敗事例を示し,様々な仮定の下での正の収束保証を提供する。 結果を証明するために、独立した関心を持つツールを開発し、単一ニューロンを学習する前の結果を改善する。

We theoretically study the fundamental problem of learning a single neuron with a bias term ($\mathbf{x} \mapsto \sigma(<\mathbf{w},\mathbf{x}> + b)$) in the realizable setting with the ReLU activation, using gradient descent. Perhaps surprisingly, we show that this is a significantly different and more challenging problem than the bias-less case (which was the focus of previous works on single neurons), both in terms of the optimization geometry as well as the ability of gradient methods to succeed in some scenarios. We provide a detailed study of this problem, characterizing the critical points of the objective, demonstrating failure cases, and providing positive convergence guarantees under different sets of assumptions. To prove our results, we develop some tools which may be of independent interest, and improve previous results on learning single neurons.
翻訳日:2021-06-03 14:39:48 公開日:2021-06-02
# 超解法レジームにおけるウェーブベース逆問題解決のための高精度かつロバストなディープラーニングフレームワーク

Accurate and Robust Deep Learning Framework for Solving Wave-Based Inverse Problems in the Super-Resolution Regime ( http://arxiv.org/abs/2106.01143v1 )

ライセンス: Link先を確認
Matthew Li, Laurent Demanet, Leonardo Zepeda-N\'u\~nez(参考訳) 本稿では,すべての長さスケールにわたる逆波散乱問題を包括的に解決するエンドツーエンドのディープラーニングフレームワークを提案する。 本フレームワークは,新たに導入された広帯域バタフライネットワークと,トレーニング中に動的にノイズを注入する簡単なトレーニング手順から構成される。 我々の訓練されたネットワークは、古典的な撮像方式で競争的な結果をもたらすが、最も注目すべきは、他の同等の手法が失敗する超解像方式でも成功することだ。 これは、(i)波長以下の幾何学的特徴を持つ散乱器の再構成と、(ii)2つ以上の散乱器を古典的な回折限界以下で分離した場合の正確な撮像の両方を含む。 これらの特性は, 強い雑音の存在下においても保持され, トレーニングセットにこれまでなかった散乱体にまで拡張されることを示す。 さらに、当社のネットワークはリスタート不要のトレーニングが簡単で、最適化ベースのアルゴリズムよりも桁違いに速いオンラインランタイムを備えています。 我々は,様々な散乱媒質を用いて実験を行い,振動波散乱データに特化する古典的インバージョンと競合するネットワークアーキテクチャの両方に優れた性能を示す。

We propose an end-to-end deep learning framework that comprehensively solves the inverse wave scattering problem across all length scales. Our framework consists of the newly introduced wide-band butterfly network coupled with a simple training procedure that dynamically injects noise during training. While our trained network provides competitive results in classical imaging regimes, most notably it also succeeds in the super-resolution regime where other comparable methods fail. This encompasses both (i) reconstruction of scatterers with sub-wavelength geometric features, and (ii) accurate imaging when two or more scatterers are separated by less than the classical diffraction limit. We demonstrate these properties are retained even in the presence of strong noise and extend to scatterers not previously seen in the training set. In addition, our network is straightforward to train requiring no restarts and has an online runtime that is an order of magnitude faster than optimization-based algorithms. We perform experiments with a variety of wave scattering mediums and we demonstrate that our proposed framework outperforms both classical inversion and competing network architectures that specialize in oscillatory wave scattering data.
翻訳日:2021-06-03 14:39:30 公開日:2021-06-02
# 文字レベル埋め込みと多段階注意U-Netによるエンドツーエンド情報抽出

End-to-End Information Extraction by Character-Level Embedding and Multi-Stage Attentional U-Net ( http://arxiv.org/abs/2106.00952v1 )

ライセンス: Link先を確認
Tuan-Anh Nguyen Dang and Dat-Thanh Nguyen(参考訳) 請求書やレシート,銀行振替など,構造化されていない大量の文書をデジタル化する必要性から,近年,文書画像からの情報抽出が注目されている。 本稿では,文書の2次元キャラクタグリッド埋め込みに関するエンドツーエンド情報抽出のための新しいディープラーニングアーキテクチャ,すなわち \textit{multi-stage attentional u-net}を提案する。 2次元要素間のテキストと空間の関係を効果的に把握するために,本モデルは,自己保持機構とボックス畳み込みの効率的な利用と合わせて,特殊な多段エンコーダデコーダ設計を利用する。 異なるデータセットに対する実験結果から,40 % のパラメータを用いてベースラインの U-Net アーキテクチャよりも高い性能を示した。 さらに、誤ったOCRのベースラインと限られたトレーニングデータシナリオも大幅に改善され、現実のアプリケーションでは実用的になる。

Information extraction from document images has received a lot of attention recently, due to the need for digitizing a large volume of unstructured documents such as invoices, receipts, bank transfers, etc. In this paper, we propose a novel deep learning architecture for end-to-end information extraction on the 2D character-grid embedding of the document, namely the \textit{Multi-Stage Attentional U-Net}. To effectively capture the textual and spatial relations between 2D elements, our model leverages a specialized multi-stage encoder-decoders design, in conjunction with efficient uses of the self-attention mechanism and the box convolution. Experimental results on different datasets show that our model outperforms the baseline U-Net architecture by a large margin while using 40\% fewer parameters. Moreover, it also significantly improved the baseline in erroneous OCR and limited training data scenario, thus becomes practical for real-world applications.
翻訳日:2021-06-03 14:39:10 公開日:2021-06-02
# 3次元解剖学的脳MRIにおけるCNNのベンチマーク:アーキテクチャ、データ拡張、ディープラーニング

Benchmarking CNN on 3D Anatomical Brain MRI: Architectures, Data Augmentation and Deep Ensemble Learning ( http://arxiv.org/abs/2106.01132v1 )

ライセンス: Link先を確認
Benoit Dufumier, Pietro Gori, Ilaria Battaglia, Julie Victor, Antoine Grigis, Edouard Duchesnay(参考訳) ディープラーニング(DL)、特にCNNモデルは、さまざまなビジョンタスクのデファクトメソッドとなり、従来の機械学習(ML)メソッドよりも優れています。 その結果、特に表現型予測やコンピュータ支援診断において、神経画像の分野で多くの注目を集めた。 しかしながら、現在の研究の多くは、特定の前処理パイプラインやカスタムCNNアーキテクチャとともに、小さなシングルサイトコホートを扱うことが多いため、比較するのは困難である。 本稿では,Voxel-Based Morphometry(VBM)前処理と準RAW画像の両面から,データ拡張と深層アンサンブル学習の利点を評価するため,最近のSOTA(State-of-the-ar t)3D CNNの広範なベンチマークを提案する。 年齢予測,性別分類,統合失調症診断の3つの課題について,N=10kスキャンを含む多地点脳解剖学的MRIデータセットを用いて実験を行った。 その結果,VBM画像の予測精度は準RAWデータよりも有意に向上した。 トレーニングセットが10kサンプルに近づき、準ローデータがほぼVBMの性能に達すると、この発見は進化した。 さらに,線形モデルはVBMデータ上でSOTA CNNと同等に動作することを示した。 また、DenseNetとSmall-DenseNetは、私たちが提案したより軽量なバージョンで、すべてのデータ構造のパフォーマンスにおいて良い妥協をもたらすことを実証しました。 したがって、既定のアーキテクチャとして採用することを提案する。 また,N=10kのマルチサイトイメージをトレーニングしても,現在のCNNは依然として買収サイトに偏っていることも確認した。 この文脈では、VBM前処理は、このサイト効果を制限する効率的な方法を提供する。 驚いたことに、データ拡張技術の明確なメリットは見つからなかった。 最後に,大規模CNNモデルの校正に深層アンサンブル学習が適していることを確認した。

Deep Learning (DL) and specifically CNN models have become a de facto method for a wide range of vision tasks, outperforming traditional machine learning (ML) methods. Consequently, they drew a lot of attention in the neuroimaging field in particular for phenotype prediction or computer-aided diagnosis. However, most of the current studies often deal with small single-site cohorts, along with a specific pre-processing pipeline and custom CNN architectures, which make them difficult to compare to. We propose an extensive benchmark of recent state-of-the-art (SOTA) 3D CNN, evaluating also the benefits of data augmentation and deep ensemble learning, on both Voxel-Based Morphometry (VBM) pre-processing and quasi-raw images. Experiments were conducted on a large multi-site 3D brain anatomical MRI data-set comprising N=10k scans on 3 challenging tasks: age prediction, sex classification, and schizophrenia diagnosis. We found that all models provide significantly better predictions with VBM images than quasi-raw data. This finding evolved as the training set approaches 10k samples where quasi-raw data almost reach the performance of VBM. Moreover, we showed that linear models perform comparably with SOTA CNN on VBM data. We also demonstrated that DenseNet and tiny-DenseNet, a lighter version that we proposed, provide a good compromise in terms of performance in all data regime. Therefore, we suggest to employ them as the architectures by default. Critically, we also showed that current CNN are still very biased towards the acquisition site, even when trained with N=10k multi-site images. In this context, VBM pre-processing provides an efficient way to limit this site effect. Surprisingly, we did not find any clear benefit from data augmentation techniques. Finally, we proved that deep ensemble learning is well suited to re-calibrate big CNN models without sacrificing performance.
翻訳日:2021-06-03 14:38:52 公開日:2021-06-02
# nystr\"om法とばらばらな変分ガウス過程の接続と等価性

Connections and Equivalences between the Nystr\"om Method and Sparse Variational Gaussian Processes ( http://arxiv.org/abs/2106.01121v1 )

ライセンス: Link先を確認
Veit Wild, Motonobu Kanagawa, Dino Sejdinovic(参考訳) 我々は,Nystr\"om法とSparse Variational Gaussian Processes (SVGP)に着目し,カーネル法とガウス過程(GP)を大規模データに拡張するためのスパース近似手法の関連性を検討する。 gps とカーネル法に対するスパース近似法は代数的類似性を共有しているが、文献にはそれらの関係性についての深い理解が欠けている。 これはGPコミュニティとカーネルコミュニティの間の通信の障害になり得るため、一方からもう一方へ結果の転送が困難になる。 我々のモチベーションは、GPとカーネルメソッドのスパース近似の接続を明確にすることで、この可能な障害を取り除くことである。 本研究では,回帰問題の文脈において,nystr\"omとsvgp近似という2つの一般的なアプローチを研究し,それらの関係と等価性を確立する。 特に、svgp近似の rkhs 解釈を提供し、svgp のエビデンス下限が nystr\"om 近似の目的関数を含むことを示し、2つのアプローチの間の代数的同値の起源を明らかにする。 また,最近確立された SVGP の収束結果と Nystr\"om 法の近似品質との関連性についても検討した。

We investigate the connections between sparse approximation methods for making kernel methods and Gaussian processes (GPs) scalable to massive data, focusing on the Nystr\"om method and the Sparse Variational Gaussian Processes (SVGP). While sparse approximation methods for GPs and kernel methods share some algebraic similarities, the literature lacks a deep understanding of how and why they are related. This is a possible obstacle for the communications between the GP and kernel communities, making it difficult to transfer results from one side to the other. Our motivation is to remove this possible obstacle, by clarifying the connections between the sparse approximations for GPs and kernel methods. In this work, we study the two popular approaches, the Nystr\"om and SVGP approximations, in the context of a regression problem, and establish various connections and equivalences between them. In particular, we provide an RKHS interpretation of the SVGP approximation, and show that the Evidence Lower Bound of the SVGP contains the objective function of the Nystr\"om approximation, revealing the origin of the algebraic equivalence between the two approaches. We also study recently established convergence results for the SVGP and how they are related to the approximation quality of the Nystr\"om method.
翻訳日:2021-06-03 14:38:22 公開日:2021-06-02
# 重み付きデータを用いた微分プライベート確率凸最適化の精度向上

Improved Rates for Differentially Private Stochastic Convex Optimization with Heavy-Tailed Data ( http://arxiv.org/abs/2106.01336v1 )

ライセンス: Link先を確認
Gautam Kamath, Xingtu Liu, Huanyu Zhang(参考訳) 差分プライバシーの制約の下で,重み付きデータを用いた確率凸最適化について検討した。 この問題に関するほとんどの先行研究は、損失関数がリプシッツである場合に限られる。 代わりに、Wang, Xiao, Devadas, Xu によって導入されたように、勾配の分布が k$-次モーメントに有界であるという仮定で一般凸損失函数を研究する。 我々は、それぞれ凸と強い凸損失関数に対して、近似微分プライバシーの下で、過剰な集団リスクを$\tilde{O}\left(\sqrt {\frac{d}{n}}+\left(\frac{d}{\epsilon n}\right)^{\frac{k-1}{k}}\right)$と$\tilde{O}\left(\frac{d}{n}+\left(\frac{d}{\epsilon n}\right)^{\frac{2k-2}{k}}\right)$で改善した上限を提供する。 また、純粋な微分プライバシーの制約の下で下限とほぼ一致することを証明し、我々の境界が厳密であることの強い証拠を与えます。

We study stochastic convex optimization with heavy-tailed data under the constraint of differential privacy. Most prior work on this problem is restricted to the case where the loss function is Lipschitz. Instead, as introduced by Wang, Xiao, Devadas, and Xu, we study general convex loss functions with the assumption that the distribution of gradients has bounded $k$-th moments. We provide improved upper bounds on the excess population risk under approximate differential privacy of $\tilde{O}\left(\sqrt{\frac{d}{n}}+\left(\frac{d}{\epsilon n}\right)^{\frac{k-1}{k}}\right)$ and $\tilde{O}\left(\frac{d}{n}+\left(\frac{d}{\epsilon n}\right)^{\frac{2k-2}{k}}\right)$ for convex and strongly convex loss functions, respectively. We also prove nearly-matching lower bounds under the constraint of pure differential privacy, giving strong evidence that our bounds are tight.
翻訳日:2021-06-03 14:37:59 公開日:2021-06-02
# トランスフォーマによる算術語問題の解法と問題テキストの前処理

Solving Arithmetic Word Problems with Transformers and Preprocessing of Problem Text ( http://arxiv.org/abs/2106.00893v1 )

ライセンス: Link先を確認
Kaden Griffith and Jugal Kalita(参考訳) 本稿では, infix, prefix, postfix 表記法において, 数学用語問題を等価な算術式に変換するために訓練されたトランスフォーマーネットワークの利用について概説する。 我々は、多くの神経構成の結果を比較し、4つのデータセットのうち3つで報告されたアプローチよりも多くの構成が優れており、20パーセンテージ以上の精度が大幅に向上していることを見出した。 最高のニューラルネットワークアプローチは、いくつかのデータセットの以前の最先端と比較して精度を30%向上させる。

This paper outlines the use of Transformer networks trained to translate math word problems to equivalent arithmetic expressions in infix, prefix, and postfix notations. We compare results produced by many neural configurations and find that most configurations outperform previously reported approaches on three of four datasets with significant increases in accuracy of over 20 percentage points. The best neural approaches boost accuracy by 30% when compared to the previous state-of-the-art on some datasets.
翻訳日:2021-06-03 14:36:29 公開日:2021-06-02
# 普遍文エンコーダとしての離散コサイン変換

Discrete Cosine Transform as Universal Sentence Encoder ( http://arxiv.org/abs/2106.00934v1 )

ライセンス: Link先を確認
Nada Almarwani and Mona Diab(参考訳) 現代の文エンコーダは、句、文、段落を含む単語列の根底にある言語特性をキャプチャする密度の高いベクトル表現を生成するために使用される。 このような表現は、感情分析、質問応答、テキスト分類などの最終タスクの分類器を訓練するのに理想的です。 事前学習プロトコルで使用する汎用文表現を効率よく生成するモデルが提案されている。 平均化が最もよく使われる文エンコーダであるのに対し、離散コサイン変換(DCT)は、最近、平均化よりも実用的な効率を損なうことなく、与えられたテキストの基本的な構文特性をキャプチャする代替手段として提案されている。 しかし、他のほとんどの文エンコーダと同様に、DCT文エンコーダは英語でのみ評価された。 この目的のために、DCTエンコーダを用いて、ドイツ語、フランス語、スペイン語、ロシア語など様々な言語に対して普遍的な文表現を生成する。 実験結果から,複数の標準データセット上での強いベースライン上で一貫した性能向上を実現するDCT符号化の有効性が明らかとなった。

Modern sentence encoders are used to generate dense vector representations that capture the underlying linguistic characteristics for a sequence of words, including phrases, sentences, or paragraphs. These kinds of representations are ideal for training a classifier for an end task such as sentiment analysis, question answering and text classification. Different models have been proposed to efficiently generate general purpose sentence representations to be used in pretraining protocols. While averaging is the most commonly used efficient sentence encoder, Discrete Cosine Transform (DCT) was recently proposed as an alternative that captures the underlying syntactic characteristics of a given text without compromising practical efficiency compared to averaging. However, as with most other sentence encoders, the DCT sentence encoder was only evaluated in English. To this end, we utilize DCT encoder to generate universal sentence representation for different languages such as German, French, Spanish and Russian. The experimental results clearly show the superior effectiveness of DCT encoding in which consistent performance improvements are achieved over strong baselines on multiple standardized datasets.
翻訳日:2021-06-03 14:36:22 公開日:2021-06-02
# Evidence-based Fact Checking のためのマルチレベル注意モデル

A Multi-Level Attention Model for Evidence-Based Fact Checking ( http://arxiv.org/abs/2106.00950v1 )

ライセンス: Link先を確認
Canasai Kruengkrai, Junichi Yamagishi, Xin Wang(参考訳) 証拠に基づく事実チェックは、テキストソースから抽出された証拠に対する主張の真偽を検証することを目的としている。 主張と証拠の関係を効果的に捉える表現を学ぶことは困難である。 最近の最先端のアプローチは、グラフ構造に基づく洗練されたモデルの開発が進んでいる。 シーケンス構造をトレーニング可能な,シンプルなモデルを提案する。 本モデルは,異なるレベルでの相互注意を可能とし,共同訓練の恩恵を受ける。 事実抽出・検証のための大規模データセット(fever)の結果,本モデルがグラフベースアプローチを上回っており,ラベル精度とフィーバースコアのそれぞれ1.09%,1.42%向上していることがわかった。

Evidence-based fact checking aims to verify the truthfulness of a claim against evidence extracted from textual sources. Learning a representation that effectively captures relations between a claim and evidence can be challenging. Recent state-of-the-art approaches have developed increasingly sophisticated models based on graph structures. We present a simple model that can be trained on sequence structures. Our model enables inter-sentence attentions at different levels and can benefit from joint training. Results on a large-scale dataset for Fact Extraction and VERification (FEVER) show that our model outperforms the graph-based approaches and yields 1.09% and 1.42% improvements in label accuracy and FEVER score, respectively, over the best published model.
翻訳日:2021-06-03 14:36:03 公開日:2021-06-02
# 検索型質問応答システムのための回答生成

Answer Generation for Retrieval-based Question Answering Systems ( http://arxiv.org/abs/2106.00955v1 )

ライセンス: Link先を確認
Chao-Chun Hsu, Eric Lind, Luca Soldaini, Alessandro Moschitti(参考訳) 近年のトランスフォーマーベースモデルの進歩により,質問回答システム(QA)による正しい回答を提供する能力が大幅に向上し,特に検索ベースシステムの中核コンポーネントである回答文選択モデル(AS2)が目覚ましい結果を得た。 一般的には有効だが、たとえ正しい情報を含んでいても、検索された全ての候補者が品質が悪い場合、これらのモデルは満足のいく答えを提供しない。 AS2では、与えられた質問に対して検索された候補のうち、最高の回答文を選択するためにモデルが訓練される。 本稿では,AS2トップ候補の集合から回答を生成することを提案する。 最適な候補を選択するのではなく、候補セットから回答を生成するためにシーケンスからシーケンストランスフォーマモデルを訓練する。 3つの英語as2データセットで行ったテストでは、最先端よりも精度が最大32点向上しました。

Recent advancements in transformer-based models have greatly improved the ability of Question Answering (QA) systems to provide correct answers; in particular, answer sentence selection (AS2) models, core components of retrieval-based systems, have achieved impressive results. While generally effective, these models fail to provide a satisfying answer when all retrieved candidates are of poor quality, even if they contain correct information. In AS2, models are trained to select the best answer sentence among a set of candidates retrieved for a given question. In this work, we propose to generate answers from a set of AS2 top candidates. Rather than selecting the best candidate, we train a sequence to sequence transformer model to generate an answer from a candidate set. Our tests on three English AS2 datasets show improvement up to 32 absolute points in accuracy over the state of the art.
翻訳日:2021-06-03 14:35:51 公開日:2021-06-02
# revcore:レビューによるリコメンデーション

RevCore: Review-augmented Conversational Recommendation ( http://arxiv.org/abs/2106.00957v1 )

ライセンス: Link先を確認
Yu Lu, Junwei Bao, Yan Song, Zichen Ma, Shuguang Cui, Youzheng Wu, and Xiaodong He(参考訳) 既存の会話レコメンデーション(CR)システムは通常、短い対話履歴や馴染みのない項目で行うと、不十分な項目情報に悩まされる。 外部情報(例えばレビュー)を組み込むことは、この問題を軽減する潜在的な解決策である。 レビューは、様々な関心事に関するリッチで詳細なユーザーエクスペリエンスを提供することが多いので、情報的な会話の中で高品質なレコメンデーションを提供するのに理想的なリソースである。 本稿では、レビューをシームレスに組み込んでアイテム情報を充実させ、コヒーレントかつインフォメーションな応答を生成するための新しいエンド・ツー・エンドのフレームワーク、revcore(review-augme nted conversational recommender)を設計した。 より詳しくは、感情一貫性のあるレビューを抽出し、レビューに富んだエンティティベースの提案を行うとともに、レビューアテンティブなエンコーダデコーダを用いて応答生成を行う。 実験の結果,提案手法は,推薦と会話の反応の両方において,優れた性能が得られることが示された。

Existing conversational recommendation (CR) systems usually suffer from insufficient item information when conducted on short dialogue history and unfamiliar items. Incorporating external information (e.g., reviews) is a potential solution to alleviate this problem. Given that reviews often provide a rich and detailed user experience on different interests, they are potential ideal resources for providing high-quality recommendations within an informative conversation. In this paper, we design a novel end-to-end framework, namely, Review-augmented Conversational Recommender (RevCore), where reviews are seamlessly incorporated to enrich item information and assist in generating both coherent and informative responses. In detail, we extract sentiment-consistent reviews, perform review-enriched and entity-based recommendations for item suggestions, as well as use a review-attentive encoder-decoder for response generation. Experimental results demonstrate the superiority of our approach in yielding better performance on both recommendation and conversation responding.
翻訳日:2021-06-03 14:35:37 公開日:2021-06-02
# モーメントインパクト分類のための談話構造探索

Exploring Discourse Structures for Argument Impact Classification ( http://arxiv.org/abs/2106.00976v1 )

ライセンス: Link先を確認
Xin Liu, Jiefu Ou, Yangqiu Song, Xin Jiang(参考訳) 議論間の談話関係は議論の論理的構造を明らかにする。 しかしながら、議論関係の順序がクレームの影響にどのように影響するかを明示的に研究する以前の研究はない。 本稿では,文脈経路に沿った2つの議論間の談話関係が,議論の説得力を特定する上で不可欠な要因であることを実証的に示す。 さらに,大規模言語モデルから派生した文脈的特徴を持つ文レベル構造談話情報を注入・融合するDisCOCを提案する。 実験結果と広範囲な分析により,文脈やテキストを明示的にモデル化する注意機構とゲート機構が,Durmusらによって定義された議論影響分類作業に役立つことが明らかとなった。 (2019)と分類されるクレームの文脈パス間の談話構造により,さらに性能が向上する。

Discourse relations among arguments reveal logical structures of a debate conversation. However, no prior work has explicitly studied how the sequence of discourse relations influence a claim's impact. This paper empirically shows that the discourse relations between two arguments along the context path are essential factors for identifying the persuasive power of an argument. We further propose DisCOC to inject and fuse the sentence-level structural discourse information with contextualized features derived from large-scale language models. Experimental results and extensive analysis show that the attention and gate mechanisms that explicitly model contexts and texts can indeed help the argument impact classification task defined by Durmus et al. (2019), and discourse structures among the context path of the claim to be classified can further boost the performance.
翻訳日:2021-06-03 14:35:19 公開日:2021-06-02
# 機械読解モデルがショートカットを学習する理由

Why Machine Reading Comprehension Models Learn Shortcuts? ( http://arxiv.org/abs/2106.01024v1 )

ライセンス: Link先を確認
Yuxuan Lai, Chen Zhang, Yansong Feng, Quzhe Huang, and Dongyan Zhao(参考訳) 近年の研究では、多くの機械学習理解モデル(MRC)が、ベンチマークデータセット上で人間に近づいたり、より良く動作することが報告されている。 しかし、既存の研究によると、多くのmrcモデルがこれらのベンチマークを上回るショートカットを学ぶ可能性があるが、実際のアプリケーションでは性能が不十分である。 本研究では,期待される理解スキルではなく,これらのモデルがショートカットを学習する理由を探る。 現在のデータセットの多くの質問がショートカットのソリューションを持っているという観察に基づいて、トレーニングデータにおけるショートカットの質問の大部分が、モデルを過度にショートカットのトリックに依存していると論じる。 この仮説を検討するために,質問に対してショートカットソリューションを用いて回答できるかどうかを示すアノテーション付き合成データセットを2つ慎重に設計する。 さらに,ショートカットと挑戦的質問に関する学習難度を定量的に解析する2つの新しい手法を提案し,その2つの質問の異なるパフォーマンスの背後にある固有の学習メカニズムを明らかにする。 徹底的な実証分析により、MCCモデルは挑戦的な質問よりも早くショートカットの質問を学習する傾向にあり、トレーニングセットにおけるショートカットの質問の割合は、訓練後期の洗練された推論スキルの探索を妨げることが示された。

Recent studies report that many machine reading comprehension (MRC) models can perform closely to or even better than humans on benchmark datasets. However, existing works indicate that many MRC models may learn shortcuts to outwit these benchmarks, but the performance is unsatisfactory in real-world applications. In this work, we attempt to explore, instead of the expected comprehension skills, why these models learn the shortcuts. Based on the observation that a large portion of questions in current datasets have shortcut solutions, we argue that larger proportion of shortcut questions in training data make models rely on shortcut tricks excessively. To investigate this hypothesis, we carefully design two synthetic datasets with annotations that indicate whether a question can be answered using shortcut solutions. We further propose two new methods to quantitatively analyze the learning difficulty regarding shortcut and challenging questions, and revealing the inherent learning mechanism behind the different performance between the two kinds of questions. A thorough empirical analysis shows that MRC models tend to learn shortcut questions earlier than challenging questions, and the high proportions of shortcut questions in training sets hinder models from exploring the sophisticated reasoning skills in the later stage of training.
翻訳日:2021-06-03 14:35:10 公開日:2021-06-02
# 人工言語を用いたニューラルネットワークモデルの帰納バイアスの検討

Examining the Inductive Bias of Neural Language Models with Artificial Languages ( http://arxiv.org/abs/2106.01044v1 )

ライセンス: Link先を確認
Jennifer C. White and Ryan Cotterell(参考訳) 言語モデルは多種多様な言語をモデル化するために使用されるため、タスクに使用されるニューラルアーキテクチャが特定のタイプの言語をモデル化するための帰納的バイアスを持つかどうかを問うのは当然である。 これらのバイアスの調査は、実験装置に現れる多くの変数のために複雑であることが証明された。 言語は多種多様であり,共同創設者としての役割を果たさずに1つか2つの言語を抽出することは困難である。 本稿では,人工言語を用いた言語モデルの帰納バイアスを調べる新しい手法を提案する。 これらの言語は、単語順などのタイプ論的特徴のみが異なる言語にまたがって並列コーパスを作成できるように構築されています。 次に、それらを言語モデルのトレーニングとテストに使用します。 これは完全に制御された因果関係のフレームワークを構成し、文法工学がニューラルモデルを分析するのに有用なツールであることを示す。 lstmsは単語の順序付けに関してあまり好ましくないが、トランスフォーマーは他の命令よりも明確な選好を示す。 さらに、LSTMの帰納バイアスも変換器のバイアスも、証明された自然言語で見られる傾向を反映していないことが判明した。

Since language models are used to model a wide variety of languages, it is natural to ask whether the neural architectures used for the task have inductive biases towards modeling particular types of languages. Investigation of these biases has proved complicated due to the many variables that appear in the experimental setup. Languages vary in many typological dimensions, and it is difficult to single out one or two to investigate without the others acting as confounders. We propose a novel method for investigating the inductive biases of language models using artificial languages. These languages are constructed to allow us to create parallel corpora across languages that differ only in the typological feature being investigated, such as word order. We then use them to train and test language models. This constitutes a fully controlled causal framework, and demonstrates how grammar engineering can serve as a useful tool for analyzing neural models. Using this method, we find that commonly used neural architectures exhibit different inductive biases: LSTMs display little preference with respect to word ordering, while transformers display a clear preference for some orderings over others. Further, we find that neither the inductive bias of the LSTM nor that of the transformer appears to reflect any tendencies that we see in attested natural languages.
翻訳日:2021-06-03 14:34:49 公開日:2021-06-02
# キャッケード対直接音声翻訳:違いは相変わらず変わるのか?

Cascade versus Direct Speech Translation: Do the Differences Still Make a Difference? ( http://arxiv.org/abs/2106.01045v1 )

ライセンス: Link先を確認
Luisa Bentivogli, Mauro Cettolo, Marco Gaido, Alina Karakanta, Alberto Martinelli, Matteo Negri, Marco Turchi(参考訳) 最初の概念実証から5年後、音声翻訳(ST)への直接的なアプローチは、従来のカスケードソリューションと競合している。 この着実な進歩を踏まえて、両者のパフォーマンスギャップは閉じていると主張することができるだろうか? この質問から,2つのパラダイムを表す最先端システム間の体系的比較を提案する。 3つの言語方向(英語・ドイツ語・イタリア語・スペイン語)に注目して,高品質なポストエディタとアノテーションを活用した自動的・手作業による評価を行った。 i) 2つのパラダイム間のギャップは閉じており、i) それらの振る舞いで観察される微妙な違いは、人間が区別しても、他方よりも1つの方が好ましくもないのに十分ではない。

Five years after the first published proofs of concept, direct approaches to speech translation (ST) are now competing with traditional cascade solutions. In light of this steady progress, can we claim that the performance gap between the two is closed? Starting from this question, we present a systematic comparison between state-of-the-art systems representative of the two paradigms. Focusing on three language directions (English-German/Ital ian/Spanish), we conduct automatic and manual evaluations, exploiting high-quality professional post-edits and annotations. Our multi-faceted analysis on one of the few publicly available ST benchmarks attests for the first time that: i) the gap between the two paradigms is now closed, and ii) the subtle differences observed in their behavior are not sufficient for humans neither to distinguish them nor to prefer one over the other.
翻訳日:2021-06-03 14:34:28 公開日:2021-06-02
# 外部言語のためのMinimaxとNeyman-Pearsonメタラーニング

Minimax and Neyman-Pearson Meta-Learning for Outlier Languages ( http://arxiv.org/abs/2106.01051v1 )

ライセンス: Link先を確認
Edoardo Maria Ponti, Rahul Aralikatte, Disha Shrivastava, Siva Reddy, Anders S{\o}gaard(参考訳) モデルに依存しないメタラーニング(MAML)は、最近、サンプル効率のよい方法でリソースの乏しい言語を学習する戦略として提案されている。 それにもかかわらず、これらの言語の特性はしばしば訓練中に利用可能なものによく表されない。 したがって、我々はi.i.d.を主張する。 MAMLの仮定は言語間NLPに不適である。 実際、意思決定理論の枠組みの下では、mamlは(一様事前で)トレーニング言語間で予想されるリスクを最小限に抑えるものとして解釈することができる。 一方,Neyman-Pearson MAMLは各言語のリスクを最大しきい値に制限するのに対して,Minimax MAMLは言語間のリスクを最大に抑える。 どちらの基準も完全に差別化可能な2プレイヤーゲームである。 そこで本研究では,Nash平衡に対する局所近似に対する適応的最適解法を提案する。 2つの一般的なNLPタスク(音声タグ付けと質問応答)におけるモデル変異の評価を行った。 マルチソーストランスファーとバニラMAMLと比較して,低リソース言語におけるゼロおよび少数ショット設定における平均および最小パフォーマンスのゲインを報告する。

Model-agnostic meta-learning (MAML) has been recently put forth as a strategy to learn resource-poor languages in a sample-efficient fashion. Nevertheless, the properties of these languages are often not well represented by those available during training. Hence, we argue that the i.i.d. assumption ingrained in MAML makes it ill-suited for cross-lingual NLP. In fact, under a decision-theoretic framework, MAML can be interpreted as minimising the expected risk across training languages (with a uniform prior), which is known as Bayes criterion. To increase its robustness to outlier languages, we create two variants of MAML based on alternative criteria: Minimax MAML reduces the maximum risk across languages, while Neyman-Pearson MAML constrains the risk in each language to a maximum threshold. Both criteria constitute fully differentiable two-player games. In light of this, we propose a new adaptive optimiser solving for a local approximation to their Nash equilibrium. We evaluate both model variants on two popular NLP tasks, part-of-speech tagging and question answering. We report gains for their average and minimum performance across low-resource languages in zero- and few-shot settings, compared to joint multi-source transfer and vanilla MAML.
翻訳日:2021-06-03 14:34:16 公開日:2021-06-02
# 同期置換に対するテキスト-SQLモデルのロバスト性に向けて

Towards Robustness of Text-to-SQL Models against Synonym Substitution ( http://arxiv.org/abs/2106.01065v1 )

ライセンス: Link先を確認
Yujian Gan, Xinyun Chen, Qiuping Huang, Matthew Purver, John R. Woodward, Jinxia Xie, Pengsheng Huang(参考訳) 近年,テキスト記述をSQLクエリに変換するニューラルネットワークの研究が著しく進展している。 いくつかの公開ベンチマークで優れたパフォーマンスを達成したにもかかわらず、既存のtext-to-sqlモデルは、典型的には自然言語(nl)の単語とテーブルスキーマのトークンの辞書マッチングに依存している。 本研究では,テキスト間SQLモデルの同義置換に対する堅牢性について検討する。 特に,テキスト・トゥ・SQL翻訳のためのSpiderベンチマークに基づく人間計算データセットであるSpider-Synを紹介する。 spider-synのnl質問は、スキーマ関連の単語を現実世界の質問パラフレーズを反映した手動で選択したシノニムに置き換えることで、スパイダーから修正される。 我々は,NL問合せとテーブルスキーマとの明示的な対応を排除し,その精度を劇的に低下させることを観察した。 最後に,モデルロバスト性を改善するための2つのアプローチについて述べる。 アプローチの第1カテゴリは、モデル入力を変更することでテーブルスキーマに対する追加の同義語アノテーションを使用し、第2カテゴリは敵の訓練に基づいている。 両アプローチのカテゴリが防御なしで相手を著しく上回り,第1カテゴリのアプローチがより効果的であることを実証した。

Recently, there has been significant progress in studying neural networks to translate text descriptions into SQL queries. Despite achieving good performance on some public benchmarks, existing text-to-SQL models typically rely on the lexical matching between words in natural language (NL) questions and tokens in table schemas, which may render the models vulnerable to attacks that break the schema linking mechanism. In this work, we investigate the robustness of text-to-SQL models to synonym substitution. In particular, we introduce Spider-Syn, a human-curated dataset based on the Spider benchmark for text-to-SQL translation. NL questions in Spider-Syn are modified from Spider, by replacing their schema-related words with manually selected synonyms that reflect real-world question paraphrases. We observe that the accuracy dramatically drops by eliminating such explicit correspondence between NL questions and table schemas, even if the synonyms are not adversarially selected to conduct worst-case adversarial attacks. Finally, we present two categories of approaches to improve the model robustness. The first category of approaches utilizes additional synonym annotations for table schemas by modifying the model input, while the second category is based on adversarial training. We demonstrate that both categories of approaches significantly outperform their counterparts without the defense, and the first category of approaches are more effective.
翻訳日:2021-06-03 14:33:56 公開日:2021-06-02
# 対話感情検出のための話題駆動・知識認識変換器

Topic-Driven and Knowledge-Aware Transformer for Dialogue Emotion Detection ( http://arxiv.org/abs/2106.01071v1 )

ライセンス: Link先を確認
Lixing Zhu and Gabriele Pergola and Lin Gui and Deyu Zhou and Yulan He(参考訳) 対話における感情検出は、会話の基礎となる主題の特定、関連する常識知識、感情状態間の複雑な遷移パターンを必要とするため、難しい。 本稿では,上記の課題に対処するトピック駆動型知識認識変換器を提案する。 まず、トピック検出に特化した追加レイヤを持つトピック拡張言語モデル(LM)を設計する。 トピック拡張LMは、対話コンテキスト情報に基づく知識ベースから派生したコモンセンスステートメントと結合される。 最後に、変圧器ベースのエンコーダ−デコーダアーキテクチャが、話題情報と常識情報を融合し、感情ラベルシーケンス予測を行う。 このモデルは、対話感情検出の4つのデータセットで実験され、既存の最先端アプローチよりも実証的に優れていることを示している。 定量的および質的な結果は、モデルが感情カテゴリーの識別に役立つトピックを発見できることを示している。

Emotion detection in dialogues is challenging as it often requires the identification of thematic topics underlying a conversation, the relevant commonsense knowledge, and the intricate transition patterns between the affective states. In this paper, we propose a Topic-Driven Knowledge-Aware Transformer to handle the challenges above. We firstly design a topic-augmented language model (LM) with an additional layer specialized for topic detection. The topic-augmented LM is then combined with commonsense statements derived from a knowledge base based on the dialogue contextual information. Finally, a transformer-based encoder-decoder architecture fuses the topical and commonsense information, and performs the emotion label sequence prediction. The model has been experimented on four datasets in dialogue emotion detection, demonstrating its superiority empirically over the existing state-of-the-art approaches. Quantitative and qualitative results show that the model can discover topics which help in distinguishing emotion categories.
翻訳日:2021-06-03 14:33:33 公開日:2021-06-02
# SyGNS: 自然言語意味論に基づく体系的一般化テストベッド

SyGNS: A Systematic Generalization Testbed Based on Natural Language Semantics ( http://arxiv.org/abs/2106.01077v1 )

ライセンス: Link先を確認
Hitomi Yanaka, Koji Mineshima, Kentaro Inui(参考訳) 近年、ディープニューラルネットワーク(DNN)は、意味論的に挑戦するNLPタスクにおいて大きな成功を収めているが、DNNモデルが構成的意味を捉えることができるかどうかは不明である。 そこで本研究では,自然言語セマンティックス(SyGNS)に基づく体系的一般化テストベッドを提案する。 sygnsを用いて、量子化子や否定といった論理表現の新たな組み合わせを含む文をニューラルネットワークが体系的に解析できるかどうかをテストする。 実験により、Transformer と GRU モデルは、与えられたトレーニングインスタンスに類似しているが、他のモデルには似ていない量化器、否定器、修飾器の組み合わせに一般化できることが示されている。 また、意味表現の形式が単純であれば、見当たらない組み合わせに対する一般化性能がよいことが分かる。 SyGNSのデータとコードはhttps://github.com/v erypluming/SyGNSで公開されている。

Recently, deep neural networks (DNNs) have achieved great success in semantically challenging NLP tasks, yet it remains unclear whether DNN models can capture compositional meanings, those aspects of meaning that have been long studied in formal semantics. To investigate this issue, we propose a Systematic Generalization testbed based on Natural language Semantics (SyGNS), whose challenge is to map natural language sentences to multiple forms of scoped meaning representations, designed to account for various semantic phenomena. Using SyGNS, we test whether neural networks can systematically parse sentences involving novel combinations of logical expressions such as quantifiers and negation. Experiments show that Transformer and GRU models can generalize to unseen combinations of quantifiers, negations, and modifiers that are similar to given training instances in form, but not to the others. We also find that the generalization performance to unseen combinations is better when the form of meaning representations is simpler. The data and code for SyGNS are publicly available at https://github.com/v erypluming/SyGNS.
翻訳日:2021-06-03 14:33:20 公開日:2021-06-02
# スパース注意はより解釈可能か?

Is Sparse Attention more Interpretable? ( http://arxiv.org/abs/2106.01087v1 )

ライセンス: Link先を確認
Clara Meister, Stefan Lazov, Isabelle Augenstein, Ryan Cotterell(参考訳) 影響のある入力が強調されるという仮定の下で、モデルの解釈性を高めることにはあまり注意が払われていない。 しかし、注意分布は一般に入力自体よりもモデルの内部の表現を超越しており、この仮定が有益でないことを示唆している。 我々は注意の解釈可能性を探る最近の研究に基づいて、注意を説明可能性ツールとして使う能力にスパーシティがどう影響するかを理解するための一連の実験をデザインする。 3つのテキスト分類タスクにおいて、入力とインデックス付き中間表現の間の弱い関係のみが存在することを検証する。 さらに,注意度分布のばらつきから,他の経路を経由する影響のある入力のばらばらな集合への妥当なマッピングは見つからなかった。 むしろ、この環境では、スパーシリティを誘発することで、モデルの振る舞いを理解するツールとして注意が使われる可能性が低くなることを観察する。

Sparse attention has been claimed to increase model interpretability under the assumption that it highlights influential inputs. Yet the attention distribution is typically over representations internal to the model rather than the inputs themselves, suggesting this assumption may not have merit. We build on the recent work exploring the interpretability of attention; we design a set of experiments to help us understand how sparsity affects our ability to use attention as an explainability tool. On three text classification tasks, we verify that only a weak relationship between inputs and co-indexed intermediate representations exists -- under sparse attention and otherwise. Further, we do not find any plausible mappings from sparse attention distributions to a sparse set of influential inputs through other avenues. Rather, we observe in this setting that inducing sparsity may make it less plausible that attention can be used as a tool for understanding model behavior.
翻訳日:2021-06-03 14:32:59 公開日:2021-06-02
# LGESQL: 局所的および非局所的関係を混合したライングラフ強化テキスト-SQLモデル

LGESQL: Line Graph Enhanced Text-to-SQL Model with Mixed Local and Non-Local Relations ( http://arxiv.org/abs/2106.01093v1 )

ライセンス: Link先を確認
Ruisheng Cao, Lu Chen, Zhi Chen, Su Zhu and Kai Yu(参考訳) 本研究の目的は,テキストからSQLへのタスクにおける異種グラフ符号化の問題に対処することである。 従来の方法はノード中心であり、単にエッジタイプをパラメータ化するために異なる重み行列を使用するだけで、1)エッジのトポロジ構造に埋め込まれたリッチセマンティクスを無視し、2)各ノードのローカルな関係と非ローカルな関係を区別できない。 そこで本稿では,Line Graph Enhanced Text-to-SQL(LGESQL)モデルを提案する。 線グラフにより、メッセージはノード間の接続だけでなく、有向エッジのトポロジーを通じてより効率的に伝播する。 さらに、局所的関係と非局所的関係はグラフ反復の間に識別的に統合される。 また,エンコーダの識別能力を向上させるため,グラフプルーニングと呼ばれる補助タスクを設計する。 我々のフレームワークは、書き込み時のクロスドメインテキスト-SQLベンチマークSpider上で、最先端の結果(Gloveが62.8%、Electraが72.0%)を達成する。

This work aims to tackle the challenging heterogeneous graph encoding problem in the text-to-SQL task. Previous methods are typically node-centric and merely utilize different weight matrices to parameterize edge types, which 1) ignore the rich semantics embedded in the topological structure of edges, and 2) fail to distinguish local and non-local relations for each node. To this end, we propose a Line Graph Enhanced Text-to-SQL (LGESQL) model to mine the underlying relational features without constructing meta-paths. By virtue of the line graph, messages propagate more efficiently through not only connections between nodes, but also the topology of directed edges. Furthermore, both local and non-local relations are integrated distinctively during the graph iteration. We also design an auxiliary task called graph pruning to improve the discriminative capability of the encoder. Our framework achieves state-of-the-art results (62.8% with Glove, 72.0% with Electra) on the cross-domain text-to-SQL benchmark Spider at the time of writing.
翻訳日:2021-06-03 14:32:44 公開日:2021-06-02
# NLP文学における形式的倫理的レビューの利用:歴史的動向と現状

Use of Formal Ethical Reviews in NLP Literature: Historical Trends and Current Practices ( http://arxiv.org/abs/2106.01105v1 )

ライセンス: Link先を確認
Sebastin Santy, Anku Rani, Monojit Choudhury(参考訳) 近年,言語技術研究の倫理的側面が注目されている。 専門的な倫理委員会・委員会の審査・承認を受けた人間を対象とする研究を行うのが標準的な慣行である。 nlp研究における倫理的承認について、どの程度一般的に言及されているか? どんな研究や研究の側面がこのようなレビューの対象になるのか? NLPの倫理に関する懸念や議論が高まり、NLP研究の形式的倫理的レビューの高まりも観察できるだろうか? もしそうなら、これは以前不足していた倫理的問題に対する意識が高まったことを意味するのだろうか? 我々は、aclアンソロジーの詳細な量的・質的分析を行い、認知科学、機械学習、データマイニング、システムといった他の関連する分野のトレンドと比較することで、これらの問題に対処することを目指している。

Ethical aspects of research in language technologies have received much attention recently. It is a standard practice to get a study involving human subjects reviewed and approved by a professional ethics committee/board of the institution. How commonly do we see mention of ethical approvals in NLP research? What types of research or aspects of studies are usually subject to such reviews? With the rising concerns and discourse around the ethics of NLP, do we also observe a rise in formal ethical reviews of NLP studies? And, if so, would this imply that there is a heightened awareness of ethical issues that was previously lacking? We aim to address these questions by conducting a detailed quantitative and qualitative analysis of the ACL Anthology, as well as comparing the trends in our field to those of other related disciplines, such as cognitive science, machine learning, data mining, and systems.
翻訳日:2021-06-03 14:32:24 公開日:2021-06-02
# DynaEval: ターンと対話レベルの統一評価

DynaEval: Unifying Turn and Dialogue Level Evaluation ( http://arxiv.org/abs/2106.01112v1 )

ライセンス: Link先を確認
Chen Zhang, Yiming Chen, Luis Fernando D'Haro, Yan Zhang, Thomas Friedrichs, Grandee Lee, Haizhou Li(参考訳) 対話は本質的には対話者間のマルチターン対話である。 効果的な評価基準は、そのような相互作用のダイナミクスを反映すべきである。 既存の自動メトリクスはターンレベルの品質に非常に重点を置いています。 そこで本研究では,ターンレベルの評価を行うだけでなく,対話全体の質を総合的に検討できる統一的な自動評価フレームワークdynaevalを提案する。 dynaevalでは、グラフ畳み込みネットワーク(graph convolutional network, gcn)が、グラフノードが個々の発話を表現し、エッジが1対の発話間の依存関係を表すトータルな対話をモデル化するために採用されている。 対照的な損失は、慎重に構築された負のサンプルとよく形成された対話を区別するために適用される。 実験の結果,DynaEvalは最先端の対話コヒーレンスモデルよりも優れており,旋回・対話レベルの複数の対話評価面において,人間の判断と強く相関していることがわかった。

A dialogue is essentially a multi-turn interaction among interlocutors. Effective evaluation metrics should reflect the dynamics of such interaction. Existing automatic metrics are focused very much on the turn-level quality, while ignoring such dynamics. To this end, we propose DynaEval, a unified automatic evaluation framework which is not only capable of performing turn-level evaluation, but also holistically considers the quality of the entire dialogue. In DynaEval, the graph convolutional network (GCN) is adopted to model a dialogue in totality, where the graph nodes denote each individual utterance and the edges represent the dependency between pairs of utterances. A contrastive loss is then applied to distinguish well-formed dialogues from carefully constructed negative samples. Experiments show that DynaEval significantly outperforms the state-of-the-art dialogue coherence model, and correlates strongly with human judgements across multiple dialogue evaluation aspects at both turn and dialogue level.
翻訳日:2021-06-03 14:32:10 公開日:2021-06-02
# 感情支援対話システムに向けて

Towards Emotional Support Dialog Systems ( http://arxiv.org/abs/2106.01144v1 )

ライセンス: Link先を確認
Siyang Liu, Chujie Zheng, Orianna Demasi, Sahand Sabour, Yu Li, Zhou Yu, Yong Jiang, Minlie Huang(参考訳) 感情的サポートは、社会的インタラクション、メンタルヘルスサポート、カスタマーサービスチャットなど、多くの会話シナリオにおいて重要な能力である。 適切な手順に従い、様々な支援スキルを使用することは、効果的に支援を提供するのに役立つ。 しかしながら、適切に設計されたタスクや効果的な感情支援会話のコーパスが欠如していることから、対話システムへの感情支援構築に関する研究は未解決のままである。 本稿では,感情支援対話(ESC)タスクを定義し,ヘルピングスキル理論に基づくESCフレームワークを提案する。 我々は,豊富なアノテーション(特にサポート戦略)を備えた感情支援対話データセット(esconv)をヘルプシーカーおよびサポーターモードで構築する。 効果的な感情支援の例を提供する高品質な会話のコーパスを確保するため,支援者のためのトレーニングチュートリアルの設計や,データ収集時の品質管理のメカニズムに多大な努力を払っている。 最後に,感情的支援を提供する能力に関して,最先端の対話モデルを評価する。 以上の結果から,より効果的な情緒的支援を提供するための支援戦略と,より感情的支援システムのトレーニングにおけるesconvの有用性が示唆された。

Emotional support is a crucial ability for many conversation scenarios, including social interactions, mental health support, and customer service chats. Following reasonable procedures and using various support skills can help to effectively provide support. However, due to the lack of a well-designed task and corpora of effective emotional support conversations, research on building emotional support into dialog systems remains untouched. In this paper, we define the Emotional Support Conversation (ESC) task and propose an ESC Framework, which is grounded on the Helping Skills Theory. We construct an Emotion Support Conversation dataset (ESConv) with rich annotation (especially support strategy) in a help-seeker and supporter mode. To ensure a corpus of high-quality conversations that provide examples of effective emotional support, we take extensive effort to design training tutorials for supporters and several mechanisms for quality control during data collection. Finally, we evaluate state-of-the-art dialog models with respect to the ability to provide emotional support. Our results show the importance of support strategies in providing effective emotional support and the utility of ESConv in training more emotional support systems.
翻訳日:2021-06-03 14:31:52 公開日:2021-06-02
# コンテキスト埋め込み空間における等方性改善のためのクラスタベースアプローチ

A Cluster-based Approach for Improving Isotropy in Contextual Embedding Space ( http://arxiv.org/abs/2106.01183v1 )

ライセンス: Link先を確認
Sara Rajaee and Mohammad Taher Pilehvar(参考訳) 文脈表現(cwrs)における表現変性問題は、無関係な単語が過度に正の相関を持つ異方性円錐を形成することにより、埋め込み空間の表現性が損なわれる。 この問題に対処する既存の技術は、追加の目的を持つモデルを再訓練する学習プロセスを必要とし、主に等方性を研究するためにグローバルアセスメントを採用する。 等方性に関する定量的解析から,CWRのクラスター構造により局所的な評価がより正確である可能性が示唆された。 この観察に基づいて,コンテキスト埋め込み空間におけるデジェネレーション問題に対処するローカルクラスタベース手法を提案する。 句読点や停止語を含むクラスタでは、局所的な支配方向が構造情報を符号化し、セマンティックタスクにおけるCWRのパフォーマンスを改善することができることを示す。 さらに,動詞表現における時制情報は意味論的に支配的であることがわかった。 動詞表現の主流方向を除去することで,空間をセマンティックな応用に適合させることができることを示す。 提案するクラスタベース手法は,複数のタスクにおけるデジェネレーション問題を軽減できることを実証する。

The representation degeneration problem in Contextual Word Representations (CWRs) hurts the expressiveness of the embedding space by forming an anisotropic cone where even unrelated words have excessively positive correlations. Existing techniques for tackling this issue require a learning process to re-train models with additional objectives and mostly employ a global assessment to study isotropy. Our quantitative analysis over isotropy shows that a local assessment could be more accurate due to the clustered structure of CWRs. Based on this observation, we propose a local cluster-based method to address the degeneration issue in contextual embedding spaces. We show that in clusters including punctuations and stop words, local dominant directions encode structural information, removing which can improve CWRs performance on semantic tasks. Moreover, we find that tense information in verb representations dominates sense semantics. We show that removing dominant directions of verb representations can transform the space to better suit semantic applications. Our experiments demonstrate that the proposed cluster-based method can mitigate the degeneration problem on multiple tasks.
翻訳日:2021-06-03 14:31:35 公開日:2021-06-02
# 文脈型言語モデルと階層的推論による自己監督型文書類似度ランキング

Self-Supervised Document Similarity Ranking via Contextualized Language Models and Hierarchical Inference ( http://arxiv.org/abs/2106.01186v1 )

ライセンス: Link先を確認
Dvir Ginzburg and Itzik Malkiel and Oren Barkan and Avi Caciularu and Noam Koenigstein(参考訳) 本稿では,ソース(クエリ)文書と意味的類似性に応じて文書の集合をランク付けする問題に対する新しいモデルを提案する。 文書対文書類似度ランキングの問題は研究されているが、現代の手法のほとんどは比較的短い文書に制限されているか、「根拠」類似度ラベルの存在に依存している。 しかし、ほとんどの現実世界では、類似性ラベルが利用できないため、類似性ランキングは教師なしの問題である。 さらに、理想的なモデルは文書の長さによって制限されてはならない。 そこで本稿では,任意の長さの文書に適用可能な文書類似性の自己管理手法であるSDRを紹介する。 重要なことに、SDRはLongformerの最大トークン制限4,096を超え、非常に長いドキュメントに効果的に適用できる。 大規模な文書データセットの大規模な評価は、SDRがすべての指標でその代替品を著しく上回っていることを示している。 ラベルなし文書類似度ランキングの今後の研究を加速し,コミュニティへのさらなる貢献として,文書類似度評価の人手による2つのテストセットを公表する。 SDRコードとデータセットは公開されている。

We present a novel model for the problem of ranking a collection of documents according to their semantic similarity to a source (query) document. While the problem of document-to-document similarity ranking has been studied, most modern methods are limited to relatively short documents or rely on the existence of "ground-truth" similarity labels. Yet, in most common real-world cases, similarity ranking is an unsupervised problem as similarity labels are unavailable. Moreover, an ideal model should not be restricted by documents' length. Hence, we introduce SDR, a self-supervised method for document similarity that can be applied to documents of arbitrary length. Importantly, SDR can be effectively applied to extremely long documents, exceeding the 4,096 maximal token limits of Longformer. Extensive evaluations on large document datasets show that SDR significantly outperforms its alternatives across all metrics. To accelerate future research on unlabeled long document similarity ranking, and as an additional contribution to the community, we herein publish two human-annotated test sets of long documents similarity evaluation. The SDR code and datasets are publicly available.
翻訳日:2021-06-03 14:31:18 公開日:2021-06-02
# ターゲット微調整による神経モデルの制約に基づく行動の解明

Uncovering Constraint-Based Behavior in Neural Models via Targeted Fine-Tuning ( http://arxiv.org/abs/2106.01207v1 )

ライセンス: Link先を確認
Forrest Davis and Marten van Schijndel(参考訳) 成長する文学組織は、大規模で事前訓練された言語モデルに埋め込まれた言語知識の詳細に焦点を当てている。 既存の研究により、モデルの非言語バイアスは、言語の一般化からモデルの振る舞いを遠ざけることが示されている。 非言語的モデルバイアスではなく、言語内で競合する言語プロセスが、基礎となる言語知識を曖昧にする可能性があると仮定した。 我々は、英語、中国語、スペイン語、イタリア語の4つの言語で1つの現象を探索することで、この主張を試した。 人間の行動は言語間で類似していることがわかったが、モデル行動の言語間差異は見いだされている。 言語における競合するプロセスがモデル行動の制約として機能し、ターゲットとなる微調整が学習された制約を再重み付けし、それ以外はモデルの休眠的言語知識を明らかにすることを実証する。 以上の結果から,モデルは言語における言語的制約と相対的ランキングの両方を学習する必要があることが示唆された。

A growing body of literature has focused on detailing the linguistic knowledge embedded in large, pretrained language models. Existing work has shown that non-linguistic biases in models can drive model behavior away from linguistic generalizations. We hypothesized that competing linguistic processes within a language, rather than just non-linguistic model biases, could obscure underlying linguistic knowledge. We tested this claim by exploring a single phenomenon in four languages: English, Chinese, Spanish, and Italian. While human behavior has been found to be similar across languages, we find cross-linguistic variation in model behavior. We show that competing processes in a language act as constraints on model behavior and demonstrate that targeted fine-tuning can re-weight the learned constraints, uncovering otherwise dormant linguistic knowledge in models. Our results suggest that models need to learn both the linguistic constraints in a language and their relative ranking, with mismatches in either producing non-human-like behavior.
翻訳日:2021-06-03 14:31:02 公開日:2021-06-02
# 様々なnerサブタスクのための統一生成フレームワーク

A Unified Generative Framework for Various NER Subtasks ( http://arxiv.org/abs/2106.01223v1 )

ライセンス: Link先を確認
Hang Yan, Tao Gui, Junqi Dai, Qipeng Guo, Zheng Zhang and Xipeng Qiu(参考訳) 名前付きエンティティ認識(NER)は、文中のエンティティを表すスパンを識別するタスクである。 エンティティがネストしているか不連続であるかにかかわらず、NERタスクはフラットなNER、ネストされたNER、不連続なNERサブタスクに分類される。 これらのサブタスクは主にトークンレベルのシーケンスラベリングまたはスパンレベルの分類によって解決されている。 しかし、これらのソリューションは3種類のNERサブタスクを同時に扱うことはほとんどできない。 そこで我々は,NERサブタスクをエンティティスパンシーケンス生成タスクとして定式化することを提案する。 統一されたフレームワークに基づいて、事前トレーニングされたseq2seqモデルを利用して、タグスキーマやスパンを列挙する方法を特別な設計なしに、3種類のnerサブタスクをすべて解決できます。 3種類のエンティティ表現を利用して、エンティティをシーケンスにリニア化します。 提案するフレームワークは,2つの平らなNERデータセット,3つのネストされたNERデータセット,および3つの不連続なNERデータセットを含む,8つの英語NERデータセットに対して,最新技術(SoTA)あるいはSoTAに近いパフォーマンスを実現する。

Named Entity Recognition (NER) is the task of identifying spans that represent entities in sentences. Whether the entity spans are nested or discontinuous, the NER task can be categorized into the flat NER, nested NER, and discontinuous NER subtasks. These subtasks have been mainly solved by the token-level sequence labelling or span-level classification. However, these solutions can hardly tackle the three kinds of NER subtasks concurrently. To that end, we propose to formulate the NER subtasks as an entity span sequence generation task, which can be solved by a unified sequence-to-sequence (Seq2Seq) framework. Based on our unified framework, we can leverage the pre-trained Seq2Seq model to solve all three kinds of NER subtasks without the special design of the tagging schema or ways to enumerate spans. We exploit three types of entity representations to linearize entities into a sequence. Our proposed framework is easy-to-implement and achieves state-of-the-art (SoTA) or near SoTA performance on eight English NER datasets, including two flat NER datasets, three nested NER datasets, and three discontinuous NER datasets.
翻訳日:2021-06-03 14:30:43 公開日:2021-06-02
# 変圧器のアテンション値の分布, 疎性および推定時間量子化について

On the Distribution, Sparsity, and Inference-time Quantization of Attention Values in Transformers ( http://arxiv.org/abs/2106.01335v1 )

ライセンス: Link先を確認
Tianchu Ji, Shraddhan Jain, Michael Ferdman, Peter Milder, H. Andrew Schwartz, Niranjan Balasubramanian(参考訳) NLPタスクは、アプリケーション時間(推論)におけるトランスフォーマーの注意機構から本当にどのくらいの情報が必要なのか? 最近の研究から, 変圧器にはスパーシリティがあり, 計算中の浮動小数点を最小限の精度で最小限の値に識別できることが分かっている。 しかし、これは全く新しいモデルを作り直すことさえ必要であり、どちらも高価で二酸化炭素を排出する可能性がある。 トレーニングを必要としない最適化に重点を置き,必要な注意値の全範囲を体系的に検討した。 これはプルーニングとログスケールマッピングの両方を用いて、少数の(例)しか生成しない推論時間量子化手法の設計を通知する。 2^3$)ユニークな値。 質問応答と感情分析のタスクでは、注意値の80%近くを最小(<1.0\%$)の相対的損失でゼロにプルーピングできることがわかった。 我々は,このプルーニング手法と組み合わせて,注意値を3ビット形式に定量化することで,微調整されたRoBERTaによる質問応答の精度を0.8%低下させることができた。

How much information do NLP tasks really need from a transformer's attention mechanism at application-time (inference)? From recent work, we know that there is sparsity in transformers and that the floating-points within its computation can be discretized to fewer values with minimal loss to task accuracies. However, this requires retraining or even creating entirely new models, both of which can be expensive and carbon-emitting. Focused on optimizations that do not require training, we systematically study the full range of typical attention values necessary. This informs the design of an inference-time quantization technique using both pruning and log-scaled mapping which produces only a few (e.g. $2^3$) unique values. Over the tasks of question answering and sentiment analysis, we find nearly 80% of attention values can be pruned to zeros with minimal ($< 1.0\%$) relative loss in accuracy. We use this pruning technique in conjunction with quantizing the attention values to only a 3-bit format, without retraining, resulting in only a 0.8% accuracy reduction on question answering with fine-tuned RoBERTa.
翻訳日:2021-06-03 14:30:22 公開日:2021-06-02
# 視覚リッチ文書情報抽出のためのスパン抽出手法

A Span Extraction Approach for Information Extraction on Visually-Rich Documents ( http://arxiv.org/abs/2106.00978v1 )

ライセンス: Link先を確認
Tuan-Anh D. Nguyen, Hieu M. Vu, Nguyen Hong Son, Minh-Tien Nguyen(参考訳) 近年,トランスフォーマーに基づく言語モデルの適応により,情報抽出(IE)がSOTAの性能を向上し,事前学習手法の可能性を実証している。 本稿では,VRDにおける言語モデル事前学習の能力向上のための新しいアプローチを提案する。 まず、クエリベースの新しいIEモデルを導入し、一般的に使用されるシーケンスラベリングアプローチの代わりにスパン抽出の定式化を採用する。 次に,スパン抽出形式をさらに拡張するために,文書内の意味エンティティ間の関係をモデル化することに焦点を当てた新しい学習タスクを提案する。 このタスクはスパンを再帰的に抽出することができ、トレーニング済みの目的とIEダウンストリームタスクの両方として使用できる。 一般的なビジネス文書(請求書,領収書)の各種データセットの評価から,提案手法は,複数のダウンストリームIEタスクからモデル知識を蓄積する機構を提供しながら,既存のモデルの性能を大幅に向上させることができることを示す。

Information extraction (IE) from visually-rich documents (VRDs) has achieved SOTA performance recently thanks to the adaptation of Transformer-based language models, which demonstrates great potential of pre-training methods. In this paper, we present a new approach to improve the capability of language model pre-training on VRDs. Firstly, we introduce a new IE model that is query-based and employs the span extraction formulation instead of the commonly used sequence labelling approach. Secondly, to further extend the span extraction formulation, we propose a new training task which focuses on modelling the relationships between semantic entities within a document. This task enables the spans to be extracted recursively and can be used as both a pre-training objective as well as an IE downstream task. Evaluation on various datasets of popular business documents (invoices, receipts) shows that our proposed method can improve the performance of existing models significantly, while providing a mechanism to accumulate model knowledge from multiple downstream IE tasks.
翻訳日:2021-06-03 14:30:04 公開日:2021-06-02
# 汎用形式理解のためのエンド・ツー・エンド階層関係抽出

End-to-End Hierarchical Relation Extraction for Generic Form Understanding ( http://arxiv.org/abs/2106.00980v1 )

ライセンス: Link先を確認
Tuan-Anh Nguyen Dang, Duc-Thanh Hoang, Quang-Bach Tran, Chih-Wei Pan, Thanh-Dat Nguyen(参考訳) フォーム理解は、入力文書から意味的エンティティとその階層的関係を認識することを目的とした難しい問題である。 従来のアプローチでは,タスクの複雑さに対処する上で,これらの目的を別々に扱うことが困難であった。 そこで本研究では,エンティティ検出とリンク予測の両方をエンドツーエンドで共同で行う新しいディープニューラルネットワークを提案する。 本モデルでは,多段階注意型u-netアーキテクチャをリンク予測のための部分インテンシティフィールドと部分アソシエーションフィールドで拡張し,エンティティリンクによる追加監督により空間情報フローを強化した。 提案手法は,エンティティラベリングとエンティティリンクタスクの両方において,元のモデルと最先端のベースラインを大きく上回る,ノイズスキャンされた文書(funsd)データセットの形式理解におけるモデルの有効性を示す。

Form understanding is a challenging problem which aims to recognize semantic entities from the input document and their hierarchical relations. Previous approaches face significant difficulty dealing with the complexity of the task, thus treat these objectives separately. To this end, we present a novel deep neural network to jointly perform both entity detection and link prediction in an end-to-end fashion. Our model extends the Multi-stage Attentional U-Net architecture with the Part-Intensity Fields and Part-Association Fields for link prediction, enriching the spatial information flow with the additional supervision from entity linking. We demonstrate the effectiveness of the model on the Form Understanding in Noisy Scanned Documents (FUNSD) dataset, where our method substantially outperforms the original model and state-of-the-art baselines in both Entity Labeling and Entity Linking task.
翻訳日:2021-06-03 14:29:45 公開日:2021-06-02
# 滑らかなQラーニング:類似性を用いたQラーニングの高速化

Smooth Q-learning: Accelerate Convergence of Q-learning Using Similarity ( http://arxiv.org/abs/2106.01134v1 )

ライセンス: Link先を確認
Wei Liao and Xiaohui Wei and Jizhou Lai(参考訳) 本稿ではQ-ラーニングの改善について述べる。 提案手法では,異なる状態と行動の類似性を考慮した古典的なQ-ラーニングとは異なる。 トレーニング中に、同様の状態-動作ペアのQ値が同期的に更新される新しい更新メカニズムが使用される。 提案手法は,表型q-learning関数と深層q-learningを併用して用いることができる。 また,古典的なQ-ラーニングと比較して,提案手法は性能が著しく向上したことを示す。

An improvement of Q-learning is proposed in this paper. It is different from classic Q-learning in that the similarity between different states and actions is considered in the proposed method. During the training, a new updating mechanism is used, in which the Q value of the similar state-action pairs are updated synchronously. The proposed method can be used in combination with both tabular Q-learning function and deep Q-learning. And the results of numerical examples illustrate that compared to the classic Q-learning, the proposed method has a significantly better performance.
翻訳日:2021-06-03 14:29:29 公開日:2021-06-02
# 光リモートセンシング画像における物体検出のための回転同変特徴ピラミッドネットワーク

Rotation Equivariant Feature Image Pyramid Network for Object Detection in Optical Remote Sensing Imagery ( http://arxiv.org/abs/2106.00880v1 )

ライセンス: Link先を確認
Pourya Shamsolmoali, Masoumeh Zareapoor, Jocelyn Chanussot, Huiyu Zhou, and Jie Yang(参考訳) ここ数年、リモートセンシング画像(rsis)のオブジェクト検出は大幅に進歩しており、オブジェクトは一般的に大規模なバリエーションで分散され、異なる種類の方向を持つ。 それでも、現在の畳み込みニューラルネットワークアプローチには、サイズや回転の変化といった課題に対処する能力がない。 これらの問題に対処するため、回転同値畳み込みに基づく画像ピラミッドネットワークである回転同値特徴像ピラミッドネットワーク(REFIPN)を提案する。 提案するピラミッドネットワークは, 新規な畳み込みフィルタを用いて, 広い範囲で特徴を抽出する。 これらの特徴はベクトル場を生成し、画像上のすべての空間的位置に対して最も高い方向の重みと角度を決定するために用いられる。 最後に、抽出された特徴は検出器の予測層を通過する。 提案モデルの検出性能は,2つのベンチマークで検証し,提案手法が良好な効率で最先端の性能を実現できることを示す。

Over the last few years, there has been substantial progress in object detection on remote sensing images (RSIs) where objects are generally distributed with large-scale variations and have different types of orientations. Nevertheless, most of the current convolution neural network approaches lack the ability to deal with the challenges such as size and rotation variations. To address these problems, we propose the rotation equivariant feature image pyramid network (REFIPN), an image pyramid network based on rotation equivariance convolution. The proposed pyramid network extracts features in a wide range of scales and orientations by using novel convolution filters. These features are used to generate vector fields and determine the weight and angle of the highest-scoring orientation for all spatial locations on an image. Finally, the extracted features go through the prediction layers of the detector. The detection performance of the proposed model is validated on two commonly used aerial benchmarks and the results show our propose model can achieve state-of-the-art performance with satisfactory efficiency.
翻訳日:2021-06-03 14:28:42 公開日:2021-06-02
# リカレントニューラルネットワークを用いた空間プーリングのための消費者画像品質予測

Consumer Image Quality Prediction using Recurrent Neural Networks for Spatial Pooling ( http://arxiv.org/abs/2106.00918v1 )

ライセンス: Link先を確認
Jari Korhonen, Yicheng Su, Junyong You(参考訳) 近年,畳み込みニューラルネットワーク(cnn)を用いた主観的画質予測が期待できる結果が得られた。 しかし、CNNアーキテクチャは小さな解像度の入力画像のために設計されているため、高解像度画像品質評価にCNNを使うことは依然として課題である。 本研究では,人間の視覚系(HVS)の注意機構を再現するために,深部CNNを用いた特徴抽出器によって抽出された空間領域(パッチ)から抽出された特徴の空間プールにリカレントニューラルネットワーク(RNN)を用いて画像品質モデルを提案する。 近年公表された2つの画像品質データセットと異なる解像度の画像を用いて実験を行った結果,提案手法の品質予測精度は,最先端のベンチマークモデルと競合することが示された。

Promising results for subjective image quality prediction have been achieved during the past few years by using convolutional neural networks (CNN). However, the use of CNNs for high resolution image quality assessment remains a challenge, since typical CNN architectures have been designed for small resolution input images. In this study, we propose an image quality model that attempts to mimic the attention mechanism of human visual system (HVS) by using a recurrent neural network (RNN) for spatial pooling of the features extracted from different spatial areas (patches) by a deep CNN-based feature extractor. The experimental study, conducted by using images with different resolutions from two recently published image quality datasets, indicates that the quality prediction accuracy of the proposed method is competitive against benchmark models representing the state-of-the-art, and the proposed method also performs consistently on different resolution versions of the same dataset.
翻訳日:2021-06-03 14:28:26 公開日:2021-06-02
# 統一手術スキルアセスメントに向けて

Towards Unified Surgical Skill Assessment ( http://arxiv.org/abs/2106.01035v1 )

ライセンス: Link先を確認
Daochang Liu, Qiyue Li, Tingting Jiang, Yizhou Wang, Rulin Miao, Fei Shan, Ziyu Li(参考訳) 外科的スキルは手術の安全性や患者の幸福に大きな影響を与える。 伝統的な外科的スキルの評価には、効率性と再現性に欠ける厳格な手作業が含まれる。 そこで本研究では,手術映像を用いて手術の成績を自動的に予測する。 本稿では, 手術器具の使用状況, 術中イベントパターン, その他の技術プロキシなど, 外科的スキルを構成する複数の側面を考慮に入れた, 自動手術スキル評価のための統合型マルチパスフレームワークを提案する。 これらの異なる側面間の依存性関係は、フレームワーク内のパス依存モジュールによって特別にモデル化されます。 手術シミュレーションのJIGSAWSデータセットと腹腔鏡下手術の新たな臨床データセットについて広範な実験を行った。 提案手法は両データセットで有望な結果が得られ,0.71 スペアーマン相関から 0.80 までのシミュレーションデータセットの最先端技術が得られた。 また,複数のスキルを組み合わせることで,単一のスキルに依存するよりも優れたパフォーマンスが得られることを示した。

Surgical skills have a great influence on surgical safety and patients' well-being. Traditional assessment of surgical skills involves strenuous manual efforts, which lacks efficiency and repeatability. Therefore, we attempt to automatically predict how well the surgery is performed using the surgical video. In this paper, a unified multi-path framework for automatic surgical skill assessment is proposed, which takes care of multiple composing aspects of surgical skills, including surgical tool usage, intraoperative event pattern, and other skill proxies. The dependency relationships among these different aspects are specially modeled by a path dependency module in the framework. We conduct extensive experiments on the JIGSAWS dataset of simulated surgical tasks, and a new clinical dataset of real laparoscopic surgeries. The proposed framework achieves promising results on both datasets, with the state-of-the-art on the simulated dataset advanced from 0.71 Spearman's correlation to 0.80. It is also shown that combining multiple skill aspects yields better performance than relying on a single aspect.
翻訳日:2021-06-03 14:28:12 公開日:2021-06-02
# ビデオオブジェクトセグメンテーション参照のためのトップダウン視点からのクロスモーダルインタラクションの再考

Rethinking Cross-modal Interaction from a Top-down Perspective for Referring Video Object Segmentation ( http://arxiv.org/abs/2106.01061v1 )

ライセンス: Link先を確認
Chen Liang, Yu Wu, Tianfei Zhou, Wenguan Wang, Zongxin Yang, Yunchao Wei and Yi Yang(参考訳) ビデオオブジェクトセグメンテーション(RVOS)は、ビデオオブジェクトを自然言語参照のガイダンスでセグメント化することを目的としている。 従来の手法は通常、画像格子上の言語参照を直接接地することでrvoに取り組む。 このようなボトムアップ戦略は、オブジェクトレベルの手がかりを探索するのに失敗し、容易に劣る結果につながる。 この作業では、代わりに2段階のトップダウンのRVOSソリューションを提案しました。 まず、複数のサンプルフレームから検出されたオブジェクトマスクをビデオ全体に伝播させることで、オブジェクトトラッカーの徹底的なセットを構築する。 第2に,インスタンスレベルの視覚的関係とクロスモーダルインタラクションを同時にかつ効率的にモデル化する,トランスフォーマティブベースのトラックレット言語グラウンドングモジュールを提案する。 私たちのモデルは、CVPR2021 Referring Youtube-VOS Challengeで1位です。

Referring video object segmentation (RVOS) aims to segment video objects with the guidance of natural language reference. Previous methods typically tackle RVOS through directly grounding linguistic reference over the image lattice. Such bottom-up strategy fails to explore object-level cues, easily leading to inferior results. In this work, we instead put forward a two-stage, top-down RVOS solution. First, an exhaustive set of object tracklets is constructed by propagating object masks detected from several sampled frames to the entire video. Second, a Transformer-based tracklet-language grounding module is proposed, which models instance-level visual relations and cross-modal interactions simultaneously and efficiently. Our model ranks first place on CVPR2021 Referring Youtube-VOS challenge.
翻訳日:2021-06-03 14:27:57 公開日:2021-06-02
# TSI:ビデオ行動認識のための時間的衛生統合

TSI: Temporal Saliency Integration for Video Action Recognition ( http://arxiv.org/abs/2106.01088v1 )

ライセンス: Link先を確認
Haisheng Su, Jinyuan Feng, Dongliang Wang, Weihao Gan, Wei Wu, Yu Qiao(参考訳) 効率的な時空間モデリングはビデオ行動認識において重要な課題である。 既存の最先端手法は、動きの手がかりを利用して、連続するフレーム上の時間差を通じて、短時間の時間的モデリングを支援する。 しかし、カメラの動きにより背景ノイズが必然的に導入される。 また、異なる行動の動作も様々である。 本稿では、主にSalient Motion Excitation(SME)モジュールとCTI(Cross-scale Temporal Integration)モジュールを含む、TSI(Temporal Saliency Integration)ブロックを提案する。 具体的には, 周辺フレーム間の背景抑圧とピラミッドの特徴差を連続的に行い, 背景雑音の少ない動きのダイナミックスを捉えることを目的としている。 ctiは、それぞれ別々の1次元畳み込みのグループを通してマルチスケールの時間モデルを実行するように設計されている。 一方、異なるスケールにわたる時間的相互作用は注意機構と統合される。 これら2つのモジュールを通じて、制限された追加パラメータを導入することで、長期間の時間関係を効率的にエンコードすることができる。 提案手法の有効性と優位性を示すために,いくつかの一般的なベンチマーク (Something v1 & v2, Kinetics-400, UCF-101, HMDB-51) を用いて実験を行った。

Efficient spatiotemporal modeling is an important yet challenging problem for video action recognition. Existing state-of-the-art methods exploit motion clues to assist in short-term temporal modeling through temporal difference over consecutive frames. However, background noises will be inevitably introduced due to the camera movement. Besides, movements of different actions can vary greatly. In this paper, we propose a Temporal Saliency Integration (TSI) block, which mainly contains a Salient Motion Excitation (SME) module and a Cross-scale Temporal Integration (CTI) module. Specifically, SME aims to highlight the motion-sensitive area through local-global motion modeling, where the background suppression and pyramidal feature difference are conducted successively between neighboring frames to capture motion dynamics with less background noises. CTI is designed to perform multi-scale temporal modeling through a group of separate 1D convolutions respectively. Meanwhile, temporal interactions across different scales are integrated with attention mechanism. Through these two modules, long short-term temporal relationships can be encoded efficiently by introducing limited additional parameters. Extensive experiments are conducted on several popular benchmarks (i.e., Something-Something v1 & v2, Kinetics-400, UCF-101, and HMDB-51), which demonstrate the effectiveness and superiority of our proposed method.
翻訳日:2021-06-03 14:27:45 公開日:2021-06-02
# ImVoxelNet:単眼・多視野汎用3Dオブジェクト検出のためのVoxels投影画像

ImVoxelNet: Image to Voxels Projection for Monocular and Multi-View General-Purpose 3D Object Detection ( http://arxiv.org/abs/2106.01178v1 )

ライセンス: Link先を確認
Danila Rukhovich, Anna Vorontsova, Anton Konushin(参考訳) 本稿では,多視点RGBに基づく3Dオブジェクト検出の課題をエンドツーエンド最適化問題として紹介する。 そこで本研究では,単眼または多視点rgb画像に基づく3次元物体検出の完全畳み込み手法であるimvoxelnetを提案する。 各マルチビュー入力における単眼画像の数は、トレーニングと推論の間に変動しうるが、実際には、この数は各マルチビュー入力に対して一意である。 ImVoxelNetは、屋内と屋外の両方のシーンをうまく処理する。 具体的には、RGB画像を受け入れるすべての方法の中で、KITTI (monocular) と nuScenes (multi-view) ベンチマークにおける車両検出の最先端結果を達成する。 さらに、SUN RGB-Dデータセット上の既存のRGBベースの3Dオブジェクト検出手法を上回る。 ScanNetでは、ImVoxelNetがマルチビュー3Dオブジェクト検出のための新しいベンチマークを設定している。 ソースコードとトレーニングされたモデルは \url{https://github.com/s aic-vul/imvoxelnet} で入手できる。

In this paper, we introduce the task of multi-view RGB-based 3D object detection as an end-to-end optimization problem. To address this problem, we propose ImVoxelNet, a novel fully convolutional method of 3D object detection based on monocular or multi-view RGB images. The number of monocular images in each multi-view input can variate during training and inference; actually, this number might be unique for each multi-view input. ImVoxelNet successfully handles both indoor and outdoor scenes, which makes it general-purpose. Specifically, it achieves state-of-the-art results in car detection on KITTI (monocular) and nuScenes (multi-view) benchmarks among all methods that accept RGB images. Moreover, it surpasses existing RGB-based 3D object detection methods on the SUN RGB-D dataset. On ScanNet, ImVoxelNet sets a new benchmark for multi-view 3D object detection. The source code and the trained models are available at \url{https://github.com/s aic-vul/imvoxelnet}.
翻訳日:2021-06-03 14:27:24 公開日:2021-06-02
# dfgc 2021:ディープフェイクゲームコンテスト

DFGC 2021: A DeepFake Game Competition ( http://arxiv.org/abs/2106.01217v1 )

ライセンス: Link先を確認
Bo Peng, Hongxing Fan, Wei Wang, Jing Dong, Yuezun Li, Siwei Lyu, Qi Li, Zhenan Sun, Han Chen, Baoying Chen, Yanjie Hu, Shenghai Luo, Junrui Huang, Yutong Yao, Boyuan Liu, Hefei Ling, Guosheng Zhang, Zhiliang Xu, Changtao Miao, Changlei Lu, Shan He, Xiaoyan Wu, Wanyi Zhuang(参考訳) 本稿では,DFGC 2021コンペティションの概要を紹介する。 DeepFakeの技術は急速に発展しており、現実的なフェイススワップはますます認知しにくくなっている。 同時に、DeepFake検出方法も改善されている。 DeepFakeのクリエーターとディテクターの2人組のゲームがある。 このコンペティションは、現在の最先端のDeepFake生成と検出方法の間の対戦ゲームをベンチマークするための共通プラットフォームを提供する。 本稿では、このコンペティションの組織、成果、そしてトップソリューションを紹介し、このイベントで得られた洞察を共有します。 また、参加者から収集したDFGC-21テストデータセットもリリースし、研究コミュニティにさらなる利益をもたらしました。

This paper presents a summary of the DFGC 2021 competition. DeepFake technology is developing fast, and realistic face-swaps are increasingly deceiving and hard to detect. At the same time, DeepFake detection methods are also improving. There is a two-party game between DeepFake creators and detectors. This competition provides a common platform for benchmarking the adversarial game between current state-of-the-art DeepFake creation and detection methods. In this paper, we present the organization, results and top solutions of this competition and also share our insights obtained during this event. We also release the DFGC-21 testing dataset collected from our participants to further benefit the research community.
翻訳日:2021-06-03 14:27:07 公開日:2021-06-02
# オープンドメイン質問応答のためのハッシュを用いた効率よいパス検索

Efficient Passage Retrieval with Hashing for Open-domain Question Answering ( http://arxiv.org/abs/2106.00882v1 )

ライセンス: Link先を確認
Ikuya Yamada, Akari Asai, Hannaneh Hajishirzi(参考訳) ほとんどの最先端のオープンドメイン質問応答システムは、ニューラルネットワークモデルを使用して、パスを連続ベクトルにエンコードし、知識ソースから抽出する。 しかし、そのような検索モデルは、パスインデックスの巨大なサイズのため、大きなメモリを必要とすることが多い。 本稿では,dpr(state-of-the-ar t dense passage retriever)に学習・ハッシュ手法を統合し,連続ベクトルではなくコンパクトなバイナリコードを用いてパスインデックスを表現する,メモリ効率のよいニューラルネットワーク検索モデルであるbinary passage retriever(bpr)を提案する。 bprは、バイナリコードに基づく効率的な候補生成と、連続ベクトルに基づく正確な再ランキングの2つのタスクでマルチタスクの目的で訓練される。 DPRと比較して、BPRは2つの標準オープンドメイン質問応答ベンチマークであるNatural QuestionsとTriviaQAにおいて、メモリコストを65GBから2GBに大幅に削減する。 私たちのコードとトレーニングされたモデルは、https://github.com/s tudio-ousia/bprで利用可能です。

Most state-of-the-art open-domain question answering systems use a neural retrieval model to encode passages into continuous vectors and extract them from a knowledge source. However, such retrieval models often require large memory to run because of the massive size of their passage index. In this paper, we introduce Binary Passage Retriever (BPR), a memory-efficient neural retrieval model that integrates a learning-to-hash technique into the state-of-the-art Dense Passage Retriever (DPR) to represent the passage index using compact binary codes rather than continuous vectors. BPR is trained with a multi-task objective over two tasks: efficient candidate generation based on binary codes and accurate reranking based on continuous vectors. Compared with DPR, BPR substantially reduces the memory cost from 65GB to 2GB without a loss of accuracy on two standard open-domain question answering benchmarks: Natural Questions and TriviaQA. Our code and trained models are available at https://github.com/s tudio-ousia/bpr.
翻訳日:2021-06-03 14:26:57 公開日:2021-06-02
# タスク指向対話システムの高品質多様化

High-Quality Diversification for Task-Oriented Dialogue Systems ( http://arxiv.org/abs/2106.00891v1 )

ライセンス: Link先を確認
Zhiwen Tang, Hrishikesh Kulkarni, Grace Hui Yang(参考訳) 多くのタスク指向対話システムは、ユーザに対して適切に応答するポリシーを学習し、タスクを成功させるために、深層強化学習(DRL)を使用している。 多様な対話路を持つDRLエージェントの訓練は、稀なユーザ要求や目に見えない状況に備える。 1つの効果的な多様化方法は、エージェントが多様な学習されたユーザーモデルと対話できるようにすることである。 しかし、これらの人工ユーザモデルによって作成された軌跡には生成エラーが含まれ、エージェントのポリシーに素早く伝播する可能性がある。 したがって、多様化の質を制御し、騒音に抵抗することが重要である。 本稿では,シミュレータで訓練されたタスク指向対話システムのための新しい対話多様化手法を提案する。 I-SEE(Intermittent Short Extension Ensemble)は,多様なユーザモデルのアンサンブルと相互作用する強度を制約し,多様化の質を効果的に制御する手法である。 Multiwozデータセットの評価から、I-SEEはいくつかの最先端DRL対話エージェントの性能を高めることに成功した。

Many task-oriented dialogue systems use deep reinforcement learning (DRL) to learn policies that respond to the user appropriately and complete the tasks successfully. Training DRL agents with diverse dialogue trajectories prepare them well for rare user requests and unseen situations. One effective diversification method is to let the agent interact with a diverse set of learned user models. However, trajectories created by these artificial user models may contain generation errors, which can quickly propagate into the agent's policy. It is thus important to control the quality of the diversification and resist the noise. In this paper, we propose a novel dialogue diversification method for task-oriented dialogue systems trained in simulators. Our method, Intermittent Short Extension Ensemble (I-SEE), constrains the intensity to interact with an ensemble of diverse user models and effectively controls the quality of the diversification. Evaluations on the Multiwoz dataset show that I-SEE successfully boosts the performance of several state-of-the-art DRL dialogue agents.
翻訳日:2021-06-03 14:26:40 公開日:2021-06-02
# 自然テキスト衛生化によるテキスト分析のための微分プライバシー

Differential Privacy for Text Analytics via Natural Text Sanitization ( http://arxiv.org/abs/2106.01221v1 )

ライセンス: Link先を確認
Xiang Yue, Minxin Du, Tianhao Wang, Yaliang Li, Huan Sun and Sherman S. M. Chow(参考訳) テキストは高度な知識を提供する。 しかし、テキストは機密情報も伝達する。 汎用言語モデルと差分プライバシー(DP)によるドメイン固有メカニズムの成功にもかかわらず、既存のテキスト衛生機構は高次元のテキスト表現によって呪われているように、依然として低実用性を提供する。 下流分析に衛生的テキストを利用するという副次的な問題も未調査である。 本論文は,テキスト衛生への直接的なアプローチである。 私たちの洞察は、新しいローカルdp概念を通じて感度と類似性の両方を検討することです。 衛生化されたテキストは、私たちの衛生に配慮した事前訓練と微調整にも貢献し、将来性のあるユーティリティを備えたBERT言語モデル上でのプライバシー保護自然言語処理を可能にします。 驚くべきことに、高いユーティリティは推論攻撃の成功率を高めません。

Texts convey sophisticated knowledge. However, texts also convey sensitive information. Despite the success of general-purpose language models and domain-specific mechanisms with differential privacy (DP), existing text sanitization mechanisms still provide low utility, as cursed by the high-dimensional text representation. The companion issue of utilizing sanitized texts for downstream analytics is also under-explored. This paper takes a direct approach to text sanitization. Our insight is to consider both sensitivity and similarity via our new local DP notion. The sanitized texts also contribute to our sanitization-aware pretraining and fine-tuning, enabling privacy-preserving natural language processing over the BERT language model with promising utility. Surprisingly, the high utility does not boost up the success rate of inference attacks.
翻訳日:2021-06-03 14:26:24 公開日:2021-06-02
# 意思決定指向クラスタリング:価格と電力消費スケジューリングへの応用

Decision-making Oriented Clustering: Application to Pricing and Power Consumption Scheduling ( http://arxiv.org/abs/2106.01021v1 )

ライセンス: Link先を確認
Chao Zhang, Samson Lasaulce, Martin Hennebel, Lucas Saludjian, Patrick Panciatici, and H. Vincent Poor(参考訳) データクラスタリングは、エネルギー資源管理の分野における道具である。 従来のクラスタリングでは、クラスタ化されたデータの最終的な使用を考慮していないため、エネルギーや計算リソースの最適でない使用につながる可能性がある。 クラスタ化されたデータを意思決定エンティティが使用する場合、クラスタ化スキームを意思決定エンティティが実行した最終タスクに合わせることで、かなりの利益が得られることが分かる。 最終的なパフォーマンス向上の鍵は、後続の意思決定エンティティに固有のデータ空間の重要な属性を自動的に抽出し、予め定義された従来のメトリクスに基づいてデータ空間を分割するのではなく、これらの属性に基づいてデータ空間を分割することです。 この目的のために,意思決定指向クラスタリングの枠組みを定式化し,データ空間の意思決定に基づく分割と適切な代表決定を提供するアルゴリズムを提案する。 この新たなフレームワークとアルゴリズムを、リアルタイム価格と消費電力スケジューリングの典型的な問題に適用することにより、リアルタイム価格の最適価格プロファイルの表現や、シミュレーションで示すように電力消費スケジューリングを行うために必要なクラスタの量を大幅に削減するといった、洞察に富んだ分析結果を得る。

Data clustering is an instrumental tool in the area of energy resource management. One problem with conventional clustering is that it does not take the final use of the clustered data into account, which may lead to a very suboptimal use of energy or computational resources. When clustered data are used by a decision-making entity, it turns out that significant gains can be obtained by tailoring the clustering scheme to the final task performed by the decision-making entity. The key to having good final performance is to automatically extract the important attributes of the data space that are inherently relevant to the subsequent decision-making entity, and partition the data space based on these attributes instead of partitioning the data space based on predefined conventional metrics. For this purpose, we formulate the framework of decision-making oriented clustering and propose an algorithm providing a decision-based partition of the data space and good representative decisions. By applying this novel framework and algorithm to a typical problem of real-time pricing and that of power consumption scheduling, we obtain several insightful analytical results such as the expression of the best representative price profiles for real-time pricing and a very significant reduction in terms of required clusters to perform power consumption scheduling as shown by our simulations.
翻訳日:2021-06-03 14:25:51 公開日:2021-06-02
# 長列記憶におけるリハーサルの学習

Learning to Rehearse in Long Sequence Memorization ( http://arxiv.org/abs/2106.01096v1 )

ライセンス: Link先を確認
Zhu Zhang, Chang Zhou, Jianxin Ma, Zhijie Lin, Jingren Zhou, Hongxia Yang and Zhou Zhao(参考訳) 既存の推論タスクは、入力内容が推論中に常にアクセス可能であり、無制限のストレージリソースを必要とし、長いシーケンスの厳しい遅延に悩まされているという重要な仮定を持つことが多い。 記憶資源が限られた長いシーケンスの効率的な推論を実現するために、メモリ拡張ニューラルネットワークは、人間ライクなライトリードメモリを導入し、1パスで長い入力シーケンスを圧縮して記憶し、メモリのみに基づいてその後のクエリに答えようとする。 しかし、2つの重大な欠点がある: 1) メモリを現在の情報から継続的に更新し、必然的に初期の内容を忘れる; 2) 重要な情報を区別せず、全てのコンテンツを平等に扱う。 本稿では,歴史サンプルを用いた自己教師型リハーサルによる長期記憶を改善するためのリハーサルメモリ(RM)を提案する。 早期情報の段階的忘れを緩和するため, 自己指導型リハーサルトレーニングを再現性や親しみやすいタスクで設計する。 さらに,リハーサルトレーニングのための情報断片選択のための履歴サンプルの設計を行い,重要な情報にメモリを集中させる。 我々は,合成babiタスクによるリハーサルメモリの性能評価と,テキスト/ビデオ質問応答や長いシーケンスでのレコメンデーションを含むいくつかの下流タスクによる評価を行った。

Existing reasoning tasks often have an important assumption that the input contents can be always accessed while reasoning, requiring unlimited storage resources and suffering from severe time delay on long sequences. To achieve efficient reasoning on long sequences with limited storage resources, memory augmented neural networks introduce a human-like write-read memory to compress and memorize the long input sequence in one pass, trying to answer subsequent queries only based on the memory. But they have two serious drawbacks: 1) they continually update the memory from current information and inevitably forget the early contents; 2) they do not distinguish what information is important and treat all contents equally. In this paper, we propose the Rehearsal Memory (RM) to enhance long-sequence memorization by self-supervised rehearsal with a history sampler. To alleviate the gradual forgetting of early information, we design self-supervised rehearsal training with recollection and familiarity tasks. Further, we design a history sampler to select informative fragments for rehearsal training, making the memory focus on the crucial information. We evaluate the performance of our rehearsal memory by the synthetic bAbI task and several downstream tasks, including text/video question answering and recommendation on long sequences.
翻訳日:2021-06-03 14:25:31 公開日:2021-06-02
# 仮想走行テストのためのカバレッジに基づくシーンファジング

Coverage-based Scene Fuzzing for Virtual Autonomous Driving Testing ( http://arxiv.org/abs/2106.00873v1 )

ライセンス: Link先を確認
Zhisheng Hu, Shengjian Guo, Zhenyu Zhong, Kang Li(参考訳) シミュレーションに基づく仮想テストは、自動運転システムの安全性を確保するための重要なステップとなっている。 テスタは仮想運転シーンを手作りし、周囲の交通状況や天候条件など、さまざまな環境設定をする必要がある。 膨大な構成可能性のため、産業レベルの自動運転システムの欠陥を検出するのに人的努力は非効率である。 本稿では,様々な構成パラメータを自動生成して新たな運転シーンを生成するための,カバレッジ駆動ファジリング手法を提案する。 実験の結果,本手法は,テスタが設計した初期設定から新たなリスクシーンを導出する際のコストを大幅に削減できることがわかった。 自動運転システムの仮想テストでは、自動ファジングが一般的なプラクティスになると思います。

Simulation-based virtual testing has become an essential step to ensure the safety of autonomous driving systems. Testers need to handcraft the virtual driving scenes and configure various environmental settings like surrounding traffic, weather conditions, etc. Due to the huge amount of configuration possibilities, the human efforts are subject to the inefficiency in detecting flaws in industry-class autonomous driving system. This paper proposes a coverage-driven fuzzing technique to automatically generate diverse configuration parameters to form new driving scenes. Experimental results show that our fuzzing method can significantly reduce the cost in deriving new risky scenes from the initial setup designed by testers. We expect automated fuzzing will become a common practice in virtual testing for autonomous driving systems.
翻訳日:2021-06-03 14:25:09 公開日:2021-06-02
# 求職者の問題をスケジューリングする学習:グラフニューラルネットワークと強化学習を用いた表現と政策学習

Learning to schedule job-shop problems: Representation and policy learning using graph neural network and reinforcement learning ( http://arxiv.org/abs/2106.01086v1 )

ライセンス: Link先を確認
Junyoung Park, Jaehyeong Chun, Sang Hun Kim, Youngkook Kim, Jinkyoo Park(参考訳) 本稿では,グラフニューラルネットワーク(GNN)と強化学習(RL)を用いて,ジョブショップ問題(JSSP)のスケジューリングを学習するフレームワークを提案する。 本研究では,JSSPのスケジューリング過程を,JSSPの構造を考慮した状態のグラフ表現を用いた逐次決定問題として定式化する。 定式化問題の解決にあたり,提案フレームワークはGNNを用いて,JSSPの空間構造をグラフ(表現学習)として埋め込んだノード特徴を学習し,組込みノード特徴を最適なスケジューリング動作(政治学習)にマッピングする最適なスケジューリングポリシを導出する。 我々は、PPO(Proximal Policy Optimization)に基づくRL戦略を用いて、これらの2つのモジュールをエンドツーエンドでトレーニングする。 我々は、GNNスケジューラが、超一般化能力のため、様々なベンチマークJSSP上で、事実上好まれるディスパッチルールやRLベースのスケジューラよりも優れていることを実証的に示す。 また,提案フレームワークが(サイズやパラメータの面で)完全に新しいjsspのスケジュールに利用できる転送可能なスケジューリングポリシーを,さらなるトレーニングなしで学習できることを確認した。

We propose a framework to learn to schedule a job-shop problem (JSSP) using a graph neural network (GNN) and reinforcement learning (RL). We formulate the scheduling process of JSSP as a sequential decision-making problem with graph representation of the state to consider the structure of JSSP. In solving the formulated problem, the proposed framework employs a GNN to learn that node features that embed the spatial structure of the JSSP represented as a graph (representation learning) and derive the optimum scheduling policy that maps the embedded node features to the best scheduling action (policy learning). We employ Proximal Policy Optimization (PPO) based RL strategy to train these two modules in an end-to-end fashion. We empirically demonstrate that the GNN scheduler, due to its superb generalization capability, outperforms practically favored dispatching rules and RL-based schedulers on various benchmark JSSP. We also confirmed that the proposed framework learns a transferable scheduling policy that can be employed to schedule a completely new JSSP (in terms of size and parameters) without further training.
翻訳日:2021-06-03 14:24:59 公開日:2021-06-02
# ニューラルマシン翻訳のための単言語データ不確かさを用いた自己学習サンプリング

Self-Training Sampling with Monolingual Data Uncertainty for Neural Machine Translation ( http://arxiv.org/abs/2106.00941v1 )

ライセンス: Link先を確認
Wenxiang Jiao, Xing Wang, Zhaopeng Tu, Shuming Shi, Michael R. Lyu, Irwin King(参考訳) モデルトレーニングを合成並列データで強化することにより、nmt性能の向上に有効であることが証明されている。 一般的な実践は、大規模単言語データのランダムなサンプリングされたサブセットに基づいて合成データを構築することである。 本研究では,並列データを補完する最も情報性の高い単言語文を選択することで,サンプリング手順の改善を提案する。 この目的のために,並列データから抽出したバイリンガル辞書を用いて,単言語文の不確実性を計算する。 直感的には、不確実性の低い単言語文は一般的に、追加の利得を与えない容易に翻訳できるパターンに対応する。 そこで本研究では,不確実性の高い単言語文を高い確率でサンプリングして自己学習するために,不確実性に基づくサンプリング戦略を考案する。 大規模 wmt 英語$\rightarrow$german と英語$\rightarrow$ chinese データセットの実験結果は、提案手法の有効性を示している。 広範囲な分析により,不確定な単言語文の学習を強調することで,不確実性文の翻訳品質が向上し,ターゲット側での低頻度単語の予測にも有用であることが示唆された。

Self-training has proven effective for improving NMT performance by augmenting model training with synthetic parallel data. The common practice is to construct synthetic data based on a randomly sampled subset of large-scale monolingual data, which we empirically show is sub-optimal. In this work, we propose to improve the sampling procedure by selecting the most informative monolingual sentences to complement the parallel data. To this end, we compute the uncertainty of monolingual sentences using the bilingual dictionary extracted from the parallel data. Intuitively, monolingual sentences with lower uncertainty generally correspond to easy-to-translate patterns which may not provide additional gains. Accordingly, we design an uncertainty-based sampling strategy to efficiently exploit the monolingual data for self-training, in which monolingual sentences with higher uncertainty would be sampled with higher probability. Experimental results on large-scale WMT English$\Rightarrow$ German and English$\Rightarrow$ Chinese datasets demonstrate the effectiveness of the proposed approach. Extensive analyses suggest that emphasizing the learning on uncertain monolingual sentences by our approach does improve the translation quality of high-uncertainty sentences and also benefits the prediction of low-frequency words at the target side.
翻訳日:2021-06-03 14:24:37 公開日:2021-06-02
# 縦型多発性硬化症脳画像における自覚的病変変化の検出と局在

Self-supervised Lesion Change Detection and Localisation in Longitudinal Multiple Sclerosis Brain Imaging ( http://arxiv.org/abs/2106.00919v1 )

ライセンス: Link先を確認
Minh-Son To, Ian G Sarno, Chee Chong, Mark Jenkinson and Gustavo Carneiro(参考訳) 縦断画像は、多くの医療状況の管理と追跡に不可欠な要素である。 連続画像における病変変化の存在は、臨床意思決定に大きな影響を与え、自動変化検出における重要な役割を強調する。 病変の変化はシリアルイメージングにおける異常を表現することができ、アノテーションの可用性が制限され、考慮すべきさまざまな変更が考えられる。 そこで本研究では,病変を含まないシリアル画像のみを用いた教師なし異常検出および局所化手法を提案する。 トレーニングでは, 連続画像の病変変化を自動的に合成し, モデルの訓練を自己監督するために用いられる検出と局所化の擬似ラベルを導入する。 合成画像におけるこれらの病変の希少さを考慮し,不均衡な局所的Tversky損失を伴ってモデルを訓練する。 異なるデータセットでトレーニングされた教師付きモデルと比較すると,多発性硬化症患者の縦型磁気共鳴画像における新しい脱髄病変の検出と局所化における競合性を示す。 モデルのコードはgithubで入手できる。

Longitudinal imaging forms an essential component in the management and follow-up of many medical conditions. The presence of lesion changes on serial imaging can have significant impact on clinical decision making, highlighting the important role for automated change detection. Lesion changes can represent anomalies in serial imaging, which implies a limited availability of annotations and a wide variety of possible changes that need to be considered. Hence, we introduce a new unsupervised anomaly detection and localisation method trained exclusively with serial images that do not contain any lesion changes. Our training automatically synthesises lesion changes in serial images, introducing detection and localisation pseudo-labels that are used to self-supervise the training of our model. Given the rarity of these lesion changes in the synthesised images, we train the model with the imbalance robust focal Tversky loss. When compared to supervised models trained on different datasets, our method shows competitive performance in the detection and localisation of new demyelinating lesions on longitudinal magnetic resonance imaging in multiple sclerosis patients. Code for the models will be made available on GitHub.
翻訳日:2021-06-03 14:23:21 公開日:2021-06-02
# CNNによる胸部X線診断の改善の試み

Tips and Tricks to Improve CNN-based Chest X-ray Diagnosis: A Survey ( http://arxiv.org/abs/2106.00997v1 )

ライセンス: Link先を確認
Changhee Han, Takayuki Okamoto, Koichi Takeuchi, Dimitris Katsios, Andrey Grushnikov, Masaaki Kobayashi, Antoine Choppin, Yutaka Kurashina, Yuki Shimahara(参考訳) 畳み込みニューラルネットワーク(CNN)は本質的に大規模なデータを必要とするが、Chest X-Ray(CXR)のイメージはデータ/アノテーションを欠く傾向にあり、過度に適合する。 そこで本研究では,cxr診断の一般化を図るための工夫を徹底的に紹介する: (i) 追加データの利用方法, (ii) 強化・蒸留データ, (iii) 正規化訓練, (iv) 効率的なセグメンテーションを行う方法である。 また, LPIXEL の CNN-based CXR ソリューションである EIRL Chest Nodule を応用し, 放射線技師・非放射線学者の結節検出感度を 0.100/0.131 改善し, 特異性を維持した。

Convolutional Neural Networks (CNNs) intrinsically requires large-scale data whereas Chest X-Ray (CXR) images tend to be data/annotation-scar ce, leading to over-fitting. Therefore, based on our development experience and related work, this paper thoroughly introduces tricks to improve generalization in the CXR diagnosis: how to (i) leverage additional data, (ii) augment/distillate data, (iii) regularize training, and (iv) conduct efficient segmentation. As a development example based on such optimization techniques, we also feature LPIXEL's CNN-based CXR solution, EIRL Chest Nodule, which improved radiologists/non-rad iologists' nodule detection sensitivity by 0.100/0.131, respectively, while maintaining specificity.
翻訳日:2021-06-03 14:23:06 公開日:2021-06-02
# NVC-Net: エンドツーエンドの音声変換

NVC-Net: End-to-End Adversarial Voice Conversion ( http://arxiv.org/abs/2106.00992v1 )

ライセンス: Link先を確認
Bac Nguyen and Fabien Cardinaux(参考訳) 音声変換は音声合成の多くの応用で人気が高まっている。 そのアイデアは、言語内容を変えながら、ある話者から別の話者に声のアイデンティティを変更することである。 多くの音声変換手法は、音声特徴から音声を再構成するためにボコーダを使うことに依存しており、その結果、音声品質はそのようなボコーダに大きく依存する。 本稿では,任意の長さの生音声波形上で直接音声変換を行う,エンドツーエンドの敵対ネットワークであるNVC-Netを提案する。 話者アイデンティティを音声コンテンツから切り離すことにより、NVC-Netは非並列な従来の多対多音声変換と、目に見えないターゲット話者の短い発話からゼロショット音声変換を行うことができる。 重要なのは、NVC-Netは非自己回帰的で完全な畳み込みであり、高速な推論を実現することである。 我々のモデルはNVIDIA V100 GPU上で3600kHz以上の速度でサンプルを生成することができ、同じハードウェア構成下での最先端の手法よりも桁違いに高速である。 非並列多対多音声変換タスクの客観的および主観的評価は、NVC-Netが、パラメータが著しく少ない競合結果を得ることを示す。

Voice conversion has gained increasing popularity in many applications of speech synthesis. The idea is to change the voice identity from one speaker into another while keeping the linguistic content unchanged. Many voice conversion approaches rely on the use of a vocoder to reconstruct the speech from acoustic features, and as a consequence, the speech quality heavily depends on such a vocoder. In this paper, we propose NVC-Net, an end-to-end adversarial network, which performs voice conversion directly on the raw audio waveform of arbitrary length. By disentangling the speaker identity from the speech content, NVC-Net is able to perform non-parallel traditional many-to-many voice conversion as well as zero-shot voice conversion from a short utterance of an unseen target speaker. Importantly, NVC-Net is non-autoregressive and fully convolutional, achieving fast inference. Our model is capable of producing samples at a rate of more than 3600 kHz on an NVIDIA V100 GPU, being orders of magnitude faster than state-of-the-art methods under the same hardware configurations. Objective and subjective evaluations on non-parallel many-to-many voice conversion tasks show that NVC-Net obtains competitive results with significantly fewer parameters.
翻訳日:2021-06-03 14:22:28 公開日:2021-06-02
# ボトムアップとトップダウンニューラルプロセッシングシステムの設計:自然と人工知能の収束としてのニューロモーフィックインテリジェンス

Bottom-Up and Top-Down Neural Processing Systems Design: Neuromorphic Intelligence as the Convergence of Natural and Artificial Intelligence ( http://arxiv.org/abs/2106.01288v1 )

ライセンス: Link先を確認
Charlotte Frenkel, David Bol, Giacomo Indiveri(参考訳) ムーアの法則は指数関数計算能力の期待を駆り立ててきたが、システム全体のパフォーマンスを改善するための新しい方法が求められている。 これらの方法の1つは、生物学的ニューラルプロセッシングシステムの柔軟性と計算効率を達成することを約束する、脳にインスパイアされた新しいコンピューティングアーキテクチャの探求である。 この文脈では、ニューロモーフィックインテリジェンスは、処理とメモリを密に配置するスパイクニューラルネットワークアーキテクチャの実装に基づく、コンピューティングのパラダイムシフトを表している。 本稿では,既存のシリコン実装におけるさまざまな粒度レベルを概観し,自然知能(ボットアップ)の再現を目的としたアプローチと,実用的な人工知能アプリケーション(トップダウン)の解決を目的としたアプローチを比較し,これらの目標を達成するために使用される回路設計スタイルの利点を評価する。 まず、時間多重化、インメモリ計算、新しいデバイスによる処理とメモリの境界を識別するアナログ、混合信号、デジタル回路設計方式を提案する。 次に、ボトムアップとトップダウンの各アプローチの主なトレードオフを強調し、シリコン実装を調査し、設計ガイドラインを抽出するために詳細な比較分析を行う。 最後に,従来の機械学習アクセラレータと比較して,ニューロモルフィックエッジコンピューティングの競争上の優位性を達成するために必要なシナジーと欠落要素の両方を特定し,ニューロモルフィックインテリジェンスに向けたフレームワークの鍵となる要素を概説する。

While Moore's law has driven exponential computing power expectations, its nearing end calls for new avenues for improving the overall system performance. One of these avenues is the exploration of new alternative brain-inspired computing architectures that promise to achieve the flexibility and computational efficiency of biological neural processing systems. Within this context, neuromorphic intelligence represents a paradigm shift in computing based on the implementation of spiking neural network architectures tightly co-locating processing and memory. In this paper, we provide a comprehensive overview of the field, highlighting the different levels of granularity present in existing silicon implementations, comparing approaches that aim at replicating natural intelligence (bottom-up) versus those that aim at solving practical artificial intelligence applications (top-down), and assessing the benefits of the different circuit design styles used to achieve these goals. First, we present the analog, mixed-signal and digital circuit design styles, identifying the boundary between processing and memory through time multiplexing, in-memory computation and novel devices. Next, we highlight the key tradeoffs for each of the bottom-up and top-down approaches, survey their silicon implementations, and carry out detailed comparative analyses to extract design guidelines. Finally, we identify both necessary synergies and missing elements required to achieve a competitive advantage for neuromorphic edge computing over conventional machine-learning accelerators, and outline the key elements for a framework toward neuromorphic intelligence.
翻訳日:2021-06-03 14:22:11 公開日:2021-06-02
# ランダムニューラルネットワークを用いた効率的な分散分類のための超次元計算

Hyperdimensional Computing for Efficient Distributed Classification with Randomized Neural Networks ( http://arxiv.org/abs/2106.00881v1 )

ライセンス: Link先を確認
Antonello Rosato, Massimo Panella, Denis Kleyko(参考訳) 教師あり学習領域では、近年の計算コストの高いアルゴリズムの普及を考えると、よりシンプルで、より軽く、より計算量の多いトレーニングと推論のアプローチに注意が向けられている。 特に、一般化された基本的なアプローチを考えると、ランダム化アルゴリズムは現在復活している。 ランダム化されたニューラルネットワークを用いて、データを中央に保存することも共有することもできない状況下で使用できる分散分類を研究する。 本稿では,局所的分類器を他のエージェントと共有する場合に,損失の大きい圧縮手法を応用し,分散分類のより効率的な解法を提案する。 このアプローチは超次元コンピューティングの枠組みから始まり、ここで適応される。 データセットの集合に関する実験の結果、提案手法は通常、局所的な分類器よりも精度が高く、ベンチマーク(集中型分類器)に近づくことを示した。 この研究は、分散ランダム化ニューラルネットワークの変動地平線を分析するための第一歩と考えることができる。

In the supervised learning domain, considering the recent prevalence of algorithms with high computational cost, the attention is steering towards simpler, lighter, and less computationally extensive training and inference approaches. In particular, randomized algorithms are currently having a resurgence, given their generalized elementary approach. By using randomized neural networks, we study distributed classification, which can be employed in situations were data cannot be stored at a central location nor shared. We propose a more efficient solution for distributed classification by making use of a lossy compression approach applied when sharing the local classifiers with other agents. This approach originates from the framework of hyperdimensional computing, and is adapted herein. The results of experiments on a collection of datasets demonstrate that the proposed approach has usually higher accuracy than local classifiers and getting close to the benchmark - the centralized classifier. This work can be considered as the first step towards analyzing the variegated horizon of distributed randomized neural networks.
翻訳日:2021-06-03 14:21:19 公開日:2021-06-02
# 注意型リカレントニューラルネットワークを用いた深部個人化グルコースレベル予測

Deep Personalized Glucose Level Forecasting Using Attention-based Recurrent Neural Networks ( http://arxiv.org/abs/2106.00884v1 )

ライセンス: Link先を確認
Mohammadreza Armandpour, Brian Kidd, Yu Du, Jianhua Z. Huang(参考訳) 本稿では,血糖予測の問題点を考察し,深いパーソナライズド・ソリューションを提供する。 糖尿病患者の血糖値を予測することは、異常な血糖値の健康上の合併症が深刻であり、時には死亡につながるため、大きな価値がある。 したがって、潜在的な問題の患者に正確かつ迅速に警告できるモデルを持つことが不可欠である。 より深い血糖予測モデルを構築するため,データを解析し,重要なパターンを検出する。 1-- 患者ごとにパーソナライズされたモデルとグローバルモデルの両方を学習する、2- 注意機構と抽出された時間特徴を使用してデータの長期的な依存関係をよりよく学習する、3- 時系列データのための新しい堅牢なトレーニング手順を導入する。 実データセット上でモデルの有効性を実証的に示す。

In this paper, we study the problem of blood glucose forecasting and provide a deep personalized solution. Predicting blood glucose level in people with diabetes has significant value because health complications of abnormal glucose level are serious, sometimes even leading to death. Therefore, having a model that can accurately and quickly warn patients of potential problems is essential. To develop a better deep model for blood glucose forecasting, we analyze the data and detect important patterns. These observations helped us to propose a method that has several key advantages over existing methods: 1- it learns a personalized model for each patient as well as a global model; 2- it uses an attention mechanism and extracted time features to better learn long-term dependencies in the data; 3- it introduces a new, robust training procedure for time series data. We empirically show the efficacy of our model on a real dataset.
翻訳日:2021-06-03 14:21:04 公開日:2021-06-02
# ナップサック付きmnlバンド

MNL-Bandit with Knapsacks ( http://arxiv.org/abs/2106.01135v1 )

ライセンス: Link先を確認
Abdellah Aznag, Vineet Goyal and Noemie Perivier(参考訳) 販売者がN$の代替品の在庫を固定し、T$の期間に順次届く未知の需要に直面している場合の動的品揃え選択問題を考える。 各期間において、売り手は顧客に提供する製品(最大で1ドル)の品揃えを決定する必要がある。 顧客の応答は、パラメータ$v$を持つ未知の多項ロジットモデル(mnl)に従っている。 売り手の目標は、N$の商品の固定初期在庫から予想される総売上を最大化することである。 我々は、モデルパラメータの軽度な仮定の下で、$\tilde O\left(K \sqrt{K N T}\left(1 + \frac{\sqrt{v_{\max}}}{q_{\min}}\text{OPT}\right) \right)を後悔するポリシーを与える。 特に、我々の政策は、大規模な在庫設定において、ほぼ最適の$\tilde O(\sqrt{T})$後悔を達成する。 本政策は, 在庫制約を伴わない UCB-based approach for MNL-bandit in [1], and address the inventory constraints through an indexly sized LP that we present a tractable approximation while keep the $\tilde O(\sqrt{T})$ regret bound。

We consider a dynamic assortment selection problem where a seller has a fixed inventory of $N$ substitutable products and faces an unknown demand that arrives sequentially over $T$ periods. In each period, the seller needs to decide on the assortment of products (of cardinality at most $K$) to offer to the customers. The customer's response follows an unknown multinomial logit model (MNL) with parameters $v$. The goal of the seller is to maximize the total expected revenue given the fixed initial inventory of $N$ products. We give a policy that achieves a regret of $\tilde O\left(K \sqrt{K N T}\left(1 + \frac{\sqrt{v_{\max}}}{q_{\min}}\text{OPT}\right) \right)$ under a mild assumption on the model parameters. In particular, our policy achieves a near-optimal $\tilde O(\sqrt{T})$ regret in the large inventory setting. Our policy builds upon the UCB-based approach for MNL-bandit without inventory constraints in [1] and addresses the inventory constraints through an exponentially sized LP for which we present a tractable approximation while keeping the $\tilde O(\sqrt{T})$ regret bound.
翻訳日:2021-06-03 14:20:49 公開日:2021-06-02
# 深層学習に基づく圧縮UGCビデオの完全参照と非参照品質評価モデル

Deep Learning based Full-reference and No-reference Quality Assessment Models for Compressed UGC Videos ( http://arxiv.org/abs/2106.01111v1 )

ライセンス: Link先を確認
Wei Sun and Tao Wang and Xiongkuo Min and Fuwang Yi and Guangtao Zhai(参考訳) 本稿では,圧縮されたユーザ生成コンテンツ(UGC)ビデオの品質を評価するための,ディープラーニングに基づくビデオ品質評価(VQA)フレームワークを提案する。 提案するVQAフレームワークは,機能抽出モジュール,品質回帰モジュール,品質プールモジュールの3つのモジュールで構成されている。 特徴抽出モジュールでは,畳み込みニューラルネットワーク(cnn)ネットワークの中間層から最終品質認識機能表現に機能を融合することで,低レベルから高レベルまでの視覚情報をフルに活用することができる。 具体的には、全中間層から抽出された特徴マップの構造とテクスチャの類似性を全参照(fr)vqaモデルの特徴表現として算出し、中間特徴マップによって融合された最終特徴マップのグローバル平均および標準偏差をno参照(nr)vqaモデルの特徴表現として算出する。 品質回帰モジュールでは,完全接続(fc)層を用いて品質認識機能をフレームレベルのスコアに回帰する。 最後に、ビデオレベルスコアにフレームレベルスコアをプールするために、主観的にインスパイアされた時間プーリング戦略を採用する。 提案モデルは,圧縮されたUGC VQAデータベース上での最先端FRモデルとNR VQAモデルの中で最高の性能を達成し,また,現在開発中のUGC VQAデータベース上ではかなり優れた性能を達成する。

In this paper, we propose a deep learning based video quality assessment (VQA) framework to evaluate the quality of the compressed user's generated content (UGC) videos. The proposed VQA framework consists of three modules, the feature extraction module, the quality regression module, and the quality pooling module. For the feature extraction module, we fuse the features from intermediate layers of the convolutional neural network (CNN) network into final quality-aware feature representation, which enables the model to make full use of visual information from low-level to high-level. Specifically, the structure and texture similarities of feature maps extracted from all intermediate layers are calculated as the feature representation for the full reference (FR) VQA model, and the global mean and standard deviation of the final feature maps fused by intermediate feature maps are calculated as the feature representation for the no reference (NR) VQA model. For the quality regression module, we use the fully connected (FC) layer to regress the quality-aware features into frame-level scores. Finally, a subjectively-inspire d temporal pooling strategy is adopted to pool frame-level scores into the video-level score. The proposed model achieves the best performance among the state-of-the-art FR and NR VQA models on the Compressed UGC VQA database and also achieves pretty good performance on the in-the-wild UGC VQA databases.
翻訳日:2021-06-03 14:20:27 公開日:2021-06-02
# デジタルホモトピー関係とデジタルホモロジー理論

Digital homotopy relations and digital homology theories ( http://arxiv.org/abs/2106.01171v1 )

ライセンス: Link先を確認
P. Christopher Staecker(参考訳) 本稿では,デジタル画像のトポロジで発達した2つのホモトピー関係と4つのホモロジー理論に関する結果を証明する。 我々は「強ホモトピー」と呼ばれるデジタル連続関数に対する新しいタイプのホモトピー関係を導入する。 デジタルホモトピーと強ホモトピーはどちらも古典的トポロジカルホモトピーの自然なデジタル化であり、それらの違いは平面におけるデジタル4-アジャクティと8-アジャクティの差に類似している。 クライク複体のホモロジーであるarslan et alによる単純ホモロジー理論、d. w. leeによる特異単純ホモロジー理論、jamilとaliによる立方体ホモロジー理論、そして容易に計算できる$c_1$-adjacencyを持つデジタル画像の新しい種類の立方体ホモロジー、そしてkaraca \&egeによる構成を一般化した4つの異なるデジタルホモロジー理論も検討する。 2つの単相ホモロジー理論は互いに同型であるが、2つの立方体理論とは異なっている。 また、ホモトピー写像は立方体ホモロジー理論において同じ誘導準同型を持ち、強ホモトピー写像は単純理論において同じ誘導準同型を持つことを示す。

In this paper we prove results relating to two homotopy relations and four homology theories developed in the topology of digital images. We introduce a new type of homotopy relation for digitally continuous functions which we call "strong homotopy." Both digital homotopy and strong homotopy are natural digitizations of classical topological homotopy: the difference between them is analogous to the difference between digital 4-adjacency and 8-adjacency in the plane. We also consider four different digital homology theories: a simplicial homology theory by Arslan et al which is the homology of the clique complex, a singular simplicial homology theory by D. W. Lee, a cubical homology theory by Jamil and Ali, and a new kind of cubical homology for digital images with $c_1$-adjacency which is easily computed, and generalizes a construction by Karaca \& Ege. We show that the two simplicial homology theories are isomorphic to each other, but distinct from the two cubical theories. We also show that homotopic maps have the same induced homomorphisms in the cubical homology theory, and strong homotopic maps additionally have the same induced homomorphisms in the simplicial theory.
翻訳日:2021-06-03 14:20:00 公開日:2021-06-02
# 一般化平均密度最密部分グラフ問題

The Generalized Mean Densest Subgraph Problem ( http://arxiv.org/abs/2106.00909v1 )

ライセンス: Link先を確認
Nate Veldt and Austin R. Benson and Jon Kleinberg(参考訳) 大きなグラフの密度の高い部分グラフを見つけることはグラフマイニングの標準的な問題であり、理論的な豊かさと多くの実用的応用の両方について広く研究されてきた。 本稿では,グラフの次数列の計算一般化に基づく1つのパラメータ$p$でパラメータ化された,高密度なサブグラフ対象の新たなファミリーを紹介する。 我々の目標は、標準密度のサブグラフ問題と最大$k$-coreを特別なケースとして捉え、他の密度のサブグラフの概念を探す際に、これらの2つの目的の間を補間し、外挿する方法を提供する。 アルゴリズム的貢献の観点で、我々はまず、繰り返しサブモジュラー最小化を用いて、すべての$p \geq 1$の多項式時間で目標を最小化できることを示した。 我々の研究の大きな貢献は、理論と実践の両方において密接な部分グラフに対する様々な種類の剥離アルゴリズムの性能を分析することである。 標準的な剥離アルゴリズムは、一般化された目的に対して任意に不利な動作をすることができることを証明するが、$p \geq 1$に対して少なくとも1/2$の近似保証を持ち、$p \rightarrow \infty$として1に収束するより洗練された剥離法を設計する。 実際、このアルゴリズムは最適解に対して極めて優れた近似値を求め、大きなグラフにスケールし、多くの領域から来るグラフの密度に関する様々な意味のある概念を強調する。 さらに、あるノードの除去が近隣の他のノードにどのように影響するかをよりよく説明することで、標準的な剥離アルゴリズムよりも最も密度の高い部分グラフ問題を近似することができる。

Finding dense subgraphs of a large graph is a standard problem in graph mining that has been studied extensively both for its theoretical richness and its many practical applications. In this paper we introduce a new family of dense subgraph objectives, parameterized by a single parameter $p$, based on computing generalized means of degree sequences of a subgraph. Our objective captures both the standard densest subgraph problem and the maximum $k$-core as special cases, and provides a way to interpolate between and extrapolate beyond these two objectives when searching for other notions of dense subgraphs. In terms of algorithmic contributions, we first show that our objective can be minimized in polynomial time for all $p \geq 1$ using repeated submodular minimization. A major contribution of our work is analyzing the performance of different types of peeling algorithms for dense subgraphs both in theory and practice. We prove that the standard peeling algorithm can perform arbitrarily poorly on our generalized objective, but we then design a more sophisticated peeling method which for $p \geq 1$ has an approximation guarantee that is always at least $1/2$ and converges to 1 as $p \rightarrow \infty$. In practice, we show that this algorithm obtains extremely good approximations to the optimal solution, scales to large graphs, and highlights a range of different meaningful notions of density on graphs coming from numerous domains. Furthermore, it is typically able to approximate the densest subgraph problem better than the standard peeling algorithm, by better accounting for how the removal of one node affects other nodes in its neighborhood.
翻訳日:2021-06-03 14:18:47 公開日:2021-06-02
# 多分解能グラフ変分オートエンコーダ

Multiresolution Graph Variational Autoencoder ( http://arxiv.org/abs/2106.00967v1 )

ライセンス: Link先を確認
Truong Son Hy and Risi Kondor(参考訳) 本稿では,多分解能グラフネットワーク(MGN)と多分解能グラフ変分オートエンコーダ(MGVAE)を提案する。 各解像度レベルでは、MGNはグラフを符号化し、それを互いに排他的なクラスタに分割し、より低い解像度に粗くする。 MGVAEはMGNに基づく階層的生成モデルを構築し、粗いグラフの階層を変動的に自動符号化する。 提案するフレームワークはノードの順序付けに関するエンドツーエンドの置換同型である。 提案手法は, 引用グラフのリンク予測, 教師なし分子表現学習, 分子特性予測, 分子生成, 一般グラフ生成, グラフベース画像生成など, 様々な生成タスクで成功している。

In this paper, we propose Multiresolution Graph Networks (MGN) and Multiresolution Graph Variational Autoencoders (MGVAE) to learn and generate graphs in a multiresolution and equivariant manner. At each resolution level, MGN employs higher order message passing to encode the graph while learning to partition it into mutually exclusive clusters and coarsening into a lower resolution. MGVAE constructs a hierarchical generative model based on MGN to variationally autoencode the hierarchy of coarsened graphs. Our proposed framework is end-to-end permutation equivariant with respect to node ordering. Our methods have been successful with several generative tasks including link prediction on citation graphs, unsupervised molecular representation learning to predict molecular properties, molecular generation, general graph generation and graph-based image generation.
翻訳日:2021-06-03 14:18:16 公開日:2021-06-02
# 時変チャネル上での協調推論のためのエネルギー効率の高いモデル圧縮と分割

Energy-Efficient Model Compression and Splitting for Collaborative Inference Over Time-Varying Channels ( http://arxiv.org/abs/2106.00995v1 )

ライセンス: Link先を確認
Mounssif Krouka, Anis Elgabli, Chaouki Ben Issaid and Mehdi Bennis(参考訳) 今日のインテリジェントアプリケーションは、ディープニューラルネットワーク(DNN)などの機械学習(ML)技術を使用して、高いパフォーマンスを実現することができる。 伝統的に、リモートDNN推論問題では、エッジデバイスは、推論タスクを実行するリモートノードに生データを送信する。 しかし、これは高い送信エネルギーコストを発生させ、データのプライバシーを危険にさらす可能性がある。 本稿では,エッジノードとリモートノードを分割したモデル圧縮と時間変動モデルを用いて,エッジデバイスにおける総エネルギーコストを削減する手法を提案する。 時間変化表現は時間変化チャネルを考慮し、高精度(低損失)を維持しつつエッジデバイス全体のエネルギーを大幅に削減することができる。 提案手法はMNISTデータセットを用いて画像分類タスクに実装し,異なるチャネル条件をエミュレートするための軌道ナビゲーションシナリオとしてシステム環境をシミュレートする。 数値シミュレーションにより,提案手法は,異なるチャネル条件および帯域幅選択において頑健な性能を示しながら,検討したベースラインと比較して最小のエネルギー消費とCO_2$エミッションをもたらすことが示された。

Today's intelligent applications can achieve high performance accuracy using machine learning (ML) techniques, such as deep neural networks (DNNs). Traditionally, in a remote DNN inference problem, an edge device transmits raw data to a remote node that performs the inference task. However, this may incur high transmission energy costs and puts data privacy at risk. In this paper, we propose a technique to reduce the total energy bill at the edge device by utilizing model compression and time-varying model split between the edge and remote nodes. The time-varying representation accounts for time-varying channels and can significantly reduce the total energy at the edge device while maintaining high accuracy (low loss). We implement our approach in an image classification task using the MNIST dataset, and the system environment is simulated as a trajectory navigation scenario to emulate different channel conditions. Numerical simulations show that our proposed solution results in minimal energy consumption and $CO_2$ emission compared to the considered baselines while exhibiting robust performance across different channel conditions and bandwidth regime choices.
翻訳日:2021-06-03 14:18:00 公開日:2021-06-02
# アナログ通信とエアアグリゲーションを用いたコミュニケーション効率の高い分割学習

Communication-Effici ent Split Learning Based on Analog Communication and Over the Air Aggregation ( http://arxiv.org/abs/2106.00999v1 )

ライセンス: Link先を確認
Mounssif Krouka, Anis Elgabli, Chaouki ben Issaid, and Mehdi Bennis(参考訳) スプリットラーニング(sl)は、プライバシ保護機能と計算能力に制限のあるデバイスの協調推論を可能にする能力によって、最近人気を集めている。 標準slアルゴリズムは理想的なデジタル通信システムであり、通信帯域の少ない問題を無視する。 しかし、多数のエージェント、限られた帯域幅リソース、時間変化のある通信チャネルでは、通信帯域幅がボトルネックとなる可能性がある。 そこで本研究では,エージェント側に付加層を導入し,エアアグリゲーションを克服するために重みとバイアスの選択を制約する,リモート推論問題を解決するための新しいslフレームワークを提案する。 したがって,提案手法は,限られた帯域幅で遠隔推論が可能なエージェントの数に対して,通信コストを一定に維持する。 数値計算の結果,提案アルゴリズムは通信効率において,特にエージェント数が増大するにつれて,デジタル実装よりも優れていた。

Split-learning (SL) has recently gained popularity due to its inherent privacy-preserving capabilities and ability to enable collaborative inference for devices with limited computational power. Standard SL algorithms assume an ideal underlying digital communication system and ignore the problem of scarce communication bandwidth. However, for a large number of agents, limited bandwidth resources, and time-varying communication channels, the communication bandwidth can become the bottleneck. To address this challenge, in this work, we propose a novel SL framework to solve the remote inference problem that introduces an additional layer at the agent side and constrains the choices of the weights and the biases to ensure over the air aggregation. Hence, the proposed approach maintains constant communication cost with respect to the number of agents enabling remote inference under limited bandwidth. Numerical results show that our proposed algorithm significantly outperforms the digital implementation in terms of communication-effici ency, especially as the number of agents grows large.
翻訳日:2021-06-03 14:17:43 公開日:2021-06-02
# 深層強化学習に基づくUAVナビゲーションと制御:隠れ経験リプレイアプローチによるソフトアクター批判

Deep Reinforcement Learning-based UAV Navigation and Control: A Soft Actor-Critic with Hindsight Experience Replay Approach ( http://arxiv.org/abs/2106.01016v1 )

ライセンス: Link先を確認
Myoung Hoon Lee, Jun Moon(参考訳) 本稿では,深部強化学習(DRL)アルゴリズムのクラスを構成するHER(Handsight Experience Replay)を備えたSACHER(Software actor-critic, SAC)を提案する。 SACは、最大エントロピーフレームワークに基づく非政治モデルフリーのDRLアルゴリズムとして知られており、探索、堅牢性、学習性能の点で、以前のDRLアルゴリズムよりも優れている。 しかし, SACでは, エントロピー向上目標の最大化は学習結果の最適性を低下させる可能性がある。 drlアルゴリズムの性能を向上させるサンプル効率の高いリプレイ手法として知られ、失敗と成功の両方から学べるようにしている。 SAC に HER を適用し,SAC の学習性能を向上させるために SACHER を提案する。 より正確には、HERはSACのサンプル効率を改善するので、SACHERはSACよりも迅速により正確に所望の最適結果を達成する。 本研究では,無人航空機(UAV)の航法制御問題にSACHERを適用し,各種障害物下でのUAVの最適航法経路を生成する。 具体的には,現在最先端のDRLアルゴリズムであるSACとDDPGと比較することにより,UAV動作における追跡誤差と累積報酬の観点からSACHERの有効性を示す。 なお、UAVナビゲーションおよび制御問題におけるSACHERは、UAVの任意のモデルに適用可能である。

In this paper, we propose SACHER (soft actor-critic (SAC) with hindsight experience replay (HER)), which constitutes a class of deep reinforcement learning (DRL) algorithms. SAC is known as an off-policy model-free DRL algorithm based on the maximum entropy framework, which outperforms earlier DRL algorithms in terms of exploration, robustness and learning performance. However, in SAC, maximizing the entropy-augmented objective may degrade the optimality of the learning outcomes. HER is known as a sample-efficient replay method that enhances the performance of off-policy DRL algorithms by allowing them to learn from both failures and successes. We apply HER to SAC and propose SACHER to improve the learning performance of SAC. More precisely, SACHER achieves the desired optimal outcomes faster and more accurately than SAC, since HER improves the sample efficiency of SAC. We apply SACHER to the navigation and control problem of unmanned aerial vehicles (UAVs), where SACHER generates the optimal navigation path of the UAV under various obstacles in operation. Specifically, we show the effectiveness of SACHER in terms of the tracking error and cumulative reward in UAV operation by comparing them with those of state-of-the-art DRL algorithms, SAC and DDPG. Note that SACHER in UAV navigation and control problems can be applied to arbitrary models of UAVs.
翻訳日:2021-06-03 14:17:28 公開日:2021-06-02
# 物理層通信におけるディープニューラルネットワークのブラックボックスの開放

Opening the Black Box of Deep Neural Networks in Physical Layer Communication ( http://arxiv.org/abs/2106.01124v1 )

ライセンス: Link先を確認
Jun Liu, Kai Mei, Dongtang Ma and Jibo Wei(参考訳) ディープニューラルネットワーク(DNN)ベースの物理層技術は、通信システムを強化する可能性から、かなりの関心を集めている。 しかしながら、物理層におけるほとんどの研究はDNNの実装に焦点を当てる傾向にあるが、DNNが通信システムでどのように機能するか理論的には理解していない。 本稿では,DNNが従来の手法と比較して物理層で同等の性能を達成できる理由と,計算複雑性の観点からコストを定量的に分析することを目的とする。 さらに,情報理論的な概念の下でdnnベースの通信システムにおいて,情報がどのように流れるのかを実験的に検証する。

Deep Neural Network (DNN)-based physical layer techniques are attracting considerable interest due to their potential to enhance communication systems. However, most studies in the physical layer have tended to focus on the implement of DNN but not to theoretically understand how does a DNN work in a communication system. In this letter, we aim to quantitatively analyse why DNNs can achieve comparable performance in the physical layer comparing with traditional techniques and its cost in terms of computational complexity. We further investigate and also experimentally validate how information is flown in a DNN-based communication system under the information theoretic concepts.
翻訳日:2021-06-03 14:17:05 公開日:2021-06-02
# 微分軌道重み付けによる実験データからのニューラルネットワーク電位の学習

Learning neural network potentials from experimental data via Differentiable Trajectory Reweighting ( http://arxiv.org/abs/2106.01138v1 )

ライセンス: Link先を確認
Stephan Thaler and Julija Zavadlav(参考訳) 分子動力学(md)では、量子力学データでボトムアップを訓練したニューラルネットワーク(nn)ポテンシャルが近年大きな成功を収めている。 実験データから直接NN電位を学習するトップダウンアプローチは、一般的にMDシミュレーションをバックプロパゲートする際に数値や計算上の問題に直面している。 本稿では,mdシミュレーションによる時間非依存オブザーバブルの微分をバイパスする微分可能軌道再重み付け(difftre)法を提案する。 熱力学的摂動理論を応用し、爆発的な勾配を回避し、トップダウン学習のための勾配計算で約2桁の速度アップを達成する。 本研究では, 熱力学, 構造, 機械的特性を含む種々の実験的観測値に基づいて, ダイヤモンドの原子モデルと粗粒水モデルに対するNN電位の学習におけるDiffTReの有効性を示す。 重要なことに、DiffTReはボトムアップ構造粗粒化法、例えば反復ボルツマンの任意のポテンシャルへの逆変換を一般化する。 提案手法はnn電位を実験データで高めるための重要なマイルストーンであり、特に正確なボトムアップデータが利用できない場合である。

In molecular dynamics (MD), neural network (NN) potentials trained bottom-up on quantum mechanical data have seen tremendous success recently. Top-down approaches that learn NN potentials directly from experimental data have received less attention, typically facing numerical and computational challenges when backpropagating through MD simulations. We present the Differentiable Trajectory Reweighting (DiffTRe) method, which bypasses differentiation through the MD simulation for time-independent observables. Leveraging thermodynamic perturbation theory, we avoid exploding gradients and achieve around 2 orders of magnitude speed-up in gradient computation for top-down learning. We show effectiveness of DiffTRe in learning NN potentials for an atomistic model of diamond and a coarse-grained model of water based on diverse experimental observables including thermodynamic, structural and mechanical properties. Importantly, DiffTRe also generalizes bottom-up structural coarse-graining methods such as iterative Boltzmann inversion to arbitrary potentials. The presented method constitutes an important milestone towards enriching NN potentials with experimental data, particularly when accurate bottom-up data is unavailable.
翻訳日:2021-06-03 14:16:54 公開日:2021-06-02
# (参考訳) レベル適応型クレジット割り当てを用いた協調型マルチエージェント転送学習 [全文訳有]

Cooperative Multi-Agent Transfer Learning with Level-Adaptive Credit Assignment ( http://arxiv.org/abs/2106.00517v2 )

ライセンス: CC BY 4.0
Tianze Zhou, Fubiao Zhang, Kun Shao, Kai Li, Wenhan Huang, Jun Luo, Weixun Wang, Yaodong Yang, Hangyu Mao, Bin Wang, Dong Li, Wulong Liu, Jianye Hao(参考訳) 協調型マルチエージェント強化学習(MARL)への移行学習は近年注目されている。 単一エージェントの設定とは対照的に、協調的なMARLでは調整が不可欠である。 しかし,既存の転送手法はエージェントポリシーにのみ焦点をあて,協調知識を無視する。 本稿では,コーディネーション全体を複数の協調パターンに適切に分解することで,ロバストな協調知識の伝達を実現するアーキテクチャを提案する。 我々は、レベル適応型QTransformer(LA-QTra nsformer)と呼ばれる新しいミキシングネットワークを用いて、クレジット代入を考慮したエージェント調整を実現し、協調知識の伝達に特化した新しいレベル適応型QTransformer(LA-Tran sformer)によって実現された異なるエージェントに対する適切な調整パターンを実現する。 さらに,Population Invariant agent with Transformer (PIT) という新しいエージェントネットワークを用いて,多種多様なシナリオにおけるコーディネーション転送を実現する。 StarCraft IIの大規模なマイクロマネジメント実験により、LA-QTransformerとPITは最先端のベースラインに比べて優れた性能を発揮することが示された。

Extending transfer learning to cooperative multi-agent reinforcement learning (MARL) has recently received much attention. In contrast to the single-agent setting, the coordination indispensable in cooperative MARL constrains each agent's policy. However, existing transfer methods focus exclusively on agent policy and ignores coordination knowledge. We propose a new architecture that realizes robust coordination knowledge transfer through appropriate decomposition of the overall coordination into several coordination patterns. We use a novel mixing network named level-adaptive QTransformer (LA-QTransformer) to realize agent coordination that considers credit assignment, with appropriate coordination patterns for different agents realized by a novel level-adaptive Transformer (LA-Transformer) dedicated to the transfer of coordination knowledge. In addition, we use a novel agent network named Population Invariant agent with Transformer (PIT) to realize the coordination transfer in more varieties of scenarios. Extensive experiments in StarCraft II micro-management show that LA-QTransformer together with PIT achieves superior performance compared with state-of-the-art baselines.
翻訳日:2021-06-03 11:19:22 公開日:2021-06-02
# 純粋相関に対する反実的不変性:なぜ、どのようにストレステストに合格するか

Counterfactual Invariance to Spurious Correlations: Why and How to Pass Stress Tests ( http://arxiv.org/abs/2106.00545v2 )

ライセンス: Link先を確認
Victor Veitch, Alexander D'Amour, Steve Yadlowsky, Jacob Eisenstein(参考訳) インフォーマルに、'spurious correlation' とは、アナリストが重要とすべきでないと考える入力データのある側面に対するモデルの依存である。 機械学習では、これらはノウ・イ・ユー・サー・イットの性格を持ち、例えば、文の主題の性別を変更すると感情予測者の出力が変化する。 スプリアス相関をチェックするために、入力データの無関係な部分を摂動させ、モデル予測が変化するかどうかを確認することで、モデルにストレステストを加えることができる。 本稿では,因果推論ツールを用いたストレステストについて検討する。 入力の無関係な部分を変更することは、モデル予測を変えるべきではないという要求の形式化として、emph{counterfactual invariance}を導入する。 我々は,非現実的不変性とドメイン外のモデル性能を結合し,非現実的不変性予測を学習するための実践的なスキームを提供する。 反事実的不変性の意味と意味は、データの真の基礎となる因果構造に依存することが判明した。 個々の因果構造は、反事実的不変性を誘導するために異なる正則化スキームを必要とする。 同様に、反事実不変性は、基礎となる因果構造によって異なる領域シフトが保証されることを意味する。 この理論はテキスト分類の実験的な結果によって支持されている。

Informally, a `spurious correlation' is the dependence of a model on some aspect of the input data that an analyst thinks shouldn't matter. In machine learning, these have a know-it-when-you-see -it character; e.g., changing the gender of a sentence's subject changes a sentiment predictor's output. To check for spurious correlations, we can `stress test' models by perturbing irrelevant parts of input data and seeing if model predictions change. In this paper, we study stress testing using the tools of causal inference. We introduce \emph{counterfactual invariance} as a formalization of the requirement that changing irrelevant parts of the input shouldn't change model predictions. We connect counterfactual invariance to out-of-domain model performance, and provide practical schemes for learning (approximately) counterfactual invariant predictors (without access to counterfactual examples). It turns out that both the means and implications of counterfactual invariance depend fundamentally on the true underlying causal structure of the data. Distinct causal structures require distinct regularization schemes to induce counterfactual invariance. Similarly, counterfactual invariance implies different domain shift guarantees depending on the underlying causal structure. This theory is supported by empirical results on text classification.
翻訳日:2021-06-03 11:03:38 公開日:2021-06-02
# 木バンクが漏れているため」の複製と拡張:グラフ同型、共変、パーザ性能

Replicating and Extending "Because Their Treebanks Leak": Graph Isomorphism, Covariants, and Parser Performance ( http://arxiv.org/abs/2106.00352v2 )

ライセンス: Link先を確認
Mark Anderson and Anders S{\o}gaard and Carlos G\'omez Rodr\'iguez(参考訳) s{\o}gaard (2020) は、テストデータに含まれる木の割合がトレーニングセット内の木に同型であることを示唆する結果を得た。 NLPの他の統計分析と同様に、結果は線形回帰評価に基づく。 しかし,本研究には方法論的な問題があり,信頼性の低いサンプルサイズを用いて実施した。 そこで本研究では,文の長さを単位とする複製研究を行い,グラフ同型に関して,文のごく一部しか性能に変化がないことを示す。 さらに,共変量を制御する際に,野生におけるパーサ性能とグラフアイソモーフィズムの相関は消失する。 しかし、共変を固定した制御実験では、強い相関関係が観察される。 このような統計的分析から得られた結論は、より容易に要因を分解することで、制御された実験がそれらを補う必要があることを示唆する。

S{\o}gaard (2020) obtained results suggesting the fraction of trees occurring in the test data isomorphic to trees in the training set accounts for a non-trivial variation in parser performance. Similar to other statistical analyses in NLP, the results were based on evaluating linear regressions. However, the study had methodological issues and was undertaken using a small sample size leading to unreliable results. We present a replication study in which we also bin sentences by length and find that only a small subset of sentences vary in performance with respect to graph isomorphism. Further, the correlation observed between parser performance and graph isomorphism in the wild disappears when controlling for covariants. However, in a controlled experiment, where covariants are kept fixed, we do observe a strong correlation. We suggest that conclusions drawn from statistical analyses like this need to be tempered and that controlled experiments can complement them by more readily teasing factors apart.
翻訳日:2021-06-03 11:03:16 公開日:2021-06-02
# 確率論的ニューラルネットワークと深層確率モデルを用いた確率論的深層学習

Probabilistic Deep Learning with Probabilistic Neural Networks and Deep Probabilistic Models ( http://arxiv.org/abs/2106.00120v2 )

ライセンス: Link先を確認
Daniel T. Chang(参考訳) 確率的ディープラーニング(probabilistic Deep Learning)は、モデル不確実性とデータ不確実性の両方を考慮に入れたディープラーニングである。 これは確率モデルとディープニューラルネットワークの使用に基づいている。 確率的ニューラルネットワークと確率的モデルという2つの確率的ディープラーニングのアプローチを区別する。 前者は、不確かさを表現し処理できる確率的層を利用するディープニューラルネットワークを使用し、後者は確率的モデルを使用して、確率変数間の複雑な非線形確率的関係をキャプチャするディープニューラルネットワークコンポーネントを組み込む。 本稿では、ベイズ型ニューラルネットワークと混合密度ネットワーク(確率的ニューラルネットワーク)、変分オートエンコーダ、深いガウス過程、深層混合効果モデル(ディープ確率モデル)など、それぞれのアプローチの主な例について議論する。 TensorFlow Probabilityは確率的モデリングと推論のためのライブラリであり、確率的ディープラーニングのアプローチの両方に使用できる。 イラストにはコード例が含まれています。

Probabilistic deep learning is deep learning that accounts for uncertainty, both model uncertainty and data uncertainty. It is based on the use of probabilistic models and deep neural networks. We distinguish two approaches to probabilistic deep learning: probabilistic neural networks and deep probabilistic models. The former employs deep neural networks that utilize probabilistic layers which can represent and process uncertainty; the latter uses probabilistic models that incorporate deep neural network components which capture complex non-linear stochastic relationships between the random variables. We discuss some major examples of each approach including Bayesian neural networks and mixture density networks (for probabilistic neural networks), and variational autoencoders, deep Gaussian processes and deep mixed effects models (for deep probabilistic models). TensorFlow Probability is a library for probabilistic modeling and inference which can be used for both approaches of probabilistic deep learning. We include its code examples for illustration.
翻訳日:2021-06-03 11:03:01 公開日:2021-06-02
# 並列データのない低リソース関連言語への高リソースNMTモデルの適用

Adapting High-resource NMT Models to Translate Low-resource Related Languages without Parallel Data ( http://arxiv.org/abs/2105.15071v2 )

ライセンス: Link先を確認
Wei-Jen Ko, Ahmed El-Kishky, Adithya Renduchintala, Vishrav Chaudhary, Naman Goyal, Francisco Guzm\'an, Pascale Fung, Philipp Koehn, Mona Diab(参考訳) 並列データの不足は、低リソース言語のための高品質機械翻訳システムのトレーニングの大きな障害である。 幸運なことに、一部の低リソース言語は言語的に関連があるか、高リソース言語と類似している。 本研究では,この言語重なりを利用して,モノリンガルデータのみを用いた低リソース言語への翻訳を容易にするとともに,関連する高リソース言語の並列データも活用する。 我々の手法であるNMT-Adaptは,低リソース適応にモノリンガルデータを利用するために,デノイング自動符号化,バックトランスレーション,対向目的を組み合わせた。 3つの異なる言語ファミリーから7つの言語を実験し,本手法が他の翻訳ベースラインと比較して低リソース言語への翻訳を著しく改善することを示す。

The scarcity of parallel data is a major obstacle for training high-quality machine translation systems for low-resource languages. Fortunately, some low-resource languages are linguistically related or similar to high-resource languages; these related languages may share many lexical or syntactic structures. In this work, we exploit this linguistic overlap to facilitate translating to and from a low-resource language with only monolingual data, in addition to any parallel data in the related high-resource language. Our method, NMT-Adapt, combines denoising autoencoding, back-translation and adversarial objectives to utilize monolingual data for low-resource adaptation. We experiment on 7 languages from three different language families and show that our technique significantly improves translation into low-resource language compared to other translation baselines.
翻訳日:2021-06-03 11:02:30 公開日:2021-06-02
# パープレキシティを越えた言語モデルの評価

Language Model Evaluation Beyond Perplexity ( http://arxiv.org/abs/2106.00085v2 )

ライセンス: Link先を確認
Clara Meister, Ryan Cotterell(参考訳) そこで我々は,自然言語モデルがいかに自然言語を学習するかを定量化する代替手法を提案する。 この疑問に答えるために,言語モデルから生成したテキストが,学習した人間の生成したテキストに存在する統計的傾向を示すか分析する。 我々は,これらの傾向に対する言語モデルの適合性を評価するために,重要度テストを備えたフレームワークを提供する。 ニューラルネットワークモデルは、考慮される傾向のサブセットのみを学習しているように見えるが、(現在)提案された理論分布よりも経験的傾向と密接に一致している。 さらに、異なる分布に対する適合性はモデルアーキテクチャと生成戦略の両方に大きく依存する。 具体的な例として、核サンプリングスキームで生成されたテキストは、標準祖先サンプリングで生成されたテキストよりも自然言語のタイプ-トケン関係に密着しており、lstmからのテキストは、長さ、ストップワード、シンボルに対する自然言語分布を驚くほど反映している。

We propose an alternate approach to quantifying how well language models learn natural language: we ask how well they match the statistical tendencies of natural language. To answer this question, we analyze whether text generated from language models exhibits the statistical tendencies present in the human-generated text on which they were trained. We provide a framework--paired with significance tests--for evaluating the fit of language models to these trends. We find that neural language models appear to learn only a subset of the tendencies considered, but align much more closely with empirical trends than proposed theoretical distributions (when present). Further, the fit to different distributions is highly-dependent on both model architecture and generation strategy. As concrete examples, text generated under the nucleus sampling scheme adheres more closely to the type--token relationship of natural language than text produced using standard ancestral sampling; text from LSTMs reflects the natural language distributions over length, stopwords, and symbols surprisingly well.
翻訳日:2021-06-03 11:02:16 公開日:2021-06-02
# HERALD:ソーシャル・会話におけるユーザ・ディエンジメントを効果的に検出するアノテーション手法

HERALD: An Annotation Efficient Method to Detect User Disengagement in Social Conversations ( http://arxiv.org/abs/2106.00162v2 )

ライセンス: Link先を確認
Weixin Liang, Kai-Hui Liang, Zhou Yu(参考訳) オープンドメインダイアログシステムには、人間に魅力的な会話体験を提供することという、ユーザ中心の目標がある。 ユーザエンゲージメントはオープンドメインダイアログシステムを評価する上で最も重要な指標の1つであり、ダイアログポリシー学習のためにリアルタイムフィードバックとしても使用できる。 ユーザの離脱を検出する既存の作業は、通常、多くのダイアログのサンプルを手作業でラベル付けする必要がある。 本稿では,学習データアノテーションプロセスを再編成する,効率的なアノテーションフレームワークHERALDを提案する。 具体的には、トレーニングサンプルを手動でラベル付けするのではなく、トレーニングサンプルを自動的にラベル付けするヒューリスティックのセットを使用します。 次に、Shapleyアルゴリズムを用いて弱いラベル付きデータを復調する。 最後に、ユーザエンゲージメント検出器をトレーニングするために、デノライズドデータを使用します。 実験の結果,herbledはアノテーションの効率を大幅に向上し,2つのダイアログコーパスにおいて86%のユーザ離脱検出精度を達成した。

Open-domain dialog systems have a user-centric goal: to provide humans with an engaging conversation experience. User engagement is one of the most important metrics for evaluating open-domain dialog systems, and could also be used as real-time feedback to benefit dialog policy learning. Existing work on detecting user disengagement typically requires hand-labeling many dialog samples. We propose HERALD, an efficient annotation framework that reframes the training data annotation process as a denoising problem. Specifically, instead of manually labeling training samples, we first use a set of labeling heuristics to label training samples automatically. We then denoise the weakly labeled data using the Shapley algorithm. Finally, we use the denoised data to train a user engagement detector. Our experiments show that HERALD improves annotation efficiency significantly and achieves 86% user disengagement detection accuracy in two dialog corpora.
翻訳日:2021-06-03 11:02:00 公開日:2021-06-02
# 新物理検出のための機械学習非保守ダイナミクス

Machine-Learning Non-Conservative Dynamics for New-Physics Detection ( http://arxiv.org/abs/2106.00026v2 )

ライセンス: Link先を確認
Ziming Liu, Bohan Wang, Qi Meng, Wei Chen, Max Tegmark and Tie-Yan Liu(参考訳) エネルギー保存は基本的な物理原理であり、その分解はしばしば新しい物理学を意味する。 本稿では,データ駆動型新しい物理発見手法を提案する。 具体的には、未知の力によって支配される軌道を考慮し、我々のニューラル新物理検出器(NNPhD)は、力場をラグランジアンニューラルネットワーク(LNN)と普遍近似器ネットワーク(UAN)で表される保守的および非保守的成分に分解し、力回復誤差の最小化と予測される非保守的力の大きさの1/$の一定値の値を求める。 任意の力に対して、相転移が$\lambda$=1で起こることを示す。 我々は、NNPhDがおもちゃの数値実験で新しい物理学を発見し、湿った二重振り子からの摩擦(1493)、天王星の軌道からの海王星(1846)、吸気軌道からの重力波(2017)を再発見することに成功した。 また,NNPhDと積分器の結合が,減衰二重振り子の将来を予測する従来の手法よりも優れていることを示す。

Energy conservation is a basic physics principle, the breakdown of which often implies new physics. This paper presents a method for data-driven "new physics" discovery. Specifically, given a trajectory governed by unknown forces, our Neural New-Physics Detector (NNPhD) aims to detect new physics by decomposing the force field into conservative and non-conservative components, which are represented by a Lagrangian Neural Network (LNN) and a universal approximator network (UAN), respectively, trained to minimize the force recovery error plus a constant $\lambda$ times the magnitude of the predicted non-conservative force. We show that a phase transition occurs at $\lambda$=1, universally for arbitrary forces. We demonstrate that NNPhD successfully discovers new physics in toy numerical experiments, rediscovering friction (1493) from a damped double pendulum, Neptune from Uranus' orbit (1846) and gravitational waves (2017) from an inspiraling orbit. We also show how NNPhD coupled with an integrator outperforms previous methods for predicting the future of a damped double pendulum.
翻訳日:2021-06-03 11:01:44 公開日:2021-06-02