このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210418となっている論文です。

PDF登録状況(公開日: 20210418)

TitleAuthorsAbstract論文公表日・翻訳日
# 不均衡分類のための注意バイアス付き確率勾配

Attentional Biased Stochastic Gradient for Imbalanced Classification ( http://arxiv.org/abs/2012.06951v2 )

ライセンス: Link先を確認
Qi Qi, Yi Xu, Rong Jin, Wotao Yin, Tianbao Yang(参考訳) 本稿では,深層学習におけるデータ不均衡問題に対処するための簡易かつ効果的な手法(ABSGD)を提案する。 提案手法は運動量sgdの簡易な修正であり,ミニバッチの各勾配に対して個々の重要度重みを割り当てるために注意機構を利用する。 データ不均衡に対処する既存のヒューリスティック駆動手法とは異なり、我々の手法は情報正規化DRO問題の定常点に収束することが保証される理論上正当化された分布ロバスト最適化(DRO)に基礎を置いている。 サンプルデータの個々のレベル重みは、情報正規化droの枠組みにおいて、スケーリング係数が正規化パラメータとして解釈されるデータのスケールドロス値の指数に体系的に比例する。 既存のクラスレベルの重み付けスキームと比較して,各クラス内の個々のサンプル間の多様性を捉えることができる。 メタラーニングを用いた従来の個人レベルの重み付け手法と比較し,3つの後方伝播を必要とする最小バッチ確率勾配を計算し,各反復で1つの後方伝播しか行わず,より効率的である。 特徴抽出層の学習と分類器層の学習のバランスをとるために,SGDを用いて事前学習を行い,続いてABSGDを用いて頑健な分類器を学習し,下位層を微調整する。 ベンチマークデータセットを用いた実験により,提案手法の有効性を実証した。

In this paper, we present a simple yet effective method (ABSGD) for addressing the data imbalance issue in deep learning. Our method is a simple modification to momentum SGD where we leverage an attentional mechanism to assign an individual importance weight to each gradient in the mini-batch. Unlike many existing heuristic-driven methods for tackling data imbalance, our method is grounded in {\it theoretically justified distributionally robust optimization (DRO)}, which is guaranteed to converge to a stationary point of an information-regulari zed DRO problem. The individual-level weight of a sampled data is systematically proportional to the exponential of a scaled loss value of the data, where the scaling factor is interpreted as the regularization parameter in the framework of information-regulari zed DRO. Compared with existing class-level weighting schemes, our method can capture the diversity between individual examples within each class. Compared with existing individual-level weighting methods using meta-learning that require three backward propagations for computing mini-batch stochastic gradients, our method is more efficient with only one backward propagation at each iteration as in standard deep learning methods. To balance between the learning of feature extraction layers and the learning of the classifier layer, we employ a two-stage method that uses SGD for pretraining followed by ABSGD for learning a robust classifier and finetuning lower layers. Our empirical studies on several benchmark datasets demonstrate the effectiveness of the proposed method.
翻訳日:2021-05-09 12:52:53 公開日:2021-04-18
# オプティカルフロー蒸留を用いた自律運転のための学習解釈可能なエンド・ツー・エンドビジョンに基づく運動計画

Learning Interpretable End-to-End Vision-Based Motion Planning for Autonomous Driving with Optical Flow Distillation ( http://arxiv.org/abs/2104.12861v1 )

ライセンス: Link先を確認
Hengli Wang, Peide Cai, Yuxiang Sun, Lujia Wang, Ming Liu(参考訳) 近年,ディープラーニングに基づくアプローチは,自動運転の優れたパフォーマンスを実現している。 しかし、エンド・ツー・エンドの視覚に基づく手法は通常、解釈可能性に制限があるため、ディープ・ネットワークの動作を説明することは困難である。 したがって、それらの潜在的な応用は実際には制限される可能性がある。 この問題に対処するために,IVMP と呼ばれる自律運転のための解釈可能なエンドツーエンドの動作計画手法を提案する。 我々のIVMPは、過去の画像から鳥の目視空間における未来の自我中心のセマンティックマップを予測し、自動運転車の軌道計画に使用される。 予測される将来のセマンティックマップは、有用な解釈可能な情報を提供するだけでなく、我々の動き計画モジュールが低い確率で物体を扱えるようにし、自動運転の安全性を向上させる。 また, 実時間性能を維持しつつ, ネットワークを効果的に拡張できる光流蒸留パラダイムも開発している。 nuscenesデータセットとクローズドループシミュレーションに関する広範な実験は、ivmpが人間のドライバーをはるかに高い成功率で模倣する最先端のアプローチを大きく上回っていることを示している。 私たちのプロジェクトページはhttps://sites.google .com/view/ivmpで閲覧できます。

Recently, deep-learning based approaches have achieved impressive performance for autonomous driving. However, end-to-end vision-based methods typically have limited interpretability, making the behaviors of the deep networks difficult to explain. Hence, their potential applications could be limited in practice. To address this problem, we propose an interpretable end-to-end vision-based motion planning approach for autonomous driving, referred to as IVMP. Given a set of past surrounding-view images, our IVMP first predicts future egocentric semantic maps in bird's-eye-view space, which are then employed to plan trajectories for self-driving vehicles. The predicted future semantic maps not only provide useful interpretable information, but also allow our motion planning module to handle objects with low probability, thus improving the safety of autonomous driving. Moreover, we also develop an optical flow distillation paradigm, which can effectively enhance the network while still maintaining its real-time performance. Extensive experiments on the nuScenes dataset and closed-loop simulation show that our IVMP significantly outperforms the state-of-the-art approaches in imitating human drivers with a much higher success rate. Our project page is available at https://sites.google .com/view/ivmp.
翻訳日:2021-05-03 19:46:18 公開日:2021-04-18
# NN-EMD: 暗号化マルチソースデータセットを用いたニューラルネットワークの効率的なトレーニング

NN-EMD: Efficiently Training Neural Networks using Encrypted Multi-Sourced Datasets ( http://arxiv.org/abs/2012.10547v2 )

ライセンス: Link先を確認
Runhua Xu, James Joshi and Chao Li(参考訳) 暗号化データセット上で機械学習モデルをトレーニングすることは、プライバシを保存する機械学習タスクに対処するための、既存の有望なアプローチであるが、暗号化されたデータ上でディープニューラルネットワーク(dnn)モデルを効率的にトレーニングするのは、2つの理由から非常に困難である。 さらに,DNNモデルの性能向上のためには,信頼関係が確立されていない可能性のある複数のデータソースのデータからなる巨大なトレーニングデータセットを使用する必要がある。 複数のソースから収集された複数の暗号化データセット上でDNNを訓練する新しいフレームワークNN-EMDを提案する。 そこで本研究では,ハイブリッド機能暗号方式を用いたセキュアな計算プロトコルを提案する。 MNISTデータセットのトレーニング時間とモデル精度について,本フレームワークの性能評価を行った。 他の既存のフレームワークと比較して、提案するNN-EMDフレームワークはトレーニング時間を著しく短縮し、モデル精度とプライバシ保証と複数のデータソースをサポートする。 さらに、ニューラルネットワークの深さと複雑さは、プライバシー保護のNN-EMD設定を導入してもトレーニング時間に影響しない。

Training a machine learning model over an encrypted dataset is an existing promising approach to address the privacy-preserving machine learning task, however, it is extremely challenging to efficiently train a deep neural network (DNN) model over encrypted data for two reasons: first, it requires large-scale computation over huge datasets; second, the existing solutions for computation over encrypted data, such as homomorphic encryption, is inefficient. Further, for an enhanced performance of a DNN model, we also need to use huge training datasets composed of data from multiple data sources that may not have pre-established trust relationships among each other. We propose a novel framework, NN-EMD, to train DNN over multiple encrypted datasets collected from multiple sources. Toward this, we propose a set of secure computation protocols using hybrid functional encryption schemes. We evaluate our framework for performance with regards to the training time and model accuracy on the MNIST datasets. Compared to other existing frameworks, our proposed NN-EMD framework can significantly reduce the training time, while providing comparable model accuracy and privacy guarantees as well as supporting multiple data sources. Furthermore, the depth and complexity of neural networks do not affect the training time despite introducing a privacy-preserving NN-EMD setting.
翻訳日:2021-05-01 17:58:52 公開日:2021-04-18
# (参考訳) リンク予測のための意味相関認識を用いた一般化関係学習 [全文訳有]

Generalized Relation Learning with Semantic Correlation Awareness for Link Prediction ( http://arxiv.org/abs/2012.11957v2 )

ライセンス: CC0 1.0
Yao Zhang, Xu Zhang, Jun Wang, Hongru Liang, Wenqiang Lei, Zhe Sun, Adam Jatowt, Zhenglu Yang(参考訳) 近年,知識グラフの自動完備化のためのリンク予測モデルの開発が注目されている。 リンク予測タスクハブツーナチュラルプロブレムの現在の方法:1) KGsにおける関係分布は、通常不均衡であり、2)実際的な状況で発生する多くの未知の関係が存在する。 これらの2つの問題は、既存のリンク予測モデルのトレーニング効果と実用的な応用を制限する。 我々は、KGの全体的理解を提唱し、既存のリンク予測モデルにプラグイン可能な、上記の2つの問題に対処する統合一般化関係学習フレームワークGRLを提案する。 GRLは、意味的に類似した関係を接続するブリッジとして機能する関係間の意味的相関を意識した一般化された関係学習を行う。 grlを用いた訓練により、ベクトル空間における意味的類似関係の密接性と類似関係の識別性が向上する。 リンク予測タスクにおけるGRLの優れた性能を示すため、6つのベンチマークで包括的な実験を行った。 特に、GRLは既存のリンク予測モデルを強化し、不均衡な関係分布に敏感になり、未知の関係を学習することができる。

Developing link prediction models to automatically complete knowledge graphs has recently been the focus of significant research interest. The current methods for the link prediction taskhavetwonaturalpr oblems:1)the relation distributions in KGs are usually unbalanced, and 2) there are many unseen relations that occur in practical situations. These two problems limit the training effectiveness and practical applications of the existing link prediction models. We advocate a holistic understanding of KGs and we propose in this work a unified Generalized Relation Learning framework GRL to address the above two problems, which can be plugged into existing link prediction models. GRL conducts a generalized relation learning, which is aware of semantic correlations between relations that serve as a bridge to connect semantically similar relations. After training with GRL, the closeness of semantically similar relations in vector space and the discrimination of dissimilar relations are improved. We perform comprehensive experiments on six benchmarks to demonstrate the superior capability of GRL in the link prediction task. In particular, GRL is found to enhance the existing link prediction models making them insensitive to unbalanced relation distributions and capable of learning unseen relations.
翻訳日:2021-04-26 22:40:49 公開日:2021-04-18
# (参考訳) 確率的ニューラルネットワークを用いたグラフベース熱慣性SLAM [全文訳有]

Graph-based Thermal-Inertial SLAM with Probabilistic Neural Networks ( http://arxiv.org/abs/2104.07196v2 )

ライセンス: CC BY 4.0
Muhamad Risqi U. Saputra, Chris Xiaoxuan Lu, Pedro P. B. de Gusmao, Bing Wang, Andrew Markham, Niki Trigoni(参考訳) SLAMシステムは通常、周囲の環境を観察するために視覚ベースのセンサーを使用する。 しかし、このようなシステムの性能は周囲の照明条件に大きく依存する。 視界が悪くなる場合や、空中に浮かぶ微粒子の存在(例) 煙、ほこり、などなど 熱画像や慣性センサーに基づくような代替手段の方が有望である。 本稿では、SLAMフロントエンドにおけるニューラル抽象化とSLAMバックエンドにおけるロバストポーズグラフ最適化を組み合わせた、最初の完全熱慣性SLAMシステムを提案する。 本研究では,混合密度ネットワーク(mdn)によってパラメータ化された確率的ディープラーニングを用いて,フロントエンドにおけるセンサ抽象化をモデル化する。 熱画像からこの符号化をうまくモデル化するための重要な戦略は、正規化された14ビットラジオメトリックデータの使用、幻覚視覚(RGB)特徴の導入、MDNパラメータを推定するための特徴選択の導入である。 また、全SLAMシステムを実現するために、熱埋め込みベクトルからループクロージャを検出することができる効率的なグローバル画像記述子を設計する。 室内環境における自己収集型地上ロボットとハンドヘルドデータ,地下トンネルで収集された1つの公開データセット(サブトンネル)を用いて,大規模実験と解析を行った。 最後に, 正確な熱慣性SLAMシステムは, 良性および悪質な視認性の両方の条件下で実現可能であることを示す。

Simultaneous Localization and Mapping (SLAM) system typically employ vision-based sensors to observe the surrounding environment. However, the performance of such systems highly depends on the ambient illumination conditions. In scenarios with adverse visibility or in the presence of airborne particulates (e.g. smoke, dust, etc.), alternative modalities such as those based on thermal imaging and inertial sensors are more promising. In this paper, we propose the first complete thermal-inertial SLAM system which combines neural abstraction in the SLAM front end with robust pose graph optimization in the SLAM back end. We model the sensor abstraction in the front end by employing probabilistic deep learning parameterized by Mixture Density Networks (MDN). Our key strategies to successfully model this encoding from thermal imagery are the usage of normalized 14-bit radiometric data, the incorporation of hallucinated visual (RGB) features, and the inclusion of feature selection to estimate the MDN parameters. To enable a full SLAM system, we also design an efficient global image descriptor which is able to detect loop closures from thermal embedding vectors. We performed extensive experiments and analysis using three datasets, namely self-collected ground robot and handheld data taken in indoor environment, and one public dataset (SubT-tunnel) collected in underground tunnel. Finally, we demonstrate that an accurate thermal-inertial SLAM system can be realized in conditions of both benign and adverse visibility.
翻訳日:2021-04-24 16:03:34 公開日:2021-04-18
# (参考訳) 両世界の最悪:事前訓練された視覚言語モデルにおけるバイアスの複合化 [全文訳有]

Worst of Both Worlds: Biases Compound in Pre-trained Vision-and-Language Models ( http://arxiv.org/abs/2104.08666v1 )

ライセンス: CC BY 4.0
Tejas Srinivasan, Yonatan Bisk(参考訳) 多くの研究が視覚と事前訓練された言語モデルのバイアスを個別に分析しているが、これらのバイアスがマルチモーダル環境でどのように相互作用するかにはあまり注意が払われていない。 本研究は,マルチモーダル言語モデルを調査するためにテキストに基づくバイアス分析手法を拡張し,これらのモデルによって学習されるモダリティ内およびモダリティ間関係とバイアスを分析する。 具体的には, vl-bert (su et al., 2020) が性バイアスを示し, 視覚場面を忠実に表現するよりもステレオタイプを強調することが好まれる。 これらの知見を制御されたケーススタディで示し、より大きなステレオタイプのジェンダーを持つエンティティに対して拡張する。

Numerous works have analyzed biases in vision and pre-trained language models individually - however, less attention has been paid to how these biases interact in multimodal settings. This work extends text-based bias analysis methods to investigate multimodal language models, and analyzes intra- and inter-modality associations and biases learned by these models. Specifically, we demonstrate that VL-BERT (Su et al., 2020) exhibits gender biases, often preferring to reinforce a stereotype over faithfully describing the visual scene. We demonstrate these findings on a controlled case-study and extend them for a larger set of stereotypically gendered entities.
翻訳日:2021-04-23 04:49:32 公開日:2021-04-18
# (参考訳) SIMMC 2.0: 没入型マルチモーダル会話のためのタスク指向ダイアログデータセット [全文訳有]

SIMMC 2.0: A Task-oriented Dialog Dataset for Immersive Multimodal Conversations ( http://arxiv.org/abs/2104.08667v1 )

ライセンス: CC BY 4.0
Satwik Kottur, Seungwhan Moon, Alborz Geramifard, Babak Damavandi(参考訳) 本稿では,対話型マルチモーダル対話のための新しいコーパスであるsimmc 2.0を提案する。 具体的には、ユーザーとショッピングドメイン(ファッションと家具)のバーチャルアシスタントとの間の1万1千件のタスク指向の対話(117K発声)が、位置と写真リアルなVRシーンに接地されている。 提案するマルチモーダルダイアログシミュレータを介して,まずシミュレーションされたダイアログフローを生成し,その後に生成した発話を手作業でパラフレージングする2相パイプラインを用いてダイアログを収集する。 本稿では,収集したデータセットの詳細な分析を行い,SIMMC 2.0の4つの主要なベンチマークタスクについて詳述する。 ベースラインモデルによる予備的な分析は、SIMMC 2.0データセットがもたらす新たな課題を強調し、将来の研究の新たな方向性を示唆している。 私たちのデータセットとコードは公開される予定だ。

We present a new corpus for the Situated and Interactive Multimodal Conversations, SIMMC 2.0, aimed at building a successful multimodal assistant agent. Specifically, the dataset features 11K task-oriented dialogs (117K utterances) between a user and a virtual assistant on the shopping domain (fashion and furniture), grounded in situated and photo-realistic VR scenes. The dialogs are collected using a two-phase pipeline, which first generates simulated dialog flows via a novel multimodal dialog simulator we propose, followed by manual paraphrasing of the generated utterances. In this paper, we provide an in-depth analysis of the collected dataset, and describe in detail the four main benchmark tasks we propose for SIMMC 2.0. The preliminary analysis with a baseline model highlights the new challenges that the SIMMC 2.0 dataset brings, suggesting new directions for future research. Our dataset and code will be made publicly available.
翻訳日:2021-04-23 04:39:42 公開日:2021-04-18
# (参考訳) 関連作業の生成 [全文訳有]

Generating Related Work ( http://arxiv.org/abs/2104.08668v1 )

ライセンス: CC BY 4.0
Darsh J Shah and Regina Barzilay(参考訳) 新しい研究アイデアを伝えるには、過去の仕事と類似点や相違点を強調する必要がある。 著者は、新しい論文と関連する作品の区別を調査するために、しばしば長いセクションを書きます。 本研究では,論文引用の背後にある動機を否定しながら,関連する作業セクションの生成をモデル化する。 我々のコンテンツプランニングモデルは、表面実現モデルがこの骨格をレキシカル化する前に引用された論文のツリーを生成する。 ACLアンソロジー(ACL Anthology, AA)に基づくデータセットの関連作業を生成する上で, 最先端の要約モデルや多文書要約モデルよりも優れている。

Communicating new research ideas involves highlighting similarities and differences with past work. Authors write fluent, often long sections to survey the distinction of a new paper with related work. In this work we model generating related work sections while being cognisant of the motivation behind citing papers. Our content planning model generates a tree of cited papers before a surface realization model lexicalizes this skeleton. Our model outperforms several strong state-of-the-art summarization and multi-document summarization models on generating related work on an ACL Anthology (AA) based dataset which we contribute.
翻訳日:2021-04-23 04:25:40 公開日:2021-04-18
# (参考訳) プレトレーニングはいつ役に立つのか? 法とケースホールドデータセットのための自己監督学習の評価 [全文訳有]

When Does Pretraining Help? Assessing Self-Supervised Learning for Law and the CaseHOLD Dataset ( http://arxiv.org/abs/2104.08671v1 )

ライセンス: CC BY 4.0
Lucia Zheng, Neel Guha, Brandon R. Anderson, Peter Henderson, Daniel E. Ho(参考訳) 自己教師型学習は自然言語処理において急速に進歩してきたが、いつ研究者が資源集約型ドメイン固有の事前訓練(ドメイン事前訓練)を行うべきかは定かではない。 この法律は、法律言語が広くユニークであると見なされているにもかかわらず、ドメイン事前訓練に実質的な利益の文書化された事例は少ない。 これらの既存の結果は、既存の法的NLPタスクがあまりに簡単であり、ドメイン事前学習が助けとなる条件を満たすことができないという事実に由来すると仮定する。 これを解決するために、まず、引用された事例の関連保持を識別するために、53,000以上の選択質問からなる新しいデータセットであるCaseHOLD(Case Holdings On Legal Decisions)を提示する。 このデータセットは弁護士にとって基本的なタスクであり、nlpの観点から法的に有意義かつ困難である(bilstmのベースラインを持つ0.4のf1)。 第2に、CaseHOLDおよび既存の法的NLPデータセットの性能向上を評価する。 一般的なコーパス(Google BooksとWikipedia)で事前トレーニングされた変換アーキテクチャ(BERT)はパフォーマンスを改善するが、ドメイン事前トレーニング(BERTよりも大きい米国全裁判所で約3.5Mの判定コーパスを使用する)は、CaseHOLD(F1では7.2%、BERTでは12%)と他の2つの法的タスクで一貫したパフォーマンス向上を示す。 第3に,プリトレーニングコーパスと十分な類似性を示す場合,ドメイン事前トレーニングが保証される可能性を示す。 3つの法的タスクにおけるパフォーマンス向上のレベルは,タスクのドメイン特異性に直接結び付いていた。 我々の研究結果は、研究者がいつリソース集約的な事前訓練を行うべきかを知らせ、Transformerベースのアーキテクチャも、異なる法的言語を示唆する埋め込みを学習することを示す。

While self-supervised learning has made rapid advances in natural language processing, it remains unclear when researchers should engage in resource-intensive domain-specific pretraining (domain pretraining). The law, puzzlingly, has yielded few documented instances of substantial gains to domain pretraining in spite of the fact that legal language is widely seen to be unique. We hypothesize that these existing results stem from the fact that existing legal NLP tasks are too easy and fail to meet conditions for when domain pretraining can help. To address this, we first present CaseHOLD (Case Holdings On Legal Decisions), a new dataset comprised of over 53,000+ multiple choice questions to identify the relevant holding of a cited case. This dataset presents a fundamental task to lawyers and is both legally meaningful and difficult from an NLP perspective (F1 of 0.4 with a BiLSTM baseline). Second, we assess performance gains on CaseHOLD and existing legal NLP datasets. While a Transformer architecture (BERT) pretrained on a general corpus (Google Books and Wikipedia) improves performance, domain pretraining (using corpus of approximately 3.5M decisions across all courts in the U.S. that is larger than BERT's) with a custom legal vocabulary exhibits the most substantial performance gains with CaseHOLD (gain of 7.2% on F1, representing a 12% improvement on BERT) and consistent performance gains across two other legal tasks. Third, we show that domain pretraining may be warranted when the task exhibits sufficient similarity to the pretraining corpus: the level of performance increase in three legal tasks was directly tied to the domain specificity of the task. Our findings inform when researchers should engage resource-intensive pretraining and show that Transformer-based architectures, too, learn embeddings suggestive of distinct legal language.
翻訳日:2021-04-23 04:12:40 公開日:2021-04-18
# (参考訳) 平均的」近似「第一主成分」? ニューラルネットワークモデルからの表現に関する経験的分析 [全文訳有]

"Average" Approximates "First Principal Component"? An Empirical Analysis on Representations from Neural Language Models ( http://arxiv.org/abs/2104.08673v1 )

ライセンス: CC BY 4.0
Zihan Wang and Chengyu Dong and Jingbo Shang(参考訳) ニューラルネットワークモデルに基づく文脈化表現は、様々なNLPタスクにおける芸術の状態をさらに高めている。 その大きな成功にもかかわらず、そのような表現の性質は謎のままである。 本稿では、これらの表現の「平均」が「第一主成分」を近似する経験的性質を示す。 具体的には、これらの表現の平均は、列がこれらの表現である行列の最初の主成分とほぼ同じ方向にあることを示す。 平均表現は常に単純だが強いベースラインである理由を説明しています。 さらに、この性質は、例えば、表現がそのランダムな初期化の直後にモデルから来ている場合など、より困難なシナリオにも当てはまることを示す。 したがって、この性質は表現の分布に固有のものであり、必ずしも入力構造に関係しないと仮定する。 これらの表現は各次元の正規分布を経験的に従うことに気づき、これを真と仮定することで、経験的性質が数学的に導出可能であることを示す。

Contextualized representations based on neural language models have furthered the state of the art in various NLP tasks. Despite its great success, the nature of such representations remains a mystery. In this paper, we present an empirical property of these representations -- "average" approximates "first principal component". Specifically, experiments show that the average of these representations shares almost the same direction as the first principal component of the matrix whose columns are these representations. We believe this explains why the average representation is always a simple yet strong baseline. Our further examinations show that this property also holds in more challenging scenarios, for example, when the representations are from a model right after its random initialization. Therefore, we conjecture that this property is intrinsic to the distribution of representations and not necessarily related to the input structure. We realize that these representations empirically follow a normal distribution for each dimension, and by assuming this is true, we demonstrate that the empirical property can be in fact derived mathematically.
翻訳日:2021-04-23 03:49:18 公開日:2021-04-18
# (参考訳) 文埋め込み用デュアルビュー蒸留BERT [全文訳有]

Dual-View Distilled BERT for Sentence Embedding ( http://arxiv.org/abs/2104.08675v1 )

ライセンス: CC BY 4.0
Xingyi Cheng(参考訳) 近年,BERTは単語レベル横断文注意による文マッチングの大幅な進歩を実現している。 しかし,2つの文間の単語レベルの注意が欠落しているため,大域的な意味をとらえるには不十分な2つの文の埋め込みをシモームBERT-networksを用いて導くと,性能は著しく低下する。 本稿では,文の埋め込みに適合する文に対するDual-view蒸留BERT~(DvBERT)を提案する。 本手法では,2つの異なる視点,すなわちシームズビューとインタラクションビューの文対を扱う。 Siamese Viewは私たちが文の埋め込みを生成するバックボーンです。 インタラクションビューは、複数の教師が文章埋め込みの表現能力を高めるために、クロステキストインタラクションを統合する。 6つのSTSタスクの実験により、我々の手法は最先端の文埋め込み方法よりも優れていた。

Recently, BERT realized significant progress for sentence matching via word-level cross sentence attention. However, the performance significantly drops when using siamese BERT-networks to derive two sentence embeddings, which fall short in capturing the global semantic since the word-level attention between two sentences is absent. In this paper, we propose a Dual-view distilled BERT~(DvBERT) for sentence matching with sentence embeddings. Our method deals with a sentence pair from two distinct views, i.e., Siamese View and Interaction View. Siamese View is the backbone where we generate sentence embeddings. Interaction View integrates the cross sentence interaction as multiple teachers to boost the representation ability of sentence embeddings. Experiments on six STS tasks show that our method outperforms the state-of-the-art sentence embedding methods significantly.
翻訳日:2021-04-23 03:35:23 公開日:2021-04-18
# GraphSVX: グラフニューラルネットワークのためのShapley Value Explanations

GraphSVX: Shapley Value Explanations for Graph Neural Networks ( http://arxiv.org/abs/2104.10482v1 )

ライセンス: Link先を確認
Alexandre Duval and Fragkiskos D. Malliaros(参考訳) グラフニューラルネットワーク(GNN)は,グラフ構造をノード表現の学習に組み込むことにより,幾何データに対する様々な学習タスクにおいて,その理解を困難にしている。 本稿では,既存のほとんどのGNN解説者が満足する統一フレームワークを提案する。 次に、GNN用に特別に設計された局所モデルに依存しないグラフSVXを紹介する。 graphsvxは、摂動データセット上のサロゲートモデルを構築することによって、説明された予測に対する各機能とノードの"フェア"な貢献をキャプチャする分解技術である。 グラフに拡張され、最終的にゲーム理論からシェープ値の説明として提供される。 実世界および合成データセットに関する実験は、graphsvxが基礎モデルと比較して最先端のパフォーマンスを達成し、コア理論的および人間中心的特性を示すことを証明している。

Graph Neural Networks (GNNs) achieve significant performance for various learning tasks on geometric data due to the incorporation of graph structure into the learning of node representations, which renders their comprehension challenging. In this paper, we first propose a unified framework satisfied by most existing GNN explainers. Then, we introduce GraphSVX, a post hoc local model-agnostic explanation method specifically designed for GNNs. GraphSVX is a decomposition technique that captures the "fair" contribution of each feature and node towards the explained prediction by constructing a surrogate model on a perturbed dataset. It extends to graphs and ultimately provides as explanation the Shapley Values from game theory. Experiments on real-world and synthetic datasets demonstrate that GraphSVX achieves state-of-the-art performance compared to baseline models while presenting core theoretical and human-centric properties.
翻訳日:2021-04-22 14:20:58 公開日:2021-04-18
# (参考訳) 合成逆データ生成による質問応答モデルロバストネスの改善 [全文訳有]

Improving Question Answering Model Robustness with Synthetic Adversarial Data Generation ( http://arxiv.org/abs/2104.08678v1 )

ライセンス: CC BY 4.0
Max Bartolo, Tristan Thrush, Robin Jia, Sebastian Riedel, Pontus Stenetorp, Douwe Kiela(参考訳) 非常に大規模なデータセットと事前訓練されたモデルが利用可能であるにもかかわらず、最先端の質問応答モデルは様々な敵の攻撃を受けやすいままであり、人間レベルの言語理解を得るには程遠い。 提案されている1つの方法は動的逆データ収集であり、人間のアノテータがループ内のモデルが失敗する例を作成しようとするものである。 しかし、このアプローチはサンプルあたりのコストが高く、アノテーションのペースが遅くなる。 本研究では,人間生成した対数サンプルと無注釈テキストを用いて合成質問対を生成する合成逆数データ生成パイプラインを構成する,いくつかの回答選択,質問生成,フィルタリング手法について検討する。 合成データと人工データの両方でトレーニングされたモデルは、合成逆データではトレーニングされていないモデルよりも優れており、全体的なパフォーマンス向上は3.7f1である。 さらに, 合成逆数データのトレーニングにより, 非逆数データの領域間のモデルの一般化が向上し, MRQAの12データセットのうち9データセットのゲインが得られた。 最後に、我々のモデルが人間の敵に打ち勝つのがかなり難しくなり、マクロ平均の検証済みモデルのエラー率は17.6%から8.8%に低下した。

Despite the availability of very large datasets and pretrained models, state-of-the-art question answering models remain susceptible to a variety of adversarial attacks and are still far from obtaining human-level language understanding. One proposed way forward is dynamic adversarial data collection, in which a human annotator attempts to create examples for which a model-in-the-loop fails. However, this approach comes at a higher cost per sample and slower pace of annotation, as model-adversarial data requires more annotator effort to generate. In this work, we investigate several answer selection, question generation, and filtering methods that form a synthetic adversarial data generation pipeline that takes human-generated adversarial samples and unannotated text to create synthetic question-answer pairs. Models trained on both synthetic and human-generated data outperform models not trained on synthetic adversarial data, and obtain state-of-the-art results on the AdversarialQA dataset with overall performance gains of 3.7F1. Furthermore, we find that training on the synthetic adversarial data improves model generalisation across domains for non-adversarial data, demonstrating gains on 9 of the 12 datasets for MRQA. Lastly, we find that our models become considerably more difficult to beat by human adversaries, with a drop in macro-averaged validated model error rate from 17.6% to 8.8% when compared to non-augmented models.
翻訳日:2021-04-22 13:54:07 公開日:2021-04-18
# (参考訳) RPCL: 補助タスクによるクロスドメイン検出を改善するフレームワーク [全文訳有]

RPCL: A Framework for Improving Cross-Domain Detection with Auxiliary Tasks ( http://arxiv.org/abs/2104.08689v1 )

ライセンス: CC BY 4.0
Kai Li, Curtis Wigington, Chris Tensmeyer, Vlad I. Morariu, Handong Zhao, Varun Manjunatha, Nikolaos Barmpalios, Yun Fu(参考訳) Cross-Domain Detection (XDD) は、ソースドメインからラベル付きイメージを使用してオブジェクト検出器をトレーニングすることを目的としている。 既存のアプローチでは、特徴マップや領域の提案を2つのドメインから整列するか、あるいはソースイメージのスタイルをターゲットイメージに転送することで実現している。 先行研究とは対照的に,両領域で同じ補助タスクを同時に学習することにより,ドメインをアライメントするための補完的なソリューションを提供する。 これらの補助タスクは、両方のドメインからイメージを共有スペースにプッシュする。 具体的には,2つの補助タスクを活用することで,既存のドメインアライメントのためのXDDメソッドを補完するフレームワークである回転予測・一貫性学習(PRCL)を提案する。 第1の方法は、画像の回転と抽出された領域の提案からの回転角の予測により、前景領域から領域提案を抽出することをモデルに促す。 第2のタスクは、画像の摂動に関係なく、領域の提案に対して一貫したクラス予測を行うようにモデルを最適化することで、モデルが画像空間の変化に対して堅牢になるように促す。 提案した2つのタスクを既存のXDD法に適用することにより,検出性能を一貫して,さらに向上させることができる。

Cross-Domain Detection (XDD) aims to train an object detector using labeled image from a source domain but have good performance in the target domain with only unlabeled images. Existing approaches achieve this either by aligning the feature maps or the region proposals from the two domains, or by transferring the style of source images to that of target image. Contrasted with prior work, this paper provides a complementary solution to align domains by learning the same auxiliary tasks in both domains simultaneously. These auxiliary tasks push image from both domains towards shared spaces, which bridges the domain gap. Specifically, this paper proposes Rotation Prediction and Consistency Learning (PRCL), a framework complementing existing XDD methods for domain alignment by leveraging the two auxiliary tasks. The first one encourages the model to extract region proposals from foreground regions by rotating an image and predicting the rotation angle from the extracted region proposals. The second task encourages the model to be robust to changes in the image space by optimizing the model to make consistent class predictions for region proposals regardless of image perturbations. Experiments show the detection performance can be consistently and significantly enhanced by applying the two proposed tasks to existing XDD methods.
翻訳日:2021-04-22 13:12:46 公開日:2021-04-18
# (参考訳) 未知系の安全なフィードバック動作計画のための学習収縮指標によるモデル誤差伝播 [全文訳有]

Model Error Propagation via Learned Contraction Metrics for Safe Feedback Motion Planning of Unknown Systems ( http://arxiv.org/abs/2104.08695v1 )

ライセンス: CC BY 4.0
Glen Chou, Necmiye Ozay, and Dmitry Berenson(参考訳) 確率的安全性と到達可能性の保証を提供する未知のダイナミクスを持つ局所的に指数関数的に安定化するシステムの収縮に基づくフィードバック動作計画法を提案する。 動的データセットが与えられたとき、本手法はダイナミクスの深い制御親和近似を学習する。 このモデルが計画に使用できる信頼された領域を見つけるために、トレーニングデータ周辺の領域において、与えられた確率で有効となるモデルエラーのリプシッツ定数を推定し、局所的空間変動モデルエラーバウンドを提供する。 我々は、このモデル誤差を受ける縮尺型コントローラに対して軌道追跡誤差を導出し、このトラッキング境界を最適化するコントローラを学習する。 与えられた確率で、制御器の正しさと信頼された領域にバインドされたトラッキングエラーを検証する。 次に、信頼されたドメインにバインドされた軌道エラーを使用して、サンプリングベースのプランナーに、実行時にロバストに追跡可能な軌道を返すようにガイドします。 本研究では,4Dカー,6Dクオータ,22Dデフォルマブルオブジェクト操作タスクにおいて,高次元不動系の学習モデルを用いて,提案手法の計画を安全に示すとともに,トラッキングエラーや信頼ドメインを考慮せずに計画するベースラインがシステムの安定化に失敗し,安全性が損なわれることを示す。

We present a method for contraction-based feedback motion planning of locally incrementally exponentially stabilizable systems with unknown dynamics that provides probabilistic safety and reachability guarantees. Given a dynamics dataset, our method learns a deep control-affine approximation of the dynamics. To find a trusted domain where this model can be used for planning, we obtain an estimate of the Lipschitz constant of the model error, which is valid with a given probability, in a region around the training data, providing a local, spatially-varying model error bound. We derive a trajectory tracking error bound for a contraction-based controller that is subjected to this model error, and then learn a controller that optimizes this tracking bound. With a given probability, we verify the correctness of the controller and tracking error bound in the trusted domain. We then use the trajectory error bound together with the trusted domain to guide a sampling-based planner to return trajectories that can be robustly tracked in execution. We show results on a 4D car, a 6D quadrotor, and a 22D deformable object manipulation task, showing our method plans safely with learned models of high-dimensional underactuated systems, while baselines that plan without considering the tracking error bound or the trusted domain can fail to stabilize the system and become unsafe.
翻訳日:2021-04-22 12:59:06 公開日:2021-04-18
# (参考訳) 豪華なジャックポット、訓練済みモデルで現存 [全文訳有]

Lottery Jackpots Exist in Pre-trained Models ( http://arxiv.org/abs/2104.08700v1 )

ライセンス: CC BY 4.0
Yuxin Zhang, Mingbao Lin, Fei Chao, Yan Wang, Yongjian Wu, Feiyue Huang, Mingliang Xu, Yonghong Tian, Rongrong Ji(参考訳) ネットワークプルーニングは、パフォーマンスを損なうことなく、ネットワークの複雑さを減らす効果的なアプローチである。 既存の研究は、時間を要する重み付けや、幅の広いネットワーク上の複雑な探索を通じて、ニューラルネットワークの空間性を達成している。 本稿では, 重み調整を伴わない高パフォーマンス, スパースなサブネットワークであるlottery jackpotsが, 未拡張幅の事前学習モデルに存在していることを示す。 例えば、10%のパラメータしか持たず、事前訓練された重みの修正なしに元のvggnet-19の性能に到達した宝くじジャックポットを得る。 さらに,既存のプルーニング基準から導出したばらばらなマスクは,宝くじジャッキポットの検索されたマスクと重なり,マグニチュードに基づくプルーニングは我々のマスクと最もよく似たマスクとなることを観察した。 この知見に基づいて,大まかなプルーニングを用いてスパースマスクを初期化することにより,宝くじ検索における少なくとも3倍のコスト削減を実現し,同等あるいはそれ以上の性能を実現した。 具体的には、我々の等級ベースの宝くじジャックポットはResNet-50の90%の重量を除去するが、ImageNetの検索エポックはわずか10回で70%以上の精度が得られる。

Network pruning is an effective approach to reduce network complexity without performance compromise. Existing studies achieve the sparsity of neural networks via time-consuming weight tuning or complex search on networks with expanded width, which greatly limits the applications of network pruning. In this paper, we show that high-performing and sparse sub-networks without the involvement of weight tuning, termed "lottery jackpots", exist in pre-trained models with unexpanded width. For example, we obtain a lottery jackpot that has only 10% parameters and still reaches the performance of the original dense VGGNet-19 without any modifications on the pre-trained weights. Furthermore, we observe that the sparse masks derived from many existing pruning criteria have a high overlap with the searched mask of our lottery jackpot, among which, the magnitude-based pruning results in the most similar mask with ours. Based on this insight, we initialize our sparse mask using the magnitude pruning, resulting in at least 3x cost reduction on the lottery jackpot search while achieves comparable or even better performance. Specifically, our magnitude-based lottery jackpot removes 90% weights in the ResNet-50, while easily obtains more than 70% top-1 accuracy using only 10 searching epochs on ImageNet.
翻訳日:2021-04-22 12:26:47 公開日:2021-04-18
# (参考訳) corequisite: 常識知識の状況的前提条件 [全文訳有]

CoreQuisite: Circumstantial Preconditions of Common Sense Knowledge ( http://arxiv.org/abs/2104.08712v1 )

ライセンス: CC BY 4.0
Ehsan Qasemi, Filip Ilievski, Muhao Chen, Pedro Szekely(参考訳) 日常的な事実に関連する状況条件の特定と推論は人間にとって自然な作業である。 現状の言語モデル(LM)が「グラスは飲料水に使われている」など、コモンセンスの事実を有効化または無効化する暗黙の前提条件を理解しているかどうかは不明である。 本稿では,状況前提条件を推論する新たな問題を提案し,CoreQuisiteと呼ばれる,自然言語で表現された前提条件で常識事実を注釈付けするデータセットを提案する。 本資料に基づいて,3つの標準評価タスクを作成し,既存のLMの状況条件理解能力について検討する。 その結果,タスクには機械と人的パフォーマンスの間に10~30%のギャップがあることがわかった。 すべてのリソースとソフトウェアを公開しています。

The task of identifying and reasoning with circumstantial preconditions associated with everyday facts is natural to humans. It is unclear whether state-of-the-art language models (LMs) understand the implicit preconditions that enable or invalidate commonsense facts, such as "A glass is used for drinking water", Despite their impressive accuracy on existing commonsense tasks. In this paper, we propose a new problem of reasoning with circumstantial preconditions, and present a dataset, called CoreQuisite, which annotates commonsense facts with preconditions expressed in natural language. Based on this resource, we create three canonical evaluation tasks and use them to examine the capability of existing LMs to understand situational pre-conditions. Our results show that there is a 10-30%gap between machine and human performance on our tasks. We make all resources and software publicly available.
翻訳日:2021-04-22 11:14:41 公開日:2021-04-18
# (参考訳) マルチタスク学習のための深層感情ネットワーク [全文訳有]

Deep Latent Emotion Network for Multi-Task Learning ( http://arxiv.org/abs/2104.08716v1 )

ライセンス: CC BY 4.0
Huangbin Zhang, Chong Zhao, Yu Zhang, Danlei Wang, Haichao Yang(参考訳) フィードレコメンデーションモデルは多くのフィードプラットフォームで広く採用されており、ユーザーが興味のあるコンテンツを探索するよう促している。 しかし、現在の研究の多くは単にユーザの好みをターゲットにすることに集中しており、頻繁に推奨される不快なコンテンツを避けるための詳細な研究は欠如している。 そこで本研究では,複数のターゲットを半教師付き学習でモデル化することにより,フィードを優先するユーザの潜伏確率を抽出する深層感情ネットワーク(DLEN)モデルを提案する。 これにより、訓練段階において異なる目標の衝突を効果的に低減し、各目標の訓練精度を効果的に向上させる。 さらに,マルチターゲット融合にユーザ感情の潜伏状態を加えることで,好ましくないコンテンツを推薦する確率を低減し,オンラインテスト期間中にユーザの保持と滞在時間を改善することができる。 DLENはTencent QQ-Small-Worldの現実のマルチタスクフィードレコメンデーションシナリオに10億以上のサンプルを含むデータセットでデプロイされており、オフライン評価ではSOTA MTLモデルに対して大きなパフォーマンス上の優位性を示し、ビューカウントは3.02%、本番環境では2.63%と大幅に増加している。 パブリックデータセット上のDLENモデルの補完的なオフライン実験も、さまざまなシナリオで改善を繰り返している。 現在、DLENモデルはTencentのフィードレコメンデーションシステムにうまくデプロイされている。

Feed recommendation models are widely adopted by numerous feed platforms to encourage users to explore the contents they are interested in. However, most of the current research simply focus on targeting user's preference and lack in-depth study of avoiding objectionable contents to be frequently recommended, which is a common reason that let user detest. To address this issue, we propose a Deep Latent Emotion Network (DLEN) model to extract latent probability of a user preferring a feed by modeling multiple targets with semi-supervised learning. With this method, the conflicts of different targets are successfully reduced in the training phase, which improves the training accuracy of each target effectively. Besides, by adding this latent state of user emotion to multi-target fusion, the model is capable of decreasing the probability to recommend objectionable contents to improve user retention and stay time during online testing phase. DLEN is deployed on a real-world multi-task feed recommendation scenario of Tencent QQ-Small-World with a dataset containing over a billion samples, and it exhibits a significant performance advantage over the SOTA MTL model in offline evaluation, together with a considerable increase by 3.02% in view-count and 2.63% in user stay-time in production. Complementary offline experiments of DLEN model on a public dataset also repeat improvements in various scenarios. At present, DLEN model has been successfully deployed in Tencent's feed recommendation system.
翻訳日:2021-04-22 10:55:47 公開日:2021-04-18
# (参考訳) news meets microblog:リトリーバー生成者によるハッシュタグアノテーション [全文訳有]

News Meets Microblog: Hashtag Annotation via Retriever-Generator ( http://arxiv.org/abs/2104.08723v1 )

ライセンス: CC BY 4.0
Xiuwen Zheng, Dheeraj Mekala, Amarnath Gupta, Jingbo Shang(参考訳) マイクロブログ投稿のためのハッシュタグアノテーションは、トレーニングセットにない新しいハッシュタグを扱うシーケンス生成問題として最近定式化されている。 State-of-the-artメソッドは、投稿によって開始された会話を利用して、短い投稿のコンテキスト情報を強化する。 しかし、ハッシュタグアノテーション自体よりも前に会話の存在を仮定するのは現実的ではない。 そこで本稿では,マイクロブログ投稿の前に掲載したニュース記事を利用して,Retriever-Generator フレームワークに従ってハッシュタグを生成する。 英語のtwitterデータセットに関する広範な実験は、ハッシュタグを生成するためにニュース記事を活用するという優れたパフォーマンスと重要な利点を示している。

Hashtag annotation for microblog posts has been recently formulated as a sequence generation problem to handle emerging hashtags that are unseen in the training set. The state-of-the-art method leverages conversations initiated by posts to enrich contextual information for the short posts. However, it is unrealistic to assume the existence of conversations before the hashtag annotation itself. Therefore, we propose to leverage news articles published before the microblog post to generate hashtags following a Retriever-Generator framework. Extensive experiments on English Twitter datasets demonstrate superior performance and significant advantages of leveraging news articles to generate hashtags.
翻訳日:2021-04-22 10:47:44 公開日:2021-04-18
# (参考訳) 欠測データを用いた多目的特徴選択 [全文訳有]

Multi-objective Feature Selection with Missing Data in Classification ( http://arxiv.org/abs/2104.08747v1 )

ライセンス: CC BY 4.0
Yu Xue, Yihang Tang, Xin Xu, Jiayu Liang, Ferrante Neri(参考訳) 特徴選択(FS)は機械学習において重要な研究トピックである。 通常、FS は、目的が(1) 分類精度; 2) 特徴数である+双目的最適化問題としてモデル化される。 現実世界のアプリケーションで大きな問題のひとつは、データ不足だ。 データがないデータベースは信頼性が低い。 したがって、いくつかのデータがないデータセットで実行されたFSも信頼できない。 本研究では,この問題を直接制御するために,FSの新たなモデリング手法を提案する。 修正問題に対処するため,非支配的ソート遺伝的アルゴリズム-III (NSGA-III) の適用を提案する。 カリフォルニア大学アーバイン校(UCI)の機械学習リポジトリから6つの不完全なデータセットを選択した。 失われたデータを扱うために平均的インプテーション法を用いた。 実験では、k-nearest neighbors (K-NN) が特徴部分集合を評価する分類器として使用される。 実験の結果,NSGA-IIIと組み合わせた3目的モデルでは,本研究に含まれる6つのデータセットのFS問題に効率よく対処できることがわかった。

Feature selection (FS) is an important research topic in machine learning. Usually, FS is modelled as a+ bi-objective optimization problem whose objectives are: 1) classification accuracy; 2) number of features. One of the main issues in real-world applications is missing data. Databases with missing data are likely to be unreliable. Thus, FS performed on a data set missing some data is also unreliable. In order to directly control this issue plaguing the field, we propose in this study a novel modelling of FS: we include reliability as the third objective of the problem. In order to address the modified problem, we propose the application of the non-dominated sorting genetic algorithm-III (NSGA-III). We selected six incomplete data sets from the University of California Irvine (UCI) machine learning repository. We used the mean imputation method to deal with the missing data. In the experiments, k-nearest neighbors (K-NN) is used as the classifier to evaluate the feature subsets. Experimental results show that the proposed three-objective model coupled with NSGA-III efficiently addresses the FS problem for the six data sets included in this study.
翻訳日:2021-04-22 10:36:34 公開日:2021-04-18
# (参考訳) DCH-2:アノテータラベルの分布を考慮した並列顧客ヘルプデスク対話コーパス [全文訳有]

DCH-2: A Parallel Customer-Helpdesk Dialogue Corpus with Distributions of Annotators' Labels ( http://arxiv.org/abs/2104.08755v1 )

ライセンス: CC BY-SA 4.0
Zhaohao Zeng and Tetsuya Sakai(参考訳) DCH-2と呼ばれるデータセットは、中国語で4,390の実際の顧客-ヘルプデスク対話とその英訳を含む。 DCH-2はまた、19または20のアノテーションから独立して得られる対話レベルのアノテーションとターンレベルのアノテーションを含んでいる。 このデータセットは、ntcir-14ショートテキスト会話とntcir-15対話評価タスクのオーガナイザとして構築され、研究者が効果的な顧客-ヘルプデスク対話を構成するものを理解し、顧客に対して常に利用可能な効率的で有用なヘルプデスクシステムを構築するのに役立ちます。 さらに、dch-2は検索ベースの対話システムのリポジトリとして、あるいはヘルプデスクドメインの機械翻訳のための並列コーパスとして、他の目的にも利用できる。

We introduce a data set called DCH-2, which contains 4,390 real customer-helpdesk dialogues in Chinese and their English translations. DCH-2 also contains dialogue-level annotations and turn-level annotations obtained independently from either 19 or 20 annotators. The data set was built through our effort as organisers of the NTCIR-14 Short Text Conversation and NTCIR-15 Dialogue Evaluation tasks, to help researchers understand what constitutes an effective customer-helpdesk dialogue, and thereby build efficient and helpful helpdesk systems that are available to customers at all times. In addition, DCH-2 may be utilised for other purposes, for example, as a repository for retrieval-based dialogue systems, or as a parallel corpus for machine translation in the helpdesk domain.
翻訳日:2021-04-22 10:18:56 公開日:2021-04-18
# (参考訳) 英語colossal clean crawledコーパスの文書化 [全文訳有]

Documenting the English Colossal Clean Crawled Corpus ( http://arxiv.org/abs/2104.08758v1 )

ライセンス: CC BY 4.0
Jesse Dodge, Maarten Sap, Ana Marasovic, William Agnew, Gabriel Ilharco, Dirk Groeneveld, Matt Gardner(参考訳) 言語モデルはもっと多くのテキストで訓練されているので、研究者は利用可能な最大規模のコーパスに目を向けている。 NLPの他のタイプのデータセットとは異なり、大きなラベルのないテキストコーパスは最小限のドキュメントで示されることが多く、文書化のベストプラクティスは確立されていない。 この作業では、Colossal Clean Crawled Corpus (C4; Raffel et al., 2020)の最初のドキュメントを提供しています。 まず、テキストの出所といつ書かれたかの分布を含む、データのハイレベルな要約から始める。 次に、最も頻繁なテキストソース(例えば、機械翻訳やOCRのテキストのかなりの割合を含む特許.google.com)、フィルタがデータに与える影響(AAEでテキストを不均等に削除している)、その他のベンチマークNLPデータセットサンプルがテキストに含まれる証拠など、このデータの健全な部分についてより詳細な分析を行う。 我々は、このデータセットのインタラクティブでインデックス化されたコピーにWebインターフェースをリリースし、コミュニティが継続的に調査し、さらなる発見を報告することを奨励します。

As language models are trained on ever more text, researchers are turning to some of the largest corpora available. Unlike most other types of datasets in NLP, large unlabeled text corpora are often presented with minimal documentation, and best practices for documenting them have not been established. In this work we provide the first documentation for the Colossal Clean Crawled Corpus (C4; Raffel et al., 2020), a dataset created by applying a set of filters to a single snapshot of Common Crawl. We begin with a high-level summary of the data, including distributions of where the text came from and when it was written. We then give more detailed analysis on salient parts of this data, including the most frequent sources of text (e.g., patents.google.com, which contains a significant percentage of machine translated and/or OCR'd text), the effect that the filters had on the data (they disproportionately remove text in AAE), and evidence that some other benchmark NLP dataset examples are contained in the text. We release a web interface to an interactive, indexed copy of this dataset, encouraging the community to continuously explore and report additional findings.
翻訳日:2021-04-22 10:10:44 公開日:2021-04-18
# (参考訳) コンフリクトベース探索の複雑性解析の再検討--新しい計算手法と改良境界 [全文訳有]

Revisiting the Complexity Analysis of Conflict-Based Search: New Computational Techniques and Improved Bounds ( http://arxiv.org/abs/2104.08759v1 )

ライセンス: CC BY 4.0
Ofir Gordon, Yuval Filmus, Oren Salzman(参考訳) マルチエージェントパス探索(mapf)の問題は、与えられた環境で動作するエージェント群に対して、コンフリクトフリーパスのセットを見つけることである。 おそらく、最適なソリューションを計算するための最先端のアプローチは、Conflict-Based Search (CBS)である。 本研究では,CBSの複雑性解析を見直し,最悪の場合のアルゴリズムの実行時間に厳密な制限を与える。 我々の分析は、アルゴリズムの計算複雑性を(最悪の場合)支配するパラメータをより正確に特定する方法を舗装する。 最初のアプローチでは、指定された2つの頂点間の全ての単一エージェントパスをコンパクトに含む階層グラフであるMulti-valued Decision Diagram (MDD) のサイズを用いてランタイムをバインドする。 第2のアプローチでは、アルゴリズムの複雑さを束縛する新しい繰り返し関係によって実行時間を表現する。 再帰を厳密に束縛するために,生成関数に基づく解析を用いる。 これらの手法を用いることで、CBSの複雑さに関するいくつかの新しい上限を提供する。 その結果,cbsの稼働時間に関する既存のバウンドを多くのケースで改善することが可能となった。 例えば、一般的なベンチマークのセットでは、最低でも$2^{10^{7}}$の係数で上限を改善する。

The problem of Multi-Agent Path Finding (MAPF) calls for finding a set of conflict-free paths for a fleet of agents operating in a given environment. Arguably, the state-of-the-art approach to computing optimal solutions is Conflict-Based Search (CBS). In this work we revisit the complexity analysis of CBS to provide tighter bounds on the algorithm's run-time in the worst-case. Our analysis paves the way to better pinpoint the parameters that govern (in the worst case) the algorithm's computational complexity. Our analysis is based on two complementary approaches: In the first approach we bound the run-time using the size of a Multi-valued Decision Diagram (MDD) -- a layered graph which compactly contains all possible single-agent paths between two given vertices for a specific path length. In the second approach we express the running time by a novel recurrence relation which bounds the algorithm's complexity. We use generating functions-based analysis in order to tightly bound the recurrence. Using these technique we provide several new upper-bounds on CBS's complexity. The results allow us to improve the existing bound on the running time of CBS for many cases. For example, on a set of common benchmarks we improve the upper-bound by a factor of at least $2^{10^{7}}$.
翻訳日:2021-04-22 09:52:32 公開日:2021-04-18
# (参考訳) 自然言語フィードバックによるニューラルネットワークの性能向上とその説明 [全文訳有]

Improving Neural Model Performance through Natural Language Feedback on Their Explanations ( http://arxiv.org/abs/2104.08765v1 )

ライセンス: CC BY 4.0
Aman Madaan, Niket Tandon, Dheeraj Rajagopal, Yiming Yang, Peter Clark, Keisuke Sakaguchi, Ed Hovy(参考訳) 推論タスクのための説明可能なNLPモデルのクラスは、自由形式または構造化された説明を生成することによって、それらの決定をサポートする。 私たちの目標は、自然言語フィードバックを通じて、ユーザが対話的に説明構造を修正できるようにすることです。 本稿では,自然言語で人間のフィードバックを得ることで,特定の推論タスクの説明を洗練する対話型システムMERCURIEを紹介する。 本手法は,市販システムと比較して不整合が40%少ないグラフを生成する。 さらに、修正された説明構造を出力に単に付加するだけで、3つの領域すべてにわたるデファシブル推論の精度が1.2ポイント向上する。 我々は,我々のシステムが生成したデファジブル推論のための450k以上のグラフのデータセットをhttps://tinyurl.com/ mercurie でリリースする。

A class of explainable NLP models for reasoning tasks support their decisions by generating free-form or structured explanations, but what happens when these supporting structures contain errors? Our goal is to allow users to interactively correct explanation structures through natural language feedback. We introduce MERCURIE - an interactive system that refines its explanations for a given reasoning task by getting human feedback in natural language. Our approach generates graphs that have 40% fewer inconsistencies as compared with the off-the-shelf system. Further, simply appending the corrected explanation structures to the output leads to a gain of 1.2 points on accuracy on defeasible reasoning across all three domains. We release a dataset of over 450k graphs for defeasible reasoning generated by our system at https://tinyurl.com/ mercurie .
翻訳日:2021-04-22 09:35:03 公開日:2021-04-18
# (参考訳) 不均一情報ネットワークのための公正表現学習 [全文訳有]

Fair Representation Learning for Heterogeneous Information Networks ( http://arxiv.org/abs/2104.08769v1 )

ライセンス: CC BY 4.0
Ziqian Zeng, Rashidul Islam, Kamrun Naher Keya, James Foulds, Yangqiu Song, Shimei Pan(参考訳) 近年、AIの社会的影響、特にその公正性に対する懸念に多くの注意が払われている。 研究機関が不公平なAIシステムを特定し、それらを嫌う方法を提案したが、多くの課題が残っている。 Heterogeneous Information Networks (HINs) の表現学習は、複雑なネットワークマイニングに使用される基本的なビルディングブロックであり、自動キャリアカウンセリングのような社会的に連続した応用があるが、有害なバイアスをエンコードまたは増幅しないようにするための試みは少ない。 職業市場での性差別です 本稿では,サンプルベース,プロジェクションベース,グラフニューラルネットワーク(GNN)に基づく手法を含む,公平なHIN表現学習のための包括的デバイアス手法を提案する。 我々は,これらのアルゴリズムの挙動,特にフェアネスと予測精度のトレードオフをバランスさせる能力について体系的に研究する。 我々は,職業推薦における性別バイアスを軽減する自動キャリアカウンセリングアプリケーションにおいて,提案手法の性能を評価する。 2つのデータセットの評価結果に基づいて、異なる条件下で最も有効なHIN表現学習手法を同定する。

Recently, much attention has been paid to the societal impact of AI, especially concerns regarding its fairness. A growing body of research has identified unfair AI systems and proposed methods to debias them, yet many challenges remain. Representation learning for Heterogeneous Information Networks (HINs), a fundamental building block used in complex network mining, has socially consequential applications such as automated career counseling, but there have been few attempts to ensure that it will not encode or amplify harmful biases, e.g. sexism in the job market. To address this gap, in this paper we propose a comprehensive set of de-biasing methods for fair HINs representation learning, including sampling-based, projection-based, and graph neural networks (GNNs)-based techniques. We systematically study the behavior of these algorithms, especially their capability in balancing the trade-off between fairness and prediction accuracy. We evaluate the performance of the proposed methods in an automated career counseling application where we mitigate gender bias in career recommendation. Based on the evaluation results on two datasets, we identify the most effective fair HINs representation learning techniques under different conditions.
翻訳日:2021-04-22 09:25:00 公開日:2021-04-18
# (参考訳) 機械翻訳用プレトレーニングトランスにおけるクロスアテンションの強度について [全文訳有]

On the Strengths of Cross-Attention in Pretrained Transformers for Machine Translation ( http://arxiv.org/abs/2104.08771v1 )

ライセンス: CC BY 4.0
Mozhdeh Gheini, Xiang Ren, Jonathan May(参考訳) 機械翻訳の文脈におけるトランスフォーマーアーキテクチャにおけるクロスアテンションの力について検討する。 トランスファーラーニング実験では、新しい言語を組み込んだデータセットの翻訳モデルを微調整し、新しい言語の埋め込みとは別に、競合するBLEU性能を得るためには、クロスアテンションパラメータのみを微調整する必要がある。 このような方法による微調整の制限は、言語間の整合した型埋め込みをもたらすことを、我々はさらに発見する。 この発見の意味は、ネットワークにおける破滅的な忘れの緩和とゼロショット翻訳の可能性である。

We study the power of cross-attention in the Transformer architecture within the context of machine translation. In transfer learning experiments, where we fine-tune a translation model on a dataset with one new language, we find that, apart from the new language's embeddings, only the cross-attention parameters need to be fine-tuned to obtain competitive BLEU performance. We provide insights into why this is the case and further find that limiting fine-tuning in this manner yields cross-lingually aligned type embeddings. The implications of this finding include a mitigation of catastrophic forgetting in the network and the potential for zero-shot translation.
翻訳日:2021-04-22 09:07:58 公開日:2021-04-18
# (参考訳) 連続学習による未知のうわさの動的対処 [全文訳有]

Dynamically Addressing Unseen Rumor via Continual Learning ( http://arxiv.org/abs/2104.08775v1 )

ライセンス: CC BY 4.0
Nayeon Lee, Andrea Madotto, Yejin Bang, Pascale Fung(参考訳) 噂は、新しく現れた出来事としばしば関連づけられるため、未発表の噂に対処する能力は、噂のveracity分類モデルにとって不可欠である。 以前の研究では、モデルの一般化性を改善することでこの問題に対処し、イベントの新規発生後もモデルが変わらないと仮定している。 本研究では,うわさ領域生成のダイナミクスに応じて,モデルを継続的に更新する代替手法を提案する。 この新しいアプローチに関連する最大の技術的課題は、新しい学習によって過去の学習が壊滅的に忘れられることだ。 我々は,新しい学習を制御し,破滅的な忘れることを避けるための継続的学習戦略を採用し,その緩和を両立させるための新たな戦略を提案する。

Rumors are often associated with newly emerging events, thus, an ability to deal with unseen rumors is crucial for a rumor veracity classification model. Previous works address this issue by improving the model's generalizability, with an assumption that the model will stay unchanged even after the new outbreak of an event. In this work, we propose an alternative solution to continuously update the model in accordance with the dynamics of rumor domain creations. The biggest technical challenge associated with this new approach is the catastrophic forgetting of previous learnings due to new learnings. We adopt continual learning strategies that control the new learnings to avoid catastrophic forgetting and propose an additional strategy that can jointly be used to strengthen the forgetting alleviation.
翻訳日:2021-04-22 08:54:41 公開日:2021-04-18
# (参考訳) 埋め込みを共有しないユーザ検証モデルのフェデレーション学習 [全文訳有]

Federated Learning of User Verification Models Without Sharing Embeddings ( http://arxiv.org/abs/2104.08776v1 )

ライセンス: CC BY 4.0
Hossein Hosseini, Hyunsin Park, Sungrack Yun, Christos Louizos, Joseph Soriaga, Max Welling(参考訳) 我々は、各ユーザが1つのクラスのデータにアクセスでき、ユーザ埋め込みはサーバまたは他のユーザと共有できないという、連合設定におけるユーザ検証(uv)モデルのトレーニングの問題を考察する。 この問題に対処するために,ユーザがベクトルの集合を共同で学習し,それらのベクトルの秘密線形結合によるインスタンス埋め込みの相関を最大化するフレームワークであるFederated User Verification (FedUV)を提案する。 誤り訂正符号の符号語から線形結合を選択することで,組込みベクトルを明かさずに協調的にモデルを訓練できることを示す。 本稿では,音声,顔,手書きデータを用いたユーザ検証実験を行い,feduvが既存の手法と同等でありながら,他のユーザやサーバとの埋め込みは行わないことを示す。

We consider the problem of training User Verification (UV) models in federated setting, where each user has access to the data of only one class and user embeddings cannot be shared with the server or other users. To address this problem, we propose Federated User Verification (FedUV), a framework in which users jointly learn a set of vectors and maximize the correlation of their instance embeddings with a secret linear combination of those vectors. We show that choosing the linear combinations from the codewords of an error-correcting code allows users to collaboratively train the model without revealing their embedding vectors. We present the experimental results for user verification with voice, face, and handwriting data and show that FedUV is on par with existing approaches, while not sharing the embeddings with other users or the server.
翻訳日:2021-04-22 08:45:15 公開日:2021-04-18
# (参考訳) 適応的アプローチによる未拘束手書きテキスト画像からの線分分割 [全文訳有]

Line Segmentation from Unconstrained Handwritten Text Images using Adaptive Approach ( http://arxiv.org/abs/2104.08777v1 )

ライセンス: CC BY 4.0
Nidhi Gupta, Wenju Liu(参考訳) 手書きのテキスト画像からのラインセグメンテーションは、未定義の空間、スタイル、向き、ストロークの高さ、重ね合わせ、アライメントなど、多様性と未知のバリエーションのために難しい課題の1つである。 豊富な研究にもかかわらず、堅牢性と高いセグメンテーション率を達成するためには改善が必要である。 本研究では,連結成分座標とテキスト高さのアライメントを結合した手書きテキスト画像からのラインセグメンテーションに適応的手法を適用した。 画像サイズに応じたテキスト高さを測定する数学的正当性を提供する。 作品の新規性はテキストの高さを動的に計算することにある。 実験は、中国企業がプロジェクトのために提供したデータセットでテストされる。 提案手法は,ベースラインを持つ文書ページとプレーンページの2種類のデータセットで検証される。 データセットは非常に複雑で、手書きパターンの多様で珍しいバリエーションで構成されている。 提案手法の性能は, ベンチマークデータセット, IAM, ICDAR09を用いて評価し, 平均98.01%の検出率を達成した。 上記のデータセットを用いて、それぞれ91.99%と96%の検知率を観測した。

Line segmentation from handwritten text images is one of the challenging task due to diversity and unknown variations as undefined spaces, styles, orientations, stroke heights, overlapping, and alignments. Though abundant researches, there is a need of improvement to achieve robustness and higher segmentation rates. In the present work, an adaptive approach is used for the line segmentation from handwritten text images merging the alignment of connected component coordinates and text height. The mathematical justification is provided for measuring the text height respective to the image size. The novelty of the work lies in the text height calculation dynamically. The experiments are tested on the dataset provided by the Chinese company for the project. The proposed scheme is tested on two different type of datasets; document pages having base lines and plain pages. Dataset is highly complex and consists of abundant and uncommon variations in handwriting patterns. The performance of the proposed method is tested on our datasets as well as benchmark datasets, namely IAM and ICDAR09 to achieve 98.01% detection rate on average. The performance is examined on the above said datasets to observe 91.99% and 96% detection rates, respectively.
翻訳日:2021-04-22 08:30:56 公開日:2021-04-18
# (参考訳) 後方規則化を用いた変分弱修正感度解析 [全文訳有]

Variational Weakly Supervised Sentiment Analysis with Posterior Regularization ( http://arxiv.org/abs/2104.08779v1 )

ライセンス: CC BY 4.0
Ziqian Zeng, Yangqiu Song(参考訳) 感性分析は自然言語処理(NLP)において重要な課題である。 既存の最先端の手法のほとんどは、教師付き学習パラダイムの下にある。 しかし、人間のアノテーションは乏しい。 したがって、感情分析の弱さを活用すべきである。 本稿では,ラベル配置の後方分布をよりよく制御するために,弱い教師付き感情分析に対する変分的アプローチのための後方正則化フレームワークを提案する。 後続正則化の背後にある直感は、2つの文書から抽出された意見語が意味的に類似しているならば、2つの文書の後続分布は類似しているはずである。 実験の結果, 後方正則化は, 弱教師付き感情分析に対する元の変分アプローチを改善でき, 予測ばらつきを小さくすることで, より安定な性能が得られることがわかった。

Sentiment analysis is an important task in natural language processing (NLP). Most of existing state-of-the-art methods are under the supervised learning paradigm. However, human annotations can be scarce. Thus, we should leverage more weak supervision for sentiment analysis. In this paper, we propose a posterior regularization framework for the variational approach to the weakly supervised sentiment analysis to better control the posterior distribution of the label assignment. The intuition behind the posterior regularization is that if extracted opinion words from two documents are semantically similar, the posterior distributions of two documents should be similar. Our experimental results show that the posterior regularization can improve the original variational approach to the weakly supervised sentiment analysis and the performance is more stable with smaller prediction variance.
翻訳日:2021-04-22 08:22:38 公開日:2021-04-18
# (参考訳) モデル解釈における忠実性測定について [全文訳有]

On the Faithfulness Measurements for Model Interpretations ( http://arxiv.org/abs/2104.08782v1 )

ライセンス: CC BY 4.0
Fan Yin, Zhouxing Shi, Cho-Jui Hsieh, Kai-Wei Chang(参考訳) 近年、自然言語処理(NLP)モデルがどのように予測を行うかを明らかにすることを目的とした、様々なポストホック解釈の出現を目撃している。 新しい解釈の急増にもかかわらず、モデルの背後にある推論プロセスにどの程度準拠するかという解釈の忠実さを定義し、定量的に測定する方法は、未解決の問題のままである。 これらの問題に取り組むために,まず,削除基準,解釈の感度,解釈の安定性,忠実性の異なる概念を定量化する,nlpの解釈を体系的に評価するための新しいパラダイムを提案する。 以上の結果から,異なる信頼の基準下での解釈性能は著しく異なる可能性が示唆された。 これらの忠実性概念のデシデラタムに動機づけられ、敵対的ロバストネス領域からのテクニックを採用する新しい解釈方法のクラスを導入する。 実験の結果,提案手法は3つの基準すべてで最高性能を達成できた。 テキスト分類と係り受け解析のタスクに関する実験と分析と合わせて,多種多様な解釈の集合をより包括的に理解する。

Recent years have witnessed the emergence of a variety of post-hoc interpretations that aim to uncover how natural language processing (NLP) models make predictions. Despite the surge of new interpretations, it remains an open problem how to define and quantitatively measure the faithfulness of interpretations, i.e., to what extent they conform to the reasoning process behind the model. To tackle these issues, we start with three criteria: the removal-based criterion, the sensitivity of interpretations, and the stability of interpretations, that quantify different notions of faithfulness, and propose novel paradigms to systematically evaluate interpretations in NLP. Our results show that the performance of interpretations under different criteria of faithfulness could vary substantially. Motivated by the desideratum of these faithfulness notions, we introduce a new class of interpretation methods that adopt techniques from the adversarial robustness domain. Empirical results show that our proposed methods achieve top performance under all three criteria. Along with experiments and analysis on both the text classification and the dependency parsing tasks, we come to a more comprehensive understanding of the diverse set of interpretations.
翻訳日:2021-04-22 08:10:28 公開日:2021-04-18
# (参考訳) 効率的な単一画像分割のためのガウス動的畳み込み [全文訳有]

Gaussian Dynamic Convolution for Efficient Single-Image Segmentation ( http://arxiv.org/abs/2104.08783v1 )

ライセンス: CC BY 4.0
Xin Sun, Changrui Chen, Xiaorui Wang, Junyu Dong, Huiyu Zhou, Sheng Chen(参考訳) インタラクティブなシングルイメージセグメンテーションは、科学および商業のイメージングソフトウェアにおいてユビキタスである。 本研究では,スクリブルなどの種子のみを用いた単一画像分割問題に焦点をあてる。 人間の視覚系における動的受容場に着想を得て,ニューラルネットワークの文脈情報を高速かつ効率的に集約するガウス動的畳み込み(gdc)を提案する。 中心となる考え方は、ガウス分布オフセットに従って空間サンプリング領域をランダムに選択することである。 我々のGDCは、軽量または複雑なセグメンテーションネットワークを構築するモジュールとして簡単に利用できる。 提案したGDCを用いて、典型的な単一画像分割タスクに対処する。 さらに,ガウスの動的ピラミッド・プールも構築し,そのポテンシャルと共通セマンティックセグメンテーションの一般性を示す。 実験によると、GDCはPascal-Context、Pascal-VOC 2012、Cityscapesを含む3つのベンチマークセグメンテーションデータセットで、既存の畳み込みよりも優れている。 また、GDCが他の畳み込みよりも豊かで鮮明な特徴を生み出すことを示すために、さらなる実験が行われた。 一般に、我々のgdcは畳み込みニューラルネットワークと結合し、画像の全体的な印象を形成する。

Interactive single-image segmentation is ubiquitous in the scientific and commercial imaging software. In this work, we focus on the single-image segmentation problem only with some seeds such as scribbles. Inspired by the dynamic receptive field in the human being's visual system, we propose the Gaussian dynamic convolution (GDC) to fast and efficiently aggregate the contextual information for neural networks. The core idea is randomly selecting the spatial sampling area according to the Gaussian distribution offsets. Our GDC can be easily used as a module to build lightweight or complex segmentation networks. We adopt the proposed GDC to address the typical single-image segmentation tasks. Furthermore, we also build a Gaussian dynamic pyramid Pooling to show its potential and generality in common semantic segmentation. Experiments demonstrate that the GDC outperforms other existing convolutions on three benchmark segmentation datasets including Pascal-Context, Pascal-VOC 2012, and Cityscapes. Additional experiments are also conducted to illustrate that the GDC can produce richer and more vivid features compared with other convolutions. In general, our GDC is conducive to the convolutional neural networks to form an overall impression of the image.
翻訳日:2021-04-22 07:50:49 公開日:2021-04-18
# (参考訳) すばらしく順序付けされたプロンプトとそれを見つける場所: 数発のプロンプトの感度を克服する [全文訳有]

Fantastically Ordered Prompts and Where to Find Them: Overcoming Few-Shot Prompt Order Sensitivity ( http://arxiv.org/abs/2104.08786v1 )

ライセンス: CC BY 4.0
Yao Lu, Max Bartolo, Alastair Moore, Sebastian Riedel, Pontus Stenetorp(参考訳) gpt-3のような非常に大きな事前学習された言語モデルでは、完全な教師付き事前学習された言語モデルと比較すると、競争力のある結果が得られている。 サンプルが提供された順序は、ほぼ最先端とランダムな推測性能の差であることを示す: 本質的にいくつかの置換は「確率的」で、そうでないものもある。 我々はこの現象を詳細に分析し、モデルのサイズにまたがって存在すること、サンプルの特定の部分集合と関係がないこと、与えられたモデルに対する適切な置換が別のモデルに転送できないこと、を確立する。 どの順列が実行可能かは開発セットで判断できるが、追加の注釈データを必要とするため、これは少数の設定から逸脱する。 代わりに、言語モデルの生成特性を用いて人工的な開発セットを構築し、このセットからの候補置換のエントロピー統計に基づいて、実行子プロンプトを同定する。 本手法は,11種類のテキスト分類タスクに対して,平均13%の相対性でGPTファミリーモデルを改善する。

When primed with only a handful of training samples, very large pretrained language models such as GPT-3, have shown competitive results when compared to fully-supervised fine-tuned large pretrained language models. We demonstrate that the order in which the samples are provided can be the difference between near state-of-the-art and random guess performance: Essentially some permutations are "fantastic" and some not. We analyse this phenomenon in detail, establishing that: it is present across model sizes (even for the largest current models), it is not related to a specific subset of samples, and that a given good permutation for one model is not transferable to another. While one could use a development set to determine which permutations are performant, this would deviate from the few-shot setting as it requires additional annotated data. Instead, we use the generative nature of the language models to construct an artificial development set and based on entropy statistics of the candidate permutations from this set we identify performant prompts. Our method improves upon GPT-family models by on average 13% relative across eleven different established text classification tasks.
翻訳日:2021-04-22 07:27:14 公開日:2021-04-18
# (参考訳) なぜモデルがプライベートだと信じるべきなのか? プライバシ保護感情認識モデル評価におけるモデル記述のシフトの利用 [全文訳有]

Why Should I Trust a Model is Private? Using Shifts in Model Explanation for Evaluating Privacy-Preserving Emotion Recognition Model ( http://arxiv.org/abs/2104.08792v1 )

ライセンス: CC BY 4.0
Mimansa Jaiswal, Emily Mower Provost(参考訳) プライバシー保護は、現実世界のアプリケーションにとって重要な要素です。 しかし、機械学習バックエンドに依存するアプリケーションでは、モデルがデザイナよりも多くをキャプチャすることが多く、センシティブな情報が漏洩する可能性があるため、これは難しい。 例えば、感情認識モデルは、対象変数と他の敏感な変数の間の学習パターンに影響を受けやすい。 本稿では,モデルの有効性を評価するために解釈可能な手法を使用することに集中し,機密性のある変数に対するプライバシの保護を行う。 モデル説明がプライバシを保護するようにトレーニングされた時にどのように変化するかを理解するために、私たちは、サリエンシーに基づく説明、入力テキストの領域を強調する説明に焦点を当てます。 プライバシーを守ろうとする一般的な方法が、プライバシーの保護に対する人間の認識とどのように一致しないかを示す。 また,評価基準の改善が重要であったとしても,入力とプライマリのモデルと二次的なタスクとの間に,これらの関係がいかにひらめきやすいかを示す。 このような相関は、特にクロスコーパス条件で使用されるため、モデルの認識されるプライバシーに関する誤った保証につながる可能性がある。 モデル説明が提供されたタスクに対して,特定のモデルを選択するための評価者の傾きを評価するためにクラウドソーシング実験を行い,解釈の違いと社会言語バイアスとの相関をユーザ信頼の指標として用いることができることを見出した。

Privacy preservation is a crucial component of any real-world application. Yet, in applications relying on machine learning backends, this is challenging because models often capture more than a designer may have envisioned, resulting in the potential leakage of sensitive information. For example, emotion recognition models are susceptible to learning patterns between the target variable and other sensitive variables, patterns that can be maliciously re-purposed to obtain protected information. In this paper, we concentrate on using interpretable methods to evaluate a model's efficacy to preserve privacy with respect to sensitive variables. We focus on saliency-based explanations, explanations that highlight regions of the input text, which allows us to understand how model explanations shift when models are trained to preserve privacy. We show how certain commonly-used methods that seek to preserve privacy might not align with human perception of privacy preservation. We also show how some of these induce spurious correlations in the model between the input and the primary as well as secondary task, even if the improvement in evaluation metric is significant. Such correlations can hence lead to false assurances about the perceived privacy of the model because especially when used in cross corpus conditions. We conduct crowdsourcing experiments to evaluate the inclination of the evaluators to choose a particular model for a given task when model explanations are provided, and find that correlation of interpretation differences with sociolinguistic biases can be used as a proxy for user trust.
翻訳日:2021-04-22 07:15:39 公開日:2021-04-18
# (参考訳) 教師なし領域適応による質問生成とパス検索における自己学習の促進 [全文訳有]

Back-Training excels Self-Training at Unsupervised Domain Adaptation of Question Generation and Passage Retrieval ( http://arxiv.org/abs/2104.08801v1 )

ライセンス: CC BY 4.0
Devang Kulshreshtha, Robert Belfer, Iulian Vlad Serban, Siva Reddy(参考訳) 本稿では,自己学習の代替として,$\textit{back-training}$という新しいドメイン適応法を提案する。 自己学習は、ノイズ出力と整合したフォーム品質入力の合成訓練データを生成する一方で、バックトレーニングの結果は品質出力と整合したノイズ入力を生成する。 The experimental results on unsupervised domain adaptation of question generation and passage search model from $\textit{Natural Questions}$ domain to the machine learning domain shows that back-training outperforms self-training by a wide margin: 9.3 BLEU-1 points on generation, and 7.9 accuracy points on top-1 search。 これは、5kのアンアラインされたパッセーションと35kのアンアラインな質問、3kのアラインされたパッセーションと質問ペアを含む、機械学習ドメインのためのドメイン適応データセットです。 我々のデータとコードはhttps://github.com/M cGill-NLP/MLQuestion sで入手できる。

In this paper, we propose a new domain adaptation method called $\textit{back-training}$, a superior alternative to self-training. While self-training results in synthetic training data of the form quality inputs aligned with noisy outputs, back-training results in noisy inputs aligned with quality outputs. Our experimental results on unsupervised domain adaptation of question generation and passage retrieval models from $\textit{Natural Questions}$ domain to the machine learning domain show that back-training outperforms self-training by a large margin: 9.3 BLEU-1 points on generation, and 7.9 accuracy points on top-1 retrieval. We release $\textit{MLQuestions}$, a domain-adaptation dataset for the machine learning domain containing 50K unaligned passages and 35K unaligned questions, and 3K aligned passage and question pairs. Our data and code are available at https://github.com/M cGill-NLP/MLQuestion s
翻訳日:2021-04-22 07:00:48 公開日:2021-04-18
# (参考訳) 低ランク状態作用値関数近似 [全文訳有]

Low-rank State-action Value-function Approximation ( http://arxiv.org/abs/2104.08805v1 )

ライセンス: CC0 1.0
Sergio Rozada, Victor Tenorio, and Antonio G. Marques(参考訳) 価値関数は動的プログラミングと強化学習の中心であるが、その正確な見積もりは次元性の呪いに悩まされ、実用価値関数(VF)推定アルゴリズムの開発に挑戦する。 この問題を解決するために、状態やアクションを集約する非パラメトリックスキームから、線形推定器やディープニューラルネットワークなどを通じて状態やアクションVFのパラメトリック近似まで、いくつかのアプローチが提案されている。 関連して、いくつかの高次元状態問題は内在的な低ランク構造によって近似することができる。 この結果に動機付けられ、低ランク最適化の結果を活用するため、本論文では、$q(s, a)$行列の低ランク分解を推定する様々な確率的アルゴリズムを提案する。 これはVF近似の非パラメトリックな代替であり、各状態-作用対に対して$Q(s,a)$を別々に見積もる古典的な$Q$学習法と比較して計算とサンプルの複雑さを劇的に減少させる。

Value functions are central to Dynamic Programming and Reinforcement Learning but their exact estimation suffers from the curse of dimensionality, challenging the development of practical value-function (VF) estimation algorithms. Several approaches have been proposed to overcome this issue, from non-parametric schemes that aggregate states or actions to parametric approximations of state and action VFs via, e.g., linear estimators or deep neural networks. Relevantly, several high-dimensional state problems can be well-approximated by an intrinsic low-rank structure. Motivated by this and leveraging results from low-rank optimization, this paper proposes different stochastic algorithms to estimate a low-rank factorization of the $Q(s, a)$ matrix. This is a non-parametric alternative to VF approximation that dramatically reduces the computational and sample complexities relative to classical $Q$-learning methods that estimate $Q(s,a)$ separately for each state-action pair.
翻訳日:2021-04-22 06:48:18 公開日:2021-04-18
# (参考訳) 騒音による感情認識の「野生環境」における性能向上のベストプラクティス [全文訳有]

Best Practices for Noise-Based Augmentation to Improve the Performance of Emotion Recognition "In the Wild" ( http://arxiv.org/abs/2104.08806v1 )

ライセンス: CC BY 4.0
Mimansa Jaiswal, Emily Mower Provost(参考訳) 教室のエンゲージメントやメンタルヘルスアセスメントなど,高レベルのダウンストリーム応用の鍵となる感情認識が有効であることが示されている。 これらのシステムは通常、単一の実験室環境で収集された小さなデータセットで訓練されるため、異なるノイズ特性を持つデータでテストした場合、フェールする。 複数の雑音に基づくデータ拡張手法が他の音声領域でこの問題に対処するために提案されている。 しかし、音声認識や話者検証とは異なり、感情認識では、ノイズに基づくデータ拡張が元の感情サンプルの基盤となるラベルを変える可能性がある。 本研究では,環境および合成騒音の複数のカテゴリを用いて,よく知られた感情データセット(IEMOCAP)の現実的な雑音サンプルを生成する。 騒音発生時の人間と機械の感情知覚がどう変化するかを評価する。 感情認識によく用いられる拡張手法が人間の知覚を著しく変化させることで、敵攻撃の効率を評価するなどの信頼性の低い評価指標につながる可能性がある。 また, 学習した感情認識モデルでは, ノイズ拡張データセット上での学習においても, 未知のノイズ提示サンプルの分類に失敗していることがわかった。 この発見は、実環境におけるこれらのシステムの脆性を示す。 本稿では,感情データセットの雑音に基づく拡張と,これらの感情認識システムを「野生」に展開する方法を提案する。

Emotion recognition as a key component of high-stake downstream applications has been shown to be effective, such as classroom engagement or mental health assessments. These systems are generally trained on small datasets collected in single laboratory environments, and hence falter when tested on data that has different noise characteristics. Multiple noise-based data augmentation approaches have been proposed to counteract this challenge in other speech domains. But, unlike speech recognition and speaker verification, in emotion recognition, noise-based data augmentation may change the underlying label of the original emotional sample. In this work, we generate realistic noisy samples of a well known emotion dataset (IEMOCAP) using multiple categories of environmental and synthetic noise. We evaluate how both human and machine emotion perception changes when noise is introduced. We find that some commonly used augmentation techniques for emotion recognition significantly change human perception, which may lead to unreliable evaluation metrics such as evaluating efficiency of adversarial attack. We also find that the trained state-of-the-art emotion recognition models fail to classify unseen noise-augmented samples, even when trained on noise augmented datasets. This finding demonstrates the brittleness of these systems in real-world conditions. We propose a set of recommendations for noise-based augmentation of emotion datasets and for how to deploy these emotion recognition systems "in the wild".
翻訳日:2021-04-22 06:34:57 公開日:2021-04-18
# (参考訳) SciCo:科学概念の階層的相互文書照合 [全文訳有]

SciCo: Hierarchical Cross-Document Coreference for Scientific Concepts ( http://arxiv.org/abs/2104.08809v1 )

ライセンス: CC BY 4.0
Arie Cattan, Sophie Johnson, Daniel Weld, Ido Dagan, Iz Beltagy, Doug Downey, Tom Hope(参考訳) 複数の文書にまたがる概念言及の相互参照を決定することは自然言語理解の基盤である。 クロスドキュメント・コア参照解決(CDCR)の研究は、一般的に、科学や技術でよく見られる抽象的な技術的概念を伴わない、ニュースにおける出来事の言及を考察する。 これらの複雑な概念は多様または曖昧な形式をとり、多くの階層的な粒度(タスクやサブタスクなど)を持ち、CDCRの課題を提起する。 本稿では,科学論文における概念の階層的CDCRの新たな課題として,コア参照クラスタとそれらの間の階層を共同で推論することを目的とする。 scicoは、このタスクのために専門家がアノテーションしたデータセットで、著名なecb+リソースの3倍の大きさです。 私たちは、コリファレンスと階層を一度に扱うことが、scicoのジョイントモデルの開発を促進することを望んでいる。

Determining coreference of concept mentions across multiple documents is fundamental for natural language understanding. Work on cross-document coreference resolution (CDCR) typically considers mentions of events in the news, which do not often involve abstract technical concepts that are prevalent in science and technology. These complex concepts take diverse or ambiguous forms and have many hierarchical levels of granularity (e.g., tasks and subtasks), posing challenges for CDCR. We present a new task of hierarchical CDCR for concepts in scientific papers, with the goal of jointly inferring coreference clusters and hierarchy between them. We create SciCo, an expert-annotated dataset for this task, which is 3X larger than the prominent ECB+ resource. We find that tackling both coreference and hierarchy at once outperforms disjoint models, which we hope will spur development of joint models for SciCo.
翻訳日:2021-04-22 06:22:09 公開日:2021-04-18
# (参考訳) チャネル推定のためのCNNによる重み付き補間 [全文訳有]

CNN aided Weighted Interpolation for Channel Estimation in Vehicular Communications ( http://arxiv.org/abs/2104.08813v1 )

ライセンス: CC BY 4.0
Abdul Karim Gizzini, Marwa Chafii, Ahmad Nimr, Raed M. Shubair, Gerhard Fettweis(参考訳) IEEE 802.11p規格は、車両輸送と交通効率を管理する無線技術プロトコルを定義している。 この技術の開発における大きな課題は、無線通信チャネルが2倍選択される高ダイナミックな車両環境において、通信の信頼性を確保することである。 本稿では,新しい深層学習を用いた重み付き補間推定器を提案し,特に高移動度シナリオにおける車両のチャネルを正確に推定する。 提案した推定器は、IEEE 802.11p標準のパイロットアロケーションを変更して、より多くの送信データレートを達成する。 大規模数値実験により,最近提案されたDLベースのフレーム・バイ・フレーム推定器の車体シナリオにおける性能は大幅に向上し,全体的な計算複雑性は著しく低下した。

IEEE 802.11p standard defines wireless technology protocols that enable vehicular transportation and manage traffic efficiency. A major challenge in the development of this technology is ensuring communication reliability in highly dynamic vehicular environments, where the wireless communication channels are doubly selective, thus making channel estimation and tracking a relevant problem to investigate. In this paper, a novel deep learning (DL)-based weighted interpolation estimator is proposed to accurately estimate vehicular channels especially in high mobility scenarios. The proposed estimator is based on modifying the pilot allocation of the IEEE 802.11p standard so that more transmission data rates are achieved. Extensive numerical experiments demonstrate that the developed estimator significantly outperforms the recently proposed DL-based frame-by-frame estimators in different vehicular scenarios, while substantially reducing the overall computational complexity.
翻訳日:2021-04-22 05:58:01 公開日:2021-04-18
# (参考訳) 任意型転送改善のためのスタイルアウェア正規化損失 [全文訳有]

Style-Aware Normalized Loss for Improving Arbitrary Style Transfer ( http://arxiv.org/abs/2104.10064v1 )

ライセンス: CC BY 4.0
Jiaxin Cheng, Ayush Jaiswal, Yue Wu, Pradeep Natarajan, Prem Natarajan(参考訳) NST(Neural Style Transfer)は、単一スタイルから無限スタイルモデル(Arbitrary Style Transfer)へと急速に進化してきた。 GoogleMagenta、AdaIN、LinearTransfer、SANetの4つのよく知られたASTアプローチに関する実証研究によると、ASTのスタイリングされたイメージは、一般的に過小評価や過小評価のため、その50%以上は人間には受け入れられない。 我々はこの不均衡なスタイル転送可能性(IST)の原因を体系的に研究し、この問題を軽減するための単純で効果的な解決策を提案する。 本研究は, IST問題は従来のASTスタイルの損失と関係があることを示し, その根本原因は, 対応するスタイル画像の性質に関わらず, トレーニングサンプルの重み付けであり, モデルが一定のスタイルに偏っていることを明らかにする。 ASTスタイルの損失の理論的境界について検討し,ISTを克服する新たな損失を提案する。 理論的解析と実験の結果は, 80%以上の抑うつ率と98%の人間評価の嗜好が向上し, 損失の有効性を検証した。

Neural Style Transfer (NST) has quickly evolved from single-style to infinite-style models, also known as Arbitrary Style Transfer (AST). Although appealing results have been widely reported in literature, our empirical studies on four well-known AST approaches (GoogleMagenta, AdaIN, LinearTransfer, and SANet) show that more than 50% of the time, AST stylized images are not acceptable to human users, typically due to under- or over-stylization. We systematically study the cause of this imbalanced style transferability (IST) and propose a simple yet effective solution to mitigate this issue. Our studies show that the IST issue is related to the conventional AST style loss, and reveal that the root cause is the equal weightage of training samples irrespective of the properties of their corresponding style images, which biases the model towards certain styles. Through investigation of the theoretical bounds of the AST style loss, we propose a new loss that largely overcomes IST. Theoretical analysis and experimental results validate the effectiveness of our loss, with over 80% relative improvement in style deception rate and 98% relatively higher preference in human evaluation.
翻訳日:2021-04-22 05:33:48 公開日:2021-04-18
# (参考訳) FedNLP: 自然言語処理におけるフェデレーション学習のための研究プラットフォーム [全文訳有]

FedNLP: A Research Platform for Federated Learning in Natural Language Processing ( http://arxiv.org/abs/2104.08815v1 )

ライセンス: CC BY 4.0
Bill Yuchen Lin, Chaoyang He, Zihang Zeng, Hulin Wang, Yufen Huang, Mahdi Soltanolkotabi, Xiang Ren, Salman Avestimehr(参考訳) データプライバシに関する懸念や規制の増大は、自然言語処理(NLP)アプリケーションのためのプライバシ保護手法の研究を必要とする。 フェデレートラーニング(FL)は、多くのクライアント(例えばパーソナルデバイスや組織)が、すべてのクライアントに利益をもたらすために共有グローバルモデルを共同で学習し、ユーザがデータをローカルに保持できるようにする、有望な方法を提供する。 NLPにおけるFL研究を促進するために,NLPにおけるフェデレーション学習のための研究プラットフォームであるFedNLPを提案する。 FedNLPは、テキスト分類、シーケンスタグ付け、質問応答、Seq2seq生成、言語モデリングなど、NLPで一般的なタスクの定式化をサポートしている。 また、Transformer言語モデル(BERTなど)とFLメソッド(FedAvg、FedOptなど)のインターフェースも実装しています。 分散訓練の為です このインタフェースの評価プロトコルは、非IIDパーティショニング戦略の包括的な収集をサポートする。 FedNLPによる予備的な実験は、分散化されたデータセットと集中型データセットの学習の間に大きなパフォーマンスギャップがあることを明らかにします。

Increasing concerns and regulations about data privacy, necessitate the study of privacy-preserving methods for natural language processing (NLP) applications. Federated learning (FL) provides promising methods for a large number of clients (i.e., personal devices or organizations) to collaboratively learn a shared global model to benefit all clients, while allowing users to keep their data locally. To facilitate FL research in NLP, we present the FedNLP, a research platform for federated learning in NLP. FedNLP supports various popular task formulations in NLP such as text classification, sequence tagging, question answering, seq2seq generation, and language modeling. We also implement an interface between Transformer language models (e.g., BERT) and FL methods (e.g., FedAvg, FedOpt, etc.) for distributed training. The evaluation protocol of this interface supports a comprehensive collection of non-IID partitioning strategies. Our preliminary experiments with FedNLP reveal that there exists a large performance gap between learning on decentralized and centralized datasets -- opening intriguing and exciting future research directions aimed at developing FL methods suited to NLP tasks.
翻訳日:2021-04-21 13:20:41 公開日:2021-04-18
# (参考訳) gpt3mix: テキスト拡張に大規模言語モデルを活用する [全文訳有]

GPT3Mix: Leveraging Large-scale Language Models for Text Augmentation ( http://arxiv.org/abs/2104.08826v1 )

ライセンス: CC BY 4.0
Kang Min Yoo, Dongju Park, Jaewook Kang, Sang-Woo Lee, Woomyeong Park(参考訳) GPT-3のような大規模言語モデルは優れた数ショット学習者であり、自然なテキストプロンプトで制御できる。 近年の研究では、直接分類により微調整の必要性は排除されるが、データや推論のスケーラビリティは欠如している。 本稿では,実サンプルの混合から実文サンプルを生成するために,大規模言語モデルを活用した新しいデータ拡張手法を提案する。 また,言語モデルによって予測されるソフトラベルを活用し,大規模言語モデルから知識を効果的に抽出し,テキストの摂動を同時に生成する手法を提案する。 多様な分類タスクでデータ拡張実験を行い,提案手法が既存のテキスト拡張手法を大きく上回ることを示す。 アブレーション研究と質的分析は、我々のアプローチに対するさらなる洞察を与えてくれる。

Large-scale language models such as GPT-3 are excellent few-shot learners, allowing them to be controlled via natural text prompts. Recent studies report that prompt-based direct classification eliminates the need for fine-tuning but lacks data and inference scalability. This paper proposes a novel data augmentation technique that leverages large-scale language models to generate realistic text samples from a mixture of real samples. We also propose utilizing soft-labels predicted by the language models, effectively distilling knowledge from the large-scale language models and creating textual perturbations simultaneously. We perform data augmentation experiments on diverse classification tasks and show that our method hugely outperforms existing text augmentation methods. Ablation studies and a qualitative analysis provide more insights into our approach.
翻訳日:2021-04-21 12:59:28 公開日:2021-04-18
# (参考訳) crossfit: nlpにおけるクロスタスク一般化のための数発学習チャレンジ [全文訳有]

CrossFit: A Few-shot Learning Challenge for Cross-task Generalization in NLP ( http://arxiv.org/abs/2104.08835v1 )

ライセンス: CC BY-SA 4.0
Qinyuan Ye, Bill Yuchen Lin, Xiang Ren(参考訳) 人間は機械よりも効率的に新しい言語タスクを学習することができる。 本稿では,このようなクロスタスクの一般化能力を習得できるかどうかを考察し,さらに多様なNLPタスクにまたがるより優れた数ショット学習者を構築するために応用する。 タスク分割,異なる学習段階におけるデータアクセス,評価プロトコルを標準化したクロスタスク数発学習能力の研究用タスクセットアップであるCrossFitを紹介する。 また,NLP Few-shot Gymは160個のNLPタスクからなるレポジトリで,多様なタスクカテゴリやアプリケーションをカバーするとともに,統一されたテキスト・トゥ・テキスト形式に変換する。 経験的分析により,未発見タスクのマイナショット学習能力は,見掛けたタスクのセットを用いて上流学習段階を通じて改善できることが明らかとなった。 さらに、何千ものトレーニングサンプルが利用可能になった場合、その利点は中規模リソースのシナリオに持続する。 また,アップストリーム学習タスクの選択は,非知覚タスクにおけるマイショット性能に大きく影響し,タスクの類似性と伝達可能性に関するさらなる分析を求める。

Humans can learn a new language task more efficiently than machines, conceivably by leveraging their prior experience and knowledge in learning other tasks. In this paper, we explore whether such cross-task generalization ability can be acquired, and further applied to build better few-shot learners across diverse NLP tasks. We introduce CrossFit, a task setup for studying cross-task few-shot learning ability, which standardizes seen/unseen task splits, data access during different learning stages, and the evaluation protocols. In addition, we present NLP Few-shot Gym, a repository of 160 few-shot NLP tasks, covering diverse task categories and applications, and converted to a unified text-to-text format. Our empirical analysis reveals that the few-shot learning ability on unseen tasks can be improved via an upstream learning stage using a set of seen tasks. Additionally, the advantage lasts into medium-resource scenarios when thousands of training examples are available. We also observe that selection of upstream learning tasks can significantly influence few-shot performance on unseen tasks, asking further analysis on task similarity and transferability.
翻訳日:2021-04-21 12:46:38 公開日:2021-04-18
# (参考訳) 画像光源転送のためのマルチスケール自己校正ネットワーク [全文訳有]

Multi-scale Self-calibrated Network for Image Light Source Transfer ( http://arxiv.org/abs/2104.08838v1 )

ライセンス: CC BY 4.0
Yuanzhi Wang and Tao Lu and Yanduo Zhang and Yuntao Wu(参考訳) image light source transfer (llst)は、画像のリライトの分野で最も難しいタスクであり、近年、注目を集めている。 最新の研究で、LLSTはシーン再構成、影の推定、イメージ再レンダリングという3つのサブタスクを分解し、画像リライトの新しいパラダイムを提供する。 しかし,未分類の特徴情報やセマンティック情報の不足など,シーン再構成や影推定の課題の多くは未解決のままであり,特徴表現が不十分である。 本稿では,特徴エンコーダとデコーダの基本ブロックとしてdfsb(down-sampling feature self-calibrated block)とufsb(up-sampling feature self-calibrated block)を提案する。 さらに,シーン再変換タスクにおけるデコーダのマルチスケールな特徴を融合させ,さらに意味情報の探索と活用を行い,画像再レンダリングのためのより正確な一次シーン構造を提供する。 VIDITデータセットの実験結果から,提案手法はLLSTの性能を著しく向上させることが示された。

Image light source transfer (LLST), as the most challenging task in the domain of image relighting, has attracted extensive attention in recent years. In the latest research, LLST is decomposed three sub-tasks: scene reconversion, shadow estimation, and image re-rendering, which provides a new paradigm for image relighting. However, many problems for scene reconversion and shadow estimation tasks, including uncalibrated feature information and poor semantic information, are still unresolved, thereby resulting in insufficient feature representation. In this paper, we propose novel down-sampling feature self-calibrated block (DFSB) and up-sampling feature self-calibrated block (UFSB) as the basic blocks of feature encoder and decoder to calibrate feature representation iteratively because the LLST is similar to the recalibration of image light source. In addition, we fuse the multi-scale features of the decoder in scene reconversion task to further explore and exploit more semantic information, thereby providing more accurate primary scene structure for image re-rendering. Experimental results in the VIDIT dataset show that the proposed approach significantly improves the performance for LLST.
翻訳日:2021-04-21 12:06:49 公開日:2021-04-18
# (参考訳) 中間予習におけるマスキングポリシーの影響について [全文訳有]

On the Influence of Masking Policies in Intermediate Pre-training ( http://arxiv.org/abs/2104.08840v1 )

ライセンス: CC BY-SA 4.0
Qinyuan Ye, Belinda Z. Li, Sinong Wang, Benjamin Bolte, Hao Ma, Wen-tau Yih, Xiang Ren, Madian Khabsa(参考訳) 現在のNLPモデルは、主に事前訓練済みのファイントゥンパイプラインを通じてトレーニングされ、まずモデルがマスク付き言語モデリング(MLM)の目的を持つ大きなテキストコーパスで事前訓練され、その後下流タスクで微調整される。 従来の研究は、下流タスクに似たヒューリスティックなMLM目標を持つ中間学習段階の挿入は、最終的なパフォーマンスを著しく向上させることを示した。 しかし,(1)中間的事前学習がどのような場合に有用か,(2)手作りのヒューリスティックな目的が与えられたタスクに最適か,(3)あるタスクのために設計されたMLMポリシーがそのタスクを超えて一般化可能であるかは,いまだ不明である。 本稿では,中間訓練における様々なMLMポリシーの効果を検討するために,大規模な実証的研究を行う。 重要なことは、下流タスクにおける直接監督やメタ学習を通じてマスキングモデルを学ぶことにより、最適なMDMポリシーの発見を自動化する方法を提案する。 本研究は,3つのカテゴリ(クローズドブックQA,知識集約型言語タスク,抽象要約)で選択された8つのタスクに対して,ヒューリスティック,直接教師付き,メタ学習型MLMポリシーを中間訓練に利用することの効果を検討した。 特に,学習したマスキングポリシーはTriviaQA上でのマスキングのヒューリスティックよりも優れており,あるタスクで学んだマスキングポリシーは,ある場合には他のタスクに積極的に移行できることを示す。

Current NLP models are predominantly trained through a pretrain-then-finetu ne pipeline, where models are first pretrained on a large text corpus with a masked-language-mode lling (MLM) objective, then finetuned on the downstream task. Prior work has shown that inserting an intermediate pre-training phase, with heuristic MLM objectives that resemble downstream tasks, can significantly improve final performance. However, it is still unclear (1) in what cases such intermediate pre-training is helpful, (2) whether hand-crafted heuristic objectives are optimal for a given task, and (3) whether a MLM policy designed for one task is generalizable beyond that task. In this paper, we perform a large-scale empirical study to investigate the effect of various MLM policies in intermediate pre-training. Crucially, we introduce methods to automate discovery of optimal MLM policies, by learning a masking model through either direct supervision or meta-learning on the downstream task. We investigate the effects of using heuristic, directly supervised, and meta-learned MLM policies for intermediate pretraining, on eight selected tasks across three categories (closed-book QA, knowledge-intensive language tasks, and abstractive summarization). Most notably, we show that learned masking policies outperform the heuristic of masking named entities on TriviaQA, and masking policies learned on one task can positively transfer to other tasks in certain cases.
翻訳日:2021-04-21 11:24:09 公開日:2021-04-18
# (参考訳) CLIP4Clip: ビデオクリップ検索終了のためのCLIPの実証的研究 [全文訳有]

CLIP4Clip: An Empirical Study of CLIP for End to End Video Clip Retrieval ( http://arxiv.org/abs/2104.08860v1 )

ライセンス: CC BY 4.0
Huaishao Luo, Lei Ji, Ming Zhong, Yang Chen, Wen Lei, Nan Duan, Tianrui Li(参考訳) ビデオテキスト検索はマルチモーダルな研究において重要な役割を担い、多くの現実世界のウェブアプリケーションで広く利用されている。 画像言語事前学習モデルであるCLIP(Contrastive Language- Image Pre-training)は、Webで収集した画像テキストデータセットから学習する視覚概念のパワーを実証した。 本稿では,CLIPモデルの知識をエンドツーエンドにビデオ言語検索に転送するCLIP4Clipモデルを提案する。 1)画像の特徴がビデオテキスト検索に十分かどうか? 2)CLIPに基づく大規模ビデオテキストデータセットの事前学習はパフォーマンスにどのように影響するか? 3)ビデオフレーム間の時間依存性をモデル化する実践的メカニズムは何か? 4)ビデオテキスト検索タスクにおけるモデルのハイパーパラメータ感度。 CLIPから移行したCLIP4Clipモデルは、MSR-VTT, MSVC, LSMDCなど、様々なビデオテキスト検索データセット上でSOTA結果が得られる。

Video-text retrieval plays an essential role in multi-modal research and has been widely used in many real-world web applications. The CLIP (Contrastive Language-Image Pre-training), an image-language pre-training model, has demonstrated the power of visual concepts learning from web collected image-text datasets. In this paper, we propose a CLIP4Clip model to transfer the knowledge of the CLIP model to video-language retrieval in an end-to-end manner. Several questions are investigated via empirical studies: 1) Whether image feature is enough for video-text retrieval? 2) How a post-pretraining on a large-scale video-text dataset based on the CLIP affect the performance? 3) What is the practical mechanism to model temporal dependency between video frames? And 4) The Hyper-parameters sensitivity of the model on video-text retrieval task. Extensive experimental results present that the CLIP4Clip model transferred from the CLIP can achieve SOTA results on various video-text retrieval datasets, including MSR-VTT, MSVC, and LSMDC.
翻訳日:2021-04-21 10:50:50 公開日:2021-04-18
# (参考訳) グラフニューラルネットワークによる構造化オブジェクトのランク付け [全文訳有]

Ranking Structured Objects with Graph Neural Networks ( http://arxiv.org/abs/2104.08869v1 )

ライセンス: CC BY 4.0
Clemens Damke and Eyke H\"ullermeier(参考訳) グラフニューラルネットワーク(gnns)は、分子特性の予測からソーシャルネットワークの分析まで、多くの構造化データ領域でうまく適用されている。 GNNの幅広い適用性に触発された我々は、ニューラルネットワークとRange(LtR)メソッドとGNNを組み合わせた、いわゆるRangeGNNのファミリーを提案する。 RankGNNはグラフ間のペアワイズ選好のセットでトレーニングされており、一方が他方よりも好まれていることを示唆している。 この問題の実用的な応用の1つは薬物スクリーニングであり、専門家は大量の薬物候補の中から最も有望な分子を見つけたいと考えている。 提案手法は,LtR問題をGNNに基づくグラフ回帰法により解き,提案手法が有意な性能を示すか,あるいは少なくとも有意な点次ベースライン手法のランク付け性能と一致するかを示す。

Graph neural networks (GNNs) have been successfully applied in many structured data domains, with applications ranging from molecular property prediction to the analysis of social networks. Motivated by the broad applicability of GNNs, we propose the family of so-called RankGNNs, a combination of neural Learning to Rank (LtR) methods and GNNs. RankGNNs are trained with a set of pair-wise preferences between graphs, suggesting that one of them is preferred over the other. One practical application of this problem is drug screening, where an expert wants to find the most promising molecules in a large collection of drug candidates. We empirically demonstrate that our proposed pair-wise RankGNN approach either significantly outperforms or at least matches the ranking performance of the naive point-wise baseline approach, in which the LtR problem is solved via GNN-based graph regression.
翻訳日:2021-04-21 10:18:31 公開日:2021-04-18
# (参考訳) コンピュータビジョン応用のための画像ラベリングに関する調査 [全文訳有]

A survey of image labelling for computer vision applications ( http://arxiv.org/abs/2104.08885v1 )

ライセンス: CC BY 4.0
Christoph Sager, Christian Janiesch, Patrick Zschech(参考訳) 画像解析のための機械学習手法は、コンピュータビジョン問題を解決するために大量のラベル付きトレーニングデータを必要とする。 近年,画像コンテンツ認識のためのディープラーニングアルゴリズムが普及し,多くのアドホックラベリングツールが出現している。 本調査では,既存の画像ラベルソフトウェアとの区別とともに,共通点の抽出と体系化を行う。 我々は、アノテーション表現性や自動化度などの画像ラベルソフトウェアの基本概念と特徴をコンパイルするために構造化された文献レビューを行う。 本調査のシステム化スキーマを導出するために,作業の組織,ユーザインターフェース設計オプション,ユーザサポート技術によって手作業のラベル付けタスクを構造化する。 利用可能なソフトウェアや文献に応用することで、医療やテレビにおける画像検索やインスタンス識別といったいくつかのアプリケーションアーチタイプや重要なドメインを明らかにすることができます。

Supervised machine learning methods for image analysis require large amounts of labelled training data to solve computer vision problems. The recent rise of deep learning algorithms for recognising image content has led to the emergence of many ad-hoc labelling tools. With this survey, we capture and systematise the commonalities as well as the distinctions between existing image labelling software. We perform a structured literature review to compile the underlying concepts and features of image labelling software such as annotation expressiveness and degree of automation. We structure the manual labelling task by its organisation of work, user interface design options, and user support techniques to derive a systematisation schema for this survey. Applying it to available software and the body of literature, enabled us to uncover several application archetypes and key domains such as image retrieval or instance identification in healthcare or television.
翻訳日:2021-04-21 10:04:05 公開日:2021-04-18
# (参考訳) 矯正治療における畳み込みニューラルネットワークの展望 [全文訳有]

Convolutional Neural Networks in Orthodontics: a review ( http://arxiv.org/abs/2104.08886v1 )

ライセンス: CC BY 4.0
Szymon P{\l}otka, Tomasz W{\l}odarczyk, Ryszard Szczerba, Przemys{\l}aw Rokita, Patrycja Bartkowska, Oskar Komisarek, Artur Matthews-Brzozowski, Tomasz Trzci\'nski(参考訳) 畳み込みニューラルネットワーク(cnns)は、オブジェクト追跡や認識、セキュリティ、軍事、生物医学的画像分析など、コンピュータビジョンの多くの領域で使われている。 本稿では, 歯科矯正学の分野における畳み込みニューラルネットワークの適用について述べる。 医療画像技術と方法の進歩により、CNNは矯正治療の計画時間短縮に使用されるようになり、頭部X線画像のランドマークの自動検索、コーンビームCT(CBCT)画像やデジタルモデルでの歯のセグメンテーション、X線パノラマ画像の欠陥の分類などが行われた。 本稿では,現在の手法,使用する深層畳み込みニューラルネットワークのアーキテクチャ,それらの実装について述べるとともに,それらの結果との比較を行った。 本研究の有望な結果と可視化により, 畳み込みニューラルネットワークに基づく手法を用いることで, 試験時間を短縮し, 多くの場合, 手動歯科矯正医よりも精度の高い解析を行うことで, コンピュータによる矯正治療計画の改善が期待できることがわかった。

Convolutional neural networks (CNNs) are used in many areas of computer vision, such as object tracking and recognition, security, military, and biomedical image analysis. This review presents the application of convolutional neural networks in one of the fields of dentistry - orthodontics. Advances in medical imaging technologies and methods allow CNNs to be used in orthodontics to shorten the planning time of orthodontic treatment, including an automatic search of landmarks on cephalometric X-ray images, tooth segmentation on Cone-Beam Computed Tomography (CBCT) images or digital models, and classification of defects on X-Ray panoramic images. In this work, we describe the current methods, the architectures of deep convolutional neural networks used, and their implementations, together with a comparison of the results achieved by them. The promising results and visualizations of the described studies show that the use of methods based on convolutional neural networks allows for the improvement of computer-based orthodontic treatment planning, both by reducing the examination time and, in many cases, by performing the analysis much more accurately than a manual orthodontist does.
翻訳日:2021-04-21 09:36:09 公開日:2021-04-18
# (参考訳) 画像の固有次元とその学習への影響 [全文訳有]

The Intrinsic Dimension of Images and Its Impact on Learning ( http://arxiv.org/abs/2104.08894v1 )

ライセンス: CC BY-SA 4.0
Phillip Pope, Chen Zhu, Ahmed Abdelkader, Micah Goldblum, Tom Goldstein(参考訳) 自然画像データは従来の画素表現の高次元にもかかわらず低次元構造を示すと広く信じられている。 このアイデアは、コンピュータビジョンにおけるディープラーニングの成功に対する共通の直感の根底にある。 本研究では,一般的なデータセットに次元推定ツールを適用し,ディープラーニングにおける低次元構造の役割を検討する。 一般的な自然画像データセットは、画像中のピクセル数に比べて非常に低い固有次元を持つことが分かりました。 さらに、低次元データセットはニューラルネットワークが学習しやすく、これらのタスクを解くモデルは、トレーニングからテストデータまで、より一般化されている。 その過程で,GANが生成した合成データに対して,画像生成過程を制御して本質的な次元を積極的に操作できる次元推定ツールの検証手法を開発した。 実験のコードはhttps://github.com/p pope/dimensions.com/ で確認できます。

It is widely believed that natural image data exhibits low-dimensional structure despite the high dimensionality of conventional pixel representations. This idea underlies a common intuition for the remarkable success of deep learning in computer vision. In this work, we apply dimension estimation tools to popular datasets and investigate the role of low-dimensional structure in deep learning. We find that common natural image datasets indeed have very low intrinsic dimension relative to the high number of pixels in the images. Additionally, we find that low dimensional datasets are easier for neural networks to learn, and models solving these tasks generalize better from training to test data. Along the way, we develop a technique for validating our dimension estimation tools on synthetic data generated by GANs allowing us to actively manipulate the intrinsic dimension by controlling the image generation process. Code for our experiments may be found here https://github.com/p pope/dimensions.
翻訳日:2021-04-21 08:51:43 公開日:2021-04-18
# (参考訳) Weber Local Descriptor を用いた高分解能リモートセンシング画像のテクスチャベース分類 [全文訳有]

Texture Based Classification of High Resolution Remotely Sensed Imagery using Weber Local Descriptor ( http://arxiv.org/abs/2104.08899v1 )

ライセンス: CC BY 4.0
Decky Aspandi-Latif, Sally Goldin, Preesan Rakwatin, Kurt Rudahl(参考訳) 従来の画像分類技術は、高解像度画像のクラスがスペクトル均質ではないため、高解像度データに適用すると不満足な結果をもたらすことが多い。 textureはこれらの画像を分類するための代替情報を提供する。 本稿では,Weber Local Descriptor (WLD) と呼ばれる最近開発された,高解像度のQuickBird パンクロマトグラフィーデータを分類する手法について述べる。 我々はWLDと,LBP (Local Binary Pattern) を含む最先端テクスチャ記述子 (TD) と,その回転不変バージョン LBPRIU を比較した。 また,明るさ変化を捉えたTDであるVARを組み込むことで,LPPRIUとWLDの精度が向上するかどうかについても検討した。 We found that WLD produce more accurate classification results than the other TD, and also robust to various parameters。 我々は,WLD計算のための最適化アルゴリズムを実装した。 以上の結果から,WLDは高解像度リモートセンシングデータの分類において有望なアプローチであることが示された。

Traditional image classification techniques often produce unsatisfactory results when applied to high spatial resolution data because classes in high resolution images are not spectrally homogeneous. Texture offers an alternative source of information for classifying these images. This paper evaluates a recently developed, computationally simple texture metric called Weber Local Descriptor (WLD) for use in classifying high resolution QuickBird panchromatic data. We compared WLD with state-of-the art texture descriptors (TD) including Local Binary Pattern (LBP) and its rotation-invariant version LBPRIU. We also investigated whether incorporating VAR, a TD that captures brightness variation, would improve the accuracy of LBPRIU and WLD. We found that WLD generally produces more accurate classification results than the other TD we examined, and is also more robust to varying parameters. We have implemented an optimised algorithm for calculating WLD which makes the technique practical in terms of computation time. Overall, our results indicate that WLD is a promising approach for classifying high resolution remote sensing data.
翻訳日:2021-04-21 08:37:48 公開日:2021-04-18
# (参考訳) 映像物体検出のための動きベクトル外挿 [全文訳有]

Motion Vector Extrapolation for Video Object Detection ( http://arxiv.org/abs/2104.08918v1 )

ライセンス: CC BY 4.0
Julian True and Naimul Khan(参考訳) ビデオオブジェクト検出のための計算効率のよいディープニューラルネットワークアーキテクチャの継続的な成功にもかかわらず、パフォーマンスは、計算リソースに対するスピード対精度の大きなトリレンマ(ピック2)に継続的に到達している。 このトリレンマを克服するためにビデオデータの時間的情報を活用する試みは、オブジェクト検出モデルにおける最先端モデルによってボトルネック化されている。 本稿では,既存の光学フローに基づく動き推定技術と並行して,市販の物体検出装置を用いて映像物体検出を行う手法を提案する。 ベンチマークMOT20データセットの一連の実験を通して、我々の手法は、精度を犠牲にすることなく、任意のオブジェクト検出器のベースライン遅延を著しく低減することを示した。 さらに、元のレイテンシよりも最大25倍低い遅延低減は、最小限の精度で達成できる。 MOVEXは、一般的なCPUベースのシステム上で低レイテンシのビデオオブジェクト検出を可能にし、GPUコンピューティングの領域を越えた高性能なビデオオブジェクト検出を可能にする。 コードはhttps://github.com/j uliantrue/movexで入手できる。

Despite the continued successes of computationally efficient deep neural network architectures for video object detection, performance continually arrives at the great trilemma of speed versus accuracy versus computational resources (pick two). Current attempts to exploit temporal information in video data to overcome this trilemma are bottlenecked by the state-of-the-art in object detection models. We present, a technique which performs video object detection through the use of off-the-shelf object detectors alongside existing optical flow based motion estimation techniques in parallel. Through a set of experiments on the benchmark MOT20 dataset, we demonstrate that our approach significantly reduces the baseline latency of any given object detector without sacrificing any accuracy. Further latency reduction, up to 25x lower than the original latency, can be achieved with minimal accuracy loss. MOVEX enables low latency video object detection on common CPU based systems, thus allowing for high performance video object detection beyond the domain of GPU computing. The code is available at https://github.com/j uliantrue/movex.
翻訳日:2021-04-21 08:27:34 公開日:2021-04-18
# (参考訳) プレポジションプロジェクト [全文訳有]

The Preposition Project ( http://arxiv.org/abs/2104.08922v1 )

ライセンス: CC BY 4.0
Ken Litkowski and Orin Hargraves(参考訳) 前提は意味的役割を示す重要な手段である。 その意味は分析が難しく、テキストを処理する際にしばしば破棄される。 Preposition Projectは、自然言語処理アプリケーションでの使用に適したプリポジション感覚の包括的なデータベースを提供するように設計されている。 プロジェクトにおいて、FrameNetコーパス内の前置詞は、現在の辞書からのセンスインベントリを用いて曖昧にされ、前置詞の意味の包括的処理によってガイドされる。 この方法論は、意味的役割の識別と特徴付けのためのフレームワーク、さらなる分析のためのインスタンスのゴールドスタンダードコーパス、意味的役割交代パターンの説明を提供する。 この方法論に固執することにより,前置動作の包括的かつ改良された特徴付け(意味的役割同定,前置相補とアタッチメントポイントの構文的・意味的特性)が開発されることが期待される。 プロジェクトで生成されたデータベースは、研究者やアプリケーション開発者のさらなる利用のために公開されている。

Prepositions are an important vehicle for indicating semantic roles. Their meanings are difficult to analyze and they are often discarded in processing text. The Preposition Project is designed to provide a comprehensive database of preposition senses suitable for use in natural language processing applications. In the project, prepositions in the FrameNet corpus are disambiguated using a sense inventory from a current dictionary, guided by a comprehensive treatment of preposition meaning. The methodology provides a framework for identifying and characterizing semantic roles, a gold standard corpus of instances for further analysis, and an account of semantic role alternation patterns. By adhering to this methodology, it is hoped that a comprehensive and improved characterization of preposition behavior (semantic role identification, and syntactic and semantic properties of the preposition complement and attachment point) will be developed. The databases generated in the project are publicly available for further use by researchers and application developers.
翻訳日:2021-04-21 08:17:10 公開日:2021-04-18
# (参考訳) 単語埋め込みの伝達学習のためのグループスパース行列分解 [全文訳有]

Group-Sparse Matrix Factorization for Transfer Learning of Word Embeddings ( http://arxiv.org/abs/2104.08928v1 )

ライセンス: CC BY 4.0
Kan Xu, Xuanyi Zhao, Hamsa Bastani, Osbert Bastani(参考訳) スパース回帰は、非常に限られたデータからの伝達学習を可能にするために最近適用された。 本研究では,非教師なし学習へのアプローチの拡張について検討し,特に低ランク行列分解を用いた非構造化テキストコーパスからの単語埋め込みを学習する。 直観的には、単語埋め込みを新しいドメインに移すとき、埋め込みは少数の単語(例えば、そのドメインに新しい意味を持つ単語)に対してのみ変化すると期待します。 我々は、この疎結合を利用して、ターゲットドメインで利用可能なテキストデータが少ない場合(例えば、単一のテキスト記事など)、転送学習を行う新しいグループスパースペナルティを提案する。 アルゴリズムの一般化境界を証明します。 さらに,下流課題における予測精度と結果の解釈可能性の両面から,その効果を実証的に評価した。

Sparse regression has recently been applied to enable transfer learning from very limited data. We study an extension of this approach to unsupervised learning -- in particular, learning word embeddings from unstructured text corpora using low-rank matrix factorization. Intuitively, when transferring word embeddings to a new domain, we expect that the embeddings change for only a small number of words -- e.g., the ones with novel meanings in that domain. We propose a novel group-sparse penalty that exploits this sparsity to perform transfer learning when there is very little text data available in the target domain -- e.g., a single article of text. We prove generalization bounds for our algorithm. Furthermore, we empirically evaluate its effectiveness, both in terms of prediction accuracy in downstream tasks as well as the interpretability of the results.
翻訳日:2021-04-21 08:05:47 公開日:2021-04-18
# (参考訳) 自己蒸留によるデータ効率の高い言語教師付きゼロショット学習 [全文訳有]

Data-Efficient Language-Supervised Zero-Shot Learning with Self-Distillation ( http://arxiv.org/abs/2104.08945v1 )

ライセンス: CC BY 4.0
Ruizhe Cheng, Bichen Wu, Peizhao Zhang, Peter Vajda, Joseph E. Gonzalez(参考訳) 従来のコンピュータビジョンモデルは、予め定義されたカテゴリの固定セットを予測するように訓練される。 近年、自然言語は、監督された「ゴールド」ラベルよりも視覚的概念に詳細な記述を提供する、より広範にリッチな監督源であることが示されている。 CLIPのような以前の作業では、イメージとテキストキャプション間のペアリングを予測するための単純な事前トレーニングタスクを使用していた。 しかしclipはデータに飢えており、トレーニングには400万以上の画像テキストペアを必要とする。 本研究では,ソフトラベルを用いてノイズの多い画像テキスト対から学習するデータ効率の高いコントラスト蒸留法を提案する。 我々のモデルは事前訓練された画像と文エンコーダから知識を伝達し,CLIPよりも133倍小さい3M画像テキストペアで高い性能を達成する。 提案手法は,ResNet50画像エンコーダとDeCLUTRテキストエンコーダを用いて,ImageNet 21k+1k上の一般ゼロショット学習のSoTAを73%高速化する。 また、Google Open Images(19,958クラス)のゼロショット評価でCLIPを10.5%上回りました。

Traditional computer vision models are trained to predict a fixed set of predefined categories. Recently, natural language has been shown to be a broader and richer source of supervision that provides finer descriptions to visual concepts than supervised "gold" labels. Previous works, such as CLIP, use a simple pretraining task of predicting the pairings between images and text captions. CLIP, however, is data hungry and requires more than 400M image text pairs for training. We propose a data-efficient contrastive distillation method that uses soft labels to learn from noisy image-text pairs. Our model transfers knowledge from pretrained image and sentence encoders and achieves strong performance with only 3M image text pairs, 133x smaller than CLIP. Our method exceeds the previous SoTA of general zero-shot learning on ImageNet 21k+1k by 73% relatively with a ResNet50 image encoder and DeCLUTR text encoder. We also beat CLIP by 10.5% relatively on zero-shot evaluation on Google Open Images (19,958 classes).
翻訳日:2021-04-21 07:09:24 公開日:2021-04-18
# (参考訳) 概念的な失敗: 概念に基づくデータセットシフトの説明 [全文訳有]

Failing Conceptually: Concept-Based Explanations of Dataset Shift ( http://arxiv.org/abs/2104.08952v1 )

ライセンス: CC BY 4.0
Maleakhi A. Wijaya, Dmitry Kazhdan, Botty Dimanov and Mateja Jamnik(参考訳) さまざまな視覚的タスクで注目すべきパフォーマンスにもかかわらず、機械学習技術は、しばしばデータ分散シフトに屈する。 その結果、近年の研究はこれらのシフトを検出する技術を探究している。 残念ながら、現在のテクニックでは、シフトの検出をトリガーする理由の説明は提供されていません。 本稿では,新しい説明可能なシフト検出法であるConcept Bottleneck Shift Detection (CBSD)を提案する。 cbsdは、高いレベルの人間理解可能な概念がシフトによって影響を受ける程度を識別し、ランク付けすることで説明を提供する。 2つのケーススタディ(dSpritesと3dshapes)を用いて、CBSDがシフトによって影響を受ける基礎概念を正確に検出し、最先端のシフト検出方法よりも高い精度で検出できることを示す。

Despite their remarkable performance on a wide range of visual tasks, machine learning technologies often succumb to data distribution shifts. Consequently, a range of recent work explores techniques for detecting these shifts. Unfortunately, current techniques offer no explanations about what triggers the detection of shifts, thus limiting their utility to provide actionable insights. In this work, we present Concept Bottleneck Shift Detection (CBSD): a novel explainable shift detection method. CBSD provides explanations by identifying and ranking the degree to which high-level human-understandable concepts are affected by shifts. Using two case studies (dSprites and 3dshapes), we demonstrate how CBSD can accurately detect underlying concepts that are affected by shifts and achieve higher detection accuracy compared to state-of-the-art shift detection methods.
翻訳日:2021-04-21 06:58:21 公開日:2021-04-18
# (参考訳) 最適置換訓練による多話者単一チャネル音声分離 [全文訳有]

Many-Speakers Single Channel Speech Separation with Optimal Permutation Training ( http://arxiv.org/abs/2104.08955v1 )

ライセンス: CC BY 4.0
Shaked Dovrat, Eliya Nachmani, Lior Wolf(参考訳) 単一チャンネル音声分離はここ数年で大きな進歩を遂げている。 しかし、多くの話者(例えば10人以上の話者)に対する神経音声分離の訓練は、置換不変損失(permutation invariant loss, pit)に依存する現在の方法には届かない。 本研究では,ハンガリーのアルゴリズムを用いて,話者数を$c$とした場合に,話者数を$o(c^3)とする時間複雑性を学習する置換不変トレーニングを提案する。 ) PIT ベースのメソッドの$。 さらに,話者数の増加に対応する改良型アーキテクチャを提案する。 弊社のアプローチでは、最大20ドルのスピーカーを分離し、これまでの結果をC$で大きく改善する。

Single channel speech separation has experienced great progress in the last few years. However, training neural speech separation for a large number of speakers (e.g., more than 10 speakers) is out of reach for the current methods, which rely on the Permutation Invariant Loss (PIT). In this work, we present a permutation invariant training that employs the Hungarian algorithm in order to train with an $O(C^3)$ time complexity, where $C$ is the number of speakers, in comparison to $O(C!)$ of PIT based methods. Furthermore, we present a modified architecture that can handle the increased number of speakers. Our approach separates up to $20$ speakers and improves the previous results for large $C$ by a wide margin.
翻訳日:2021-04-21 06:46:48 公開日:2021-04-18
# (参考訳) 学術論文における文の引用価値予測における文脈の利用について [全文訳有]

On the Use of Context for Predicting Citation Worthiness of Sentences in Scholarly Articles ( http://arxiv.org/abs/2104.08962v1 )

ライセンス: CC BY-SA 4.0
Rakesh Gosangi, Ravneet Arora, Mohsen Gheisarieha, Debanjan Mahata, Haimin Zhang(参考訳) 本稿では,学術論文における文章の引用価値の予測における文脈の重要性について検討する。 この問題を階層的BiLSTMモデルを用いて,シーケンスラベリングタスクとして定式化する。 我々は200万以上の文とそのラベルを含む新しいベンチマークデータセットをコントリビュートする。 このデータセットに文の順序を保存し、文書レベルのトレーニング/テスト分割を実行する。 提案手法を3つのベンチマークデータセットで評価した。 本研究は,引用価値のための文脈埋め込みと文脈埋め込みの利点を定量化する。 最後に、エラー分析を通じて、引用価値を予測する上でコンテキストが重要な役割を果たす場合の洞察を提供する。

In this paper, we study the importance of context in predicting the citation worthiness of sentences in scholarly articles. We formulate this problem as a sequence labeling task solved using a hierarchical BiLSTM model. We contribute a new benchmark dataset containing over two million sentences and their corresponding labels. We preserve the sentence order in this dataset and perform document-level train/test splits, which importantly allows incorporating contextual information in the modeling process. We evaluate the proposed approach on three benchmark datasets. Our results quantify the benefits of using context and contextual embeddings for citation worthiness. Lastly, through error analysis, we provide insights into cases where context plays an essential role in predicting citation worthiness.
翻訳日:2021-04-21 06:36:51 公開日:2021-04-18
# (参考訳) 解集合プログラミング応用のための説明の生成 [全文訳有]

Generating explanations for answer set programming applications ( http://arxiv.org/abs/2104.08963v1 )

ライセンス: CC BY 4.0
Ly Ly Trieu, Tran Cao Son, Enrico Pontelli, and Marcello Balduccini(参考訳) ASP(Answer Set Programming)を利用したアプリケーションのための説明システムを提案する。 プログラムP、Pの解集合A、およびプログラムPの原子aが与えられた場合、プログラムPと解集合Aが与えられた場合、Aが真(または偽)である理由を説明するのに役立つaのすべての説明グラフを生成する。 本論文のいくつかの例を用いて,システム機能について解説する。

We present an explanation system for applications that leverage Answer Set Programming (ASP). Given a program P, an answer set A of P, and an atom a in the program P, our system generates all explanation graphs of a which help explain why a is true (or false) given the program P and the answer set A. We illustrate the functionality of the system using some examples from the literature.
翻訳日:2021-04-21 06:27:34 公開日:2021-04-18
# (参考訳) グラウンデッド・クラリフィケーションに注釈をつけるためのレシピ [全文訳有]

A recipe for annotating grounded clarifications ( http://arxiv.org/abs/2104.08964v1 )

ライセンス: CC BY-SA 4.0
Luciana Benotti and Patrick Blackburn(参考訳) 発話のコミュニケーションの意図を解釈するには、言語以外のもの、すなわち世界的モダリティに基礎を置く必要がある。 本稿では,対話の明確化機構が,対話が位置する様々な様相を基盤として,話者の発話のコミュニケーション意図を解釈する過程を明確化すると主張する。 本稿では,自然言語理解の巨大ジグソーパズルにおける研究課題として,対話の明確化機構について考察する。 本稿では,この問題が生み出す理論的背景と実践上の課題を議論し,接地アノテーションを得るためのレシピを提案する。 最後に、今後の作業で対処すべき倫理的な問題を強調する。

In order to interpret the communicative intents of an utterance, it needs to be grounded in something that is outside of language; that is, grounded in world modalities. In this paper, we argue that dialogue clarification mechanisms make explicit the process of interpreting the communicative intents of the speaker's utterances by grounding them in the various modalities in which the dialogue is situated. This paper frames dialogue clarification mechanisms as an understudied research problem and a key missing piece in the giant jigsaw puzzle of natural language understanding. We discuss both the theoretical background and practical challenges posed by this problem and propose a recipe for obtaining grounding annotations. We conclude by highlighting ethical issues that need to be addressed in future work.
翻訳日:2021-04-21 06:03:07 公開日:2021-04-18
# (参考訳) Deep Convolutional Generative Adversarial Network を用いた機能的タンパク質構造アノテーション [全文訳有]

Functional Protein Structure Annotation Using a Deep Convolutional Generative Adversarial Network ( http://arxiv.org/abs/2104.08969v1 )

ライセンス: CC BY 4.0
Ethan Moyer, Jeff Winchell, Isamu Isozaki, Yigit Alparslan, Mali Halac, and Edward Kim(参考訳) 新規の機能的タンパク質構造を同定することは分子工学と分子生物学の中心であり、しばしば計算的に網羅的な探索を必要とする。 本稿では, 汎用原子型, 位置原子型, 特定の原子に対する占有率の3つの特徴を用いて, 各試料をグリッドオブジェクト構造に符号化することにより, それらの機能に基づいてタンパク質構造を分類するために, DCGAN(Deep Convolutional Generative Adversarial Network)を導入する。 我々は,DCGANを3次元デコイおよびネイティブタンパク構造で訓練し,3次元タンパク構造の生成と識別を行う。 トレーニングの終了時に損失は局所的な最小限に収束し,DCGANは機能タンパク質に対して強いアノテートを行うことができる。 将来的には、DCGANのジェネレータから見つかった新しい構造をより多くのサンプルで拡張して、さまざまな機能を持つより詳細な機能を探りたいと思っています。 我々はタンパク質構造予測の分野を前進させることを願っている。

Identifying novel functional protein structures is at the heart of molecular engineering and molecular biology, requiring an often computationally exhaustive search. We introduce the use of a Deep Convolutional Generative Adversarial Network (DCGAN) to classify protein structures based on their functionality by encoding each sample in a grid object structure using three features in each object: the generic atom type, the position atom type, and its occupancy relative to a given atom. We train DCGAN on 3-dimensional (3D) decoy and native protein structures in order to generate and discriminate 3D protein structures. At the end of our training, loss converges to a local minimum and our DCGAN can annotate functional proteins robustly against adversarial protein samples. In the future we hope to extend the novel structures we found from the generator in our DCGAN with more samples to explore more granular functionality with varying functions. We hope that our effort will advance the field of protein structure prediction.
翻訳日:2021-04-21 05:47:06 公開日:2021-04-18
# (参考訳) 文脈帯域におけるオフポリシィリスクアセスメント

Off-Policy Risk Assessment in Contextual Bandits ( http://arxiv.org/abs/2104.08977v1 )

ライセンス: CC BY 4.0
Audrey Huang, Liu Leqi, Zachary C. Lipton, Kamyar Azizzadenesheli(参考訳) 実験が不可能である場合、先見的な文脈的バンディットポリシーを評価するために、実践者は行動ポリシーで収集されたデータを用いて、しばしばオフポリシー評価に依存する。 政治以外の評価研究は一般的に期待されるリターンに焦点をあてるが、実践者は報酬分布の他の機能(例えばリスクへの嫌悪を表すために)に注意することが多い。 本稿では、まず、分散、平均分散、条件付き値-リスク(CVaR)を含む多くの共通関数を仮定するリプシッツリスク汎関数のクラスを紹介する。 リプシッツリスク汎関数では、オフポリシーリスク推定の誤差は、報酬の累積分布関数(cdf)のオフポリシー推定の誤差によって制限される。 次に,<i>Off-Policy Risk Assessment,OPRA</i>,<i>Off-Policy Risk Assessment,<i>Off-Policy Risk Assessment,<i>Off-Policy Risk Assessment,</i>)を提案する。 リプシッツリスク関数の集合が与えられた場合、OPRAは同時に保持する対応するエラー境界を持つ各々の見積もりを提供する。 本研究は,CDFの2倍剛性推定器の重要サンプリングと分散推定の両方を解析する。 我々の理論上の主要な貢献は、(i)両方のタイプのcdf推定器に対する最初の濃度不等式と(ii)我々のリプシッツリスク関数推定(o(1/\sqrt{n})の確率で収束する)に対する保証である。 実践者にとってOPRAは、関連するメトリクスのコレクションを使用してポリシーの高信頼度評価を提供するための実践的なソリューションを提供する。

To evaluate prospective contextual bandit policies when experimentation is not possible, practitioners often rely on off-policy evaluation, using data collected under a behavioral policy. While off-policy evaluation studies typically focus on the expected return, practitioners often care about other functionals of the reward distribution (e.g., to express aversion to risk). In this paper, we first introduce the class of Lipschitz risk functionals, which subsumes many common functionals, including variance, mean-variance, and conditional value-at-risk (CVaR). For Lipschitz risk functionals, the error in off-policy risk estimation is bounded by the error in off-policy estimation of the cumulative distribution function (CDF) of rewards. Second, we propose Off-Policy Risk Assessment (OPRA), an algorithm that (i) estimates the target policy's CDF of rewards; and (ii) generates a plug-in estimate of the risk. Given a collection of Lipschitz risk functionals, OPRA provides estimates for each with corresponding error bounds that hold simultaneously. We analyze both importance sampling and variance-reduced doubly robust estimators of the CDF. Our primary theoretical contributions are (i) the first concentration inequalities for both types of CDF estimators and (ii) guarantees on our Lipschitz risk functional estimates, which converge at a rate of O(1/\sqrt{n}). For practitioners, OPRA offers a practical solution for providing high-confidence assessments of policies using a collection of relevant metrics.
翻訳日:2021-04-21 05:40:13 公開日:2021-04-18
# 自然命令:自然言語命令から新しいタスクへのベンチマークの一般化

Natural Instructions: Benchmarking Generalization to New Tasks from Natural Language Instructions ( http://arxiv.org/abs/2104.08773v1 )

ライセンス: Link先を確認
Swaroop Mishra, Daniel Khashabi, Chitta Baral, Hannaneh Hajishirzi(参考訳) NLPモデルを命令プロンプトに適切に応答させ、その結果、新しいタスクに一般化できるだろうか? そこで我々は,既存のNLPデータセットと,それらをクラウドソーシングしてNATURAL INSTRUCTIONS,命令のデータセット,タスク固有の入出力データを作成する。 このデータセットは61の異なる言語命令と約600kのタスクインスタンスで構成されており、GPT3と微調整BARTのわずかなプロンプトによって新しいタスクに対処する既存の最先端言語モデル(LM)を評価するために使用される。 b) GPT-3のようなモデルは命令の分野によって異なるが,その利得の程度は課題によって異なる。 (c) NATURAL INSTRUCTIONSにおける未確認タスクへの一般化は、最先端の作業には程遠いままであり,この方向の進展を示す重要な余地は残っていない。

Can we enable NLP models to appropriately respond to instructional prompts and consequently generalize to new tasks? To study this question, we leverage the existing NLP datasets and the instructions that were used to crowdsource them to create NATURAL INSTRUCTIONS, a dataset of instructions and task-specific input/output data. This dataset consists of 61 distinct language instructions and about 600k task instances, and is used to evaluate existing state-of-the-art language-models (LMs) in addressing new tasks by few-shot prompting of GPT3 and fine-tuning BART. Our analysis indicates that: (a) the existing models indeed benefit from instructions and hence, show improved generalization to new tasks; (b) while models like GPT-3 generally benefit from instructions, the extent of their gains varies across different fields of instructions and also depends on the task being solved; (c) generalization to unseen tasks in NATURAL INSTRUCTIONS remains far from perfect for the state-of-the-art, indicating significant room for more progress in this direction.
翻訳日:2021-04-20 14:50:44 公開日:2021-04-18
# 信頼度適応変換器による一貫性加速推論

Consistent Accelerated Inference via Confident Adaptive Transformers ( http://arxiv.org/abs/2104.08803v1 )

ライセンス: Link先を確認
Tal Schuster, Adam Fisch, Tommi Jaakkola, Regina Barzilay(参考訳) 我々は,現在自然言語処理(NLP)においてユビキタスである大規模で高価な多層トランスフォーマーにおいて,推論を確実に高速化するための新しいアプローチを開発した。 補正あるいは近似計算手法は効率を上げるが、予測不可能な性能コストが伴う。 本研究では,CAT(Confident Adaptive Transformers)について,信頼性の高い元のモデルとの整合性を保証しつつ,計算効率を同時に向上させる。 提案手法は,中間層上に付加的な予測ヘッドを学習し,メタ一貫性分類器を用いて,各入力への計算作業の割り当てを停止するタイミングを動的に決定する。 初期予測停止規則を校正するために、共形予測のユニークな拡張を定式化する。 この手法が4つの分類と回帰タスクに有効であることを示す。

We develop a novel approach for confidently accelerating inference in the large and expensive multilayer Transformers that are now ubiquitous in natural language processing (NLP). Amortized or approximate computational methods increase efficiency, but can come with unpredictable performance costs. In this work, we present CATs -- Confident Adaptive Transformers -- in which we simultaneously increase computational efficiency, while guaranteeing a specifiable degree of consistency with the original model with high confidence. Our method trains additional prediction heads on top of intermediate layers, and dynamically decides when to stop allocating computational effort to each input using a meta consistency classifier. To calibrate our early prediction stopping rule, we formulate a unique extension of conformal prediction. We demonstrate the effectiveness of this approach on four classification and regression tasks.
翻訳日:2021-04-20 14:49:39 公開日:2021-04-18
# 注意に基づく臨床ノート要約

Attention-based Clinical Note Summarization ( http://arxiv.org/abs/2104.08942v1 )

ライセンス: Link先を確認
Neel Kanwal, Giuseppe Rizzo(参考訳) デジタルシステムを多くの産業に展開する傾向は、デジタル情報の記録の上昇を引き起こしている。 医療部門は、大量の個人医療記録を生成するデジタル機器やシステムの普及を観察してきた。 電子的な健康記録は、高密度な情報記憶のために完全に活用されない、振り返りや予測分析のための貴重な情報を含んでいる。 健康記録を凝縮する粗い目的は、報告された疾患に基づいて、原文書の最も特徴のある情報を選択することである。 これらの要約は、新型コロナウイルス(covid-19)パンデミックのような高いワークロード状況において、診断を強化し、患者との対話時間を延長する可能性がある。 本稿では,臨床ノートに意味のある句を抽出要約するマルチヘッド注意に基づくメカニズムを提案する。 本手法は, トークン, セグメント, 位置埋め込みを関連づけることで, 要約の主要な文を見つける。 モデルは、統計的に変換されてキーフレーズを抽出し、視覚的および人的使用のためのヒートマッピングツールの投影に使用できる注意スコアを出力する。

The trend of deploying digital systems in numerous industries has induced a hike in recording digital information. The health sector has observed a large adoption of digital devices and systems generating large volumes of personal medical health records. Electronic health records contain valuable information for retrospective and prospective analysis that is often not entirely exploited because of the dense information storage. The crude purpose of condensing health records is to select the information that holds most characteristics of the original documents based on reported disease. These summaries may boost diagnosis and extend a doctor's interaction time with the patient during a high workload situation like the COVID-19 pandemic. In this paper, we propose a multi-head attention-based mechanism to perform extractive summarization of meaningful phrases in clinical notes. This method finds major sentences for a summary by correlating tokens, segments and positional embeddings. The model outputs attention scores that are statistically transformed to extract key phrases and can be used for a projection on the heat-mapping tool for visual and human use.
翻訳日:2021-04-20 14:49:27 公開日:2021-04-18
# 分散NLI:言語推論のための人間の意見分布予測学習

Distributed NLI: Learning to Predict Human Opinion Distributions for Language Reasoning ( http://arxiv.org/abs/2104.08676v1 )

ライセンス: Link先を確認
Xiang Zhou, Yixin Nie, Mohit Bansal(参考訳) 我々は,自然言語推論のための人間の判断の分布を予測することを目的とした,新しいnluタスクであるdistributed nliを紹介する。 本研究では,モンテカルロ(MC)Dropout,Deep Ensemble,Re-Calibrat ion,Distribution Distillationという新たな分布推定手法を適用することで,人間の判断分布を捉えることができることを示す。 これら4つの手法は全てソフトマックスベースラインを大幅に上回る。 我々は,mc dropout が分散アノテーションを使わずに適正な性能を達成できることを示す一方で,追加の分散アノテーションが提供された場合,再校正により大幅な改善が期待できることを示す。 さらに、MCDropoutとRe-Calibrationはドメイン外のデータに対して十分な転送性能が得られる。 これらの改善にもかかわらず、最良の結果はまだヒトの上層部をはるかに下回っており、人間の判断の分布を予測するタスクはまだオープンで困難な問題であり、将来の改善の余地が大きいことを示している。 MCドロップアウトとリキャリブレーションの一般的なエラーを示す。 最後に、異なるレベルのデータアベイラビリティを持つこれらのメソッドの使用に関するガイドラインを提供し、言語推論のための人間の意見分布のモデリングに関する今後の作業を促す。

We introduce distributed NLI, a new NLU task with a goal to predict the distribution of human judgements for natural language inference. We show that models can capture human judgement distribution by applying additional distribution estimation methods, namely, Monte Carlo (MC) Dropout, Deep Ensemble, Re-Calibration, and Distribution Distillation. All four of these methods substantially outperform the softmax baseline. We show that MC Dropout is able to achieve decent performance without any distribution annotations while Re-Calibration can further give substantial improvements when extra distribution annotations are provided, suggesting the value of multiple annotations for the example in modeling the distribution of human judgements. Moreover, MC Dropout and Re-Calibration can achieve decent transfer performance on out-of-domain data. Despite these improvements, the best results are still far below estimated human upper-bound, indicating that the task of predicting the distribution of human judgements is still an open, challenging problem with large room for future improvements. We showcase the common errors for MC Dropout and Re-Calibration. Finally, we give guidelines on the usage of these methods with different levels of data availability and encourage future work on modeling the human opinion distribution for language reasoning.
翻訳日:2021-04-20 14:48:56 公開日:2021-04-18
# 知識ベースによる自然言語クエリのケースベース推論

Case-based Reasoning for Natural Language Queries over Knowledge Bases ( http://arxiv.org/abs/2104.08762v1 )

ライセンス: Link先を確認
Rajarshi Das, Manzil Zaheer, Dung Thai, Ameya Godbole, Ethan Perez, Jay-Yoon Lee, Lizhen Tan, Lazaros Polymenakos, Andrew McCallum(参考訳) システムが新しい複雑な問題をスクラッチから解決することは難しいことが多いが、他の類似した問題やソリューションの記述(ケースベースの推論(CBR)として知られるパラダイム)にアクセスできれば、ずっと簡単になる。 大規模知識ベース(CBR-KBQA)に対する質問応答のための神経シンボル的CBRアプローチを提案する。 cbrの概念は誘惑的であるが、個々のケースが全解に対して部分論理のみを含む場合、ケースから解を構成することは非自明である。 この問題を解決するため、CBR-KBQAはケースを格納する非パラメトリックメモリと、関連するケースをメモリから取り出すことによって論理形式を生成するパラメトリックモデルという2つのモジュールから構成される。 実験により、CBR-KBQAは、合成質問に答えるために必要なケースメモリに表示されない関係を効果的に組み合わせることができることを示す。 構成一般化をテストするいくつかのKBQAデータセットにおいて、CBR-KBQAは競合性能を達成する。 例えば、挑戦的なComplexWebQuestionsデータセットでは、CBR-KBQAが現在の最先端の精度を11%上回る。 さらに, CBR-KBQA では, 新たな症例であるemph{without} のさらなる訓練が可能であることを示す。 非パラメトリックケースメモリに人間ラベルの例を組み込むことで、CBR-KBQAは未知のKB関係を含むクエリをうまく生成できる。

It is often challenging for a system to solve a new complex problem from scratch, but much easier if the system can access other similar problems and description of their solutions -- a paradigm known as case-based reasoning (CBR). We propose a neuro-symbolic CBR approach for question answering over large knowledge bases (CBR-KBQA). While the idea of CBR is tempting, composing a solution from cases is nontrivial, when individual cases only contain partial logic to the full solution. To resolve this, CBR-KBQA consists of two modules: a non-parametric memory that stores cases (question and logical forms) and a parametric model which can generate logical forms by retrieving relevant cases from memory. Through experiments, we show that CBR-KBQA can effectively derive novel combination of relations not presented in case memory that is required to answer compositional questions. On several KBQA datasets that test compositional generalization, CBR-KBQA achieves competitive performance. For example, on the challenging ComplexWebQuestions dataset, CBR-KBQA outperforms the current state of the art by 11% accuracy. Furthermore, we show that CBR-KBQA is capable of using new cases \emph{without} any further training. Just by incorporating few human-labeled examples in the non-parametric case memory, CBR-KBQA is able to successfully generate queries containing unseen KB relations.
翻訳日:2021-04-20 14:48:34 公開日:2021-04-18
# 結合関係とエンティティアライメントを用いた多言語知識グラフ補完

Multilingual Knowledge Graph Completion with Joint Relation and Entity Alignment ( http://arxiv.org/abs/2104.08804v1 )

ライセンス: Link先を確認
Harkanwar Singh, Prachi Jain, Mausam, Soumen Chakrabarti(参考訳) 知識グラフ補完(kgc)は、不足した事実を不完全な知識グラフで予測する。 既存のKGC研究のほとんどは、一度に1つのKGと1つの言語にのみ適用できる。 しかし、異なる言語話者はそれぞれの言語で別々のKGを維持でき、個々のKGが完成することはない。 さらに、これらのKGの共通の実体や関係は、異なる表面形態とIDを持ち、IDの増殖を引き起こす。 エンティティアライメント(EA)と関係アライメント(RA)タスクは、同じエンティティ(リレーション)を表す異なるKG内のエンティティ(リレーション)IDのペアを認識することで、この問題を解決する。 これは、ある kg からの知識が別の kg の完了の恩恵を受ける可能性が高いため、事実の欠落を予測するのにさらに役立つ。 高い信頼度予測はアライメントタスクに貴重な情報を加えることもできる。 そこで本研究では,多言語KGC,関係アライメント,エンティティアライメントモデルを共同で学習する新しい課題について検討する。 KGC, EA, RAの3つの損失を共同最適化するために, いくつかの種子アライメントを用いたALIGNKGCを提案する。 alignkgc の重要な構成要素は、関係の(主観的、対象的)集合のシグネチャで定義される非対称な重なりの埋め込みに基づくソフトな概念である。 DBPediaの5言語での大規模な実験により、全てのタスクに対する共同トレーニングの利点が確立され、各単言語KGに対して強力な最先端の単一KGCシステム補完モデルに対してALIGNKGCの10-32 MRRの改善が達成された。 さらに、ALIGNKGCは、すべての事実をアライメントなしで組み合わせたKG上のバニラ完了モデルに対して、EAとRAタスクの合理的なゲインを達成し、これらのタスクのジョイントトレーニングの価値を裏付ける。

Knowledge Graph Completion (KGC) predicts missing facts in an incomplete Knowledge Graph. Almost all of existing KGC research is applicable to only one KG at a time, and in one language only. However, different language speakers may maintain separate KGs in their language and no individual KG is expected to be complete. Moreover, common entities or relations in these KGs have different surface forms and IDs, leading to ID proliferation. Entity alignment (EA) and relation alignment (RA) tasks resolve this by recognizing pairs of entity (relation) IDs in different KGs that represent the same entity (relation). This can further help prediction of missing facts, since knowledge from one KG is likely to benefit completion of another. High confidence predictions may also add valuable information for the alignment tasks. In response, we study the novel task of jointly training multilingual KGC, relation alignment and entity alignment models. We present ALIGNKGC, which uses some seed alignments to jointly optimize all three of KGC, EA and RA losses. A key component of ALIGNKGC is an embedding based soft notion of asymmetric overlap defined on the (subject, object) set signatures of relations this aids in better predicting relations that are equivalent to or implied by other relations. Extensive experiments with DBPedia in five languages establish the benefits of joint training for all tasks, achieving 10-32 MRR improvements of ALIGNKGC over a strong state-of-the-art single-KGC system completion model over each monolingual KG . Further, ALIGNKGC achieves reasonable gains in EA and RA tasks over a vanilla completion model over a KG that combines all facts without alignment, underscoring the value of joint training for these tasks.
翻訳日:2021-04-20 14:48:12 公開日:2021-04-18
# 確率収束型深層学習のための高精度リコール曲線下の領域の確率的最適化

Stochastic Optimization of Area Under Precision-Recall Curve for Deep Learning with Provable Convergence ( http://arxiv.org/abs/2104.08736v1 )

ライセンス: Link先を確認
Qi Qi, Youzhi Luo, Zhao Xu, Shuiwang Ji, Tianbao Yang(参考訳) ROC(AUROC)と精度リコール曲線(AUPRC)の下の領域は、不均衡問題に対する分類性能を評価するための一般的な指標である。 AUROCと比較すると、AUPRCは高度に不均衡なデータセットに対してより適切なメトリックである。 AUROCの直接最適化は広く研究されているが、AUPRCの直接最適化はめったに研究されていない。 本研究では,深層学習のためのAUPRCを最適化する原理的技術手法を提案する。 提案手法は, AUPRCの非バイアス点推定器である平均精度(AP)を最大化することに基づいている。 我々は,APの代理損失関数がAUROCよりも非凸であり,複雑であることを示す。 対象を外部レベルのランダム変数に依存する内部関数を持つ依存的構成関数の和にキャストした。 本稿では,近年の確率的合成最適化の進歩を利用して,適応的および非適応的確率論的アルゴリズムを提案する。 グラフと画像データセットの広範な実験結果から,提案手法が不均衡問題に対する先行手法よりも優れていることが示された。 我々の知る限りでは、我々の研究はauprcを証明可能な収束で最適化する最初の試みである。

Areas under ROC (AUROC) and precision-recall curves (AUPRC) are common metrics for evaluating classification performance for imbalanced problems. Compared with AUROC, AUPRC is a more appropriate metric for highly imbalanced datasets. While direct optimization of AUROC has been studied extensively, optimization of AUPRC has been rarely explored. In this work, we propose a principled technical method to optimize AUPRC for deep learning. Our approach is based on maximizing the averaged precision (AP), which is an unbiased point estimator of AUPRC. We show that the surrogate loss function for AP is highly non-convex and more complicated than that of AUROC. We cast the objective into a sum of dependent compositional functions with inner functions dependent on random variables of the outer level. We propose efficient adaptive and non-adaptive stochastic algorithms with provable convergence guarantee under mild conditions by using recent advances in stochastic compositional optimization. Extensive experimental results on graphs and image datasets demonstrate that our proposed method outperforms prior methods on imbalanced problems. To the best of our knowledge, our work represents the first attempt to optimize AUPRC with provable convergence.
翻訳日:2021-04-20 14:47:05 公開日:2021-04-18
# 自己教師型表現学習の非効率化

Solving Inefficiency of Self-supervised Representation Learning ( http://arxiv.org/abs/2104.08760v1 )

ライセンス: Link先を確認
Guangrun Wang, Keze Wang, Guangcong Wang, Phillip H.S. Torr, Liang Lin(参考訳) 自己教師付き学習は、教師なしの方法で差別的表現を学習する大きな可能性から、大きな関心を集めている。 この方向に沿って、コントラスト学習は現在の最先端のパフォーマンスを達成する。 これらの成功にもかかわらず、既存のコントラスト学習手法は非常に低い学習効率に悩まされ、例えば、同等の認識精度で教師付き学習よりも10倍の訓練エポックを要した。 本稿では,学習効率の大きな障害であるアンダークラスタリングとオーバークラスタリング問題と呼ばれる,コントラスト学習における2つの矛盾する現象を発見する。 アンダークラスタリングは、対照的な学習のための負のサンプルペアが不十分な場合に、モデルがクラス間の相違点を効率的に発見できないことを意味する。 オーバークラスタリングは、モデルが過剰な負のサンプルペアから、多くのアウトレーヤを含む特徴表現を効率的に学習できないことを意味し、したがって、同じ実際のカテゴリのオーバークラスタサンプルを異なるクラスタに強制する。 この2つの問題を同時に克服するために,中央三重項損失を用いた新しい自己教師付き学習フレームワークを提案する。 正確には, 正対と負対の相対距離を最大化する三重項損失を用い, 全ての負のサンプルから正の類似度スコアの負のサンプルを選択し, ベルヌーイ分布モデルによって保証される過剰クラスタリング問題を回避することで負のペアを構成する。 提案するフレームワークを大規模ベンチマーク(ImageNet, SYSU-30k, COCOなど)で広く評価する。 その結果,最新の最先端手法よりも明確なマージンによるモデルの性能向上が示された。

Self-supervised learning has attracted great interest due to its tremendous potentials in learning discriminative representations in an unsupervised manner. Along this direction, contrastive learning achieves current state-of-the-art performance. Despite the acknowledged successes, existing contrastive learning methods suffer from very low learning efficiency, e.g., taking about ten times more training epochs than supervised learning for comparable recognition accuracy. In this paper, we discover two contradictory phenomena in contrastive learning that we call under-clustering and over-clustering problems, which are major obstacles to learning efficiency. Under-clustering means that the model cannot efficiently learn to discover the dissimilarity between inter-class samples when the negative sample pairs for contrastive learning are insufficient to differentiate all the actual object categories. Over-clustering implies that the model cannot efficiently learn the feature representation from excessive negative sample pairs, which include many outliers and thus enforce the model to over-cluster samples of the same actual categories into different clusters. To simultaneously overcome these two problems, we propose a novel self-supervised learning framework using a median triplet loss. Precisely, we employ a triplet loss tending to maximize the relative distance between the positive pair and negative pairs to address the under-clustering problem; and we construct the negative pair by selecting the negative sample of a median similarity score from all negative samples to avoid the over-clustering problem, guaranteed by the Bernoulli Distribution model. We extensively evaluate our proposed framework in several large-scale benchmarks (e.g., ImageNet, SYSU-30k, and COCO). The results demonstrate the superior performance of our model over the latest state-of-the-art methods by a clear margin.
翻訳日:2021-04-20 14:46:51 公開日:2021-04-18
# 多項式エキスパートモデルのブロック-対角混合における非漸近モデル選択

A non-asymptotic model selection in block-diagonal mixture of polynomial experts models ( http://arxiv.org/abs/2104.08959v1 )

ライセンス: Link先を確認
TrungTin Nguyen, Faicel Chamroukhi, Hien Duy Nguyen, Florence Forbes(参考訳) ペナラライズド・ラバース型基準によるモデル選択は、多くの統計推論や機械学習問題において標準的なタスクである。 これは、漸近的整合性の結果による基準の導出と、非漸近的基準の導入に重点が置かれている。 本研究では,高次元予測器間の隠れたグラフ構造的相互作用を考慮した回帰データにおける非線形関係のモデル化の問題に注目する。 このような複雑な状況に対処するために、ガウスの専門家共分散行列の逆回帰とブロック対角構造に基づいて構築された多項式エキスパート回帰モデル(BLoMPE)のブロック対角混合について検討する。 回帰モデルの未知条件密度を推定するために, ペナル化最大選択基準を導入する。 このモデル選択基準により、混合成分の数、多項式平均関数の度合い、共分散行列の隠蔽ブロック対角構造を推定し、推定するパラメータの数を減らし、モデルの複雑さと疎さのトレードオフをもたらすという課題に対処できる。 特に, 有限サンプルオラクル不等式は, 導入した非漸近モデル選択基準を支持するために, イェンセン・コールバック・リーブラー型損失のペナル化最大極大推定器で満たされる。 この基準のペナルティ形状は、関連するグラフ構造、多項式平均関数の次数、混合成分の数を含む、blompeモデルのランダムな部分集合と見なされる複雑さに依存する。

Model selection via penalized likelihood type criteria is a standard task in many statistical inference and machine learning problems. It has led to deriving criteria with asymptotic consistency results and an increasing emphasis on introducing non-asymptotic criteria. We focus on the problem of modeling non-linear relationships in regression data with potential hidden graph-structured interactions between the high-dimensional predictors, within the mixture of experts modeling framework. In order to deal with such a complex situation, we investigate a block-diagonal localized mixture of polynomial experts (BLoMPE) regression model, which is constructed upon an inverse regression and block-diagonal structures of the Gaussian expert covariance matrices. We introduce a penalized maximum likelihood selection criterion to estimate the unknown conditional density of the regression model. This model selection criterion allows us to handle the challenging problem of inferring the number of mixture components, the degree of polynomial mean functions, and the hidden block-diagonal structures of the covariance matrices, which reduces the number of parameters to be estimated and leads to a trade-off between complexity and sparsity in the model. In particular, we provide a strong theoretical guarantee: a finite-sample oracle inequality satisfied by the penalized maximum likelihood estimator with a Jensen-Kullback-Leib ler type loss, to support the introduced non-asymptotic model selection criterion. The penalty shape of this criterion depends on the complexity of the considered random subcollection of BLoMPE models, including the relevant graph structures, the degree of polynomial mean functions, and the number of mixture components.
翻訳日:2021-04-20 14:45:19 公開日:2021-04-18
# ネットワークプルーニング再考 ---事前訓練と微調整のパラダイムの下で-

Rethinking Network Pruning -- under the Pre-train and Fine-tune Paradigm ( http://arxiv.org/abs/2104.08682v1 )

ライセンス: Link先を確認
Dongkuan Xu, Ian E.H. Yen, Jinxi Zhao, Zhibin Xiao(参考訳) 近年,トランスフォーマーを用いた事前学習型言語モデルにより,自然言語処理(NLP)タスクの性能が大幅に向上している。 有効で普及しているにもかかわらず、これらのモデルは通常、リソース限定のデプロイメントシナリオでは違法に大きい。 そのため、nlpで広く採用されているプリトレイン・テイン・フィニチューン・パラダイムの下でネットワークプルーニング技術を適用する研究が進められている。 しかし、bertのようなベンチマークトランスフォーマーの現在のプルーニング結果は、畳み込みニューラルネットワーク(cnns)の文献におけるプルーニング結果ほど注目に値するものではない。 特に、刈り込みCNNにおける一般的な知恵は、スパースプルーニング技術は、チャンネルや層数を減らしたモデル(Elsen et al., 2020; Zhu and Gupta, 2017)よりも多くモデルを圧縮し、既存のBERTのスパースプルーニングの研究はTinyBERT(Jiao et al., 2020)のような小さな密度のプルーニング技術よりも劣る。 本研究では, 事前学習, 微調整, 刈り取り過程における知識の伝達, 喪失の過程について検討し, 既存の文献よりもはるかに優れた知識を考慮したスパース刈りプロセスを提案する。 スパースプルーニングがBERTモデルを大幅に圧縮することを示すのは,チャネル数や層数を減らすことよりも初めてである。 GLUEベンチマークの複数データセットを用いた実験により,本手法は20倍の重み/FLOPの圧縮と予測精度の無視可能な損失で競合相手よりも優れていた。

Transformer-based pre-trained language models have significantly improved the performance of various natural language processing (NLP) tasks in the recent years. While effective and prevalent, these models are usually prohibitively large for resource-limited deployment scenarios. A thread of research has thus been working on applying network pruning techniques under the pretrain-then-finetu ne paradigm widely adopted in NLP. However, the existing pruning results on benchmark transformers, such as BERT, are not as remarkable as the pruning results in the literature of convolutional neural networks (CNNs). In particular, common wisdom in pruning CNN states that sparse pruning technique compresses a model more than that obtained by reducing number of channels and layers (Elsen et al., 2020; Zhu and Gupta, 2017), while existing works on sparse pruning of BERT yields inferior results than its small-dense counterparts such as TinyBERT (Jiao et al., 2020). In this work, we aim to fill this gap by studying how knowledge are transferred and lost during the pre-train, fine-tune, and pruning process, and proposing a knowledge-aware sparse pruning process that achieves significantly superior results than existing literature. We show for the first time that sparse pruning compresses a BERT model significantly more than reducing its number of channels and layers. Experiments on multiple data sets of GLUE benchmark show that our method outperforms the leading competitors with a 20-times weight/FLOPs compression and neglectable loss in prediction accuracy.
翻訳日:2021-04-20 14:43:13 公開日:2021-04-18
# 自由形式テキスト生成のためのトークンレベルの参照なし幻覚検出ベンチマーク

A Token-level Reference-free Hallucination Detection Benchmark for Free-form Text Generation ( http://arxiv.org/abs/2104.08704v1 )

ライセンス: Link先を確認
Tianyu Liu, Yizhe Zhang, Chris Brockett, Yi Mao, Zhifang Sui, Weizhu Chen and Bill Dolan(参考訳) GPT-3のような事前訓練された大規模な生成モデルは、しばしば幻覚的でないまたは誤った内容に悩まされる。 既存の作業は通常、これらの幻覚を、対応するoracleリファレンスに基づいて文や文書レベルで検出しようとする。 しかし、多くの自由形式のテキスト生成アプリケーションでは、基盤となる参照は簡単には利用できず、文章や文書レベルの検出では、リアルタイムに不適切なコンテンツを防止できるきめ細かい信号を提供できない場合がある。 これらの問題に対処する第一歩として,トークンレベルの参照なし幻覚検出タスクとHaDes(Hallucination Detection dataSet)というアノテーション付きデータセットを提案する。 このデータセットを作成するために、まず英語のWikipediaから抽出された大量のテキストセグメントを摂動し、クラウドソースアノテーションで検証する。 アノテーション中のラベルの不均衡を軽減するために,反復型ループ戦略を利用する。 包括的データ分析を行い、複数のベースラインモデルを作成します。

Large pretrained generative models like GPT-3 often suffer from hallucinating non-existent or incorrect content, which undermines their potential merits in real applications. Existing work usually attempts to detect these hallucinations based on a corresponding oracle reference at a sentence or document level. However ground-truth references may not be readily available for many free-form text generation applications, and sentence- or document-level detection may fail to provide the fine-grained signals that would prevent fallacious content in real time. As a first step to addressing these issues, we propose a novel token-level, reference-free hallucination detection task and an associated annotated dataset named HaDes (HAllucination DEtection dataSet). To create this dataset, we first perturb a large number of text segments extracted from English language Wikipedia, and then verify these with crowd-sourced annotations. To mitigate label imbalance during annotation, we utilize an iterative model-in-loop strategy. We conduct comprehensive data analyses and create multiple baseline models.
翻訳日:2021-04-20 14:42:39 公開日:2021-04-18
# gooaq: さまざまな回答タイプによるオープン質問応答

GooAQ: Open Question Answering with Diverse Answer Types ( http://arxiv.org/abs/2104.08727v1 )

ライセンス: Link先を確認
Daniel Khashabi, Amos Ng, Tushar Khot, Ashish Sabharwal, Hannaneh Hajishirzi, Chris Callison-Burch(参考訳) 日々の質問にはさまざまな回答タイプがあるが、現在のq&a(qa)の文献では、質問の多様性に適切に対処できていない。 そこで我々は,さまざまな回答型を持つ大規模データセットであるgooaqを提案する。 このデータセットには500万の質問と300万の回答が含まれている。 GooAQの質問は、自動補完機能を使って、Google検索エンジンから半自動で収集される。 この結果、実用的関心のある自然主義的な質問は、それでも短く、単純な言語で表現される。 GooAQの回答は、収集した質問に対するGoogleの回答、特に検索結果の回答ボックスから抽出されます。 これは、文的な答え(短文と長文)とコレクションのようなより構造化されたものの両方を含む、回答タイプの豊富な空間をもたらす。 A)GooAQの短い質問に対するLMの強いパフォーマンスは、注釈付きデータから大きな恩恵を受けていますが、(b)長い回答を必要とする質問に対する一貫性と正確な応答(例えば 'how' や 'why' のような)の生成におけるそれらの品質は、注釈付きデータの観察にはあまり依存せず、主に事前学習によってサポートされています。 GooAQをリリースし、多様な応答型でQAを改善するためのさらなる研究を支援します。

While day-to-day questions come with a variety of answer types, the current question-answering (QA) literature has failed to adequately address the answer diversity of questions. To this end, we present GooAQ, a large-scale dataset with a variety of answer types. This dataset contains over 5 million questions and 3 million answers collected from Google. GooAQ questions are collected semi-automatically from the Google search engine using its autocomplete feature. This results in naturalistic questions of practical interest that are nonetheless short and expressed using simple language. GooAQ answers are mined from Google's responses to our collected questions, specifically from the answer boxes in the search results. This yields a rich space of answer types, containing both textual answers (short and long) as well as more structured ones such as collections. We benchmarkT5 models on GooAQ and observe that: (a) in line with recent work, LM's strong performance on GooAQ's short-answer questions heavily benefit from annotated data; however, (b) their quality in generating coherent and accurate responses for questions requiring long responses (such as 'how' and 'why' questions) is less reliant on observing annotated data and mainly supported by their pre-training. We release GooAQ to facilitate further research on improving QA with diverse response types.
翻訳日:2021-04-20 14:42:21 公開日:2021-04-18
# NLIモデルはQAシステムの予測を検証できるか?

Can NLI Models Verify QA Systems' Predictions? ( http://arxiv.org/abs/2104.08731v1 )

ライセンス: Link先を確認
Jifan Chen, Eunsol Choi, Greg Durrett(参考訳) 堅牢な質問応答システムを構築するためには、不完全なQAデータセットのコンテキストにおいて、質問に対する回答が本当に正しいかどうかを検証する能力が必要です。 我々は,この目的を達成する手段として自然言語推論(NLI)の利用を検討する。NLIは本来,仮説を支持するために必要なすべての情報(質問に対する回答)を格納するために,前提(文書コンテキスト)を必要とする。 我々は、大規模な事前学習モデルと最近のデータセットを活用し、強力な質問変換モジュールと非コンテキスト化モジュールを構築し、QAインスタンスを非常に高い信頼性で前提-仮説ペアとして再構成することができる。 そして、標準NLIデータセットとQAトレーニングデータから自動的に抽出されたNLI例を組み合わせることで、NLIモデルをトレーニングして、QAモデルの提案した回答の正しさを判断する。 我々のNLIアプローチは一般に、選択的なQA設定で評価された異なる領域にわたるQAモデルの信頼性推定を改善することができることを示す。 我々のNLIモデルの予測に関する注意深い手動分析は、QAモデルが間違った理由の正しい答えを生み出している場合や、その答えが問題のすべての側面に対処するものとして検証できない場合をさらに特定できることを示している。

To build robust question answering systems, we need the ability to verify whether answers to questions are truly correct, not just "good enough" in the context of imperfect QA datasets. We explore the use of natural language inference (NLI) as a way to achieve this goal, as NLI inherently requires the premise (document context) to contain all necessary information to support the hypothesis (proposed answer to the question). We leverage large pre-trained models and recent prior datasets to construct powerful question converter and decontextualization modules, which can reformulate QA instances as premise-hypothesis pairs with very high reliability. Then, by combining standard NLI datasets with NLI examples automatically derived from QA training data, we can train NLI models to judge the correctness of QA models' proposed answers. We show that our NLI approach can generally improve the confidence estimation of a QA model across different domains, evaluated in a selective QA setting. Careful manual analysis over the predictions of our NLI model shows that it can further identify cases where the QA model produces the right answer for the wrong reason, or where the answer cannot be verified as addressing all aspects of the question.
翻訳日:2021-04-20 14:42:00 公開日:2021-04-18
# 半教師付きテキスト分類のための仮想会話訓練による注意機構の堅牢化と解釈性の向上

Making Attention Mechanisms More Robust and Interpretable with Virtual Adversarial Training for Semi-Supervised Text Classification ( http://arxiv.org/abs/2104.08763v1 )

ライセンス: Link先を確認
Shunsuke Kitada, Hitoshi Iyatomi(参考訳) 仮想敵訓練(virtual adversarial training, vat)に基づくアテンション機構のための新しい一般訓練手法を提案する。 VATは、従来の研究で報告された注意機構が摂動に弱いという半教師付き設定で、ラベルのないデータから敵の摂動を計算することができる。 実験の結果,(1)従来の対向訓練に基づく手法よりも,半教師付き環境でのvatに基づく手法に比べ,予測性能が有意に向上し,(2)人間が提供した証拠との単語重要度と一致度が高まること,(3)ラベルなしデータ量の増加による性能向上が示された。

We propose a new general training technique for attention mechanisms based on virtual adversarial training (VAT). VAT can compute adversarial perturbations from unlabeled data in a semi-supervised setting for the attention mechanisms that have been reported in previous studies to be vulnerable to perturbations. Empirical experiments reveal that our technique (1) provides significantly better prediction performance compared to not only conventional adversarial training-based techniques but also VAT-based techniques in a semi-supervised setting, (2) demonstrates a stronger correlation with the word importance and better agreement with evidence provided by humans, and (3) gains in performance with increasing amounts of unlabeled data.
翻訳日:2021-04-20 14:41:39 公開日:2021-04-18
# 因果関係ルールマイニングによるスキーマキュレーション

Schema Curation via Causal Association Rule Mining ( http://arxiv.org/abs/2104.08811v1 )

ライセンス: Link先を確認
Noah Weber, Anton Belyy, Nils Holzenberger, Rachel Rudinger, Benjamin Van Durme(参考訳) イベントスキーマは、典型的な現実世界のシナリオ(空港に行くなど)を定義する構造化知識ソースである。 本稿では,スキーマ生成のための新しいメカニズムと,非専門家が複雑なイベント構造を"プログラム"できる優れたインターフェースに基づく,効率的なヒューマン・イン・ザ・ループ構築のためのフレームワークを提案する。 この作業に関連して、232の詳細なイベントスキーマからなるマシン可読性リソース(スキーマライブラリ)をリリースし、それぞれが関連するサブイベント構造(シナリオで何が起こるか)、参加者(シナリオでの役割を担う)、各参加者のきめ細かい型付け、そしてそれらの間の暗黙的な関係制約の観点から、明確な典型的なシナリオを記述します。 カスタムアノテーションインターフェース、SchemaBlocks、イベントスキーマはオンラインで利用可能です。

Event schemas are structured knowledge sources defining typical real-world scenarios (e.g., going to an airport). We present a framework for efficient human-in-the-loop construction of a schema library, based on a novel mechanism for schema induction and a well-crafted interface that allows non-experts to "program" complex event structures. Associated with this work we release a machine readable resource (schema library) of 232 detailed event schemas, each of which describe a distinct typical scenario in terms of its relevant sub-event structure (what happens in the scenario), participants (who plays a role in the scenario), fine-grained typing of each participant, and the implied relational constraints between them. Our custom annotation interface, SchemaBlocks, and the event schemas are available online.
翻訳日:2021-04-20 14:41:26 公開日:2021-04-18
# 自然言語推論のためのフレキシブル操作

Flexible Operations for Natural Language Deduction ( http://arxiv.org/abs/2104.08825v1 )

ライセンス: Link先を確認
Kaj Bostrom, Xinyu Zhao, Swarat Chaudhuri, Greg Durrett(参考訳) 複雑なオープンドメイン推論のための解釈可能なシステムには、解釈可能な意味表現が必要である。 自然言語は優れた候補であり、非常に表現力があり、人間が理解しやすい。 しかし、論理的に一貫した方法で自然言語文を操作することは難しい。 モデルは正確で、情報の表現方法のバリエーションを扱うのに十分な堅牢さが必要です。 本稿では,自然言語入力の論理変換を人間の直接的監督なしに生成するモデル構築手法であるparapatternについて述べる。 我々は、BARTベースのモデル(Lewis et al., 2020)を用いて、1つ以上の前提文に特定の論理演算を適用する結果を生成する。 重要なことに、Wikipediaから適切なトレーニング例を抽出し、構築するための大部分が自動化されたパイプラインがあります。 対象とするコントラストセットと、qascデータセット(khot et al., 2020)からのドメイン外文合成を用いてモデルを評価する。 その結果,我々の操作モデルは正確かつ柔軟であることがわかった。

An interpretable system for complex, open-domain reasoning needs an interpretable meaning representation. Natural language is an excellent candidate -- it is both extremely expressive and easy for humans to understand. However, manipulating natural language statements in logically consistent ways is hard. Models have to be precise, yet robust enough to handle variation in how information is expressed. In this paper, we describe ParaPattern, a method for building models to generate logical transformations of diverse natural language inputs without direct human supervision. We use a BART-based model (Lewis et al., 2020) to generate the result of applying a particular logical operation to one or more premise statements. Crucially, we have a largely automated pipeline for scraping and constructing suitable training examples from Wikipedia, which are then paraphrased to give our models the ability to handle lexical variation. We evaluate our models using targeted contrast sets as well as out-of-domain sentence compositions from the QASC dataset (Khot et al., 2020). Our results demonstrate that our operation models are both accurate and flexible.
翻訳日:2021-04-20 14:41:09 公開日:2021-04-18
# ドメイン固有の洞察のための知識グラフアンカー情報抽出

Knowledge Graph Anchored InformationExtractio n for Domain-Specific Insights ( http://arxiv.org/abs/2104.08936v1 )

ライセンス: Link先を確認
Vivek Khetan, Annervaz K M, Erin Wetherley, Elena Eneva, Shubhashis Sengupta, and Andrew E. Fano(参考訳) データの量と複雑さの増加は、人間が情報を消費し、タイムリーに応答することの困難をもたらす。 急速に変化するルールや規制を持つドメインのビジネスにとって、変更の特定に失敗するのはコストがかかる可能性がある。 専門的な分析やドメイン固有のオントロジーや分類学の発展とは対照的に、新しいドメイン内の特定の情報のニーズを満たすためにタスクベースのアプローチを用いる。 具体的には、入力したインスタンスデータからタスクベースの情報を抽出することを提案する。 エンティティ抽出のためのバイ・LSTM-CRFモデル、アテンションベースディープセマンティックロールラベルリング、および自動動詞ベース関係抽出器を含む技術NLP技術の状態を構成したパイプラインを用いて、インスタンスレベルのセマンティック構造を自動的に抽出する。 各インスタンスは、新しいタイムリーな洞察を生成するために、より大きなドメイン固有の知識グラフと結合される。 手動で検証した予備結果は、特定の情報をエンドユースケースに抽出するのに有効な方法論を示している。

The growing quantity and complexity of data pose challenges for humans to consume information and respond in a timely manner. For businesses in domains with rapidly changing rules and regulations, failure to identify changes can be costly. In contrast to expert analysis or the development of domain-specific ontology and taxonomies, we use a task-based approach for fulfilling specific information needs within a new domain. Specifically, we propose to extract task-based information from incoming instance data. A pipeline constructed of state of the art NLP technologies, including a bi-LSTM-CRF model for entity extraction, attention-based deep Semantic Role Labeling, and an automated verb-based relationship extractor, is used to automatically extract an instance level semantic structure. Each instance is then combined with a larger, domain-specific knowledge graph to produce new and timely insights. Preliminary results, validated manually, show the methodology to be effective for extracting specific information to complete end use-cases.
翻訳日:2021-04-20 14:40:56 公開日:2021-04-18
# CLIPScore:イメージキャプションのための参照不要評価基準

CLIPScore: A Reference-free Evaluation Metric for Image Captioning ( http://arxiv.org/abs/2104.08718v1 )

ライセンス: Link先を確認
Jack Hessel, Ari Holtzman, Maxwell Forbes, Ronan Le Bras, Yejin Choi(参考訳) 画像キャプションは従来,人間が書いたキャプションと機械キャプションを比較した参照ベースの自動評価に頼っていた。 これは、人間がキャプションの品質を評価する基準のない方法とは対照的である。 本稿では,400m画像+キャプチャペアをwebから事前学習したクロスモーダルモデルである clip (radford et al., 2021) が,参照を必要とせずに画像キャプションのロバストな自動評価に利用可能であることを示す。 いくつかのコーパスにまたがる実験により、我々の新しい基準フリーメトリックであるCLIPScoreは、人間の判断と最も高い相関を達成し、CIDErやSPICEのような既存の基準ベースのメトリクスよりも優れています。 情報ゲイン実験により、CLIPScoreは画像とテキストの互換性に重点を置いており、テキストとテキストの類似性を強調する既存の基準ベースのメトリクスを補完することを示した。 また、RefCLIPScoreという参照拡張版も提示し、さらに高い相関性を実現する。 リテラル記述タスク以外にも、いくつかのケーススタディでは、clipscoreがうまく機能する領域(クリップアート画像、altテキスト格付け)が明らかにされているが、参照ベースのメトリクスと比較すると比較的弱い領域(例えば、より豊かな文脈知識を必要とするニュースキャプション)もある。

Image captioning has conventionally relied on reference-based automatic evaluations, where machine captions are compared against captions written by humans. This is in stark contrast to the reference-free manner in which humans assess caption quality. In this paper, we report the surprising empirical finding that CLIP (Radford et al., 2021), a cross-modal model pretrained on 400M image+caption pairs from the web, can be used for robust automatic evaluation of image captioning without the need for references. Experiments spanning several corpora demonstrate that our new reference-free metric, CLIPScore, achieves the highest correlation with human judgements, outperforming existing reference-based metrics like CIDEr and SPICE. Information gain experiments demonstrate that CLIPScore, with its tight focus on image-text compatibility, is complementary to existing reference-based metrics that emphasize text-text similarities. Thus, we also present a reference-augmented version, RefCLIPScore, which achieves even higher correlation. Beyond literal description tasks, several case studies reveal domains where CLIPScore performs well (clip-art images, alt-text rating), but also where it is relatively weaker vs reference-based metrics, e.g., news captions that require richer contextual knowledge.
翻訳日:2021-04-20 14:40:27 公開日:2021-04-18
# 病変誘発脱神経ネットワーク:医療画像と損傷検出を繋ぐ

Lesion-Inspired Denoising Network: Connecting Medical Image Denoising and Lesion Detection ( http://arxiv.org/abs/2104.08845v1 )

ライセンス: Link先を確認
Kecheng Chen, Kun Long, Yazhou Ren, Jiayu Sun and Xiaorong Pu(参考訳) 深層学習は,低品質な医用画像の難読化タスクと病変の検出タスクにおいて,それぞれ顕著なパフォーマンスを達成した。 しかし, 既存の低品質医用画像復号法は, 病変検出作業から切り離されている。 直観的には、分画画像の品質は病変検出精度に影響を与え、その分画性能に影響を及ぼす。 そこで本研究では,医療画像の復調性能と検出精度の両方を協調的に向上させる,医療画像復調フレームワークであるLesion-Inspireed Denoising Network(LIDnet)を提案する。 具体的には,既存の認知フレームワークに下流検出タスクのフィードバックを挿入し,マルチロス目標を共同学習することを提案する。 特徴地図全体から算出した知覚損失を用いる代わりに、病変検出タスクによって誘発される新しい知覚損失(roi)を用いて、これら2つのタスクをさらに結びつける。 フレームワーク全体の最適化を改善するために,LIDnetのカスタマイズした協調学習戦略を提案する。 臨床的有用性および画像特性を考慮して,提案したLIDnetの有効性を評価するために,低用量CT画像データセットを3つ使用した。 実験により, LIDnetを装着することにより, ベースライン法におけるノイズ検出と病変検出の両性能を著しく向上できることが示された。

Deep learning has achieved notable performance in the denoising task of low-quality medical images and the detection task of lesions, respectively. However, existing low-quality medical image denoising approaches are disconnected from the detection task of lesions. Intuitively, the quality of denoised images will influence the lesion detection accuracy that in turn can be used to affect the denoising performance. To this end, we propose a play-and-plug medical image denoising framework, namely Lesion-Inspired Denoising Network (LIDnet), to collaboratively improve both denoising performance and detection accuracy of denoised medical images. Specifically, we propose to insert the feedback of downstream detection task into existing denoising framework by jointly learning a multi-loss objective. Instead of using perceptual loss calculated on the entire feature map, a novel region-of-interest (ROI) perceptual loss induced by the lesion detection task is proposed to further connect these two tasks. To achieve better optimization for overall framework, we propose a customized collaborative training strategy for LIDnet. On consideration of clinical usability and imaging characteristics, three low-dose CT images datasets are used to evaluate the effectiveness of the proposed LIDnet. Experiments show that, by equipping with LIDnet, both of the denoising and lesion detection performance of baseline methods can be significantly improved.
翻訳日:2021-04-20 14:39:45 公開日:2021-04-18
# コンパクトな単語埋め込みテーブルによるニューラルマシン翻訳の改善

Improving Neural Machine Translation with Compact Word Embedding Tables ( http://arxiv.org/abs/2104.08677v1 )

ライセンス: Link先を確認
Krtin Kumar, Mehdi Rezagholizadeh, Yiu Sing Lau, Qun Liu(参考訳) 埋め込み行列は、入力トークンの数値表現を提供する神経自然言語処理(nlp)モデルの主要な構成要素である。\footnote{in this paper words and subwordsは \textit{tokens} と呼ばれ、 \textit{embedding} という用語は入力の埋め込みのみを意味する。 本稿では,ニューラルネットワーク翻訳(NMT)の文脈において,そのような行列の影響と有用性を分析する。 単語の埋め込みから構文情報や意味情報を抽出し、ランダムな埋め込みでNMTシステムを実行することは、最初に聞こえるほど有害ではないことを示す。 また,完全学習組込みによる限られたタスク固有の知識のみを組み込むことで,nmtシステムの性能が向上することを示す。 以上の結果から,NMTモデルは部分的にランダムな埋め込みで動作可能であることが示唆された。 このような構造を扱うということは、大きな埋め込みテーブルを格納する必要がなくなるため、最小限のメモリ要件を意味します。 我々は, { English} を {German} と { French} に翻訳する際の埋め込みを評価し, 圧縮率 5.3$x を達成した。 アーキテクチャがかなり小さいにもかかわらず、場合によっては、私たちのモデルは最先端のベースラインを上回ります。

Embedding matrices are key components in neural natural language processing (NLP) models that are responsible to provide numerical representations of input tokens.\footnote{In this paper words and subwords are referred to as \textit{tokens} and the term \textit{embedding} only refers to embeddings of inputs.} In this paper, we analyze the impact and utility of such matrices in the context of neural machine translation (NMT). We show that detracting syntactic and semantic information from word embeddings and running NMT systems with random embeddings is not as damaging as it initially sounds. We also show how incorporating only a limited amount of task-specific knowledge from fully-trained embeddings can boost the performance NMT systems. Our findings demonstrate that in exchange for negligible deterioration in performance, any NMT model can be run with partially random embeddings. Working with such structures means a minimal memory requirement as there is no longer need to store large embedding tables, which is a significant gain in industrial and on-device settings. We evaluated our embeddings in translating {English} into {German} and {French} and achieved a $5.3$x compression rate. Despite having a considerably smaller architecture, our models in some cases are even able to outperform state-of-the-art baselines.
翻訳日:2021-04-20 14:37:16 公開日:2021-04-18
# 変圧器における位置符号化変数の性能向上

Demystifying the Better Performance of Position Encoding Variants for Transformer ( http://arxiv.org/abs/2104.08698v1 )

ライセンス: Link先を確認
Pu-Chin Chen, Henry Tsai, Srinadh Bhojanapalli, Hyung Won Chung, Yin-Wen Chang, Chun-Sung Ferng(参考訳) トランスフォーマーは、与えられたベクトルの入力シーケンスをベクトルの出力シーケンスにマッピングするNLPのアートモデルの状態である。 しかし、これらのモデルは置換同変であり、入力への付加的な位置埋め込みを用いて入力トークンの順序に関する情報を提供する。 さらに、様々な種類の入力文を表すために追加のセグメント埋め込みが用いられるタスクもある。 近年、相対的な位置エンコーディングによる位置エンコーディングのバリエーションが提案され、性能が向上している。 本研究では,異なる位置エンコーディングを比較し,それらの性能の違いの理由を体系的に検討する。 位置とセグメントをトランスフォーマモデルにエンコードする,単純かつ効果的な方法を示す。 提案手法は,計算コストを削減しつつ,GLUE,XTREME,WMTベンチマーク上でSOTAと同等に動作する。

Transformers are state of the art models in NLP that map a given input sequence of vectors to an output sequence of vectors. However these models are permutation equivariant, and additive position embeddings to the input are used to supply the information about the order of the input tokens. Further, for some tasks, additional additive segment embeddings are used to denote different types of input sentences. Recent works proposed variations of positional encodings with relative position encodings achieving better performance. In this work, we do a systematic study comparing different position encodings and understanding the reasons for differences in their performance. We demonstrate a simple yet effective way to encode position and segment into the Transformer models. The proposed method performs on par with SOTA on GLUE, XTREME and WMT benchmarks while saving computation costs.
翻訳日:2021-04-20 14:36:55 公開日:2021-04-18
# 教師なし深層キーフレーズ生成

Unsupervised Deep Keyphrase Generation ( http://arxiv.org/abs/2104.08729v1 )

ライセンス: Link先を確認
Xianjie Shen, Yinghan Wang, Rui Meng, Jingbo Shang(参考訳) keyphrase生成は、長い文書を敬語句のコレクションにまとめることを目的としている。 ディープニューラルモデルは、このタスクにおいて顕著な成功を示し、文書から欠落するキーフレーズを予測することができる。 しかし、そのような抽象性は相当量の注釈データに犠牲を払って取得される。 本稿では,キーフレーズ生成のための新しい手法であるAutoKeyGenを提案する。 1つの文書に欠けているキーフレーズが他の場所に現れるという観察に動機づけられ、まず、コーパスにすべてのフレーズをプールしてフレーズバンクを構築します。 このフレーズバンクを用いて、各文書に候補のないキーフレーズを部分的マッチングプロセスで描画する。 両方の候補をランク付けするために、それらの語彙と意味レベルでの類似性を入力文書と組み合わせます。 さらに,これらの最上位候補を用いて,キーフレーズの欠落に対して深い生成モデルを学習する。 大規模な実験では、AutoKeyGenは教師なしのベースラインをすべて上回り、特定のケースで強力な教師付きメソッドを破ることさえできる。

Keyphrase generation aims to summarize long documents with a collection of salient phrases. Deep neural models have demonstrated a remarkable success in this task, capable of predicting keyphrases that are even absent from a document. However, such abstractiveness is acquired at the expense of a substantial amount of annotated data. In this paper, we present a novel method for keyphrase generation, AutoKeyGen, without the supervision of any human annotation. Motivated by the observation that an absent keyphrase in one document can appear in other places, in whole or in part, we first construct a phrase bank by pooling all phrases in a corpus. With this phrase bank, we then draw candidate absent keyphrases for each document through a partial matching process. To rank both types of candidates, we combine their lexical- and semantic-level similarities to the input document. Moreover, we utilize these top-ranked candidates as to train a deep generative model for more absent keyphrases. Extensive experiments demonstrate that AutoKeyGen outperforms all unsupervised baselines and can even beat strong supervised methods in certain cases.
翻訳日:2021-04-20 14:36:44 公開日:2021-04-18
# SimCSE: 文埋め込みの単純なコントラスト学習

SimCSE: Simple Contrastive Learning of Sentence Embeddings ( http://arxiv.org/abs/2104.08821v1 )

ライセンス: Link先を確認
Tianyu Gao, Xingcheng Yao, Danqi Chen(参考訳) 本稿では,最先端の文埋め込みを大幅に進歩させるシンプルなコントラスト学習フレームワークであるSimCSEを提案する。 まず, 標準ドロップアウトのみを雑音として使用しながら, 入力文を取り込んでコントラスト目的に自身を予測する教師なしアプローチについて述べる。 この単純な方法は驚くほどうまく機能し、以前の教師付きメソッドと同等に動作します。 ドロップアウトは最小限のデータ拡張として機能し、削除することで表現の崩壊につながると仮定する。 次に,自然言語推論(NLI)データセットからの文埋め込みの成功から着想を得て,NLIデータセットからの注釈付きペアを,正の"エンタテメント"ペアと強の"コントラディション"ペアを用いて比較学習に取り入れた。 我々は,SimCSEを標準的な意味的テキスト類似性(STS)タスクで評価し,BERTベースを用いた教師なしモデルと教師なしモデルでは,それぞれ74.5%と81.6%のSpearmanの相関が得られた。 また, コントラスト学習は, 事前学習した埋め込みの異方性空間をより均一に規則化し, 教師付き信号が利用できる場合の正のペアの整合性も向上することを示した。

This paper presents SimCSE, a simple contrastive learning framework that greatly advances the state-of-the-art sentence embeddings. We first describe an unsupervised approach, which takes an input sentence and predicts itself in a contrastive objective, with only standard dropout used as noise. This simple method works surprisingly well, performing on par with previous supervised counterparts. We hypothesize that dropout acts as minimal data augmentation and removing it leads to a representation collapse. Then, we draw inspiration from the recent success of learning sentence embeddings from natural language inference (NLI) datasets and incorporate annotated pairs from NLI datasets into contrastive learning by using "entailment" pairs as positives and "contradiction" pairs as hard negatives. We evaluate SimCSE on standard semantic textual similarity (STS) tasks, and our unsupervised and supervised models using BERT-base achieve an average of 74.5% and 81.6% Spearman's correlation respectively, a 7.9 and 4.6 points improvement compared to previous best results. We also show that contrastive learning theoretically regularizes pre-trained embeddings' anisotropic space to be more uniform, and it better aligns positive pairs when supervised signals are available.
翻訳日:2021-04-20 14:36:26 公開日:2021-04-18
# 測度伝播による深部クラスタリング

Deep Clustering with Measure Propagation ( http://arxiv.org/abs/2104.08967v1 )

ライセンス: Link先を確認
Minhua Chen, Badrinath Jayakumar, Padmasundari Gopalakrishnan, Qiming Huang, Michael Johnston, and Patrick Haffner(参考訳) ディープモデルは教師なしと教師なしの両方の学習の最先端を改善した。 例えば、深層クラスタリング(DEC)は、表現学習にスタックされたオートエンコーダを使用することで、教師なしクラスタリング性能を大幅に改善した。 しかし、深部モデリングの弱点の一つは、元の空間の局所的な近傍構造が潜在空間で必ずしも保存されないことである。 局所幾何学を保存するために、グラフラプラシアン正則化を用いた教師あり半教師あり学習文献(スペクトルクラスタリングやラベル伝播など)において様々な方法が提案されている。 本稿では,深層表現学習の強みと,半教師付きシナリオで当初用いられていたKL偏差グラフ正規化手法である測度伝搬(MP)を組み合わせる。 MPの主な仮定は、2つのデータポイントが元の空間に近接している場合、それらはクラスメンバーシップ分布のKL-発散によって測定された同じクラスに属する可能性が高いということである。 教師なし学習シナリオでも同様の仮定をとることで,測定伝搬(DECAMP)モデルによる深層埋め込みクラスタリングを提案する。 短文クラスタリングタスクにおけるDECAMPの評価を行う。 3つのパブリックデータセットで、decampは、クラスタリングプロセスで使われる単語埋め込みを生成するために追加データを使用するベースラインを含む、他の最先端のベースラインと競合する。 例えば、Stackoverflowデータセットでは、DECAMPのクラスタリング精度は79\%に達しており、これは既存のすべてのベースラインよりも約5\%高い。 これらの実験結果は、DECAMPが教師なし学習の非常に効果的な方法であることを示唆している。

Deep models have improved state-of-the-art for both supervised and unsupervised learning. For example, deep embedded clustering (DEC) has greatly improved the unsupervised clustering performance, by using stacked autoencoders for representation learning. However, one weakness of deep modeling is that the local neighborhood structure in the original space is not necessarily preserved in the latent space. To preserve local geometry, various methods have been proposed in the supervised and semi-supervised learning literature (e.g., spectral clustering and label propagation) using graph Laplacian regularization. In this paper, we combine the strength of deep representation learning with measure propagation (MP), a KL-divergence based graph regularization method originally used in the semi-supervised scenario. The main assumption of MP is that if two data points are close in the original space, they are likely to belong to the same class, measured by KL-divergence of class membership distribution. By taking the same assumption in the unsupervised learning scenario, we propose our Deep Embedded Clustering Aided by Measure Propagation (DECAMP) model. We evaluate DECAMP on short text clustering tasks. On three public datasets, DECAMP performs competitively with other state-of-the-art baselines, including baselines using additional data to generate word embeddings used in the clustering process. As an example, on the Stackoverflow dataset, DECAMP achieved a clustering accuracy of 79\%, which is about 5\% higher than all existing baselines. These empirical results suggest that DECAMP is a very effective method for unsupervised learning.
翻訳日:2021-04-20 14:36:00 公開日:2021-04-18
# 心理学の再現性危機から見た機械学習の展望

Perspectives on Machine Learning from Psychology's Reproducibility Crisis ( http://arxiv.org/abs/2104.08878v1 )

ライセンス: Link先を確認
Samuel J. Bell and Onno P. Kampman(参考訳) 2010年代初頭、再現性の危機が心理学の分野を揺るがした。 反省の期間を経て、この分野は科学的実践の急進的な改革に反応した。 さらに最近では、機械学習研究の再現性に関する同様の疑問も浮上している。 本稿では,心理学の改革から選択したアイデアを,機械学習のオーディエンスとの関連性に翻訳する。

In the early 2010s, a crisis of reproducibility rocked the field of psychology. Following a period of reflection, the field has responded with radical reform of its scientific practices. More recently, similar questions about the reproducibility of machine learning research have also come to the fore. In this short paper, we present select ideas from psychology's reformation, translating them into relevance for a machine learning audience.
翻訳日:2021-04-20 14:34:43 公開日:2021-04-18
# グラフニューラルネットワークと構造化空間を持つ偏極オンライングループにおけるIdeological Agenda設定とフラーミングのモデル化

Modeling Ideological Agenda Setting and Framing in Polarized Online Groups with Graph Neural Networks and Structured Sparsity ( http://arxiv.org/abs/2104.08829v1 )

ライセンス: Link先を確認
Valentin Hofmann, Janet B. Pierrehumbert, Hinrich Sch\"utze(参考訳) オンライン政治談話の分極化の高まりは、ソーシャルメディアにおけるイデオロギー的分割を自動的に検出し監視できる計算ツールを要求する。 本稿では,オンラインディスカッションフォーラム,特にRedditのネットワーク構造を直接活用して,偏光概念を検出する最小限の手法を提案する。 我々は、アジェンダの設定とフレーミングの次元に沿って偏極をモデル化し、道徳心理学からの洞察に基づく。 提案するアーキテクチャは,グラフニューラルネットワークと構造化された空間学習を組み合わせることで,イデオロギー的過激化やサブレディットハイジャックといった現象を捉える概念やサブレディットの表現を行う。 また、12年間にわたる政治談話の新しいデータセットを作成し、異なるイデオロギーを持つ600以上のオンライングループをカバーしています。

The increasing polarization of online political discourse calls for computational tools that are able to automatically detect and monitor ideological divides in social media. Here, we introduce a minimally supervised method that directly leverages the network structure of online discussion forums, specifically Reddit, to detect polarized concepts. We model polarization along the dimensions of agenda setting and framing, drawing upon insights from moral psychology. The architecture we propose combines graph neural networks with structured sparsity learning and results in representations for concepts and subreddits that capture phenomena such as ideological radicalization and subreddit hijacking. We also create a new dataset of political discourse spanning 12 years and covering more than 600 online groups with different ideologies.
翻訳日:2021-04-20 14:32:28 公開日:2021-04-18
# webデータを用いた回答文選択のための参照ベース弱監督

Reference-based Weak Supervision for Answer Sentence Selection using Web Data ( http://arxiv.org/abs/2104.08943v1 )

ライセンス: Link先を確認
Vivek Krishnamurthy, Thuy Vu, Alessandro Moschitti(参考訳) 回答文選択(AS2)モデリングには注釈付きデータ、すなわち手書きの質問-回答ペアが必要である。 本稿では,AS2 モデルの改良をめざして,質問に対する弱教師付き回答を収集する戦略を提案する。 具体的には,完全な自動大規模データパイプラインであるrws(reference-based weak supervision)を導入し,質問参照ペアのみを入力として要求する豊富なwebデータから,高品質な弱教師付き回答を抽出した。 本稿では,AS2を専門とする最近の最先端の微調整手法であるTANDAの設定におけるRWSの有効性とロバスト性について検討する。 我々の実験は、生成したデータが常にTANDAを支えていることを示している。 WikiQA では P@1, 90.1%, MAP 92.9% で芸術の状態を達成している。

Answer sentence selection (AS2) modeling requires annotated data, i.e., hand-labeled question-answer pairs. We present a strategy to collect weakly supervised answers for a question based on its reference to improve AS2 modeling. Specifically, we introduce Reference-based Weak Supervision (RWS), a fully automatic large-scale data pipeline that harvests high-quality weakly-supervised answers from abundant Web data requiring only a question-reference pair as input. We study the efficacy and robustness of RWS in the setting of TANDA, a recent state-of-the-art fine-tuning approach specialized for AS2. Our experiments indicate that the produced data consistently bolsters TANDA. We achieve the state of the art in terms of P@1, 90.1%, and MAP, 92.9%, on WikiQA.
翻訳日:2021-04-20 14:32:12 公開日:2021-04-18
# SurvNAM:機械学習サバイバルモデルの説明

SurvNAM: The machine learning survival model explanation ( http://arxiv.org/abs/2104.08903v1 )

ライセンス: Link先を確認
Lev V. Utkin and Egor D. Satyukov and Andrei V. Konstantinov(参考訳) ブラックボックス機械学習サバイバルモデルの予測を説明するために、SurvNAMと呼ばれるニューラル付加モデル(NAM)の新たな修正とその修正を提案する。 本手法は,生き残り分析の枠組みにおける説明問題に対する元のNAMの適用に基づく。 SurvNAMの背後にある基本的な考え方は、生存モデル予測の特異性を考慮した特定の損失関数を用いてネットワークをトレーニングすることであり、共変量の単純な線形関係の代わりによく知られた一般化加法モデル(GAM)を用いて、Cox比例ハザードモデルの拡張によりブラックボックスモデルを近似することに基づいている。 提案したSurvNAMは局所的およびグローバルな説明を行うことができる。 説明例の一連の例は、局所的な説明のためにランダムに生成される。 グローバル説明では、トレーニングデータセット全体を使用する。 提案したSurvNAMの修正は,GAMからの関数に対するLassoベースの正規化と,ショートカット接続として実装された重み付き線形および非線形部分を用いたGAM関数の特殊表現に基づく。 多くの数値実験でSurvNAMの効率が示されている。

A new modification of the Neural Additive Model (NAM) called SurvNAM and its modifications are proposed to explain predictions of the black-box machine learning survival model. The method is based on applying the original NAM to solving the explanation problem in the framework of survival analysis. The basic idea behind SurvNAM is to train the network by means of a specific expected loss function which takes into account peculiarities of the survival model predictions and is based on approximating the black-box model by the extension of the Cox proportional hazards model which uses the well-known Generalized Additive Model (GAM) in place of the simple linear relationship of covariates. The proposed method SurvNAM allows performing the local and global explanation. A set of examples around the explained example is randomly generated for the local explanation. The global explanation uses the whole training dataset. The proposed modifications of SurvNAM are based on using the Lasso-based regularization for functions from GAM and for a special representation of the GAM functions using their weighted linear and non-linear parts, which is implemented as a shortcut connection. A lot of numerical experiments illustrate the SurvNAM efficiency.
翻訳日:2021-04-20 14:30:40 公開日:2021-04-18
# 新しいドメインに対するスケッチ認識の訓練について

On Training Sketch Recognizers for New Domains ( http://arxiv.org/abs/2104.08850v1 )

ライセンス: Link先を確認
Kemal Tugrul Yesilbek, T. Metin Sezgin(参考訳) スケッチ認識アルゴリズムは,何年にもわたって,スケッチ認識コミュニティによって寄贈された公開データセットを用いて設計,評価されている。 既存のデータセットには、限られたジェネリックオブジェクトのスケッチが含まれているが、各新しいドメインは必然的に、ドメイン固有の認識器をトレーニングするための新しいデータを集める必要がある。 まず、データ収集プロトコルは、生態学的に有効なデータを生成するだろうか? 第二に、収集したデータ量が十分に正確な分類器を訓練するのに十分か? 本稿では,この2つの懸念に注意を向ける。 データ収集プロトコルの生態学的妥当性と小さなデータセットに対応する能力は、現実的なシナリオにおける認識者の精度に影響を与える重要な要因であることを示す。 より具体的には、スケッチベースのゲームをユースケースとして用いることで、より伝統的な方法と同様に、ディープラーニングの手法がデータセットのシフトに著しく苦しむことを示します。 さらに,データが少ない,費用がかかる現実的なシナリオでは,ディープラーニングを小さなデータセットに適応させるための標準的措置が,代替手段と好意的に比較できないことを実証する。 転送学習や広範なデータ拡張は深層学習者に役立つが、標準設定(svmsやgbmsなど)と比較しても、パフォーマンスは著しく低下する。 既存の文献の多くでは無視されている深部スケッチ認識分野において,小さなデータセットからの学習が重要な問題となっている。

Sketch recognition algorithms are engineered and evaluated using publicly available datasets contributed by the sketch recognition community over the years. While existing datasets contain sketches of a limited set of generic objects, each new domain inevitably requires collecting new data for training domain specific recognizers. This gives rise to two fundamental concerns: First, will the data collection protocol yield ecologically valid data? Second, will the amount of collected data suffice to train sufficiently accurate classifiers? In this paper, we draw attention to these two concerns. We show that the ecological validity of the data collection protocol and the ability to accommodate small datasets are significant factors impacting recognizer accuracy in realistic scenarios. More specifically, using sketch-based gaming as a use case, we show that deep learning methods, as well as more traditional methods, suffer significantly from dataset shift. Furthermore, we demonstrate that in realistic scenarios where data is scarce and expensive, standard measures taken for adapting deep learners to small datasets fall short of comparing favorably with alternatives. Although transfer learning, and extensive data augmentation help deep learners, they still perform significantly worse compared to standard setups (e.g., SVMs and GBMs with standard feature representations). We pose learning from small datasets as a key problem for the deep sketch recognition field, one which has been ignored in the bulk of the existing literature.
翻訳日:2021-04-20 14:28:02 公開日:2021-04-18
# 教師なしエンティティリンクのための低ランクサブスペース

Low-rank Subspaces for Unsupervised Entity Linking ( http://arxiv.org/abs/2104.08737v1 )

ライセンス: Link先を確認
Akhil Arora, Alberto Garcia-Duran, Robert West(参考訳) エンティティリンクは多くのアプリケーションにとって重要な問題です。 以前のほとんどのソリューションは、注釈付きトレーニングデータが利用可能な設定用に設計されているが、多くのドメインではそうではない。 本稿では,エンティティ名と参照知識ベースの可用性のみに依存する軽量でスケーラブルなエンティティリンク手法であるEigenthemesを提案する。 eigenthemesは、ドキュメントに真に言及されているエンティティ("金のエンティティ")が、ドキュメント内のすべての候補エンティティのセットの意味的に密接なサブセットを形成する傾向があるという事実を利用する。 幾何学的に言えば、与えられた埋め込みを通じて実体をベクトルとして表現するとき、金の実体は全埋め込み空間の低ランク部分空間に置かれる傾向がある。 固有テーマは特異値分解を用いてこの部分空間を識別し、その部分空間に近接して候補実体をスコアする。 実証的な面では,既存の最先端技術と比較して,複数の強靭なベースラインを導入する。 様々な実世界ドメインのベンチマークデータセットに関する広範囲な実験は、このアプローチの有効性を示している。

Entity linking is an important problem with many applications. Most previous solutions were designed for settings where annotated training data is available, which is, however, not the case in numerous domains. We propose a light-weight and scalable entity linking method, Eigenthemes, that relies solely on the availability of entity names and a referent knowledge base. Eigenthemes exploits the fact that the entities that are truly mentioned in a document (the "gold entities") tend to form a semantically dense subset of the set of all candidate entities in the document. Geometrically speaking, when representing entities as vectors via some given embedding, the gold entities tend to lie in a low-rank subspace of the full embedding space. Eigenthemes identifies this subspace using the singular value decomposition and scores candidate entities according to their proximity to the subspace. On the empirical front, we introduce multiple strong baselines that compare favorably to the existing state of the art. Extensive experiments on benchmark datasets from a variety of real-world domains showcase the effectiveness of our approach.
翻訳日:2021-04-20 14:25:21 公開日:2021-04-18
# 非凸強凹min-max最適化における複雑性下限

Complexity Lower Bounds for Nonconvex-Strongly-C oncave Min-Max Optimization ( http://arxiv.org/abs/2104.08708v1 )

ライセンス: Link先を確認
Haochuan Li, Yi Tian, Jingzhao Zhang, Ali Jadbabaie(参考訳) 目的関数が滑らかで、最小化変数が非凸で、最大化変数が強凹であるmin-max最適化問題の定常点を見つけるために、oracleの1階の複雑性を低く抑える。 我々は、決定論的オラクルに対して$\Omega\left(\sqrt{\kappa}\epsilon^{-2}\right)$の下位境界を確立し、$\epsilon$は近似定常性のレベルを定義し、$\kappa$は条件番号である。 解析の結果, (lin et al., 2020b) で達成される上限は, 対数因子に対する $\epsilon$ と $\kappa$ の順に最適であることが判明した。 確率的オラクルに対しては、$\Omega\left(\sqrt{\kappa}\epsilon^{-2} + \kappa^{1/3}\epsilon^{-4}\right)$を下限とする。 これは、上界$\mathcal{O}(\kappa^3 \epsilon^{-4})$ in (Lin et al., 2020a) と条件数依存性の下位境界との間に大きなギャップがあることを示唆している。

We provide a first-order oracle complexity lower bound for finding stationary points of min-max optimization problems where the objective function is smooth, nonconvex in the minimization variable, and strongly concave in the maximization variable. We establish a lower bound of $\Omega\left(\sqrt{\kappa}\epsilon^{-2}\right)$ for deterministic oracles, where $\epsilon$ defines the level of approximate stationarity and $\kappa$ is the condition number. Our analysis shows that the upper bound achieved in (Lin et al., 2020b) is optimal in the $\epsilon$ and $\kappa$ dependence up to logarithmic factors. For stochastic oracles, we provide a lower bound of $\Omega\left(\sqrt{\kappa}\epsilon^{-2} + \kappa^{1/3}\epsilon^{-4}\right)$. It suggests that there is a significant gap between the upper bound $\mathcal{O}(\kappa^3 \epsilon^{-4})$ in (Lin et al., 2020a) and our lower bound in the condition number dependence.
翻訳日:2021-04-20 14:21:29 公開日:2021-04-18
# 協会によるガイダンス:語彙表現における感情強度

Guilt by Association: Emotion Intensities in Lexical Representations ( http://arxiv.org/abs/2104.08679v1 )

ライセンス: Link先を確認
Shahab Raji, Gerard de Melo(参考訳) 単語ベクトル表現は、単語に関連する感情について何を明らかにするか? 本研究では,特定の感情に対する単語レベルの感情インテンシティスコアを推定し,教師なし,教師なし,最終的に単語ベクトル表現から感情関連を抽出する自己教師あり手法を検討する。 全体として, 単語ベクトルは, 感情の微粒化を誘発する大きな可能性を秘めており, 現状の感情レキシコンよりも, 人間の地上の真実評価との相関がはるかに高いことが判明した。

What do word vector representations reveal about the emotions associated with words? In this study, we consider the task of estimating word-level emotion intensity scores for specific emotions, exploring unsupervised, supervised, and finally a self-supervised method of extracting emotional associations from word vector representations. Overall, we find that word vectors carry substantial potential for inducing fine-grained emotion intensity scores, showing a far higher correlation with human ground truth ratings than achieved by state-of-the-art emotion lexicons.
翻訳日:2021-04-20 14:11:08 公開日:2021-04-18
# パラメータ効率の良いプロンプトチューニングのためのスケールのパワー

The Power of Scale for Parameter-Efficient Prompt Tuning ( http://arxiv.org/abs/2104.08691v1 )

ライセンス: Link先を確認
Brian Lester, Rami Al-Rfou, Noah Constant(参考訳) 本研究では,特定のダウンストリームタスクを実行するために,凍った言語モデルに"ソフトプロンプト"を学習するための,シンプルかつ効果的なメカニズムである"prompt tuning"について検討する。 GPT-3で使われる離散テキストプロンプトとは異なり、ソフトプロンプトはバックプロパゲーションを通じて学習され、ラベル付きサンプルの任意の信号を取り込むように調整することができる。 我々のエンドツーエンドの学習アプローチは、GPT-3の「ファウショット」学習を大きなマージンで上回ります。 さらに, t5を用いたモデルサイズのアブレーションにより, モデルが数十億のパラメータを超えると, モデルチューニングの強力な性能(すべてのモデルウェイトがチューニングされる)と一致し, モデルチューニングが"ギャップを閉じる"。 この発見は、大きなモデルを共有するのにコストがかかり、複数のダウンストリームタスクで1つの凍結したモデルを再利用できることで、この負担を軽減できるという点で特に関係しています。 本手法は,最近提案されているliとliangの"prefix tuning"(2021年)を単純化したものと考えられる。 最後に, ソフトプロンプトによる凍結モデル条件付けは, フルモデルチューニングと比較して, ドメイン転送に対するロバスト性を示すことを示す。

In this work, we explore "prompt tuning", a simple yet effective mechanism for learning "soft prompts" to condition frozen language models to perform specific downstream tasks. Unlike the discrete text prompts used by GPT-3, soft prompts are learned through backpropagation and can be tuned to incorporate signal from any number of labeled examples. Our end-to-end learned approach outperforms GPT-3's "few-shot" learning by a large margin. More remarkably, through ablations on model size using T5, we show that prompt tuning becomes more competitive with scale: as models exceed billions of parameters, our method "closes the gap" and matches the strong performance of model tuning (where all model weights are tuned). This finding is especially relevant in that large models are costly to share and serve, and the ability to reuse one frozen model for multiple downstream tasks can ease this burden. Our method can be seen as a simplification of the recently proposed "prefix tuning" of Li and Liang (2021), and we provide a comparison to this and other similar approaches. Finally, we show that conditioning a frozen model with soft prompts confers benefits in robustness to domain transfer, as compared to full model tuning.
翻訳日:2021-04-20 14:10:58 公開日:2021-04-18
# mT6: 翻訳ペア付き多言語事前学習テキスト変換器

mT6: Multilingual Pretrained Text-to-Text Transformer with Translation Pairs ( http://arxiv.org/abs/2104.08692v1 )

ライセンス: Link先を確認
Zewen Chi, Li Dong, Shuming Ma, Shaohan Huang Xian-Ling Mao, Heyan Huang, Furu Wei(参考訳) 多言語t5(mt5)は、大量の単言語テキストのシーケンスからシーケンスまでのモデルを事前学習し、多くの言語横断タスクで有望な結果を示している。 本稿では,翻訳ペアを用いた多言語テキスト間変換器(mT6)を改良する。 具体的には,機械翻訳,翻訳ペアスパン破壊,翻訳スパン破壊という3つの言語間事前学習タスクについて検討した。 さらに,テキストからテキストへの事前学習のための部分的非自己回帰的目標を提案する。 文分類、名前付きエンティティ認識、質問応答、抽象的な要約を含む7つの多言語ベンチマークデータセットの手法を評価する。 実験の結果,mT6はmT5よりも舌間移動性が向上することがわかった。

Multilingual T5 (mT5) pretrains a sequence-to-sequence model on massive monolingual texts, which has shown promising results on many cross-lingual tasks. In this paper, we improve multilingual text-to-text transfer Transformer with translation pairs (mT6). Specifically, we explore three cross-lingual text-to-text pre-training tasks, namely, machine translation, translation pair span corruption, and translation span corruption. In addition, we propose a partially non-autoregressive objective for text-to-text pre-training. We evaluate the methods on seven multilingual benchmark datasets, including sentence classification, named entity recognition, question answering, and abstractive summarization. Experimental results show that the proposed mT6 improves cross-lingual transferability over mT5.
翻訳日:2021-04-20 14:10:33 公開日:2021-04-18
# プリトレーニングトランスフォーマーにおけるナレッジニューロン

Knowledge Neurons in Pretrained Transformers ( http://arxiv.org/abs/2104.08696v1 )

ライセンス: Link先を確認
Damai Dai, Li Dong, Yaru Hao, Zhifang Sui, Furu Wei(参考訳) 大規模事前学習言語モデルは、トレーニングコーパスで提示された事実的知識を思い出すのに驚くほど優れている。 本稿では,知識ニューロンの概念を導入して,暗黙の知識を事前学習したトランスフォーマーに格納する方法を検討する。 関係性のある事実を仮定し、その事実を表現するニューロンを識別するための知識帰属法を提案する。 これらの知識ニューロンの活性化は,それらの事実の発現と高い相関関係にあると考えられる。 さらに、微調整がなくても、知識ニューロンを利用して、事前訓練されたトランスフォーマーに対して、特定の事実知識を明示的に編集(更新、消去)することができる。

Large-scale pretrained language models are surprisingly good at recalling factual knowledge presented in the training corpus. In this paper, we explore how implicit knowledge is stored in pretrained Transformers by introducing the concept of knowledge neurons. Given a relational fact, we propose a knowledge attribution method to identify the neurons that express the fact. We present that the activation of such knowledge neurons is highly correlated to the expression of their corresponding facts. In addition, even without fine-tuning, we can leverage knowledge neurons to explicitly edit (such as update, and erase) specific factual knowledge for pretrained Transformers.
翻訳日:2021-04-20 14:10:20 公開日:2021-04-18
# リッチ自然言語理解のためのインテント機能

Intent Features for Rich Natural Language Understanding ( http://arxiv.org/abs/2104.08701v1 )

ライセンス: Link先を確認
Brian Lester, Sagnik Ray Choudhury, Rashmi Prasad, Srinivas Bangalore(参考訳) ダイアログシステムにおける複雑な自然言語理解モジュールは、ユーザの発話をより深く理解しているため、より良いユーザエクスペリエンスを提供する上で重要である。 しかしながら、これらのモデルはしばしば、特定のクライアントやユースケースのためにスクラッチから作成され、大きなデータセットのアノテーションを必要とする。 これにより、複数のクライアント間でアノテーション付きデータの共有が促進される。 これを容易にするために,本論文では,目的のドメインとトピックの非依存的特性を,統語的手がかりからのみ学習し,したがって共有することができる,という意図的特徴の考え方を紹介した。 本稿では,分散された多目的自然言語理解モジュールにおいて,これらの特徴を識別するための強力なベースラインよりも大きな改善を示す,新たなニューラルネットワークアーキテクチャであるglobal-local modelを導入する。

Complex natural language understanding modules in dialog systems have a richer understanding of user utterances, and thus are critical in providing a better user experience. However, these models are often created from scratch, for specific clients and use cases, and require the annotation of large datasets. This encourages the sharing of annotated data across multiple clients. To facilitate this we introduce the idea of intent features: domain and topic agnostic properties of intents that can be learned from the syntactic cues only, and hence can be shared. We introduce a new neural network architecture, the Global-Local model, that shows significant improvement over strong baselines for identifying these features in a deployed, multi-intent natural language understanding module, and, more generally, in a classification setting where a part of an utterance has to be classified utilizing the whole context.
翻訳日:2021-04-20 14:10:12 公開日:2021-04-18
# REALMを改善するためのシンプルで効率的な方法

Simple and Efficient ways to Improve REALM ( http://arxiv.org/abs/2104.08710v1 )

ライセンス: Link先を確認
Vidhisha Balachandran, Ashish Vaswani, Yulia Tsvetkov, Niki Parmar(参考訳) ダンス検索は, BM25のようなスパース検索手法を超越して, オープンドメインQAの関連文書の検索に有効であることが示されている。 REALM (Guu et al., 2020) は、MLMに基づく事前学習に依存し、複数のデータセットにわたる下流QA効率を改善する。 各種QAタスクにおけるREALMの微調整について検討し、様々なハイパーパラメータと監督選択の限界について検討する。 その結果,REALMはトレーニング,監督,推論の簡易な改良により,QA結果に有意な利益をもたらし,他のモデルの性能を上回った。 私たちの最高のモデルであるREALM++は、すべての最高の動作結果を導入し、モデル設計の変更なしにベースライン(約5.5%の絶対精度)よりも大幅にQA精度の向上を実現しています。 さらにREALM++は、セットアップの効率を示す3倍のパラメータを持つ大規模なOpen Domain QAモデルのパフォーマンスと一致します。

Dense retrieval has been shown to be effective for retrieving relevant documents for Open Domain QA, surpassing popular sparse retrieval methods like BM25. REALM (Guu et al., 2020) is an end-to-end dense retrieval system that relies on MLM based pretraining for improved downstream QA efficiency across multiple datasets. We study the finetuning of REALM on various QA tasks and explore the limits of various hyperparameter and supervision choices. We find that REALM was significantly undertrained when finetuning and simple improvements in the training, supervision, and inference setups can significantly benefit QA results and exceed the performance of other models published post it. Our best model, REALM++, incorporates all the best working findings and achieves significant QA accuracy improvements over baselines (~5.5% absolute accuracy) without any model design changes. Additionally, REALM++ matches the performance of large Open Domain QA models which have 3x more parameters demonstrating the efficiency of the setup.
翻訳日:2021-04-20 14:09:58 公開日:2021-04-18
# embedd-enhanced giza++:embedd space geometryを用いた低・高リソースシナリオのアライメント改善

Embedding-Enhanced Giza++: Improving Alignment in Low- and High- Resource Scenarios Using Embedding Space Geometry ( http://arxiv.org/abs/2104.08721v1 )

ライセンス: Link先を確認
Kelly Marchisio, Conghao Xiong, and Philipp Koehn(参考訳) 数十年前に人気の自然言語処理タスクである単語アライメントは、30年前のIBMモデルに基づく統計手法であるGIZA++によって最近まで支配されていた。 近年ではGiza++のパフォーマンスが向上したが、新しい手法は主に大規模な機械翻訳モデル、多言語言語モデル、あるいはGiza++アライメント自体の監督に依存している。 Embedding-Enhanced Giza++を紹介します。 ソースとターゲット言語の単一言語埋め込み空間幾何を活用することで、3つの言語のテストシナリオ毎にGiza++のパフォーマンスを上回ります。 わずか500行のbitextの最小リソースシナリオでは、10.9 AERでGiza++のパフォーマンスを改善する。 5億行から190万行のbitextでテストされたシナリオでは,giza++を単調に上回っている。 私たちのコードは公開されます。

A popular natural language processing task decades ago, word alignment has been dominated until recently by GIZA++, a statistical method based on the 30-year-old IBM models. Though recent years have finally seen Giza++ performance bested, the new methods primarily rely on large machine translation models, massively multilingual language models, or supervision from Giza++ alignments itself. We introduce Embedding-Enhanced Giza++, and outperform Giza++ without any of the aforementioned factors. Taking advantage of monolingual embedding space geometry of the source and target language only, we exceed Giza++'s performance in every tested scenario for three languages. In the lowest-resource scenario of only 500 lines of bitext, we improve performance over Giza++ by 10.9 AER. Our method scales monotonically outperforming Giza++ for all tested scenarios between 500 and 1.9 million lines of bitext. Our code will be made publicly available.
翻訳日:2021-04-20 14:09:40 公開日:2021-04-18
# 抽出・復調・強制:条件付きテキスト生成のための語彙制約の評価・予測

Extract, Denoise, and Enforce: Evaluating and Predicting Lexical Constraints for Conditional Text Generation ( http://arxiv.org/abs/2104.08724v1 )

ライセンス: Link先を確認
Yuning Mao, Wenchang Ma, Deren Lei, Xiang Ren(参考訳) 近年,プレトレーニング言語モデル (PLM) が条件付きテキスト生成タスクを支配している。 PLMの性能と有病率を考えると、彼らは入力に何を参加すべきか、セク2セック学習を通じて出力に何を組み込むべきかを、トレーニングのインプット/アウトプットペアよりもガイダンスなしで知ることができると仮定することは自然である。 しかし、上記の前提に関する厳密な研究はまだ欠落している。 本稿では,条件付き生成の体系的分析を行い,現在のplmが入力における重要な概念の保存に十分であるか,語彙制約付き生成をいかに明確に導くかを検討する。 我々は,条件付き生成タスクの広範囲な分析実験を行い,語彙制約付き生成を導くシナリオとその理由について考察する。 次に,制約の自動抽出,推論,強制のためのフレームワークを提案する。 特定のタスクやデータセットに対して明示的な制約を使用することが適切かどうかを判断する上で、私たちの発見が参考になることを期待しています。

Recently, pre-trained language models (PLMs) have dominated conditional text generation tasks. Given the impressive performance and prevalence of the PLMs, it is seemingly natural to assume that they could figure out what to attend to in the input and what to include in the output via seq2seq learning without more guidance than the training input/output pairs. However, a rigorous study regarding the above assumption is still lacking. In this paper, we present a systematic analysis of conditional generation to study whether current PLMs are good enough for preserving important concepts in the input and to what extent explicitly guiding generation with lexical constraints is beneficial. We conduct extensive analytical experiments on a range of conditional generation tasks and try to answer in what scenarios guiding generation with lexical constraints works well and why. We then propose a framework for automatic constraint extraction, denoising, and enforcement that is shown to perform comparably or better than unconstrained generation. We hope that our findings could serve as a reference when determining whether it is appropriate and worthwhile to use explicit constraints for a specific task or dataset.\footnote{Our code is available at \url{https://github.com/m orningmoni/LCGen-eva l}.}
翻訳日:2021-04-20 14:09:24 公開日:2021-04-18
# AmericasNLI: 完全低リソース言語における事前訓練された多言語モデルのゼロショット自然言語理解の評価

AmericasNLI: Evaluating Zero-shot Natural Language Understanding of Pretrained Multilingual Models in Truly Low-resource Languages ( http://arxiv.org/abs/2104.08726v1 )

ライセンス: Link先を確認
Abteen Ebrahimi, Manuel Mager, Arturo Oncevay, Vishrav Chaudhary, Luis Chiruzzo, Angela Fan, John Ortega, Ricardo Ramos, Annette Rios, Ivan Vladimir, Gustavo A. Gim\'enez-Lugo, Elisabeth Mager, Graham Neubig, Alexis Palmer, Rolando A. Coto Solano, Ngoc Thang Vu and Katharina Kann(参考訳) 事前学習中に見つからない言語であっても、事前訓練された多言語モデルはゼロショット設定で言語間移動を行うことができる。 しかし、未確認言語の性能を評価する以前の作業は、ほとんど低レベルな構文的タスクに限られており、未確認言語で高レベルなセマンティックタスクのゼロショット学習が可能かどうかは不明である。 この問題を探求するため、XNLI(Conneau et al., 2018)をアメリカ大陸の10の先住民言語に拡張したAmericesNLIを紹介した。 我々はXLM-Rで実験を行い、複数のゼロショットと翻訳に基づくアプローチをテストする。 さらに,事前学習の継続を通じてモデル適応を探索し,仮説のみを考慮に入れてデータセットの解析を行う。 xlm-rのゼロショット性能は10言語すべてで貧弱であり、平均パフォーマンスは38.62%である。 継続事前訓練は平均44.05%の精度で改善されている。 驚くべきことに、低翻訳データのトレーニングは48.72%の精度で他の方法よりも優れている。

Pretrained multilingual models are able to perform cross-lingual transfer in a zero-shot setting, even for languages unseen during pretraining. However, prior work evaluating performance on unseen languages has largely been limited to low-level, syntactic tasks, and it remains unclear if zero-shot learning of high-level, semantic tasks is possible for unseen languages. To explore this question, we present AmericasNLI, an extension of XNLI (Conneau et al., 2018) to 10 indigenous languages of the Americas. We conduct experiments with XLM-R, testing multiple zero-shot and translation-based approaches. Additionally, we explore model adaptation via continued pretraining and provide an analysis of the dataset by considering hypothesis-only models. We find that XLM-R's zero-shot performance is poor for all 10 languages, with an average performance of 38.62%. Continued pretraining offers improvements, with an average accuracy of 44.05%. Surprisingly, training on poorly translated data by far outperforms all other methods with an accuracy of 48.72%.
翻訳日:2021-04-20 14:09:05 公開日:2021-04-18
# 対話システムにおけるペルソナバイアスの探索

Revealing Persona Biases in Dialogue Systems ( http://arxiv.org/abs/2104.08728v1 )

ライセンス: Link先を確認
Emily Sheng, Josh Arnold, Zhou Yu, Kai-Wei Chang, Nanyun Peng(参考訳) チャットボットやパーソナルアシスタントのような対話システムは、人々の生活にますます統合されている。 これらの対話システムは、しばしば、社会的な人口動態を模倣して、より親しみやすく、信頼できるように見せかけることができる。 しかしながら、ペルソナの採用はバイアスの導入につながる可能性がある。 我々は、人格バイアスを、異なる集団的ペルソナを採用することによって生じるテキストの有害な相違(例えば、様々な攻撃性や偏見のある発言の肯定)として定義する。 本稿では,対話システムにおけるパーソナリティバイアスに関する最初の大規模研究を行い,異なる社会階級,性的指向,人種,性別のパーソナリティの分析を行う。 さらに,対話システムにおける微妙なペルソナバイアスを探索・集約するオープンソースフレームワークであるUnitPersonaBiasを導入する。 本稿では,Blender と DialoGPT の対話システムについて検討し,ペルソナの選択が生成した応答の害度に影響を及ぼすことを示した。 さらに、より多様で歴史的に辺境化された人口階層のペルソナの採用は、最も有害な反応を減少させるように見える。

Dialogue systems in the form of chatbots and personal assistants are being increasingly integrated into people's lives. These dialogue systems often have the ability to adopt an anthropomorphic persona, mimicking a societal demographic to appear more approachable and trustworthy to users. However, the adoption of a persona can result in the adoption of biases. We define persona biases as harmful differences in text (e.g., varying levels of offensiveness or affirmations of biased statements) generated from adopting different demographic personas. In this paper, we present the first large-scale study on persona biases in dialogue systems and conduct analyses on personas of different social classes, sexual orientations, races, and genders. Furthermore, we introduce an open-source framework, UnitPersonaBias, a tool to explore and aggregate subtle persona biases in dialogue systems. In our studies of the Blender and DialoGPT dialogue systems, we show that the choice of personas can affect the degree of harms in generated responses. Additionally, adopting personas of more diverse, historically marginalized demographics appears to decrease harmful responses the most.
翻訳日:2021-04-20 14:08:47 公開日:2021-04-18
# 読み書きのためのインスタンスバンドルによる学習

Learning with Instance Bundles for Reading Comprehension ( http://arxiv.org/abs/2104.08735v1 )

ライセンス: Link先を確認
Dheeru Dua, Pradeep Dasigi, Sameer Singh, Matt Gardner(参考訳) 現代の読解モデルを訓練する場合、文脈に関連するすべての質問は互いに独立したものとして扱われる。 しかし、密接な関係のある質問とその答えは独立ではなく、これらの関係を利用してモデルに強い監督信号を与えることができる。 コントラスト推定からのアイデアを参考に,複数の関連インスタンス間で質問応答スコアを比較する新しい監督手法をいくつか紹介する。 具体的には、これらのスコアを、厳密な比較質問や回答の様々な近傍にまたがって正規化し、従来の最大確率推定に加えて、別のクロスエントロピー損失項を追加する。 既存のデータから抽出するか、あるいは様々な自動ヒューリスティックを使って生成することができる。 2つのデータセット - ホットポタカとロープ - のインスタンスバンドルによるトレーニングの効果を実証的に実証し、精度の絶対値が11%に達することを示した。

When training most modern reading comprehension models, all the questions associated with a context are treated as being independent from each other. However, closely related questions and their corresponding answers are not independent, and leveraging these relationships could provide a strong supervision signal to a model. Drawing on ideas from contrastive estimation, we introduce several new supervision techniques that compare question-answer scores across multiple related instances. Specifically, we normalize these scores across various neighborhoods of closely contrasting questions and/or answers, adding another cross entropy loss term that is used in addition to traditional maximum likelihood estimation. Our techniques require bundles of related question-answer pairs, which we can either mine from within existing data or create using various automated heuristics. We empirically demonstrate the effectiveness of training with instance bundles on two datasets -- HotpotQA and ROPES -- showing up to 11% absolute gains in accuracy.
翻訳日:2021-04-20 14:08:28 公開日:2021-04-18
# CEAR:知識ベース補完のためのクロスエンティティAware Reranker

CEAR: Cross-Entity Aware Reranker for Knowledge Base Completion ( http://arxiv.org/abs/2104.08741v1 )

ライセンス: Link先を確認
Keshav Kolluru, Mayank Singh Chauhan, Yatin Nandwani, Parag Singla and Mausam(参考訳) BERTのような事前訓練された言語モデル(LM)は、世界に関する現実的な知識を格納することを示した。 この知識は、不完全である傾向がある知識ベースに存在する情報を強化するのに使うことができる。 しかし、知識ベースコンプリート(KBC)タスクにBERTを使用する以前の試みは、グラフ構造のみに依存する埋め込みベースのテクニックよりもパフォーマンスが悪くなった。 本研究では,BERT を用いて既存の KBC モデルの出力を再ランクする新しいモデルである Cross-Entity Aware Reranker (CEAR) を開発する。 個々のエンティティを独立してスコアする以前の作業とは異なり、CEARはBERTを使用してエンティティをスコアリングする。 CEARは、FB15k-237の42.6 HITS@1(32.7%の相対的な改善)とオープンリンク予測のHITS@1の5.3 ptの改善により、新しい技術性能を確立している。

Pre-trained language models (LMs) like BERT have shown to store factual knowledge about the world. This knowledge can be used to augment the information present in Knowledge Bases, which tend to be incomplete. However, prior attempts at using BERT for task of Knowledge Base Completion (KBC) resulted in performance worse than embedding based techniques that rely only on the graph structure. In this work we develop a novel model, Cross-Entity Aware Reranker (CEAR), that uses BERT to re-rank the output of existing KBC models with cross-entity attention. Unlike prior work that scores each entity independently, CEAR uses BERT to score the entities together, which is effective for exploiting its factual knowledge. CEAR establishes a new state of the art performance with 42.6 HITS@1 in FB15k-237 (32.7% relative improvement) and 5.3 pt improvement in HITS@1 for Open Link Prediction.
翻訳日:2021-04-20 14:08:16 公開日:2021-04-18
# Go Forth and Prosper: 古代のテクスト史を用いた言語モデリング

Go Forth and Prosper: Language Modeling with Ancient Textual History ( http://arxiv.org/abs/2104.08742v1 )

ライセンス: Link先を確認
Rik Koncel-Kedziorski and Noah A. Smith(参考訳) 本稿では,lmの現在のコンテキストウィンドウの外にあるテキストである「古履歴」を活用して,文書レベル言語モデル(lm)を改善する手法を紹介する。 我々は、LMが将来のテキストを予測するのに役立つ古代史からスパンを選択する補助関数を学習する。 選択されたテキストスパンはLMのコンテキストウィンドウに直接コピーされ、予測の少ないスパンを置き換える。 この方法は、LMのパラメータを更新することなく、事前訓練されたLMのパープレキシティを改善することができる。 さらに、wikipediaのような特定のテキストドメインで訓練された補助関数は、科学出版物のような実質的に異なるドメインでも動作することも観察する。 この技術により、Wikipediaの記事では7%の難読度が減少し、科学論文では12%の難読度が減少する。

We introduce a technique for improving document-level language models (LM) by leveraging "ancient history": text that is outside the LM's current context window. We learn an auxiliary function to select spans from the ancient history which can help the LM to predict future text. The selected text spans are then copied directly into the LM's context window, replacing less predictive spans. This method can improve perplexity of pretrained LMs with no updates to the LM's own parameters. We further observe that an auxiliary function trained in a specific textual domain like Wikipedia will also work in a substantially different domain such as scientific publications. With this technique we see a 7 percent perplexity reduction on Wikipedia articles, and a 12 percent perplexity reduction on scientific texts.
翻訳日:2021-04-20 14:07:56 公開日:2021-04-18
# マルチホップ質問応答のための生成文脈ペア選択

Generative Context Pair Selection for Multi-hop Question Answering ( http://arxiv.org/abs/2104.08744v1 )

ライセンス: Link先を確認
Dheeru Dua, Cicero Nogueira dos Santos, Patrick Ng, Ben Athiwaratkun, Bing Xiang, Matt Gardner, Sameer Singh(参考訳) マルチホップ質問応答のような構成的推論タスクは、質問に対して最終回答を得るために潜在的な決定をする必要がある。 しかし、クラウドソーシングされたデータセットは、しばしば基礎となるタスク分散のスライスのみをキャプチャし、構成推論を実行するモデルに予期せぬバイアスを誘発する。 さらに、差別的に訓練されたモデルは、問題表現(条件変数)に注意を払って答えの確率を見積もる必要がないため、正しい推論方法を学ぶことなく、そのようなバイアスを利用してより良い保留性能を得る。 本研究では,与えられた質問がコンテキストペアによってどのように生成されたかという理由について,マルチホップ質問に対する生成コンテキスト選択モデルを提案する。 提案手法は最先端の解答性能に匹敵するが,提案手法では,モデルのマルチホップ推論能力のロバスト性を検証した対向ホールトアウトセットに対して,より優れた性能(ベースラインよりも4.9%高い)を示す。

Compositional reasoning tasks like multi-hop question answering, require making latent decisions to get the final answer, given a question. However, crowdsourced datasets often capture only a slice of the underlying task distribution, which can induce unanticipated biases in models performing compositional reasoning. Furthermore, discriminatively trained models exploit such biases to get a better held-out performance, without learning the right way to reason, as they do not necessitate paying attention to the question representation (conditioning variable) in its entirety, to estimate the answer likelihood. In this work, we propose a generative context selection model for multi-hop question answering that reasons about how the given question could have been generated given a context pair. While being comparable to the state-of-the-art answering performance, our proposed generative passage selection model has a better performance (4.9% higher than baseline) on adversarial held-out set which tests robustness of model's multi-hop reasoning capabilities.
翻訳日:2021-04-20 14:07:46 公開日:2021-04-18
# 多言語プリトレーニングエンコーダを用いた神経機械翻訳のゼロショットクロスリンガル伝達

Zero-shot Cross-lingual Transfer of Neural Machine Translation with Multilingual Pretrained Encoders ( http://arxiv.org/abs/2104.08757v1 )

ライセンス: Link先を確認
Guanhua Chen, Shuming Ma, Yun Chen, Li Dong, Dongdong Zhang, Jia Pan, Wenping Wang, Furu Wei(参考訳) 従来は多言語事前訓練エンコーダ(MPE)によるNLUタスクの言語間変換の改善や,BERTによるNMTタスクの翻訳性能の向上に重点が置かれていた。 しかし、多言語事前訓練エンコーダを用いたNMTモデルの言語間移動を改善する方法については、未検討である。 本稿では,NMTにおけるゼロショット言語間移動タスクに着目した。 このタスクでは、NMTモデルを1つの並列データセットと既製のMPPでトレーニングし、ゼロショット言語ペア上で直接テストする。 我々は,このタスクに対して単純かつ効果的なモデルであるsixtを提案する。 sixtモデルは、mpeを2段階のトレーニングスケジュールで活用し、位置ずれエンコーダとキャパシティエンハンスドデコーダによりさらに改善される。 広範な実験により、sixtは未使用言語の翻訳品質を大幅に向上させたことが証明された。 計算コストとトレーニングデータが少なくなると、CRISSとm2m-100よりも多くの英語テストセットの性能が向上する。

Previous works mainly focus on improving cross-lingual transfer for NLU tasks with multilingual pretrained encoder (MPE), or improving the translation performance on NMT task with BERT. However, how to improve the cross-lingual transfer of NMT model with multilingual pretrained encoder is under-explored. In this paper, we focus on a zero-shot cross-lingual transfer task in NMT. In this task, the NMT model is trained with one parallel dataset and an off-the-shelf MPE, then is directly tested on zero-shot language pairs. We propose SixT, a simple yet effective model for this task. The SixT model leverages the MPE with a two-stage training schedule and gets further improvement with a position disentangled encoder and a capacity-enhanced decoder. The extensive experiments prove that SixT significantly improves the translation quality of the unseen languages. With much less computation cost and training data, our model achieves better performance on many-to-English testsets than CRISS and m2m-100, two strong multilingual NMT baselines.
翻訳日:2021-04-20 14:07:27 公開日:2021-04-18
# 制約付き言語モデルによるFew-Shotセマンティックパーザの生成

Constrained Language Models Yield Few-Shot Semantic Parsers ( http://arxiv.org/abs/2104.08768v1 )

ライセンス: Link先を確認
Richard Shin, Christopher H. Lin, Sam Thomson, Charles Chen, Subhro Roy, Emmanouil Antonios Platanios, Adam Pauls, Dan Klein, Jason Eisner, Benjamin Van Durme(参考訳) 本稿では,大規模な事前学習型言語モデルを用いたセマンティックパーサについて検討する。 意味構文解析の目標は、自然言語入力によって構造化された意味表現を生成することである。 しかし、言語モデルは自然言語を生成するように訓練されている。 このギャップを埋めるために、言語モデルを使用して入力を英語に似た制御されたサブ言語にパラフレーズし、対象の意味表現に自動的にマッピングする。 少量のデータとほとんどコードを英語風の表現に変換することで、セマンティックパーサを素早くブートストラップし、複数のタスクで優れたパフォーマンスを示すブループリントを提供する。

We explore the use of large pretrained language models as few-shot semantic parsers. The goal in semantic parsing is to generate a structured meaning representation given a natural language input. However, language models are trained to generate natural language. To bridge the gap, we use language models to paraphrase inputs into a controlled sublanguage resembling English that can be automatically mapped to a target meaning representation. With a small amount of data and very little code to convert into English-like representations, we provide a blueprint for rapidly bootstrapping semantic parsers and demonstrate good performance on multiple tasks.
翻訳日:2021-04-20 14:07:10 公開日:2021-04-18
# クロスアテンションに基づくシームズネットワークによる中国語文の類似性

Chinese Sentences Similarity via Cross-Attention Based Siamese Network ( http://arxiv.org/abs/2104.08787v1 )

ライセンス: Link先を確認
Zhen Wang, Xiangxie Zhang, Yicong Tan(参考訳) 文の類似度の測定は、機械が人間の言語をよりよく理解できるため、今日では重要な研究領域となっている。 本稿では,中国語文の意味的意味を学習し,2つの文間の類似性を比較するためのクロス・アテンション・シャムネットワーク(catsnet)を提案する。 この新モデルは非局所的な特徴を捉えることができる。 また,Long Short-term memory (LSTM) ネットワークをモデルに適用し,性能改善を試みた。 LCQMCデータセットを用いて実験を行い, 実験結果から, 従来よりも精度の高いモデルが得られた。

Measuring sentence similarity is a key research area nowadays as it allows machines to better understand human languages. In this paper, we proposed a Cross-Attention Siamese Network (CATsNet) to carry out the task of learning the semantic meanings of Chinese sentences and comparing the similarity between two sentences. This novel model is capable of catching non-local features. Additionally, we also tried to apply the long short-term memory (LSTM) network in the model to improve its performance. The experiments were conducted on the LCQMC dataset and the results showed that our model could achieve a higher accuracy than previous work.
翻訳日:2021-04-20 14:07:01 公開日:2021-04-18
# misinfo belief frames: a case study on covid & climate news

Misinfo Belief Frames: A Case Study on Covid & Climate News ( http://arxiv.org/abs/2104.08790v1 )

ライセンス: Link先を確認
Saadia Gabriel, Skyler Hallinan, Maarten Sap, Pemi Nguyen, Franziska Roesner, Eunsol Choi, Yejin Choi(参考訳) 読者の以前の信念は、ニュース見出しに意味を投影する方法に影響を与える。 これらの信念は、ニュースの信頼性に対する認識や、ニュースに対する反応、ソーシャルネットワークを通じて誤報を広める可能性に影響を及ぼす可能性がある。 しかし、ほとんどの先行研究は、誤った情報の影響を測定するよりも、ニュースやスタイロメトリの事実チェックに重点を置いている。 読者がニュースの信頼性や誤った情報の影響をどのように認識するかを理解するための形式である,誤った情報信念フレームを提案する。 23.5k見出し以上の66k推論のデータセットであるmisinfo belief frames(mbf)コーパスについても紹介する。 誤情報フレームは、コモンセンス推論を使用して、世界的危機に焦点を当てたリアルニュースやフェイクニュースの見出し、すなわち新型コロナウイルスのパンデミックと気候変動の影響を明らかにする。 大規模言語モデルを用いて誤報フレームを予測した結果、機械による推論がニュース見出しに対する読者の信頼に影響を及ぼす(読者のニュース見出しに対する信頼は29.3%のケースで影響を受ける)。 これは、誤った情報に対抗するために生成されたフレームを使用する潜在的有効性を示している。

Prior beliefs of readers impact the way in which they project meaning onto news headlines. These beliefs can influence their perception of news reliability, as well as their reaction to news, and their likelihood of spreading the misinformation through social networks. However, most prior work focuses on fact-checking veracity of news or stylometry rather than measuring impact of misinformation. We propose Misinfo Belief Frames, a formalism for understanding how readers perceive the reliability of news and the impact of misinformation. We also introduce the Misinfo Belief Frames (MBF) corpus, a dataset of 66k inferences over 23.5k headlines. Misinformation frames use commonsense reasoning to uncover implications of real and fake news headlines focused on global crises: the Covid-19 pandemic and climate change. Our results using large-scale language modeling to predict misinformation frames show that machine-generated inferences can influence readers' trust in news headlines (readers' trust in news headlines was affected in 29.3% of cases). This demonstrates the potential effectiveness of using generated frames to counter misinformation.
翻訳日:2021-04-20 14:06:51 公開日:2021-04-18
# SalKG: 常識推論のための知識グラフの説明から学ぶ

SalKG: Learning From Knowledge Graph Explanations for Commonsense Reasoning ( http://arxiv.org/abs/2104.08793v1 )

ライセンス: Link先を確認
Aaron Chan, Soumya Sanyal, Boyuan Long, Jiashu Xu, Tanishq Gupta, Xiang Ren(参考訳) 知識グラフ(KG)を用いた事前学習言語モデルの強化は、様々な常識推論タスクで成功している。 どのようなkg入力が有望であるか(つまりモデル予測に重要である)を示すことによって、このようなkgモデルの振る舞いを説明する試みがあるが、これらの説明がモデルを改善するためにどのように使われるべきかは必ずしも明確ではない。 本稿では,これらのKG強化モデルに対して,KG説明を教師として用いることができるかどうかを考察する。 この目的のために,両粗いKG説明から学習するシンプルなフレームワークであるSalKGを提案する(KGは健全か?)。 そして、罰金(キログラムのどの部分がサリエントか? 粒度。 タスクのトレーニングセットから生成された説明を考えると、SalKGはKG強化されたモデルを訓練してタスクを解決する。 2つの一般的なコモンセンスQAベンチマークと3つのKG拡張モデルにまたがって、SalKGのトレーニングプロセスは一貫してモデル性能を改善することができる。

Augmenting pre-trained language models with knowledge graphs (KGs) has achieved success on various commonsense reasoning tasks. Although some works have attempted to explain the behavior of such KG-augmented models by indicating which KG inputs are salient (i.e., important for the model's prediction), it is not always clear how these explanations should be used to make the model better. In this paper, we explore whether KG explanations can be used as supervision for teaching these KG-augmented models how to filter out unhelpful KG information. To this end, we propose SalKG, a simple framework for learning from KG explanations of both coarse (Is the KG salient?) and fine (Which parts of the KG are salient?) granularity. Given the explanations generated from a task's training set, SalKG trains KG-augmented models to solve the task by focusing on KG information highlighted by the explanations as salient. Across two popular commonsense QA benchmarks and three KG-augmented models, we find that SalKG's training process can consistently improve model performance.
翻訳日:2021-04-20 14:06:32 公開日:2021-04-18
# 細粒度評価誘導強化学習によるキーフレーズ生成

Keyphrase Generation with Fine-Grained Evaluation-Guided Reinforcement Learning ( http://arxiv.org/abs/2104.08799v1 )

ライセンス: Link先を確認
Yichao Luo, Yige Xu, Jiacheng Ye, Xipeng Qiu, Qi Zhang(参考訳) キーフレーズ生成(英: keyphrase generation、kg)とは、特定の文書から中央のアイデアをキャプチャする古典的なタスクである。 通常、伝統的なKG評価指標は、フレーズレベルでの予測の正確さのみを認識し、類似した予測とターゲットのセマンティックな類似性を無視し、モデルが深い言語パターンを学習することを妨げる。 本稿では,トークンレベルの$F_1$スコア,編集距離,重複量,予測量など,異なる粒度を考慮した新たな粒度評価指標を提案する。 より不規則な言語パターンを学習するために、予測キーフレーズとターゲットキーフレーズの連続的な類似度スコアを計算するために、事前訓練されたモデル(例えばBERT)を用いる。 提案する細粒度評価スコアとバニラ$f_1$スコアの2つの報酬機能を持つ2段階強化学習(rl)トレーニングフレームワークを提案する。 このフレームワークは、正確なマッチ句としてさらに最適化できる部分マッチ句を識別するモデルを支援する。 4つのKGベンチマーク実験の結果,提案したトレーニングフレームワークは,従来のRLトレーニングフレームワークよりも優れていた。 さらに,同義語問題を効果的に緩和し,高品質な予測を行うことができる。

Aiming to generate a set of keyphrases, Keyphrase Generation (KG) is a classical task for capturing the central idea from a given document. Typically, traditional KG evaluation metrics are only aware of the exact correctness of predictions on phrase-level and ignores the semantic similarities between similar predictions and targets, which inhibits the model from learning deep linguistic patterns. In this paper, we propose a new fine-grained evaluation metric that considers different granularity: token-level $F_1$ score, edit distance, duplication, and prediction quantities. For learning more recessive linguistic patterns, we use a pre-trained model (e.g., BERT) to compute the continuous similarity score between predicted keyphrases and target keyphrases. On the whole, we propose a two-stage Reinforcement Learning (RL) training framework with two reward functions: our proposed fine-grained evaluation score and the vanilla $F_1$ score. This framework helps the model identifying some partial match phrases which can be further optimized as the exact match ones. Experiments on four KG benchmarks show that our proposed training framework outperforms the traditional RL training frameworks among all evaluation scores. In addition, our method can effectively ease the synonym problem and generate a higher quality prediction.
翻訳日:2021-04-20 14:06:14 公開日:2021-04-18
# NLP課題における一括学習者の生涯学習

Lifelong Learning of Few-shot Learners across NLP Tasks ( http://arxiv.org/abs/2104.08808v1 )

ライセンス: Link先を確認
Xisen Jin, Mohammad Rostami, Xiang Ren(参考訳) 大規模な事前学習型言語モデルの最近の進歩は、幅広いNLPタスクの性能を大幅に向上させた。 しかし、既存のモデルを新しいタスクに適応させるには、膨大なラベル付きデータに対して(繰り返し)再トレーニングする必要がある。 さらに、新しいタスクで学んだモデルは、以前のタスク(すなわち破滅的な忘れ物)から学んだ知識を徐々に「忘れる」ことができる。 本稿では,言語モデルを連続的に微調整することで,多種多様なNLPタスクを数秒で学習する生涯学習の課題について検討する。 学習したタスクの性能を維持しつつ,新しいタスクに数発の一般化を施すモデルの能力について検討する。 本稿では,この問題を解決するための既存の連続学習手法を探求し,いくつかの例からアダプタウェイトの生成を学習しながら,破滅的な忘れを緩和するメタラーニング手法を提案する。 提案手法は,トレーニングタスクよりもモデルパフォーマンスを保ち,将来のタスクが学習されると,肯定的な知識伝達につながることを実証する。

Recent advances in large pre-trained language models have greatly improved the performance on a broad set of NLP tasks. However, adapting an existing model to new tasks often requires (repeated) re-training over enormous labeled data that is prohibitively expensive to obtain. Moreover, models learned on new tasks may gradually "forget" about the knowledge learned from earlier tasks (i.e., catastrophic forgetting). In this paper, we study the challenge of lifelong learning to few-shot learn over a sequence of diverse NLP tasks, through continuously fine-tuning a language model. We investigate the model's ability of few-shot generalization to new tasks while retaining its performance on the previously learned tasks. We explore existing continual learning methods in solving this problem and propose a continual meta-learning approach which learns to generate adapter weights from a few examples while regularizing changes of the weights to mitigate catastrophic forgetting. We demonstrate our approach preserves model performance over training tasks and leads to positive knowledge transfer when the future tasks are learned.
翻訳日:2021-04-20 14:05:53 公開日:2021-04-18
# 予習変圧器のコントラストアウトオブディストリビューション検出

Contrastive Out-of-Distribution Detection for Pretrained Transformers ( http://arxiv.org/abs/2104.08812v1 )

ライセンス: Link先を確認
Wenxuan Zhou, Muhao Chen(参考訳) 予めトレーニングされたトランスは、テストデータがトレーニングデータと同じ分布に従うと顕著な性能を発揮する。 しかし、実世界のnluタスクでは、モデルはしばしばout-of-distribution (ood)インスタンスに直面します。 このようなインスタンスは、重大なセマンティックシフト問題を推論させる可能性があるため、モデルによって識別され、拒否されるはずである。 本稿では,事前学習した変圧器のトレーニングにおける分布データのみを用いたOoD検出問題について検討する。 このような事例はペナルティメート層においてマハラノビス距離を用いて見いだされる。 さらに,oodインスタンスが分布内インスタンスとよりよく区別できるように,表現のコンパクト性を向上させるコントラスト損失を提案する。 GLUEベンチマーク実験により,提案手法の有効性が示された。

Pretrained transformers achieve remarkable performance when the test data follows the same distribution as the training data. However, in real-world NLU tasks, the model often faces out-of-distribution (OoD) instances. Such instances can cause the severe semantic shift problem to inference, hence they are supposed to be identified and rejected by the model. In this paper, we study the OoD detection problem for pretrained transformers using only in-distribution data in training. We observe that such instances can be found using the Mahalanobis distance in the penultimate layer. We further propose a contrastive loss that improves the compactness of representations, such that OoD instances can be better differentiated from in-distribution ones. Experiments on the GLUE benchmark demonstrate the effectiveness of the proposed methods.
翻訳日:2021-04-20 14:05:37 公開日:2021-04-18
# 同時機械翻訳におけるストリームレベルのレイテンシ評価

Stream-level Latency Evaluation for Simultaneous Machine Translation ( http://arxiv.org/abs/2104.08817v1 )

ライセンス: Link先を確認
Javier Iranzo-S\'anchez and Jorge Civera and Alfons Juan(参考訳) 同時翻訳は最近、大幅な品質改善とストリーミングアプリケーションの出現により、勢いを増している。 同時翻訳システムでは,翻訳品質と応答時間のトレードオフを見出す必要があり,そのために複数のレイテンシ対策が提案されている。 しかし、同時翻訳のレイテンシ評価は、ストリーミングシナリオのシーケンシャルな性質を考慮せずに、文レベルで推定される。 実際、これらの文レベルのレイテンシ尺度は連続ストリーム変換にはあまり適していないため、評価されるシステムの同時翻訳ポリシーと一貫性のない数値が得られる。 本研究は、参照IWSLTタスクのストリーミング条件で評価された出力変換に適用される再分割アプローチに基づいて、現在の遅延対策のストリームレベル適応を提案する。

Simultaneous machine translation has recently gained traction thanks to significant quality improvements and the advent of streaming applications. Simultaneous translation systems need to find a trade-off between translation quality and response time, and with this purpose multiple latency measures have been proposed. However, latency evaluations for simultaneous translation are estimated at the sentence level, not taking into account the sequential nature of a streaming scenario. Indeed, these sentence-level latency measures are not well suited for continuous stream translation resulting in figures that are not coherent with the simultaneous translation policy of the system being assessed. This work proposes a stream-level adaptation of the current latency measures based on a re-segmentation approach applied to the output translation, that is successfully evaluated on streaming conditions for a reference IWSLT task.
翻訳日:2021-04-20 14:05:26 公開日:2021-04-18
# layoutxlm: 多言語視覚リッチ文書理解のためのマルチモーダル事前学習

LayoutXLM: Multimodal Pre-training for Multilingual Visually-rich Document Understanding ( http://arxiv.org/abs/2104.08836v1 )

ライセンス: Link先を確認
Yiheng Xu, Tengchao Lv, Lei Cui, Guoxin Wang, Yijuan Lu, Dinei Florencio, Cha Zhang, Furu Wei(参考訳) テキスト,レイアウト,画像によるマルチモーダル事前学習は,近年,視覚的に豊富な文書理解タスクにおいてSOTA性能を達成している。 本稿では,多言語文書理解のためのマルチモーダル事前学習モデルであるLayoutXLMについて述べる。 layoutxlmを正確に評価するために,7言語(中国語,日本語,スペイン語,フランス語,イタリア語,ドイツ語,ポルトガル語)のフォーム理解サンプルを含むxfunというマルチリンガルフォーム理解ベンチマークデータセットと,キー値ペアを手作業で各言語にラベル付けする。 実験の結果, レイアウトXLMモデルは, XFUNデータセット上の既存のSOTA言語間事前学習モデルよりも大幅に優れていた。 トレーニング済みのLayoutXLMモデルとXFUNデータセットはhttps://aka.ms/layou txlm.orgで公開される。

Multimodal pre-training with text, layout, and image has achieved SOTA performance for visually-rich document understanding tasks recently, which demonstrates the great potential for joint learning across different modalities. In this paper, we present LayoutXLM, a multimodal pre-trained model for multilingual document understanding, which aims to bridge the language barriers for visually-rich document understanding. To accurately evaluate LayoutXLM, we also introduce a multilingual form understanding benchmark dataset named XFUN, which includes form understanding samples in 7 languages (Chinese, Japanese, Spanish, French, Italian, German, Portuguese), and key-value pairs are manually labeled for each language. Experiment results show that the LayoutXLM model has significantly outperformed the existing SOTA cross-lingual pre-trained models on the XFUN dataset. The pre-trained LayoutXLM model and the XFUN dataset will be publicly available at https://aka.ms/layou txlm.
翻訳日:2021-04-20 14:05:14 公開日:2021-04-18
# 情動応答生成のための感情調整条件変分オートエンコーダ

Emotion-Regularized Conditional Variational Autoencoder for Emotional Response Generation ( http://arxiv.org/abs/2104.08857v1 )

ライセンス: Link先を確認
Yu-Ping Ruan, and Zhen-Hua Ling(参考訳) 本稿では,感情対応型条件変分オートエンコーダ(Emo-CVAE)モデルを提案する。 従来のCVAEベースの感情応答生成では、感情ラベルは単に前・後・復号器ネットワークにおける追加条件として用いられる。 Emo-CVAEモデルでは、感情のスタイルが言語空間のセマンティックな内容と自然に絡み合っていることを考慮し、感情ラベルを用いてCVAE潜在空間を規則化する。 トレーニング段階では、推定潜在変数が入力応答の感情ラベルとトークンシーケンスを同時に予測するために必要となる。 実験結果から,エモ-CVAEモデルは従来のCVAEモデルよりも情報的かつ構造化された潜在空間を学習でき,ベースラインCVAEモデルやSeq2Seqモデルよりも優れた内容と感情特性を持つ出力応答が得られた。

This paper presents an emotion-regularized conditional variational autoencoder (Emo-CVAE) model for generating emotional conversation responses. In conventional CVAE-based emotional response generation, emotion labels are simply used as additional conditions in prior, posterior and decoder networks. Considering that emotion styles are naturally entangled with semantic contents in the language space, the Emo-CVAE model utilizes emotion labels to regularize the CVAE latent space by introducing an extra emotion prediction network. In the training stage, the estimated latent variables are required to predict the emotion labels and token sequences of the input responses simultaneously. Experimental results show that our Emo-CVAE model can learn a more informative and structured latent space than a conventional CVAE model and output responses with better content and emotion performance than baseline CVAE and sequence-to-sequence (Seq2Seq) models.
翻訳日:2021-04-20 14:04:56 公開日:2021-04-18
# 検索ボックス内の言語:人間と機械の相互作用における言語学習の基盤

Language in a (Search) Box: Grounding Language Learning in Real-World Human-Machine Interaction ( http://arxiv.org/abs/2104.08874v1 )

ライセンス: Link先を確認
Federico Bianchi and Ciro Greco and Jacopo Tagliabue(参考訳) 本研究では,ユーザと検索エンジン間の自然な相互作用を通じて,教師と教師のダイナミクスをモデル化し,実世界のデータを用いた基礎言語学習について検討する。 ユーザデータのみから接地ドメイン、表記関数、合成関数を学習する。 名詞句の意味論は、明示的なラベリングを伴わずに完全に学習可能でありながら、構成的特性を示す。 我々は、合成性やゼロショット推論タスクに関する基礎的セマンティクスをベンチマークし、ワード2vecやBERTのようなSOTA非基底モデルよりも優れた結果とより良い一般化を提供することを示した。

We investigate grounded language learning through real-world data, by modelling a teacher-learner dynamics through the natural interactions occurring between users and search engines; in particular, we explore the emergence of semantic generalization from unsupervised dense representations outside of synthetic environments. A grounding domain, a denotation function and a composition function are learned from user data only. We show how the resulting semantics for noun phrases exhibits compositional properties while being fully learnable without any explicit labelling. We benchmark our grounded semantics on compositionality and zero-shot inference tasks, and we show that it provides better results and better generalizations than SOTA non-grounded models, such as word2vec and BERT.
翻訳日:2021-04-20 14:04:40 公開日:2021-04-18
# 深層学習を用いた修正ブルーム分類法の要約評価の分類

Classifications of the Summative Assessment for Revised Blooms Taxonomy by using Deep Learning ( http://arxiv.org/abs/2104.08819v1 )

ライセンス: Link先を確認
Manjushree D. Laddha, Varsha T. Lokare, Arvind W. Kiwelekar and Laxman D. Netak(参考訳) 教育は真実を理解する基本的なステップであり、反省すべき知性の準備である。 改訂ブルームの認知過程と知識次元としての人間の合理的能力に焦点を当てた分類学は、6種類の認知過程と4種類の知識次元に研究の過程を区別するのに役立つ。 これらのタイプは、増大する難易度で同期する。 本稿では,各種大学・教育機関が提供するB.Tech Computer Engineering and Information Technologyのソフトウェア工学コースについて,改訂ブルーム分類RTTについて検討した。 質問は非常に有用な構成要素です。 本研究の目的は,深層学習技術の畳み込みニューラルネットワークであるcnn long short-term memory lstmを用いて,修正ブルーム分類法に基づく要約評価の分類を相対的に研究し,有意な達成と精度向上を達成することにある。

Education is the basic step of understanding the truth and the preparation of the intelligence to reflect. Focused on the rational capacity of the human being the Cognitive process and knowledge dimensions of Revised Blooms Taxonomy helps to differentiate the procedure of studying into six types of various cognitive processes and four types of knowledge dimensions. These types are synchronized in the increasing level of difficulty. In this paper Software Engineering courses of B.Tech Computer Engineering and Information Technology offered by various Universities and Educational Institutes have been investigated for Revised Blooms Taxonomy RBT. Questions are a very useful constituent. Knowledge intelligence and strength of the learners can be tested by applying questions.The fundamental goal of this paper is to create a relative study of the classification of the summative assessment based on Revised Blooms Taxonomy using the Convolutional Neural Networks CNN Long Short-Term Memory LSTM of Deep Learning techniques in an endeavor to attain significant accomplishment and elevated precision levels.
翻訳日:2021-04-20 14:02:21 公開日:2021-04-18
# ボクセルマップのためのモジュール手続き生成

Modular Procedural Generation for Voxel Maps ( http://arxiv.org/abs/2104.08890v1 )

ライセンス: Link先を確認
Adarsh Pyarelal, Aditya Banerjee, Kobus Barnard(参考訳) Minecraftで開発されたタスク環境は、人工知能(AI)研究でますます人気が高まっている。 しかし、これらの多くは現在手動で構築されており、仮想タスク環境特有の機能であるプロシージャコンテンツ生成(PCG)を利用できない。 本稿では,Minecraft などのボクセル環境を対象とした PCG アルゴリズムの実装を容易にするオープンソースライブラリ mcg を提案する。 この図書館は人間と機械の協働研究を念頭に設計されており、したがって「トップダウン」なアプローチで生成し、実証研究に適した低レベルかつ高レベルな機械可読表現を同時に生成する。 これらは、人間の空間認識を考慮した下流AIアプリケーションによって消費される。 このアプローチの利点には、仮想環境の迅速でスケーラブルで効率的な開発、意味レベルで環境の統計を制御できる能力、プレイヤーのアクションにリアルタイムで反応して新しい環境を生成する能力などがある。

Task environments developed in Minecraft are becoming increasingly popular for artificial intelligence (AI) research. However, most of these are currently constructed manually, thus failing to take advantage of procedural content generation (PCG), a capability unique to virtual task environments. In this paper, we present mcg, an open-source library to facilitate implementing PCG algorithms for voxel-based environments such as Minecraft. The library is designed with human-machine teaming research in mind, and thus takes a 'top-down' approach to generation, simultaneously generating low and high level machine-readable representations that are suitable for empirical research. These can be consumed by downstream AI applications that consider human spatial cognition. The benefits of this approach include rapid, scalable, and efficient development of virtual environments, the ability to control the statistics of the environment at a semantic level, and the ability to generate novel environments in response to player actions in real time.
翻訳日:2021-04-20 14:02:04 公開日:2021-04-18
# 自律運転のための自己監督型ピララ運動学習

Self-Supervised Pillar Motion Learning for Autonomous Driving ( http://arxiv.org/abs/2104.08683v1 )

ライセンス: Link先を確認
Chenxu Luo, Xiaodong Yang, Alan Yuille(参考訳) 自律運転は、高度にダイナミックな環境で様々な交通参加者と対話する場合の動作行動理解の恩恵を受ける。 近年,点雲から直接クラス非依存運動を推定することへの関心が高まっている。 現在の動き推定法は、通常、自動運転シーンから大量の注釈付きトレーニングデータを必要とする。 しかし、手動でポイントクラウドをラベル付けするのは、非常に難しく、エラーが発生し、時間がかかります。 本稿では,膨大な未ラベルデータ収集を高精度かつ効率的な運動学習に活用できるかどうかという研究課題に答える。 そこで本研究では,点群と対のカメラ画像から自由監視信号を活用し,純粋に自己スーパービジョンによって動作を推定する学習フレームワークを提案する。 本モデルでは,確率的運動マスキングを付加した点雲に基づく構造整合性と,所望の自己超越を実現するためのクロスセンサ運動正規化を含む。 実験により,本手法は教師付き手法と競争的に動作し,教師付き微調整と自己教師付きモデルを組み合わせることで最先端の結果が得られることがわかった。

Autonomous driving can benefit from motion behavior comprehension when interacting with diverse traffic participants in highly dynamic environments. Recently, there has been a growing interest in estimating class-agnostic motion directly from point clouds. Current motion estimation methods usually require vast amount of annotated training data from self-driving scenes. However, manually labeling point clouds is notoriously difficult, error-prone and time-consuming. In this paper, we seek to answer the research question of whether the abundant unlabeled data collections can be utilized for accurate and efficient motion learning. To this end, we propose a learning framework that leverages free supervisory signals from point clouds and paired camera images to estimate motion purely via self-supervision. Our model involves a point cloud based structural consistency augmented with probabilistic motion masking as well as a cross-sensor motion regularization to realize the desired self-supervision. Experiments reveal that our approach performs competitively to supervised methods, and achieves the state-of-the-art result when combining our self-supervised model with supervised fine-tuning.
翻訳日:2021-04-20 13:55:17 公開日:2021-04-18
# 信号処理を用いた透過電子顕微鏡(TEM)のハーベスティングデータ革命

Harvesting data revolution for transmission electron microscopy (TEM) using signal processing ( http://arxiv.org/abs/2104.08688v1 )

ライセンス: Link先を確認
Shixiang Zhu, Sven Voigt, Henry Yuchi, Jordan Key, Yao Xie, Josh Kacher, Surya R. Kalidindi(参考訳) TEM(Transmission Electron Microscopy)は、物質構造をイメージングし、物質化学を特徴付ける強力なツールである。 近年のTEM用データ収集技術の進歩により,マイクロ秒フレームレートで高体積・高解像度のデータ収集が可能となった。 この課題は、画像解析、特徴抽出、ストリーミングデータ処理技術を含む、新しいデータ処理ツールの開発を必要とする。 本稿では、TEMにおける信号処理と統計解析をデータ収集機能と組み合わせることで得られるいくつかの分野を取り上げ、自動TEMデータ解析と信号処理を統合するための今後の展望を示す。

TEM (Transmission Electron Microscopy) is a powerful tool for imaging material structure and characterizing material chemistry. Recent advances in data collection technology for TEM have enabled high-volume and high-resolution data collection at a microsecond frame rate. This challenge requires the development of new data processing tools, including image analysis, feature extraction, and streaming data processing techniques. In this paper, we highlight a few areas that have benefited from combining signal processing and statistical analysis with data collection capabilities in TEM and present a future outlook in opportunities of integrating signal processing with automated TEM data analysis.
翻訳日:2021-04-20 13:55:01 公開日:2021-04-18
# OSKDet: 回転物体検出のための指向性キーポイント位置決め

OSKDet: Towards Orientation-sensitiv e Keypoint Localization for Rotated Object Detection ( http://arxiv.org/abs/2104.08697v1 )

ライセンス: Link先を確認
Dongchen Lu(参考訳) 回転物体検出はコンピュータビジョン分野における課題である。 空間情報の損失とパラメトリック秩序の混乱は、回転検出精度のボトルネックとなっている。 本稿では,指向性キーポイントを用いた回転検出OSKDetを提案する。 ターゲットを特徴付けるキーポイントのセットを採用し、roi上のキーポイントヒートマップを予測して回転したターゲットを形成する。 向きに敏感なヒートマップを提案することで、OSKDetは回転対象の形状と方向を暗黙的に学習することができ、ターゲット表現のモデリング機能が強化され、ローカライゼーション精度が向上し、高品質な検出結果が得られる。 境界領域における高効率な特徴を抽出するために、回転対応変形可能な畳み込みモジュールを設計する。 さらに,キーポイント順序の混乱を解消するために,角度分布に基づく新しいキーポイント順序変更アルゴリズムと特徴融合モジュールについて検討した。 いくつかの公開ベンチマークの実験結果は、OSKDetの最先端性能を示している。 具体的には、DOTAが77.81%、HRSC2016が89.91%、UCAS-AODが97.18%である。

Rotated object detection is a challenging issue of computer vision field. Loss of spatial information and confusion of parametric order have been the bottleneck for rotated detection accuracy. In this paper, we propose an orientation-sensitiv e keypoint based rotated detector OSKDet. We adopt a set of keypoints to characterize the target and predict the keypoint heatmap on ROI to form a rotated target. By proposing the orientation-sensitiv e heatmap, OSKDet could learn the shape and direction of rotated target implicitly and has stronger modeling capabilities for target representation, which improves the localization accuracy and acquires high quality detection results. To extract highly effective features at border areas, we design a rotation-aware deformable convolution module. Furthermore, we explore a new keypoint reorder algorithm and feature fusion module based on the angle distribution to eliminate the confusion of keypoint order. Experimental results on several public benchmarks show the state-of-the-art performance of OSKDet. Specifically, we achieve an AP of 77.81% on DOTA, 89.91% on HRSC2016, and 97.18% on UCAS-AOD, respectively.
翻訳日:2021-04-20 13:54:52 公開日:2021-04-18
# コンピュータビジョンによるco2排出量の再考

Reconsidering CO2 emissions from Computer Vision ( http://arxiv.org/abs/2104.08702v1 )

ライセンス: Link先を確認
Andre Fu and Mahdi S. Hosseini and Konstantinos N. Plataniotis(参考訳) 気候変動は現在影響しており、私たちの生活のあらゆる部分に影響を与えます。 私たちは社会として、コンピュータビジョン(cv)コミュニティを含む普遍的な取り組みとして、気候危機に対処しています。 本研究では,(1)建築建設費と(2)寿命評価費に分割してCO2排出量の総コストを分析する。 時間が経つにつれ、これらのコストは無視できなくなり、私たちの未来に直接影響を与えることがわかります。 重要なことは、このレベルのCO2を放出することで、CVコミュニティが故意に自身の倫理的AI原則を見落としているかどうかの倫理的分析を行う。 これらの懸念に対処するため、我々は倫理的AIの柱として「強化」を追加することを提案し、建築設計者や広範なCVコミュニティが気候危機を抑制する方法について推奨する。

Climate change is a pressing issue that is currently affecting and will affect every part of our lives. It's becoming incredibly vital we, as a society, address the climate crisis as a universal effort, including those in the Computer Vision (CV) community. In this work, we analyze the total cost of CO2 emissions by breaking it into (1) the architecture creation cost and (2) the life-time evaluation cost. We show that over time, these costs are non-negligible and are having a direct impact on our future. Importantly, we conduct an ethical analysis of how the CV-community is unintentionally overlooking its own ethical AI principles by emitting this level of CO2. To address these concerns, we propose adding "enforcement" as a pillar of ethical AI and provide some recommendations for how architecture designers and broader CV community can curb the climate crisis.
翻訳日:2021-04-20 13:54:33 公開日:2021-04-18
# セグメンテーション損失の隠れラベルマージ的バイアス

The hidden label-marginal biases of segmentation losses ( http://arxiv.org/abs/2104.08717v1 )

ライセンス: Link先を確認
Bingyuan Liu, Jose Dolz, Adrian Galdran, Riadh Kobbi, Ismail Ben Ayed(参考訳) ほとんどのセグメンテーション損失は、明らかにクロスエントロピー(CE)またはディース損失の変種である。 文献では、これらの損失のどちらがよい選択であるかについての明確なコンセンサスはなく、ベンチマークやアプリケーションごとに異なるパフォーマンスがある。 我々は,これら2種類の損失を関連付ける理論的解析を行い,その利点と弱点を明らかにした。 まず、CE と Dice が以前考えられていたよりもはるかに深い接続を共有していることを明確に示す: CE は対数的損失と線型Dice の損失の両方の上限である。 さらに,隠れたラベル・マージの偏りに注目した情報理論解析も提供する。diceは不均衡解に対して固有の偏りを持ち,ceは暗黙的に接地領域の比率を奨励する。 以上の結果から,dice損失が不均衡分節化に改善をもたらす医学的画像化文献における広範な実験的な証拠を説明する。 また、CEがクラス比が多様である自然像問題を支配している理由も説明されている。 理論解析に基づき, ラベル・マージの偏りを明示的に制御できる, 原理的かつシンプルな解法を提案する。 我々の損失はCEを明示的な${\cal L}_1$正規化と統合し、これはラベル境界が対象のクラス比に一致することを奨励し、クラス不均衡を緩和するが、一般性を損なうことはない。 異なる損失に関する包括的実験とアブレーション研究は、我々の理論解析、および明示的なラベル・マージナル正規化器の有効性を検証する。

Most segmentation losses are arguably variants of the Cross-Entropy (CE) or Dice loss. In the literature, there is no clear consensus as to which of these losses is a better choice, with varying performances for each across different benchmarks and applications. We develop a theoretical analysis that links these two types of losses, exposing their advantages and weaknesses. First, we explicitly demonstrate that CE and Dice share a much deeper connection than previously thought: CE is an upper bound on both logarithmic and linear Dice losses. Furthermore, we provide an information-theoreti c analysis, which highlights hidden label-marginal biases : Dice has an intrinsic bias towards imbalanced solutions, whereas CE implicitly encourages the ground-truth region proportions. Our theoretical results explain the wide experimental evidence in the medical-imaging literature, whereby Dice losses bring improvements for imbalanced segmentation. It also explains why CE dominates natural-image problems with diverse class proportions, in which case Dice might have difficulty adapting to different label-marginal distributions. Based on our theoretical analysis, we propose a principled and simple solution, which enables to control explicitly the label-marginal bias. Our loss integrates CE with explicit ${\cal L}_1$ regularization, which encourages label marginals to match target class proportions, thereby mitigating class imbalance but without losing generality. Comprehensive experiments and ablation studies over different losses and applications validate our theoretical analysis, as well as the effectiveness of our explicit label-marginal regularizers.
翻訳日:2021-04-20 13:54:18 公開日:2021-04-18
# デジタル化標本に対するコンピュータビジョンと機械学習の応用:系統的文献レビュー

Application of Computer Vision and Machine Learning for Digitized Herbarium Specimens: A Systematic Literature Review ( http://arxiv.org/abs/2104.08732v1 )

ライセンス: Link先を確認
Burhan Rashid Hussein, Owais Ahmed Malik, Wee-Hong Ong, Johan Willem Frederik Slik(参考訳) エルバリウムには数百万の標本があり、科学研究のために数年間保存されている。 より多くの科学的な発見をスピードアップするために、これらの標本のデジタル化は、より広い科学コミュニティへのデータのアクセスと共有を容易にするだろう。 IDigBioやGBIFなどのオンラインデジタルレポジトリは、まだ調査されていない数百万のサンプル画像を蓄積している。 機械学習とコンピュータビジョンを使って、より新しい発見を自動化し、スピードアップするのに最適なタイミングを提供する。 本研究では,コンピュータビジョンと機械学習技術のデジタル化標本への適用に焦点を当てた50以上のピアレビュー研究の徹底的な分析と比較を行った。 この研究は、一般的に使用されているさまざまな技術とアプリケーションを分類し、既存の課題と解決策を強調するものだ。 この研究の結果が、関連する分野の初心者の強力な基盤となり、コンピュータ科学と生態学の専門家の両方にとってより光を放つことを願っています。

Herbarium contains treasures of millions of specimens which have been preserved for several years for scientific studies. To speed up more scientific discoveries, a digitization of these specimens is currently on going to facilitate easy access and sharing of its data to a wider scientific community. Online digital repositories such as IDigBio and GBIF have already accumulated millions of specimen images yet to be explored. This presents a perfect time to automate and speed up more novel discoveries using machine learning and computer vision. In this study, a thorough analysis and comparison of more than 50 peer-reviewed studies which focus on application of computer vision and machine learning techniques to digitized herbarium specimen have been examined. The study categorizes different techniques and applications which have been commonly used and it also highlights existing challenges together with their possible solutions. It is our hope that the outcome of this study will serve as a strong foundation for beginners of the relevant field and will also shed more light for both computer science and ecology experts.
翻訳日:2021-04-20 13:53:50 公開日:2021-04-18
# 物体追跡のための連続識別畳み込みニューラルネットワーク

Continuity-Discrimin ation Convolutional Neural Network for Visual Object Tracking ( http://arxiv.org/abs/2104.08739v1 )

ライセンス: Link先を確認
Shen Li, Bingpeng Ma, Hong Chang, Shiguang Shan, Xilin Chen(参考訳) 本稿では,視覚的物体追跡のための連続識別畳み込みニューラルネットワーク(CD-CNN)を提案する。 既存の最先端追跡手法は、ビデオシーケンスの時間的関係を扱わず、不完全な特徴表現をもたらす。 この問題に対処するため、cd-cnnは時間的遅れの概念に基づいた時間的外観連続性をモデル化する。 数学的には, 追跡に時間的出現連続性を導入することで, 目標出現表現誤差の上限が十分小さく, 確率の高い値であることが証明される。 さらに,不正確なターゲットの定位とドリフトを緩和するために,対象性だけでなく,パッチ内の対象の相対位置を特徴付ける新たな概念object-centroidを提案する。 時間的外観連続性とオブジェクト中心性は共にオフライントレーニング中に学び、オンライントラッキングに移される。 我々は,2つの難易度ベンチマークを用いた広範囲な実験を行い,最先端のトラッカと比較して,その競合追跡性能を示す。

This paper proposes a novel model, named Continuity-Discrimin ation Convolutional Neural Network (CD-CNN), for visual object tracking. Existing state-of-the-art tracking methods do not deal with temporal relationship in video sequences, which leads to imperfect feature representations. To address this problem, CD-CNN models temporal appearance continuity based on the idea of temporal slowness. Mathematically, we prove that, by introducing temporal appearance continuity into tracking, the upper bound of target appearance representation error can be sufficiently small with high probability. Further, in order to alleviate inaccurate target localization and drifting, we propose a novel notion, object-centroid, to characterize not only objectness but also the relative position of the target within a given patch. Both temporal appearance continuity and object-centroid are jointly learned during offline training and then transferred for online tracking. We evaluate our tracker through extensive experiments on two challenging benchmarks and show its competitive tracking performance compared with state-of-the-art trackers.
翻訳日:2021-04-20 13:53:34 公開日:2021-04-18
# MonoGRNet: モノクロ3Dオブジェクト検出のための汎用フレームワーク

MonoGRNet: A General Framework for Monocular 3D Object Detection ( http://arxiv.org/abs/2104.08797v1 )

ライセンス: Link先を確認
Zengyi Qin, Jinglu Wang, Yan Lu(参考訳) シーン理解において重要な役割を果たす実3次元空間における物体の検出と局所化は、投影中の幾何学的情報損失による単眼像のみを考えると特に困難である。 観測された2次元投影と観測されていない深さ次元の両方の幾何学的推論により,モノクロ画像からのアモーダル3次元物体検出のためのMonoGRNetを提案する。 MonoGRNetは、モノクロ3Dオブジェクト検出タスクを2Dオブジェクト検出、インスタンスレベルの深さ推定、投影された3D中心推定、局所角回帰を含む4つのサブタスクに分解する。 タスク分解は、対象の3D境界ボックスを1つの前方通過で効率よく予測し、オブジェクトの提案、後処理、あるいは従来手法が用いた計算コストの高い画素レベルの深さ推定を使わずに、モノラルな3Dオブジェクト検出を著しく促進する。 さらに、MonoGRNetは完全な教師付き学習と弱い教師付き学習の両方に柔軟に適応します。 KITTI、Cityscapes、MS COCOデータセットで実験が行われた。 その結果,様々なシナリオにおいて,フレームワークの有望な性能を示すことができた。

Detecting and localizing objects in the real 3D space, which plays a crucial role in scene understanding, is particularly challenging given only a monocular image due to the geometric information loss during imagery projection. We propose MonoGRNet for the amodal 3D object detection from a monocular image via geometric reasoning in both the observed 2D projection and the unobserved depth dimension. MonoGRNet decomposes the monocular 3D object detection task into four sub-tasks including 2D object detection, instance-level depth estimation, projected 3D center estimation and local corner regression. The task decomposition significantly facilitates the monocular 3D object detection, allowing the target 3D bounding boxes to be efficiently predicted in a single forward pass, without using object proposals, post-processing or the computationally expensive pixel-level depth estimation utilized by previous methods. In addition, MonoGRNet flexibly adapts to both fully and weakly supervised learning, which improves the feasibility of our framework in diverse settings. Experiments are conducted on KITTI, Cityscapes and MS COCO datasets. Results demonstrate the promising performance of our framework in various scenarios.
翻訳日:2021-04-20 13:53:16 公開日:2021-04-18
# 動くカメラで汚染されたアーティファクトを取り除く方法

Let's See Clearly: Contaminant Artifact Removal for Moving Cameras ( http://arxiv.org/abs/2104.08852v1 )

ライセンス: Link先を確認
Xiaoyu Li, Bo Zhang, Jing Liao, Pedro V. Sander(参考訳) カメラレンズに付着したほこり、汚れ、水分などの汚染物質は、結果の画像や映像の品質や明瞭さに大きな影響を与える。 本稿では,これらの汚染物質を自動的に除去し,クリーンな映像を作成するビデオ復元手法を提案する。 このアプローチはまず,復元が必要な領域を示すアテンションマップの検出を目標としている。 隣接するフレームから対応するクリーンピクセルを活用するために,汚染物質によって劣化した注目領域への背景シーンの流れを幻覚させるためのフロー補完モジュールを提案する。 注意マップと完了フローの導出により,隣接フレームからクリーンピクセルを取り込んで入力フレームを復元するリカレント手法を提案する。 最後に、時間的一貫性を強制するために、ビデオシーケンス全体をさらに処理するために、マルチフレーム処理ステージを使用する。 ネットワーク全体は、汚染物の物理的照明特性を近似する合成データセットに基づいて訓練される。 この新たなデータセットと新しいフレームワークは、異なる汚染物質に対処し、質的にも量的にも競争力のある復元アプローチを上回る性能を発揮する。

Contaminants such as dust, dirt and moisture adhering to the camera lens can greatly affect the quality and clarity of the resulting image or video. In this paper, we propose a video restoration method to automatically remove these contaminants and produce a clean video. Our approach first seeks to detect attention maps that indicate the regions that need to be restored. In order to leverage the corresponding clean pixels from adjacent frames, we propose a flow completion module to hallucinate the flow of the background scene to the attention regions degraded by the contaminants. Guided by the attention maps and completed flows, we propose a recurrent technique to restore the input frame by fetching clean pixels from adjacent frames. Finally, a multi-frame processing stage is used to further process the entire video sequence in order to enforce temporal consistency. The entire network is trained on a synthetic dataset that approximates the physical lighting properties of contaminant artifacts. This new dataset and our novel framework lead to our method that is able to address different contaminants and outperforms competitive restoration approaches both qualitatively and quantitatively.
翻訳日:2021-04-20 13:52:56 公開日:2021-04-18
# 3次元剛性点クラウド登録における識別最適化の改善

An Improved Discriminative Optimization for 3D Rigid Point Cloud Registration ( http://arxiv.org/abs/2104.08854v1 )

ライセンス: Link先を確認
Jia Wang, Ping Wang, Biao Li, Ruigang Fu, Junzheng Wu(参考訳) 識別最適化(DO)アルゴリズムは3Dポイントクラウドの登録において非常に成功した。 オリジナルのDOでは、2点雲の特徴(記述子)はヒストグラムとして定義され、ヒストグラムの要素はモデルポイントの「前」あるいは「後ろ」側のシーンポイントの重みを示している。 本稿では,"front-back"から"front-back","up-down","clockwise-anticlockw ise"までの側面を示すヒストグラムを拡張した。 さらに,モデル点分布に応じて拡張ヒストグラムを再重み付けした。 提案した改良DOをStanford BunnyとOxford SensatUrbanのデータセットで評価し、6つの古典的State-Of-The-Artポイントクラウド登録アルゴリズムと比較した。 実験結果から,本アルゴリズムは点登録精度とルート平均sqart-errorに匹敵する性能を示した。

The Discriminative Optimization (DO) algorithm has been proved much successful in 3D point cloud registration. In the original DO, the feature (descriptor) of two point cloud was defined as a histogram, and the element of histogram indicates the weights of scene points in "front" or "back" side of a model point. In this paper, we extended the histogram which indicate the sides from "front-back" to "front-back", "up-down", and "clockwise-anticlockw ise". In addition, we reweighted the extended histogram according to the model points' distribution. We evaluated the proposed Improved DO on the Stanford Bunny and Oxford SensatUrban dataset, and compared it with six classical State-Of-The-Art point cloud registration algorithms. The experimental result demonstrates our algorithm achieves comparable performance in point registration accuracy and root-mean-sqart-erro r.
翻訳日:2021-04-20 13:52:38 公開日:2021-04-18
# 埋め込みシステムにおけるエンプティカメラトラップ画像のフィルタリング

Filtering Empty Camera Trap Images in Embedded Systems ( http://arxiv.org/abs/2104.08859v1 )

ライセンス: Link先を確認
Fagner Cunha, Eulanda M. dos Santos, Raimundo Barreto, Juan G. Colonna(参考訳) カメラトラップによる野生生物の監視は、大量の画像を生成し、そのかなりの部分が動物を含まず、後に廃棄される。 動物を識別し、それらの画像を直接デバイスにフィルターするためにディープラーニングモデルを埋め込むことは、データの保存と送信の節約のような利点をもたらす。 本稿では,エッジデバイスにおける精度と推論遅延のトレードオフを分析するために,動物認識モデルの比較研究を行う。 この目的を達成するために、様々な入力解像度の分類器やオブジェクト検出器を調査し、量子化とモデルフィルタ数の削減により最適化する。 各モデルの信頼しきい値は、空のクラスからのインスタンスが破棄されることが期待されるため、空でないクラスの96%のリコールを得るために調整された。 実験の結果、同じ画像群をトレーニングに使用すると、検出器の性能が向上し、同等のレイテンシを持つ分類器よりも少なくとも10%多くの空画像が除去されることがわかった。 検出問題のラベルを生成するコストが高いことを考えると、分類用にラベル付けされた大量の画像(約100万のインスタンス、検出可能な画像の10倍)がある場合、分類器は検出器に匹敵する結果に到達できるが、半分のレイテンシを持つ。

Monitoring wildlife through camera traps produces a massive amount of images, whose a significant portion does not contain animals, being later discarded. Embedding deep learning models to identify animals and filter these images directly in those devices brings advantages such as savings in the storage and transmission of data, usually resource-constrained in this type of equipment. In this work, we present a comparative study on animal recognition models to analyze the trade-off between precision and inference latency on edge devices. To accomplish this objective, we investigate classifiers and object detectors of various input resolutions and optimize them using quantization and reducing the number of model filters. The confidence threshold of each model was adjusted to obtain 96% recall for the nonempty class, since instances from the empty class are expected to be discarded. The experiments show that, when using the same set of images for training, detectors achieve superior performance, eliminating at least 10% more empty images than classifiers with comparable latencies. Considering the high cost of generating labels for the detection problem, when there is a massive number of images labeled for classification (about one million instances, ten times more than those available for detection), classifiers are able to reach results comparable to detectors but with half latency.
翻訳日:2021-04-20 13:52:23 公開日:2021-04-18
# 遺伝的アルゴリズムにおけるランクに基づく適応突然変異

A Rank based Adaptive Mutation in Genetic Algorithm ( http://arxiv.org/abs/2104.08842v1 )

ライセンス: Link先を確認
Avijit Basak(参考訳) 従来、遺伝的アルゴリズムはユニモーダル関数とマルチモーダル関数の最適化に用いられてきた。 初期の研究者たちは、クロスオーバーや突然変異といったGAコントロールオペレータの確率を一定に保った。 特定の領域の最適化を調整します この分野の最近の進歩は、確率決定における適応的アプローチを目撃した。 適応突然変異では、主に貧弱な個体は状態空間を探索するために利用されるため、突然変異確率は通常、最良の染色体と自身の適合性の差に比例して生成される(fmax - f)。 しかし、このアプローチは最適化中のフィットネス分布の性質に影響を受けやすい。 本稿では,染色体ランクを用いた突然変異確率生成の代替手法を提案する。 単純な遺伝的アルゴリズム(SGA)と一定の突然変異確率と適応的アプローチを、単調なマルチモーダル関数とトラベリングセールスマン問題(TSP)の限られた資源制約の中で比較する実験を行った。 測定は、平均的ベストフィットネス、世代数の進化、いくつかの試行から得られる世界的最適達成率に対して行われる。 その結果,適合度に基づく適応的突然変異法は多モード問題空間におけるSGAと同様に適合性に基づく適応的アプローチよりも優れていることが示された。

Traditionally Genetic Algorithm has been used for optimization of unimodal and multimodal functions. Earlier researchers worked with constant probabilities of GA control operators like crossover, mutation etc. for tuning the optimization in specific domains. Recent advancements in this field witnessed adaptive approach in probability determination. In Adaptive mutation primarily poor individuals are utilized to explore state space, so mutation probability is usually generated proportionally to the difference between fitness of best chromosome and itself (fMAX - f). However, this approach is susceptible to nature of fitness distribution during optimization. This paper presents an alternate approach of mutation probability generation using chromosome rank to avoid any susceptibility to fitness distribution. Experiments are done to compare results of simple genetic algorithm (SGA) with constant mutation probability and adaptive approaches within a limited resource constraint for unimodal, multimodal functions and Travelling Salesman Problem (TSP). Measurements are done for average best fitness, number of generations evolved and percentage of global optimum achievements out of several trials. The results demonstrate that the rank-based adaptive mutation approach is superior to fitness-based adaptive approach as well as SGA in a multimodal problem space.
翻訳日:2021-04-20 13:40:12 公開日:2021-04-18
# 認知症者のためのロボット対話戦略の模擬実験

A Simulated Experiment to Explore Robotic Dialogue Strategies for People with Dementia ( http://arxiv.org/abs/2104.08940v1 )

ライセンス: Link先を確認
Fengpei Yuan, Amir Sadovnik, Ran Zhang, Devin Casenhiser, Eun Jin Paek, Si On Yoon, and Xiaopeng Zhao(参考訳) アルツハイマー病と関連する認知症(ADRD)の患者は、繰り返し質問する問題をしばしば示しており、ADRD(PwDs)患者とその介護者に大きな負担がかかる。 会話ロボットは、この問題に対処し、介護者の負担を軽減することを約束する。 本稿では,PwD-robot相互作用を反復的質問の文脈において部分的に観測可能なマルコフ決定プロセス(POMDP)モデルを提案し,Qラーニングを用いて,認知能力の異なるPwDに対する適応的会話戦略(フォローアップ質問の率とフォローアップ質問の難しさ)を学習した。 その結果,q-learningはロボットの行動選択に有用であった。 これは、PwDにおける反復的な質問に対処するための会話型社会ロボットの適用に向けた有用なステップかもしれない。

People with Alzheimer's disease and related dementias (ADRD) often show the problem of repetitive questioning, which brings a great burden on persons with ADRD (PwDs) and their caregivers. Conversational robots hold promise of coping with this problem and hence alleviating the burdens on caregivers. In this paper, we proposed a partially observable markov decision process (POMDP) model for the PwD-robot interaction in the context of repetitive questioning, and used Q-learning to learn an adaptive conversation strategy (i.e., rate of follow-up question and difficulty of follow-up question) towards PwDs with different cognitive capabilities and different engagement levels. The results indicated that Q-learning was helpful for action selection for the robot. This may be a useful step towards the application of conversational social robots to cope with repetitive questioning in PwDs.
翻訳日:2021-04-20 13:39:54 公開日:2021-04-18
# 言語依存と統計的依存

Linguistic dependencies and statistical dependence ( http://arxiv.org/abs/2104.08685v1 )

ライセンス: Link先を確認
Jacob Louis Hoover, Alessandro Sordoni, Wenyu Du, Timothy J. O'Donnell(参考訳) 言語依存と統計的依存の関係について NLPと認知科学の先行研究に基づいて,本問題を考察した。 本稿では,事前学習された言語モデルを用いて文脈における単語の確率を推定する,ポイントワイズ相互情報(cpmi)の文脈化バージョンを提案する。 CPMIを最大化する依存木を抽出し、金の依存に対して得られた構造を比較する。 概して、これらの最大cpmi木は、非文脈的pmi推定から抽出された木よりも言語依存度が高いが、隣接した単語を接続して形成された単純なベースラインとほぼ同程度であることがわかった。 また,2種類の依存関係が一致する範囲は,単語間の距離や依存関係関係のカテゴリによって説明できないことを示す。 最後に、我々の分析は、大きな事前訓練された言語モデルの違い、特に符号化された帰納的バイアスの種類に光を当てている。

What is the relationship between linguistic dependencies and statistical dependence? Building on earlier work in NLP and cognitive science, we study this question. We introduce a contextualized version of pointwise mutual information (CPMI), using pretrained language models to estimate probabilities of words in context. Extracting dependency trees which maximize CPMI, we compare the resulting structures against gold dependencies. Overall, we find that these maximum-CPMI trees correspond to linguistic dependencies more often than trees extracted from non-contextual PMI estimate, but only roughly as often as a simple baseline formed by connecting adjacent words. We also provide evidence that the extent to which the two kinds of dependency align cannot be explained by the distance between words or by the category of the dependency relation. Finally, our analysis sheds some light on the differences between large pretrained language models, specifically in the kinds of inductive biases they encode.
翻訳日:2021-04-20 13:38:43 公開日:2021-04-18
# 不確実性を考慮した階層的確率ネットワークによる肺腫瘍増殖の早期予測・定量化・分節化

An Uncertainty-aware Hierarchical Probabilistic Network for Early Prediction, Quantification and Segmentation of Pulmonary Tumour Growth ( http://arxiv.org/abs/2104.08789v1 )

ライセンス: Link先を確認
Xavier Rafael-Palou, Anton Aubanell, Mario Ceresa, Vicent Ribas, Gemma Piella, Miguel A. Gonz\'alez Ballester(参考訳) 腫瘍の早期発見と定量化は、臨床医がより正確な治療を処方し、より良い手術計画を提供するのに役立つ。 しかし,肺腫瘍進展の多因子および異種性は増殖パターンの同定を阻害する。 本研究では, 放射線学的ガイドラインに基づき, 腫瘍の増殖を予測し, そのサイズを定量化し, 将来の結節の意味的外観を提供する, 階層的・確率的枠組みに基づく新しい手法を提案する。 従来の決定論的解とは異なり、我々の手法の生成特性は予測の不確実性、特に複雑で疑わしい場合において、推定することができる。 本法を独立試験群で評価した結果, 腫瘍成長バランス精度は74%, 腫瘍成長サイズは1.77mm, 腫瘍セグメンテーションDiceスコアは78%であった。 これらは等価な決定論的解と代替生成解(つまり)のパフォーマンスを上回った。 確率的U-Net、ベイズテストドロップアウト、Pix2Pix GANは、我々のアプローチの適合性を確認する。

Early detection and quantification of tumour growth would help clinicians to prescribe more accurate treatments and provide better surgical planning. However, the multifactorial and heterogeneous nature of lung tumour progression hampers identification of growth patterns. In this study, we present a novel method based on a deep hierarchical generative and probabilistic framework that, according to radiological guidelines, predicts tumour growth, quantifies its size and provides a semantic appearance of the future nodule. Unlike previous deterministic solutions, the generative characteristic of our approach also allows us to estimate the uncertainty in the predictions, especially important for complex and doubtful cases. Results of evaluating this method on an independent test set reported a tumour growth balanced accuracy of 74%, a tumour growth size MAE of 1.77 mm and a tumour segmentation Dice score of 78%. These surpassed the performances of equivalent deterministic and alternative generative solutions (i.e. probabilistic U-Net, Bayesian test dropout and Pix2Pix GAN) confirming the suitability of our approach.
翻訳日:2021-04-20 13:36:35 公開日:2021-04-18
# 自律運転のための光学的流れ蒸留による対話型予測と計画

End-to-End Interactive Prediction and Planning with Optical Flow Distillation for Autonomous Driving ( http://arxiv.org/abs/2104.08862v1 )

ライセンス: Link先を確認
Hengli Wang, Peide Cai, Rui Fan, Yuxiang Sun, Ming Liu(参考訳) 近年のディープラーニング技術の進歩により、自動運転車の予測と計画のためのデータ駆動型アプローチは、素晴らしいパフォーマンスを達成した。 しかしながら、これらのアプローチのほとんどは非対話的な予測と計画パラダイムに従っており、車両の挙動が他者に影響を与えることはないと仮定している。 このような非対話的哲学に基づくアプローチは、疎いトラフィックシナリオでは受け入れられるが、密集したトラフィックシナリオでは容易に失敗する。 そこで本稿では,自律運転のためのエンドツーエンド対話型ニューラルモーションプランナ(INMP)を提案する。 過去の周囲画像と高解像度マップが与えられた後、INMPはまず鳥眼視空間に特徴マップを生成し、それを処理して他のエージェントを検出し、対話的な予測と計画を共同で行う。 また, 実時間推定速度を維持しつつ, ネットワーク性能を効果的に向上できる光フロー蒸留パラダイムを採用している。 nuScenesデータセットと閉ループCarlaシミュレーション環境での広範囲な実験により、INMPの検知、予測、計画タスクの有効性と効率が実証された。 プロジェクトページは site.google.com/view /inmp-ofd にあります。

With the recent advancement of deep learning technology, data-driven approaches for autonomous car prediction and planning have achieved extraordinary performance. Nevertheless, most of these approaches follow a non-interactive prediction and planning paradigm, hypothesizing that a vehicle's behaviors do not affect others. The approaches based on such a non-interactive philosophy typically perform acceptably in sparse traffic scenarios but can easily fail in dense traffic scenarios. Therefore, we propose an end-to-end interactive neural motion planner (INMP) for autonomous driving in this paper. Given a set of past surrounding-view images and a high definition map, our INMP first generates a feature map in bird's-eye-view space, which is then processed to detect other agents and perform interactive prediction and planning jointly. Also, we adopt an optical flow distillation paradigm, which can effectively improve the network performance while still maintaining its real-time inference speed. Extensive experiments on the nuScenes dataset and in the closed-loop Carla simulation environment demonstrate the effectiveness and efficiency of our INMP for the detection, prediction, and planning tasks. Our project page is at sites.google.com/vie w/inmp-ofd.
翻訳日:2021-04-20 13:36:17 公開日:2021-04-18
# アンサンブル学習による非均質デハジングのための2分岐ニューラルネットワーク

A Two-branch Neural Network for Non-homogeneous Dehazing via Ensemble Learning ( http://arxiv.org/abs/2104.08902v1 )

ライセンス: Link先を確認
Yankun Yu, Huan Liu, Minghan Fu, Jun Chen, Xiyao Wang, Keyan Wang(参考訳) 近年,画像デハジングの迅速かつ著しい進展がみられた。 深層学習に基づく多くの手法は、均質な脱ハージング問題を扱う際の優れた性能を示している。 しかし、慎重に設計された畳み込みニューラルネットワーク(CNN)が大規模デハージングベンチマークでうまく機能するとしても、NTIREの課題によって導入された非均一デハージングデータセットでは、ネットワークは通常失敗する。 主な理由は2つある。 第一に、不均質な性質のため、不均一に分布するヘイズは均質なヘイズよりも除去が困難である。 第2に、研究課題は限られたデータのみを提供する(NH-Haze 2021データセットには25のトレーニングペアしか存在しない)。 したがって、非常に限られたデータに基づいて、ヘイズ画像の領域から明確な領域へのマッピングを学ぶことは極めて困難である。 そこで本研究では,アンサンブル学習による非均質デハジングに対して,単純かつ効果的なアプローチを提案する。 具体的には、前述の問題を別々に処理し、その特徴を学習可能な融合テールでマッピングする2分岐ニューラルネットワークを導入する。 提案手法の有効性を示すために,広範な実験結果を示す。

Recently, there has been rapid and significant progress on image dehazing. Many deep learning based methods have shown their superb performance in handling homogeneous dehazing problems. However, we observe that even if a carefully designed convolutional neural network (CNN) can perform well on large-scaled dehazing benchmarks, the network usually fails on the non-homogeneous dehazing datasets introduced by NTIRE challenges. The reasons are mainly in two folds. Firstly, due to its non-homogeneous nature, the non-uniformly distributed haze is harder to be removed than the homogeneous haze. Secondly, the research challenge only provides limited data (there are only 25 training pairs in NH-Haze 2021 dataset). Thus, learning the mapping from the domain of hazy images to that of clear ones based on very limited data is extremely hard. To this end, we propose a simple but effective approach for non-homogeneous dehazing via ensemble learning. To be specific, we introduce a two-branch neural network to separately deal with the aforementioned problems and then map their distinct features by a learnable fusion tail. We show extensive experimental results to illustrate the effectiveness of our proposed method.
翻訳日:2021-04-20 13:35:59 公開日:2021-04-18
# オープンワールド型テキストガイド顔画像生成と操作に向けて

Towards Open-World Text-Guided Face Image Generation and Manipulation ( http://arxiv.org/abs/2104.08910v1 )

ライセンス: Link先を確認
Weihao Xia, Yujiu Yang, Jing-Hao Xue, Baoyuan Wu(参考訳) 既存のテキスト誘導画像合成法は、最大で \mbox{$\text{256}^2$} の解像度で限られた品質結果しか生成できず、テキスト命令は小さなコーパスで制約される。 本研究では,マルチモーダル入力から1024の解像度で,多彩で高品質な画像を生成する顔画像生成と操作のための統一的なフレームワークを提案する。 さらに重要なことは、我々の方法は、再トレーニング、微調整、後処理なしに、画像とテキストの両方を含むオープンワールドシナリオをサポートします。 具体的には,事前学習されたganモデルの優れた特性に基づくテキスト誘導画像生成と操作の新しいパラダイムを提案する。 提案するパラダイムには2つの新しい戦略が含まれている。 最初の戦略はテキストエンコーダを訓練して、前述の事前訓練されたGANモデルの階層的意味と整合した潜在コードを取得することである。 第2の戦略は、事前訓練された言語モデルからのガイダンスにより、事前訓練されたGANモデルの潜時空間における潜時符号を直接最適化することである。 潜在コードは、事前分布からランダムにサンプリングしたり、所定の画像から反転したりすることができ、スケッチや意味ラベルといったマルチモーダル入力からのイメージ生成と操作の両方をテキストによるガイダンスでネイティブにサポートする。 テキスト誘導型マルチモーダル合成を容易にするために,実顔画像と対応する意味セグメンテーションマップ,スケッチ,テキスト記述からなる大規模データセットであるマルチモーダルceleba-hqを提案する。 導入したデータセットに関する広範囲な実験により,提案手法の優れた性能を示す。 コードとデータはhttps://github.com/w eihaox/tedigan.comで入手できる。

The existing text-guided image synthesis methods can only produce limited quality results with at most \mbox{$\text{256}^2$} resolution and the textual instructions are constrained in a small Corpus. In this work, we propose a unified framework for both face image generation and manipulation that produces diverse and high-quality images with an unprecedented resolution at 1024 from multimodal inputs. More importantly, our method supports open-world scenarios, including both image and text, without any re-training, fine-tuning, or post-processing. To be specific, we propose a brand new paradigm of text-guided image generation and manipulation based on the superior characteristics of a pretrained GAN model. Our proposed paradigm includes two novel strategies. The first strategy is to train a text encoder to obtain latent codes that align with the hierarchically semantic of the aforementioned pretrained GAN model. The second strategy is to directly optimize the latent codes in the latent space of the pretrained GAN model with guidance from a pretrained language model. The latent codes can be randomly sampled from a prior distribution or inverted from a given image, which provides inherent supports for both image generation and manipulation from multi-modal inputs, such as sketches or semantic labels, with textual guidance. To facilitate text-guided multi-modal synthesis, we propose the Multi-Modal CelebA-HQ, a large-scale dataset consisting of real face images and corresponding semantic segmentation map, sketch, and textual descriptions. Extensive experiments on the introduced dataset demonstrate the superior performance of our proposed method. Code and data are available at https://github.com/w eihaox/TediGAN.
翻訳日:2021-04-20 13:35:39 公開日:2021-04-18
# CNN AE:畳み込みニューラルネットワークとオートエンコーダの併用による新型コロナウイルス19人の生存率検出

CNN AE: Convolution Neural Network combined with Autoencoder approach to detect survival chance of COVID 19 patients ( http://arxiv.org/abs/2104.08954v1 )

ライセンス: Link先を確認
Fahime Khozeimeh, Danial Sharifrazi, Navid Hoseini Izadi, Javad Hassannataj Joloudari, Afshin Shoeibi, Roohallah Alizadehsani, Juan M. Gorriz, Sadiq Hussain, Zahra Alizadeh Sani, Hossein Moosaei, Abbas Khosravi, Saeid Nahavandi, Sheikh Mohammed Shariful Islam(参考訳) 本稿では,臨床情報に基づいて訓練したCNNを用いて,新型コロナウイルス患者の生存率を予測する新しいCNN-AE法を提案する。 さらに, 予測精度を高めるために, オートエンコーダと組み合わせてcnnを用いた。 すでに感染した患者の生存率を予測するための最初の方法の一つである。 我々はその予測を行うために臨床データに頼る。 モチベーションは、ct画像を作成するために必要なリソースは、血圧、肝疾患などの臨床データを集めるのに必要なリソースに比べて高価で限られていることである。 当院で収集した死亡者および回復者の臨床データを用いて,本手法を評価した。 また、重要な特徴抽出と特徴間の相関計算からなるデータセット特性の注意深い分析も提示する。 新型コロナウイルス(COVID-19)患者のほとんどが通常回復しているため、データセットの死亡サンプル数は少ないため、データの不均衡につながる。 この問題を改善するために,オートエンコーダに基づくデータ拡張手順を提案する。 拡張手法の汎用性を示すため,データセット上で無作為な森林とNa\"ive Bayesを増補なしで訓練し,それらの性能を比較した。 また,本手法を他のデータセット上で評価し,さらなる一般性検証を行う。 実験の結果,標準CNNに比べてCNN-AE法の方が優れており,また無作為林やナシブベイズなど他の手法も優れていることがわかった。 CNN-AEの平均精度は96.05%であり、CNNの平均精度は92.49%である。 臨床データがcovid-19生存確率予測の信頼できるデータセットとして使用できることを示すために、cnn-aeをct画像で訓練された標準cnnと比較する。

In this paper, we propose a novel method named CNN-AE to predict survival chance of COVID-19 patients using a CNN trained on clinical information. To further increase the prediction accuracy, we use the CNN in combination with an autoencoder. Our method is one of the first that aims to predict survival chance of already infected patients. We rely on clinical data to carry out the prediction. The motivation is that the required resources to prepare CT images are expensive and limited compared to the resources required to collect clinical data such as blood pressure, liver disease, etc. We evaluate our method on a publicly available clinical dataset of deceased and recovered patients which we have collected. Careful analysis of the dataset properties is also presented which consists of important features extraction and correlation computation between features. Since most of COVID-19 patients are usually recovered, the number of deceased samples of our dataset is low leading to data imbalance. To remedy this issue, a data augmentation procedure based on autoencoders is proposed. To demonstrate the generality of our augmentation method, we train random forest and Na\"ive Bayes on our dataset with and without augmentation and compare their performance. We also evaluate our method on another dataset for further generality verification. Experimental results reveal the superiority of CNN-AE method compared to the standard CNN as well as other methods such as random forest and Na\"ive Bayes. COVID-19 detection average accuracy of CNN-AE is 96.05% which is higher than CNN average accuracy of 92.49%. To show that clinical data can be used as a reliable dataset for COVID-19 survival chance prediction, CNN-AE is compared with a standard CNN which is trained on CT images.
翻訳日:2021-04-20 13:35:11 公開日:2021-04-18
# Scale-Adv: イメージスケーリングと機械学習の分類器への共同攻撃

Scale-Adv: A Joint Attack on Image-Scaling and Machine Learning Classifiers ( http://arxiv.org/abs/2104.08690v1 )

ライセンス: Link先を確認
Yue Gao, Kassem Fawaz(参考訳) 現実世界の画像のサイズが変わるにつれて、機械学習モデルは上流の画像スケーリングアルゴリズムを含むより大きなシステムの一部である。 このシステムでは, モデルとスケーリングアルゴリズムは, 敵の例や最近の画像スケーリング攻撃など, 多数の攻撃に対して魅力的なターゲットとなっている。 これらの攻撃に対して、研究者は各処理段階での攻撃に適した防御アプローチを開発した。 これらの防御は独立して開発されるため、エンド・ツー・エンドの機械学習システムの観点から見た場合、その基礎となる仮定は疑問視される。 本稿では,敵が機械学習システム全体を対象としている場合,スケーリング攻撃や敵の事例に対する防御が依然として堅牢であるかどうかを検討する。 特に,画像スケーリングと分類段階を共同でターゲットとする新たな攻撃フレームワークであるScale-Advを提案する。 このフレームワークは、スケーリング防御の新しい表現を含む、いくつかの新しいテクニックを詰め込んでいる。 また、ホワイトボックスとブラックボックスの設定で機械学習システムパイプラインを攻撃できる2つの統合も定義している。 この枠組みに基づき,各処理段階における最先端防御を評価する。 スケールアタックでは,5つ中4つを敵の例を組み込むことで回避できることを示す。 分類では、スケールアルゴリズムの弱点を利用して、scale-advは機械学習攻撃の性能を著しく向上できることを示す。 実験により,Scale-Advは,バニラブラックボックスやホワイトボックスアタックよりも摂動が少なく,信頼性の高い逆例を生成できることがわかった。 さらに、商用オンラインAPI上でのScale-Advの転送可能性を示す。

As real-world images come in varying sizes, the machine learning model is part of a larger system that includes an upstream image scaling algorithm. In this system, the model and the scaling algorithm have become attractive targets for numerous attacks, such as adversarial examples and the recent image-scaling attack. In response to these attacks, researchers have developed defense approaches that are tailored to attacks at each processing stage. As these defenses are developed in isolation, their underlying assumptions become questionable when viewing them from the perspective of an end-to-end machine learning system. In this paper, we investigate whether defenses against scaling attacks and adversarial examples are still robust when an adversary targets the entire machine learning system. In particular, we propose Scale-Adv, a novel attack framework that jointly targets the image-scaling and classification stages. This framework packs several novel techniques, including novel representations of the scaling defenses. It also defines two integrations that allow for attacking the machine learning system pipeline in the white-box and black-box settings. Based on this framework, we evaluate cutting-edge defenses at each processing stage. For scaling attacks, we show that Scale-Adv can evade four out of five state-of-the-art defenses by incorporating adversarial examples. For classification, we show that Scale-Adv can significantly improve the performance of machine learning attacks by leveraging weaknesses in the scaling algorithm. We empirically observe that Scale-Adv can produce adversarial examples with less perturbation and higher confidence than vanilla black-box and white-box attacks. We further demonstrate the transferability of Scale-Adv on a commercial online API.
翻訳日:2021-04-20 13:31:34 公開日:2021-04-18
# tsgn:ethereumフィッシングアカウントを識別するためのトランザクションサブグラフネットワーク

TSGN: Transaction Subgraph Networks for Identifying Ethereum Phishing Accounts ( http://arxiv.org/abs/2104.08767v1 )

ライセンス: Link先を確認
Jinhuan Wang and Pengtao Chen and Shanqing Yu and Qi Xuan(参考訳) ブロックチェーン技術、特にブロックチェーンベースのトランザクションは、金融業界でこれまで見たことのない情報を提供します。 フィアット通貨とは対照的に、Bitcoinのような仮想通貨による取引は完全に公開されている。 暗号通貨の取引はブロックチェーンで永久に記録され、いつでも利用できる。 したがって、ネットワークの観点からブロックチェーンにおけるフィッシング詐欺のような違法な現象を分析するために、トランザクションネットワーク(TN)を構築することができる。 本稿では,ethereumにおけるフィッシングアカウントを識別するために,tsgnに基づく分類モデルを提案する。 まず、各アドレスのトランザクションサブグラフを抽出し、異なるマッピング機構に基づいてこれらのサブグラフを対応するTSGNに拡張する。 TSGNは、フィッシングアカウントの識別に役立てるために、より潜在的な情報を提供することができる。 さらに、Directed-TSGNは、方向属性を導入することで、フィッシング詐欺の重要なトポロジ的パターンをキャプチャするトランザクションフロー情報を保持できる。 TSGNと比較すると、Directed-TSGNは時間の複雑さがはるかに低く、グラフ表現学習の恩恵を受けている。 実験により、ネットワーク表現アルゴリズムと組み合わせることで、TSGNモデルはより多くの特徴を捉え、分類アルゴリズムを強化し、Ethereumネットワークにおけるフィッシングノードの識別精度を向上させることができることが示された。

Blockchain technology and, in particular, blockchain-based transaction offers us information that has never been seen before in the financial world. In contrast to fiat currencies, transactions through virtual currencies like Bitcoin are completely public. And these transactions of cryptocurrencies are permanently recorded on Blockchain and are available at any time. Therefore, this allows us to build transaction networks (TN) to analyze illegal phenomenons such as phishing scams in blockchain from a network perspective. In this paper, we propose a \underline{T}ransaction \underline{S}ub\underline{G}raph \underline{N}etwork (TSGN) based classification model to identify phishing accounts in Ethereum. Firstly we extract transaction subgraphs for each address and then expand these subgraphs into corresponding TSGNs based on the different mapping mechanisms. We find that TSGNs can provide more potential information to benefit the identification of phishing accounts. Moreover, Directed-TSGNs, by introducing direction attributes, can retain the transaction flow information that captures the significant topological pattern of phishing scams. By comparing with the TSGN, Directed-TSGN indeed has much lower time complexity, benefiting the graph representation learning. Experimental results demonstrate that, combined with network representation algorithms, the TSGN model can capture more features to enhance the classification algorithm and improve phishing nodes' identification accuracy in the Ethereum networks.
翻訳日:2021-04-20 13:31:12 公開日:2021-04-18
# sum-of-squaresプログラミングによるロボットアームの安全許容度推定

Provably Safe Tolerance Estimation for Robot Arms via Sum-of-Squares Programming ( http://arxiv.org/abs/2104.08896v1 )

ライセンス: Link先を確認
Weiye Zhao, Suqin He, and Changliu Liu(参考訳) 耐性推定問題は工学的応用において一般的である。 例えば、現代のロボット工学では、安全上の制約が満たされているような基準ロボット状態からの最大許容範囲の偏差を効率的に推定することは依然として困難である。 本稿では,2乗計画法を用いて結合耐性を推定する効率的なアルゴリズムを提案する。 このアルゴリズムがジョイントトレランスの厳密な下限を与えることが理論的に証明されている。 広範な数値研究により,提案手法は計算効率が高く,ほぼ最適であることが証明された。 このアルゴリズムはJTEツールボックスで実装されており、 \url{https://github.com/i ntelligent-control-l ab/Sum-of-Square-Saf ety-Optimization}で利用できる。

Tolerance estimation problems are prevailing in engineering applications. For example, in modern robotics, it remains challenging to efficiently estimate joint tolerance, \ie the maximal allowable deviation from a reference robot state such that safety constraints are still satisfied. This paper presented an efficient algorithm to estimate the joint tolerance using sum-of-squares programming. It is theoretically proved that the algorithm provides a tight lower bound of the joint tolerance. Extensive numerical studies demonstrate that the proposed method is computationally efficient and near optimal. The algorithm is implemented in the JTE toolbox and is available at \url{https://github.com/i ntelligent-control-l ab/Sum-of-Square-Saf ety-Optimization}.
翻訳日:2021-04-20 13:30:49 公開日:2021-04-18
# 試料効率の良いSim2realトランスファーのための直観的物理ガイド探査

Intuitive Physics Guided Exploration for Sample Efficient Sim2real Transfer ( http://arxiv.org/abs/2104.08795v1 )

ライセンス: Link先を確認
Buddhika Laknath Semage, Thommen George Karimpanal, Santu Rana, Svetha Venkatesh(参考訳) 物理学に基づく強化学習タスクは、単純化された物理シミュレータの恩恵を受ける可能性がある。 しかし、そのようなシミュレータは潜伏因子(例)を必要とする。 質量、摩擦係数など 関連するオブジェクトや他の環境特化要因(例)の 風速、空気密度など) 正確に特定するには、学習したシミュレーションポリシーを実際の環境に適応させるために、さらに多くの学習努力が必要となる。 このような完全な仕様は現実的ではないため、本論文では、理想的なシミュレーション環境における実世界の軌道の近似を可能にする潜在要因のタスク固有の推定を学習することに焦点を当てる。 具体的には,次の2つの新しい概念を提案する:a) アクショングループ - ある種類のアクションが特定の潜伏因子の推定と密接に関連しているという考え方,b) 部分接地 - タスク固有のダイナミクスのシミュレーションは潜伏因子の正確な推定を必要としないかもしれないという考え方。 まず、人間物理学の知識と経験に基づく直感的なアクショングループ化を導入し、実環境と対話するための新しい戦略を設計する。 次に、与えられた環境におけるタスクの事前知識を用いて、異なる潜伏要因の相対的重要性を抽出し、それを部分的な接地情報として利用することにより、任意の環境におけるタスクの効率的な学習を可能にする方法について述べる。 我々は,様々な物理ベースのタスクにおいて,我々のアプローチを実証し,限られた数の実世界インタラクションを用いて,他のベースラインと比較して優れた性能を実現することを示す。

Physics-based reinforcement learning tasks can benefit from simplified physics simulators as they potentially allow near-optimal policies to be learned in simulation. However, such simulators require the latent factors (e.g. mass, friction coefficient etc.) of the associated objects and other environment-specific factors (e.g. wind speed, air density etc.) to be accurately specified, without which, it could take considerable additional learning effort to adapt the learned simulation policy to the real environment. As such a complete specification can be impractical, in this paper, we instead, focus on learning task-specific estimates of latent factors which allow the approximation of real world trajectories in an ideal simulation environment. Specifically, we propose two new concepts: a) action grouping - the idea that certain types of actions are closely associated with the estimation of certain latent factors, and; b) partial grounding - the idea that simulation of task-specific dynamics may not need precise estimation of all the latent factors. We first introduce intuitive action groupings based on human physics knowledge and experience, which is then used to design novel strategies for interacting with the real environment. Next, we describe how prior knowledge of a task in a given environment can be used to extract the relative importance of different latent factors, and how this can be used to inform partial grounding, which enables efficient learning of the task in any arbitrary environment. We demonstrate our approach in a range of physics based tasks, and show that it achieves superior performance relative to other baselines, using only a limited number of real-world interactions.
翻訳日:2021-04-20 13:28:29 公開日:2021-04-18
# メタ強化学習による交通文化に適応したクイックラーナ自動走行車

Quick Learner Automated Vehicle Adapting its Roadmanship to Varying Traffic Cultures with Meta Reinforcement Learning ( http://arxiv.org/abs/2104.08876v1 )

ライセンス: Link先を確認
Songan Zhang, Lu Wen, Huei Peng, H. Eric Tseng(参考訳) 様々な交通文化や運転条件の下で、現場の自動運転車は、安全かつ効率的に走行し、他の道路利用者を危険にさらすことなく、適切な道路マンシップで車線変更を行うことが不可欠である。 近年では深層強化学習手法が優れており、自動走行政策にも応用されているが、新しい環境力学で目立たない交通に迅速に適応する能力が懸念されている。 マルチマルコフ決定過程(MDP)適応問題としてこの課題を定式化し,メタ強化学習(MRL)駆動方式を開発した。 MRL駆動方式がベースラインRLを著しく上回る速さで適応可能であることを検証するために,2種類の環境分布変動を設計・シミュレーションした。

It is essential for an automated vehicle in the field to perform discretionary lane changes with appropriate roadmanship - driving safely and efficiently without annoying or endangering other road users - under a wide range of traffic cultures and driving conditions. While deep reinforcement learning methods have excelled in recent years and been applied to automated vehicle driving policy, there are concerns about their capability to quickly adapt to unseen traffic with new environment dynamics. We formulate this challenge as a multi-Markov Decision Processes (MDPs) adaptation problem and developed Meta Reinforcement Learning (MRL) driving policies to showcase their quick learning capability. Two types of distribution variation in environments were designed and simulated to validate the fast adaptation capability of resulting MRL driving policies which significantly outperform a baseline RL.
翻訳日:2021-04-20 13:28:03 公開日:2021-04-18
# ニューラルネットワークによる関数近似について

On the approximation of functions by tanh neural networks ( http://arxiv.org/abs/2104.08938v1 )

ライセンス: Link先を確認
Tim De Ryck, Samuel Lanthaler and Siddhartha Mishra(参考訳) 高階ソボレフノルムにおける誤差の境界は、双曲的接的活性化関数を持つニューラルネットワークによる解析関数と同様に、ソボレフ正則近似に起因している。 これらの境界は、ニューラルネットワークのサイズに関して近似誤差の明示的な推定を与える。 2つの隠れ層しか持たないtanhニューラルネットワークは、より深いreluニューラルネットワークよりも、同等あるいはそれ以上の速度で近似関数に十分であることを示す。

We derive bounds on the error, in high-order Sobolev norms, incurred in the approximation of Sobolev-regular as well as analytic functions by neural networks with the hyperbolic tangent activation function. These bounds provide explicit estimates on the approximation error with respect to the size of the neural networks. We show that tanh neural networks with only two hidden layers suffice to approximate functions at comparable or better rates than much deeper ReLU neural networks.
翻訳日:2021-04-20 13:27:47 公開日:2021-04-18