このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210417となっている論文です。

PDF登録状況(公開日: 20210417)

TitleAuthorsAbstract論文公表日・翻訳日
# (参考訳) ResAtomシステム:ディープラーニングに基づくタンパク質およびリガンド親和性予測モデル [全文訳有]

ResAtom System: Protein and Ligand Affinity Prediction Model Based on Deep Learning ( http://arxiv.org/abs/2105.05125v1 )

ライセンス: CC BY 4.0
Yeji Wang, Shuo Wu, Yanwen Duan, Yong Huang(参考訳) モチベーション:タンパク質リガンド親和性予測は構造に基づく薬物設計の重要な部分である。 分子ドッキングと親和性予測を含む。 分子動力学は、現在高い精度で親和性を予測することができるが、大規模な仮想スクリーニングには適していない。 ディープラーニングに基づく既存の親和性予測と評価関数は、主に実験的に決定されたコンフォーメーションに依存している。 結果: ResNet ニューラルネットワークを用いたタンパク質-リガンド親和性の予測モデルを構築した。 結果のResAtom-ScoreモデルはCASF-2016ベンチマークテストセット上でピアソンの相関係数 R = 0.833 を達成する。 同時に、実験的に決定されたコンフォーメーションが存在しない場合、ResAtom-Scoreと組み合わせて、様々な既存のスコアリング機能の性能を評価した。 その結果, ResAtom-Score と組み合わせて {\Delta}VinaRF20 を用いることで, 評価関数に近いアフィニティ予測が可能であることがわかった。 これらの結果から,ResAtom系は将来,標的タンパク質を持つ小分子リガンドのシリカスクリーニングに利用される可能性が示唆された。 可用性:https://github.com/ wyji001/ResAtom

Motivation: Protein-ligand affinity prediction is an important part of structure-based drug design. It includes molecular docking and affinity prediction. Although molecular dynamics can predict affinity with high accuracy at present, it is not suitable for large-scale virtual screening. The existing affinity prediction and evaluation functions based on deep learning mostly rely on experimentally-deter mined conformations. Results: We build a predictive model of protein-ligand affinity through the ResNet neural network with added attention mechanism. The resulting ResAtom-Score model achieves Pearson's correlation coefficient R = 0.833 on the CASF-2016 benchmark test set. At the same time, we evaluated the performance of a variety of existing scoring functions in combination with ResAtom-Score in the absence of experimentally-deter mined conformations. The results show that the use of {\Delta}VinaRF20 in combination with ResAtom-Score can achieve affinity prediction close to scoring functions in the presence of experimentally-deter mined conformations. These results suggest that ResAtom system may be used for in silico screening of small molecule ligands with target proteins in the future. Availability: https://github.com/w yji001/ResAtom
翻訳日:2021-05-14 07:13:48 公開日:2021-04-17
# 一般表面の測光ステレオのための非校正型ニューラルインバースレンダリング

Uncalibrated Neural Inverse Rendering for Photometric Stereo of General Surfaces ( http://arxiv.org/abs/2012.06777v3 )

ライセンス: Link先を確認
Berk Kaya, Suryansh Kumar, Carlos Oliveira, Vittorio Ferrari, Luc Van Gool(参考訳) 本稿では,測光ステレオ問題に対する無補間深層ニューラルネットワークフレームワークを提案する。 この問題を解決するためのモデルのトレーニングのために、既存のニューラルネットワークベースの方法は、オブジェクトの正確な光方向または地対面正規化を必要とするか、その両方を必要とする。 しかし実際には、どちらの情報も正確に取得することは困難であり、視覚応用にフォトメトリックステレオアルゴリズムを広く採用することは制限されている。 この難しさを回避すべく,この問題に対する非校正型ニューラルネットワーク逆レンダリング手法を提案する。 まず、入力画像から光方向を推定し、画像再構成損失を最適化し、表面の正規値、双方向の反射率分布値、深さを計算する。 さらに, 複素曲面の凹凸部と凸部を明示的にモデル化し, 画像形成過程における相互反射の影響を考察した。 提案手法の広範囲な評価は, 一般に, 教師あり, 古典的アプローチと同等あるいは良好な結果を示す。

This paper presents an uncalibrated deep neural network framework for the photometric stereo problem. For training models to solve the problem, existing neural network-based methods either require exact light directions or ground-truth surface normals of the object or both. However, in practice, it is challenging to procure both of this information precisely, which restricts the broader adoption of photometric stereo algorithms for vision application. To bypass this difficulty, we propose an uncalibrated neural inverse rendering approach to this problem. Our method first estimates the light directions from the input images and then optimizes an image reconstruction loss to calculate the surface normals, bidirectional reflectance distribution function value, and depth. Additionally, our formulation explicitly models the concave and convex parts of a complex surface to consider the effects of interreflections in the image formation process. Extensive evaluation of the proposed method on the challenging subjects generally shows comparable or better results than the supervised and classical approaches.
翻訳日:2021-05-10 05:17:48 公開日:2021-04-17
# (参考訳) worldsheet: 世界を3dシートで包み込み、1枚の画像から合成する [全文訳有]

Worldsheet: Wrapping the World in a 3D Sheet for View Synthesis from a Single Image ( http://arxiv.org/abs/2012.09854v2 )

ライセンス: CC BY 4.0
Ronghang Hu, Nikhila Ravi, Alex Berg, Deepak Pathak(参考訳) 本稿では,単一のRGB画像のみを入力として,新しいビュー合成手法であるWorldsheetを提案する。 主な洞察は、平面メッシュシートを入力画像に縮小するだけであり、学習した中間深度と一致して、大きな視点変化でフォトリアリスティックな見えないビューを生成するのに十分な形状をキャプチャする。 そこで本研究では,包み込んだメッシュシートをテクスチャ化し,対象の視点から画像に微分的に描画できる,新しい微分可能なテクスチャ・サンプラーを提案する。 我々のアプローチは、カテゴリに依存しないエンドツーエンドのトレーニングで、3Dの監督を使わずに、テスト時に1つのイメージを必要とする。 また、複数のWorldsheetのレイヤを積み重ねてオクルージョンを処理することで、シンプルな拡張も検討しています。 Worldsheetは、複数のデータセットにまたがる単一イメージビュー合成における最先端の手法を一貫して上回る。 さらに、このシンプルなアイデアは、広い範囲の高解像度のインザミルド画像で驚くほど新しいビューを捉え、ナビゲート可能な3Dポップアップに変換する。 Video results and code at https://worldsheet.g ithub.io.com

We present Worldsheet, a method for novel view synthesis using just a single RGB image as input. The main insight is that simply shrink-wrapping a planar mesh sheet onto the input image, consistent with the learned intermediate depth, captures underlying geometry sufficient to generate photorealistic unseen views with large viewpoint changes. To operationalize this, we propose a novel differentiable texture sampler that allows our wrapped mesh sheet to be textured and rendered differentiably into an image from a target viewpoint. Our approach is category-agnostic, end-to-end trainable without using any 3D supervision, and requires a single image at test time. We also explore a simple extension by stacking multiple layers of Worldsheets to better handle occlusions. Worldsheet consistently outperforms prior state-of-the-art methods on single-image view synthesis across several datasets. Furthermore, this simple idea captures novel views surprisingly well on a wide range of high-resolution in-the-wild images, converting them into navigable 3D pop-ups. Video results and code at https://worldsheet.g ithub.io.
翻訳日:2021-05-02 11:44:03 公開日:2021-04-17
# (参考訳) ユニバーサルな継続的知識基盤を目指して [全文訳有]

Towards a Universal Continuous Knowledge Base ( http://arxiv.org/abs/2012.13568v2 )

ライセンス: CC BY 4.0
Gang Chen, Maosong Sun, and Yang Liu(参考訳) 人工知能(ai)では、知識は知的システムがタスクを達成するのに必要な情報である。 従来の知識ベースでは離散的な記号表現を用いるが、データから学習した連続表現に符号化された知識の検出は近年注目を集めている。 本研究では,複数のニューラルネットワークからインポートされた知識を格納できる連続知識ベース(ckb)を構築する手法を提案する。 提案手法の主な考え方は,各ニューラルネットワークのインタフェースを定義し,機能シミュレーション問題として知識伝達をキャストすることである。 CKBは単一のモデルから知識をインポートし、その知識を新しいモデルにエクスポートし、元のモデルと同等のパフォーマンスを達成する。 さらに興味深いことに、複数のモデルから知識ベースに知識をインポートし、そこから融合した知識を単一のモデルにエクスポートし、元のモデルよりも高い精度を達成する。 CKBでは、知識の蒸留や伝達学習も容易に行うことができる。 私たちの研究は、さまざまなaiタスクのためにトレーニングされたさまざまなニューラルネットワークにエンコードされたすべての継続的知識を収集、保存、整理するための、普遍的な継続的知識ベースを構築するための扉を開きます。

In artificial intelligence (AI), knowledge is the information required by an intelligent system to accomplish tasks. While traditional knowledge bases use discrete, symbolic representations, detecting knowledge encoded in the continuous representations learned from data has received increasing attention recently. In this work, we propose a method for building a continuous knowledge base (CKB) that can store knowledge imported from multiple, diverse neural networks. The key idea of our approach is to define an interface for each neural network and cast knowledge transferring as a function simulation problem. Experiments on text classification show promising results: the CKB imports knowledge from a single model and then exports the knowledge to a new model, achieving comparable performance with the original model. More interesting, we import the knowledge from multiple models to the knowledge base, from which the fused knowledge is exported back to a single model, achieving a higher accuracy than the original model. With the CKB, it is also easy to achieve knowledge distillation and transfer learning. Our work opens the door to building a universal continuous knowledge base to collect, store, and organize all continuous knowledge encoded in various neural networks trained for different AI tasks.
翻訳日:2021-04-25 06:09:43 公開日:2021-04-17
# (参考訳) 事前学習モデルにおけるドメイン間知識伝達限界の同定 [全文訳有]

Identifying the Limits of Cross-Domain Knowledge Transfer for Pretrained Models ( http://arxiv.org/abs/2104.08410v1 )

ライセンス: CC BY 4.0
Zhengxuan Wu, Nelson F. Liu, Christopher Potts(参考訳) 事前訓練された言語モデルは、事前訓練で見られる言語だけでなく、新しい言語や非言語データに対してもタスク固有の微調整を改善する証拠が増えている。 この驚くべきクロスドメイン転送の性質は何ですか? モデルが無作為なスクランブルによる単語の同一性に関する情報を拒否されると、どの程度の転送が起こるのかを体系的に探究することで、部分的な答えを提供する。 4つの分類タスクと2つのシーケンスラベリングタスクにおいて、ベースラインモデル、GloVe埋め込みを用いたLSTM、BERTを評価する。 BERTだけがスクランブルされたドメインへの高い転送率を示し、分類のためにはシークエンスラベリングタスクではないことがわかった。 本分析では,移動がなぜ他のタスクで成功するのかを説明するとともに,事前学習と微調整の別々の貢献を分離し,単語頻度の役割を定量化する。 これらの知見は、ドメイン間転送が発生する場所と理由を説明するのに役立ち、将来の研究と実用的な微調整作業のガイドとなる。

There is growing evidence that pretrained language models improve task-specific fine-tuning not just for the languages seen in pretraining, but also for new languages and even non-linguistic data. What is the nature of this surprising cross-domain transfer? We offer a partial answer via a systematic exploration of how much transfer occurs when models are denied any information about word identity via random scrambling. In four classification tasks and two sequence labeling tasks, we evaluate baseline models, LSTMs using GloVe embeddings, and BERT. We find that only BERT shows high rates of transfer into our scrambled domains, and for classification but not sequence labeling tasks. Our analyses seek to explain why transfer succeeds for some tasks but not others, to isolate the separate contributions of pretraining versus fine-tuning, and to quantify the role of word frequency. These findings help explain where and why cross-domain transfer occurs, which can guide future studies and practical fine-tuning efforts.
翻訳日:2021-04-24 09:15:10 公開日:2021-04-17
# (参考訳) 逐次相互文書照合の解決 [全文訳有]

Sequential Cross-Document Coreference Resolution ( http://arxiv.org/abs/2104.08413v1 )

ライセンス: CC BY 4.0
Emily Allaway, Shuai Wang, and Miguel Ballesteros(参考訳) エンティティとイベントをテキストで関連付けることは、自然言語理解の重要な要素である。 クロスドキュメント・コア参照の解決は、特にマルチドキュメント分析タスクへの関心の高まりにとって重要である。 本研究は,コア参照解決のための効率的なシーケンシャル予測パラダイムをクロスドキュメント設定に拡張し,エンティティとイベントのコア設定の競合性を実現するとともに,クロスドキュメント設定におけるシーケンシャルモデルと高階推論の有効性の強い証拠を提供する新しいモデルを提案する。 我々のモデルは、参照をクラスタ表現に漸進的に構成し、参照と既に構築されているクラスタ間のリンクを予測し、高次モデルを近似する。 さらに,コリファレンスにおける様々な入力と表現型の重要性に関する新たな知見を提供するため,広範なアブレーション研究を行う。

Relating entities and events in text is a key component of natural language understanding. Cross-document coreference resolution, in particular, is important for the growing interest in multi-document analysis tasks. In this work we propose a new model that extends the efficient sequential prediction paradigm for coreference resolution to cross-document settings and achieves competitive results for both entity and event coreference while provides strong evidence of the efficacy of both sequential models and higher-order inference in cross-document settings. Our model incrementally composes mentions into cluster representations and predicts links between a mention and the already constructed clusters, approximating a higher-order model. In addition, we conduct extensive ablation studies that provide new insights into the importance of various inputs and representation types in coreference.
翻訳日:2021-04-24 08:59:14 公開日:2021-04-17
# (参考訳) 新型コロナウイルスの接触追跡アプリのリスクスコア学習 [全文訳有]

Risk score learning for COVID-19 contact tracing apps ( http://arxiv.org/abs/2104.08415v1 )

ライセンス: CC BY 4.0
Kevin Murphy and Abhishek Kumar and Stelios Serghiou(参考訳) Google(グーグル)やApple(アップル)など、新型コロナウイルス(COVID-19)用のデジタルコンタクト追跡アプリは、特定の露出中にユーザーが感染したリスクを推定する必要がある。 このようなリスクスコアモデルは、公衆衛生局が設定しなければならない多くのパラメータを含んでいる。 これらのパラメータの設定方法に関する専門家ガイダンスは提供されているが(例えば、)。 https://github.com/l fph/gaen-risk-scorin g/blob/main/risk-sco ring.md) データ駆動アプローチをうまく利用できるかを尋ねるのは自然です。 これは、例えば、新しい変異の進化やワクチンの採用によって、病気が変化するリスクファクターに特に有用である。 本稿では,リスクスコアモデルのパラメータを自動的に最適化するための機械学習手法を提案する。 このデータは、すでに複数の保健当局によって集約されたプライバシー保護の方法で収集されているが、本論文では、シミュレーションデータに制限を課し、アプローチの実現可能性に影響を与えるさまざまな要因を体系的に研究することができる。 特に,より多くのデータが不足している場合(例えば,アプリによって記録されていない感染症など),パラメータの推測が困難になることが示された。 それでも、学習アプローチは、手動で設計されたベースラインよりも優れている。

Digital contact tracing apps for COVID-19, such as the one developed by Google and Apple, need to estimate the risk that a user was infected during a particular exposure, in order to decide whether to notify the user to take precautions, such as entering into quarantine, or requesting a test. Such risk score models contain numerous parameters that must be set by the public health authority. Although expert guidance for how to set these parameters has been provided (e.g. https://github.com/l fph/gaen-risk-scorin g/blob/main/risk-sco ring.md), it is natural to ask if we could do better using a data-driven approach. This can be particularly useful when the risk factors of the disease change, e.g., due to the evolution of new variants, or the adoption of vaccines. In this paper, we show that machine learning methods can be used to automatically optimize the parameters of the risk score model, provided we have access to exposure and outcome data. Although this data is already being collected in an aggregated, privacy-preserving way by several health authorities, in this paper we limit ourselves to simulated data, so that we can systematically study the different factors that affect the feasibility of the approach. In particular, we show that the parameters become harder to estimate when there is more missing data (e.g., due to infections which were not recorded by the app). Nevertheless, the learning approach outperforms a strong manually designed baseline.
翻訳日:2021-04-24 08:43:35 公開日:2021-04-17
# (参考訳) FiG-NeRF:3次元物体カテゴリーモデリングのための図形球面ニューラルラジアンス場 [全文訳有]

FiG-NeRF: Figure-Ground Neural Radiance Fields for 3D Object Category Modelling ( http://arxiv.org/abs/2104.08418v1 )

ライセンス: CC BY 4.0
Christopher Xie, Keunhong Park, Ricardo Martin-Brualla, Matthew Brown(参考訳) 入力画像のコレクションから高品質な3Dオブジェクトカテゴリモデルを学習するためにNeRF(Neural Radiance Fields)を用いて検討する。 以前の作業とは対照的に、前景オブジェクトと異なる背景を同時に分離しながら、これを行うことができます。 本研究では,2成分NeRFモデルであるFiG-NeRFを用いて,物体カテゴリを表す変形可能な前景と幾何学的に一定な背景としてシーンを説明する。 本手法は, 被写体の3次元画像のみを用いて, 正確な3次元オブジェクト分類モデルを学習可能であることを示す。 さらに, この2部分解により, モデルが精度良く, 鮮明なアモーダルセグメンテーションを行うことができる。 本手法は, 合成, 合成, 合成, 室内データを用いて, ビュー合成および画像忠実度測定値を用いて定量的に評価する。 本研究は,既存の手法の性能を超える3次元オブジェクトカテゴリモデリングを実証するものである。

We investigate the use of Neural Radiance Fields (NeRF) to learn high quality 3D object category models from collections of input images. In contrast to previous work, we are able to do this whilst simultaneously separating foreground objects from their varying backgrounds. We achieve this via a 2-component NeRF model, FiG-NeRF, that prefers explanation of the scene as a geometrically constant background and a deformable foreground that represents the object category. We show that this method can learn accurate 3D object category models using only photometric supervision and casually captured images of the objects. Additionally, our 2-part decomposition allows the model to perform accurate and crisp amodal segmentation. We quantitatively evaluate our method with view synthesis and image fidelity metrics, using synthetic, lab-captured, and in-the-wild data. Our results demonstrate convincing 3D object category modelling that exceed the performance of existing methods.
翻訳日:2021-04-24 08:31:03 公開日:2021-04-17
# (参考訳) TIE: 埋め込み型インクリメンタルな時間的知識グラフ補完フレームワーク [全文訳有]

TIE: A Framework for Embedding-based Incremental Temporal Knowledge Graph Completion ( http://arxiv.org/abs/2104.08419v1 )

ライセンス: CC BY 4.0
Jiapeng Wu, Yishi Xu, Yingxue Zhang, Chen Ma, Mark Coates and Jackie Chi Kit Cheung(参考訳) 時間知識グラフ(TKG)における推論は情報検索と意味探索にとって重要な課題である。 TKGが頻繁に更新される場合、特に困難である。 モデルは、TKGの変化に適応して、効率的なトレーニングと推論を行い、そのパフォーマンスを歴史的な知識で保存する必要がある。 近年のTKGコンプリート(TKGC)は,エンコーダデコーダフレームワークをタイムアウェア符号化関数で拡張することによって実現されている。 しかし、これらの方法を用いて各時間段階ごとにモデルを微調整することは、1)破滅的な忘れ方、2)モデルが事実の変化を識別できないこと(例えば、結婚の政治的関係と終わり方の変化)、3)訓練効率の欠如といった問題に対処するものではない。 これらの課題に対処するために,tkg表現学習,経験リプレイ,時間正規化を組み合わせた時間対応インクリメンタル埋め込み(tie)フレームワークを提案する。 モデルの不透過性を特徴付ける指標のセットを導入し、削除した事実と否定的なラベルを関連付ける制約を提案する。 Wikidata12kとYAGO11kデータセットによる実験結果から,提案したTIEフレームワークはトレーニング時間を約10倍短縮し,バニラフルバッチトレーニングと比較して,提案した指標を改善した。 従来の測定方法では、パフォーマンスが大幅に低下することはない。 広範なアブレーション研究により、実世界のtkgアプリケーションに関する意思決定に不可欠な、異なる評価指標間のパフォーマンストレードオフが明らかになった。

Reasoning in a temporal knowledge graph (TKG) is a critical task for information retrieval and semantic search. It is particularly challenging when the TKG is updated frequently. The model has to adapt to changes in the TKG for efficient training and inference while preserving its performance on historical knowledge. Recent work approaches TKG completion (TKGC) by augmenting the encoder-decoder framework with a time-aware encoding function. However, naively fine-tuning the model at every time step using these methods does not address the problems of 1) catastrophic forgetting, 2) the model's inability to identify the change of facts (e.g., the change of the political affiliation and end of a marriage), and 3) the lack of training efficiency. To address these challenges, we present the Time-aware Incremental Embedding (TIE) framework, which combines TKG representation learning, experience replay, and temporal regularization. We introduce a set of metrics that characterizes the intransigence of the model and propose a constraint that associates the deleted facts with negative labels. Experimental results on Wikidata12k and YAGO11k datasets demonstrate that the proposed TIE framework reduces training time by about ten times and improves on the proposed metrics compared to vanilla full-batch training. It comes without a significant loss in performance for any traditional measures. Extensive ablation studies reveal performance trade-offs among different evaluation metrics, which is essential for decision-making around real-world TKG applications.
翻訳日:2021-04-24 08:14:14 公開日:2021-04-17
# (参考訳) Robust Embeddings Via Distributions [全文訳有]

Robust Embeddings Via Distributions ( http://arxiv.org/abs/2104.08420v1 )

ライセンス: CC BY 4.0
Kira A. Selby (1), Yinong Wang (1), Ruizhe Wang (1), Peyman Passban (2), Ahmad Rashid (2), Mehdi Rezagholizadeh (2) and Pascal Poupart (1) ((1) University of Waterloo, (2) Huawei Noah's Ark Lab)(参考訳) この分野における最近の目覚ましい進歩にもかかわらず、多くの自然言語処理(NLP)モデルは、ノイズの多い領域で十分な性能を発揮するのに苦戦している。 NLPモデルのロバスト性を改善するための新しい確率的埋め込み準位法を提案する。 我々の手法であるRobust Embeddings via Distributions (RED)は、ノイズトークンと周辺コンテキストの両方からの情報を組み込んで、どの決定論的手法よりも意味空間における不確実性を表現できる埋め込みベクトル上の分布を求める。 本手法は,自然騒音と合成雑音の両方の存在下で,既存の最先端モデルを用いて多数の下流課題に対して評価を行い,文献からロバスト性に対する他の埋め込み手法よりも明らかに改善することを示す。

Despite recent monumental advances in the field, many Natural Language Processing (NLP) models still struggle to perform adequately on noisy domains. We propose a novel probabilistic embedding-level method to improve the robustness of NLP models. Our method, Robust Embeddings via Distributions (RED), incorporates information from both noisy tokens and surrounding context to obtain distributions over embedding vectors that can express uncertainty in semantic space more fully than any deterministic method. We evaluate our method on a number of downstream tasks using existing state-of-the-art models in the presence of both natural and synthetic noise, and demonstrate a clear improvement over other embedding approaches to robustness from the literature.
翻訳日:2021-04-24 07:54:42 公開日:2021-04-17
# (参考訳) Fashion-Guided Adversarial Attack on Person Segmentation [全文訳有]

Fashion-Guided Adversarial Attack on Person Segmentation ( http://arxiv.org/abs/2104.08422v1 )

ライセンス: CC BY 4.0
Marc Treu, Trung-Nghia Le, Huy H. Nguyen, Junichi Yamagishi, Isao Echizen(参考訳) 本稿では,人間インスタンスセグメンテーションネットワーク,すなわち,個人セグメンテーションネットワークを攻撃対象とする,第1の逆例ベース手法を提案する。 本稿では,対象画像中の攻撃可能な領域を自動的に識別し,画質への影響を最小限に抑えるファッショナリアタック(fashionadv)フレームワークを提案する。 ファッションスタイルの画像から学習した敵対的なテクスチャを生成し、元の画像の衣服領域にオーバーレイすることで、画像内のすべての人が、人のセグメンテーションネットワークに見えないようにする。 合成された逆境のテクスチャは目立たず、人間の目に自然に見える。 提案手法の有効性は、ロバストネストレーニングと、ターゲットネットワークの複数のコンポーネントを共同攻撃することで向上する。 大規模な実験は、人間の目に自然に見えるだけでなく、サイバー空間における画像操作と保存に対する堅牢性の観点から、FashionAdvの有効性を実証した。 コードとデータはプロジェクトのページ https://github.com/n ii-yamagishilab/fash ion_adv で公開されています。

This paper presents the first adversarial example based method for attacking human instance segmentation networks, namely person segmentation networks in short, which are harder to fool than classification networks. We propose a novel Fashion-Guided Adversarial Attack (FashionAdv) framework to automatically identify attackable regions in the target image to minimize the effect on image quality. It generates adversarial textures learned from fashion style images and then overlays them on the clothing regions in the original image to make all persons in the image invisible to person segmentation networks. The synthesized adversarial textures are inconspicuous and appear natural to the human eye. The effectiveness of the proposed method is enhanced by robustness training and by jointly attacking multiple components of the target network. Extensive experiments demonstrated the effectiveness of FashionAdv in terms of robustness to image manipulations and storage in cyberspace as well as appearing natural to the human eye. The code and data are publicly released on our project page https://github.com/n ii-yamagishilab/fash ion_adv
翻訳日:2021-04-24 07:27:44 公開日:2021-04-17
# (参考訳) 単語埋め込みメソッドは安定しているか、それに注意すべきか? [全文訳有]

Are Word Embedding Methods Stable and Should We Care About It? ( http://arxiv.org/abs/2104.08433v1 )

ライセンス: CC BY 4.0
Angana Borah, Manash Pratim Barman, Amit Awekar(参考訳) 表現学習法は、複数の実行で与えられたデータの類似した表現を一貫して生成する場合、安定であると考えられる。 Word Embedding Methods (WEM) は、与えられたテキストデータ中の各単語に対して密度の高いベクトル表現を生成する表現学習のクラスである。 本研究の中心となる考え方は,単語類似性に基づく内在的評価を用いたWEMの安定性の測定である。 我々は、Word2Vec、GloVe、fastTextの3つの人気のあるWEMを実験した。 安定度測定には,これらのモデルのトレーニングに係わる5つのパラメータの効果を検討する。 われわれは、ウィキペディア、ニュース、歌詞、欧州議会の議事録の4つの実世界のデータセットを用いて実験を行う。 また,wemの安定性が3つの下流タスク(クラスタリング,posタグ,公平性評価)に与える影響を観察した。 我々の実験は、3つのWEMの中で、fastTextが最も安定しており、GloVeとWord2Vecが続くことを示している。

A representation learning method is considered stable if it consistently generates similar representation of the given data across multiple runs. Word Embedding Methods (WEMs) are a class of representation learning methods that generate dense vector representation for each word in the given text data. The central idea of this paper is to explore the stability measurement of WEMs using intrinsic evaluation based on word similarity. We experiment with three popular WEMs: Word2Vec, GloVe, and fastText. For stability measurement, we investigate the effect of five parameters involved in training these models. We perform experiments using four real-world datasets from different domains: Wikipedia, News, Song lyrics, and European parliament proceedings. We also observe the effect of WEM stability on three downstream tasks: Clustering, POS tagging, and Fairness evaluation. Our experiments indicate that amongst the three WEMs, fastText is the most stable, followed by GloVe and Word2Vec.
翻訳日:2021-04-24 07:13:19 公開日:2021-04-17
# (参考訳) ディープカオス同期 [全文訳有]

Deep Chaos Synchronization ( http://arxiv.org/abs/2104.08436v1 )

ライセンス: CC BY 4.0
Majid Mobini, Georges Kaddoum (Senior Member, IEEE)(参考訳) 本研究では,畳み込みニューラルネットワーク(CNN)を用いた新しいDeep Chaos Synchronization (DCS)システムを導入することで,ノイズチャネル上のカオス同期の問題に対処する。 従来のディープラーニング(DL)ベースのコミュニケーション戦略は非常に強力だが、大規模なデータセットでのトレーニングは通常困難で時間を要する。 この課題に取り組むために、dcsは事前情報や大規模なデータセットを必要としない。 さらに、比較分析のための新しいリカレントニューラルネットワーク(RNN)に基づくカオス同期システムを提案する。 提案したDCSアーキテクチャは,ノイズ,収束,トレーニングに対する堅牢性の観点から,RNNベースの同期と競合することを示す。 したがって、DCSスキームはこれらの特徴により、新しい種類の変調器スキームの扉を開き、ウルトラ信頼性低レイテンシ通信(URLLC)と産業用IoT(IIoT)のノイズ、収束、およびトレーニング要件に対する堅牢性を満たす。

In this study, we address the problem of chaotic synchronization over a noisy channel by introducing a novel Deep Chaos Synchronization (DCS) system using a Convolutional Neural Network (CNN). Conventional Deep Learning (DL) based communication strategies are extremely powerful but training on large data sets is usually a difficult and time-consuming procedure. To tackle this challenge, DCS does not require prior information or large data sets. In addition, we provide a novel Recurrent Neural Network (RNN)-based chaotic synchronization system for comparative analysis. The results show that the proposed DCS architecture is competitive with RNN-based synchronization in terms of robustness against noise, convergence, and training. Hence, with these features, the DCS scheme will open the door for a new class of modulator schemes and meet the robustness against noise, convergence, and training requirements of the Ultra Reliable Low Latency Communications (URLLC) and Industrial Internet of Things (IIoT).
翻訳日:2021-04-24 07:00:29 公開日:2021-04-17
# (参考訳) tempered mcmcによるベイズグラフ畳み込みニューラルネットワーク [全文訳有]

Bayesian graph convolutional neural networks via tempered MCMC ( http://arxiv.org/abs/2104.08438v1 )

ライセンス: CC BY 4.0
Rohitash Chandra, Ayush Bhagat, Manavendra Maharana and Pavel N. Krivitsky(参考訳) 畳み込みニューラルネットワークのようなディープラーニングモデルは、画像やマルチメディアタスク、特に構造化データに長い間適用されてきた。 最近では、グラフで表現できる非構造化データにもっと注意が払われている。 この種のデータは、医療や医療、ソーシャルネットワーク、研究データリポジトリなどでよく見られる。 グラフ畳み込みニューラルネットワークは、畳み込みによる自動特徴抽出によるグラフベースのデータ表現を活用するディープラーニングの分野で最近注目を集めている。 これらの手法が幅広い用途で普及していることを考えると、堅牢な不確実性定量化が不可欠である。 大規模なモデルと非構造化データセットにとって、これは依然として課題である。 ベイズ推論は、ディープラーニングモデルのモデルパラメータの不確実性定量化に対する原理的かつ堅牢なアプローチを提供する。 ベイズ推論は他でも広く使われているが、マルコフ連鎖モンテカルロ法(mcmc)の計算要件のため、ディープラーニングへの応用は限られている。 並列計算の最近の進歩と、グラデーションを組み込んだサンプリングにおける高度な提案手法により、ベイズ深層学習手法の実装が可能となった。 本稿では,MCMCサンプリングや高度な提案手法などの最先端手法を用いたベイズグラフ深層学習手法を提案する。 この結果から,ベイジアングラフ畳み込み法は,先進的な学習法と類似した精度を提供しつつ,重要なベンチマーク問題に対する堅牢な不確実性定量化のためのより良い代替手段を提供することができた。

Deep learning models, such as convolutional neural networks, have long been applied to image and multi-media tasks, particularly those with structured data. More recently, there has been more attention to unstructured data that can be represented via graphs. These types of data are often found in health and medicine, social networks, and research data repositories. Graph convolutional neural networks have recently gained attention in the field of deep learning that takes advantage of graph-based data representation with automatic feature extraction via convolutions. Given the popularity of these methods in a wide range of applications, robust uncertainty quantification is vital. This remains a challenge for large models and unstructured datasets. Bayesian inference provides a principled and robust approach to uncertainty quantification of model parameters for deep learning models. Although Bayesian inference has been used extensively elsewhere, its application to deep learning remains limited due to the computational requirements of the Markov Chain Monte Carlo (MCMC) methods. Recent advances in parallel computing and advanced proposal schemes in sampling, such as incorporating gradients has allowed Bayesian deep learning methods to be implemented. In this paper, we present Bayesian graph deep learning techniques that employ state-of-art methods such as tempered MCMC sampling and advanced proposal schemes. Our results show that Bayesian graph convolutional methods can provide accuracy similar to advanced learning methods while providing a better alternative for robust uncertainty quantification for key benchmark problems.
翻訳日:2021-04-24 06:39:03 公開日:2021-04-17
# (参考訳) 教師の模倣による予算の学習 [全文訳有]

Learning on a Budget via Teacher Imitation ( http://arxiv.org/abs/2104.08440v1 )

ライセンス: CC BY 4.0
Ercument Ilhan, Jeremy Gow and Diego Perez-Liebana(参考訳) deep reinforcement learning(rl)テクニックは、自己生成あるいは他のエンティティから取得可能な、事前のエクスペリエンスを活用することで、大きなメリットを享受することができる。 アクションアドバイザリング(Action Advising)は、教師-学生間のアクションの形でそのような知識を伝達する柔軟な方法を提供するフレームワークである。 しかし、現実的な懸念から、これらの相互作用の数は予算に制限されているため、これらを最も適切なタイミングで実行することが不可欠である。 近年,特に学生の視点から,この問題に対処する有望な研究がいくつかある。 彼らの成功にもかかわらず、アドバイスチャレンジから学ぶための全体的な解決策として、実用的適用性と整合性に関していくつかの欠点がある。 本稿では,教師の模倣によるアドバイス再利用の概念を拡張し,アドバイス収集とアドバイス活用の問題に対処する統一的なアプローチを構築する。 また,人間の介入を最小限に抑えながら任意のタスクに適応できるように,これらのコンポーネントのパラメータを自動的に決定する手法も提案する。 5つの異なるAtariゲームで行った実験は、我々のアルゴリズムが最先端のパフォーマンスを達成し、競争相手よりも優れていることを検証する。

Deep Reinforcement Learning (RL) techniques can benefit greatly from leveraging prior experience, which can be either self-generated or acquired from other entities. Action advising is a framework that provides a flexible way to transfer such knowledge in the form of actions between teacher-student peers. However, due to the realistic concerns, the number of these interactions is limited with a budget; therefore, it is crucial to perform these in the most appropriate moments. There have been several promising studies recently that address this problem setting especially from the student's perspective. Despite their success, they have some shortcomings when it comes to the practical applicability and integrity as an overall solution to the learning from advice challenge. In this paper, we extend the idea of advice reusing via teacher imitation to construct a unified approach that addresses both advice collection and advice utilisation problems. Furthermore, we also propose a method to automatically determine the relevant hyperparameters of these components on-the-fly to make it able to adapt to any task with minimal human intervention. The experiments we performed in 5 different Atari games verify that our algorithm can outperform its competitors by achieving state-of-the-art performance, and its components themselves also provides significant advantages individually.
翻訳日:2021-04-24 06:13:47 公開日:2021-04-17
# (参考訳) 深層強化学習におけるアドバイス模倣による行動助言 [全文訳有]

Action Advising with Advice Imitation in Deep Reinforcement Learning ( http://arxiv.org/abs/2104.08441v1 )

ライセンス: CC BY 4.0
Ercument Ilhan, Jeremy Gow and Diego Perez-Liebana(参考訳) アクションアドバイザリング(action advising)は、教師と教師のパラダイムに基づいて構築されたピアツーピアの知識交換手法で、深層強化学習におけるサンプル非効率問題を緩和する。 近年,学生主導型アプローチは有望な結果を得た。 しかし、開発の初期段階にあるため、これらにはいくつかの重大な欠点がある。 現在の方法に欠けている能力の1つは、再利用によるアドバイスをさらに活用することであり、ピアツーピアの予算とコストの制約を考慮した実践的な設定において特に重要である。 そこで本研究では,学習エージェントが事前に取得したアドバイスを模倣して,学習機構自体に介入することなく直接学習方針に再利用する手法を提案する。 特に,教師の方針を模倣する行動クローニングモジュールを用いて,退学規則を取り入れて,どの状態と機器のペアが実際に収集されているかの追跡を行う。 3つのアタリゲームで実施した実験の結果, 一般化によるアドバイス再利用は, 深いRLで実現可能な選択肢であり, 簡単な早期助言ヒューリスティックと組み合わせても, 学習性能を著しく向上させながら, 実現可能であることがわかった。

Action advising is a peer-to-peer knowledge exchange technique built on the teacher-student paradigm to alleviate the sample inefficiency problem in deep reinforcement learning. Recently proposed student-initiated approaches have obtained promising results. However, due to being in the early stages of development, these also have some substantial shortcomings. One of the abilities that are absent in the current methods is further utilising advice by reusing, which is especially crucial in the practical settings considering the budget and cost constraints in peer-to-peer. In this study, we present an approach to enable the student agent to imitate previously acquired advice to reuse them directly in its exploration policy, without any interventions in the learning mechanism itself. In particular, we employ a behavioural cloning module to imitate the teacher policy and use dropout regularisation to have a notion of epistemic uncertainty to keep track of which state-advice pairs are actually collected. As the results of experiments we conducted in three Atari games show, advice reusing via generalisation is indeed a feasible option in deep RL and our approach can successfully achieve this while significantly improving the learning performance, even when paired with a simple early advising heuristic.
翻訳日:2021-04-24 05:57:30 公開日:2021-04-17
# (参考訳) 多様なマルチアンワー検索のためのジョイントパスランキング [全文訳有]

Joint Passage Ranking for Diverse Multi-Answer Retrieval ( http://arxiv.org/abs/2104.08445v1 )

ライセンス: CC BY 4.0
Sewon Min, Kenton Lee, Ming-Wei Chang, Kristina Toutanova, Hannaneh Hajishirzi(参考訳) 本研究では,各質問に対する複数の異なる回答を検索するために,探索不足の問題であるマルチアンサー検索について検討する。 このタスクでは、異なる正当な回答を欠くコストで同じ回答を含む通路を繰り返し検索してはならないため、検索された通路の合同モデリングが必要となる。 単一問合せ検索に焦点をあてる以前の作業は、共同で経路の集合を推論できないため、制限されている。 本稿では,再順位に着目したジョイントパス検索モデルであるJPRを紹介する。 検索されたパスの結合確率をモデル化するために、JPRは、新しいトレーニングと復号アルゴリズムを備えた一連のパスを選択する自動回帰リランカを使用する。 従来のアプローチと比較して、JPRは3つのマルチ回答データセットの回答カバレッジを大幅に改善している。 ダウンストリームの質問応答と組み合わせることで、より少ないパスを考慮する必要があるため、より大規模な回答生成モデルが可能になる。

We study multi-answer retrieval, an under-explored problem that requires retrieving passages to cover multiple distinct answers for a given question. This task requires joint modeling of retrieved passages, as models should not repeatedly retrieve passages containing the same answer at the cost of missing a different valid answer. Prior work focusing on single-answer retrieval is limited as it cannot reason about the set of passages jointly. In this paper, we introduce JPR, a joint passage retrieval model focusing on reranking. To model the joint probability of the retrieved passages, JPR makes use of an autoregressive reranker that selects a sequence of passages, equipped with novel training and decoding algorithms. Compared to prior approaches, JPR achieves significantly better answer coverage on three multi-answer datasets. When combined with downstream question answering, the improved retrieval enables larger answer generation models since they need to consider fewer passages, establishing a new state-of-the-art.
翻訳日:2021-04-24 05:39:37 公開日:2021-04-17
# (参考訳) ヒトの視線知覚とCNNモデル [全文訳有]

Gaze Perception in Humans and CNN-Based Model ( http://arxiv.org/abs/2104.08447v1 )

ライセンス: CC BY 4.0
Nicole X. Han, William Yang Wang, Miguel P. Eckstein(参考訳) 他人の注意の軌跡を正確に推測することは、人間の社会的相互作用に不可欠であり、AIが人間と効果的に相互作用することが重要である。 本研究では,cnn (convolutional neural network) に基づく視線と人間の視線のモデルを用いて,実世界のシーン画像における注意の軌跡を,複数の個人が共通の場所を見ている場合と比較する。 本モデルと比較すると,被写体の存在や画像中の個人数など,人間の注目点推定はシーンの文脈に影響されていることがわかった。

Making accurate inferences about other individuals' locus of attention is essential for human social interactions and will be important for AI to effectively interact with humans. In this study, we compare how a CNN (convolutional neural network) based model of gaze and humans infer the locus of attention in images of real-world scenes with a number of individuals looking at a common location. We show that compared to the model, humans' estimates of the locus of attention are more influenced by the context of the scene, such as the presence of the attended target and the number of individuals in the image.
翻訳日:2021-04-24 05:20:16 公開日:2021-04-17
# (参考訳) マルチスピーカ音声分離のためのMIMO自励式RNNビームフォーマ [全文訳有]

MIMO Self-attentive RNN Beamformer for Multi-speaker Speech Separation ( http://arxiv.org/abs/2104.08450v1 )

ライセンス: CC BY 4.0
Xiyun Li and Yong Xu and Meng Yu and Shi-Xiong Zhang and Jiaming Xu and Bo Xu and Dong Yu(参考訳) 提案手法は, 行列逆転と固有値分解を2つのRNNに置き換えることにより, 従来のMVDRよりも優れた性能を示した。本研究では, 自己注意の強力なモデリング能力を活用し, 従来のRNNベースのビームフォーマをさらに改良する自己注意型RNNビームフォーマを提案する。 音声と雑音空間共分散行列からビームフォーミング重みを学習するために,時間空間自己アテンションモジュールを提案する。 時間的自己アテンションモジュールは、RNNが共分散行列のグローバル統計学を学ぶのに役立つ。 空間自己アテンションモジュールは、共分散行列のチャネル間相関に参加するように設計されている。 さらに,マルチスピーカ指向性特徴を持つマルチチャネル入力とマルチスピーカ音声分離出力(MIMO)モデルを開発し,提案したMIMO自己注意RNNビームフォーマが,先行技術に対する音声認識(ASR)精度と知覚品質(PESQ)推定の両方を改善することを示す。

Recently, our proposed recurrent neural network (RNN) based all deep learning minimum variance distortionless response (ADL-MVDR) beamformer method yielded superior performance over the conventional MVDR by replacing the matrix inversion and eigenvalue decomposition with two RNNs.In this work, we present a self-attentive RNN beamformer to further improve our previous RNN-based beamformer by leveraging on the powerful modeling capability of self-attention. Temporal-spatial self-attention module is proposed to better learn the beamforming weights from the speech and noise spatial covariance matrices. The temporal self-attention module could help RNN to learn global statistics of covariance matrices. The spatial self-attention module is designed to attend on the cross-channel correlation in the covariance matrices. Furthermore, a multi-channel input with multi-speaker directional features and multi-speaker speech separation outputs (MIMO) model is developed to improve the inference efficiency.The evaluations demonstrate that our proposed MIMO self-attentive RNN beamformer improves both the automatic speech recognition (ASR) accuracy and the perceptual estimation of speech quality (PESQ) against prior arts.
翻訳日:2021-04-24 05:13:55 公開日:2021-04-17
# (参考訳) KazakhTTS: オープンソースのKazakhテキスト音声合成データセット [全文訳有]

KazakhTTS: An Open-Source Kazakh Text-to-Speech Synthesis Dataset ( http://arxiv.org/abs/2104.08459v1 )

ライセンス: CC BY 4.0
Saida Mussakhojayeva, Aigerim Janaliyeva, Almas Mirzakhmetov, Yerbolat Khassanov, Huseyin Atakan Varol(参考訳) 本稿では,世界中の1300万人以上が話す低リソース言語であるKazakhの高品質なオープンソース音声合成データセットを提案する。 このデータセットは、2人のプロのスピーカー(女性と男性)が話す約91時間の録音音声から成り立っている。 Kazakh text-to-speech(TTS)アプリケーションをアカデミックと産業の両方で促進するために開発された、初めて公開された大規模なデータセットである。 本稿では,データセット開発手順を説明し,課題に直面する経験を共有し,今後の重要な方向性について議論する。 データセットの信頼性を示すため、ベースラインのエンドツーエンドTSモデルを構築し、主観的平均世論スコア(MOS)を用いて評価した。 評価の結果、データセットでトレーニングされた最良のttsモデルは、両方の話者に対して4以上のmosを達成し、実用的に適用できることがわかった。 データセット、トレーニングレシピ、事前トレーニングされたTSモデルは無料で利用できる。

This paper introduces a high-quality open-source speech synthesis dataset for Kazakh, a low-resource language spoken by over 13 million people worldwide. The dataset consists of about 91 hours of transcribed audio recordings spoken by two professional speakers (female and male). It is the first publicly available large-scale dataset developed to promote Kazakh text-to-speech (TTS) applications in both academia and industry. In this paper, we share our experience by describing the dataset development procedures and faced challenges, and discuss important future directions. To demonstrate the reliability of our dataset, we built baseline end-to-end TTS models and evaluated them using the subjective mean opinion score (MOS) measure. Evaluation results show that the best TTS models trained on our dataset achieve MOS above 4 for both speakers, which makes them applicable for practical use. The dataset, training recipe, and pretrained TTS models are freely available.
翻訳日:2021-04-24 05:01:30 公開日:2021-04-17
# (参考訳) モルフォシンタクティック探索へのマルチラベルアプローチ

A multilabel approach to morphosyntactic probing ( http://arxiv.org/abs/2104.08464v1 )

ライセンス: CC BY 4.0
Naomi Tachikawa Shapiro, Amandalynne Paullada, Shane Steinert-Threlkeld(参考訳) 多言語言語モデルから単語埋め込みのモルフォシンタクティック表現を評価するための多言語探索タスクを提案する。 この課題を多言語BERT (Devlin et al., 2018) を用いて, アフリカーンス, クロアチア語, フィンランド語, ヘブライ語, 韓国語, スペイン語, トルコ語という, 様々な形態的複雑性を持つ7つの言語に対する訓練調査を行った。 この単純かつ堅牢なパラダイムを通じて、多言語BERTは、多くの形態素合成的特徴を容易に同時に抽出可能である(例えば、性、文法的ケース、プロノミナルタイプ)。 我々はさらに,アラビア語,中国語,マラーティー語,スロベニア語,タガログ語,ヨルバ語という,ゼロショットトランスファー設定における6つの"ヘルドアウト"言語に関するプローブを評価した。 このスタイルの探索は、言語モデルが言語間で共有されていると認識する言語特性を明らかにするという利点を付加している。 例えば、調査は保留言語における名詞の認識においてうまく行っており、多言語BERTが個々の言語を横断する名詞の概念を持っていることを示唆している。

We introduce a multilabel probing task to assess the morphosyntactic representations of word embeddings from multilingual language models. We demonstrate this task with multilingual BERT (Devlin et al., 2018), training probes for seven typologically diverse languages of varying morphological complexity: Afrikaans, Croatian, Finnish, Hebrew, Korean, Spanish, and Turkish. Through this simple but robust paradigm, we show that multilingual BERT renders many morphosyntactic features easily and simultaneously extractable (e.g., gender, grammatical case, pronominal type). We further evaluate the probes on six "held-out" languages in a zero-shot transfer setting: Arabic, Chinese, Marathi, Slovenian, Tagalog, and Yoruba. This style of probing has the added benefit of revealing the linguistic properties that language models recognize as being shared across languages. For instance, the probes performed well on recognizing nouns in the held-out languages, suggesting that multilingual BERT has a conception of noun-hood that transcends individual languages; yet, the same was not true of adjectives.
翻訳日:2021-04-24 04:50:27 公開日:2021-04-17
# (参考訳) 文結合によるニューラルマシン翻訳のためのデータ拡張 [全文訳有]

Sentence Concatenation Approach to Data Augmentation for Neural Machine Translation ( http://arxiv.org/abs/2104.08478v1 )

ライセンス: CC BY 4.0
Seiichiro Kondo and Kengo Hotate and Masahiro Kaneko and Mamoru Komachi(参考訳) ニューラルマシン翻訳(nmt)は、翻訳精度が高いため、最近広く注目を集めている。 しかし、低リソース言語の主要な問題である長い文の翻訳における性能は低下している。 この問題は、訓練データに長文が不足していることに起因すると推定される。 そこで本研究では,長文処理のための簡易データ拡張手法を提案する。 本手法では、与えられた並列コーパスのみを訓練データとして使用し、2つの文を連結して長文を生成する。 実験結果から, 単純性に拘わらず, 提案手法による長文翻訳の改善を確認した。 さらに,バックトランスレーションと組み合わせた場合,提案手法により翻訳品質がさらに向上する。

Neural machine translation (NMT) has recently gained widespread attention because of its high translation accuracy. However, it shows poor performance in the translation of long sentences, which is a major issue in low-resource languages. It is assumed that this issue is caused by insufficient number of long sentences in the training data. Therefore, this study proposes a simple data augmentation method to handle long sentences. In this method, we use only the given parallel corpora as the training data and generate long sentences by concatenating two sentences. Based on the experimental results, we confirm improvements in long sentence translation by the proposed data augmentation method, despite its simplicity. Moreover, the translation quality is further improved by the proposed method, when combined with back-translation.
翻訳日:2021-04-24 04:48:54 公開日:2021-04-17
# (参考訳) 効果的なクロスドメインレコメンデーションのためのデュアルメトリック学習 [全文訳有]

Dual Metric Learning for Effective and Efficient Cross-Domain Recommendations ( http://arxiv.org/abs/2104.08490v1 )

ライセンス: CC BY 4.0
Pan Li and Alexander Tuzhilin(参考訳) クロスドメインレコメンデータシステムは、消費者が異なるアプリケーションで有用なアイテムを識別するのを助けるためにますます重要になっている。 しかし、既存のクロスドメインモデルは一般的に多くの重複するユーザーを必要とし、一部のアプリケーションでは入手が困難である。 また、クロスドメインレコメンデーションタスクの双対性構造を考慮せず、ユーザとアイテム間の双方向潜時関係を考慮せず、最適なレコメンデーション性能を達成できなかった。 そこで本稿では,学習プロセスが安定化するまで,二つのドメイン間で情報を反復的に伝達する,二重学習に基づく新しいドメイン間推薦モデルを提案する。 本研究では,複数のドメインにまたがるユーザ嗜好を抽出し,異なる潜在空間にまたがるユーザ間の関係を保ちながら,新しい潜在直交マッピングを開発する。 さらに、二重学習法とメトリック学習法を組み合わせることで、2つのドメイン間の共通ユーザオーバーラップを大幅に削減し、ドメイン間の推薦性能をより向上させることができる。 提案モデルを2つの大規模産業データセットと6つのドメインペアでテストし,最先端のベースラインを一貫して大幅に上回っていることを示す。 また,提案モデルは,オーバーラップユーザが多い最先端のベースラインに匹敵する満足度の高いレコメンデーション性能を得るために,非常に少ないオーバラップユーザでも機能することを示した。

Cross domain recommender systems have been increasingly valuable for helping consumers identify useful items in different applications. However, existing cross-domain models typically require large number of overlap users, which can be difficult to obtain in some applications. In addition, they did not consider the duality structure of cross-domain recommendation tasks, thus failing to take into account bidirectional latent relations between users and items and achieve optimal recommendation performance. To address these issues, in this paper we propose a novel cross-domain recommendation model based on dual learning that transfers information between two related domains in an iterative manner until the learning process stabilizes. We develop a novel latent orthogonal mapping to extract user preferences over multiple domains while preserving relations between users across different latent spaces. Furthermore, we combine the dual learning method with the metric learning approach, which allows us to significantly reduce the required common user overlap across the two domains and leads to even better cross-domain recommendation performance. We test the proposed model on two large-scale industrial datasets and six domain pairs, demonstrating that it consistently and significantly outperforms all the state-of-the-art baselines. We also show that the proposed model works well with very few overlap users to obtain satisfying recommendation performance comparable to the state-of-the-art baselines that use many overlap users.
翻訳日:2021-04-23 13:29:54 公開日:2021-04-17
# (参考訳) 部分観測可能な深部RLの自己監督補助損失 [全文訳有]

A Self-Supervised Auxiliary Loss for Deep RL in Partially Observable Settings ( http://arxiv.org/abs/2104.08492v1 )

ライセンス: CC BY 4.0
Eltayeb Ahmed, Luisa Zintgraf, Christian A. Schroeder de Witt and Nicolas Usunier(参考訳) 本研究では,高機能エージェントが空間環境をナビゲートするために必要となる環境において,強化学習に役立つ補助的損失を探索する。 提案する補助的損失は、エージェントの現在のエピソード軌跡からサンプリングされた一対の状態が整列しているかどうかを予測するニューラルネットワーク分類器の分類誤差を最小化することである。 分類器は、エージェントのメモリだけでなく、状態のペアとして入力される。 この補助的損失の動機は、エージェントエピソードの軌跡において2つの状態のどちらがより最近で、どちらの状態がエージェントに空間的に近いかと強い相関関係にあることである。 我々の仮説は、この問題に答えるための学習機能により、エージェントは空間的推論を促進する状態の記憶表現を学習し、内部化する。 この補助的な損失をグリッドワールドのナビゲーションタスクでテストし、強力なベースラインアプローチと比較して累積エピソード報酬が9.6%増加した。

In this work we explore an auxiliary loss useful for reinforcement learning in environments where strong performing agents are required to be able to navigate a spatial environment. The auxiliary loss proposed is to minimize the classification error of a neural network classifier that predicts whether or not a pair of states sampled from the agents current episode trajectory are in order. The classifier takes as input a pair of states as well as the agent's memory. The motivation for this auxiliary loss is that there is a strong correlation with which of a pair of states is more recent in the agents episode trajectory and which of the two states is spatially closer to the agent. Our hypothesis is that learning features to answer this question encourages the agent to learn and internalize in memory representations of states that facilitate spatial reasoning. We tested this auxiliary loss on a navigation task in a gridworld and achieved 9.6% increase in accumulative episode reward compared to a strong baseline approach.
翻訳日:2021-04-23 13:03:15 公開日:2021-04-17
# (参考訳) 統合型オーディオ・ビジュアルリップバイオメトリックスのための深層学習の探索 [全文訳有]

Exploring Deep Learning for Joint Audio-Visual Lip Biometrics ( http://arxiv.org/abs/2104.08510v1 )

ライセンス: CC BY 4.0
Meng Liu, Longbiao Wang, Kong Aik Lee, Hanyi Zhang, Chang Zeng, Jianwu Dang(参考訳) 音声視覚(AV)リップバイオメトリックスは、音声通信における音声と視覚の両方の利点を利用する有望な認証技術である。 従来の研究は、AVリップバイオメトリックスの有用性を示した。 しかし、大型avデータベースの欠如は、ディープラーニングに基づく視聴覚バイオメトリックスの探求を妨げている。 この問題に対処するため,既存の公開データベースを用いて中規模データベースをコンパイルする。 一方,我々は,畳み込みニューラルネットワーク(CNN)ベースのビデオモジュール,時間遅延ニューラルネットワーク(TDNN)ベースのオーディオモジュール,マルチモーダル融合モジュールによって実現されたDeepLip AVリップバイオメトリックスシステムを構築した。 実験の結果、DeepLipは文脈モデルにおいて従来の話者認識モデルよりも優れており、テストデータセットでそれぞれ0.75%と1.11%の誤差率で、最高の単一モダリティベースラインと比較して50%以上の相対的な改善を実現していることがわかった。

Audio-visual (AV) lip biometrics is a promising authentication technique that leverages the benefits of both the audio and visual modalities in speech communication. Previous works have demonstrated the usefulness of AV lip biometrics. However, the lack of a sizeable AV database hinders the exploration of deep-learning-based audio-visual lip biometrics. To address this problem, we compile a moderate-size database using existing public databases. Meanwhile, we establish the DeepLip AV lip biometrics system realized with a convolutional neural network (CNN) based video module, a time-delay neural network (TDNN) based audio module, and a multimodal fusion module. Our experiments show that DeepLip outperforms traditional speaker recognition models in context modeling and achieves over 50% relative improvements compared with our best single modality baseline, with an equal error rate of 0.75% and 1.11% on the test datasets, respectively.
翻訳日:2021-04-23 12:55:06 公開日:2021-04-17
# (参考訳) 形態的インフレクションの最小スーパービジョン [全文訳有]

Minimal Supervision for Morphological Inflection ( http://arxiv.org/abs/2104.08512v1 )

ライセンス: CC BY-SA 4.0
Omer Goldman and Reut Tsarfaty(参考訳) モルフォロジー・インフレクション・タスクの様々な風味に対するニューラルモデルは、十分なラベル付きデータを与えられた場合、非常に正確であることが証明されている。 本研究は,ラベル付きデータのブートストラップを,ラベル付けされていない大量のテキストを伴って,ラベル付きパラダイムと同等に設定することで,このアノテーションボトルネックを克服することを目的としている。 提案手法は, 形態素系の多種多様な規則性を二相的に利用し, そこでは, {\em の類似に基づく単語タグ付けに続いて, {\em 距離に基づく単語ペアリングを行う。 本研究では,8言語にまたがるParadigm Cell Filling Problemを試行し,比較的単純な形態を持つ言語では,その直交正則性によって優雅な精度が得られることを示した。 正書法と意味正規性の組み合わせは、特に複雑な形態素-音韻体系の困難を緩和する。 以上の結果から,多くのタグ付き例を手作りすることは不要な作業である可能性が示唆された。 しかし、ほとんど使われない形式に対処するためには、より多くの作業が必要である。

Neural models for the various flavours of morphological inflection tasks have proven to be extremely accurate given ample labeled data -- data that may be slow and costly to obtain. In this work we aim to overcome this annotation bottleneck by bootstrapping labeled data from a seed as little as {\em five} labeled paradigms, accompanied by a large bulk of unlabeled text. Our approach exploits different kinds of regularities in morphological systems in a two-phased setup, where word tagging based on {\em analogies} is followed by word pairing based on {\em distances}. We experiment with the Paradigm Cell Filling Problem over eight typologically different languages, and find that, in languages with relatively simple morphology, orthographic regularities on their own allow inflection models to achieve respectable accuracy. Combined orthographic and semantic regularities alleviate difficulties with particularly complex morpho-phonological systems. Our results suggest that hand-crafting many tagged examples might be an unnecessary effort. However, more work is needed in order to address rarely used forms.
翻訳日:2021-04-23 12:43:31 公開日:2021-04-17
# (参考訳) 音声データからの多言語・言語間インテント検出 [全文訳有]

Multilingual and Cross-Lingual Intent Detection from Spoken Data ( http://arxiv.org/abs/2104.08524v1 )

ライセンス: CC BY-SA 4.0
Daniela Gerz, Pei-Hao Su, Razvan Kusztos, Avishek Mondal, Micha{\l} Lis, Eshan Singhal, Nikola Mrk\v{s}i\'c, Tsung-Hsien Wen, Ivan Vuli\'c(参考訳) 本稿では,音声データから多言語間および多言語間インテント検出に関する体系的研究を行う。 この研究は、音声データを用いた意図検出タスクのための最初のトレーニングおよび評価リソースであるminds-14と呼ばれる新しいリソースを活用する。 e-bankingドメインの商用システムから抽出された14の意図をカバーしており、14の多様な言語の例に関連付けられている。 その結果,機械翻訳モデルと最先端の多言語文エンコーダ(例: labse)を組み合わせることで,minds-14の対象言語の大部分において強い意図検出が可能となり,ゼロショットとマイショットの学習,翻訳方向,音声認識の影響など,さまざまな軸間で比較分析を行うことができた。 本研究は, 音声データからの多言語意図検出装置の開発と評価を, 先行研究と比較してはるかに広い範囲で行うための重要なステップであると考えている。

We present a systematic study on multilingual and cross-lingual intent detection from spoken data. The study leverages a new resource put forth in this work, termed MInDS-14, a first training and evaluation resource for the intent detection task with spoken data. It covers 14 intents extracted from a commercial system in the e-banking domain, associated with spoken examples in 14 diverse language varieties. Our key results indicate that combining machine translation models with state-of-the-art multilingual sentence encoders (e.g., LaBSE) can yield strong intent detectors in the majority of target languages covered in MInDS-14, and offer comparative analyses across different axes: e.g., zero-shot versus few-shot learning, translation direction, and impact of speech recognition. We see this work as an important step towards more inclusive development and evaluation of multilingual intent detectors from spoken data, in a much wider spectrum of languages compared to prior work.
翻訳日:2021-04-23 12:27:10 公開日:2021-04-17
# (参考訳) The Topic Confusion Task: A novel Scenario for Authorship Attribution [全文訳有]

The Topic Confusion Task: A Novel Scenario for Authorship Attribution ( http://arxiv.org/abs/2104.08530v1 )

ライセンス: CC BY 4.0
Malik H. Altakrori (1 and 3), Jackie Chi Kit Cheung (1 and 3), Benjamin C. M. Fung (2 and 3) ((1) School of Computer Science -McGill University, (2) School of Information Studies-McGill University, (3) Mila)(参考訳) 著者の帰属(authorship attribution)は、候補者の著者群から匿名のテキストの最も信頼できる著者を特定する問題である。 研究者は、未確認のトピックがテストフェーズで使用されるかどうかによって異なる、著者帰属の同じトピックと横断的なシナリオを調査した。 しかし、どちらのシナリオも、著者のスタイルを捉えなかったり、トピックシフトによってエラーが発生したり、他の要因によってエラーが発生したりすることを説明できない。 そこで,本論文では,著者と著者の対話的構成をトレーニングセットとテストセットに切り替える「emph{topic confusion}」タスクを提案する。 このセットアップにより、アトリビューションプロセスのエラーを調査できます。 特徴がトピックを捉えているため,スイッチによってモデルの混乱が引き起こされ,特徴が書き込みスタイルをキャプチャできないため,モデルが弱くなるという,正確性と2つのエラー対策について検討した。 特徴の異なる特徴を評価した結果,話題の変動の影響を受けにくく,帰属過程の精度を高めることができることがわかった。 さらに,単語レベルの$n$-gramと組み合わせることで,クロストピックシナリオにおける最先端技術よりも優れていることを示す。 最後に,BERT や RoBERTa のような事前学習型言語モデルは,このタスクでは性能が悪く,単純な$n$-gram 機能により性能が向上していることを示す。

Authorship attribution is the problem of identifying the most plausible author of an anonymous text from a set of candidate authors. Researchers have investigated same-topic and cross-topic scenarios of authorship attribution, which differ according to whether unseen topics are used in the testing phase. However, neither scenario allows us to explain whether errors are caused by failure to capture authorship style, by the topic shift or by other factors. Motivated by this, we propose the \emph{topic confusion} task, where we switch the author-topic configuration between training and testing set. This setup allows us to probe errors in the attribution process. We investigate the accuracy and two error measures: one caused by the models' confusion by the switch because the features capture the topics, and one caused by the features' inability to capture the writing styles, leading to weaker models. By evaluating different features, we show that stylometric features with part-of-speech tags are less susceptible to topic variations and can increase the accuracy of the attribution process. We further show that combining them with word-level $n$-grams can outperform the state-of-the-art technique in the cross-topic scenario. Finally, we show that pretrained language models such as BERT and RoBERTa perform poorly on this task, and are outperformed by simple $n$-gram features.
翻訳日:2021-04-23 12:15:03 公開日:2021-04-17
# (参考訳) マルチパースペクティブ抽象的回答要約 [全文訳有]

Multi-Perspective Abstractive Answer Summarization ( http://arxiv.org/abs/2104.08536v1 )

ライセンス: CC BY 4.0
Alexander R. Fabbri, Xiaojian Wu, Srini Iyer, Mona Diab(参考訳) Stack OverflowやYahoo!といったコミュニティ質問回答(CQA)フォーラム。 回答には、幅広い質問に対する回答の豊富なリソースが含まれている。 各質問スレッドは、異なる視点で多数の回答を受け取ることができる。 マルチパースペクティブな回答要約の目標は、答えのすべての観点を含む要約を作成することである。 マルチパースペクティブで抽象的な回答要約のための大きな障害は、このような要約を生成するための監督を提供するデータセットがないことである。 本研究は,既存のCQAフォーラムから多視点・多点抽象要約を自動生成する新しいデータセット作成手法を提案する。 このデータセットが提供するスーパービジョンは、本質的にマルチパースペクティブな要約を生成するモデルを訓練する。 さらに,複数の視点を維持しながら,より多様で忠実な回答サマリーを出力するモデルを訓練するために,文関連予測とマルチタスク損失を併用したマルチリワード最適化手法を提案する。 提案手法は, 強力なベースラインと比較して, 自動評価と人間評価により, 視点と忠実性が向上したことを示す。

Community Question Answering (CQA) forums such as Stack Overflow and Yahoo! Answers contain a rich resource of answers to a wide range of questions. Each question thread can receive a large number of answers with different perspectives. The goal of multi-perspective answer summarization is to produce a summary that includes all perspectives of the answer. A major obstacle for multi-perspective, abstractive answer summarization is the absence of a dataset to provide supervision for producing such summaries. This work introduces a novel dataset creation method to automatically create multi-perspective, bullet-point abstractive summaries from an existing CQA forum. Supervision provided by this dataset trains models to inherently produce multi-perspective summaries. Additionally, to train models to output more diverse, faithful answer summaries while retaining multiple perspectives, we propose a multi-reward optimization technique coupled with a sentence-relevance prediction multi-task loss. Our methods demonstrate improved coverage of perspectives and faithfulness as measured by automatic and human evaluations compared to a strong baseline.
翻訳日:2021-04-23 11:13:13 公開日:2021-04-17
# (参考訳) 非教師なし低線量ct用インバータブルジェネレータを用いたサイクルフリーサイクガン [全文訳有]

Cycle-free CycleGAN using Invertible Generator for Unsupervised Low-Dose CT Denoising ( http://arxiv.org/abs/2104.08538v1 )

ライセンス: CC BY 4.0
Taesung Kwon, Jong Chul Ye(参考訳) 近年、cycleganは、ペアトレーニングデータセットを必要とせずに、低線量x線ct(ct)の高性能、超高速デノイジンを提供することが示された。 これはサイクル一貫性のおかげで可能だったが、cycleganは2つのジェネレータと2つの識別器を必要とし、サイクル一貫性を強制し、重要なgpuリソースとトレーニングのための技術的スキルを要求する。 Adaptive Instance Normalization (AdaIN) によるチューニング可能な CycleGAN の提案は,ひとつのジェネレータを使用することで問題を緩和している。 しかし、トレーニングには2つの識別器と追加のAdaINコードジェネレータが必要である。 そこで本研究では,単一生成器と判別器で構成されるが,サイクル一貫性を保証できる新しいサイクルフリーサイクルganアーキテクチャを提案する。 主な革新は、可逆生成器の使用が自動的にサイクル整合条件を満たし、CycleGANの定式化において追加の判別器を除去するという観察から生じる。 可逆発生器をより効果的にするために,ウェーブレット残差領域にネットワークを実装した。 各種低線量CT画像を用いた広範囲な実験により,従来のCycleGANと比較して学習可能なパラメータの10%と学習時間を短縮し,難聴化性能を大幅に向上できることを確認した。

Recently, CycleGAN was shown to provide high-performance, ultra-fast denoising for low-dose X-ray computed tomography (CT) without the need for a paired training dataset. Although this was possible thanks to cycle consistency, CycleGAN requires two generators and two discriminators to enforce cycle consistency, demanding significant GPU resources and technical skills for training. A recent proposal of tunable CycleGAN with Adaptive Instance Normalization (AdaIN) alleviates the problem in part by using a single generator. However, two discriminators and an additional AdaIN code generator are still required for training. To solve this problem, here we present a novel cycle-free Cycle-GAN architecture, which consists of a single generator and a discriminator but still guarantees cycle consistency. The main innovation comes from the observation that the use of an invertible generator automatically fulfills the cycle consistency condition and eliminates the additional discriminator in the CycleGAN formulation. To make the invertible generator more effective, our network is implemented in the wavelet residual domain. Extensive experiments using various levels of low-dose CT images confirm that our method can significantly improve denoising performance using only 10% of learnable parameters and faster training time compared to the conventional CycleGAN.
翻訳日:2021-04-23 10:52:44 公開日:2021-04-17
# (参考訳) dwug: 4つの言語におけるダイアクロニックな単語使用グラフの大きなリソース [全文訳有]

DWUG: A large Resource of Diachronic Word Usage Graphs in Four Languages ( http://arxiv.org/abs/2104.08540v1 )

ライセンス: CC BY 4.0
Dominik Schlechtweg, Nina Tahmasebi, Simon Hengchen, Haim Dubossarsky, Barbara McGillivray(参考訳) 単語の意味は、同期的にも対数的にも、捕獲が難しいことで悪名高い。 本稿では,10万の人間の意味的近さ判断に基づいて,4言語で意味するアノテーションを意味づける格付け付き文脈付きダイアクロニック単語の最大資源の作成について述べる。 マルチラウンドのインクリメンタルなアノテーションプロセス、クラスタアルゴリズムによる使用方法をセンスにグループ化する選択、そしてこのデータセットに可能なdiachronicとsyncnicを詳細に記述します。

Word meaning is notoriously difficult to capture, both synchronically and diachronically. In this paper, we describe the creation of the largest resource of graded contextualized, diachronic word meaning annotation in four different languages, based on 100,000 human semantic proximity judgments. We thoroughly describe the multi-round incremental annotation process, the choice for a clustering algorithm to group usages into senses, and possible - diachronic and synchronic - uses for this dataset.
翻訳日:2021-04-23 10:32:20 公開日:2021-04-17
# (参考訳) TransVG: トランスフォーマーによるエンドツーエンドの視覚グラウンド [全文訳有]

TransVG: End-to-End Visual Grounding with Transformers ( http://arxiv.org/abs/2104.08541v1 )

ライセンス: CC BY 4.0
Jiajun Deng, Zhengyuan Yang, Tianlang Chen, Wengang Zhou, and Houqiang Li(参考訳) 本稿では,言語クエリを画像上にグラウンド化する作業,すなわちTransVGという視覚的グラウンド化のための,巧妙で効果的なトランスフォーマーベースのフレームワークを提案する。 2段階または1段階を含む最先端の手法は、クエリ推論とマルチモーダル融合を実行するために手動で設計されたメカニズムを持つ複雑なモジュールに依存している。 しかし、クエリ分解や画像シーングラフといった融合モジュール設計における特定のメカニズムの関与により、モデルが特定のシナリオでデータセットに過剰に適合し、視覚的言語的コンテキスト間の相性が制限される。 そこで本研究では,トランスフォーマティブを利用してマルチモーダル対応を確立することを提案し,複雑な融合モジュール(モジュラーアテンションネットワーク,動的グラフ,マルチモーダルツリーなど)を,より高性能な簡易なトランスフォーマエンコーダ層に置き換えることができることを示す。 さらに,視覚接地を直接座標回帰問題として再定式化し,候補群(すなわち領域提案やアンカーボックス)から予測することを避ける。 広範に使用される5つのデータセットについて広範な実験を行い、transvgによって一連の最新記録をセットする。 トランスフォーマーベースのビジュアルグラウンドフレームワークのベンチマークを構築し、コードを一般公開します。

In this paper, we present a neat yet effective transformer-based framework for visual grounding, namely TransVG, to address the task of grounding a language query to the corresponding region onto an image. The state-of-the-art methods, including two-stage or one-stage ones, rely on a complex module with manually-designed mechanisms to perform the query reasoning and multi-modal fusion. However, the involvement of certain mechanisms in fusion module design, such as query decomposition and image scene graph, makes the models easily overfit to datasets with specific scenarios, and limits the plenitudinous interaction between the visual-linguistic context. To avoid this caveat, we propose to establish the multi-modal correspondence by leveraging transformers, and empirically show that the complex fusion modules (e.g., modular attention network, dynamic graph, and multi-modal tree) can be replaced by a simple stack of transformer encoder layers with higher performance. Moreover, we re-formulate the visual grounding as a direct coordinates regression problem and avoid making predictions out of a set of candidates (i.e., region proposals or anchor boxes). Extensive experiments are conducted on five widely used datasets, and a series of state-of-the-art records are set by our TransVG. We build the benchmark of transformer-based visual grounding framework and will make our code available to the public.
翻訳日:2021-04-23 10:16:21 公開日:2021-04-17
# (参考訳) マルチビュー埋め込み空間におけるマルチソースニューラルトピックモデリング [全文訳有]

Multi-source Neural Topic Modeling in Multi-view Embedding Spaces ( http://arxiv.org/abs/2104.08551v1 )

ライセンス: CC BY 4.0
Pankaj Gupta, Yatin Chaudhary, Hinrich Sch\"utze(参考訳) 単語の埋め込みとトピックは相補的な表現であるが、いくつかの過去の研究では、(神経)トピックモデリングにおける事前訓練された単語埋め込みのみを使用して、短文または小文書のデータの疎結合に対処している。 本研究は,(1)事前学習された話題埋め込み,(2)事前学習された単語埋め込み(Glove非感受性およびBERTモデルからのコンテキスト感受性)を1つまたは複数のソースから組み合わせた,トピックの品質向上と多面的対処を行う。 そのために、まず、事前学習されたトピック(トピックプール)とワード埋め込み(ワードプール)の各プールを構築します。 次に、1つ以上の関連するソースドメインを特定し、スパースターゲットドメインで意味のある学習をガイドするために知識を伝達する。 ニューラルトピックモデリングでは、ニュースや医療領域からの短文・長文・小・大規模文書コレクションを用いて、一般化(複雑度)、解釈可能性(トピックコヒーレンス)、情報検索(IR)を通じてトピックや文書表現の品質を定量化する。 マルチソースのマルチビュー埋め込み空間を紹介し,6つのソース(高リソース)と5つのターゲット(低リソース)コーパスを用いた最先端のニューラルネットワークトピックモデリングを示した。

Though word embeddings and topics are complementary representations, several past works have only used pretrained word embeddings in (neural) topic modeling to address data sparsity in short-text or small collection of documents. This work presents a novel neural topic modeling framework using multi-view embedding spaces: (1) pretrained topic-embeddings, and (2) pretrained word-embeddings (context insensitive from Glove and context-sensitive from BERT models) jointly from one or many sources to improve topic quality and better deal with polysemy. In doing so, we first build respective pools of pretrained topic (i.e., TopicPool) and word embeddings (i.e., WordPool). We then identify one or more relevant source domain(s) and transfer knowledge to guide meaningful learning in the sparse target domain. Within neural topic modeling, we quantify the quality of topics and document representations via generalization (perplexity), interpretability (topic coherence) and information retrieval (IR) using short-text, long-text, small and large document collections from news and medical domains. Introducing the multi-source multi-view embedding spaces, we have shown state-of-the-art neural topic modeling using 6 source (high-resource) and 5 target (low-resource) corpora.
翻訳日:2021-04-23 09:58:49 公開日:2021-04-17
# (参考訳) 目的依存不確かさ駆動網膜血管セグメンテーション [全文訳有]

Objective-Dependent Uncertainty Driven Retinal Vessel Segmentation ( http://arxiv.org/abs/2104.08554v1 )

ライセンス: CC BY 4.0
Suraj Mishra, Danny Z. Chen, X. Sharon Hu(参考訳) 血管新生疾患の診断から白質病変の発見に至るまで,底部画像の細血管分割は極めて重要である。 正確な血管分割の予測結果が知られている。 しかし、小さな容器を分割する効果はまだ限られている。 本稿では,微小血管分割を我々の枠組みに組み込んだ網膜血管分割について検討した。 そこで本研究では,血管分割を2つの目的に分割するディープ畳み込みニューラルネットワーク(CNN)を提案する。 具体的には, 血管の細分化と小血管の細分化を2つの目的と捉えた。 そして,目的依存的不確実性(homoscedastic)を生かして,ネットワークが両方の目的を同時に学習できるようにする。 さらに, 個々の目的を改善するために, (a) 小型容器接続性向上のための補助損失(すなわち, 小型容器分割の改善) および (b) 局在性向上のためのエンコーダ・デコーダ拡張アーキテクチャ (すなわち, 正確な容器分割のための) を提案する。 3つのパブリック網膜血管セグメンテーションデータセット(CHASE_DB1,DRIVE,STA RE)を用いて,微小血管のセグメンテーションにおけるフレームワークの優位性を検証した。

From diagnosing neovascular diseases to detecting white matter lesions, accurate tiny vessel segmentation in fundus images is critical. Promising results for accurate vessel segmentation have been known. However, their effectiveness in segmenting tiny vessels is still limited. In this paper, we study retinal vessel segmentation by incorporating tiny vessel segmentation into our framework for the overall accurate vessel segmentation. To achieve this, we propose a new deep convolutional neural network (CNN) which divides vessel segmentation into two separate objectives. Specifically, we consider the overall accurate vessel segmentation and tiny vessel segmentation as two individual objectives. Then, by exploiting the objective-dependent (homoscedastic) uncertainty, we enable the network to learn both objectives simultaneously. Further, to improve the individual objectives, we propose: (a) a vessel weight map based auxiliary loss for enhancing tiny vessel connectivity (i.e., improving tiny vessel segmentation), and (b) an enhanced encoder-decoder architecture for improved localization (i.e., for accurate vessel segmentation). Using 3 public retinal vessel segmentation datasets (CHASE_DB1, DRIVE, and STARE), we verify the superiority of our proposed framework in segmenting tiny vessels (8.3% average improvement in sensitivity) while achieving better area under the receiver operating characteristic curve (AUC) compared to state-of-the-art methods.
翻訳日:2021-04-23 09:34:44 公開日:2021-04-17
# (参考訳) 反復フィードバック(MoTIF)を用いたモバイルアプリタスク : 対話型視覚環境におけるタスク実現可能性 [全文訳有]

Mobile App Tasks with Iterative Feedback (MoTIF): Addressing Task Feasibility in Interactive Visual Environments ( http://arxiv.org/abs/2104.08560v1 )

ライセンス: CC BY 4.0
Andrea Burns, Deniz Arsan, Sanjna Agrawal, Ranjitha Kumar, Kate Saenko, Bryan A. Plummer(参考訳) 近年、視覚言語研究は、対話型質問応答、視覚的常識推論、質問応答可能性予測など、より複雑な推論を必要とするタスクの研究にシフトしている。 しかし、これらの問題に使用されるデータセットは、あいまいな自然言語要求や多様なデジタルドメインなど、実際の入力とマルチモーダル環境の複雑さを捉えることができない。 これまで最も多くの対話型環境に対応する自然言語コマンドを備えたデータセットである,反復フィードバック(motif)を備えたモバイルアプリタスクを紹介する。 MoTIFは、満足できない対話環境のための自然言語要求を最初に含み、タスク不確実性解決の研究を可能にするために、このサブセットについてフォローアップ質問を得る。 実現可能性分類実験を行い、F1スコア37.3にしか達せず、よりリッチな視覚言語表現の必要性を検証し、タスク実現可能性について推論するためのアーキテクチャを改善した。

In recent years, vision-language research has shifted to study tasks which require more complex reasoning, such as interactive question answering, visual common sense reasoning, and question-answer plausibility prediction. However, the datasets used for these problems fail to capture the complexity of real inputs and multimodal environments, such as ambiguous natural language requests and diverse digital domains. We introduce Mobile app Tasks with Iterative Feedback (MoTIF), a dataset with natural language commands for the greatest number of interactive environments to date. MoTIF is the first to contain natural language requests for interactive environments that are not satisfiable, and we obtain follow-up questions on this subset to enable research on task uncertainty resolution. We perform initial feasibility classification experiments and only reach an F1 score of 37.3, verifying the need for richer vision-language representations and improved architectures to reason about task feasibility.
翻訳日:2021-04-23 09:25:56 公開日:2021-04-17
# (参考訳) GupShup: オープンドメインコードスイッチド会話の抽象化要約のための注釈付きコーパス [全文訳有]

GupShup: An Annotated Corpus for Abstractive Summarization of Open-Domain Code-Switched Conversations ( http://arxiv.org/abs/2104.08578v1 )

ライセンス: CC BY-SA 4.0
Laiba Mehnaz, Debanjan Mahata, Rakesh Gosangi, Uma Sushmitha Gunturi, Riya Jain, Gauri Gupta, Amardeep Kumar, Isabelle Lee, Anish Acharya, Rajiv Ratn Shah(参考訳) コードスイッチングは、会話中に話者が異なる言語を切り替えるコミュニケーション現象である。 会話エージェントやチャットプラットフォームの普及により、コードスイッチングは世界中の多言語コミュニティで書かれた会話の不可欠な部分となっている。 これにより、これらの会話を要約し理解する技術を開発することが不可欠である。 そこで本研究では,ヒンディー語とヒンディー語で6,831以上の会話と,それに対応する英語とヒンディー語で記述された要約文を含む,ヒンディー語で書かれた会話要約データセットGupShupを開発した。 本稿では,データ収集とアノテーションプロセス全体の詳細な説明を行う。 様々なコード切り換え統計を用いてデータセットを分析する。 我々は,最先端の抽象要約モデルを訓練し,自動計測と人間評価の両方を用いてその性能を報告する。 以上の結果から,マルチ言語 mBART モデルとマルチビュー seq2seq モデルでは,新しいデータセット上で最高の性能が得られることがわかった。

Code-switching is the communication phenomenon where speakers switch between different languages during a conversation. With the widespread adoption of conversational agents and chat platforms, code-switching has become an integral part of written conversations in many multi-lingual communities worldwide. This makes it essential to develop techniques for summarizing and understanding these conversations. Towards this objective, we introduce abstractive summarization of Hindi-English code-switched conversations and develop the first code-switched conversation summarization dataset - GupShup, which contains over 6,831 conversations in Hindi-English and their corresponding human-annotated summaries in English and Hindi-English. We present a detailed account of the entire data collection and annotation processes. We analyze the dataset using various code-switching statistics. We train state-of-the-art abstractive summarization models and report their performances using both automated metrics and human evaluation. Our results show that multi-lingual mBART and multi-view seq2seq models obtain the best performances on the new dataset
翻訳日:2021-04-23 09:18:40 公開日:2021-04-17
# (参考訳) 構造分割のための非負タッカー分解による音楽中の音声パターンの発見 [全文訳有]

Uncovering audio patterns in music with Nonnegative Tucker Decomposition for structural segmentation ( http://arxiv.org/abs/2104.08580v1 )

ライセンス: CC BY 4.0
Axel Marmoret (1), J\'er\'emy E. Cohen (1), Nancy Bertin (1), Fr\'ed\'eric Bimbot (1) ((1) Univ Rennes, Inria, CNRS, IRISA, France.)(参考訳) 近年の研究では、テンソル分解を用いて繰り返しをモデル化し、ループベースの電子音楽でトラックを分離することを提案している。 本研究は,Non negative Tucker Decompositon (NTD) によるポップソングの楽曲パターンと構造を明らかにする能力について検討する。 ntdがいくつかのパターンの線形結合としてバーの内容を表現しがちであるという事実を生かして、音楽的な観点から解釈可能な、対応する圧縮空間で繰り返しモチーフをキャプチャし、シングルアウトする分解の能力を示す。 結果として得られた機能は、構造的なセグメンテーションに効率的であることが判明し、広範なサンプルベースの学習スキームに依存する最先端のアプローチに潜在的に挑戦する可能性のあるrwc popデータセットの実験結果につながった。

Recent work has proposed the use of tensor decomposition to model repetitions and to separate tracks in loop-based electronic music. The present work investigates further on the ability of Nonnegative Tucker Decompositon (NTD) to uncover musical patterns and structure in pop songs in their audio form. Exploiting the fact that NTD tends to express the content of bars as linear combinations of a few patterns, we illustrate the ability of the decomposition to capture and single out repeated motifs in the corresponding compressed space, which can be interpreted from a musical viewpoint. The resulting features also turn out to be efficient for structural segmentation, leading to experimental results on the RWC Pop data set which are potentially challenging state-of-the-art approaches that rely on extensive example-based learning schemes.
翻訳日:2021-04-23 08:59:05 公開日:2021-04-17
# (参考訳) MTCNNとVGG面モデルを用いた年代推定 [全文訳有]

Age Range Estimation using MTCNN and VGG-Face Model ( http://arxiv.org/abs/2104.08585v1 )

ライセンス: CC BY 4.0
Dipesh Gyawali, Prashanga Pokharel, Ashutosh Chauhan, Subodh Chandra Shakya(参考訳) Convolutional Neural Networkは、いくつかのアプリケーションで使われていることに驚いた。 CNNを用いた年齢範囲推定は、無数の領域に応用され、研究の最先端領域となり、推定精度の向上が図られている。 提案した研究の年齢範囲を同定するために, 深層CNNモデルを用いた。 まず,mtcnnを用いた画像データセットから顔画像のみを抽出し,画像から顔以外の不要な特徴を除去する。 第2に,データ拡張に乱作法を用いてモデル性能を向上した。 我々は,転帰学習の概念を研究に用いている。 Adience Benchmarkで評価した年齢帯識別モデルの構築に,事前学習した顔認識モデル,すなわちVGG-Faceを用いた。 テストのパフォーマンスは、既存の最先端をかなりのマージンで上回った。

The Convolutional Neural Network has amazed us with its usage on several applications. Age range estimation using CNN is emerging due to its application in myriad of areas which makes it a state-of-the-art area for research and improve the estimation accuracy. A deep CNN model is used for identification of people's age range in our proposed work. At first, we extracted only face images from image dataset using MTCNN to remove unnecessary features other than face from the image. Secondly, we used random crop technique for data augmentation to improve the model performance. We have used the concept of transfer learning in our research. A pretrained face recognition model i.e VGG-Face is used to build our model for identification of age range whose performance is evaluated on Adience Benchmark for confirming the efficacy of our work. The performance in test set outperformed existing state-of-the-art by substantial margins.
翻訳日:2021-04-23 08:46:42 公開日:2021-04-17
# (参考訳) 正直な虚偽の統計的分析:Seinfeld TV Series Sitcom を事例として [全文訳有]

A Stylistic Analysis of Honest Deception: The Case of Seinfeld TV Series Sitcom ( http://arxiv.org/abs/2104.08599v1 )

ライセンス: CC BY 4.0
Mohcine El Baroudi(参考訳) 正しい方法で使用すると、言語は強力なツールになります。 コミュニケーションの主要な手段であり、正しい言葉やスタイルの選択を使うことは、長く続く影響をもたらす可能性がある。 スタイリスティックス(英: stylistics)とは、コミュニケーションにおける様々な言語スタイルの使用についての研究である。 それゆえ、スタイル分析は、スタイルがどのように使われ、何が通信され、どのようにコミュニケーションされるかを決定するために、テキストにおける言語的スタイルの使用についての研究である。 正直な欺きは、文字通りの意味とは別の意味を意味する言葉の選択を使うことである。 正直な虚偽が使われ、文字通り理解された文章を聴いたり読んだりする人は、その点について完全に見逃してしまうことがある。 これは、正直さと虚偽が生じるためである。 しかし、読者や視聴者やリスナーを欺くよりも、永続的な影響を持つ意図で、正直な騙しが使われることを理解した方がよい。 正直なデセプションで使われる主なスタイルは、双曲、リテーテ、皮肉、皮肉である。 セインフェルド・シットコム』(Seinfeld Sitcom)は、1990年から1998年にかけて放送されたテレビコメディ番組で、コメディアンの日常生活とコメディアンが人生体験をどう見ているかを理解し、それらを笑えるジョークに変換する試みである。 また、ジェリーが人生にやってきた多くの女性から正しいパートナーを得るのに苦労していることも示している。 シンフェルド・シットコムのテレビシリーズにおける正直な騙しを反映して、このシリーズでいかに正直な騙しが使われたか、なぜ使われたのか、何が通信されているのかを考察する。 この研究は、直観的な形式を使って、シリーズ全体を通して、正直なデセプションで使われるさまざまなスタイルの分析とグループ化を行う予定だ。

Language is a powerful tool if used in the correct manner. It is the major mode of communication, and using the correct choice of words and styles can serve to have a long-lasting impact. Stylistics is the study of the use of various language styles in communication to pass a message with a bigger impact or to communicate indirectly. Stylistic analysis, therefore, is the study of the use of linguistic styles in texts to determine how a style has been used, what is communicated and how it is communicated. Honest deception is the use of a choice of words to imply something different from the literal meaning. A person listening or reading a text where honest deception has been used and with a literal understanding may completely miss out on the point. This is because the issue of honesty and falsehood arises. However, it would be better to understand that honest deception is used with the intention of having a lasting impact rather than to deceive the readers, viewers or listeners. The major styles used in honest deception are hyperboles, litotes, irony and sarcasm. The Seinfeld Sitcom TV series was a situational TV comedy show aired from 1990 to 1998. the show attempts to bring to the understanding the daily life of a comedian and how comedian views life experiences and convert them into hilarious jokes. It also shows Jerry's struggle with getting the right partner from the many women who come into his life. Reflecting on honest deception in the Seinfeld sitcom TV series, this paper is going to investigate how honest deception has been used in the series, why it has been used and what is being communicated. The study is going to use a recapitulative form to give a better analysis and grouping of the different styles used in honest deception throughout the series.
翻訳日:2021-04-23 08:38:23 公開日:2021-04-17
# (参考訳) 要約ニュース要約のためのトランスダクティブ学習 [全文訳有]

Transductive Learning for Abstractive News Summarization ( http://arxiv.org/abs/2104.09500v1 )

ライセンス: CC BY 4.0
Arthur Bra\v{z}inskas, Mengwen Liu, Ramesh Nallapati, Sujith Ravi, Markus Dreyer(参考訳) 事前訓練された言語モデルは近年抽象的な要約が進んでいる。 これらのモデルは、テスト時間で要約を生成する前に、人間による参照に基づいてさらに微調整される。 本稿では,帰納的学習の要約への最初の応用を提案する。 このパラダイムでは、モデルは推論の前にテストセットの入力から学ぶことができる。 翻訳を行うために,文を要約した入力文書を用いて,テスト時の学習のための参照を構築することを提案する。 これらの文はしばしば圧縮され、融合されて抽象的な要約を形成し、省略された詳細と追加の文脈を読者に提供する。 提案手法は,CNN/DMおよびNYTデータセットの最先端結果が得られることを示す。 例えば、CNN/DMで1 ROUGE-Lの点数を改善する。 さらに,より古いニュースから最近のニュースへのトランスダクションの利点を示す。 最後に,人間的および自動的な評価を通じて,要約がより抽象的で一貫性のあるものになることを示す。

Pre-trained language models have recently advanced abstractive summarization. These models are further fine-tuned on human-written references before summary generation in test time. In this work, we propose the first application of transductive learning to summarization. In this paradigm, a model can learn from the test set's input before inference. To perform transduction, we propose to utilize input document summarizing sentences to construct references for learning in test time. These sentences are often compressed and fused to form abstractive summaries and provide omitted details and additional context to the reader. We show that our approach yields state-of-the-art results on CNN/DM and NYT datasets. For instance, we achieve over 1 ROUGE-L point improvement on CNN/DM. Further, we show the benefits of transduction from older to more recent news. Finally, through human and automatic evaluation, we show that our summaries become more abstractive and coherent.
翻訳日:2021-04-23 08:26:20 公開日:2021-04-17
# (参考訳) 誰が誰に反応したか:会話構造における潜在話題と談話の合同効果 [全文訳有]

Who Responded to Whom: The Joint Effects of Latent Topics and Discourse in Conversation Structure ( http://arxiv.org/abs/2104.08601v1 )

ライセンス: CC BY 4.0
Lu Ji, Jing Li, Zhongyu Wei, Qi Zhang, Xuanjing Huang(参考訳) 多くのオンライン会話が日常的に作成され、会話を理解する必要性が強くなる。 議論を構成する基盤として,会話の会話における応答関係を同定し,会話の開始に応答発話を関連付ける。 トピックの内容の整合性や談話の役割の依存性が如何にこのような相互作用を示すかを明らかにするとともに,先行研究では単語の発生に根ざした潜在要因の影響を無視している。 本研究では,単語分布における潜在話題と談話の学習モデルを提案し,話題一貫性と談話依存性を活用し,対関係開始-応答リンクの予測を行う。 英語と中国語の会話における実験結果から,我々のモデルは,中国のカスタマーサービス対話における79対73MRRなど,過去の芸術の状況を大きく上回っていることがわかった。 我々はさらにアウトプットを調査し、話題や談話が会話によるユーザーインタラクションをどう示すかを明らかにした。

Numerous online conversations are produced on a daily basis, resulting in a pressing need to conversation understanding. As a basis to structure a discussion, we identify the responding relations in the conversation discourse, which link response utterances to their initiations. To figure out who responded to whom, here we explore how the consistency of topic contents and dependency of discourse roles indicate such interactions, whereas most prior work ignore the effects of latent factors underlying word occurrences. We propose a model to learn latent topics and discourse in word distributions, and predict pairwise initiation-response links via exploiting topic consistency and discourse dependency. Experimental results on both English and Chinese conversations show that our model significantly outperforms the previous state of the arts, such as 79 vs. 73 MRR on Chinese customer service dialogues. We further probe into our outputs and shed light on how topics and discourse indicate conversational user interactions.
翻訳日:2021-04-23 08:13:21 公開日:2021-04-17
# (参考訳) 保守的文脈的組合せカスケードバンド [全文訳有]

Conservative Contextual Combinatorial Cascading Bandit ( http://arxiv.org/abs/2104.08615v1 )

ライセンス: CC BY 4.0
Kun Wang, Canzhe Zhao, Shuai Li, Shuo Shao(参考訳) 保守的なメカニズムは、探索と搾取の間のトレードオフをバランスさせる意思決定問題において望ましい性質である。 本稿では,保存的機構を組み込んだオンライン学習ゲームである<emph{conservative context combinatorial cascading bandit="c^4$-bandit")を提案する。 各ステップにおいて、学習エージェントにはいくつかのコンテキストが与えられ、基本戦略よりも悪くはない項目のリストを推奨し、いくつかの停止ルールによって報酬を観察する必要がある。 我々は,この問題を解決するために$c^4$-ucbアルゴリズムを設計し,そのnステップ上の後悔を2つの状況に対して証明する。 両方の状況における後悔は、2つの用語に分解することができる: (a) 一般的なコンビネートコンビネート・カスカディング・バンディットの上限、および (b) 保守的なメカニズムからの後悔に対する一定の用語。 このアルゴリズムは、検索エンジンおよびレコメンデータシステムに直接適用することができる。 合成データに関する実験は、その利点を示し、理論解析を検証する。

Conservative mechanism is a desirable property in decision-making problems which balance the tradeoff between the exploration and exploitation. We propose the novel \emph{conservative contextual combinatorial cascading bandit ($C^4$-bandit)}, a cascading online learning game which incorporates the conservative mechanism. At each time step, the learning agent is given some contexts and has to recommend a list of items but not worse than the base strategy and then observes the reward by some stopping rules. We design the $C^4$-UCB algorithm to solve the problem and prove its n-step upper regret bound for two situations: known baseline reward and unknown baseline reward. The regret in both situations can be decomposed into two terms: (a) the upper bound for the general contextual combinatorial cascading bandit; and (b) a constant term for the regret from the conservative mechanism. The algorithm can be directly applied to the search engine and recommender system. Experiments on synthetic data demonstrate its advantages and validate our theoretical analysis.
翻訳日:2021-04-23 07:59:21 公開日:2021-04-17
# (参考訳) クリプティッククロスワードの復号:NLPのターゲットとしての意味論的に複雑なワードプレイパズル [全文訳有]

Decrypting Cryptic Crosswords: Semantically Complex Wordplay Puzzles as a Target for NLP ( http://arxiv.org/abs/2104.08620v1 )

ライセンス: CC BY 4.0
Josh Rozner, Christopher Potts, Kyle Mahowald(参考訳) イギリスで支配的な英語のクロスワードであるcryptic crosswordsは、柔軟で創造的な知性と言語知識を用いて専門家によって解決することができる。 難解な手掛かりは流れる自然言語のように読めるが、反対に2つの部分から成り立っている:定義と、サブワードまたは文字レベルの操作を必要とするワードプレイ暗号である。 そのため、より創造的で人間的な方法で言語を処理しようとするNLPシステムの評価と発展のための有望な目標である。 そこで本研究では,主要な新聞社から得られた暗号的なクロスワードの手がかりのデータセットを,ベンチマークとして使用し,それらを解くためにシーケンス・ツー・シーケンスモデルを訓練する。 また、この課題へのアプローチ開発をガイドする関連するベンチマークも開発しています。 そこで本研究では,暗号解読の学習に先立って,非スクランブル語などの関連タスクで事前学習を行う新たなカリキュラム学習手法を用いて,性能を大幅に向上できることを示す。 しかし、この曲がりくねったアプローチでさえ、人間ができるような新しい手がかり型には一般化しておらず、暗号的なクロスワードはnlpシステムと将来のイノベーションの潜在的な源である。

Cryptic crosswords, the dominant English-language crossword variety in the United Kingdom, can be solved by expert humans using flexible, creative intelligence and knowledge of language. Cryptic clues read like fluent natural language, but they are adversarially composed of two parts: a definition and a wordplay cipher requiring sub-word or character-level manipulations. As such, they are a promising target for evaluating and advancing NLP systems that seek to process language in more creative, human-like ways. We present a dataset of cryptic crossword clues from a major newspaper that can be used as a benchmark and train a sequence-to-sequence model to solve them. We also develop related benchmarks that can guide development of approaches to this challenging task. We show that performance can be substantially improved using a novel curriculum learning approach in which the model is pre-trained on related tasks involving, e.g, unscrambling words, before it is trained to solve cryptics. However, even this curricular approach does not generalize to novel clue types in the way that humans can, and so cryptic crosswords remain a challenge for NLP systems and a potential source of future innovation.
翻訳日:2021-04-23 07:40:34 公開日:2021-04-17
# (参考訳) ロボットのダイナミックモータースキルを訓練する人間 [全文訳有]

Training Humans to Train Robots Dynamic Motor Skills ( http://arxiv.org/abs/2104.08631v1 )

ライセンス: CC BY 4.0
Marina Y. Aoyama, Matthew Howard(参考訳) learning from demonstration(lfd)は、初心者がロボットにモータースキルを教えることを可能にする、自然で直感的な方法だと考えられている。 しかし、LfDの有効性が教育の質に大きく依存していることは、初心者に保証されない可能性があることを認識しておくことが重要である。 デモ参加者に、特定の教職に対するアドホックなアドバイス以上の情報的なデモンストレーションを誘導する最も効果的な方法について、未解決の疑問が残る。 そこで本研究では,実演の質を判断する指標を導出するための機械教育の活用について検討し,より優れた教師になるための指導・訓練におけるその利用を評価した。 簡単な学習ロボットを用いた実験では,提案手法による指導と指導が,学習者スキルの最大66.5%の誤差を減少させる可能性が示唆された。

Learning from demonstration (LfD) is commonly considered to be a natural and intuitive way to allow novice users to teach motor skills to robots. However, it is important to acknowledge that the effectiveness of LfD is heavily dependent on the quality of teaching, something that may not be assured with novices. It remains an open question as to the most effective way of guiding demonstrators to produce informative demonstrations beyond ad hoc advice for specific teaching tasks. To this end, this paper investigates the use of machine teaching to derive an index for determining the quality of demonstrations and evaluates its use in guiding and training novices to become better teachers. Experiments with a simple learner robot suggest that guidance and training of teachers through the proposed approach can lead to up to 66.5% decrease in error in the learnt skill.
翻訳日:2021-04-23 07:21:35 公開日:2021-04-17
# (参考訳) 視覚解析のための数式構造の自動発見 [全文訳有]

Automated Mathematical Equation Structure Discovery for Visual Analysis ( http://arxiv.org/abs/2104.08633v1 )

ライセンス: CC BY 4.0
Caroline Pacheco do Esp\'irito Silva, Jos\'e A. M. Felippe De Souza, Antoine Vacavant, Thierry Bouwmans, Andrews Cordolino Sobral(参考訳) 複雑なシナリオに見られるさまざまな課題に対処する最良の数学的方程式を見つけるには、シナリオの詳細な理解と専門家による試行錯誤プロセスが必要である。 近年、ほとんどの最先端方程式発見法はモデリングや識別システムに広く応用されている。 しかし、方程式発見のアプローチはコンピュータビジョン、特に特徴抽出の分野で非常に有用である。 本稿では,現実のシナリオで直面するさまざまな課題に対処するため,人間の介入がほとんどなく,スクラッチから方程式を自動的に検出する新たなフレームワークを提案するために,最近のAIの進歩に注目した。 さらに,提案手法は,ハンドデザインではなく生成ネットワークによる探索空間設計を提案することにより,人間のバイアスを軽減することができる。 概念実証として,我々のフレームワークで発見された方程式を用いて,動画の背景から移動物体を識別する。 実験の結果,提案手法の可能性を示唆し,ビデオシーケンスにおける最良方程式の発見に有効性を示した。 コードとデータは、https://github.com/c arolinepacheco/equat ion-discovery-scene- analysisで入手できる。

Finding the best mathematical equation to deal with the different challenges found in complex scenarios requires a thorough understanding of the scenario and a trial and error process carried out by experts. In recent years, most state-of-the-art equation discovery methods have been widely applied in modeling and identification systems. However, equation discovery approaches can be very useful in computer vision, particularly in the field of feature extraction. In this paper, we focus on recent AI advances to present a novel framework for automatically discovering equations from scratch with little human intervention to deal with the different challenges encountered in real-world scenarios. In addition, our proposal can reduce human bias by proposing a search space design through generative network instead of hand-designed. As a proof of concept, the equations discovered by our framework are used to distinguish moving objects from the background in video sequences. Experimental results show the potential of the proposed approach and its effectiveness in discovering the best equation in video sequences. The code and data are available at: https://github.com/c arolinepacheco/equat ion-discovery-scene- analysis
翻訳日:2021-04-23 07:10:20 公開日:2021-04-17
# (参考訳) UPB at SemEval-2021 Task 5: Virtual Adversarial Training for Toxic Spans Detection [全文訳有]

UPB at SemEval-2021 Task 5: Virtual Adversarial Training for Toxic Spans Detection ( http://arxiv.org/abs/2104.08635v1 )

ライセンス: CC BY 4.0
Andrei Paraschiv, Dumitru-Clementin Cercel, Mihai Dascalu(参考訳) オンライン界における偏光と毒性の現実世界への影響は、2020年末と今年の初めを否定的に捉えた。 Semeval-2021, Task 5 - Toxic Spans DetectionはJigsaw Unintended Biasデータセットのサブセットの新たなアノテーションに基づいており、毒性レベルのスパンを特定するための最初の言語毒性検出タスクである。 このタスクでは、参加者はメッセージに有害な短いコメントで文字スパンを自動的に検出しなければならなかった。 本モデルは,複数のトランスフォーマーベースモデル(BERT,RoBERTa)の微調整過程において,条件付きランダムフィールドと組み合わせた半教師付き環境で仮想適応トレーニングを適用することを検討する。 我々のアプローチは、パフォーマンス改善とより堅牢なモデルにつながり、公式提出時のf1-scoreの65.73%、再評価後のチューニング後のf1-scoreの66.13%を達成することができます。

The real-world impact of polarization and toxicity in the online sphere marked the end of 2020 and the beginning of this year in a negative way. Semeval-2021, Task 5 - Toxic Spans Detection is based on a novel annotation of a subset of the Jigsaw Unintended Bias dataset and is the first language toxicity detection task dedicated to identifying the toxicity-level spans. For this task, participants had to automatically detect character spans in short comments that render the message as toxic. Our model considers applying Virtual Adversarial Training in a semi-supervised setting during the fine-tuning process of several Transformer-based models (i.e., BERT and RoBERTa), in combination with Conditional Random Fields. Our approach leads to performance improvements and more robust models, enabling us to achieve an F1-score of 65.73% in the official submission and an F1-score of 66.13% after further tuning during post-evaluation.
翻訳日:2021-04-23 06:49:10 公開日:2021-04-17
# (参考訳) AM2iCo: 逆例による低リソース言語間の文脈における単語意味評価 [全文訳有]

AM2iCo: Evaluating Word Meaning in Context across Low-ResourceLanguage s with Adversarial Examples ( http://arxiv.org/abs/2104.08639v1 )

ライセンス: CC BY 4.0
Qianchu Liu, Edoardo M. Ponti, Diana McCarthy, Ivan Vuli\'c, Anna Korhonen(参考訳) 文脈における単語の意味の獲得と言語間の対応やバリエーションの区別は、多言語および多言語間のテキスト表現モデルを構築する上で鍵となる。 However, existing multilingual evaluation datasets that evaluate lexical semantics "in-context" have various limitations, in particular, (1) their language coverage is restricted to high-resource languages and skewed in favor of only a few language families and areas, (2) a design that makes the task solvable via superficial cues, which results in artificially inflated (and sometimes super-human) performances of pretrained encoders, on many target languages, which limits their usefulness for model probing and diagnostics, and (3) no support for cross-lingual evaluation. これらのギャップに対処するために, AM2iCo, Adversarial and Multilingual Meaning in Context, a wide-coverage cross-lingual and multilingual evaluation set; 本論文は,14言語対の言語間文脈における単語の意味の同一性を理解するための最先端技術(SotA)表現モデルの能力を忠実に評価することを目的とする。 我々は,様々な環境において一連の実験を行い,am2icoの挑戦的な性質を実証する。 その結果、現在のSotAの事前学習エンコーダは人間のパフォーマンスにかなり遅れており、低リソース言語や英語と異なる言語では最大のギャップが観察されていることがわかった。

Capturing word meaning in context and distinguishing between correspondences and variations across languages is key to building successful multilingual and cross-lingual text representation models. However, existing multilingual evaluation datasets that evaluate lexical semantics "in-context" have various limitations, in particular, (1) their language coverage is restricted to high-resource languages and skewed in favor of only a few language families and areas, (2) a design that makes the task solvable via superficial cues, which results in artificially inflated (and sometimes super-human) performances of pretrained encoders, on many target languages, which limits their usefulness for model probing and diagnostics, and (3) no support for cross-lingual evaluation. In order to address these gaps, we present AM2iCo, Adversarial and Multilingual Meaning in Context, a wide-coverage cross-lingual and multilingual evaluation set; it aims to faithfully assess the ability of state-of-the-art (SotA) representation models to understand the identity of word meaning in cross-lingual contexts for 14 language pairs. We conduct a series of experiments in a wide range of setups and demonstrate the challenging nature of AM2iCo. The results reveal that current SotA pretrained encoders substantially lag behind human performance, and the largest gaps are observed for low-resource languages and languages dissimilar to English.
翻訳日:2021-04-23 06:37:33 公開日:2021-04-17
# (参考訳) 戦略ゲームのための多様で競争的なプレイスタイルの生成 [全文訳有]

Generating Diverse and Competitive Play-Styles for Strategy Games ( http://arxiv.org/abs/2104.08641v1 )

ライセンス: CC BY 4.0
Diego Perez-Liebana, Cristina Guerrero-Romero, Alexander Dockhorn, Dominik Jeurissen, Linjie Xu(参考訳) 競争的なプレイレベルを維持しながら異なるプレイスタイルを達成できるエージェントを設計することは、特に研究コミュニティが戦略ゲームのような超人的なパフォーマンスをまだ見ていないゲームでは難しい作業である。 これらはAIが大きな行動空間、長期計画、部分的な観測可能性を扱うことを必要とし、意思決定が困難な問題となっている。 さらに, 演奏強度を低下させることなく, 汎用アルゴリズムを用いて異なる演奏スタイルを実現することは容易ではない。 本稿では,ターンベースの戦略ゲーム (Tribes) を行うために,Portfolio Monte Carlo Tree Search with Progressive Unpruningを提案する。 以上の結果から,本アルゴリズムは,トレーニング用以上のゲームレベルを幅広く収集した場合でも,これらの目標を達成することができることがわかった。

Designing agents that are able to achieve different play-styles while maintaining a competitive level of play is a difficult task, especially for games for which the research community has not found super-human performance yet, like strategy games. These require the AI to deal with large action spaces, long-term planning and partial observability, among other well-known factors that make decision-making a hard problem. On top of this, achieving distinct play-styles using a general algorithm without reducing playing strength is not trivial. In this paper, we propose Portfolio Monte Carlo Tree Search with Progressive Unpruning for playing a turn-based strategy game (Tribes) and show how it can be parameterized so a quality-diversity algorithm (MAP-Elites) is used to achieve different play-styles while keeping a competitive level of play. Our results show that this algorithm is capable of achieving these goals even for an extensive collection of game levels beyond those used for training.
翻訳日:2021-04-23 06:20:50 公開日:2021-04-17
# (参考訳) 能力問題:言語データのアーティファクトの検索と削除について [全文訳有]

Competency Problems: On Finding and Removing Artifacts in Language Data ( http://arxiv.org/abs/2104.08646v1 )

ライセンス: CC BY 4.0
Matt Gardner, William Merrill, Jesse Dodge, Matthew E. Peters, Alexis Ross, Sameer Singh, Noah Smith(参考訳) NLPにおける最近の研究は、入力特徴と出力ラベルの間のデータセットアーティファクト、バイアス、および急激な相関を文書化してきた。 しかし、どの機能が正当な相関の代わりに「純然たる」のかを判断する方法は、通常、特定されていないままである。 本研究では,複雑な言語理解タスクにおいて,すべての単純な特徴相関が突発的であり,この概念を「能力問題」と呼ぶ問題のクラスに形式化する。 例えば、それ自体で「驚き」という言葉は、否定、比喩、皮肉などを含む文脈に依存しない感情ラベルに関する情報を与えてはならない。 人間のバイアスを考慮した場合の能力問題に対するデータ作成の難しさを理論的に分析し,データセットのサイズが大きくなるにつれて,現実的なデータセットが能力問題から徐々に逸脱していくことを示す。 この分析により、データセットのアーティファクトの単純な統計的テストが得られます。これは、前の研究で説明されていたよりも微妙なバイアスを示すために使われます。 この問題を理論的に扱うことで、データセットインスタンスのローカルな編集や、将来的なデータ収集やコンピテンシー問題を対象としたモデル設計への推奨など、提案されたソリューションの分析が可能になります。

Much recent work in NLP has documented dataset artifacts, bias, and spurious correlations between input features and output labels. However, how to tell which features have "spurious" instead of legitimate correlations is typically left unspecified. In this work we argue that for complex language understanding tasks, all simple feature correlations are spurious, and we formalize this notion into a class of problems which we call competency problems. For example, the word "amazing" on its own should not give information about a sentiment label independent of the context in which it appears, which could include negation, metaphor, sarcasm, etc. We theoretically analyze the difficulty of creating data for competency problems when human bias is taken into account, showing that realistic datasets will increasingly deviate from competency problems as dataset size increases. This analysis gives us a simple statistical test for dataset artifacts, which we use to show more subtle biases than were described in prior work, including demonstrating that models are inappropriately affected by these less extreme biases. Our theoretical treatment of this problem also allows us to analyze proposed solutions, such as making local edits to dataset instances, and to give recommendations for future data collection and model design efforts that target competency problems.
翻訳日:2021-04-23 06:04:24 公開日:2021-04-17
# (参考訳) COLIEE@ICAIL 2019におけるIITP:BM25とBERTを用いた法的情報検索 [全文訳有]

IITP in COLIEE@ICAIL 2019: Legal Information Retrieval usingBM25 and BERT ( http://arxiv.org/abs/2104.08653v1 )

ライセンス: CC BY 4.0
Baban Gain, Dibyanayan Bandyopadhyay, Tanik Saikh, Asif Ekbal(参考訳) 司法領域における自然言語処理(NLP)と情報検索(IR)は必須課題である。 電子形式でのドメイン固有データの出現と異なる人工知能(AI)技術の支援により、自動化された言語処理はより快適になり、研究者や開発者が法的コミュニティに様々な自動化ツールを提供することで人的負担を減らすことが可能になった。 international conference on artificial intelligence and law (icail)-2019 (coliee-2019) とは、国際人工知能・法会議 (international conference on artificial intelligence and law,icail) の略である。 共有された4つのサブタスク(すなわち)。 task1、task2、task3、task4は、司法システムに少数の自動化システムを提供することができる。 本稿では,この共有タスクで定義されたすべてのサブタスクへの参加の一環として実施した実験について報告する。 我々はこれらの問題に対処するために、異なる情報検索(IR)と深層学習に基づくアプローチを利用している。 これら4つのサブタスクすべてにおいて、奨励的な結果が得られる。

Natural Language Processing (NLP) and Information Retrieval (IR) in the judicial domain is an essential task. With the advent of availability domain-specific data in electronic form and aid of different Artificial intelligence (AI) technologies, automated language processing becomes more comfortable, and hence it becomes feasible for researchers and developers to provide various automated tools to the legal community to reduce human burden. The Competition on Legal Information Extraction/Entailmen t (COLIEE-2019) run in association with the International Conference on Artificial Intelligence and Law (ICAIL)-2019 has come up with few challenging tasks. The shared defined four sub-tasks (i.e. Task1, Task2, Task3 and Task4), which will be able to provide few automated systems to the judicial system. The paper presents our working note on the experiments carried out as a part of our participation in all the sub-tasks defined in this shared task. We make use of different Information Retrieval(IR) and deep learning based approaches to tackle these problems. We obtain encouraging results in all these four sub-tasks.
翻訳日:2021-04-23 05:43:42 公開日:2021-04-17
# (参考訳) 全天候・照明条件におけるIUPUI運転映像と画像 [全文訳有]

IUPUI Driving Videos and Images in All Weather and Illumination Conditions ( http://arxiv.org/abs/2104.08657v1 )

ライセンス: CC BY 4.0
Jiang Yu Zheng(参考訳) この文書は、すべての天気と照明条件で捉えた運転ビューの画像とビデオのデータセットを記述する。 データセットはCDVLに送信されている。

This document describes an image and video dataset of driving views captured in all weather and illumination conditions. The data set has been submitted to CDVL.
翻訳日:2021-04-23 05:36:35 公開日:2021-04-17
# (参考訳) 普遍依存木からの単調性マーキング [全文訳有]

Monotonicity Marking from Universal Dependency Trees ( http://arxiv.org/abs/2104.08659v1 )

ライセンス: CC BY 4.0
Zeming Chen, Qiyue Gao(参考訳) 依存性解析は自然言語処理と計算言語学の分野で広く使われているツールである。 しかし、依存関係のパーシングを単調性に結びつける作業はほとんどなく、これは論理学と言語学のセマンティクスの重要な部分である。 本稿では,ユニバーサル依存構文解析木に基づくモノトニック情報を自動アノテートするシステムを提案する。 本システムでは,数量化器,語彙項目,トークンレベルの極性情報に関する表面レベルモノトニック性情報を利用する。 そこで我々は,NatLog や ccg2mono など,文献中の既存のシステムと比較した。 その結果,本システムは NatLog と ccg2mono より優れていることがわかった。

Dependency parsing is a tool widely used in the field of Natural language processing and computational linguistics. However, there is hardly any work that connects dependency parsing to monotonicity, which is an essential part of logic and linguistic semantics. In this paper, we present a system that automatically annotates monotonicity information based on Universal Dependency parse trees. Our system utilizes surface-level monotonicity facts about quantifiers, lexical items, and token-level polarity information. We compared our system's performance with existing systems in the literature, including NatLog and ccg2mono, on a small evaluation dataset. Results show that our system outperforms NatLog and ccg2mono.
翻訳日:2021-04-23 05:28:19 公開日:2021-04-17
# (参考訳) BEIR:情報検索モデルのゼロショット評価のための異種ベンチマーク [全文訳有]

BEIR: A Heterogenous Benchmark for Zero-shot Evaluation of Information Retrieval Models ( http://arxiv.org/abs/2104.08663v1 )

ライセンス: CC BY-SA 4.0
Nandan Thakur, Nils Reimers, Andreas R\"uckl\'e, Abhishek Srivastava, Iryna Gurevych(参考訳) ニューラルirモデルは、その一般化能力に関する洞察をかなり限定した、均質かつ狭い設定でしばしば研究されてきた。 この問題に対処し、研究者がモデルの有効性をより広く確立するために、情報検索のための異種ベンチマークであるBEIR(Benchmarking IR)を導入する。 オープンドメインのデータセットと狭い専門家ドメインを含む多様な検索タスクにまたがる評価に、17のデータセットを慎重に選択する。 我々は,beirにおけるゼロショット評価システムにおける9つの最先端検索モデルの有効性について検討し,全データセットで一貫した実行が困難であることを見出した。 以上の結果から,bm25はロバストなベースラインモデルであり,総じてゼロショット性能を高い計算コストで達成できることがわかった。 対照的に、高密度リトライバルモデルは計算効率が高いが、しばしば他のアプローチを過小評価し、その一般化能力の改善の余地を浮き彫りにしている。 本研究では,様々な検索モデルを分析し,今後の作業に有用であると考えられる提案をいくつか提示する。 BEIRデータセットとコードはhttps://github.com/U KPLab/beir.comで入手できる。

Neural IR models have often been studied in homogeneous and narrow settings, which has considerably limited insights into their generalization capabilities. To address this, and to allow researchers to more broadly establish the effectiveness of their models, we introduce BEIR (Benchmarking IR), a heterogeneous benchmark for information retrieval. We leverage a careful selection of 17 datasets for evaluation spanning diverse retrieval tasks including open-domain datasets as well as narrow expert domains. We study the effectiveness of nine state-of-the-art retrieval models in a zero-shot evaluation setup on BEIR, finding that performing well consistently across all datasets is challenging. Our results show BM25 is a robust baseline and Reranking-based models overall achieve the best zero-shot performances, however, at high computational costs. In contrast, Dense-retrieval models are computationally more efficient but often underperform other approaches, highlighting the considerable room for improvement in their generalization capabilities. In this work, we extensively analyze different retrieval models and provide several suggestions that we believe may be useful for future work. BEIR datasets and code are available at https://github.com/U KPLab/beir.
翻訳日:2021-04-23 05:15:50 公開日:2021-04-17
# フルコア燃料性能解析のための機械学習支援サロゲート構築

Machine learning-assisted surrogate construction for full-core fuel performance analysis ( http://arxiv.org/abs/2104.09499v1 )

ライセンス: Link先を確認
Yifeng Che, Joseph Yurko, Koroush Shirvan(参考訳) 原子炉の挙動を正確に予測するには、結合中性子、熱水和物、燃料熱力学の多物理シミュレーションが必要である。 燃料の熱力学的応答は、運用限界と安全分析に不可欠な情報を提供する。 従来, 計算時空間パワー分布と熱境界条件を結合中性子熱水和シミュレーションから入力として, 燃料性能解析を独立に行う。 このような一方的な結合は、フルコア燃料性能解析によって引き起こされる高コストの結果であり、「ピークロッド」解析よりもより現実的で正確な反応予測を提供する。 したがって、燃料性能モデリングをコアリロード設計の最適化に活用できるように高速実行サーロゲートを構築し、フルコア燃料性能モデリングの計算効率を向上させることが望ましい。 本研究は、いくつかの現実的な平衡PWRコア設計に基づくフルコアサロゲート構築手法を提案する。 高速で従来的なアプローチとして、ルックアップテーブルは特定の燃料性能量(QoIs)に対してのみ有効である。 いくつかの代表的な機械学習アルゴリズムを導入し、他の燃料性能QoIの複雑な物理を捉える。 ルールベースモデルは,操作条件の空間的・時間的複雑さを考慮した特徴抽出手法として有用である。 構築されたサーロゲートは、予測精度を満足して少なくとも1万時間加速度を達成する。 現在の作業は、燃料性能モデリングのコア設計最適化フレームワークへの密結合の基礎を築いている。 また、計算コストがより負担になるBISONによるフルコア燃料性能解析のステージも設定する。

Accurately predicting the behavior of a nuclear reactor requires multiphysics simulation of coupled neutronics, thermal-hydraulics and fuel thermo-mechanics. The fuel thermo-mechanical response provides essential information for operational limits and safety analysis. Traditionally, fuel performance analysis is performed standalone, using calculated spatial-temporal power distribution and thermal boundary conditions from the coupled neutronics-thermal-h ydraulics simulation as input. Such one-way coupling is result of the high cost induced by the full-core fuel performance analysis, which provides more realistic and accurate prediction of the core-wide response than the "peak rod" analysis. It is therefore desirable to improve the computational efficiency of full-core fuel performance modeling by constructing fast-running surrogate, such that fuel performance modeling can be utilized in the core reload design optimization. This work presents methodologies for full-core surrogate construction based on several realistic equilibrium PWR core designs. As a fast and conventional approach, look-up tables are only effective for certain fuel performance quantities of interest (QoIs). Several representative machine-learning algorithms are introduced to capture the complicated physics for other fuel performance QoIs. Rule-based model is useful as a feature extraction technique to account for the spatial-temporal complexity of operating conditions. Constructed surrogates achieve at least ten thousand time acceleration with satisfying prediction accuracy. Current work lays foundation for tighter coupling of fuel performance modeling into the core design optimization framework. It also sets stage for full-core fuel performance analysis with BISON where the computational cost becomes more burdensome.
翻訳日:2021-04-21 13:29:00 公開日:2021-04-17
# ExplaGraphs: 構造化コモンセンス推論のための説明グラフ生成タスク

ExplaGraphs: An Explanation Graph Generation Task for Structured Commonsense Reasoning ( http://arxiv.org/abs/2104.07644v2 )

ライセンス: Link先を確認
Swarnadeep Saha, Prateek Yadav, Lisa Bauer, Mohit Bansal(参考訳) 最近のcommonsense-reasonin gタスクは、モデルが特定のコンテキストに対してマルチチョイスの質問に答える自然界において、通常差別的である。 識別タスクは、モデルの推論と予測を基礎となるコモンセンス知識で適切に評価できないため、制限されている。 また、そのようなモデルが「正しい理由」ではなく、推論ショートカットを使用することも可能にします。 本研究では,姿勢予測のための説明グラフ生成のための新しい生成および構造化コモンセンス推論タスク(および関連するデータセット)であるExplaGraphsを提案する。 具体的には、信念と議論が与えられた場合、モデルは、議論が信念を支持しているかどうかを予測し、予測されたスタンスに対する非自明で完全で曖昧な説明として機能する常識強化グラフを生成する必要がある。 データセットの説明グラフはクラウドソーシングを通じて収集され、新たなグラフ収集フレームワークにより、複数の検証と精細化ラウンドを通じてグラフの品質が向上します。 グラフの83%は、様々な構造と推論深度を持つ外部の常識ノードを含んでいる。 また,生成したグラフの構造的および意味的正確性と,そのヒューマン・ライティング・グラフとの適合性をチェックするマルチレベル評価フレームワークを提案する。 我々は,bart や t5 のような最先端テキスト生成モデルを用いて説明グラフを生成し,人間のパフォーマンスに大きなギャップがあることを観察し,この新たなコモンセンスグラフに基づく説明生成タスクに有用な作業を促す。

Recent commonsense-reasonin g tasks are typically discriminative in nature, where a model answers a multiple-choice question for a certain context. Discriminative tasks are limiting because they fail to adequately evaluate the model's ability to reason and explain predictions with underlying commonsense knowledge. They also allow such models to use reasoning shortcuts and not be "right for the right reasons". In this work, we present ExplaGraphs, a new generative and structured commonsense-reasonin g task (and an associated dataset) of explanation graph generation for stance prediction. Specifically, given a belief and an argument, a model has to predict whether the argument supports or counters the belief and also generate a commonsense-augmente d graph that serves as non-trivial, complete, and unambiguous explanation for the predicted stance. The explanation graphs for our dataset are collected via crowdsourcing through a novel Collect-Judge-And-Re fine graph collection framework that improves the graph quality via multiple rounds of verification and refinement. A significant 83% of our graphs contain external commonsense nodes with diverse structures and reasoning depths. We also propose a multi-level evaluation framework that checks for the structural and semantic correctness of the generated graphs and their plausibility with human-written graphs. We experiment with state-of-the-art text generation models like BART and T5 to generate explanation graphs and observe that there is a large gap with human performance, thereby encouraging useful future work for this new commonsense graph-based explanation generation task.
翻訳日:2021-04-20 14:53:28 公開日:2021-04-17
# 事前訓練された言語モデルによるデータセットの生成

Generating Datasets with Pretrained Language Models ( http://arxiv.org/abs/2104.07540v2 )

ライセンス: Link先を確認
Timo Schick and Hinrich Sch\"utze(参考訳) 事前学習された言語モデル(plm)から高品質な文埋め込みを得るには、追加の事前学習目的を付加するか、ラベル付きテキストペアで微調整する必要がある。 後者のアプローチは一般的に前者よりも優れていますが、十分なサイズの適切なデータセットを生成するには、多大な人的努力が必要です。 本稿では、ラベル付きデータや微調整や事前学習目的への修正を必要とせず、いかに大きなPLMが高品質な埋め込みを得るために活用できるかを示す。 完全に教師なしのアプローチは、いくつかの英語意味テキスト類似性データセットの強いベースラインを上回る。

To obtain high-quality sentence embeddings from pretrained language models (PLMs), they must either be augmented with additional pretraining objectives or finetuned on a large set of labeled text pairs. While the latter approach typically outperforms the former, it requires great human effort to generate suitable datasets of sufficient size. In this paper, we show how large PLMs can be leveraged to obtain high-quality embeddings without requiring any labeled data, finetuning or modifications to the pretraining objective: We utilize the generative abilities of PLMs to generate entire datasets of labeled text pairs from scratch, which can then be used for regular finetuning of much smaller models. Our fully unsupervised approach outperforms strong baselines on several English semantic textual similarity datasets.
翻訳日:2021-04-20 14:53:02 公開日:2021-04-17
# ロボット行動による事前学習語埋め込みの具体化

Embodying Pre-Trained Word Embeddings Through Robot Actions ( http://arxiv.org/abs/2104.08521v1 )

ライセンス: Link先を確認
Minori Toyoda, Kanata Suzuki, Hiroki Mori, Yoshihiko Hayashi, Tetsuya Ogata(参考訳) 本稿では,ロボット行動の基底表現とその言語記述を得るための有望なニューラルネットワークモデルを提案する。 多文語を含む様々な言語表現に適切に反応することは、言語対話を通じて人と対話するロボットにとって重要な能力である。 これまでの研究によると、ロボットは事前訓練された単語埋め込みを用いて、アクション記述ペアデータセットに含まれていない単語を使うことができる。 しかし、分布仮説の下で訓練された単語埋め込みは、テキストコーパスから純粋に派生しているため、根拠づけられていない。 本稿では,ロボットの感覚運動体験を用いて,事前学習した単語の埋め込みを具体化したものに変換する。 単語埋め込みに適合する非線形層を組み込むことで、アクションや記述のための双方向翻訳モデルを拡張する。 提案モデルでは,再構成層と双方向翻訳モデルを交互にトレーニングすることにより,事前学習した単語の埋め込みを変換して,ペアのアクション記述データセットに適応させることができる。 その結果,同義語の組込みはロボットの体験(動作や環境)を反映して意味クラスタを形成することがわかった。 これらの埋め込みにより、ロボットはデータセット内のアクションとペアでない未知の単語からアクションを適切に生成できる。

We propose a promising neural network model with which to acquire a grounded representation of robot actions and the linguistic descriptions thereof. Properly responding to various linguistic expressions, including polysemous words, is an important ability for robots that interact with people via linguistic dialogue. Previous studies have shown that robots can use words that are not included in the action-description paired datasets by using pre-trained word embeddings. However, the word embeddings trained under the distributional hypothesis are not grounded, as they are derived purely from a text corpus. In this letter, we transform the pre-trained word embeddings to embodied ones by using the robot's sensory-motor experiences. We extend a bidirectional translation model for actions and descriptions by incorporating non-linear layers that retrofit the word embeddings. By training the retrofit layer and the bidirectional translation model alternately, our proposed model is able to transform the pre-trained word embeddings to adapt to a paired action-description dataset. Our results demonstrate that the embeddings of synonyms form a semantic cluster by reflecting the experiences (actions and environments) of a robot. These embeddings allow the robot to properly generate actions from unseen words that are not paired with actions in a dataset.
翻訳日:2021-04-20 14:49:13 公開日:2021-04-17
# 再帰的入力と状態推定:データ不足を伴う時系列から学習するための一般的なフレームワーク

Recursive input and state estimation: A general framework for learning from time series with missing data ( http://arxiv.org/abs/2104.08556v1 )

ライセンス: Link先を確認
Alberto Garc\'ia-Dur\'an, Robert West(参考訳) データ不足の時系列は、機械学習の重要な設定で発生する信号である。 このような時系列をモデル化するのに最も成功したアプローチは、入力と前の状態を変換して失われた観測を考慮し、変換された信号を標準的な方法で処理するリカレントニューラルネットワークに基づいている。 本稿では、この一般的なアプローチのための単一統一フレームワークRISE(Recursive Input and State Estimation)を導入し、既存のモデルをこのフレームワークの具体例として再構成する。 次に、任意のインスタンスのパフォーマンスを改善するために、RISEフレームワーク内の新たなバリエーションについて検討する。 我々は、RISEインスタンスが使用する信号の潜在表現を学習するために表現学習技術を利用する。 我々は遅延信号表現を学習するための様々な符号化手法を議論・開発する。 我々は、3つのデータインプテーションデータセット上で様々なエンコーディング関数を持つフレームワークのインスタンスをベンチマークし、ライジングインスタンスが常に分解可能な桁から数値の表現を学ぶエンコーダの恩恵を受けていることを観察した。

Time series with missing data are signals encountered in important settings for machine learning. Some of the most successful prior approaches for modeling such time series are based on recurrent neural networks that transform the input and previous state to account for the missing observations, and then treat the transformed signal in a standard manner. In this paper, we introduce a single unifying framework, Recursive Input and State Estimation (RISE), for this general approach and reformulate existing models as specific instances of this framework. We then explore additional novel variations within the RISE framework to improve the performance of any instance. We exploit representation learning techniques to learn latent representations of the signals used by RISE instances. We discuss and develop various encoding techniques to learn latent signal representations. We benchmark instances of the framework with various encoding functions on three data imputation datasets, observing that RISE instances always benefit from encoders that learn representations for numerical values from the digits into which they can be decomposed.
翻訳日:2021-04-20 14:47:22 公開日:2021-04-17
# cetacean translation initiative: a roadmap tociphering the communication of sperm whales

Cetacean Translation Initiative: a roadmap to deciphering the communication of sperm whales ( http://arxiv.org/abs/2104.08614v1 )

ライセンス: Link先を確認
Jacob Andreas, Ga\v{s}per Begu\v{s}, Michael M. Bronstein, Roee Diamant, Denley Delaney, Shane Gero, Shafi Goldwasser, David F. Gruber, Sarah de Haas, Peter Malkin, Roger Payne, Giovanni Petri, Daniela Rus, Pratyusha Sharma, Dan Tchernov, Pernille T{\o}nnesen, Antonio Torralba, Daniel Vogt, Robert J. Wood(参考訳) 過去10年間、人間の言語分析のための機械学習は画期的な隆盛を遂げており、現在の手法では、構文や意味論のさまざまな側面(文構造や接頭辞の意味など)を、大規模なデータコレクションから正確に復元することができる。 近年の研究では、非ヒト種における音響コミュニケーションの分析ツールが期待されている。 我々は, 生物音響, 行動, 生物学的, 環境データなど, 動物のコミュニケーション研究におけるマルチモーダルデータストリームの収集, 処理, 解析の基盤として, 機械学習が重要であると仮定する。 ケタカンは高度な音響通信を持つため、独特な非ヒトのモデル種であるが、地上の媒体ではなく水中で進化した全く異なるエンコーディングシステムを使用している。 特にスペルムクジラは、高度に発達した神経解剖学的特徴、認知能力、社会構造、離散的なクリックベースの符号化によって、将来他の動物にも応用できる高度な機械学習ツールの出発点となる。 本稿では,既存の技術と多分野の科学コミュニティの取り組みに基づいて,この目標に向けてのロードマップについて述べる。 マッコウクジラの大量生物音響データの収集と処理に必要な重要な要素を概説し,それらの基本コミュニケーションユニットと言語ライクな高レベル構造を検出し,インタラクティブな再生実験によりモデルを検証する。 このような事業によって開発された技術能力は、非人間コミュニケーションと動物行動研究を研究する幅広いコミュニティにおいて、クロス応用と進歩をもたらす可能性がある。

The past decade has witnessed a groundbreaking rise of machine learning for human language analysis, with current methods capable of automatically accurately recovering various aspects of syntax and semantics - including sentence structure and grounded word meaning - from large data collections. Recent research showed the promise of such tools for analyzing acoustic communication in nonhuman species. We posit that machine learning will be the cornerstone of future collection, processing, and analysis of multimodal streams of data in animal communication studies, including bioacoustic, behavioral, biological, and environmental data. Cetaceans are unique non-human model species as they possess sophisticated acoustic communications, but utilize a very different encoding system that evolved in an aquatic rather than terrestrial medium. Sperm whales, in particular, with their highly-developed neuroanatomical features, cognitive abilities, social structures, and discrete click-based encoding make for an excellent starting point for advanced machine learning tools that can be applied to other animals in the future. This paper details a roadmap toward this goal based on currently existing technology and multidisciplinary scientific community effort. We outline the key elements required for the collection and processing of massive bioacoustic data of sperm whales, detecting their basic communication units and language-like higher-level structures, and validating these models through interactive playback experiments. The technological capabilities developed by such an undertaking are likely to yield cross-applications and advancements in broader communities investigating non-human communication and animal behavioral research.
翻訳日:2021-04-20 14:46:08 公開日:2021-04-17
# 質問マッチングのためのコンテキスト認識インタラクションネットワーク

Context-Aware Interaction Network for Question Matching ( http://arxiv.org/abs/2104.08451v1 )

ライセンス: Link先を確認
Zhe Hu, Zuohui Fu, Yu Yin, Gerard de Melo and Cheng Peng(参考訳) テキストマッチングにおいて印象的なマイルストーンは、2つの文間の関連する意味的関係をキャプチャするクロスアテンション機構を採用することで達成されている。 しかし、これらの相互接続機構は、文脈情報の重要性を無視して、2つの入力間の単語レベルのリンクに焦点を当てている。 本研究では,2つのシーケンスを適切に調整し,意味的関係を推測するコンテキスト認識インタラクションネットワーク(COIN)を提案する。 具体的には,(1)コンテキスト情報を効果的に統合するためのコンテキスト対応のクロスアテンション機構,(2)整列表現を柔軟に補間するゲート融合層を備える。 複数の積み重ねられた相互作用ブロックを適用し、異なるレベルのアライメントを生成し、徐々に注目結果を洗練する。 2つの質問マッチングデータセットと詳細な分析実験により,本モデルの有効性が確認された。

Impressive milestones have been achieved in text matching by adopting a cross-attention mechanism to capture pertinent semantic connections between two sentences. However, these cross-attention mechanisms focus on word-level links between the two inputs, neglecting the importance of contextual information. We propose a context-aware interaction network (COIN) to properly align two sequences and infer their semantic relationship. Specifically, each interaction block includes (1) a context-aware cross-attention mechanism to effectively integrate contextual information, and (2) a gate fusion layer to flexibly interpolate aligned representations. We apply multiple stacked interaction blocks to produce alignments at different levels and gradually refine the attention results. Experiments on two question matching datasets and detailed analyses confirm the effectiveness of our model.
翻訳日:2021-04-20 14:44:16 公開日:2021-04-17
# DPRとRAGによるゼロショットスロット充填

Zero-shot Slot Filling with DPR and RAG ( http://arxiv.org/abs/2104.08610v1 )

ライセンス: Link先を確認
Michael Glass, Gaetano Rossiello, Alfio Gliozzo(参考訳) 与えられた文書コレクションから知識グラフ(KG)を自動的に抽出する能力は、人工知能の長年の問題である。 この能力を評価する一つの方法はスロットフィリングのタスクである。 エンティティクエリが[Entity, Slot, ?]形式で与えられる。 ]関連する通路や通路から欠落した値を生成または抽出することによりスロットを「埋める」ようシステムに依頼する。 この能力は、特にエンタープライズアプリケーションにおいて、ますます需要が高まっている知識ベース人口の自動生成システムを作成する上で非常に重要である。 近年,知識ベースの評価と同様,言語モデルの評価には有望な方向性があり,スロットフィリングのタスクがこの目的に最も適している。 この分野の最近の進歩は、検索に基づく言語モデルを用いてエンドツーエンドでこの課題を解決しようとしている。 Retrieval Augmented Generation (RAG)のようなモデルは、複雑な情報抽出パイプラインを伴わずに驚くほど優れたパフォーマンスを示す。 しかし、KILTベンチマークの2つのスロットフィリングタスクにおけるこれらのモデルによる結果は、実際の情報抽出システムに必要なレベルには達していない。 本稿では,より優れたスロットフィラーを実現するために,ragのレトリバーとジェネレータを改善するためのいくつかの戦略について述べる。 我々のKGI0システム(https://github.com/ IBM/retrieve-write-s lot-filling)は、T-RExデータセットとzsREデータセットの両方でKILTリーダボードの1位に達した。

The ability to automatically extract Knowledge Graphs (KG) from a given collection of documents is a long-standing problem in Artificial Intelligence. One way to assess this capability is through the task of slot filling. Given an entity query in form of [Entity, Slot, ?], a system is asked to `fill' the slot by generating or extracting the missing value from a relevant passage or passages. This capability is crucial to create systems for automatic knowledge base population, which is becoming in ever-increasing demand, especially in enterprise applications. Recently, there has been a promising direction in evaluating language models in the same way we would evaluate knowledge bases, and the task of slot filling is the most suitable to this intent. The recent advancements in the field try to solve this task in an end-to-end fashion using retrieval-based language models. Models like Retrieval Augmented Generation (RAG) show surprisingly good performance without involving complex information extraction pipelines. However, the results achieved by these models on the two slot filling tasks in the KILT benchmark are still not at the level required by real-world information extraction systems. In this paper, we describe several strategies we adopted to improve the retriever and the generator of RAG in order to make it a better slot filler. Our KGI0 system (available at https://github.com/I BM/retrieve-write-sl ot-filling) reached the top-1 position on the KILT leaderboard on both T-REx and zsRE dataset with a large margin.
翻訳日:2021-04-20 14:44:02 公開日:2021-04-17
# 補足木による回答の解説

Explaining Answers with Entailment Trees ( http://arxiv.org/abs/2104.08661v1 )

ライセンス: Link先を確認
Bhavana Dalvi, Peter Jansen, Oyvind Tafjord, Zhengnan Xie, Hannah Smith, Leighanna Pipatanangkura, Peter Clark(参考訳) 我々のゴールは、オープンドメインのテキスト質問回答(QA)の文脈において、単にテキスト証拠("rationales")をリストアップするだけでなく、そのような証拠がどのようにしてその答えを体系的に導くかを示すことで、答えを説明することである。 これが実現できれば、システムの推論を理解してデバッグする新たな機会が生まれるでしょう。 我々のアプローチは、エンテーメント・ツリー(すなわち、中間的な結論を通じて知られている事実から最終回答まで、エンテーメント・ステップのツリー)の形で説明を生成することである。 このスキルでモデルをトレーニングするために、マルチステップのエンターテイメントツリーを含む最初のデータセットであるENTAILMENTBANKを作成しました。 木の各ノード(典型的には)において、2つ以上の事実が組み合わさって新しい結論を生み出す。 仮説(質問+回答)が与えられたとき、私たちは3つの難しい説明タスクを定義している: (a) すべての関連文(金の包含木の葉)、 (b) すべての関連文およびいくつかの無関係な文、または (c)コーパス。 強言語モデルはこれらのタスクを部分的に解き、性能を改善するためにいくつかの新しい方向を特定する。 この作業は、コミュニティがよりリッチでシステマティックな説明を生成するための、新しいタイプのデータセット(複数ステップの包含)とベースラインを提供するため、重要である。

Our goal, in the context of open-domain textual question-answering (QA), is to explain answers by not just listing supporting textual evidence ("rationales"), but also showing how such evidence leads to the answer in a systematic way. If this could be done, new opportunities for understanding and debugging the system's reasoning would become possible. Our approach is to generate explanations in the form of entailment trees, namely a tree of entailment steps from facts that are known, through intermediate conclusions, to the final answer. To train a model with this skill, we created ENTAILMENTBANK, the first dataset to contain multistep entailment trees. At each node in the tree (typically) two or more facts compose together to produce a new conclusion. Given a hypothesis (question + answer), we define three increasingly difficult explanation tasks: generate a valid entailment tree given (a) all relevant sentences (the leaves of the gold entailment tree), (b) all relevant and some irrelevant sentences, or (c) a corpus. We show that a strong language model only partially solves these tasks, and identify several new directions to improve performance. This work is significant as it provides a new type of dataset (multistep entailments) and baselines, offering a new avenue for the community to generate richer, more systematic explanations.
翻訳日:2021-04-20 14:43:39 公開日:2021-04-17
# 依存グラフを用いた質問分解

Question Decomposition with Dependency Graphs ( http://arxiv.org/abs/2104.08647v1 )

ライセンス: Link先を確認
Matan Hasson and Jonathan Berant(参考訳) QDMRは複雑な質問の意味表現であり、質問を一連の原子ステップに分解する。 最先端のQDMRパーサは共通のシーケンス・ツー・シーケンス(seq2seq)アプローチを用いるが、QDMR構造は入力問題におけるスパン間のラベル付き関係を根本的に記述し、従って依存性ベースのアプローチがこのタスクに適しているように見える。 本研究では,依存グラフ(DG)に基づくQDMRパーサを提案する。グラフ内のノードは単語であり,エッジは異なる計算ステップに対応する論理的関係を記述する。 a)すべてのグラフエッジが同時に計算される非回帰グラフパーサ,および(b)ゴールドグラフを補助監督として使用するseq2seqパーサを提案する。 グラフパーサは性能を緩やかに低下させる(0.47から0.44)が、パーサの非自己回帰性に起因する推論時間の16倍の高速化と、seq2seqモデルと比較してサンプルの複雑さが向上する。 第二に、補助グラフによって訓練されたseq2seqモデルは、seq2seqモデルよりも新しいドメインへのより良い一般化と、長い計算ステップのシーケンスを持つ問題に対するパフォーマンスの向上を実現している。

QDMR is a meaning representation for complex questions, which decomposes questions into a sequence of atomic steps. While state-of-the-art QDMR parsers use the common sequence-to-sequence (seq2seq) approach, a QDMR structure fundamentally describes labeled relations between spans in the input question, and thus dependency-based approaches seem appropriate for this task. In this work, we present a QDMR parser that is based on dependency graphs (DGs), where nodes in the graph are words and edges describe logical relations that correspond to the different computation steps. We propose (a) a non-autoregressive graph parser, where all graph edges are computed simultaneously, and (b) a seq2seq parser that uses gold graph as auxiliary supervision. We find that a graph parser leads to a moderate reduction in performance (0.47 to 0.44), but to a 16x speed-up in inference time due to the non-autoregressive nature of the parser, and to improved sample complexity compared to a seq2seq model. Second, a seq2seq model trained with auxiliary graph supervision has better generalization to new domains compared to a seq2seq model, and also performs better on questions with long sequences of computation steps.
翻訳日:2021-04-20 14:37:58 公開日:2021-04-17
# DiS-ReX:遠隔監視関係抽出のための多言語データセット

DiS-ReX: A Multilingual Dataset for Distantly Supervised Relation Extraction ( http://arxiv.org/abs/2104.08655v1 )

ライセンス: Link先を確認
Abhyuday Bhartiya, Kartikeya Badola, Mausam(参考訳) 遠隔監視(DS)は、人間のアノテーションを使わずに、関係抽出(RE)のための大規模データセットを作成するための確立された手法である。 しかし、DS-REの研究はほとんど英語に限られている。 単一言語へのreの制約は、より多様な事実の抽出を可能にする他の言語における大量のデータの利用を阻害する。 最近、多言語DS-RE用のデータセットがリリースされた。 しかし,本分析の結果から,1)関係を表現しない文の欠如,2)関係を正確に1つだけ表現するエンティティペアのすべての文など,非現実的な特徴が示された。 これらの特性がモデル性能の過大評価につながることを示す。 そこで我々は,これらの問題を緩和する新しいデータセットDiS-ReXを提案する。 私たちのデータセットには150万以上の文があり、36の関連クラスを持つ4つの言語にまたがっている。 また,mBERTを用いて文を符号化し,多言語DS-REのベンチマーク結果を提供する。 競合するデータセットとは異なり、我々のデータセットは挑戦的であり、この分野で将来の研究を行う余地を残している。

Distant supervision (DS) is a well established technique for creating large-scale datasets for relation extraction (RE) without using human annotations. However, research in DS-RE has been mostly limited to the English language. Constraining RE to a single language inhibits utilization of large amounts of data in other languages which could allow extraction of more diverse facts. Very recently, a dataset for multilingual DS-RE has been released. However, our analysis reveals that the proposed dataset exhibits unrealistic characteristics such as 1) lack of sentences that do not express any relation, and 2) all sentences for a given entity pair expressing exactly one relation. We show that these characteristics lead to a gross overestimation of the model performance. In response, we propose a new dataset, DiS-ReX, which alleviates these issues. Our dataset has more than 1.5 million sentences, spanning across 4 languages with 36 relation classes + 1 no relation (NA) class. We also modify the widely used bag attention models by encoding sentences using mBERT and provide the first benchmark results on multilingual DS-RE. Unlike the competing dataset, we show that our dataset is challenging and leaves enough room for future research to take place in this field.
翻訳日:2021-04-20 14:37:34 公開日:2021-04-17
# 未知のユーティリティによる学習

Agnostic learning with unknown utilities ( http://arxiv.org/abs/2104.08482v1 )

ライセンス: Link先を確認
Kush Bhatia, Peter L. Bartlett, Anca D. Dragan, Jacob Steinhardt(参考訳) 分類のための伝統的な学習アプローチは、それぞれの誤りが同じコストを持つと暗黙的に仮定する。 しかし、現実世界の多くの問題において、決定の効用は基礎となる文脈である$x$ と decision $y$ に依存する。 しかしながら、これらのユーティリティを直接学習目的に組み込むことは、人間が指定するのが非常に複雑で難しいため、しばしば実現不可能である。 データセット $S = \{x_1, \ldots, x_n\}$ ここで各データポイント $x_i \sim \mathcal{D}$ が与えられた場合、学習者の目的は、あるクラスの決定関数$\mathcal{F}$ で関数 $f$ を出力することである。 このリスクは、未知のユーティリティ $u^*$ において、クラス $\mathcal{F}$ の最高の予測子に対して出力予測子 $f$ のパフォーマンスを測定する。 このユーティリティ $u^*$ は特定の構造を持たないと仮定される。 これは、有限個のサンプルからユーティリティ $u^*$ の一般化された推定を得ることができないことを考慮し、我々の設定で学習が可能かどうかという興味深い疑問を提起する。 驚いたことに、サンプルされた点のみのユーティリティの推定は、よく一般化された決定関数を学ぶのに$s$ sufficesである。 本研究は,学習者に対して,設定した$S$に対して$u^*$を推定できる情報抽出機構について検討する。 我々は、$k$-comparison oracleと呼ばれる比較を一般化することにより、学習者が一度に$k$異なる入力を$x$で比較できるようにする。 学習フレームワークの過剰なリスクは、$O\left(\frac{1}{k} \right)$で減少することを示す。 この結果、oracleの注文が1万ドル増えると、比較クエリは人間から引き出すのが難しくなりますが、より正確な学習を可能にします。

Traditional learning approaches for classification implicitly assume that each mistake has the same cost. In many real-world problems though, the utility of a decision depends on the underlying context $x$ and decision $y$. However, directly incorporating these utilities into the learning objective is often infeasible since these can be quite complex and difficult for humans to specify. We formally study this as agnostic learning with unknown utilities: given a dataset $S = \{x_1, \ldots, x_n\}$ where each data point $x_i \sim \mathcal{D}$, the objective of the learner is to output a function $f$ in some class of decision functions $\mathcal{F}$ with small excess risk. This risk measures the performance of the output predictor $f$ with respect to the best predictor in the class $\mathcal{F}$ on the unknown underlying utility $u^*$. This utility $u^*$ is not assumed to have any specific structure. This raises an interesting question whether learning is even possible in our setup, given that obtaining a generalizable estimate of utility $u^*$ might not be possible from finitely many samples. Surprisingly, we show that estimating the utilities of only the sampled points~$S$ suffices to learn a decision function which generalizes well. We study mechanisms for eliciting information which allow a learner to estimate the utilities $u^*$ on the set $S$. We introduce a family of elicitation mechanisms by generalizing comparisons, called the $k$-comparison oracle, which enables the learner to ask for comparisons across $k$ different inputs $x$ at once. We show that the excess risk in our agnostic learning framework decreases at a rate of $O\left(\frac{1}{k} \right)$. This result brings out an interesting accuracy-elicitation trade-off -- as the order $k$ of the oracle increases, the comparative queries become harder to elicit from humans but allow for more accurate learning.
翻訳日:2021-04-20 14:31:30 公開日:2021-04-17
# 不均衡データ分類のためのポテンシャルアンカリング

Potential Anchoring for imbalanced data classification ( http://arxiv.org/abs/2104.08548v1 )

ライセンス: Link先を確認
Micha{\l} Koziarski(参考訳) データ不均衡は、現代の機械学習アルゴリズムのパフォーマンスに悪影響を及ぼす要因の1つである。 データ不均衡の負の影響を減らすための最も一般的なアプローチの1つは、元のデータセットをデータレベルの戦略で前処理することだ。 本稿では,不均衡なデータのオーバーサンプリングとアンダーサンプリングのための統一フレームワークを提案する。 提案手法は放射状基底関数を用いて,再サンプリング過程における基底クラス分布の原形を保存する。 これは、生成した合成観測の潜在的な類似性損失に対する位置を最適化することで達成される。 最後のAnchoringアルゴリズムは、提案したフレームワーク内でオーバーサンプリングとアンダーサンプリングを組み合わせる。 60個の不均衡データセットを用いて行った実験の結果は、放射基底関数を用いてクラスポテンシャルをモデル化する手法を含む最先端再サンプリングアルゴリズムに対するポテンシャルアンチョリングの性能を示す。 さらに,データ複雑度指数に基づく解析結果から,自然複雑度(自然複雑度)の処理に特に適している可能性が示唆された。 ノイズの存在に影響されない)データセット。

Data imbalance remains one of the factors negatively affecting the performance of contemporary machine learning algorithms. One of the most common approaches to reducing the negative impact of data imbalance is preprocessing the original dataset with data-level strategies. In this paper we propose a unified framework for imbalanced data over- and undersampling. The proposed approach utilizes radial basis functions to preserve the original shape of the underlying class distributions during the resampling process. This is done by optimizing the positions of generated synthetic observations with respect to the potential resemblance loss. The final Potential Anchoring algorithm combines over- and undersampling within the proposed framework. The results of the experiments conducted on 60 imbalanced datasets show outperformance of Potential Anchoring over state-of-the-art resampling algorithms, including previously proposed methods that utilize radial basis functions to model class potential. Furthermore, the results of the analysis based on the proposed data complexity index show that Potential Anchoring is particularly well suited for handling naturally complex (i.e. not affected by the presence of noise) datasets.
翻訳日:2021-04-20 14:30:56 公開日:2021-04-17
# 最適輸送を用いた半改良マルチモードマルチインスタンス・マルチラベルディープネットワーク

Semi-Supervised Multi-Modal Multi-Instance Multi-Label Deep Network with Optimal Transport ( http://arxiv.org/abs/2104.08489v1 )

ライセンス: Link先を確認
Yang Yang, Zhao-Yang Fu, De-Chuan Zhan, Zhi-Bin Liu, and Yuan Jiang(参考訳) 複雑なオブジェクトは通常、複数のラベルを持ち、複数のモーダル表現で表現することができる。 以前の方法では、均質なマルチモーダルデータは一貫性があり、実際のアプリケーションでは、生データは乱れ、例えば、記事は、不整合なテキストと画像インスタンスの可変数で構成される。 そのため、マルチモーダルマルチインスタンスマルチラベル(M3)学習は、そのようなタスクを扱うためのフレームワークを提供し、優れた性能を示した。 しかし、M3学習は、1)ラベル相関を効果的に活用する方法、2)ラベルのないインスタンスを処理するためにマルチモーダル学習を利用する方法の2つの主な課題に直面している。 そこで本研究では,m3学習をエンド・ツー・エンドのマルチモーダル深層ネットワークで考慮し,異なるモーダルバッグレベル予測の一貫性原理を生かしたマルチモーダルマルチインスタンス深層ネットワーク(m3dn)を提案する。 M3DNに基づいて、最適な輸送量を持つ潜在地層ラベルの計量を学習する。 さらに,非ラベル付きマルチモーダルマルチインスタンスデータを導入し,単一モダリティのインスタンスレベルのオートエンコーダとバッグレベルの最適化トランスポートを考慮したM3DNSを提案し,モダリティ間の整合性を高める。 これにより、M3DNSはラベルを予測し、ラベル相関を同時に活用できる。 ベンチマークデータセットと実世界のwkgゲームハブデータセットの実験は、提案手法の有効性を検証する。

Complex objects are usually with multiple labels, and can be represented by multiple modal representations, e.g., the complex articles contain text and image information as well as multiple annotations. Previous methods assume that the homogeneous multi-modal data are consistent, while in real applications, the raw data are disordered, e.g., the article constitutes with variable number of inconsistent text and image instances. Therefore, Multi-modal Multi-instance Multi-label (M3) learning provides a framework for handling such task and has exhibited excellent performance. However, M3 learning is facing two main challenges: 1) how to effectively utilize label correlation; 2) how to take advantage of multi-modal learning to process unlabeled instances. To solve these problems, we first propose a novel Multi-modal Multi-instance Multi-label Deep Network (M3DN), which considers M3 learning in an end-to-end multi-modal deep network and utilizes consistency principle among different modal bag-level predictions. Based on the M3DN, we learn the latent ground label metric with the optimal transport. Moreover, we introduce the extrinsic unlabeled multi-modal multi-instance data, and propose the M3DNS, which considers the instance-level auto-encoder for single modality and modified bag-level optimal transport to strengthen the consistency among modalities. Thereby M3DNS can better predict label and exploit label correlation simultaneously. Experiments on benchmark datasets and real world WKG Game-Hub dataset validate the effectiveness of the proposed methods.
翻訳日:2021-04-20 14:29:39 公開日:2021-04-17
# 支持ベクターマシンを用いた眼底自己蛍光画像に基づく眼疾患の効率的なスクリーニング

Efficient Screening of Diseased Eyes based on Fundus Autofluorescence Images using Support Vector Machine ( http://arxiv.org/abs/2104.08519v1 )

ライセンス: Link先を確認
Shanmukh Reddy Manne, Kiran Kumar Vupparaboina, Gowtham Chowdary Gudapati, Ram Anudeep Peddoju, Chandra Prakash Konkimalla, Abhilash Goud, Sarforaz Bin Bashar, Jay Chhablani, Soumya Jana(参考訳) 様々な視力障害は、眼窩領域の地理的萎縮(ga)と関連している。 現在の臨床実践では、眼科医は、眼底蛍光(FAF)画像に基づいて、そのようなGAの存在を手動で検出し、関連する場合は疾患を診断する。 しかし, 眼科医の眼科医の全般的不足, 特に遠隔地では, 専門医の時間と努力を医学的に重要な症例に向ける手法の開発が不可欠となる。 さらに、熟練眼科医の診察においてかなりの経済的・物理的障壁に直面している不利な背景や遠隔地からの被験者は、有害な状態が存在することを合理的に確信した後にのみ医学的注意を向ける傾向がある。 眼科医と潜在的な患者の双方の関心をひくため,健康眼と病気眼をアルゴリズム的に区別し,比較的多量の眼科医のみからの入力を限定的に行うスクリーニング段階を計画した。 具体的には、各faf画像上に早期治療型糖尿病網膜症研究(etdrs)グリッドを設置し、センタリー統計を自動的に収集する。 このような統計を特徴として、健康眼と病気眼を、利用可能な医療記録を用いてアルゴリズムを訓練することにより分類することを提案する。 本稿では,サポートベクトルマシン(SVM)の有効性を示す。 具体的には、線形かつラジアル基底関数(RBF)カーネルを持つSVMを考察し、両変数の良好な性能を観察する。 その中でも,分類精度(標準トレーニング対テスト比80:20では90.55%)と実用的クラス条件コストの観点から,後者を推奨する。

A variety of vision ailments are associated with geographic atrophy (GA) in the foveal region of the eye. In current clinical practice, the ophthalmologist manually detects potential presence of such GA based on fundus autofluorescence (FAF) images, and hence diagnoses the disease, when relevant. However, in view of the general scarcity of ophthalmologists relative to the large number of subjects seeking eyecare, especially in remote regions, it becomes imperative to develop methods to direct expert time and effort to medically significant cases. Further, subjects from either disadvantaged background or remote localities, who face considerable economic/physical barrier in consulting trained ophthalmologists, tend to seek medical attention only after being reasonably certain that an adverse condition exists. To serve the interest of both the ophthalmologist and the potential patient, we plan a screening step, where healthy and diseased eyes are algorithmically differentiated with limited input from only optometrists who are relatively more abundant in number. Specifically, an early treatment diabetic retinopathy study (ETDRS) grid is placed by an optometrist on each FAF image, based on which sectoral statistics are automatically collected. Using such statistics as features, healthy and diseased eyes are proposed to be classified by training an algorithm using available medical records. In this connection, we demonstrate the efficacy of support vector machines (SVM). Specifically, we consider SVM with linear as well as radial basis function (RBF) kernel, and observe satisfactory performance of both variants. Among those, we recommend the latter in view of its slight superiority in terms of classification accuracy (90.55% at a standard training-to-test ratio of 80:20), and practical class-conditional costs.
翻訳日:2021-04-20 14:29:11 公開日:2021-04-17
# 増分学習のための測地経路の学習について

On Learning the Geodesic Path for Incremental Learning ( http://arxiv.org/abs/2104.08572v1 )

ライセンス: Link先を確認
Christian Simon, Piotr Koniusz, Mehrtash Harandi(参考訳) ニューラルネットワークは、破滅的な忘れ忘れという問題、すなわち新しい知識を得る際に過去の知識を忘れてしまう現象に悩まされている。 破滅的な忘れを克服することは、モデルが逐次的な経験から効率的で堅牢な方法で学習できる"インクリメンタル学習"のプロセスをエミュレートする上で非常に重要である。 漸進的な学習のための最先端技術は、破滅的な忘れ込みを防ぐために知識蒸留を利用する。 これにより、ネットワークが以前見た概念に対する応答が更新を通して安定し続けることを保証しながら、ネットワークを更新する。 これは、ネットワークの現在の応答と以前の応答との相違を最小限にすることで実現される。 本研究は, 蒸留技術に新たな方法をもたらすものである。 先行技術とは対照的に, 先行および現在応答のための低次元多様体をまず構築し, 多様体を接続する測地線に沿った応答の不一致を最小限に抑えることを提案する。 これにより, 過去の知識をより効率的に保存できる, スムーズな性質を持つ, より強い知識蒸留がもたらされる。

Neural networks notoriously suffer from the problem of catastrophic forgetting, the phenomenon of forgetting the past knowledge when acquiring new knowledge. Overcoming catastrophic forgetting is of significant importance to emulate the process of "incremental learning", where the model is capable of learning from sequential experience in an efficient and robust way. State-of-the-art techniques for incremental learning make use of knowledge distillation towards preventing catastrophic forgetting. Therein, one updates the network while ensuring that the network's responses to previously seen concepts remain stable throughout updates. This in practice is done by minimizing the dissimilarity between current and previous responses of the network one way or another. Our work contributes a novel method to the arsenal of distillation techniques. In contrast to the previous state of the art, we propose to firstly construct low-dimensional manifolds for previous and current responses and minimize the dissimilarity between the responses along the geodesic connecting the manifolds. This induces a more formidable knowledge distillation with smooth properties which preserves the past knowledge more efficiently as observed by our comprehensive empirical study.
翻訳日:2021-04-20 14:28:40 公開日:2021-04-17
# コントラスト型自己監督表現学習による色彩変数の同定

Color Variants Identification via Contrastive Self-Supervised Representation Learning ( http://arxiv.org/abs/2104.08581v1 )

ライセンス: Link先を確認
Ujjal Kr Dutta, Sandeep Repakula, Maulik Parmar, Abhinav Ravi(参考訳) 本稿では,カラーバリエーションの識別問題に対処するために,深部視覚表現学習を利用する。 特に,ファッション製品におけるカラーバリエーションの識別には,デザイン(あるいはスタイル)に正確にマッチするファッション商品を識別する問題に言及するが,その色の違いにのみ対処する。 まず,2つの製品がカラー変種であるか否かを手動で記述することで,この問題を解決する。 このようなアノテーションを得て、三重項損失に基づくニューラルネットワークモデルをトレーニングし、ファッション製品の深い表現を学ぶ。 しかし,本論文のような大規模実世界の産業データセットでは,データセット全体のアノテーションを得ることは不可能である。 そこで我々は,自己指導型学習を用いて表現を得る方法を探究する。 我々は,既存の最先端自己監督手法は,カラー変種モデルの教師バージョンと競合しないことを示した。 これに対処するために,新しいコントラスト損失に基づく自己教師付き色変種モデルを提案する。 直感的には、我々のモデルは、既存の方法でデータ拡張に使われるランダムな作物ではなく、固定された方法でオブジェクトの異なる部分に焦点を当てる。 本手法は,既存の自己監督手法よりも優れていることを示すため,定量的かつ定性的に評価し,時には教師付きモデルも評価する。

In this paper, we utilize deep visual Representation Learning to address the problem of identification of color variants. In particular, we address color variants identification in fashion products, which refers to the problem of identifying fashion products that match exactly in their design (or style), but only to differ in their color. Firstly, we solve this problem by obtaining manual annotations depicting whether two products are color variants. Having obtained such annotations, we train a triplet loss based neural network model to learn deep representations of fashion products. However, for large scale real-world industrial datasets such as addressed in our paper, it is infeasible to obtain annotations for the entire dataset. Hence, we rather explore the use of self-supervised learning to obtain the representations. We observed that existing state-of-the-art self-supervised methods do not perform competitive against the supervised version of our color variants model. To address this, we additionally propose a novel contrastive loss based self-supervised color variants model. Intuitively, our model focuses on different parts of an object in a fixed manner, rather than focusing on random crops typically used for data augmentation in existing methods. We evaluate our method both quantitatively and qualitatively to show that it outperforms existing self-supervised methods, and at times, the supervised model as well.
翻訳日:2021-04-20 14:28:22 公開日:2021-04-17
# ScaleFreeCTR:大規模埋め込みテーブルを用いたCTRモデルの混合キャッシュ型分散トレーニングシステム

ScaleFreeCTR: MixCache-based Distributed Training System for CTR Models with Huge Embedding Table ( http://arxiv.org/abs/2104.08542v1 )

ライセンス: Link先を確認
Huifeng Guo, Wei Guo, Yong Gao, Ruiming Tang, Xiuqiang He, Wenzhi Liu(参考訳) 深層学習の優れた特徴表現能力のため、様々な深部クリックスルーレート(CTR)モデルが工業企業によって商業システムに展開されている。 より優れた性能を得るためには、大量のトレーニングデータに基づいて深部CTRモデルを効率的にトレーニングする必要があるため、トレーニングプロセスの高速化が不可欠である。 密集したトレーニングデータを持つモデルとは異なり、CTRモデルのトレーニングデータは通常、高次元かつ疎らである。 高次元のスパース入力を低次元の高密度実値ベクトルに変換するため、ほとんどの深部CTRモデルは埋め込み層を採用しており、数百 GB や TB にも達する。 単一のGPUは、すべての埋め込みパラメータに対応できないため、分散トレーニングを行う場合、データ並列化のみを実行するのは合理的ではない。 そのため、既存の分散トレーニングプラットフォームではモデル並列化を採用している。 具体的には、組み込みパラメータの維持と更新にサーバのcpu(ホスト)メモリを使用し、gpu workerを使用して前方および後方の計算を行う。 残念ながらこれらのプラットフォームには2つのボトルネックがある。(1)ホストとgpu間のpull \&push操作のレイテンシ、(2)cpuサーバにおけるパラメータの更新と同期。 このようなボトルネックに対処するために,本論文では,CTRモデルのためのMixCacheベースの分散トレーニングシステムであるScaleFreeCTRを提案する。 具体的には、SFCTRでは、CPUに巨大な埋め込みテーブルを格納するが、CPUの代わりにGPUを使用して効率よく埋め込み同期を行う。 GPU-HostとGPU-GPU間のデータ転送のレイテンシを低減するため、MixCache機構とVirtual Sparse Id演算を提案する。 総合的な実験とアブレーション実験を行い,SFCTRの有効性と効率を実証した。

Because of the superior feature representation ability of deep learning, various deep Click-Through Rate (CTR) models are deployed in the commercial systems by industrial companies. To achieve better performance, it is necessary to train the deep CTR models on huge volume of training data efficiently, which makes speeding up the training process an essential problem. Different from the models with dense training data, the training data for CTR models is usually high-dimensional and sparse. To transform the high-dimensional sparse input into low-dimensional dense real-value vectors, almost all deep CTR models adopt the embedding layer, which easily reaches hundreds of GB or even TB. Since a single GPU cannot afford to accommodate all the embedding parameters, when performing distributed training, it is not reasonable to conduct the data-parallelism only. Therefore, existing distributed training platforms for recommendation adopt model-parallelism. Specifically, they use CPU (Host) memory of servers to maintain and update the embedding parameters and utilize GPU worker to conduct forward and backward computations. Unfortunately, these platforms suffer from two bottlenecks: (1) the latency of pull \& push operations between Host and GPU; (2) parameters update and synchronization in the CPU servers. To address such bottlenecks, in this paper, we propose the ScaleFreeCTR: a MixCache-based distributed training system for CTR models. Specifically, in SFCTR, we also store huge embedding table in CPU but utilize GPU instead of CPU to conduct embedding synchronization efficiently. To reduce the latency of data transfer between both GPU-Host and GPU-GPU, the MixCache mechanism and Virtual Sparse Id operation are proposed. Comprehensive experiments and ablation studies are conducted to demonstrate the effectiveness and efficiency of SFCTR.
翻訳日:2021-04-20 14:23:56 公開日:2021-04-17
# 簡易データ拡張手法による完全テキスト依存型終末誤字検出と診断

A Full Text-Dependent End to End Mispronunciation Detection and Diagnosis with Easy Data Augmentation Techniques ( http://arxiv.org/abs/2104.08428v1 )

ライセンス: Link先を確認
Kaiqi Fu and Jones Lin and Dengfeng Ke and Yanlu Xie and Jinsong Zhang and Binghuai Lin(参考訳) 近年,複雑なモジュールを1つのディープネットワークアーキテクチャで表現することで,従来のハイブリッドDNN-HMMシステムのモデル構築プロセスを大幅に単純化する手段として,MD&Dシステムが人気となっている。 本稿では,本モデルにおける先行文を,sed-mddと異なるテキスト依存モデルとして,モデル内の先行文の音素列にアテンション機構を通した完全エンドツーエンドシステムを実現する。 さらに、入力としての先行テキストは、音素配列における正と負のサンプルの不均衡の問題となる。 そこで本研究では,この問題を解決するために,誤発音音素を効果的に捕捉するモデルの能力を向上させる3つの簡易データ拡張手法を提案する。 CNN-RNN-CTCモデルと比較して,L2-ARCTICの実験を行い,F測定値の49.29%から56.08%に改善した。

Recently, end-to-end mispronunciation detection and diagnosis (MD&D) systems has become a popular alternative to greatly simplify the model-building process of conventional hybrid DNN-HMM systems by representing complicated modules with a single deep network architecture. In this paper, in order to utilize the prior text in the end-to-end structure, we present a novel text-dependent model which is difference with sed-mdd, the model achieves a fully end-to-end system by aligning the audio with the phoneme sequences of the prior text inside the model through the attention mechanism. Moreover, the prior text as input will be a problem of imbalance between positive and negative samples in the phoneme sequence. To alleviate this problem, we propose three simple data augmentation methods, which effectively improve the ability of model to capture mispronounced phonemes. We conduct experiments on L2-ARCTIC, and our best performance improved from 49.29% to 56.08% in F-measure metric compared to the CNN-RNN-CTC model.
翻訳日:2021-04-20 14:16:42 公開日:2021-04-17
# 長期臨床文書分類のための階層型トランスネットワーク

Hierarchical Transformer Networks for Longitudinal Clinical Document Classification ( http://arxiv.org/abs/2104.08444v1 )

ライセンス: Link先を確認
Yuqi Si and Kirk Roberts(参考訳) 本稿では,患者レベルの予測を目的とした長期依存関係モデリングのための階層型トランスフォーマーネットワークを提案する。 このネットワークは、3段階のトランスフォーマーベースのエンコーダを備えており、単語から文、文から音まで徐々に学習し、最終的に患者に注記する。 単語から文への第1レベルは事前訓練されたbertモデルを直接適用し、第2レベルと第3レベルは2層エンコーダのスタックを実装し、最終患者表現は臨床予測のために分類層に供給される。 従来のBERTモデルと比較して,本モデルでは, 512語から, 長い臨床書面列に適した長いシーケンスへと, 最大入力長を増大させる。 計算資源限界の最適トレードオフを特定するために,異なるパラメータを用いて実験を行った。 予測タスクが異なるMIMIC-IIIデータセットに対する実験結果から,提案した階層モデルが従来の階層型ニューラルネットワークより優れていることが示された。

We present the Hierarchical Transformer Networks for modeling long-term dependencies across clinical notes for the purpose of patient-level prediction. The network is equipped with three levels of Transformer-based encoders to learn progressively from words to sentences, sentences to notes, and finally notes to patients. The first level from word to sentence directly applies a pre-trained BERT model, and the second and third levels both implement a stack of 2-layer encoders before the final patient representation is fed into the classification layer for clinical predictions. Compared to traditional BERT models, our model increases the maximum input length from 512 words to much longer sequences that are appropriate for long sequences of clinical notes. We empirically examine and experiment with different parameters to identify an optimal trade-off given computational resource limits. Our experimental results on the MIMIC-III dataset for different prediction tasks demonstrate that our proposed hierarchical model outperforms previous state-of-the-art hierarchical neural networks.
翻訳日:2021-04-20 14:16:23 公開日:2021-04-17
# テキスト分類のためのデータ蒸留

Data Distillation for Text Classification ( http://arxiv.org/abs/2104.08448v1 )

ライセンス: Link先を確認
Yongqi Li, Wenjie Li(参考訳) ディープラーニングのテクニックは多くの分野で大きな成功を収めている一方、ディープラーニングモデルは計算の複雑さとコストが増している。 これはこれらのモデルの幅広い応用を妨げる。 この問題を緩和するために, モデル蒸留は, 精度を著しく低下させることなく, より小さなモデルに圧縮する有効な方法として現れる。 本稿では,大規模学習データセットからより小型で合成的なデータへの知識の抽出を目的としたデータ蒸留について検討する。 小さなデータセットに基づいて、大規模で成長するニューラルネットワークトレーニング問題に対処する可能性がある。 テキスト分類のための新しいデータ蒸留法を開発した。 提案手法を8つのベンチマークデータセットで評価する。 その結果、原文データの0.1%の大きさの蒸留データが、原文の約90%のパフォーマンスを達成することは、かなり印象的である。

Deep learning techniques have achieved great success in many fields, while at the same time deep learning models are getting more complex and expensive to compute. It severely hinders the wide applications of these models. In order to alleviate this problem, model distillation emerges as an effective means to compress a large model into a smaller one without a significant drop in accuracy. In this paper, we study a related but orthogonal issue, data distillation, which aims to distill the knowledge from a large training dataset down to a smaller and synthetic one. It has the potential to address the large and growing neural network training problem based on the small dataset. We develop a novel data distillation method for text classification. We evaluate our method on eight benchmark datasets. The results that the distilled data with the size of 0.1% of the original text data achieves approximately 90% performance of the original is rather impressive.
翻訳日:2021-04-20 14:16:08 公開日:2021-04-17
# 文書き換えサンプリングによるテキスト分類器の攻撃

Attacking Text Classifiers via Sentence Rewriting Sampler ( http://arxiv.org/abs/2104.08453v1 )

ライセンス: Link先を確認
Lei Xu, Kalyan Veeramachaneni(参考訳) テキスト分類におけるほとんどの逆攻撃方法は、少数の単語や文字を変更することで分類器の予測を変更するように設計されている。 文レベルの再現に固有の困難と、高い意味的類似性と文の品質を維持する問題のために、文全体を書き換えることで分類器を攻撃しようとする試みはほとんどない。 この問題に対処するため、我々は意味のある文を条件付きで生成できる汎用文書き換えサンプリング(SRS)フレームワークを設計する。 次に、SRSをカスタマイズしてテキスト分類モデルを攻撃する。 本手法は,意味的類似度と文質を高く保ちつつ,複数の方法で原文を効果的に書き換えることができる。 実験の結果,これらの書き換え文の多くは分類器によって誤分類されていることがわかった。 提案手法は,7つのデータセットのうち4つで攻撃成功率を向上し,7つのデータセットの文質も大幅に向上した。

Most adversarial attack methods on text classification are designed to change the classifier's prediction by modifying few words or characters. Few try to attack classifiers by rewriting a whole sentence, due to the difficulties inherent in sentence-level rephrasing and the problem of maintaining high semantic similarity and sentence quality. To tackle this problem, we design a general sentence rewriting sampler (SRS) framework, which can conditionally generate meaningful sentences. Then we customize SRS to attack text classification models. Our method can effectively rewrite the original sentence in multiple ways while maintaining high semantic similarity and good sentence quality. Experimental results show that many of these rewritten sentences are misclassified by the classifier. Our method achieves a better attack success rate on 4 out of 7 datasets, as well as significantly better sentence quality on all 7 datasets.
翻訳日:2021-04-20 14:15:55 公開日:2021-04-17
# ニューラルパスハンター:経路接地による対話システムにおける幻覚の低減

Neural Path Hunter: Reducing Hallucination in Dialogue Systems via Path Grounding ( http://arxiv.org/abs/2104.08455v1 )

ライセンス: Link先を確認
Nouha Dziri, Andrea Madotto, Osmar Zaiane, Avishek Joey Bose(参考訳) 大規模事前学習型言語モデル(lm)を用いた対話システムは、自然に流れるような応答を提供する。 印象的な世代パフォーマンスにもかかわらず、これらのモデルはしばしば、その普及を妨げている事実的に誤ったステートメントを生成する。 本稿では,知識グラフ(KG)によって提供される既知の事実に対して,ニューラル対話システムの忠実さを向上し,幻覚を低減することに焦点を当てる。 そこで我々は,KGのk-hopサブグラフを用いて,生成した応答を補正する生成-then-refine戦略に従うニューラルパスハンターを提案する。 Neural Path Hunterは別のトークンレベルの事実批判を利用して幻覚のもっともらしい源を識別し、その後k-hopサブグラフ上に伝播するクエリ信号を作成して正しいエンティティを検索する2つのニューラルLMの連鎖からなる洗練段階が続く。 提案モデルは,モデルを再トレーニングすることなく,任意の対話生成応答に容易に適用できる。 我々は,OpenDialKGデータセットに対する提案手法を一連の指標に対して実証的に検証し,GPT2対話応答に対する信頼度を8.4%向上させたことを報告した。

Dialogue systems powered by large pre-trained language models (LM) exhibit an innate ability to deliver fluent and natural-looking responses. Despite their impressive generation performance, these models can often generate factually incorrect statements impeding their widespread adoption. In this paper, we focus on the task of improving the faithfulness -- and thus reduce hallucination -- of Neural Dialogue Systems to known facts supplied by a Knowledge Graph (KG). We propose Neural Path Hunter which follows a generate-then-refine strategy whereby a generated response is amended using the k-hop subgraph of a KG. Neural Path Hunter leverages a separate token-level fact critic to identify plausible sources of hallucination followed by a refinement stage consisting of a chain of two neural LM's that retrieves correct entities by crafting a query signal that is propagated over the k-hop subgraph. Our proposed model can easily be applied to any dialogue generated responses without retraining the model. We empirically validate our proposed approach on the OpenDialKG dataset against a suite of metrics and report a relative improvement of faithfulness over GPT2 dialogue responses by 8.4%.
翻訳日:2021-04-20 14:15:41 公開日:2021-04-17
# OntoNotesからの移行:Coreference Resolution Model Transfer

Moving on from OntoNotes: Coreference Resolution Model Transfer ( http://arxiv.org/abs/2104.08457v1 )

ライセンス: Link先を確認
Patrick Xia, Benjamin Van Durme(参考訳) コリファレンス解決のための学術ニューラルモデルは通常、単一のデータセット(オンノート)でトレーニングされ、モデルの改善はそのデータセット上でベンチマークされる。 しかし、コア参照解決モデルの実際の使用はアノテーションガイドラインとターゲットデータセットのドメインに依存しており、OntoNotesとはしばしば異なる。 対象とするデータセットで利用可能な注釈付き文書の数に基づいて,コリファレンス解決モデルの転送可能性の定量化を目標とする。 対象とする5つのデータセットを調査し,目標文書が少ない場合には,継続トレーニングが一貫して有効であり,特に有益であることを確認した。 LitBankとPreCoの最先端の結果を含む、いくつかのデータセットにまたがる新たなベンチマークを確立します。

Academic neural models for coreference resolution are typically trained on a single dataset (OntoNotes) and model improvements are then benchmarked on that dataset. However, real-world usages of coreference resolution models depend on the annotation guidelines and the domain of the target dataset, which often differ from those of OntoNotes. We aim to quantify transferability of coreference resolution models based on the number of annotated documents available in the target dataset. We examine five target datasets and find that continued training is consistently effective and especially beneficial when there are few target documents. We establish new benchmarks across several datasets, including state-of-the-art results on LitBank and PreCo.
翻訳日:2021-04-20 14:15:20 公開日:2021-04-17
# 構文構造と一般マルコフモデル

Syntactic structures and the general Markov models ( http://arxiv.org/abs/2104.08462v1 )

ライセンス: Link先を確認
Sitanshu Gakkhar, Matilde Marcolli(参考訳) さらに,Longobardi (2017b), Collins (2010), Ceolin et al の構文構造データの研究も行っている。 (2020) と Koopman (2011) は Shu et al で開始された一般マルコフモデルを用いている。 一般的なマルコフモデル(markov model)とは、データの一貫性に関する問題である。 本論文で検討したアイデアは,構文構造の設定よりも広く適用可能であり,一般的なマルコフモデルを用いたデータの一貫性解析に使用できる。 さらに、我々はCeolin et alの方法の解釈を行う。 (2020) を無限サイト進化モデルとしてマルコフモデルと比較し, 人間の言語構文に作用する進化過程の文脈において, それぞれを探索した。

We further the theme of studying syntactic structures data from Longobardi (2017b), Collins (2010), Ceolin et al. (2020) and Koopman (2011) using general Markov models initiated in Shu et al. (2017), exploring the question of how consistent the data is with the idea that general Markov models. The ideas explored in the present paper are more generally applicable than to the setting of syntactic structures, and can be used when analyzing consistency of data with general Markov models. Additionally, we give an interpretation of the methods of Ceolin et al. (2020) as an infinite sites evolutionary model and compare it to the Markov model and explore each in the context of evolutionary processes acting on human language syntax.
翻訳日:2021-04-20 14:15:10 公開日:2021-04-17
# 文脈化単語埋め込みにおける周波数に基づく歪み

Frequency-based Distortions in Contextualized Word Embeddings ( http://arxiv.org/abs/2104.08465v1 )

ライセンス: Link先を確認
Kaitlyn Zhou, Kawin Ethayarajh, Dan Jurafsky(参考訳) 事前学習データにおける単語頻度は、コンテキスト化BERT埋め込みにおける類似度指標の挙動にどのように影響するか? ある単語の関係が誇張されたり、過小評価されたりする体系的な方法はありますか? 本研究では,(1)単語の埋め込みによる同一性を予測する識別プローブ,(2)単語の文脈化表現に対する最小境界球面,という2つの新しいツールを用いて,文脈化単語埋め込みの幾何学的特徴を探索する。 その結果, 高頻度・低頻度の単語は表現幾何学的に大きく異なることがわかった。 人間の判断と比較すると、埋め込み類似性(例えばコサイン類似性)のポイント推定は、トレーニングデータ内の単語の頻度に応じて、2つの単語の意味的類似性を過小評価することができる。 BERT-Baseは北米やヨーロッパよりも南アメリカとアフリカ諸国の差別化が難しい。 これらの歪みは, bert-multilingual を用いた場合も持続することが明らかとなり, 追加データでは容易に修正できないことが示唆された。

How does word frequency in pre-training data affect the behavior of similarity metrics in contextualized BERT embeddings? Are there systematic ways in which some word relationships are exaggerated or understated? In this work, we explore the geometric characteristics of contextualized word embeddings with two novel tools: (1) an identity probe that predicts the identity of a word using its embedding; (2) the minimal bounding sphere for a word's contextualized representations. Our results reveal that words of high and low frequency differ significantly with respect to their representational geometry. Such differences introduce distortions: when compared to human judgments, point estimates of embedding similarity (e.g., cosine similarity) can over- or under-estimate the semantic similarity of two words, depending on the frequency of those words in the training data. This has downstream societal implications: BERT-Base has more trouble differentiating between South American and African countries than North American and European ones. We find that these distortions persist when using BERT-Multilingual, suggesting that they cannot be easily fixed with additional data, which in turn introduces new distortions.
翻訳日:2021-04-20 14:14:57 公開日:2021-04-17
# 多ドメイン感情分類のための非共有性マスキングによる共有学習

Learning to Share by Masking the Non-shared for Multi-domain Sentiment Classification ( http://arxiv.org/abs/2104.08480v1 )

ライセンス: Link先を確認
Jianhua Yuan, Yanyan Zhao, Bing Qin, Ting Liu(参考訳) マルチドメインの感情分類は、複数のドメインにラベル付きデータが存在するが、ドメイン間で機能する効果的な感情分類器のトレーニングには不十分なシナリオを扱う。 したがって、ドメイン間で共有される感情知識を完全に活用することは、現実世界のアプリケーションにとって重要である。 既存の多くの作品は高次元空間でドメイン不変な特徴を抽出しようとするが、そのようなモデルはテキストレベルで共有特徴とプライベート特徴を明確に区別することができない。 テキストからドメイン関連トークンを削除することがドメイン非分散を改善するのに役立つという仮定に基づいて、まずオリジナルの文をドメイン非依存に変換します。 この目的のために,テキストからドメイン関連語を明示的にマスキングし,これらのドメインに依存しないテキストからドメイン不変感の特徴を学習するBertMaskerネットワークを提案する。 精度を0.94%, 精度を1.8%向上させることで, マルチドメイン感情分類とクロスドメイン設定の両方において, 提案モデルの有効性を実証した。 マスキングに関するさらなる分析は、これらのドメイン関連および感情非関連トークンを削除することで、テキストのドメインの区別が減少し、BERTベースのドメイン分類器のパフォーマンスが12%以上低下することを示した。

Multi-domain sentiment classification deals with the scenario where labeled data exists for multiple domains but insufficient for training effective sentiment classifiers that work across domains. Thus, fully exploiting sentiment knowledge shared across domains is crucial for real world applications. While many existing works try to extract domain-invariant features in high-dimensional space, such models fail to explicitly distinguish between shared and private features at text-level, which to some extent lacks interpretablity. Based on the assumption that removing domain-related tokens from texts would help improve their domain-invariance, we instead first transform original sentences to be domain-agnostic. To this end, we propose the BertMasker network which explicitly masks domain-related words from texts, learns domain-invariant sentiment features from these domain-agnostic texts, and uses those masked words to form domain-aware sentence representations. Empirical experiments on a well-adopted multiple domain sentiment classification dataset demonstrate the effectiveness of our proposed model on both multi-domain sentiment classification and cross-domain settings, by increasing the accuracy by 0.94% and 1.8% respectively. Further analysis on masking proves that removing those domain-related and sentiment irrelevant tokens decreases texts' domain distinction, resulting in the performance degradation of a BERT-based domain classifier by over 12%.
翻訳日:2021-04-20 14:14:37 公開日:2021-04-17
# ファウショット関係分類の再検討:評価データと分類方式

Revisiting Few-shot Relation Classification: Evaluation Data and Classification Schemes ( http://arxiv.org/abs/2104.08481v1 )

ライセンス: Link先を確認
Ofer Sabo, Yanai Elazar, Yoav Goldberg, Ido Dagan(参考訳) 関係分類のためのFSL(Few-Shot Learning)について検討する。 FSLの現実的なシナリオに着目して、テストインスタンスがターゲットカテゴリのどれにも属さない場合(つまりNOTA)、FSLの最近の一般的なデータセット構造を再検討し、非現実的なデータ分布を指摘する。 そこで本研究では,教師付きRCデータセットから,より現実的な数ショットテストデータを抽出し,TACREDデータセットに適用する手法を提案する。 これにより、FSL RCの新たな挑戦的なベンチマークが得られ、その上で、アートモデルの状態はパフォーマンスの低下を示している。 次に、埋め込み空間に課せられる制約に関して、FSLの一般的な埋め込みに基づく最も近い隣り合うアプローチの分類スキームを分析する。 そこで本研究では,NOTAカテゴリを学習ベクトルとして表現する新たな分類手法を提案する。

We explore Few-Shot Learning (FSL) for Relation Classification (RC). Focusing on the realistic scenario of FSL, in which a test instance might not belong to any of the target categories (none-of-the-above, aka NOTA), we first revisit the recent popular dataset structure for FSL, pointing out its unrealistic data distribution. To remedy this, we propose a novel methodology for deriving more realistic few-shot test data from available datasets for supervised RC, and apply it to the TACRED dataset. This yields a new challenging benchmark for FSL RC, on which state of the art models show poor performance. Next, we analyze classification schemes within the popular embedding-based nearest-neighbor approach for FSL, with respect to constraints they impose on the embedding space. Triggered by this analysis we propose a novel classification scheme, in which the NOTA category is represented as learned vectors, shown empirically to be an appealing option for FSL.
翻訳日:2021-04-20 14:14:14 公開日:2021-04-17
# 自発L2音声の言語的複雑度とソフィケーションの自動解析におけるASRの影響

The Impact of ASR on the Automatic Analysis of Linguistic Complexity and Sophistication in Spontaneous L2 Speech ( http://arxiv.org/abs/2104.08529v1 )

ライセンス: Link先を確認
Yu Qiao, Zhou Wei, Elma Kerz, Ralf Schl\"uter(参考訳) 近年,第2言語(L2)書記における言語複雑性の自動評価手法は,学習者のパフォーマンス向上,学習者の品質評価,L2開発ベンチマークにおいて大きな進歩を遂げている。 対照的に、特にL2自然発話を評価するための完全自動化アプローチに関して、話の領域では比較的少ない。 高性能asrシステムの重要性は広く認識されているが、その性能がその後の自動テキスト解析に与える影響についての研究はほとんど行われていない。 本稿では,この課題に焦点をあて,自然発生L2音声における言語的複雑性の自動解析に最先端のASRシステムを用いることによる影響を検討する。 選択された34の尺度は, 統語, 語彙, n-gram, 情報理論の4つのカテゴリーに分類された。 相関分析により,ASR生成と手書きの転写に基づいて得られた測定値の一致を決定した。 また,タスクタイプの効果を制御する場合,ASR性能が特定の種類の複雑性測定に与える影響についても述べる。

In recent years, automated approaches to assessing linguistic complexity in second language (L2) writing have made significant progress in gauging learner performance, predicting human ratings of the quality of learner productions, and benchmarking L2 development. In contrast, there is comparatively little work in the area of speaking, particularly with respect to fully automated approaches to assessing L2 spontaneous speech. While the importance of a well-performing ASR system is widely recognized, little research has been conducted to investigate the impact of its performance on subsequent automatic text analysis. In this paper, we focus on this issue and examine the impact of using a state-of-the-art ASR system for subsequent automatic analysis of linguistic complexity in spontaneously produced L2 speech. A set of 34 selected measures were considered, falling into four categories: syntactic, lexical, n-gram frequency, and information-theoreti c measures. The agreement between the scores for these measures obtained on the basis of ASR-generated vs. manual transcriptions was determined through correlation analysis. A more differential effect of ASR performance on specific types of complexity measures when controlling for task type effects is also presented.
翻訳日:2021-04-20 14:13:54 公開日:2021-04-17
# 適応組込みによる危機時のドリフト対策

Combating Temporal Drift in Crisis with Adapted Embeddings ( http://arxiv.org/abs/2104.08535v1 )

ライセンス: Link先を確認
Kevin Stowe, Iryna Gurevych(参考訳) 言語の使用は時間とともに変化し、NLPシステムの有効性に影響を与える可能性がある。 本研究は危機時の言論変化に対応する方法を検討する。 危機時のソーシャルメディアデータについて検討し,効果的な時間に敏感な手法が求められている。 目的とする言語モデルの学習に未ラベルのデータを使用する時間事前学習と,意味的変化を解析するためのツールに基づく埋め込みシフトモデルという,2つの異なる手法を実験的に検討した。 このシフトにより、言語変化の観測パターンに基づいて、入力データを正規化することで、時間的ドリフトに対処できる。 ラベル付きデータにアクセスできないシナリオをシミュレートし、これらの手法の有効性を様々な危機に対して示し、データセット間の関連分類において最大8.0 F1スコアのパフォーマンスを向上させることを示す。

Language usage changes over time, and this can impact the effectiveness of NLP systems. This work investigates methods for adapting to changing discourse during crisis events. We explore social media data during crisis, for which effective, time-sensitive methods are necessary. We experiment with two separate methods to accommodate changing data: temporal pretraining, which uses unlabeled data for the target time periods to train better language models, and a model of embedding shift based on tools for analyzing semantic change. This shift allows us to counteract temporal drift by normalizing incoming data based on observed patterns of language change. Simulating scenarios in which we lack access to incoming labeled data, we demonstrate the effectiveness of these methods for a wide variety of crises, showing we can improve performance by up to 8.0 F1 score for relevance classification across datasets.
翻訳日:2021-04-20 14:13:37 公開日:2021-04-17
# 会話カオスの交差:多言語タスク指向対話システムにおける素数

Crossing the Conversational Chasm: A Primer on Multilingual Task-Oriented Dialogue Systems ( http://arxiv.org/abs/2104.08570v1 )

ライセンス: Link先を確認
Evgeniia Razumovskaia, Goran Glava\v{s}, Olga Majewska, Anna Korhonen, Ivan Vuli\'c(参考訳) 自然言語と機械との会話がAIの中心的な目的の1つであり、会話型AIにおける研究・開発努力の膨大な増加にもかかわらず、タスク指向対話(ToD) - すなわち、具体的なタスクを完了しようとする人工知能エージェントとの会話 - は現在、限られた領域(食品注文、チケット予約など)といくつかの主要言語(例えば、英語、中国語)に限定されている。 本稿では,多言語ToDにおける既存の取り組みを概観し,真に多言語ToDシステムの開発を妨げる要因を解析する。 1) 大規模な事前訓練されたニューラルネットワークモデルに基づく現在の最先端のToDモデルは、データ空腹である; 同時に、(2) ToDのユースケースのためのデータ取得は高価で面倒である。 したがって、Multilingual ToD への既存のアプローチは、リソース豊富な言語(ToD では、基本的には英語のみ)からの(ゼロまたは少数ショットの)クロスリンガル変換に依存しており、これは (i) 機械翻訳または (ii) マルチリンガル表現空間によって行われる。 しかし、そのようなアプローチは、並列データや限定的な単言語コーパスを持たない多数の低リソース言語にとって、現在実現可能なソリューションではない。 最後に, tod と他の言語間および多言語間nlp研究との並列性を引き出すことにより, 課題と潜在的な解決策について論じる。

Despite the fact that natural language conversations with machines represent one of the central objectives of AI, and despite the massive increase of research and development efforts in conversational AI, task-oriented dialogue (ToD) -- i.e., conversations with an artificial agent with the aim of completing a concrete task -- is currently limited to a few narrow domains (e.g., food ordering, ticket booking) and a handful of major languages (e.g., English, Chinese). In this work, we provide an extensive overview of existing efforts in multilingual ToD and analyse the factors preventing the development of truly multilingual ToD systems. We identify two main challenges that combined hinder the faster progress in multilingual ToD: (1) current state-of-the-art ToD models based on large pretrained neural language models are data hungry; at the same time (2) data acquisition for ToD use cases is expensive and tedious. Most existing approaches to multilingual ToD thus rely on (zero- or few-shot) cross-lingual transfer from resource-rich languages (in ToD, this is basically only English), either by means of (i) machine translation or (ii) multilingual representation spaces. However, such approaches are currently not a viable solution for a large number of low-resource languages without parallel data and/or limited monolingual corpora. Finally, we discuss critical challenges and potential solutions by drawing parallels between ToD and other cross-lingual and multilingual NLP research.
翻訳日:2021-04-20 14:13:24 公開日:2021-04-17
# 平行文書による文のアライメントは生体機械翻訳に役立つ

Sentence Alignment with Parallel Documents Helps Biomedical Machine Translation ( http://arxiv.org/abs/2104.08588v1 )

ライセンス: Link先を確認
Shengxuan Luo, Huaiyuan Ying, Sheng Yu(参考訳) 既存のニューラルマシン翻訳システムは、一部の言語では一般的なドメインでの人間レベルの性能に近い性能を達成しているが、並列コーパスの欠如は特定のドメインにおいて重要な問題となっている。 生物医学領域では、平行コーパスはアクセスしにくい。 本研究は、新しい教師なし文アライメント手法を示し、生体医学的ニューラルネットワーク翻訳(NMT)システムの訓練における特徴を探求する。 bwes (bilingual word embeddeds) を簡易かつ効果的な方法で構築し, 両言語単語の類似性を評価し, 文のアライメント問題を拡張アース・ムーバー距離 (emd) 問題に移した。 提案手法は,1対1,多対多のいずれにおいても高い精度を実現した。 一般ドメインでの事前トレーニングでは、より大きなドメイン内データセットとn-to-m文ペアがNMTモデルに有効である。 ドメインコーパスの微調整は、翻訳モデルがより多くの用語を学び、ドメイン内テキストのスタイルに適合するのに役立つ。

The existing neural machine translation system has achieved near human-level performance in general domain in some languages, but the lack of parallel corpora poses a key problem in specific domains. In biomedical domain, the parallel corpus is less accessible. This work presents a new unsupervised sentence alignment method and explores features in training biomedical neural machine translation (NMT) systems. We use a simple but effective way to build bilingual word embeddings (BWEs) to evaluate bilingual word similarity and transferred the sentence alignment problem into an extended earth mover's distance (EMD) problem. The proposed method achieved high accuracy in both 1-to-1 and many-to-many cases. Pre-training in general domain, the larger in-domain dataset and n-to-m sentence pairs benefit the NMT model. Fine-tuning in domain corpus helps the translation model learns more terminology and fits the in-domain style of text.
翻訳日:2021-04-20 14:12:56 公開日:2021-04-17
# XLEnt:Lexical-Semant ic-Phonetic Wordalignmentによる大規模言語間エンティティデータセットのマイニング

XLEnt: Mining a Large Cross-lingual Entity Dataset with Lexical-Semantic-Pho netic Word Alignment ( http://arxiv.org/abs/2104.08597v1 )

ライセンス: Link先を確認
Ahmed El-Kishky, Adi Renduchintala, James Cross, Francisco Guzm\'an, Philipp Koehn(参考訳) 言語間の名前付き辞書は、機械翻訳や言語間のウィキフィケーションといった多言語NLPタスクにとって重要なリソースである。 知識ベースは英語やフランス語のような高リソース言語で多くのエンティティを含んでいるが、低リソース言語に対応するエンティティはしばしば欠落している。 そこで本研究では, web から言語横断エンティティ lexicon を自動的にマイニングする手法である lexical-semantic-pho netic align (lsp-align) を提案する。 LSP-Alignは、言語間の実体対を抽出し、120の異なる言語から1億6400万の実体対を抽出する。 nlpコミュニティへのリソースとして,多言語タグ付きエンティティコーパスとともに,これらのクロスリンガルエンティティペアをリリースする。

Cross-lingual named-entity lexicon are an important resource to multilingual NLP tasks such as machine translation and cross-lingual wikification. While knowledge bases contain a large number of entities in high-resource languages such as English and French, corresponding entities for lower-resource languages are often missing. To address this, we propose Lexical-Semantic-Pho netic Align (LSP-Align), a technique to automatically mine cross-lingual entity lexicon from the web. We demonstrate LSP-Align outperforms baselines at extracting cross-lingual entity pairs and mine 164 million entity pairs from 120 different languages aligned with English. We release these cross-lingual entity pairs along with the massively multilingual tagged named entity corpus as a resource to the NLP community.
翻訳日:2021-04-20 14:12:38 公開日:2021-04-17
# トランスフォーマによる資源制約言語における感情分類

Emotion Classification in a Resource Constrained Language Using Transformer-based Approach ( http://arxiv.org/abs/2104.08613v1 )

ライセンス: Link先を確認
Avishek Das, Omar Sharif, Mohammed Moshiul Hoque, Iqbal H. Sarker(参考訳) 高リソース言語では感情分類の研究が著しく進んでいるが、ベンガル語のようなリソース制約のある言語はまだ初期段階である。 しかし、必要な言語処理ツールやベンチマークコーパスの欠如は、ベンガルにおける感情分類タスクをより難しく複雑にする。 本研究は,ベンガル語のテキストを,怒り,恐怖,嫌悪,悲しみ,喜び,驚きの6つの基本的な感情の1つに分類するトランスフォーマティブに基づく手法を提案する。 分類作業のために6243のテキストからなるベンガル感情コーパスを開発した。 様々な機械学習(LR、RF、MNB、SVM)、ディープニューラルネットワーク(CNN、BiLSTM、CNN+BiLSTM)、トランスフォーマー(Bangla-BERT、m-BERT、XLM-R)を用いた実験を行った。 実験結果から、XLM-Rはテストデータ上で最も重み付けられた$f_1$-scoreの69.73\%を達成し、他のすべての技術より優れていることが示された。 データセットはhttps://github.com/o mar-sharif03/NAACL-S RW-2021で公開されている。

Although research on emotion classification has significantly progressed in high-resource languages, it is still infancy for resource-constrained languages like Bengali. However, unavailability of necessary language processing tools and deficiency of benchmark corpora makes the emotion classification task in Bengali more challenging and complicated. This work proposes a transformer-based technique to classify the Bengali text into one of the six basic emotions: anger, fear, disgust, sadness, joy, and surprise. A Bengali emotion corpus consists of 6243 texts is developed for the classification task. Experimentation carried out using various machine learning (LR, RF, MNB, SVM), deep neural networks (CNN, BiLSTM, CNN+BiLSTM) and transformer (Bangla-BERT, m-BERT, XLM-R) based approaches. Experimental outcomes indicate that XLM-R outdoes all other techniques by achieving the highest weighted $f_1$-score of $69.73\%$ on the test data. The dataset is publicly available at https://github.com/o mar-sharif03/NAACL-S RW-2021.
翻訳日:2021-04-20 14:12:23 公開日:2021-04-17
# Random Matrix Theory を用いたストップワードのカスタマイズ決定

Customized determination of stop words using Random Matrix Theory approach ( http://arxiv.org/abs/2104.08642v1 )

ライセンス: Link先を確認
Bogdan {\L}obodzi\'nski(参考訳) 単語単位で計算された単語間の距離を研究し、ランダム行列理論(rmt)の分布と比較する。 その結果,同じ単語間の距離分布は,単一パラメータブロディ分布によってよく説明できることがわかった。 ブロディ分布の適合性を用いて、一連のテキスト中の与えられた単語間の距離が混合ダイナミクスを示し、規則的およびカオス的レジームが共存することを発見した。 適合閾値の一定の良さでブロディ分布に正しく適合した分布は、通常、テキストの非形式的部分と見なされる停止語として識別できることが判明した。 適合の良さに様々なしきい値を適用することで、分析対象のテキストから所望の程度まで不規則な単語を抽出することができる。 そこで本研究では,単語に基づく任意の言語におけるテキストに対する停止語セットのカスタマイズに使用可能な,完全非依存のレシピを定式化する。

The distances between words calculated in word units are studied and compared with the distributions of the Random Matrix Theory (RMT). It is found that the distribution of distance between the same words can be well described by the single-parameter Brody distribution. Using the Brody distribution fit, we found that the distance between given words in a set of texts can show mixed dynamics, coexisting regular and chaotic regimes. It is found that distributions correctly fitted by the Brody distribution with a certain goodness of the fit threshold can be identifid as stop words, usually considered as the uninformative part of the text. By applying various threshold values for the goodness of fit, we can extract uninformative words from the texts under analysis to the desired extent. On this basis we formulate a fully agnostic recipe that can be used in the creation of a customized set of stop words for texts in any language based on words.
翻訳日:2021-04-20 14:12:01 公開日:2021-04-17
# ロバストトレーニングによるゼロショット言語間転送学習の改善

Improving Zero-Shot Cross-Lingual Transfer Learning via Robust Training ( http://arxiv.org/abs/2104.08645v1 )

ライセンス: Link先を確認
Kuan-Hao Huang, Wasi Uddin Ahmad, Nanyun Peng, Kai-Wei Chang(参考訳) 近年,多言語BERT や XLM-R などの事前学習型多言語言語モデルは,ゼロショット言語間移動学習において優れた性能を示した。 しかし、異なる言語に対する多言語コンテキスト埋め込み空間は完全に整合していないため、異なる言語の表現の違いがゼロショットの言語間移動を引き起こす可能性がある。 この研究では、これらの失敗事例と敵対例の関連性を描く。 次に,入力埋め込みにおける雑音を許容できるロバストモデルをトレーニングするために,ロバストなトレーニング手法を提案する。 本研究では,敵対的訓練とランダムな平滑化の2つの手法について検討した。 実験の結果,ロバストトレーニングにより,テキスト分類におけるゼロショット言語間転送が改善されることがわかった。 ソース言語とターゲット言語間の距離が大きくなると、パフォーマンスが大幅に向上する。

In recent years, pre-trained multilingual language models, such as multilingual BERT and XLM-R, exhibit good performance on zero-shot cross-lingual transfer learning. However, since their multilingual contextual embedding spaces for different languages are not perfectly aligned, the difference between representations of different languages might cause zero-shot cross-lingual transfer failed in some cases. In this work, we draw connections between those failed cases and adversarial examples. We then propose to use robust training methods to train a robust model that can tolerate some noise in input embeddings. We study two widely used robust training methods: adversarial training and randomized smoothing. The experimental results demonstrate that robust training can improve zero-shot cross-lingual transfer for text classification. The performance improvements become significant when the distance between the source language and the target language increases.
翻訳日:2021-04-20 14:11:47 公開日:2021-04-17
# エンティティ中心情報抽出のための雑音ラベルからの学習

Learning from Noisy Labels for Entity-Centric Information Extraction ( http://arxiv.org/abs/2104.08656v1 )

ライセンス: Link先を確認
Wenxuan Zhou, Muhao Chen(参考訳) 最近の情報抽出の試みは、多くの深層神経モデルに依存している。 しかし、そのようなモデルはノイズの多いラベルに簡単に適合し、性能劣化に悩まされる。 大規模な学習資源においてノイズの多いラベルをフィルタリングするのは非常にコストがかかるが、近年の研究により、これらのラベルは記憶すべきトレーニングステップを多く取り、クリーンなラベルよりも忘れられる頻度が高いことが示されている。 このような特性に動機づけられ,パラメータ初期化の異なる複数のニューラルモデルからなる,エンティティ中心の情報抽出のための単純な共正規化フレームワークを提案する。 これらのモデルはタスク固有の損失に共同最適化されており、契約損失に基づいて同様の予測を生成するように正規化されている。 結局のところ、トレーニングされたモデルのいずれかを推論に利用できます。 情報抽出に広く用いられているがノイズの多い2つのベンチマークであるTACREDとCoNLL03の大規模な実験は、我々のフレームワークの有効性を実証している。

Recent efforts for information extraction have relied on many deep neural models. However, any such models can easily overfit noisy labels and suffer from performance degradation. While it is very costly to filter noisy labels in large learning resources, recent studies show that such labels take more training steps to be memorized and are more frequently forgotten than clean labels, therefore are identifiable in training. Motivated by such properties, we propose a simple co-regularization framework for entity-centric information extraction, which consists of several neural models with different parameter initialization. These models are jointly optimized with task-specific loss, and are regularized to generate similar predictions based on an agreement loss, which prevents overfitting on noisy labels. In the end, we can take any of the trained models for inference. Extensive experiments on two widely used but noisy benchmarks for information extraction, TACRED and CoNLL03, demonstrate the effectiveness of our framework.
翻訳日:2021-04-20 14:11:33 公開日:2021-04-17
# イディオムを特徴づける: 慣習性と並行性

Characterizing Idioms: Conventionality and Contingency ( http://arxiv.org/abs/2104.08664v1 )

ライセンス: Link先を確認
Michaela Socolof, Jackie Chi Kit Cheung, Michael Wagner, Timothy J. O'Donnell(参考訳) 慣用句は他の2つの重要な方法で異なる。 第一に、イディオムの言葉は慣習的な意味を持つ。 第二に、イディオムにおける単語の非慣習的な意味は、イディオムにおける他の単語の存在に付随する。 言語学的理論は、これらの2つの性質が互いに依存するかどうか、およびイディオムを満たすために特別な理論機械が必要であるかどうかについて意見が一致しない。 これらの2つの性質に対応する2つの測度を定義し、イディオムが2次元の期待される交点に落ちるが、次元そのものは相関しないことを示す。 以上の結果から,イディオムは他の句ほど異常はなく,イディオムを扱う特別な機械の導入が保証されないことが示唆された。

Idioms are unlike other phrases in two important ways. First, the words in an idiom have unconventional meanings. Second, the unconventional meaning of words in an idiom are contingent on the presence of the other words in the idiom. Linguistic theories disagree about whether these two properties depend on one another, as well as whether special theoretical machinery is needed to accommodate idioms. We define two measures that correspond to these two properties, and we show that idioms fall at the expected intersection of the two dimensions, but that the dimensions themselves are not correlated. Our results suggest that idioms are no more anomalous than other types of phrases, and that introducing special machinery to handle idioms may not be warranted.
翻訳日:2021-04-20 14:11:19 公開日:2021-04-17
# 予測モデルによる制御計画

Planning with Expectation Models for Control ( http://arxiv.org/abs/2104.08543v1 )

ライセンス: Link先を確認
Katya Kudashkina, Yi Wan, Abhishek Naik, Richard S. Sutton(参考訳) モデルベース強化学習(MBRL)では、Wanら。 (2019) では, 環境モデルが全体の分布やサンプルではなく, 次の特徴ベクトルを期待できる条件を示し, 計画性能に損なわれなかった。 このような期待モデルは、環境が確率的かつ非定常であるときに興味を持ち、関数近似を用いて学習されるような近似モデルである。 この場合、完全な分布モデルは非実用的であり、サンプルモデルはより高価な計算的または高い分散である。 ワンなど。 一定の政策を評価する 予測のみの計画を考えました 本稿では,制御事例を扱い,改善を計画し,適切な近似ポリシーを見出す。 期待モデルを用いた計画では、前述したようなアクション値関数(Sorg & Singh, 2010)ではなく、状態値関数を更新しなければならない。 これは、プランニングがアクション選択にどのように影響するかという問題を開く。 本稿では3つの戦略を考察し,それぞれに汎用MBRLアルゴリズムを提案する。 計算実験において,これらのアルゴリズムの強みと弱みを特定する。 我々のアルゴリズムと実験は、MBRLを一般的な設定で予測モデルで扱う最初のものである。

In model-based reinforcement learning (MBRL), Wan et al. (2019) showed conditions under which the environment model could produce the expectation of the next feature vector rather than the full distribution, or a sample thereof, with no loss in planning performance. Such expectation models are of interest when the environment is stochastic and non-stationary, and the model is approximate, such as when it is learned using function approximation. In these cases a full distribution model may be impractical and a sample model may be either more expensive computationally or of high variance. Wan et al. considered only planning for prediction to evaluate a fixed policy. In this paper, we treat the control case - planning to improve and find a good approximate policy. We prove that planning with an expectation model must update a state-value function, not an action-value function as previously suggested (e.g., Sorg & Singh, 2010). This opens the question of how planning influences action selections. We consider three strategies for this and present general MBRL algorithms for each. We identify the strengths and weaknesses of these algorithms in computational experiments. Our algorithms and experiments are the first to treat MBRL with expectation models in a general setting.
翻訳日:2021-04-20 14:02:47 公開日:2021-04-17
# 知的環境におけるエージェント間のインタラクションにおける信頼評価のためのロバストモデル

A Robust Model for Trust Evaluation during Interactions between Agents in a Sociable Environment ( http://arxiv.org/abs/2104.08555v1 )

ライセンス: Link先を確認
Qin Liang, Minjie Zhang, Fenghui Ren, Takayuki Ito(参考訳) 信頼評価は、研究と応用の両方において重要なトピックである。 本稿では, エージェント間の信頼評価モデルについて, 直接信頼, 近隣リンクを介した間接信頼, 環境におけるエージェントの評価(すなわち, エージェントの評判)を組み合わせて提案する。 ソーシャルネットワーク) 堅牢な評価を提供するためです 我々のアプローチは、ソーシャルネットワーク構造から独立したタイプロジーであり、中央制御器を使わずに分散的に利用することができる。

Trust evaluation is an important topic in both research and applications in sociable environments. This paper presents a model for trust evaluation between agents by the combination of direct trust, indirect trust through neighbouring links and the reputation of an agent in the environment (i.e. social network) to provide the robust evaluation. Our approach is typology independent from social network structures and in a decentralized manner without a central controller, so it can be used in broad domains.
翻訳日:2021-04-20 14:02:30 公開日:2021-04-17
# フィルタ分布テンプレートを用いた効率的な畳み込みネットワークモデルの構築

Towards Efficient Convolutional Network Models with Filter Distribution Templates ( http://arxiv.org/abs/2104.08446v1 )

ライセンス: Link先を確認
Ramon Izquierdo-Cordova, Walterio Mayol-Cuevas(参考訳) 機能マップの縮小に伴う深い層でのフィルタ数の増加は畳み込みネットワーク設計において広く採用されているパターンである。 古典的なCNNアーキテクチャや自動発見されたモデルでも見られる。 CNS法でさえ、このピラミッドパターンから派生した乗数の選択をよく調べる。 本稿では,VGGおよびResNetアーキテクチャにおけるフィルタの当初のピラミッド分布の,実装が容易で直感的でアグレッシブなバリエーションからなるテンプレートセットを導入することで,このプラクティスを否定する。 CIFAR、CINIC10、TinyImagenetデータセットの実験では、テンプレートによって生成されたモデルは、より少ないパラメータとメモリ要求の観点からより効率的であることが示されています。

Increasing number of filters in deeper layers when feature maps are decreased is a widely adopted pattern in convolutional network design. It can be found in classical CNN architectures and in automatic discovered models. Even CNS methods commonly explore a selection of multipliers derived from this pyramidal pattern. We defy this practice by introducing a small set of templates consisting of easy to implement, intuitive and aggressive variations of the original pyramidal distribution of filters in VGG and ResNet architectures. Experiments on CIFAR, CINIC10 and TinyImagenet datasets show that models produced by our templates, are more efficient in terms of fewer parameters and memory needs.
翻訳日:2021-04-20 13:58:10 公開日:2021-04-17
# Visual Transformer Pruning

Visual Transformer Pruning ( http://arxiv.org/abs/2104.08500v1 )

ライセンス: Link先を確認
Mingjian Zhu, Kai Han, Yehui Tang, Yunhe Wang(参考訳) Visual Transformerは様々なコンピュータビジョンアプリケーションで競争力を発揮している。 しかし、ストレージ、実行時のメモリ、計算要求によってモバイルデバイスへのデプロイが妨げられている。 ここでは,各層におけるチャネルの影響を識別し,それに応じてプルーニングを実行する視覚トランスフォーマリン方式を提案する。 Transformerでチャネルワイドのスパーシリティを促進することで、重要なチャネルが自動的に現れる。 精度を損なうことなく高い刈り取り率を達成するために、係数の小さいチャネルを大量に廃棄することができる。 ビジュアルトランスフォーマープルーニングのパイプラインは、1) スパーシティ正規化によるトレーニング、2) プルーニングチャネル、3) 微調整である。 提案アルゴリズムのパラメータ削減とFLOP比をImageNetデータセット上で評価し,その有効性を示す。

Visual transformer has achieved competitive performance on a variety of computer vision applications. However, their storage, run-time memory, and computational demands are hindering the deployment on mobile devices. Here we present an visual transformer pruning approach, which identifies the impacts of channels in each layer and then executes pruning accordingly. By encouraging channel-wise sparsity in the Transformer, important channels automatically emerge. A great number of channels with small coefficients can be discarded to achieve a high pruning ratio without significantly compromising accuracy. The pipeline for visual transformer pruning is as follows: 1) training with sparsity regularization; 2) pruning channels; 3) finetuning. The reduced parameters and FLOPs ratios of the proposed algorithm are well evaluated and analyzed on ImageNet dataset to demonstrate its effectiveness.
翻訳日:2021-04-20 13:58:01 公開日:2021-04-17
# 自己監督運動表現を用いた視覚的音源分離と位置決め

Visually Guided Sound Source Separation and Localization using Self-Supervised Motion Representations ( http://arxiv.org/abs/2104.08506v1 )

ライセンス: Link先を確認
Lingyu Zhu and Esa Rahtu(参考訳) 本研究の目的は,音源の映像に基づく混合音から成分音を分離し,音声・視覚的音源分離を行うことである。 さらに、入力されたビデオシーケンスのソース位置をピンポイントすることを目的とする。 近年の研究では、ソースタイプの事前知識(例えば、音声と視覚の分離結果)が顕著に示されている。 人間の楽器)と事前訓練されたモーション検出器(例) キーポイントまたは光学フロー) しかし、同時に、モデルは特定のアプリケーションドメインに限定されます。 本稿では,これらの制約に対処し,次のような貢献をする:i) 外観と動きを専門とする2段階アーキテクチャである外観と動きのネットワーク (AMnet) を提案する。 システム全体を自己教師型でトレーニングし, 音に関連する動作を明示的に表現するためのAME(Audio-Motion Embedding)フレームワークを導入し, iii) 音声・動作特徴融合のためのオーディオ・モーション・トランスフォーマーアーキテクチャを提案し, iv) 事前訓練されたキーポイント検出器や光フロー推定器を使用しないにもかかわらず, 2つの挑戦的データセット(MUSIC-21, AVE)に対して最先端の性能を示す。 プロジェクトページ: https://ly-zhu.githu b.io/self-supervised -motion-representati ons

The objective of this paper is to perform audio-visual sound source separation, i.e.~to separate component audios from a mixture based on the videos of sound sources. Moreover, we aim to pinpoint the source location in the input video sequence. Recent works have shown impressive audio-visual separation results when using prior knowledge of the source type (e.g. human playing instrument) and pre-trained motion detectors (e.g. keypoints or optical flows). However, at the same time, the models are limited to a certain application domain. In this paper, we address these limitations and make the following contributions: i) we propose a two-stage architecture, called Appearance and Motion network (AMnet), where the stages specialise to appearance and motion cues, respectively. The entire system is trained in a self-supervised manner; ii) we introduce an Audio-Motion Embedding (AME) framework to explicitly represent the motions that related to sound; iii) we propose an audio-motion transformer architecture for audio and motion feature fusion; iv) we demonstrate state-of-the-art performance on two challenging datasets (MUSIC-21 and AVE) despite the fact that we do not use any pre-trained keypoint detectors or optical flow estimators. Project page: https://ly-zhu.githu b.io/self-supervised -motion-representati ons
翻訳日:2021-04-20 13:57:50 公開日:2021-04-17
# PARE:3次元人体推定のための注意後退器

PARE: Part Attention Regressor for 3D Human Body Estimation ( http://arxiv.org/abs/2104.08527v1 )

ライセンス: Link先を確認
Muhammed Kocabas, Chun-Hao P. Huang, Otmar Hilliges, Michael J. Black(参考訳) 有意な進歩にもかかわらず, art 3d の人間のポーズや形状推定手法は部分的咬合に敏感であり, 身体のほとんどが観察可能であるにもかかわらず, 劇的に誤った予測を生じる可能性がある。 そこで本研究では,身体部分誘導型注意マスクの予測を学習するPARE(Part Attention Regressor)というソフトアテンション機構を導入する。 我々は,最先端の手法がグローバルな特徴表現に依存していることを観察する。 対照的に、PAREの部分誘導型注意機構は、個々の身体部分の視認性に関する情報を活用しながら、近隣の身体部分からの情報を活用して隠蔽部分を予測することでこれらの問題を克服する。 我々はPAREが有意義な注意マスクを学習し、定量評価により、PAREが既存のオクルージョン固有および標準ベンチマークのアプローチよりも正確で堅牢な再構築結果が得られることを確認した。 コードはhttps://pare.is.tue. mpg.de/で研究目的に利用できる。

Despite significant progress, we show that state of the art 3D human pose and shape estimation methods remain sensitive to partial occlusion and can produce dramatically wrong predictions although much of the body is observable. To address this, we introduce a soft attention mechanism, called the Part Attention REgressor (PARE), that learns to predict body-part-guided attention masks. We observe that state-of-the-art methods rely on global feature representations, making them sensitive to even small occlusions. In contrast, PARE's part-guided attention mechanism overcomes these issues by exploiting information about the visibility of individual body parts while leveraging information from neighboring body-parts to predict occluded parts. We show qualitatively that PARE learns sensible attention masks, and quantitative evaluation confirms that PARE achieves more accurate and robust reconstruction results than existing approaches on both occlusion-specific and standard benchmarks. Code will be available for research purposes at https://pare.is.tue. mpg.de/.
翻訳日:2021-04-20 13:57:28 公開日:2021-04-17
# 人物再同定を用いたワイドベースラインマルチカメラキャリブレーション

Wide-Baseline Multi-Camera Calibration using Person Re-Identification ( http://arxiv.org/abs/2104.08568v1 )

ライセンス: Link先を確認
Yan Xu, Yu-Jhe Li, Xinshuo Weng, Kris Kitani(参考訳) 建設現場のカメラ,スポーツスタジアム,公共空間など,大規模環境の広義のシナリオを対象としたカメラネットワークの3次元ポーズ推定の問題に対処する。 この課題は、2つの異なるカメラビューから観察される同じ3dキーポイントの検出とマッチングが難しいため、標準的なstructure-from-motio n(sfm)パイプラインが適用できないため、難しい。 このような状況下では、現場の人々を「キーポイント」として扱い、異なるカメラビューに関連付けることが、対応を得るための代替手段となる。 この直感に基づいて,ワイドベースラインカメラキャリブレーションのための人物再識別(re-ID)のアイデアを利用する手法を提案する。 提案手法では,まずカメラ間の人間境界ボックスの関連付けにre-ID法を用い,次に境界ボックス対応を点対応に変換し,最後に多視点幾何とバンドル調整を用いてカメラポーズの解決を行う。 本手法は,可視者を除いて特別な校正対象を必要としないため,校正更新の頻繁な状況に適用できる。 異なる大きさのシーン、カメラ設定(屋内および屋外)、人間の活動(ウォーキング、バスケットボール、建設)から得られたデータセットに関する広範な実験を行う。 実験結果から,本手法は手動でラベル付けされた点対応に依存する標準SfM法と同等の性能を示した。

We address the problem of estimating the 3D pose of a network of cameras for large-environment wide-baseline scenarios, e.g., cameras for construction sites, sports stadiums, and public spaces. This task is challenging since detecting and matching the same 3D keypoint observed from two very different camera views is difficult, making standard structure-from-motio n (SfM) pipelines inapplicable. In such circumstances, treating people in the scene as "keypoints" and associating them across different camera views can be an alternative method for obtaining correspondences. Based on this intuition, we propose a method that uses ideas from person re-identification (re-ID) for wide-baseline camera calibration. Our method first employs a re-ID method to associate human bounding boxes across cameras, then converts bounding box correspondences to point correspondences, and finally solves for camera pose using multi-view geometry and bundle adjustment. Since our method does not require specialized calibration targets except for visible people, it applies to situations where frequent calibration updates are required. We perform extensive experiments on datasets captured from scenes of different sizes, camera settings (indoor and outdoor), and human activities (walking, playing basketball, construction). Experiment results show that our method achieves similar performance to standard SfM methods relying on manually labeled point correspondences.
翻訳日:2021-04-20 13:57:09 公開日:2021-04-17
# RefineMask: 細粒度機能を備えた高品質なインスタンスセグメンテーションを目指す

RefineMask: Towards High-Quality Instance Segmentation with Fine-Grained Features ( http://arxiv.org/abs/2104.08569v1 )

ライセンス: Link先を確認
Gang Zhang, Xin Lu, Jingru Tan, Jianmin Li, Zhaoxiang Zhang, Quanquan Li, Xiaolin Hu(参考訳) 例えば、インスタンスセグメンテーションの2段階のメソッド。 Mask R-CNNは、最近優れたパフォーマンスを達成した。 しかし、セグメンテッドマスクは、特に大きな物体の場合、特徴ピラミッドとインスタンスワイドプーリングプロセスの両方のダウンサンプリング操作のため、いまだに非常に粗い。 本研究では,オブジェクトとシーンの高品質なインスタンスセグメンテーションのためのRefineMaskという新しい手法を提案する。 より詳細な情報をステージごとに融合することで、RefineMaskは高品質なマスクを一貫して洗練することができる。 refinemaskは、以前のほとんどのメソッドで過剰にスムースされ、正確なバウンダリを出力する、オブジェクトの曲がった部分のようなハードケースのセグメンテーションに成功している。 ベルとホイッスルがなければ、RefineMaskはCOCO、LVIS、CityscapesのベンチマークでMask R-CNNよりも2.6, 3.4, 3.8 APの大幅なゲインを得る。 さらに、LVIS Challenge 2020の勝者はLVIS test-devセットで1.3ポイント上回る結果となり、新たな最先端技術を確立します。 コードはhttps://github.com/z hanggang001/refinema skで入手できる。

The two-stage methods for instance segmentation, e.g. Mask R-CNN, have achieved excellent performance recently. However, the segmented masks are still very coarse due to the downsampling operations in both the feature pyramid and the instance-wise pooling process, especially for large objects. In this work, we propose a new method called RefineMask for high-quality instance segmentation of objects and scenes, which incorporates fine-grained features during the instance-wise segmenting process in a multi-stage manner. Through fusing more detailed information stage by stage, RefineMask is able to refine high-quality masks consistently. RefineMask succeeds in segmenting hard cases such as bent parts of objects that are over-smoothed by most previous methods and outputs accurate boundaries. Without bells and whistles, RefineMask yields significant gains of 2.6, 3.4, 3.8 AP over Mask R-CNN on COCO, LVIS, and Cityscapes benchmarks respectively at a small amount of additional computational cost. Furthermore, our single-model result outperforms the winner of the LVIS Challenge 2020 by 1.3 points on the LVIS test-dev set and establishes a new state-of-the-art. Code will be available at https://github.com/z hanggang001/RefineMa sk.
翻訳日:2021-04-20 13:56:44 公開日:2021-04-17
# VSpSR: 変分スパース表現による探索可能な超解法

VSpSR: Explorable Super-Resolution via Variational Sparse Representation ( http://arxiv.org/abs/2104.08575v1 )

ライセンス: Link先を確認
Hangqi Zhou, Chao Huang, Shangqi Gao, Xiahai Zhuang(参考訳) 超解像(SR)は不適切な問題であり、無限に多くの高分解能(HR)画像を同じ低分解能(LR)画像に分解できることを意味する。 本研究では,自然画像の局所的自己相似性を暗黙的に表現し,ニューラルネットワークによる超解法(VSpSR)のための変分スパースフレームワークを開発する。 HR画像のすべての小さなパッチは、過剰完全辞書における原子のスパース表現によってうまく近似できるので、SR空間を探索するために2分岐モジュール、すなわちVSpMを設計する。 具体的には、VSpMの一方の枝はLR入力からパッチレベル基底を抽出し、他方の枝はスパース係数に対して画素単位の変動分布を推定する。 係数を繰り返しサンプリングすることで、無限のスパース表現を得ることができ、それによって多様なHR画像を生成することができる。 NTIRE 2021によるSR空間の学習に関する予備的な結果によると、我々のチーム(FudanZmic21)は、リリーススコアの7番目です。 VSpSRの実装はhttps://zmiclab.gith ub.io/で公開されている。

Super-resolution (SR) is an ill-posed problem, which means that infinitely many high-resolution (HR) images can be degraded to the same low-resolution (LR) image. To study the one-to-many stochastic SR mapping, we implicitly represent the non-local self-similarity of natural images and develop a Variational Sparse framework for Super-Resolution (VSpSR) via neural networks. Since every small patch of a HR image can be well approximated by the sparse representation of atoms in an over-complete dictionary, we design a two-branch module, i.e., VSpM, to explore the SR space. Concretely, one branch of VSpM extracts patch-level basis from the LR input, and the other branch infers pixel-wise variational distributions with respect to the sparse coefficients. By repeatedly sampling coefficients, we could obtain infinite sparse representations, and thus generate diverse HR images. According to the preliminary results of NTIRE 2021 challenge on learning SR space, our team (FudanZmic21) ranks 7-th in terms of released scores. The implementation of VSpSR is released at https://zmiclab.gith ub.io/.
翻訳日:2021-04-20 13:56:22 公開日:2021-04-17
# 畳み込みニューラルネットワークによるspect/ctセグメンテーションのためのファジィクラスタリングの学習

Learning Fuzzy Clustering for SPECT/CT Segmentation via Convolutional Neural Networks ( http://arxiv.org/abs/2104.08623v1 )

ライセンス: Link先を確認
Junyu Chen, Ye Li, Licia P. Luna, Hyun Woo Chung, Steven P. Rowe, Yong Du, Lilja B.Solnes, Eric C. Frey(参考訳) qbspect (quantical bone single-photon emission computed tomography) は, 重ね合わせ構造の活性をより定量化できるため, 平面骨シンチグラフィよりも骨転移の定量的評価に有用である。 骨転移の反応を評価する重要な要素は、正確な画像分割である。 しかしながら、qbspect画像の性質によって制限されるため、解剖学的領域(rois)のセグメンテーションは専門家による手作業による記述に大きく依存している。 本研究は,QBSPECT画像を病変,骨,背景に分割する高速で堅牢な自動分割法を提案する。 本稿では,畳み込みニューラルネットワーク(convnet)を訓練するための教師なしセグメンテーション損失関数とその半教師付き変種を提案する。 損失関数は古典的ファジィC平均(FCM)アルゴリズムの目的関数に基づいて開発された。 本研究では,従来のクラスタリング手法と教師付き損失関数を用いて学習したConvNetと比較した。 Dice similarity coefficient (DSC) および他のいくつかの指標は, SPECT/CT画像とSPECT/CT画像の両方において, 病変や骨の描写に有効である。 提案手法は,現実的なシミュレート画像を用いたトレーニングであっても,臨床データセット上で良好なセグメンテーション結果が得られることを示した。 新規な損失関数を用いたConvNet画像分割法を開発し評価した。 この方法は、注釈付きトレーニングデータの可用性に応じて、教師なし、半教師なし、または完全に教師なしモードで動作する。 以上の結果から,QBSPECT/CTの高速で頑健な病変と骨分節が得られた。 この方法は、他の医療画像分割アプリケーションにも応用できる可能性がある。

Quantitative bone single-photon emission computed tomography (QBSPECT) has the potential to provide a better quantitative assessment of bone metastasis than planar bone scintigraphy due to its ability to better quantify activity in overlapping structures. An important element of assessing response of bone metastasis is accurate image segmentation. However, limited by the properties of QBSPECT images, the segmentation of anatomical regions-of-interests (ROIs) still relies heavily on the manual delineation by experts. This work proposes a fast and robust automated segmentation method for partitioning a QBSPECT image into lesion, bone, and background. We present a new unsupervised segmentation loss function and its semi- and supervised variants for training a convolutional neural network (ConvNet). The loss functions were developed based on the objective function of the classical Fuzzy C-means (FCM) algorithm. We conducted a comprehensive study to compare our proposed methods with ConvNets trained using supervised loss functions and conventional clustering methods. The Dice similarity coefficient (DSC) and several other metrics were used as figures of merit as applied to the task of delineating lesion and bone in both simulated and clinical SPECT/CT images. We experimentally demonstrated that the proposed methods yielded good segmentation results on a clinical dataset even though the training was done using realistic simulated images. A ConvNet-based image segmentation method that uses novel loss functions was developed and evaluated. The method can operate in unsupervised, semi-supervised, or fully-supervised modes depending on the availability of annotated training data. The results demonstrated that the proposed method provides fast and robust lesion and bone segmentation for QBSPECT/CT. The method can potentially be applied to other medical image segmentation applications.
翻訳日:2021-04-20 13:56:01 公開日:2021-04-17
# 高次再電流時空変圧器

Higher Order Recurrent Space-Time Transformer ( http://arxiv.org/abs/2104.08665v1 )

ライセンス: Link先を確認
Tsung-Ming Tai, Giuseppe Fiameni, Cheng-Kuang Lee, Oswald Lanz(参考訳) 視覚エージェントに予測能力を持たせることは、大規模なビデオインテリジェンスへの重要なステップである。 主なモデリングパラダイムはシーケンス学習であり、主にLSTMを通して実装されている。 フィードフォワードトランスフォーマーアーキテクチャは、言語処理のMLアプリケーションやコンピュータビジョンにおけるリカレントモデル設計を置き換えるものである。 本稿では,ビデオ予測タスクにおけるトランスフォーマー型アーキテクチャの競争力について検討する。 そこで本稿では,ビデオの自己注意の時空間分解を主成分とする高次再帰層の設計法であるHORSTを提案する。 HORSTは、タスク固有の設計を使わずに、Something-V2早期動作認識とEPIC-Kitchens-55アクション予測における技術競争性能の状態を達成している。 これは、自己着想の高次設計を繰り返すことに起因する因果的予測能力の有望な証拠であると考えています。

Endowing visual agents with predictive capability is a key step towards video intelligence at scale. The predominant modeling paradigm for this is sequence learning, mostly implemented through LSTMs. Feed-forward Transformer architectures have replaced recurrent model designs in ML applications of language processing and also partly in computer vision. In this paper we investigate on the competitiveness of Transformer-style architectures for video predictive tasks. To do so we propose HORST, a novel higher order recurrent layer design whose core element is a spatial-temporal decomposition of self-attention for video. HORST achieves state of the art competitive performance on Something-Something- V2 early action recognition and EPIC-Kitchens-55 action anticipation, without exploiting a task specific design. We believe this is promising evidence of causal predictive capability that we attribute to our recurrent higher order design of self-attention.
翻訳日:2021-04-20 13:55:33 公開日:2021-04-17
# 対話型オープンドメイン質問応答のためのグラフ誘導多ラウンド検索法

A Graph-guided Multi-round Retrieval Method for Conversational Open-domain Question Answering ( http://arxiv.org/abs/2104.08443v1 )

ライセンス: Link先を確認
Yongqi Li, Wenjie Li, Liqiang Nie(参考訳) 近年、会話エージェントは、人々の日常生活における有用な情報に対して、自然かつ便利なアクセスを提供し、広く新しい研究テーマである会話的質問応答(qa)を提供している。 一般的な会話型QAタスクの中では、Webから正確な回答を抽出するために関連するパスを検索する必要がある会話型オープンドメインQAは、より実用的であるが、あまり研究されていない。 主な課題は、会話における歴史的文脈をうまく捉え、十分に探求し、効果的な大規模検索を促進する方法である。 現在の研究は、主に歴史質問を利用して、現在の質問を洗練したり、その表現を強化したりするが、タスクにとって重要な会話における歴史回答と現在の回答の関係は完全に無視される。 そこで本研究では,会話のターン間の応答関係をモデル化するグラフ誘導検索手法を提案する。 特に、履歴回答と潜在的な現在の回答を含むハイパーリンク接続されたパスから派生したパスグラフを使用して、その後の回答抽出に関連性の高いパスを検索する。 さらに,より補完的な情報を歴史的文脈に収集するために,検索コンテキストが現在の質問理解に与える影響を探究するために,マルチラウンド関連フィードバック手法を導入することを提案する。 公開データセットにおける実験結果は,提案手法の有効性を検証した。 特に、F1スコアは予測された履歴回答と真の歴史回答で5%と11%向上する。

In recent years, conversational agents have provided a natural and convenient access to useful information in people's daily life, along with a broad and new research topic, conversational question answering (QA). Among the popular conversational QA tasks, conversational open-domain QA, which requires to retrieve relevant passages from the Web to extract exact answers, is more practical but less studied. The main challenge is how to well capture and fully explore the historical context in conversation to facilitate effective large-scale retrieval. The current work mainly utilizes history questions to refine the current question or to enhance its representation, yet the relations between history answers and the current answer in a conversation, which is also critical to the task, are totally neglected. To address this problem, we propose a novel graph-guided retrieval method to model the relations among answers across conversation turns. In particular, it utilizes a passage graph derived from the hyperlink-connected passages that contains history answers and potential current answers, to retrieve more relevant passages for subsequent answer extraction. Moreover, in order to collect more complementary information in the historical context, we also propose to incorporate the multi-round relevance feedback technique to explore the impact of the retrieval context on current question understanding. Experimental results on the public dataset verify the effectiveness of our proposed method. Notably, the F1 score is improved by 5% and 11% with predicted history answers and true history answers, respectively.
翻訳日:2021-04-20 13:44:45 公開日:2021-04-17
# 深いガウス過程に対する畳み込み正規化流れ

Convolutional Normalizing Flows for Deep Gaussian Processes ( http://arxiv.org/abs/2104.08472v1 )

ライセンス: Link先を確認
Haibin Yu, Bryan Kian Hsiang Low, Patrick Jaillet, Dapeng Liu(参考訳) GPモデルの階層的な構成であるディープガウス過程(DGP)は、単層プロセスよりも表現力を高めることに成功した。 しかし、近年の変分推論に基づく手法の開発を動機づけたDGPでは正確な推論を行うことはできない。 残念ながら、これらの手法はバイアスのある後続の信念を生み出すか、収束を評価するのが難しい。 そこで本研究では, 柔軟で任意に複雑で, スケーラブルな後方分布を規定するための新しい手法を提案する。 後方分布は、単純な初期確率を可逆変換の列を通してより複雑なものに変換する正規化流れ(nf)によって構成される。 さらに,新しい畳み込み正規化流(CNF)を開発し,時間効率の向上と層間依存性の捕捉を図る。 CNF DGPはDGPの最先端近似法よりも優れていた。

Deep Gaussian processes (DGPs), a hierarchical composition of GP models, have successfully boosted the expressive power than the single-layer counterpart. However, it is impossible to perform exact inference in DGPs, which has motivated the recent development of variational inference based methods. Unfortunately, these methods either yield a biased posterior belief or are difficult to evaluate the convergence. This paper, on the contrary, introduces a new approach for specifying flexible, arbitrarily complex, and scalable approximate posterior distributions. The posterior distribution is constructed through a normalizing flow (NF) which transforms a simple initial probability into a more complex one through a sequence of invertible transformations. Moreover, a novel convolutional normalizing flow (CNF) is developed to improve the time efficiency and capture dependency between layers. Empirical evaluation demonstrates that CNF DGP outperforms the state-of-the-art approximation methods for DGPs.
翻訳日:2021-04-20 13:44:01 公開日:2021-04-17
# ファジィペアワイズ制約を用いたファジィ判別クラスタリング

Fuzzy Discriminant Clustering with Fuzzy Pairwise Constraints ( http://arxiv.org/abs/2104.08546v1 )

ライセンス: Link先を確認
Zhen Wang, Shan-Shan Wang, Lan Bai, Wen-Si Wang, Yuan-Hai Shao(参考訳) 半教師付きファジィクラスタリングにおいて、本論文は従来のペアワイズ制約(すなわち、マスターリンクまたはノーリンク)をファジィペアワイズ制約に拡張する。 ファジィペアワイズ制約により、スーパーバイザは一対のサンプルの暗黙のファジィベクトル間の類似度または類似度を提供することができる。 この制約はサンプル間のより複雑な関係を示し、ファジィ特性の排除を避けることができる。 ファジィ判別クラスタリングモデル(fdc)を提案し,ファジィペアワイズ制約を融合する。 FDCにおける非凸最適化問題は、いくつかの不確定二次計画問題(IQPP)の解法を含む期待最大化アルゴリズムによって解決される。 さらに, 定常点が保証されるIQPPに対して, 対角ブロック座標正則 (DBCD) アルゴリズムを提案し, 一定の条件下で大域的解を求めることができる。 異なる応用に適合するため、fdc は様々な計量空間(例えば、再生核ヒルベルト空間)に拡張される。 いくつかのベンチマークデータセットと表情データベースによる実験結果は、いくつかの最先端クラスタリングモデルと比較して、FDCの高性能性を示している。

In semi-supervised fuzzy clustering, this paper extends the traditional pairwise constraint (i.e., must-link or cannot-link) to fuzzy pairwise constraint. The fuzzy pairwise constraint allows a supervisor to provide the grade of similarity or dissimilarity between the implicit fuzzy vectors of a pair of samples. This constraint can present more complicated relationship between the pair of samples and avoid eliminating the fuzzy characteristics. We propose a fuzzy discriminant clustering model (FDC) to fuse the fuzzy pairwise constraints. The nonconvex optimization problem in our FDC is solved by a modified expectation-maximiza tion algorithm, involving to solve several indefinite quadratic programming problems (IQPPs). Further, a diagonal block coordinate decent (DBCD) algorithm is proposed for these IQPPs, whose stationary points are guaranteed, and the global solutions can be obtained under certain conditions. To suit for different applications, the FDC is extended into various metric spaces, e.g., the Reproducing Kernel Hilbert Space. Experimental results on several benchmark datasets and facial expression database demonstrate the outperformance of our FDC compared with some state-of-the-art clustering models.
翻訳日:2021-04-20 13:43:47 公開日:2021-04-17
# スケッチ構造正規化による生涯学習

Lifelong Learning with Sketched Structural Regularization ( http://arxiv.org/abs/2104.08604v1 )

ライセンス: Link先を確認
Haoran Li, Aditya Krishnan, Jingfeng Wu, Soheil Kolouri, Praveen K. Pilly, Vladimir Braverman(参考訳) 新しいタスクを継続的に学習しながら破滅的な忘れを防ぐことは、生涯学習において不可欠な問題である。 構造正規化 (SR) は、ネットワークを従来のタスクから「クリティカルパラメータ」を変更して新しいタスクを学習することで、破滅的な忘れを緩和するアルゴリズムのファミリーを指す。 このペナルティは、例えばElastic Weight Consolidation frameworkにおける(経験的)フィッシャー情報行列のように、 \emph{importance matrix} で定義される二次正則化器によってしばしば誘導される。 実際には、計算上の制約のため、ほとんどのSR手法は、その対角線による重要性行列を粗く近似する。 本稿では,SR手法の正則化に使用する重要行列を圧縮する代替手法として, \emph{Sketched Structure Regularization} (Sketched SR)を提案する。 具体的には,SRアルゴリズムの重要行列をより正確に近似するために, 'emph{linear sketching method} を適用する。 スケッチされたSR: (i) は計算的に効率的で実装が容易であり, (ii) 理論上正当化された近似誤差を提供し, (iii) 構造正則化クラスに属する任意のメソッドに適用可能であることを示す。 提案手法は,多変量MNISTやCIFAR-100など,合成実験とベンチマーク連続学習の両方において,SRアルゴリズムの性能を継続的に向上することを示す。

Preventing catastrophic forgetting while continually learning new tasks is an essential problem in lifelong learning. Structural regularization (SR) refers to a family of algorithms that mitigate catastrophic forgetting by penalizing the network for changing its "critical parameters" from previous tasks while learning a new one. The penalty is often induced via a quadratic regularizer defined by an \emph{importance matrix}, e.g., the (empirical) Fisher information matrix in the Elastic Weight Consolidation framework. In practice and due to computational constraints, most SR methods crudely approximate the importance matrix by its diagonal. In this paper, we propose \emph{Sketched Structural Regularization} (Sketched SR) as an alternative approach to compress the importance matrices used for regularizing in SR methods. Specifically, we apply \emph{linear sketching methods} to better approximate the importance matrices in SR algorithms. We show that sketched SR: (i) is computationally efficient and straightforward to implement, (ii) provides an approximation error that is justified in theory, and (iii) is method oblivious by construction and can be adapted to any method that belongs to the structural regularization class. We show that our proposed approach consistently improves various SR algorithms' performance on both synthetic experiments and benchmark continual learning tasks, including permuted-MNIST and CIFAR-100.
翻訳日:2021-04-20 13:43:28 公開日:2021-04-17
# ExTRACTOR:脅威レポートからの攻撃行動の抽出

EXTRACTOR: Extracting Attack Behavior from Threat Reports ( http://arxiv.org/abs/2104.08618v1 )

ライセンス: Link先を確認
Kiavash Satvat, Rigel Gjomemo and V.N. Venkatakrishnan(参考訳) サイバー脅威インテリジェンス(CTI)レポートに含まれる攻撃に関する知識は、サイバー脅威を効果的に識別し、迅速に対応するために非常に重要である。 しかし、この知識はしばしば大量のテキストに埋め込まれており、効果的に利用することは困難である。 この課題に対処するために,CTIレポートから簡潔な攻撃行動の正確な抽出を可能にするEXTRACTORという新しい手法とツールを提案する。 EXTRACTORはテキストについて強い仮定をせず、構造化されていないテキストから前兆グラフとして攻撃行動を抽出することができる。 我々は、様々なソースからの実際のインシデントレポートと、Windows、Linux、FreeBSDの様々なOSプラットフォームに対するいくつかのアタックキャンペーンを含むDARPA敵のエンゲージメントのレポートを用いて、EXTRACTORを評価した。 評価の結果,EXTRACTORはCTIレポートから簡潔な前駆グラフを抽出し,サイバー分析ツールによる脅威追跡に有効であることが示された。

The knowledge on attacks contained in Cyber Threat Intelligence (CTI) reports is very important to effectively identify and quickly respond to cyber threats. However, this knowledge is often embedded in large amounts of text, and therefore difficult to use effectively. To address this challenge, we propose a novel approach and tool called EXTRACTOR that allows precise automatic extraction of concise attack behaviors from CTI reports. EXTRACTOR makes no strong assumptions about the text and is capable of extracting attack behaviors as provenance graphs from unstructured text. We evaluate EXTRACTOR using real-world incident reports from various sources as well as reports of DARPA adversarial engagements that involve several attack campaigns on various OS platforms of Windows, Linux, and FreeBSD. Our evaluation results show that EXTRACTOR can extract concise provenance graphs from CTI reports and show that these graphs can successfully be used by cyber-analytics tools in threat-hunting.
翻訳日:2021-04-20 13:40:30 公開日:2021-04-17
# 分散ネットワークの異常エッジとノード接続性

Unveiling Anomalous Edges and Nominal Connectivity of Attributed Networks ( http://arxiv.org/abs/2104.08637v1 )

ライセンス: Link先を確認
Konstantinos D. Polyzos, Costas Mavromatis, Vassilis N. Ioannidis, and Georgios B. Giannakis(参考訳) 属性付きネットワークにおける異常の発見は、近ごろ人気を集めている。それは、データとネットワーク科学のアプリケーションに、‘IoT’(Internet of Things)、ファイナンス、セキュリティなど、さまざまな分野における、アウトレーヤの公開と敵の振る舞いのフラグ付けが重要であるためだ。 本研究は, 共役強度を持つ2つの異なる定式化を用いて, 属性グラフの異常エッジを明らかにすることを扱う。 まず、グラフデータマトリックスを低ランクとスパースコンポーネントに分解することで、パフォーマンスを著しく向上させる。 第2は、乱れのないグラフを頑健に復元することにより、第1のスコープを広げ、異常識別性能を高める。 新たな手法は,異なるコミュニティのノードをつなぐ異常なエッジをキャプチャするだけでなく,異なる特徴を持つ任意の2つのノード間のスプリアス接続もキャプチャする。 実データおよび合成データを用いた実験により,両手法の有効性が検証された。

Uncovering anomalies in attributed networks has recently gained popularity due to its importance in unveiling outliers and flagging adversarial behavior in a gamut of data and network science applications including {the Internet of Things (IoT)}, finance, security, to list a few. The present work deals with uncovering anomalous edges in attributed graphs using two distinct formulations with complementary strengths, which can be easily distributed, and hence efficient. The first relies on decomposing the graph data matrix into low rank plus sparse components to markedly improve performance. The second broadens the scope of the first by performing robust recovery of the unperturbed graph, which enhances the anomaly identification performance. The novel methods not only capture anomalous edges linking nodes of different communities, but also spurious connections between any two nodes with different features. Experiments conducted on real and synthetic data corroborate the effectiveness of both methods in the anomaly identification task.
翻訳日:2021-04-20 13:38:28 公開日:2021-04-17
# LiDAR深度完了のための表面形状モデル

A Surface Geometry Model for LiDAR Depth Completion ( http://arxiv.org/abs/2104.08466v1 )

ライセンス: Link先を確認
Yiming Zhao, Lin Bai, Ziming Zhang and Xinming Huang(参考訳) LiDARの深さ完了は対応するカメラフレーム上の各ピクセルの深さ値を予測するタスクである。 既存の最先端ソリューションのほとんどは、モデルトレーニングのために大量のデータと重い計算を必要とするディープニューラルネットワークに基づいている。 本稿では,外乱除去アルゴリズムによって強化された局所表面形状を利用して,新しい非学習深度補完法を提案する。 提案した表面幾何モデルは、深さの不明なほとんどのピクセルが近傍のLiDAR点を持つという観察に着想を得たものである。 したがって、これらの画素は同じ表面を最寄りのLiDAR点と共有し、それぞれの深さを最寄りのLiDAR深さ値と残留誤差と推定することができる。 残差誤差は、既知のカメラ固有のパラメータ、推定正規ベクトル、画像平面上のオフセット距離を含む、いくつかの物理パラメータを入力として導出した方程式を用いて算出される。 提案手法は,不正マップされたLiDAR点を隠蔽領域から除去するアルゴリズムにより,さらに拡張されている。 KITTIデータセットでは、提案手法は既存のすべての非学習手法の中で最高のエラー性能を達成し、最高の自己教師付き学習手法といくつかの教師付き学習手法に匹敵する。 さらに、隠蔽領域から外れた点が一般的な問題であるため、カメラとLiDARの両方のセンサーを備えた多くのロボットシステムに適用可能な、一般的な前処理ステップである。

LiDAR depth completion is a task that predicts depth values for every pixel on the corresponding camera frame, although only sparse LiDAR points are available. Most of the existing state-of-the-art solutions are based on deep neural networks, which need a large amount of data and heavy computations for training the models. In this letter, a novel non-learning depth completion method is proposed by exploiting the local surface geometry that is enhanced by an outlier removal algorithm. The proposed surface geometry model is inspired by the observation that most pixels with unknown depth have a nearby LiDAR point. Therefore, it is assumed those pixels share the same surface with the nearest LiDAR point, and their respective depth can be estimated as the nearest LiDAR depth value plus a residual error. The residual error is calculated by using a derived equation with several physical parameters as input, including the known camera intrinsic parameters, estimated normal vector, and offset distance on the image plane. The proposed method is further enhanced by an outlier removal algorithm that is designed to remove incorrectly mapped LiDAR points from occluded regions. On KITTI dataset, the proposed solution achieves the best error performance among all existing non-learning methods and is comparable to the best self-supervised learning method and some supervised learning methods. Moreover, since outlier points from occluded regions is a commonly existing problem, the proposed outlier removal algorithm is a general preprocessing step that is applicable to many robotic systems with both camera and LiDAR sensors.
翻訳日:2021-04-20 13:37:00 公開日:2021-04-17
# 非線形ハイパースペクトルアンミックスのためのモデルベースディープオートエンコーダネットワーク

Model-Based Deep Autoencoder Networks for Nonlinear Hyperspectral Unmixing ( http://arxiv.org/abs/2104.08409v1 )

ライセンス: Link先を確認
Haoqing Li, Ricardo Augusto Borsoi, Tales Imbiriba, Pau Closas, Jos\'e Carlos Moreira Bermudez, Deniz Erdo\u{g}mu\c{s}(参考訳) オートエンコーダ (AEC) ネットワークは近年,非教師付きハイパースペクトルアンミキシング (HU) を行うための有望な手法として,潜在表現を多元性,デコーダを混合モデル, エンコーダを逆性に関連付ける手法として出現している。 AECは非教師付きおよびモデルフリーなアルゴリズムにつながるため、非線形HUに特に魅力がある。 しかし、既存のアプローチでは、エンコーダが混合プロセスを反転させるべきであるという事実を探求できず、それによってロバスト性が低下する可能性がある。 本稿では,線形混合体上の非線形ゆらぎを混合モデルとして,非線形huのモデルベースaecを提案する。 従来の作品と異なるのは、この制限がエンコーダとデコーダネットワークの両方に固有の構造を自然に課すことである。 これにより、混合モデルの柔軟性を低下させることなく、AECに事前情報を導入する。 合成および実データを用いたシミュレーションは,提案手法が非線形huを改善することを示す。

Autoencoder (AEC) networks have recently emerged as a promising approach to perform unsupervised hyperspectral unmixing (HU) by associating the latent representations with the abundances, the decoder with the mixing model and the encoder with its inverse. AECs are especially appealing for nonlinear HU since they lead to unsupervised and model-free algorithms. However, existing approaches fail to explore the fact that the encoder should invert the mixing process, which might reduce their robustness. In this paper, we propose a model-based AEC for nonlinear HU by considering the mixing model a nonlinear fluctuation over a linear mixture. Differently from previous works, we show that this restriction naturally imposes a particular structure to both the encoder and to the decoder networks. This introduces prior information in the AEC without reducing the flexibility of the mixing model. Simulations with synthetic and real data indicate that the proposed strategy improves nonlinear HU.
翻訳日:2021-04-20 13:32:30 公開日:2021-04-17
# 深部生成モデルを用いた三次元空間における薬物様分子の設計

Learning to design drug-like molecules in three-dimensional space using deep generative models ( http://arxiv.org/abs/2104.08474v1 )

ライセンス: Link先を確認
Yibo Li, Jianfeng Pei and Luhua Lai(参考訳) 近年、分子グラフの深い生成モデルが、デ・ノボの薬物設計の分野でますます注目を集めている。 薬物様分子のトポロジー構造を生成するために様々なモデルが開発されているが、立体構造の生成に関する調査はまだ限られている。 既存の方法は、薬物類似性を考慮せずに低分子量化合物に焦点を当てるか、原子密度マップを用いて間接的に3D構造を生成する。 本稿では,高品質な3次元構造を持つ薬物様分子を設計するためのグラフ生成モデルLigand Neural Network (L-Net)を紹介する。 L-Netは分子(水素原子を含む)のトポロジカル構造と3D構造を直接出力し、追加の原子配置や結合秩序推論アルゴリズムを必要としない。 L-Netのアーキテクチャは特に薬物様分子に最適化されており、その性能を総合的に評価するために一連のメトリクスが組み立てられている。 その結果、L-Netは化学的に正しい、適合性があり、薬物のような分子を生成できることがわかった。 最後に、構造に基づく分子設計におけるその可能性を示すために、L-NetとMCTSを組み合わせて、ABL1キナーゼを標的とする潜在的阻害剤を生成する能力をテストする。

Recently, deep generative models for molecular graphs are gaining more and more attention in the field of de novo drug design. A variety of models have been developed to generate topological structures of drug-like molecules, but explorations in generating three-dimensional structures are still limited. Existing methods have either focused on low molecular weight compounds without considering drug-likeness or generate 3D structures indirectly using atom density maps. In this work, we introduce Ligand Neural Network (L-Net), a novel graph generative model for designing drug-like molecules with high-quality 3D structures. L-Net directly outputs the topological and 3D structure of molecules (including hydrogen atoms), without the need for additional atom placement or bond order inference algorithm. The architecture of L-Net is specifically optimized for drug-like molecules, and a set of metrics is assembled to comprehensively evaluate its performance. The results show that L-Net is capable of generating chemically correct, conformationally valid, and highly druglike molecules. Finally, to demonstrate its potential in structure-based molecular design, we combine L-Net with MCTS and test its ability to generate potential inhibitors targeting ABL1 kinase.
翻訳日:2021-04-20 13:32:09 公開日:2021-04-17
# スコアカードモデルのための最適反事実説明

Optimal Counterfactual Explanations for Scorecard modelling ( http://arxiv.org/abs/2104.08619v1 )

ライセンス: Link先を確認
Guillermo Navas-Palencia(参考訳) 反事実的説明は、近年注目を集めている機械学習モデルに説明可能性を提供するためのポストホック手法の1つである。 文献のほとんどの例では、ローン申請の拒絶後、ブラックボックス機械学習モデルのポストホック説明を生成する問題に対処している。 対照的に,本研究では,銀行業において主に融資を行うための解釈可能なモデルの一種であるスコアカードモデルの数学的プログラミング定式化について検討する。 提案した混合整数プログラミング定式化は、目的関数を組み合わせて、二進数、確率、連続的な結果に対する多目的最適化手法を用いて、密接で現実的でスパースなカウンターファクトを確実にする。 さらに,これらの定式化を拡張して,多様性を確保しつつ,複数の最適対策を同時に生成する。 2つの実世界のデータセットの実験により、提案されたアプローチは、望ましい特性に対処する最適な多種多様なカウンターファクトを生成できることを確認した。

Counterfactual explanations is one of the post-hoc methods used to provide explainability to machine learning models that have been attracting attention in recent years. Most examples in the literature, address the problem of generating post-hoc explanations for black-box machine learning models after the rejection of a loan application. In contrast, in this work, we investigate mathematical programming formulations for scorecard models, a type of interpretable model predominant within the banking industry for lending. The proposed mixed-integer programming formulations combine objective functions to ensure close, realistic and sparse counterfactuals using multi-objective optimization techniques for a binary, probability or continuous outcome. Moreover, we extend these formulations to generate multiple optimal counterfactuals simultaneously while guaranteeing diversity. Experiments on two real-world datasets confirm that the presented approach can generate optimal diverse counterfactuals addressing desired properties with assumable CPU times for practice use.
翻訳日:2021-04-20 13:31:48 公開日:2021-04-17