論文の概要: Evaluating Multilingual Text Encoders for Unsupervised Cross-Lingual
Retrieval
- arxiv url: http://arxiv.org/abs/2101.08370v1
- Date: Thu, 21 Jan 2021 00:15:38 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-21 23:38:00.926539
- Title: Evaluating Multilingual Text Encoders for Unsupervised Cross-Lingual
Retrieval
- Title(参考訳): 教師なし言語間検索のための多言語テキストエンコーダの評価
- Authors: Robert Litschko and Ivan Vuli\'c and Simone Paolo Ponzetto and Goran
Glava\v{s}
- Abstract要約: 本稿では,言語間文書・文検索タスクにおける最先端多言語エンコーダの適合性に着目した体系的実証研究を行う。
文レベルのCLIRでは、最先端のパフォーマンスが達成できることを実証する。
しかし、ピーク性能は、汎用の多言語テキストエンコーダをオフ・ザ・シェルフで使うのではなく、文の理解タスクにさらに特化したバリエーションに依存している。
- 参考スコア(独自算出の注目度): 51.60862829942932
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Pretrained multilingual text encoders based on neural Transformer
architectures, such as multilingual BERT (mBERT) and XLM, have achieved strong
performance on a myriad of language understanding tasks. Consequently, they
have been adopted as a go-to paradigm for multilingual and cross-lingual
representation learning and transfer, rendering cross-lingual word embeddings
(CLWEs) effectively obsolete. However, questions remain to which extent this
finding generalizes 1) to unsupervised settings and 2) for ad-hoc cross-lingual
IR (CLIR) tasks. Therefore, in this work we present a systematic empirical
study focused on the suitability of the state-of-the-art multilingual encoders
for cross-lingual document and sentence retrieval tasks across a large number
of language pairs. In contrast to supervised language understanding, our
results indicate that for unsupervised document-level CLIR -- a setup with no
relevance judgments for IR-specific fine-tuning -- pretrained encoders fail to
significantly outperform models based on CLWEs. For sentence-level CLIR, we
demonstrate that state-of-the-art performance can be achieved. However, the
peak performance is not met using the general-purpose multilingual text
encoders `off-the-shelf', but rather relying on their variants that have been
further specialized for sentence understanding tasks.
- Abstract(参考訳): マルチリンガルBERT(mBERT)やXLMのようなニューラルトランスフォーマーアーキテクチャに基づく事前訓練された多言語テキストエンコーダは、多言語理解タスクにおいて高いパフォーマンスを達成している。
その結果、多言語および多言語間表現学習と伝達のためのゴートパラダイムとして採用され、言語間単語埋め込み(CLWE)は事実上廃れた。
しかし、この発見は(1)教師なしの設定に一般化し、(2)アドホックなクロスリンガルIR(CLIR)タスクに対して疑問が残る。
そこで本研究では,多数の言語対を横断する言語間文書および文検索タスクのための最先端の多言語エンコーダの適合性に着目した体系的実証研究を行う。
教師付き言語理解とは対照的に,教師なしの文書レベルclir(ir固有の微調整の関連性判定を含まない設定)では,clwesに基づくモデルを大幅に上回ってはいない。
文レベルのCLIRでは、最先端のパフォーマンスが達成できることを実証する。
しかし、ピーク性能は汎用多言語テキストエンコーダ「off-the-shelf」ではなく、文理解タスクにさらに特化された派生型に依存する。
関連論文リスト
- Exposing Cross-Lingual Lexical Knowledge from Multilingual Sentence
Encoders [85.80950708769923]
本稿では,多言語言語モデルを用いて,それらのパラメータに格納された言語間語彙の知識量を探索し,元の多言語LMと比較する。
また、この知識を付加的に微調整した多言語モデルにより公開する新しい手法も考案した。
標準ベンチマークの大幅な向上を報告します。
論文 参考訳(メタデータ) (2022-04-30T13:23:16Z) - On Cross-Lingual Retrieval with Multilingual Text Encoders [51.60862829942932]
言語間文書・文検索タスクにおける最先端多言語エンコーダの適合性について検討する。
教師なしのアドホック文と文書レベルのCLIR実験でそれらの性能をベンチマークする。
我々は、ゼロショット言語とドメイン転送CLIR実験のシリーズにおける英語関連データに基づいて、教師付き方式で微調整された多言語エンコーダの評価を行った。
論文 参考訳(メタデータ) (2021-12-21T08:10:27Z) - Syntax-augmented Multilingual BERT for Cross-lingual Transfer [37.99210035238424]
この研究は、言語構文とトレーニングmBERTを明示的に提供することが、言語間転送に役立つことを示している。
実験の結果,mBERTの構文拡張は,一般的なベンチマーク上での言語間移動を改善することがわかった。
論文 参考訳(メタデータ) (2021-06-03T21:12:50Z) - AM2iCo: Evaluating Word Meaning in Context across Low-ResourceLanguages
with Adversarial Examples [51.048234591165155]
本稿では, AM2iCo, Adversarial and Multilingual Meaning in Contextを提案する。
言語間文脈における単語の意味の同一性を理解するために、最先端(SotA)表現モデルを忠実に評価することを目的としている。
その結果、現在のSotAプリトレーニングエンコーダは人間のパフォーマンスにかなり遅れていることが明らかとなった。
論文 参考訳(メタデータ) (2021-04-17T20:23:45Z) - VECO: Variable and Flexible Cross-lingual Pre-training for Language
Understanding and Generation [77.82373082024934]
我々はTransformerエンコーダにクロスアテンションモジュールを挿入し、言語間の相互依存を明確に構築する。
独自の言語でコンテキストにのみ条件付けされたマスク付き単語の予測の退化を効果的に回避することができる。
提案した言語間モデルでは,XTREMEベンチマークのさまざまな言語間理解タスクに対して,最先端の新たな結果が提供される。
論文 参考訳(メタデータ) (2020-10-30T03:41:38Z) - On Learning Universal Representations Across Languages [37.555675157198145]
文レベルの表現を学習するための既存のアプローチを拡張し、言語間理解と生成の有効性を示す。
具体的には,複数の言語に分散した並列文の普遍表現を学習するための階層型コントラスト学習(HiCTL)手法を提案する。
我々は、XTREMEと機械翻訳という2つの難解な言語間タスクについて評価を行う。
論文 参考訳(メタデータ) (2020-07-31T10:58:39Z) - Enhancing Answer Boundary Detection for Multilingual Machine Reading
Comprehension [86.1617182312817]
そこで我々は,句境界管理を付加するために,微調整段階における2つの補助的タスクを提案する。
混合機械読解タスクは、質問または通過を他の言語に翻訳し、言語横断の問合せペアを構築する。
Webから抽出した知識フレーズを活用する言語に依存しない知識マスキングタスク。
論文 参考訳(メタデータ) (2020-04-29T10:44:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。