論文の概要: Evaluating Multilingual Text Encoders for Unsupervised Cross-Lingual
Retrieval
- arxiv url: http://arxiv.org/abs/2101.08370v1
- Date: Thu, 21 Jan 2021 00:15:38 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-21 23:38:00.926539
- Title: Evaluating Multilingual Text Encoders for Unsupervised Cross-Lingual
Retrieval
- Title(参考訳): 教師なし言語間検索のための多言語テキストエンコーダの評価
- Authors: Robert Litschko and Ivan Vuli\'c and Simone Paolo Ponzetto and Goran
Glava\v{s}
- Abstract要約: 本稿では,言語間文書・文検索タスクにおける最先端多言語エンコーダの適合性に着目した体系的実証研究を行う。
文レベルのCLIRでは、最先端のパフォーマンスが達成できることを実証する。
しかし、ピーク性能は、汎用の多言語テキストエンコーダをオフ・ザ・シェルフで使うのではなく、文の理解タスクにさらに特化したバリエーションに依存している。
- 参考スコア(独自算出の注目度): 51.60862829942932
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Pretrained multilingual text encoders based on neural Transformer
architectures, such as multilingual BERT (mBERT) and XLM, have achieved strong
performance on a myriad of language understanding tasks. Consequently, they
have been adopted as a go-to paradigm for multilingual and cross-lingual
representation learning and transfer, rendering cross-lingual word embeddings
(CLWEs) effectively obsolete. However, questions remain to which extent this
finding generalizes 1) to unsupervised settings and 2) for ad-hoc cross-lingual
IR (CLIR) tasks. Therefore, in this work we present a systematic empirical
study focused on the suitability of the state-of-the-art multilingual encoders
for cross-lingual document and sentence retrieval tasks across a large number
of language pairs. In contrast to supervised language understanding, our
results indicate that for unsupervised document-level CLIR -- a setup with no
relevance judgments for IR-specific fine-tuning -- pretrained encoders fail to
significantly outperform models based on CLWEs. For sentence-level CLIR, we
demonstrate that state-of-the-art performance can be achieved. However, the
peak performance is not met using the general-purpose multilingual text
encoders `off-the-shelf', but rather relying on their variants that have been
further specialized for sentence understanding tasks.
- Abstract(参考訳): マルチリンガルBERT(mBERT)やXLMのようなニューラルトランスフォーマーアーキテクチャに基づく事前訓練された多言語テキストエンコーダは、多言語理解タスクにおいて高いパフォーマンスを達成している。
その結果、多言語および多言語間表現学習と伝達のためのゴートパラダイムとして採用され、言語間単語埋め込み(CLWE)は事実上廃れた。
しかし、この発見は(1)教師なしの設定に一般化し、(2)アドホックなクロスリンガルIR(CLIR)タスクに対して疑問が残る。
そこで本研究では,多数の言語対を横断する言語間文書および文検索タスクのための最先端の多言語エンコーダの適合性に着目した体系的実証研究を行う。
教師付き言語理解とは対照的に,教師なしの文書レベルclir(ir固有の微調整の関連性判定を含まない設定)では,clwesに基づくモデルを大幅に上回ってはいない。
文レベルのCLIRでは、最先端のパフォーマンスが達成できることを実証する。
しかし、ピーク性能は汎用多言語テキストエンコーダ「off-the-shelf」ではなく、文理解タスクにさらに特化された派生型に依存する。
- 全文 参考訳へのリンク
関連論文リスト
- Exposing Cross-Lingual Lexical Knowledge from Multilingual Sentence
Encoders [85.80950708769923]
本稿では,多言語言語モデルを用いて,それらのパラメータに格納された言語間語彙の知識量を探索し,元の多言語LMと比較する。
また、この知識を付加的に微調整した多言語モデルにより公開する新しい手法も考案した。
標準ベンチマークの大幅な向上を報告します。
論文 参考訳(メタデータ) (2022-04-30T13:23:16Z) - Bridging Cross-Lingual Gaps During Leveraging the Multilingual
Sequence-to-Sequence Pretraining for Text Generation [80.16548523140025]
プレトレインとファインチューンの間のギャップを埋めるために、コードスイッチングの復元タスクを追加して、バニラプレトレイン-ファインチューンパイプラインを拡張します。
提案手法は,言語間文表現距離を狭くし,簡単な計算コストで低周波語翻訳を改善する。
論文 参考訳(メタデータ) (2022-04-16T16:08:38Z) - On Cross-Lingual Retrieval with Multilingual Text Encoders [51.60862829942932]
言語間文書・文検索タスクにおける最先端多言語エンコーダの適合性について検討する。
教師なしのアドホック文と文書レベルのCLIR実験でそれらの性能をベンチマークする。
我々は、ゼロショット言語とドメイン転送CLIR実験のシリーズにおける英語関連データに基づいて、教師付き方式で微調整された多言語エンコーダの評価を行った。
論文 参考訳(メタデータ) (2021-12-21T08:10:27Z) - Learning Cross-Lingual IR from an English Retriever [10.27108918912692]
提案手法の精度は25.4 Recall@5ktである。
論文 参考訳(メタデータ) (2021-12-15T15:07:54Z) - Syntax-augmented Multilingual BERT for Cross-lingual Transfer [37.99210035238424]
この研究は、言語構文とトレーニングmBERTを明示的に提供することが、言語間転送に役立つことを示している。
実験の結果,mBERTの構文拡張は,一般的なベンチマーク上での言語間移動を改善することがわかった。
論文 参考訳(メタデータ) (2021-06-03T21:12:50Z) - AM2iCo: Evaluating Word Meaning in Context across Low-ResourceLanguages
with Adversarial Examples [51.048234591165155]
本稿では, AM2iCo, Adversarial and Multilingual Meaning in Contextを提案する。
言語間文脈における単語の意味の同一性を理解するために、最先端(SotA)表現モデルを忠実に評価することを目的としている。
その結果、現在のSotAプリトレーニングエンコーダは人間のパフォーマンスにかなり遅れていることが明らかとなった。
論文 参考訳(メタデータ) (2021-04-17T20:23:45Z) - Are Multilingual Models Effective in Code-Switching? [57.78477547424949]
多言語モデルの有効性を検討し,複合言語設定の能力と適応性について検討する。
この結果から,事前学習した多言語モデルでは,コードスイッチングにおける高品質な表現が必ずしも保証されないことが示唆された。
論文 参考訳(メタデータ) (2021-03-24T16:20:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。