Fugu-MT 論文翻訳(概要): Evaluating Multilingual Text Encoders for Unsupervised Cross-Lingual Retrieval

論文の概要: Evaluating Multilingual Text Encoders for Unsupervised Cross-Lingual Retrieval

arxiv url: http://arxiv.org/abs/2101.08370v1
Date: Thu, 21 Jan 2021 00:15:38 GMT
ステータス: 翻訳完了
システム内更新日: 2021-03-21 23:38:00.926539
Title: Evaluating Multilingual Text Encoders for Unsupervised Cross-Lingual Retrieval
Title（参考訳）: 教師なし言語間検索のための多言語テキストエンコーダの評価
Authors: Robert Litschko and Ivan Vuli\'c and Simone Paolo Ponzetto and Goran Glava\v{s}
Abstract要約: 本稿では,言語間文書・文検索タスクにおける最先端多言語エンコーダの適合性に着目した体系的実証研究を行う。文レベルのCLIRでは、最先端のパフォーマンスが達成できることを実証する。しかし、ピーク性能は、汎用の多言語テキストエンコーダをオフ・ザ・シェルフで使うのではなく、文の理解タスクにさらに特化したバリエーションに依存している。
参考スコア（独自算出の注目度）: 51.60862829942932
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Pretrained multilingual text encoders based on neural Transformer architectures, such as multilingual BERT (mBERT) and XLM, have achieved strong performance on a myriad of language understanding tasks. Consequently, they have been adopted as a go-to paradigm for multilingual and cross-lingual representation learning and transfer, rendering cross-lingual word embeddings (CLWEs) effectively obsolete. However, questions remain to which extent this finding generalizes 1) to unsupervised settings and 2) for ad-hoc cross-lingual IR (CLIR) tasks. Therefore, in this work we present a systematic empirical study focused on the suitability of the state-of-the-art multilingual encoders for cross-lingual document and sentence retrieval tasks across a large number of language pairs. In contrast to supervised language understanding, our results indicate that for unsupervised document-level CLIR -- a setup with no relevance judgments for IR-specific fine-tuning -- pretrained encoders fail to significantly outperform models based on CLWEs. For sentence-level CLIR, we demonstrate that state-of-the-art performance can be achieved. However, the peak performance is not met using the general-purpose multilingual text encoders `off-the-shelf', but rather relying on their variants that have been further specialized for sentence understanding tasks.
Abstract（参考訳）: マルチリンガルBERT(mBERT)やXLMのようなニューラルトランスフォーマーアーキテクチャに基づく事前訓練された多言語テキストエンコーダは、多言語理解タスクにおいて高いパフォーマンスを達成している。その結果、多言語および多言語間表現学習と伝達のためのゴートパラダイムとして採用され、言語間単語埋め込み(CLWE)は事実上廃れた。しかし、この発見は(1)教師なしの設定に一般化し、(2)アドホックなクロスリンガルIR(CLIR)タスクに対して疑問が残る。そこで本研究では,多数の言語対を横断する言語間文書および文検索タスクのための最先端の多言語エンコーダの適合性に着目した体系的実証研究を行う。教師付き言語理解とは対照的に,教師なしの文書レベルclir(ir固有の微調整の関連性判定を含まない設定)では,clwesに基づくモデルを大幅に上回ってはいない。文レベルのCLIRでは、最先端のパフォーマンスが達成できることを実証する。しかし、ピーク性能は汎用多言語テキストエンコーダ「off-the-shelf」ではなく、文理解タスクにさらに特化された派生型に依存する。

関連論文リスト

Can you map it to English? The Role of Cross-Lingual Alignment in Multilingual Performance of LLMs [12.334510055293535]
大きな言語モデル (LLMs) は英語のテキストに基づいて事前訓練されており、驚くべき多言語機能を示している。識別タスクのインスタンスレベルでのアライメントを定量化するために、言語間アライメントメトリクスを導入します。言語間アライメントの指標は言語レベルでのタスク精度と強く相関するが,サンプルレベルのアライメントは誤予測と正しく区別できないことが多い。
論文参考訳（メタデータ） (2025-04-13T00:01:22Z)
Exposing Cross-Lingual Lexical Knowledge from Multilingual Sentence Encoders [85.80950708769923]
本稿では,多言語言語モデルを用いて,それらのパラメータに格納された言語間語彙の知識量を探索し,元の多言語LMと比較する。また、この知識を付加的に微調整した多言語モデルにより公開する新しい手法も考案した。標準ベンチマークの大幅な向上を報告します。
論文参考訳（メタデータ） (2022-04-30T13:23:16Z)
On Cross-Lingual Retrieval with Multilingual Text Encoders [51.60862829942932]
言語間文書・文検索タスクにおける最先端多言語エンコーダの適合性について検討する。教師なしのアドホック文と文書レベルのCLIR実験でそれらの性能をベンチマークする。我々は、ゼロショット言語とドメイン転送CLIR実験のシリーズにおける英語関連データに基づいて、教師付き方式で微調整された多言語エンコーダの評価を行った。
論文参考訳（メタデータ） (2021-12-21T08:10:27Z)
Syntax-augmented Multilingual BERT for Cross-lingual Transfer [37.99210035238424]
この研究は、言語構文とトレーニングmBERTを明示的に提供することが、言語間転送に役立つことを示している。実験の結果,mBERTの構文拡張は,一般的なベンチマーク上での言語間移動を改善することがわかった。
論文参考訳（メタデータ） (2021-06-03T21:12:50Z)
AM2iCo: Evaluating Word Meaning in Context across Low-ResourceLanguages with Adversarial Examples [51.048234591165155]
本稿では, AM2iCo, Adversarial and Multilingual Meaning in Contextを提案する。言語間文脈における単語の意味の同一性を理解するために、最先端(SotA)表現モデルを忠実に評価することを目的としている。その結果、現在のSotAプリトレーニングエンコーダは人間のパフォーマンスにかなり遅れていることが明らかとなった。
論文参考訳（メタデータ） (2021-04-17T20:23:45Z)
VECO: Variable and Flexible Cross-lingual Pre-training for Language Understanding and Generation [77.82373082024934]
我々はTransformerエンコーダにクロスアテンションモジュールを挿入し、言語間の相互依存を明確に構築する。独自の言語でコンテキストにのみ条件付けされたマスク付き単語の予測の退化を効果的に回避することができる。提案した言語間モデルでは,XTREMEベンチマークのさまざまな言語間理解タスクに対して,最先端の新たな結果が提供される。
論文参考訳（メタデータ） (2020-10-30T03:41:38Z)
On Learning Universal Representations Across Languages [37.555675157198145]
文レベルの表現を学習するための既存のアプローチを拡張し、言語間理解と生成の有効性を示す。具体的には,複数の言語に分散した並列文の普遍表現を学習するための階層型コントラスト学習(HiCTL)手法を提案する。我々は、XTREMEと機械翻訳という2つの難解な言語間タスクについて評価を行う。
論文参考訳（メタデータ） (2020-07-31T10:58:39Z)
Enhancing Answer Boundary Detection for Multilingual Machine Reading Comprehension [86.1617182312817]
そこで我々は,句境界管理を付加するために,微調整段階における2つの補助的タスクを提案する。混合機械読解タスクは、質問または通過を他の言語に翻訳し、言語横断の問合せペアを構築する。 Webから抽出した知識フレーズを活用する言語に依存しない知識マスキングタスク。
論文参考訳（メタデータ） (2020-04-29T10:44:00Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。