論文の概要: Analyzing the Evaluation of Cross-Lingual Knowledge Transfer in
Multilingual Language Models
- arxiv url: http://arxiv.org/abs/2402.02099v1
- Date: Sat, 3 Feb 2024 09:41:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-06 22:00:52.212961
- Title: Analyzing the Evaluation of Cross-Lingual Knowledge Transfer in
Multilingual Language Models
- Title(参考訳): 多言語言語モデルにおける言語間知識伝達の評価解析
- Authors: Sara Rajaee and Christof Monz
- Abstract要約: その結果,多言語モデルの高性能化は,実際の言語知識の伝達を必要としない要因が主な原因であることが示唆された。
具体的には、特に低リソース言語において、言語間で転送されたものは、主にデータアーチファクトとバイアスです。
- 参考スコア(独自算出の注目度): 12.662039551306632
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in training multilingual language models on large datasets
seem to have shown promising results in knowledge transfer across languages and
achieve high performance on downstream tasks. However, we question to what
extent the current evaluation benchmarks and setups accurately measure
zero-shot cross-lingual knowledge transfer. In this work, we challenge the
assumption that high zero-shot performance on target tasks reflects high
cross-lingual ability by introducing more challenging setups involving
instances with multiple languages. Through extensive experiments and analysis,
we show that the observed high performance of multilingual models can be
largely attributed to factors not requiring the transfer of actual linguistic
knowledge, such as task- and surface-level knowledge. More specifically, we
observe what has been transferred across languages is mostly data artifacts and
biases, especially for low-resource languages. Our findings highlight the
overlooked drawbacks of existing cross-lingual test data and evaluation setups,
calling for a more nuanced understanding of the cross-lingual capabilities of
multilingual models.
- Abstract(参考訳): 大規模データセット上での多言語言語モデルのトレーニングの最近の進歩は、言語間の知識伝達の有望な結果を示し、下流タスクで高いパフォーマンスを実現しているようである。
しかし、現在の評価ベンチマークと設定がゼロショット言語間知識伝達を正確に測定しているかどうか疑問視する。
本研究では,目的タスクにおけるゼロショット性能が,複数言語のインスタンスを含むより困難なセットアップを導入することで,言語間能力の向上を反映しているという仮定に挑戦する。
広範にわたる実験と分析により,多言語モデルの高機能化は,タスクレベルの知識や表面レベルの知識など,実際の言語知識の伝達を必要としない要因に大きく寄与することが示された。
具体的には、特に低リソース言語において、言語間で転送されたものは、主にデータアーチファクトとバイアスです。
本研究は,多言語モデルの言語横断能力をより微妙に理解するため,既存の言語横断テストデータと評価設定の欠点を浮き彫りにするものである。
関連論文リスト
- GradSim: Gradient-Based Language Grouping for Effective Multilingual
Training [13.730907708289331]
勾配類似度に基づく言語グループ化手法GradSimを提案する。
3つの多言語ベンチマークデータセットに対する実験により、最大のパフォーマンス向上につながることが示された。
言語的特徴の他に、データセットのトピックは言語グループ化において重要な役割を果たす。
論文 参考訳(メタデータ) (2023-10-23T18:13:37Z) - Analyzing the Mono- and Cross-Lingual Pretraining Dynamics of
Multilingual Language Models [73.11488464916668]
本研究では,多言語事前学習プロセスのダイナミクスについて検討する。
我々は,XLM-Rプレトレーニング全体から抽出したチェックポイントを,一連の言語的タスクを用いて探索する。
分析の結果,より複雑なものよりも低レベルな言語スキルが得られ,早期に高い言語性能が得られることがわかった。
論文 参考訳(メタデータ) (2022-05-24T03:35:00Z) - Cross-lingual Lifelong Learning [53.06904052325966]
本稿では,言語間連続学習(CCL)の評価パラダイムを提案する。
マルチリンガルなシーケンシャルな学習を特に難しいものにするための洞察を提供する。
この分析の意味は、異なる言語間連続学習のデシダータを測り、バランスをとる方法のレシピを含む。
論文 参考訳(メタデータ) (2022-05-23T09:25:43Z) - Towards Best Practices for Training Multilingual Dense Retrieval Models [54.91016739123398]
我々は,このような設計を用いて,多種多様言語における単言語検索の課題に焦点をあてる。
本研究は多言語高密度検索モデルのトレーニングのための「ベストプラクティス」ガイドとして組織されている。
論文 参考訳(メタデータ) (2022-04-05T17:12:53Z) - IGLUE: A Benchmark for Transfer Learning across Modalities, Tasks, and
Languages [87.5457337866383]
画像認識言語理解評価ベンチマークについて紹介する。
IGLUEは、視覚的質問応答、クロスモーダル検索、グラウンドド推論、20言語にわたるグラウンドドエンターテイメントタスクをまとめて提供する。
翻訳-テストの転送はゼロショットの転送よりも優れており、少数ショットの学習は多くのタスクに役立てることが難しい。
論文 参考訳(メタデータ) (2022-01-27T18:53:22Z) - AM2iCo: Evaluating Word Meaning in Context across Low-ResourceLanguages
with Adversarial Examples [51.048234591165155]
本稿では, AM2iCo, Adversarial and Multilingual Meaning in Contextを提案する。
言語間文脈における単語の意味の同一性を理解するために、最先端(SotA)表現モデルを忠実に評価することを目的としている。
その結果、現在のSotAプリトレーニングエンコーダは人間のパフォーマンスにかなり遅れていることが明らかとなった。
論文 参考訳(メタデータ) (2021-04-17T20:23:45Z) - First Align, then Predict: Understanding the Cross-Lingual Ability of
Multilingual BERT [2.2931318723689276]
言語間移動は、ある言語への関心のタスクを微調整し、ある言語を個別に評価することから生じる。
多言語bertは,マルチリンガルエンコーダとタスク固有言語非依存予測器の2つのサブネットワークの積み重ねと見なすことができる。
エンコーダは言語間移動に不可欠であり、微調整中はほとんど変化しないが、タスク予測器は転写にほとんど重要ではなく、微調整時に赤くなる。
論文 参考訳(メタデータ) (2021-01-26T22:12:38Z) - XTREME: A Massively Multilingual Multi-task Benchmark for Evaluating
Cross-lingual Generalization [128.37244072182506]
言語間TRansfer Evaluation of Multilinguals XTREMEは、40言語および9タスクにわたる多言語表現の言語間一般化能力を評価するためのベンチマークである。
我々は、英語でテストされたモデルは、多くのタスクにおいて人間のパフォーマンスに達するが、言語間変換されたモデルの性能にはまだ大きなギャップがあることを示した。
論文 参考訳(メタデータ) (2020-03-24T19:09:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。