Fugu-MT 論文翻訳(概要): The Roles of English in Evaluating Multilingual Language Models

論文の概要: The Roles of English in Evaluating Multilingual Language Models

arxiv url: http://arxiv.org/abs/2412.08392v1
Date: Wed, 11 Dec 2024 14:02:55 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-12 23:20:26.695724
Title: The Roles of English in Evaluating Multilingual Language Models
Title（参考訳）: 多言語言語モデル評価における英語の役割
Authors: Wessel Poelman, Miryam de Lhoneux,
Abstract要約: これらの役割には,タスクパフォーマンスと言語理解という,異なる目標がある,と私たちは主張する。我々は、この不正確な方法から離れ、言語理解を強化することに重点を置くことを推奨する。
参考スコア（独自算出の注目度）: 6.396057276543912
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Multilingual natural language processing is getting increased attention, with numerous models, benchmarks, and methods being released for many languages. English is often used in multilingual evaluation to prompt language models (LMs), mainly to overcome the lack of instruction tuning data in other languages. In this position paper, we lay out two roles of English in multilingual LM evaluations: as an interface and as a natural language. We argue that these roles have different goals: task performance versus language understanding. This discrepancy is highlighted with examples from datasets and evaluation setups. Numerous works explicitly use English as an interface to boost task performance. We recommend to move away from this imprecise method and instead focus on furthering language understanding.
Abstract（参考訳）: 自然言語処理の多言語化が注目され、多くのモデルやベンチマーク、メソッドが多くの言語でリリースされている。英語は多言語評価において多言語モデル(LM)の促進によく用いられ、主に他の言語における命令チューニングデータの欠如を克服するために用いられる。本稿では,多言語LM評価における英語の役割について述べる。これらの役割には,タスクパフォーマンスと言語理解という,異なる目標がある,と私たちは主張する。この違いは、データセットと評価設定の例で強調されている。多くの作業では、タスクパフォーマンスを高めるために、英語をインターフェースとして明示的に使用しています。我々は、この不正確な方法から離れ、言語理解を強化することに重点を置くことを推奨する。

関連論文リスト

Language Steering for Multilingual In-Context Learning [10.932074928744568]
非英語での大規模言語モデルのパフォーマンスは、英語よりもかなり劣っている。トレーニング不要な言語ステアリングアプローチである言語ベクトルを提案する。テスト対象のタスクや言語にまたがるベースライン上でのマルチランガル・イン・コンテクスト学習における一貫した改善を示す。
論文参考訳（メタデータ） (2026-02-02T16:52:09Z)
Language Matters: How Do Multilingual Input and Reasoning Paths Affect Large Reasoning Models? [59.970391602080205]
多言語トレーニングにも拘わらず、LRMはテスト時に高リソース言語での推論をデフォルトとする傾向にある。文化的推論は、推論タスクのパフォーマンスを低下させるが、文化的なタスクに恩恵を与える一方、安全性評価は言語固有の振る舞いを示す。
論文参考訳（メタデータ） (2025-05-23T02:46:18Z)
CoCo-CoLa: Evaluating Language Adherence in Multilingual LLMs [1.2057938662974816]
大規模言語モデル(LLM)は、限られた並列データで訓練されているにもかかわらず、言語間能力を開発する。多言語LLMにおける言語適応性を評価するための新しい指標であるCoCo-CoLaを紹介する。
論文参考訳（メタデータ） (2025-02-18T03:03:53Z)
mFollowIR: a Multilingual Benchmark for Instruction Following in Retrieval [61.17793165194077]
本稿では,検索モデルにおける命令追従能力のベンチマークであるmFollowIRを紹介する。本稿では,多言語 (XX-XX) と多言語 (En-XX) のパフォーマンスについて述べる。英語をベースとした学習者による多言語間性能は高いが,多言語設定では顕著な性能低下がみられた。
論文参考訳（メタデータ） (2025-01-31T16:24:46Z)
Understanding and Mitigating Language Confusion in LLMs [76.96033035093204]
我々は,既存の英語および多言語プロンプトを用いた15の型的多様言語の評価を行った。 Llama Instruct と Mistral のモデルでは,言語的混乱の度合いが高いことがわかった。言語混乱は,数発のプロンプト,多言語SFT,選好調整によって部分的に緩和できることがわかった。
論文参考訳（メタデータ） (2024-06-28T17:03:51Z)
Decomposed Prompting: Unveiling Multilingual Linguistic Structure Knowledge in English-Centric Large Language Models [12.700783525558721]
GPT-3やLLaMAのような英語中心のLarge Language Models (LLM)は、多言語タスクを実行する素晴らしい能力を示している。本稿では,シーケンスラベリングタスクにおいて,これらのLLMの言語構造理解を探索するための分解的プロンプト手法を提案する。
論文参考訳（メタデータ） (2024-02-28T15:15:39Z)
Turning English-centric LLMs Into Polyglots: How Much Multilinguality Is Needed? [40.13166574854085]
英語中心の大規模言語モデルにおいて,多言語間の一般化を実現するために必要な最小限の多言語性について検討する。複数言語から3言語までの多言語命令チューニングは,効果的な言語間一般化を実現するのに必要かつ十分であることがわかった。
論文参考訳（メタデータ） (2023-12-20T00:49:52Z)
AM2iCo: Evaluating Word Meaning in Context across Low-ResourceLanguages with Adversarial Examples [51.048234591165155]
本稿では, AM2iCo, Adversarial and Multilingual Meaning in Contextを提案する。言語間文脈における単語の意味の同一性を理解するために、最先端(SotA)表現モデルを忠実に評価することを目的としている。その結果、現在のSotAプリトレーニングエンコーダは人間のパフォーマンスにかなり遅れていることが明らかとなった。
論文参考訳（メタデータ） (2021-04-17T20:23:45Z)
Are Multilingual Models Effective in Code-Switching? [57.78477547424949]
多言語モデルの有効性を検討し,複合言語設定の能力と適応性について検討する。この結果から,事前学習した多言語モデルでは,コードスイッチングにおける高品質な表現が必ずしも保証されないことが示唆された。
論文参考訳（メタデータ） (2021-03-24T16:20:02Z)
Learning to Scale Multilingual Representations for Vision-Language Tasks [51.27839182889422]
SMALRの有効性は、これまでビジョン言語タスクでサポートされた2倍以上の10の多言語で実証されている。単語の埋め込み手法と比較して,訓練パラメータの1/5以下で,複数言語による画像文検索と先行作業の3～4%の性能評価を行った。
論文参考訳（メタデータ） (2020-04-09T01:03:44Z)
XTREME: A Massively Multilingual Multi-task Benchmark for Evaluating Cross-lingual Generalization [128.37244072182506]
言語間TRansfer Evaluation of Multilinguals XTREMEは、40言語および9タスクにわたる多言語表現の言語間一般化能力を評価するためのベンチマークである。我々は、英語でテストされたモデルは、多くのタスクにおいて人間のパフォーマンスに達するが、言語間変換されたモデルの性能にはまだ大きなギャップがあることを示した。
論文参考訳（メタデータ） (2020-03-24T19:09:37Z)
Zero-Shot Cross-Lingual Transfer with Meta Learning [45.29398184889296]
英語以外の言語ではほとんど、あるいは全くデータがない場合に、複数の言語でのトレーニングモデルの設定を同時に検討する。メタラーニングを用いて、この挑戦的な設定にアプローチできることが示される。我々は、標準教師付きゼロショットのクロスランガルと、異なる自然言語理解タスクのための数ショットのクロスランガル設定を用いて実験を行った。
論文参考訳（メタデータ） (2020-03-05T16:07:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。