論文の概要: Multi-lingual Functional Evaluation for Large Language Models
- arxiv url: http://arxiv.org/abs/2506.20793v1
- Date: Wed, 25 Jun 2025 19:32:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-27 19:53:09.865202
- Title: Multi-lingual Functional Evaluation for Large Language Models
- Title(参考訳): 大規模言語モデルの多言語機能評価
- Authors: Victor Ojewale, Inioluwa Deborah Raji, Suresh Venkatasubramanian,
- Abstract要約: 我々は多言語機能ベンチマーク(CL-GSM)とCL-IFEval(CL-IFEval)を作成する。
いくつかの静的な多言語ベンチマークは、機能性能を他のベンチマークよりもはるかによく捉えている。
特定の言語(アラビア語、英語など)は、評価において最も順調に機能している。
- 参考スコア(独自算出の注目度): 4.18267450389965
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-lingual competence in large language models is often evaluated via static data benchmarks such as Belebele, M-MMLU and M-GSM. However, these evaluations often fail to provide an adequate understanding of the practical performance and robustness of models across multi-lingual settings. In response, we create multi-lingual functional benchmarks -- Cross-Lingual Grade School Math Symbolic (CL-GSM Symbolic) and Cross-Lingual Instruction-Following Eval (CL-IFEval)-- by translating existing functional benchmark templates from English to five additional languages that span the range of resources available for NLP: French, Spanish, Hindi, Arabic and Yoruba. Our results reveal that some static multi-lingual benchmarks capture functional performance much more closely than others (i.e. across models, there is a 24%, 17% and 18% decrease in performance between M-GSM and CL-GSM Symbolic in English, French and Spanish respectively; similarly there's a 15 - 24% performance drop across languages between Belebele and CL-IFEval, and only a 0.5% to 3% performance drop between M-MMLU and CL-IFEval). Similarly, we find that model robustness across languages varies significantly, with certain languages (eg. Arabic, English) being the most consistently well performing across evaluation iterations.
- Abstract(参考訳): 大規模言語モデルの多言語能力は、ベレベレ、M-MMLU、M-GSMといった静的データベンチマークによって評価されることが多い。
しかし、これらの評価は、多言語設定におけるモデルの実用的性能と堅牢性についての十分な理解を得られないことが多い。
これに応えて、私たちは、NLPで利用可能なリソースの範囲にまたがる5つの追加言語(フランス語、スペイン語、ヒンディー語、アラビア語、ヨルバ語)に、既存の機能ベンチマークテンプレートを翻訳することで、多言語機能ベンチマーク -- クロスリンガルグレードの数学記号(CL-GSMシンボリック)とクロスリンガルインストラクションフォローングエバル(CL-IFEval) -- を作成しました。
以上の結果から, 静的多言語ベンチマークでは, 機能性能が他よりもはるかに高いことが判明した(M-MMLU と CL-IFEval の間では, M-GSM と CL-GSM がそれぞれ 24%, 17%, 18% の低下を示し, 同様にベレベレ語と CL-IFEval の間では 15~24% のパフォーマンス低下があり, M-MMLU と CL-IFEval の間には 0.5% から 3% の低下しかみられなかった)。
同様に、言語間のモデルロバスト性は、ある言語(アラビア語、英語など)が、評価イテレーション間で最も一貫してよく機能していることから、大きく異なることが分かります。
関連論文リスト
- MuBench: Assessment of Multilingual Capabilities of Large Language Models Across 61 Languages [33.450081592217074]
MuBenchは61の言語をカバーし、幅広い機能を評価するベンチマークです。
我々は、最先端の多言語LLMを評価し、請求項と実際の言語カバレッジとの間に顕著なギャップを見いだした。
論文 参考訳(メタデータ) (2025-06-24T09:53:00Z) - MultiLoKo: a multilingual local knowledge benchmark for LLMs spanning 31 languages [17.175361236651906]
我々は、31言語をカバーするLLMの多言語性を評価するための新しいベンチマークであるMultiLoKoを提案する。
我々はMultiLoKoのスコアを11のベースで計算し、マルチリンガルなチャットモデルを市場に出し、平均的なパフォーマンスについて研究する。
局所的データと英訳データを使用することで,最高の演奏モデルに対して20点以上の差が生じることが判明した。
論文 参考訳(メタデータ) (2025-04-14T16:05:59Z) - MMLU-ProX: A Multilingual Benchmark for Advanced Large Language Model Evaluation [86.7047714187813]
MMLU-ProXは29の言語をカバーするベンチマークであり、英語のベンチマーク上に構築されている。
それぞれの言語バージョンは11,829の同一の質問で構成されており、直接言語間比較を可能にする。
効率的な評価ニーズを満たすため,言語毎の質問数は658件である。
論文 参考訳(メタデータ) (2025-03-13T15:59:20Z) - The Belebele Benchmark: a Parallel Reading Comprehension Dataset in 122 Language Variants [80.4837840962273]
私たちは122の言語変種にまたがるデータセットであるBelebeleを紹介します。
このデータセットは、高、中、低リソース言語におけるテキストモデルの評価を可能にする。
論文 参考訳(メタデータ) (2023-08-31T17:43:08Z) - Extrapolating Large Language Models to Non-English by Aligning Languages [109.09051737966178]
既存の大きな言語モデルは、異なる言語間で異なる能力を示す。
本稿では,言語間のセマンティックアライメントを構築することで,英語以外の言語に事前学習したLLMを強化する。
論文 参考訳(メタデータ) (2023-08-09T13:32:06Z) - Learning to Scale Multilingual Representations for Vision-Language Tasks [51.27839182889422]
SMALRの有効性は、これまでビジョン言語タスクでサポートされた2倍以上の10の多言語で実証されている。
単語の埋め込み手法と比較して,訓練パラメータの1/5以下で,複数言語による画像文検索と先行作業の3~4%の性能評価を行った。
論文 参考訳(メタデータ) (2020-04-09T01:03:44Z) - XTREME: A Massively Multilingual Multi-task Benchmark for Evaluating
Cross-lingual Generalization [128.37244072182506]
言語間TRansfer Evaluation of Multilinguals XTREMEは、40言語および9タスクにわたる多言語表現の言語間一般化能力を評価するためのベンチマークである。
我々は、英語でテストされたモデルは、多くのタスクにおいて人間のパフォーマンスに達するが、言語間変換されたモデルの性能にはまだ大きなギャップがあることを示した。
論文 参考訳(メタデータ) (2020-03-24T19:09:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。