論文の概要: Round-Trip Translation Reveals What Frontier Multilingual Benchmarks Miss
- arxiv url: http://arxiv.org/abs/2604.12911v1
- Date: Tue, 14 Apr 2026 15:58:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-15 19:11:32.548495
- Title: Round-Trip Translation Reveals What Frontier Multilingual Benchmarks Miss
- Title(参考訳): ラウンドトリップ翻訳でフロンティアの多言語ベンチマークが失敗したことが判明
- Authors: Ronald Skorobogat, Ameya Prabhu, Matthias Bethge,
- Abstract要約: 多言語評価は、一般的な推論や知識ベンチマークと似ているが、多くの言語にわたって構成されている。
このようなベンチマークを示し、その結果、多言語的評価を行い、数学的推論と事実的リコールを測定し、多言語的習熟度ではない。
ラウンドトリップ変換による多言語機能の評価という,シンプルな方法を提案する。
- 参考スコア(独自算出の注目度): 22.50091141087273
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multilingual benchmarks guide the development of frontier models. Yet multilingual evaluations reported by frontier models are structured similar to popular reasoning and knowledge benchmarks, but across many languages. We show such benchmarks, and consequently multilingual evaluations, measure mathematical reasoning and factual recall, not multilingual proficiency. For example, thinking variants dramatically outperform instruct variants on these benchmarks, yet often perform worse on real-world multilingual tasks, such as LMArena. We propose a simple alternative: evaluate multilingual capability via round-trip translation. Given text in a source language, translate it to a target language and back; semantic gaps between the original and result expose failures in multilingual generation capabilities. Round-trip translation correlates almost perfectly (\r{ho} = 0.94) with user ratings on LMArena with our benchmark, requires no human reference translations, and does not require a more capable multilingual judge than tested models. Lastly, we introduce Lost in Translation (LiT), a challenging round-trip translation benchmark spanning widely spoken languages worldwide, for realistic evaluation of multilingual frontier models.
- Abstract(参考訳): 多言語ベンチマークはフロンティアモデルの開発を導く。
しかし、フロンティアモデルによって報告される多言語評価は、一般的な推論や知識ベンチマークと似ているが、多くの言語にわたって構成されている。
このようなベンチマークを示し、その結果、多言語的評価を行い、数学的推論と事実的リコールを測定し、多言語的習熟度ではない。
例えば、これらのベンチマークでは変種を劇的に上回っているが、LMArenaのような実世界の多言語タスクでは良くない。
ラウンドトリップ変換による多言語機能の評価という,シンプルな方法を提案する。
ソース言語のテキストが与えられたら、ターゲット言語とバックに翻訳する。
ラウンドトリップ翻訳はほとんど完全に(\r{ho} = 0.94)、LMArenaのユーザ評価とベンチマークの相関関係があり、人間の参照翻訳を必要としない。
最後に、多言語フロンティアモデルの現実的な評価のために、世界中で広く話されている言語にまたがる挑戦的なラウンドトリップ翻訳ベンチマークであるLost in Translation (LiT)を紹介した。
関連論文リスト
- MultiLoKo: a multilingual local knowledge benchmark for LLMs spanning 31 languages [17.175361236651906]
我々は、31言語をカバーするLLMの多言語性を評価するための新しいベンチマークであるMultiLoKoを提案する。
我々はMultiLoKoのスコアを11のベースで計算し、マルチリンガルなチャットモデルを市場に出し、平均的なパフォーマンスについて研究する。
局所的データと英訳データを使用することで,最高の演奏モデルに対して20点以上の差が生じることが判明した。
論文 参考訳(メタデータ) (2025-04-14T16:05:59Z) - MMLU-ProX: A Multilingual Benchmark for Advanced Large Language Model Evaluation [86.7047714187813]
MMLU-ProXは29の言語をカバーするベンチマークであり、英語のベンチマーク上に構築されている。
それぞれの言語バージョンは11,829の同一の質問で構成されており、直接言語間比較を可能にする。
効率的な評価ニーズを満たすため,言語毎の質問数は658件である。
論文 参考訳(メタデータ) (2025-03-13T15:59:20Z) - Understanding and Mitigating Language Confusion in LLMs [76.96033035093204]
我々は,既存の英語および多言語プロンプトを用いた15の型的多様言語の評価を行った。
Llama Instruct と Mistral のモデルでは,言語的混乱の度合いが高いことがわかった。
言語混乱は,数発のプロンプト,多言語SFT,選好調整によって部分的に緩和できることがわかった。
論文 参考訳(メタデータ) (2024-06-28T17:03:51Z) - XCOPA: A Multilingual Dataset for Causal Commonsense Reasoning [68.57658225995966]
XCOPA (Cross-lingual Choice of Plausible Alternatives) は11言語における因果コモンセンス推論のための多言語データセットである。
提案手法は,翻訳に基づく転送と比較して,現在の手法の性能が低下していることを明らかにする。
論文 参考訳(メタデータ) (2020-05-01T12:22:33Z) - XTREME: A Massively Multilingual Multi-task Benchmark for Evaluating
Cross-lingual Generalization [128.37244072182506]
言語間TRansfer Evaluation of Multilinguals XTREMEは、40言語および9タスクにわたる多言語表現の言語間一般化能力を評価するためのベンチマークである。
我々は、英語でテストされたモデルは、多くのタスクにおいて人間のパフォーマンスに達するが、言語間変換されたモデルの性能にはまだ大きなギャップがあることを示した。
論文 参考訳(メタデータ) (2020-03-24T19:09:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。