論文の概要: Translation as a Scalable Proxy for Multilingual Evaluation
- arxiv url: http://arxiv.org/abs/2601.11778v1
- Date: Fri, 16 Jan 2026 21:01:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:22.318621
- Title: Translation as a Scalable Proxy for Multilingual Evaluation
- Title(参考訳): 多言語評価のためのスケーラブルなプロキシとしての翻訳
- Authors: Sheriff Issaka, Erick Rosas Gonzalez, Lieqi Liu, Evans Kofi Agyei, Lucas Bandarkar, Nanyun Peng, David Ifeoluwa Adelani, Francisco Guzmán, Saadia Gabriel,
- Abstract要約: 翻訳品質だけで、モデルのより広い多言語機能を示すことができるだろうか?
翻訳性能がダウンストリームタスクの成功を示す良い指標であることに気付きました。
- 参考スコア(独自算出の注目度): 41.29816736489213
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapid proliferation of LLMs has created a critical evaluation paradox: while LLMs claim multilingual proficiency, comprehensive non-machine-translated benchmarks exist for fewer than 30 languages, leaving >98% of the world's 7,000 languages in an empirical void. Traditional benchmark construction faces scaling challenges such as cost, scarcity of domain experts, and data contamination. We evaluate the validity of a simpler alternative: can translation quality alone indicate a model's broader multilingual capabilities? Through systematic evaluation of 14 models (1B-72B parameters) across 9 diverse benchmarks and 7 translation metrics, we find that translation performance is a good indicator of downstream task success (e.g., Phi-4, median Pearson r: MetricX = 0.89, xCOMET = 0.91, SSA-COMET = 0.87). These results suggest that the representational abilities supporting faithful translation overlap with those required for multilingual understanding. Translation quality, thus emerges as a strong, inexpensive first-pass proxy of multilingual performance, enabling a translation-first screening with targeted follow-up for specific tasks.
- Abstract(参考訳): LLMは多言語習熟度を主張する一方で、包括的な非機械翻訳ベンチマークは30言語未満で存在し、世界の7,000言語のうち98%が経験的なヴォイドに残されている。
従来のベンチマーク構築では、コスト、ドメインエキスパートの不足、データ汚染といったスケーリング上の課題に直面しています。
翻訳品質だけで、モデルのより広い多言語機能を示すことができるだろうか?
9つの異なるベンチマークと7つの翻訳指標の14モデル(1B-72Bパラメータ)を体系的に評価することで、翻訳性能は下流タスクの成功の指標となる(例えば、Phi-4、中央Pearson r: MetricX = 0.89、xCOMET = 0.91、SSA-COMET = 0.87)。
これらの結果から,忠実な翻訳を支援する表現能力と多言語理解に必要な表現能力が重複していることが示唆された。
翻訳品質は、多言語パフォーマンスの強力な、安価なファーストパスプロキシとして登場し、特定のタスクを対象としたフォローアップを備えた翻訳ファーストスクリーニングを可能にする。
関連論文リスト
- DITING: A Multi-Agent Evaluation Framework for Benchmarking Web Novel Translation [31.1561882673283]
DIINGは、Webノベル翻訳のための最初の総合的な評価フレームワークである。
AgentEvalは専門家による検討をシミュレートし、語彙オーバーラップを超えて翻訳品質を評価する。
誤りラベルとスカラー品質スコアを付加した300文対のメタ評価データセットであるMetricAlignを開発した。
論文 参考訳(メタデータ) (2025-10-10T08:10:10Z) - Translate, then Detect: Leveraging Machine Translation for Cross-Lingual Toxicity Classification [35.35733615199578]
翻訳ベースと言語特化/多言語分類パイプラインを比較した。
対象言語のリソースレベルと機械翻訳システムの品質に強く相関している。
論文 参考訳(メタデータ) (2025-09-17T23:58:07Z) - Duluth at SemEval-2025 Task 7: TF-IDF with Optimized Vector Dimensions for Multilingual Fact-Checked Claim Retrieval [0.0]
本稿では,SemEval-2025 Task 7 on Multilingual and Crosslingual Fact-Checked Claim Retrievalを提案する。
我々は,ベクトル次元とトークン化戦略を実験するTF-IDFベースの検索システムを実装した。
論文 参考訳(メタデータ) (2025-05-19T01:58:22Z) - Breaking Language Barriers in Multilingual Mathematical Reasoning: Insights and Observations [59.056367787688146]
本稿では, マルチリンガル数学推論 (xMR) LLM の探索と学習の先駆者である。
我々は10の異なる言語を含む最初の多言語数学推論命令データセットMGSM8KInstructを構築した。
翻訳を利用して、10個の異なる言語を含む最初の多言語数学推論命令データセットMGSM8KInstructを構築した。
論文 参考訳(メタデータ) (2023-10-31T08:09:20Z) - Modelling Latent Translations for Cross-Lingual Transfer [47.61502999819699]
従来のパイプラインの2つのステップ(翻訳と分類)を1つのモデルに統合する新しい手法を提案する。
我々は,多言語NLUタスクにおける新しい潜時翻訳モデルの評価を行った。
ゼロショットと数ショットの学習設定の両方で、平均2.7の精度ポイントのゲインを報告します。
論文 参考訳(メタデータ) (2021-07-23T17:11:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。