論文の概要: Mind the Gap... or Not? How Translation Errors and Evaluation Details Skew Multilingual Results
- arxiv url: http://arxiv.org/abs/2511.05162v1
- Date: Fri, 07 Nov 2025 11:30:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-10 21:00:44.743023
- Title: Mind the Gap... or Not? How Translation Errors and Evaluation Details Skew Multilingual Results
- Title(参考訳): ギャップを意識する...? 翻訳エラーと評価について
- Authors: Jan-Thorsten Peter, David Vilar, Tobias Domhan, Dan Malkin, Markus Freitag,
- Abstract要約: 言語間で異なる大規模言語モデル(LLM)の性能について検討する。
言語間でのモデルの性能には、非無視的で一貫したギャップがあることが分かりました。
本稿では,第1の課題を大規模に解決するための自動品質保証手法を提案し,第2の課題に対処するためのレコメンデーションを提案する。
- 参考スコア(独自算出の注目度): 16.391752298134474
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Most current large language models (LLMs) support a wide variety of languages in addition to English, including high-resource languages (e.g. German, Chinese, French), as well as low-resource ones (e.g. Swahili, Telugu). In addition they have also shown impressive capabilities in different domains, like coding, science and math. In this short paper, taking math as an example domain, we study the performance of different LLMs across languages. Experimental results show that there exists a non-negligible and consistent gap in the performance of the models across languages. Interestingly, and somewhat against expectations, the gap exists for both high- and low-resource languages. We hope that these results influence further research into cross-lingual capability generalization for next generation LLMs. If it weren't for the fact that they are false! By analyzing one of the standard multilingual math benchmarks (MGSM), we determine that several translation errors are present in the data. Furthermore, the lack of standardized answer extraction from LLM outputs further influences the final results. We propose a method for automatic quality assurance to address the first issue at scale, and give recommendations to address the second one. Combining these two approaches we show that the aforementioned language gap mostly disappears, leading to completely different conclusions from our research. We additionally release the corrected dataset to the community.
- Abstract(参考訳): 現在の大きな言語モデル(LLM)は、高ソース言語(ドイツ語、中国語、フランス語など)や低ソース言語(e g Swahili、Teluguなど)を含む、多種多様な言語をサポートしている。
さらに彼らは、コーディング、科学、数学など、さまざまな分野で印象的な能力を見せている。
本稿では,数学を例題として,言語間で異なるLLMの性能について検討する。
実験結果から,言語間のモデルの性能には,非無視的かつ一貫したギャップがあることが示唆された。
興味深いことに、期待に反して、このギャップはハイソース言語とローリソース言語の両方に存在している。
これらの結果が次世代LLMの言語間機能一般化のさらなる研究に影響を及ぼすことを願っている。
もし彼らが嘘をついていなかったら!
標準多言語数学ベンチマーク(MGSM)の1つを分析することで、データ中にいくつかの翻訳誤りが存在すると判断する。
さらに、LCM出力からの標準化された回答抽出の欠如が最終結果にさらに影響を及ぼす。
本稿では,第1の課題を大規模に解決するための自動品質保証手法を提案し,第2の課題に対処するためのレコメンデーションを提案する。
これら2つのアプローチを組み合わせることで、前述の言語ギャップはほとんどなくなり、研究からは完全に異なる結論が得られます。
また、修正データセットをコミュニティにリリースします。
関連論文リスト
- Ready to Translate, Not to Represent? Bias and Performance Gaps in Multilingual LLMs Across Language Families and Domains [6.357124887141297]
大規模言語モデル (LLM) は機械翻訳 (MT) を再定義した
LLMは言語家族や専門ドメイン間で不均一なパフォーマンスを示すことが多い。
オープンソースLLMの翻訳品質と公平性を評価するための統合フレームワークおよびデータセットであるTranslation Tanglesを紹介する。
論文 参考訳(メタデータ) (2025-10-09T07:28:30Z) - Do LLMs exhibit the same commonsense capabilities across languages? [4.177608674029413]
我々はCOCOTEROSデータセットを4つの言語(英語、スペイン語、オランダ語、バレンシア語)に拡張する新しいベンチマークであるMultiCOMを紹介した。
このタスクは、与えられた3つの単語を含む常識的な文を生成することを含む。
その結果、英語では優れた性能を示し、低リソース言語では大幅に性能が低下した。
論文 参考訳(メタデータ) (2025-09-08T07:47:00Z) - INDIC QA BENCHMARK: A Multilingual Benchmark to Evaluate Question Answering capability of LLMs for Indic Languages [25.402797722575805]
インデックスQAベンチマーク(Indic QA Benchmark)は、インドの主要言語11言語を対象にした、文脈に基づく質問応答のためのデータセットである。
評価の結果,学習データに強い英語バイアスがあるため,低資源言語では弱い性能を示した。
また、入力を英語に翻訳して処理し、その結果をソース言語に変換して出力するTranslate Testパラダイムについても検討した。
論文 参考訳(メタデータ) (2024-07-18T13:57:16Z) - Crosslingual Capabilities and Knowledge Barriers in Multilingual Large Language Models [62.91524967852552]
大規模言語モデル(LLM)は、多言語コーパスの事前訓練のため、一般的に多言語である。
しかし、これらのモデルは言語間の対応する概念、すなわち言語を横断的に関連付けることができるだろうか?
本研究は,言語横断的タスクにおける最先端LLMの評価である。
論文 参考訳(メタデータ) (2024-06-23T15:15:17Z) - Language Ranker: A Metric for Quantifying LLM Performance Across High and Low-Resource Languages [48.40607157158246]
大規模言語モデル(LLM)は、英語、ドイツ語、フランス語のような高リソース言語で、低リソース言語の能力は依然として不十分である。
内部表現を用いたLLM性能に基づいて,言語をベンチマークし,ランク付けするための固有測度であるLanguage Rankerを提案する。
分析の結果,高リソース言語は英語との類似度が高く,性能が優れ,低リソース言語は類似度が低いことがわかった。
論文 参考訳(メタデータ) (2024-04-17T16:53:16Z) - Could We Have Had Better Multilingual LLMs If English Was Not the Central Language? [4.655168524016426]
大規模言語モデル(LLM)は、トレーニング対象の言語に対して強力な機械翻訳能力を示す。
我々の研究は、Llama2の翻訳能力について論じている。
実験の結果,7B Llama2モデルはこれまでに見たすべての言語に翻訳すると10 BLEU以上になることがわかった。
論文 参考訳(メタデータ) (2024-02-21T16:32:38Z) - Zero-Shot Cross-Lingual Reranking with Large Language Models for
Low-Resource Languages [51.301942056881146]
アフリカ語における言語間情報検索システムにおいて,大規模言語モデル (LLM) がリランカーとしてどのように機能するかを検討する。
私たちの実装は、英語と4つのアフリカの言語(ハウサ語、ソマリ語、スワヒリ語、ヨルバ語)を対象としています。
我々は、英語のクェリとアフリカの言葉の文節による言語横断的な格付けについて検討する。
論文 参考訳(メタデータ) (2023-12-26T18:38:54Z) - Multilingual Machine Translation with Large Language Models: Empirical Results and Analysis [103.89753784762445]
大規模言語モデル(LLM)は多言語機械翻訳(MMT)の処理において顕著な可能性を示した。
本稿では, MMT における LLM の利点と課題を体系的に検討する。
また,ChatGPTとGPT-4を含む8つのLLMを徹底的に評価した。
論文 参考訳(メタデータ) (2023-04-10T15:51:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。