論文の概要: Found in Translation: Measuring Multilingual LLM Consistency as Simple as Translate then Evaluate
- arxiv url: http://arxiv.org/abs/2505.21999v1
- Date: Wed, 28 May 2025 06:00:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-29 17:35:50.433384
- Title: Found in Translation: Measuring Multilingual LLM Consistency as Simple as Translate then Evaluate
- Title(参考訳): 翻訳の発見:多言語LLMの一貫性を翻訳と評価と同じくらいシンプルに計測する
- Authors: Ashim Gupta, Maitrey Mehta, Zhichao Xu, Vivek Srikumar,
- Abstract要約: 大規模言語モデル(LLM)は、英語のクエリに対して詳細で印象的な応答を提供する。
しかし、彼らは他の言語で同じクエリに対応することに本当に一貫性がありますか?
本稿では,LLMの言語間整合性を評価するためのフレームワークを提案する。
- 参考スコア(独自算出の注目度): 36.641755706551336
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) provide detailed and impressive responses to queries in English. However, are they really consistent at responding to the same query in other languages? The popular way of evaluating for multilingual performance of LLMs requires expensive-to-collect annotated datasets. Further, evaluating for tasks like open-ended generation, where multiple correct answers may exist, is nontrivial. Instead, we propose to evaluate the predictability of model response across different languages. In this work, we propose a framework to evaluate LLM's cross-lingual consistency based on a simple Translate then Evaluate strategy. We instantiate this evaluation framework along two dimensions of consistency: information and empathy. Our results reveal pronounced inconsistencies in popular LLM responses across thirty languages, with severe performance deficits in certain language families and scripts, underscoring critical weaknesses in their multilingual capabilities. These findings necessitate cross-lingual evaluations that are consistent along multiple dimensions. We invite practitioners to use our framework for future multilingual LLM benchmarking.
- Abstract(参考訳): 大規模言語モデル(LLM)は、英語のクエリに対して詳細で印象的な応答を提供する。
しかし、それらは他の言語で同じクエリに対応することに本当に一貫性がありますか?
LLMの多言語性能を評価する一般的な方法は、高価なアノテートデータセットを必要とする。
さらに、複数の正しい答えが存在する可能性のあるオープンエンド生成のようなタスクを評価することは簡単ではない。
代わりに、異なる言語間でのモデル応答の予測可能性を評価することを提案する。
本研究では,LLMの言語間整合性を評価するためのフレームワークを提案する。
私たちはこの評価フレームワークを、情報と共感の2つの側面に沿ってインスタンス化する。
以上の結果から,30言語にまたがるLLM応答の顕著な不整合が明らかとなり,特定の言語ファミリーやスクリプトでは高い性能低下がみられ,多言語能力の重大な弱点が浮き彫りにされている。
これらの知見は,複数次元に沿って一貫した言語間評価を必要とする。
我々は,今後の多言語 LLM ベンチマークに我々のフレームワークを使うことを勧める。
関連論文リスト
- Evaluating Large Language Model with Knowledge Oriented Language Specific Simple Question Answering [73.73820209993515]
KoLasSimpleQAは,Large Language Models (LLMs) の多言語事実能力を評価する最初のベンチマークである。
既存の研究に触発されて、単一知識点カバレッジ、絶対的客観性、独特な答え、時間的安定性といった特徴を備えた質問セットを作成しました。
その結果,2つの領域間に大きな性能差が認められた。
論文 参考訳(メタデータ) (2025-05-22T12:27:02Z) - MUG-Eval: A Proxy Evaluation Framework for Multilingual Generation Capabilities in Any Language [16.21019515431378]
本稿では,大規模言語モデルの多言語生成能力を評価する新しいフレームワークMUG-Evalを提案する。
既存のベンチマークを会話タスクに変換し、それらのタスクに対するLCMの精度を測定します。
高、中、低リソースのカテゴリにまたがる30言語にわたる8つのLLMを評価し、MUG-Evalが確立されたベンチマークと強く相関していることを見出した。
論文 参考訳(メタデータ) (2025-05-20T14:14:00Z) - Understanding LLMs' Cross-Lingual Context Retrieval: How Good It Is And Where It Comes From [61.63091726904068]
12言語にわたる40以上の大言語モデル(LLM)の言語間コンテキスト検索能力を評価する。
いくつかの小さな訓練後のオープンLLMは、強い言語間コンテキスト検索能力を示している。
また, 大規模プレトレーニングでは, xMRCの性能が向上することが示唆された。
論文 参考訳(メタデータ) (2025-04-15T06:35:27Z) - ProverbEval: Exploring LLM Evaluation Challenges for Low-resource Language Understanding [15.93642619347214]
低リソース言語のためのLLM評価ベンチマークであるprovrbevalを導入する。
ネイティブ言語のpromrb記述はpromrb生成のようなタスクを大幅に改善する。
単言語評価は、生成タスクにおける言語間比較よりも一貫して優れていた。
論文 参考訳(メタデータ) (2024-11-07T06:34:48Z) - What do Large Language Models Need for Machine Translation Evaluation? [12.42394213466485]
大規模言語モデル(LLM)は、微調整された多言語事前訓練言語モデルに匹敵する結果が得られる。
本稿では,LLMの機械翻訳品質を評価するために,ソース,参照,翻訳エラー,ガイドラインなどの翻訳情報が必要であるかを検討する。
論文 参考訳(メタデータ) (2024-10-04T09:50:45Z) - Beneath the Surface of Consistency: Exploring Cross-lingual Knowledge Representation Sharing in LLMs [31.893686987768742]
言語モデルは、言語全体で同じ事実に答える能力に矛盾する。
モデルがクエリに一貫して答える能力と、複数の言語で共有された表現で'ストア'する能力の2つの側面から、多言語的な事実知識を探求する。
論文 参考訳(メタデータ) (2024-08-20T08:38:30Z) - Understanding and Mitigating Language Confusion in LLMs [76.96033035093204]
我々は,既存の英語および多言語プロンプトを用いた15の型的多様言語の評価を行った。
Llama Instruct と Mistral のモデルでは,言語的混乱の度合いが高いことがわかった。
言語混乱は,数発のプロンプト,多言語SFT,選好調整によって部分的に緩和できることがわかった。
論文 参考訳(メタデータ) (2024-06-28T17:03:51Z) - Crosslingual Capabilities and Knowledge Barriers in Multilingual Large Language Models [62.91524967852552]
大規模言語モデル(LLM)は、多言語コーパスの事前訓練のため、一般的に多言語である。
しかし、これらのモデルは言語間の対応する概念、すなわち言語を横断的に関連付けることができるだろうか?
本研究は,言語横断的タスクにおける最先端LLMの評価である。
論文 参考訳(メタデータ) (2024-06-23T15:15:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。