論文の概要: MM-Eval: A Multilingual Meta-Evaluation Benchmark for LLM-as-a-Judge and Reward Models
- arxiv url: http://arxiv.org/abs/2410.17578v2
- Date: Sat, 29 Mar 2025 11:50:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-01 14:30:17.861095
- Title: MM-Eval: A Multilingual Meta-Evaluation Benchmark for LLM-as-a-Judge and Reward Models
- Title(参考訳): MM-Eval: LLM-as-a-JudgeとRewardモデルのための多言語メタ評価ベンチマーク
- Authors: Guijin Son, Dongkeun Yoon, Juyoung Suk, Javier Aula-Blasco, Mano Aslan, Vu Trong Kim, Shayekh Bin Islam, Jaume Prats-Cristià, Lucía Tormo-Bañuelos, Seungone Kim,
- Abstract要約: MM-Evalは18の言語と122の言語にまたがる言語一貫性サブセットをカバーする多言語メタ評価ベンチマークである。
MM-Evalのコア属性は、既存の英語メタ評価ベンチマークを単に翻訳するのではなく、多言語固有の課題を念頭に設計されていることである。
その結果、英語の文脈で優れている既存の評価者は、非英語の出力を評価する際に、かなりの改善の余地があることが示唆された。
- 参考スコア(独自算出の注目度): 3.961168847961322
- License:
- Abstract: As Large Language Models (LLMs) are now capable of producing fluent and coherent content in languages other than English, it is not imperative to precisely evaluate these non-English outputs. However, when assessing the outputs from mutlilingual LLMs, prior works often employed LLM based evaluators that excel at assessing English outputs, without a thorough examination of whether these evaluators could effectively assess non-English text as well. Moreover, existing benchmarks to test evaluator LLMs (referred to as "meta-evaluation benchmarks") are mostly English-centric. To bridge this gap and examine whether evaluator LLMs can reliably assess the outputs of multilingual LLMs, we introduce MM-Eval, a multilingual meta-evaluation benchmark comprising five core subsets covering 18 languages and a Language Consistency subset spanning 122 languages. A core attribute of MM-Eval is that, instead of merely translating existing English meta-evaluation benchmarks, it is designed with multilingual-specific challenges in mind. Additionally, unlike existing meta-evaluation benchmarks that focus solely on ranking accuracy over pairwise data, MM-Eval also evaluates the consistency and fairness of absolute score values across a wide range of languages. Our results show that existing evaluator LLMs that excel in English contexts have considerable room for improvement when assessing non-English outputs. Furthermore, we find that evaluators are unfair and inconsistent when evaluating lower-resourced languages. Finally, we validate MM-Eval by measuring its correlation with Best-of-N rankings, finding a significantly stronger correlation compared to other meta-evaluation benchmarks. We publicly release our benchmark and code.
- Abstract(参考訳): 大規模言語モデル(LLM)は、現在、英語以外の言語で流動的でコヒーレントなコンテンツを生成することができるため、これらの非英語の出力を正確に評価することは必須ではない。
しかし、多言語LLMの出力を評価する際、先行研究では、英語の出力を評価するのに優れたLCMベースの評価器をしばしば採用し、これらの評価器が英語以外のテキストを効果的に評価できるかどうかを徹底的に調べることはなかった。
さらに、評価器LSM("meta-evaluation benchmarks"と呼ばれる)をテストするための既存のベンチマークは、主に英語中心である。
このギャップを埋め、多言語LLMの出力を確実に評価できるかどうかを調べるために、言語18と言語122にまたがる言語一貫性サブセットをカバーする5つのコアサブセットからなる多言語メタ評価ベンチマークMM-Evalを導入する。
MM-Evalのコア属性は、既存の英語メタ評価ベンチマークを単に翻訳するのではなく、多言語固有の課題を念頭に設計されていることである。
さらに、ペアワイズデータよりもランキング精度にのみフォーカスする既存のメタ評価ベンチマークとは異なり、MM-Evalは幅広い言語にわたる絶対スコア値の一貫性と公平性も評価している。
その結果、英語の文脈で優れている既存の評価用LLMは、非英語の出力を評価する際にかなりの改善の余地があることが示唆された。
さらに,低リソース言語の評価においては,評価者が不公平で矛盾していることがわかった。
最後に、MM-EvalをBest-of-Nランキングと相関して評価し、他のメタ評価ベンチマークと比較して非常に強い相関性を見出した。
ベンチマークとコードを公開しています。
関連論文リスト
- M-IFEval: Multilingual Instruction-Following Evaluation [2.624902795082451]
文献からのインストラクション追従評価(IFEval)ベンチマークは、客観的基準を用いてこれを行う。
英語の命令のみを含み、他の言語でのLLMを評価する能力を制限する。
本稿では,M-IFEval(Multilingual Instruction Following Evaluation)ベンチマークを提案する。
論文 参考訳(メタデータ) (2025-02-07T06:27:04Z) - ProverbEval: Exploring LLM Evaluation Challenges for Low-resource Language Understanding [15.93642619347214]
低リソース言語のためのLLM評価ベンチマークであるprovrbevalを導入する。
ネイティブ言語のpromrb記述はpromrb生成のようなタスクを大幅に改善する。
単言語評価は、生成タスクにおける言語間比較よりも一貫して優れていた。
論文 参考訳(メタデータ) (2024-11-07T06:34:48Z) - DnA-Eval: Enhancing Large Language Model Evaluation through Decomposition and Aggregation [75.81096662788254]
大規模言語モデル(LLM)はスケーラブルで経済的な評価指標である。
これらの評価者がどの程度信頼できるかという問題は、重要な研究課題として浮上している。
本稿では,デコンプリートとアグリゲートを提案し,その評価プロセスを教育実践に基づいて異なる段階に分解する。
論文 参考訳(メタデータ) (2024-05-24T08:12:30Z) - Language Ranker: A Metric for Quantifying LLM Performance Across High and Low-Resource Languages [48.40607157158246]
大規模言語モデル(LLM)は、英語、ドイツ語、フランス語のような高リソース言語で、低リソース言語の能力は依然として不十分である。
内部表現を用いたLLM性能に基づいて,言語をベンチマークし,ランク付けするための固有測度であるLanguage Rankerを提案する。
分析の結果,高リソース言語は英語との類似度が高く,性能が優れ,低リソース言語は類似度が低いことがわかった。
論文 参考訳(メタデータ) (2024-04-17T16:53:16Z) - METAL: Towards Multilingual Meta-Evaluation [12.852595634767901]
本研究では,多言語シナリオにおいて,Large Language Models (LLMs) を評価対象としてエンド・ツー・エンド評価を行うためのフレームワークを提案する。
要約作業のための母国語話者判定を含む10言語を対象としたデータセットを作成する。
GPT-3.5-Turbo, GPT-4, PaLM2を用いたLCM評価器の性能の比較を行った。
論文 参考訳(メタデータ) (2024-04-02T06:14:54Z) - OMGEval: An Open Multilingual Generative Evaluation Benchmark for Large
Language Models [59.54423478596468]
OMGEvalは、オープンソースの多言語生成テストセットであり、異なる言語におけるLLMの能力を評価することができる。
各言語について、OMGEvalは804のオープンエンド質問を提供し、LLMの重要な機能を幅広くカバーしている。
具体的には、OMGEvalの現在のバージョンには5つの言語(Zh, Ru, Fr, Es, Ar)が含まれている。
論文 参考訳(メタデータ) (2024-02-21T04:42:41Z) - Can Large Language Models be Trusted for Evaluation? Scalable
Meta-Evaluation of LLMs as Evaluators via Agent Debate [74.06294042304415]
エージェント・ディベート支援型メタ評価フレームワークであるScaleEvalを提案する。
フレームワークのコードをGitHubで公開しています。
論文 参考訳(メタデータ) (2024-01-30T07:03:32Z) - Evaluating Large Language Models at Evaluating Instruction Following [54.49567482594617]
我々は,命令追従出力の識別におけるLLM評価器の能力をテストするために,挑戦的なメタ評価ベンチマーク LLMBar を導入する。
異なる評価器がLLMBarに対して異なる性能を示し、最高の評価器でさえ改善の余地があることが判明した。
論文 参考訳(メタデータ) (2023-10-11T16:38:11Z) - Are Large Language Model-based Evaluators the Solution to Scaling Up
Multilingual Evaluation? [20.476500441734427]
大規模言語モデル(LLM)は様々な自然言語処理(NLP)タスクに優れる。
彼らの評価、特に上位20ドルを超える言語では、既存のベンチマークとメトリクスの制限のため、依然として不十分である。
論文 参考訳(メタデータ) (2023-09-14T06:41:58Z) - Benchmarking Large Language Models for News Summarization [79.37850439866938]
大規模言語モデル(LLM)は自動要約を約束しているが、その成功の背景にある理由はよく分かっていない。
LLMのゼロショット要約能力の鍵は、モデルサイズではなく、命令チューニングにある。
論文 参考訳(メタデータ) (2023-01-31T18:46:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。