論文の概要: Exploring the Multilingual NLG Evaluation Abilities of LLM-Based Evaluators
- arxiv url: http://arxiv.org/abs/2503.04360v1
- Date: Thu, 06 Mar 2025 12:04:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-07 16:00:18.010092
- Title: Exploring the Multilingual NLG Evaluation Abilities of LLM-Based Evaluators
- Title(参考訳): LLMに基づく評価器の多言語NLG評価能力の検討
- Authors: Jiayi Chang, Mingqi Gao, Xinyu Hu, Xiaojun Wan,
- Abstract要約: 本研究は,近年の10個のLLMの多言語評価性能を包括的に分析する。
参照応答をプロンプトから除外すると、様々な言語のパフォーマンスが向上することがわかった。
LLMに基づく評価器の多くは、低リソース言語よりも、高リソース言語における人間の判断と高い相関関係を示す。
- 参考スコア(独自算出の注目度): 38.681443695708786
- License:
- Abstract: Previous research has shown that LLMs have potential in multilingual NLG evaluation tasks. However, existing research has not fully explored the differences in the evaluation capabilities of LLMs across different languages. To this end, this study provides a comprehensive analysis of the multilingual evaluation performance of 10 recent LLMs, spanning high-resource and low-resource languages through correlation analysis, perturbation attacks, and fine-tuning. We found that 1) excluding the reference answer from the prompt and using large-parameter LLM-based evaluators leads to better performance across various languages; 2) most LLM-based evaluators show a higher correlation with human judgments in high-resource languages than in low-resource languages; 3) in the languages where they are most sensitive to such attacks, they also tend to exhibit the highest correlation with human judgments; and 4) fine-tuning with data from a particular language yields a broadly consistent enhancement in the model's evaluation performance across diverse languages. Our findings highlight the imbalance in LLMs'evaluation capabilities across different languages and suggest that low-resource language scenarios deserve more attention.
- Abstract(参考訳): 従来の研究では、LLMは多言語NLG評価タスクにおいて有益であることが示されている。
しかし、既存の研究では、異なる言語間でのLLMの評価能力の違いについて完全には研究されていない。
そこで本研究では, 相関解析, 摂動攻撃, 微調整により, 高リソース言語と低リソース言語にまたがる10種類のLLMの多言語評価性能を総合的に解析する。
私たちはそれを発見しました
1) プロンプトからの参照応答を除外し, LLMに基づく大口径評価器を使用すると, 様々な言語で性能が向上する。
2) LLMに基づく評価器の多くは,低リソース言語よりも,高リソース言語における人間の判断と高い相関性を示す。
3)そのような攻撃に最も敏感な言語では、人間の判断と高い相関を示す傾向があり、
4) 特定の言語からのデータによる微調整は、様々な言語でモデルの評価性能を広範囲に向上させる。
この結果から,LLMの評価能力の不均衡が指摘され,低リソースの言語シナリオの方が注目に値することが示唆された。
関連論文リスト
- Comparative Analysis of Listwise Reranking with Large Language Models in Limited-Resource Language Contexts [5.312946761836463]
本研究では,リミテッド・ソース・アフリカ言語を対象としたリストワイド・リランクにおける大規模言語モデル(LLM)の性能を評価する。
RankGPT3.5, Rank4o-mini, RankGPTo1-mini, RankClaude-sonnetを言語間の文脈で比較した。
論文 参考訳(メタデータ) (2024-12-28T07:30:05Z) - MM-Eval: A Multilingual Meta-Evaluation Benchmark for LLM-as-a-Judge and Reward Models [3.961168847961322]
大型言語モデル(LLM)は、人間の好みや判断のプロキシとして機能するタスクの評価器として一般的に用いられる。
既存のベンチマークは主に英語に重点を置いており、非英語の文脈における評価者としてのLLMの有効性についての限られた洞察を提供している。
MM-Evalは6つのカテゴリにまたがる18言語をカバーする多言語メタ評価ベンチマークである。
論文 参考訳(メタデータ) (2024-10-23T06:04:55Z) - Cross-Lingual Auto Evaluation for Assessing Multilingual LLMs [36.30321941154582]
Herculeは、英語で利用可能な参照回答に基づいて、応答にスコアを割り当てることを学ぶ言語間評価モデルである。
本研究は,LLMを用いた言語横断評価の総合的研究であり,多言語評価のためのスケーラブルで効果的なアプローチを提案する。
論文 参考訳(メタデータ) (2024-10-17T09:45:32Z) - How Does Quantization Affect Multilingual LLMs? [50.867324914368524]
量子化技術は、大規模な言語モデルの推論速度と展開を改善するために広く使われている。
量子化多言語LLMの徹底的な分析を行い、言語間の性能と様々なスケールに焦点をあてる。
論文 参考訳(メタデータ) (2024-07-03T15:39:40Z) - DnA-Eval: Enhancing Large Language Model Evaluation through Decomposition and Aggregation [75.81096662788254]
大規模言語モデル(LLM)はスケーラブルで経済的な評価指標である。
これらの評価者がどの程度信頼できるかという問題は、重要な研究課題として浮上している。
本稿では,デコンプリートとアグリゲートを提案し,その評価プロセスを教育実践に基づいて異なる段階に分解する。
論文 参考訳(メタデータ) (2024-05-24T08:12:30Z) - Language Ranker: A Metric for Quantifying LLM Performance Across High and Low-Resource Languages [48.40607157158246]
大規模言語モデル(LLM)は、英語、ドイツ語、フランス語のような高リソース言語で、低リソース言語の能力は依然として不十分である。
内部表現を用いたLLM性能に基づいて,言語をベンチマークし,ランク付けするための固有測度であるLanguage Rankerを提案する。
分析の結果,高リソース言語は英語との類似度が高く,性能が優れ,低リソース言語は類似度が低いことがわかった。
論文 参考訳(メタデータ) (2024-04-17T16:53:16Z) - Zero-Shot Cross-Lingual Reranking with Large Language Models for
Low-Resource Languages [51.301942056881146]
アフリカ語における言語間情報検索システムにおいて,大規模言語モデル (LLM) がリランカーとしてどのように機能するかを検討する。
私たちの実装は、英語と4つのアフリカの言語(ハウサ語、ソマリ語、スワヒリ語、ヨルバ語)を対象としています。
我々は、英語のクェリとアフリカの言葉の文節による言語横断的な格付けについて検討する。
論文 参考訳(メタデータ) (2023-12-26T18:38:54Z) - Are Large Language Model-based Evaluators the Solution to Scaling Up
Multilingual Evaluation? [20.476500441734427]
大規模言語モデル(LLM)は様々な自然言語処理(NLP)タスクに優れる。
彼らの評価、特に上位20ドルを超える言語では、既存のベンチマークとメトリクスの制限のため、依然として不十分である。
論文 参考訳(メタデータ) (2023-09-14T06:41:58Z) - CMMLU: Measuring massive multitask language understanding in Chinese [133.70911295934746]
本稿では, 自然科学, 社会科学, 工学, 人文科学など, さまざまな分野をカバーする総合的な中国のベンチマークを紹介する。
CMMLUは、中国語の文脈における大きな言語モデルの知識と推論能力の評価におけるギャップを埋める。
論文 参考訳(メタデータ) (2023-06-15T15:49:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。