論文の概要: METAL: Towards Multilingual Meta-Evaluation
- arxiv url: http://arxiv.org/abs/2404.01667v1
- Date: Tue, 2 Apr 2024 06:14:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-03 17:48:15.837890
- Title: METAL: Towards Multilingual Meta-Evaluation
- Title(参考訳): METAL:多言語メタ評価を目指して
- Authors: Rishav Hada, Varun Gumma, Mohamed Ahmed, Kalika Bali, Sunayana Sitaram,
- Abstract要約: 本研究では,多言語シナリオにおいて,Large Language Models (LLMs) を評価対象としてエンド・ツー・エンド評価を行うためのフレームワークを提案する。
要約作業のための母国語話者判定を含む10言語を対象としたデータセットを作成する。
GPT-3.5-Turbo, GPT-4, PaLM2を用いたLCM評価器の性能の比較を行った。
- 参考スコア(独自算出の注目度): 12.852595634767901
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the rising human-like precision of Large Language Models (LLMs) in numerous tasks, their utilization in a variety of real-world applications is becoming more prevalent. Several studies have shown that LLMs excel on many standard NLP benchmarks. However, it is challenging to evaluate LLMs due to test dataset contamination and the limitations of traditional metrics. Since human evaluations are difficult to collect, there is a growing interest in the community to use LLMs themselves as reference-free evaluators for subjective metrics. However, past work has shown that LLM-based evaluators can exhibit bias and have poor alignment with human judgments. In this study, we propose a framework for an end-to-end assessment of LLMs as evaluators in multilingual scenarios. We create a carefully curated dataset, covering 10 languages containing native speaker judgments for the task of summarization. This dataset is created specifically to evaluate LLM-based evaluators, which we refer to as meta-evaluation (METAL). We compare the performance of LLM-based evaluators created using GPT-3.5-Turbo, GPT-4, and PaLM2. Our results indicate that LLM-based evaluators based on GPT-4 perform the best across languages, while GPT-3.5-Turbo performs poorly. Additionally, we perform an analysis of the reasoning provided by LLM-based evaluators and find that it often does not match the reasoning provided by human judges.
- Abstract(参考訳): LLM(Large Language Models)が多くのタスクで人間のような精度が向上するにつれ、様々な現実世界のアプリケーションでの利用がますます広まりつつある。
いくつかの研究により、LLMは標準のNLPベンチマークよりも優れていることが示されている。
しかし、データセットの汚染と従来のメトリクスの制限のため、LSMを評価することは困難である。
人的評価は収集が難しいため,LLM自体を主観的指標の基準自由評価器として利用することに対するコミュニティの関心が高まっている。
しかし、過去の研究は、LLMに基づく評価者が偏見を示し、人間の判断と整合性に乏しいことを示した。
本研究では,多言語シナリオにおける評価手法として,LLMのエンドツーエンド評価のためのフレームワークを提案する。
要約作業のための母国語話者判断を含む10の言語を網羅した、精巧にキュレートされたデータセットを作成する。
このデータセットは、メタ評価(METAL)と呼ばれるLCMベースの評価器を特に評価するために作成される。
GPT-3.5-Turbo, GPT-4, PaLM2を用いたLCM評価器の性能の比較を行った。
以上の結果から, GPT-4に基づくLCMによる評価は, GPT-3.5-Turboでは性能が低かった。
さらに, LLMに基づく評価器による推論を解析した結果, 人間の判断と一致しない場合が多いことがわかった。
関連論文リスト
- MM-Eval: A Multilingual Meta-Evaluation Benchmark for LLM-as-a-Judge and Reward Models [3.961168847961322]
大型言語モデル(LLM)は、人間の好みや判断のプロキシとして機能するタスクの評価器として一般的に用いられる。
既存のベンチマークは主に英語に重点を置いており、非英語の文脈における評価者としてのLLMの有効性についての限られた洞察を提供している。
MM-Evalは6つのカテゴリにまたがる18言語をカバーする多言語メタ評価ベンチマークである。
論文 参考訳(メタデータ) (2024-10-23T06:04:55Z) - PARIKSHA: A Large-Scale Investigation of Human-LLM Evaluator Agreement on Multilingual and Multi-Cultural Data [12.852628521840542]
我々は,90Kの人的評価と30KのLLMに基づく評価を行うことで,10言語にわたる30のモデルを評価した。
GPT-4o や Llama-3 70B のようなモデルは、ほとんどの Indic 言語で一貫して最適である。
論文 参考訳(メタデータ) (2024-06-21T11:00:38Z) - Decompose and Aggregate: A Step-by-Step Interpretable Evaluation Framework [75.81096662788254]
大規模言語モデル(LLM)はスケーラブルで経済的な評価指標である。
これらの評価者がどの程度信頼できるかという問題は、重要な研究課題として浮上している。
本稿では,デコンプリートとアグリゲートを提案し,その評価プロセスを教育実践に基づいて異なる段階に分解する。
論文 参考訳(メタデータ) (2024-05-24T08:12:30Z) - Large Language Models are Inconsistent and Biased Evaluators [2.136983452580014]
我々は,Large Language Models (LLMs) が親しみの偏りを示し,評価の歪んだ分布を示すため,評価値の偏りを示すことを示した。
また, LLM は不整合性評価器であり, テキスト品質の人間の理解に欠かせない相違を誘発する「サンプル間合意」が低く, 感度が高いことがわかった。
論文 参考訳(メタデータ) (2024-05-02T20:42:28Z) - Can Large Language Models be Trusted for Evaluation? Scalable
Meta-Evaluation of LLMs as Evaluators via Agent Debate [74.06294042304415]
エージェント・ディベート支援型メタ評価フレームワークであるScaleEvalを提案する。
フレームワークのコードをGitHubで公開しています。
論文 参考訳(メタデータ) (2024-01-30T07:03:32Z) - PRE: A Peer Review Based Large Language Model Evaluator [14.585292530642603]
既存のパラダイムは、LLMの性能を評価するために、人間アノテーションまたはモデルベースの評価器のいずれかに依存している。
ピアレビュープロセスを通じてLLMを自動的に評価できる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-28T12:33:14Z) - Benchmarking Generation and Evaluation Capabilities of Large Language Models for Instruction Controllable Summarization [132.25202059478065]
命令制御可能なテキスト要約の大規模言語モデル(LLM)をベンチマークする。
本研究は,LLMにおいて,命令制御可能なテキスト要約が依然として困難な課題であることを示す。
論文 参考訳(メタデータ) (2023-11-15T18:25:26Z) - Evaluating Large Language Models at Evaluating Instruction Following [54.49567482594617]
我々は,命令追従出力の識別におけるLLM評価器の能力をテストするために,挑戦的なメタ評価ベンチマーク LLMBar を導入する。
異なる評価器がLLMBarに対して異なる性能を示し、最高の評価器でさえ改善の余地があることが判明した。
論文 参考訳(メタデータ) (2023-10-11T16:38:11Z) - Are Large Language Model-based Evaluators the Solution to Scaling Up
Multilingual Evaluation? [20.476500441734427]
大規模言語モデル(LLM)は様々な自然言語処理(NLP)タスクに優れる。
彼らの評価、特に上位20ドルを超える言語では、既存のベンチマークとメトリクスの制限のため、依然として不十分である。
論文 参考訳(メタデータ) (2023-09-14T06:41:58Z) - A Survey on Evaluation of Large Language Models [87.60417393701331]
大規模言語モデル(LLM)は、学術と産業の両方で人気が高まっている。
本稿では,評価方法,評価方法,評価方法の3つの重要な側面に焦点をあてる。
論文 参考訳(メタデータ) (2023-07-06T16:28:35Z) - Can Large Language Models Be an Alternative to Human Evaluations? [80.81532239566992]
大規模言語モデル(LLM)は、タスク命令のみを提供する場合、目に見えないタスクに対して例外的な性能を示す。
LLM評価の結果は、専門家による評価の結果と一致していることを示す。
論文 参考訳(メタデータ) (2023-05-03T07:28:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。