論文の概要: Reference-Guided Verdict: LLMs-as-Judges in Automatic Evaluation of Free-Form Text
- arxiv url: http://arxiv.org/abs/2408.09235v1
- Date: Sat, 17 Aug 2024 16:01:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-20 21:39:37.422303
- Title: Reference-Guided Verdict: LLMs-as-Judges in Automatic Evaluation of Free-Form Text
- Title(参考訳): 基準誘導検証:自由形テキストの自動評価におけるLCMs-as-Judges
- Authors: Sher Badshah, Hassan Sajjad,
- Abstract要約: 大規模言語モデルの急速な進歩は、堅牢な評価方法に対する重要な必要性を浮き彫りにした。
BLEUやROUGEのような伝統的なメトリクスは有用だが、しばしば自由形式のテキストの意味的豊かさと文脈的関連性を捉えるのに失敗する。
より信頼性と精度の高い評価を行うために,複数のLCMs-as-judgeを用いた基準誘導型判定手法を提案する。
- 参考スコア(独自算出の注目度): 12.879551933541345
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapid advancements in Large Language Models (LLMs) have highlighted the critical need for robust evaluation methods that can accurately assess the quality of generated text, particularly in free-form tasks. Traditional metrics like BLEU and ROUGE, while useful, often fail to capture the semantic richness and contextual relevance of free-form text compared to reference answers. In this study, we introduce a reference-guided verdict method that leverages multiple LLMs-as-judges to provide a more reliable and accurate evaluation of open-ended LLM generations. By integrating diverse LLMs, our approach mitigates individual model biases and significantly improves alignment with human judgments, especially in challenging tasks where traditional metrics and single-model evaluations fall short. Through experiments across multiple question-answering tasks, we show that our method closely aligns with human evaluations, establishing it as a scalable, reproducible, and effective alternative to human evaluation. Our approach not only enhances evaluation reliability but also opens new avenues for refining automated assessment in generative AI.
- Abstract(参考訳): LLM(Large Language Models)の急速な進歩は、特に自由形式のタスクにおいて、生成したテキストの品質を正確に評価できる堅牢な評価手法の必要性を強調している。
BLEU や ROUGE のような伝統的なメトリクスは有用であるが、しばしば参照回答と比較して、自由形式のテキストの意味的豊かさと文脈的関連性を捉えることに失敗する。
本研究では,複数のLPMをアズ・ジャッジとして活用し,より信頼性が高く正確なLCM世代評価を行うための基準誘導検証手法を提案する。
多様なLCMを統合することで、従来のメトリクスや単一モデル評価が不足する課題において、個々のモデルのバイアスを軽減し、人間の判断との整合性を大幅に改善する。
複数の質問応答タスクを対象とした実験により,提案手法は人間の評価と密接に一致し,人間の評価に対するスケーラブルで再現性があり,効果的な代替手段として確立されていることを示す。
我々のアプローチは、評価信頼性を高めるだけでなく、生成AIにおける自動評価を洗練するための新たな道を開く。
関連論文リスト
- AGENT-CQ: Automatic Generation and Evaluation of Clarifying Questions for Conversational Search with LLMs [53.6200736559742]
エージェント-CQは、世代ステージと評価ステージの2つのステージから構成される。
CrowdLLMは、人間のクラウドソーシング判断をシミュレートして、生成された質問や回答を評価する。
ClariQデータセットの実験では、質問と回答の品質を評価するCrowdLLMの有効性が示されている。
論文 参考訳(メタデータ) (2024-10-25T17:06:27Z) - Leveraging LLMs for Dialogue Quality Measurement [27.046917937460798]
大規模言語モデル(LLM)は、NLPタスク全体で堅牢なゼロショットと少数ショットの機能を提供する。
モデルサイズ,文脈内例,選択手法などの操作要因を考察し,CoT推論とラベル抽出手法について検討する。
この結果から,適切な微調整と十分な推論能力を有するLCMを自動対話評価に活用できることが示唆された。
論文 参考訳(メタデータ) (2024-06-25T06:19:47Z) - Sample-Efficient Human Evaluation of Large Language Models via Maximum Discrepancy Competition [46.949604465227054]
そこで我々は,MAD(Maximum Discrepancy)コンペティションに基づく,サンプル効率のよい人的評価手法を提案する。
MAD は2つの LLM に適応した情報的かつ多様な命令群を自動的に選択する。
ペア比較の結果は、Eloレーティングシステムを用いてグローバルランキングに集約される。
論文 参考訳(メタデータ) (2024-04-10T01:26:24Z) - MLLM-Bench: Evaluating Multimodal LLMs with Per-sample Criteria [49.500322937449326]
MLLM(Multimodal large language model)は、AIアプリケーションの範囲を広げている。
既存のMLLMの自動評価手法は主にユーザエクスペリエンスを考慮せずにクエリを評価する場合に限られている。
本稿では,MLLM を判断基準として評価する MLLM の新しい評価パラダイムを提案する。
論文 参考訳(メタデータ) (2023-11-23T12:04:25Z) - Collaborative Evaluation: Exploring the Synergy of Large Language Models
and Humans for Open-ended Generation Evaluation [71.76872586182981]
大規模言語モデル(LLM)は、人間の評価に代わるスケーラブルで費用対効果の高い代替品として登場した。
本稿では,タスク固有の基準のチェックリストとテキストの詳細な評価を含む協調評価パイプラインCoEvalを提案する。
論文 参考訳(メタデータ) (2023-10-30T17:04:35Z) - MINT: Evaluating LLMs in Multi-turn Interaction with Tools and Language
Feedback [78.60644407028022]
我々は,大規模言語モデルのマルチターンインタラクションによる課題解決能力を評価するベンチマークであるMINTを紹介する。
LLMは一般的に、ツールと言語フィードバックの恩恵を受けます。
LLMの評価、教師あり指導ファインタニング(SIFT)、人間からのフィードバックからの強化学習(RLHF)は、一般的にマルチターン能力を損なう。
論文 参考訳(メタデータ) (2023-09-19T15:25:42Z) - ChatEval: Towards Better LLM-based Evaluators through Multi-Agent Debate [57.71597869337909]
われわれはChatEvalと呼ばれるマルチエージェントの審判チームを構築し、異なるモデルから生成された応答の品質を自律的に議論し評価する。
分析の結果,ChatEvalは単なるテキストスコアリングを超越し,信頼性評価のための人間模倣評価プロセスを提供することがわかった。
論文 参考訳(メタデータ) (2023-08-14T15:13:04Z) - Large Language Models are Not Yet Human-Level Evaluators for Abstractive
Summarization [66.08074487429477]
抽象的な要約のための自動評価器として,大規模言語モデル(LLM)の安定性と信頼性について検討する。
また、ChatGPTとGPT-4は、一般的に使われている自動測定値よりも優れていますが、人間の代替品として準備ができていません。
論文 参考訳(メタデータ) (2023-05-22T14:58:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。