論文の概要: Support Evaluation for the TREC 2024 RAG Track: Comparing Human versus LLM Judges
- arxiv url: http://arxiv.org/abs/2504.15205v1
- Date: Mon, 21 Apr 2025 16:20:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-29 15:41:08.484348
- Title: Support Evaluation for the TREC 2024 RAG Track: Comparing Human versus LLM Judges
- Title(参考訳): TREC 2024RAGトラックの支持評価:人間とLLM裁判官の比較
- Authors: Nandan Thakur, Ronak Pradeep, Shivani Upadhyay, Daniel Campos, Nick Craswell, Jimmy Lin,
- Abstract要約: RAG評価において重要な要素は、引用された文書の情報が回答をサポートするかどうかである。
TREC 2024 RAG Trackの36項目について,45件の参加者を大規模に比較検討した。
以上の結果から,手動によるオフスクラッチ評価の56%では,ヒトとGPT-4oの予測が完全に一致していることが示唆された。
- 参考スコア(独自算出の注目度): 53.12387628636912
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Retrieval-augmented generation (RAG) enables large language models (LLMs) to generate answers with citations from source documents containing "ground truth", thereby reducing system hallucinations. A crucial factor in RAG evaluation is "support", whether the information in the cited documents supports the answer. To this end, we conducted a large-scale comparative study of 45 participant submissions on 36 topics to the TREC 2024 RAG Track, comparing an automatic LLM judge (GPT-4o) against human judges for support assessment. We considered two conditions: (1) fully manual assessments from scratch and (2) manual assessments with post-editing of LLM predictions. Our results indicate that for 56% of the manual from-scratch assessments, human and GPT-4o predictions match perfectly (on a three-level scale), increasing to 72% in the manual with post-editing condition. Furthermore, by carefully analyzing the disagreements in an unbiased study, we found that an independent human judge correlates better with GPT-4o than a human judge, suggesting that LLM judges can be a reliable alternative for support assessment. To conclude, we provide a qualitative analysis of human and GPT-4o errors to help guide future iterations of support assessment.
- Abstract(参考訳): Retrieval-augmented Generation (RAG) により、大規模言語モデル (LLM) は、"ground truth" を含むソース文書からの引用による回答を生成でき、システム幻覚を低減できる。
RAG評価において重要な要素は、引用された文書の情報が回答をサポートするかどうかである。
そこで本研究では,TREC 2024 RAG Trackの36項目について,45件の参加者を大規模に比較検討し,自動LLM審査員(GPT-4o)と人的判断者との比較を行った。
我々は,(1)スクラッチからの完全な手動評価,(2)LLM予測の編集後の手動評価の2つの条件を検討した。
以上の結果から,手作業の56%において,人体とGPT-4oの予測は完璧(3段階)に一致し,術後状態のマニュアルでは72%に増加した。
さらに, 偏見のない研究における不一致を慎重に分析することにより, 独立人裁判官がGPT-4oと人間裁判官と相関し, LLM裁判官が支持評価の信頼性のある代替となる可能性が示唆された。
結論として、人間とGPT-4oエラーの質的分析を行い、今後のサポートアセスメントの反復をガイドする。
関連論文リスト
- The Viability of Crowdsourcing for RAG Evaluation [39.275627272019925]
我々は,TREC RAG'24トラックの301トピックに対する903人の書き起こしと903人のLLM生成応答からなるCrowd RAG Corpus 2025(CrowdRAG-25)を提示する。
本分析は,RAGの筆記行動とRAG評価のためのクラウドソーシングの実現可能性について考察した。
論文 参考訳(メタデータ) (2025-04-22T08:13:34Z) - JudgeLRM: Large Reasoning Models as a Judge [65.14085339820795]
我々は,Large Language Models (LLMs) の判断が推論能力の強化から真に恩恵を受けるかどうかを考察する。
本稿では、強化学習(RL)を用いて学習した判断指向LLMのファミリーであるジャッジLRMを紹介する。
論文 参考訳(メタデータ) (2025-03-31T02:18:51Z) - HREF: Human Response-Guided Evaluation of Instruction Following in Language Models [61.273153125847166]
我々は新しい評価ベンチマークHREF(Human Response-Guided Evaluation of Instruction following)を開発した。
HREFは信頼性の高い評価を提供するだけでなく、個々のタスクのパフォーマンスを強調し、汚染を受けない。
本稿では,評価セットのサイズ,判断モデル,ベースラインモデル,プロンプトテンプレートなど,HREFにおける鍵設計選択の影響について検討する。
論文 参考訳(メタデータ) (2024-12-20T03:26:47Z) - A Large-Scale Study of Relevance Assessments with Large Language Models: An Initial Look [52.114284476700874]
本稿では,4つの異なる関連性評価手法が展開された大規模評価(TREC 2024 RAG Track)の結果について報告する。
自動生成UMBRELA判定は、完全に手動による判断を置き換えて、実行レベルの有効性を正確に捉えることができる。
意外なことに、LLMアシストは完全な手作業による評価と相関を増さないようで、人間のループプロセスに関連するコストは明らかな有意義な利益をもたらすものではないことを示唆している。
論文 参考訳(メタデータ) (2024-11-13T01:12:35Z) - Evaluating the Evaluator: Measuring LLMs' Adherence to Task Evaluation Instructions [18.93335792080899]
LLMs-as-a-judgeがAI判断と人間の判断の整合性に与える影響について検討する。
我々は、LLMによる最先端評価で一般的に使用される品質基準の分類を集約し、それを審査員として厳密なモデルベンチマークとして提供する。
論文 参考訳(メタデータ) (2024-08-16T14:49:35Z) - Aligning Model Evaluations with Human Preferences: Mitigating Token Count Bias in Language Model Assessments [2.1370543868467275]
本稿では,大規模言語モデルと人的評価を協調させる手法について検討する。
我々はこのバイアスを定量化するためにベイズ統計とt検定を用い、GPTScorerを調整するための再校正手順を開発した。
以上の結果から,再校正したLCM評価器と,複数のユースケースにおけるヒト評価との整合性は有意に改善した。
論文 参考訳(メタデータ) (2024-07-05T09:26:40Z) - Split and Merge: Aligning Position Biases in LLM-based Evaluators [22.265542509143756]
PortIAは、人間の比較戦略を模倣して位置バイアスを校正するアライメントベースのシステムである。
その結果, Portia はテスト対象のモデルと比較形態の整合性を著しく向上させることがわかった。
GPT-4モデルにおける位置バイアスの約80%を修正し、一貫性を98%まで高める。
論文 参考訳(メタデータ) (2023-09-29T14:38:58Z) - Perspectives on Large Language Models for Relevance Judgment [56.935731584323996]
大型言語モデル(LLM)は、関連判断を支援することができると主張している。
自動判定が検索システムの評価に確実に利用できるかどうかは不明である。
論文 参考訳(メタデータ) (2023-04-13T13:08:38Z) - Revisiting the Gold Standard: Grounding Summarization Evaluation with
Robust Human Evaluation [136.16507050034755]
要約のための既存の人間の評価研究は、アノテータ間の合意が低かったり、スケールが不十分だったりしている。
細粒度セマンティック・ユニットをベースとした改良された要約サリエンス・プロトコルであるAtomic Content Units (ACUs)を提案する。
ロバスト・サムライゼーション・アセスメント(RoSE)ベンチマークは,28の上位性能システム上で22,000の要約レベルのアノテーションからなる大規模な人的評価データセットである。
論文 参考訳(メタデータ) (2022-12-15T17:26:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。