論文の概要: CCRS: A Zero-Shot LLM-as-a-Judge Framework for Comprehensive RAG Evaluation
- arxiv url: http://arxiv.org/abs/2506.20128v1
- Date: Wed, 25 Jun 2025 04:49:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-26 21:00:42.602985
- Title: CCRS: A Zero-Shot LLM-as-a-Judge Framework for Comprehensive RAG Evaluation
- Title(参考訳): CCRS:総合的なRAG評価のためのゼロショットLCM-as-a-Judgeフレームワーク
- Authors: Aashiq Muhamed,
- Abstract要約: CCRSは、ゼロショットでエンドツーエンドの裁判官として、単一の強力で事前訓練されたLLMを使用する5つのメトリクスからなる新しいスイートである。
CCRSを用いて6種類のRAGシステム構成を、挑戦的なBioASQデータセット上で評価する。
- 参考スコア(独自算出の注目度): 1.7925692773093167
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: RAG systems enhance LLMs by incorporating external knowledge, which is crucial for domains that demand factual accuracy and up-to-date information. However, evaluating the multifaceted quality of RAG outputs, spanning aspects such as contextual coherence, query relevance, factual correctness, and informational completeness, poses significant challenges. Existing evaluation methods often rely on simple lexical overlap metrics, which are inadequate for capturing these nuances, or involve complex multi-stage pipelines with intermediate steps like claim extraction or require finetuning specialized judge models, hindering practical efficiency. To address these limitations, we propose CCRS (Contextual Coherence and Relevance Score), a novel suite of five metrics that utilizes a single, powerful, pretrained LLM as a zero-shot, end-to-end judge. CCRS evaluates: Contextual Coherence (CC), Question Relevance (QR), Information Density (ID), Answer Correctness (AC), and Information Recall (IR). We apply CCRS to evaluate six diverse RAG system configurations on the challenging BioASQ dataset. Our analysis demonstrates that CCRS effectively discriminates between system performances, confirming, for instance, that the Mistral-7B reader outperforms Llama variants. We provide a detailed analysis of CCRS metric properties, including score distributions, convergent/discriminant validity, tie rates, population statistics, and discriminative power. Compared to the complex RAGChecker framework, CCRS offers comparable or superior discriminative power for key aspects like recall and faithfulness, while being significantly more computationally efficient. CCRS thus provides a practical, comprehensive, and efficient framework for evaluating and iteratively improving RAG systems.
- Abstract(参考訳): RAGシステムは、現実の正確さと最新の情報を要求する領域にとって重要な外部知識を組み込むことで、LCMを強化している。
しかしながら、RAG出力の多面的品質の評価には、コンテキストコヒーレンス、クエリ関連性、事実的正確性、情報的完全性といった側面がある。
既存の評価手法は、これらのニュアンスを捉えるのに不十分な単純な語彙重なりのメトリクスや、クレーム抽出のような中間ステップを持つ複雑な多段パイプライン、あるいは特別な判断モデルを必要とするような複雑な多段パイプラインに頼り、実用的な効率を妨げている。
これらの制約に対処するため, CCRS (Contextual Coherence and Relevance Score) を提案する。
CCRSは、コンテキストコヒーレンス(CC)、質問関連(QR)、情報密度(ID)、回答精度(AC)、情報リコール(IR)を評価している。
CCRSを用いて6種類のRAGシステム構成を、挑戦的なBioASQデータセット上で評価する。
我々の分析では,CCRSがシステム性能を効果的に判別し,例えばMistral-7BリーダーがLlamaの変種より優れていることを確認した。
本稿では,スコア分布,収束・識別正当性,タイレート,人口統計,識別力などのCCRS測定特性を詳細に分析する。
複雑なRAGCheckerフレームワークと比較すると、CCRSはリコールや忠実さといった重要な側面に対して同等または優れた差別力を提供し、計算効率は著しく向上している。
CCRSは、RAGシステムを評価し、反復的に改善するための実用的で包括的で効率的なフレームワークを提供する。
関連論文リスト
- CoFE-RAG: A Comprehensive Full-chain Evaluation Framework for Retrieval-Augmented Generation with Enhanced Data Diversity [23.48167670445722]
Retrieval-Augmented Generation (RAG) は、外部知識ソースから取得したコンテキストの助けを借りて、より正確で信頼性の高い回答を生成することを目的としている。
これらのシステムの評価は, 以下の問題により, 依然として重要な研究領域である。
RAGパイプライン全体にわたって徹底的な評価を容易にするために,包括的全チェーン評価(CoFE-RAG)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-16T05:20:32Z) - RAGEval: Scenario Specific RAG Evaluation Dataset Generation Framework [66.93260816493553]
本稿では,様々なシナリオにまたがってRAGシステムを評価するためのフレームワークであるRAGvalを紹介する。
事実の正確性に焦点をあてて,完全性,幻覚,不適切性の3つの新しい指標を提案する。
実験結果から, RAGEvalは, 生成した試料の明瞭度, 安全性, 適合性, 豊かさにおいて, ゼロショット法とワンショット法より優れていた。
論文 参考訳(メタデータ) (2024-08-02T13:35:11Z) - CRUD-RAG: A Comprehensive Chinese Benchmark for Retrieval-Augmented Generation of Large Language Models [49.16989035566899]
Retrieval-Augmented Generation (RAG)は、大規模言語モデル(LLM)の能力を高める技術である。
本稿では,大規模かつ包括的なベンチマークを構築し,様々なRAGアプリケーションシナリオにおけるRAGシステムのすべてのコンポーネントを評価する。
論文 参考訳(メタデータ) (2024-01-30T14:25:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。