論文の概要: CCRS: A Zero-Shot LLM-as-a-Judge Framework for Comprehensive RAG Evaluation
- arxiv url: http://arxiv.org/abs/2506.20128v1
- Date: Wed, 25 Jun 2025 04:49:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-26 21:00:42.602985
- Title: CCRS: A Zero-Shot LLM-as-a-Judge Framework for Comprehensive RAG Evaluation
- Title(参考訳): CCRS:総合的なRAG評価のためのゼロショットLCM-as-a-Judgeフレームワーク
- Authors: Aashiq Muhamed,
- Abstract要約: CCRSは、ゼロショットでエンドツーエンドの裁判官として、単一の強力で事前訓練されたLLMを使用する5つのメトリクスからなる新しいスイートである。
CCRSを用いて6種類のRAGシステム構成を、挑戦的なBioASQデータセット上で評価する。
- 参考スコア(独自算出の注目度): 1.7925692773093167
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: RAG systems enhance LLMs by incorporating external knowledge, which is crucial for domains that demand factual accuracy and up-to-date information. However, evaluating the multifaceted quality of RAG outputs, spanning aspects such as contextual coherence, query relevance, factual correctness, and informational completeness, poses significant challenges. Existing evaluation methods often rely on simple lexical overlap metrics, which are inadequate for capturing these nuances, or involve complex multi-stage pipelines with intermediate steps like claim extraction or require finetuning specialized judge models, hindering practical efficiency. To address these limitations, we propose CCRS (Contextual Coherence and Relevance Score), a novel suite of five metrics that utilizes a single, powerful, pretrained LLM as a zero-shot, end-to-end judge. CCRS evaluates: Contextual Coherence (CC), Question Relevance (QR), Information Density (ID), Answer Correctness (AC), and Information Recall (IR). We apply CCRS to evaluate six diverse RAG system configurations on the challenging BioASQ dataset. Our analysis demonstrates that CCRS effectively discriminates between system performances, confirming, for instance, that the Mistral-7B reader outperforms Llama variants. We provide a detailed analysis of CCRS metric properties, including score distributions, convergent/discriminant validity, tie rates, population statistics, and discriminative power. Compared to the complex RAGChecker framework, CCRS offers comparable or superior discriminative power for key aspects like recall and faithfulness, while being significantly more computationally efficient. CCRS thus provides a practical, comprehensive, and efficient framework for evaluating and iteratively improving RAG systems.
- Abstract(参考訳): RAGシステムは、現実の正確さと最新の情報を要求する領域にとって重要な外部知識を組み込むことで、LCMを強化している。
しかしながら、RAG出力の多面的品質の評価には、コンテキストコヒーレンス、クエリ関連性、事実的正確性、情報的完全性といった側面がある。
既存の評価手法は、これらのニュアンスを捉えるのに不十分な単純な語彙重なりのメトリクスや、クレーム抽出のような中間ステップを持つ複雑な多段パイプライン、あるいは特別な判断モデルを必要とするような複雑な多段パイプラインに頼り、実用的な効率を妨げている。
これらの制約に対処するため, CCRS (Contextual Coherence and Relevance Score) を提案する。
CCRSは、コンテキストコヒーレンス(CC)、質問関連(QR)、情報密度(ID)、回答精度(AC)、情報リコール(IR)を評価している。
CCRSを用いて6種類のRAGシステム構成を、挑戦的なBioASQデータセット上で評価する。
我々の分析では,CCRSがシステム性能を効果的に判別し,例えばMistral-7BリーダーがLlamaの変種より優れていることを確認した。
本稿では,スコア分布,収束・識別正当性,タイレート,人口統計,識別力などのCCRS測定特性を詳細に分析する。
複雑なRAGCheckerフレームワークと比較すると、CCRSはリコールや忠実さといった重要な側面に対して同等または優れた差別力を提供し、計算効率は著しく向上している。
CCRSは、RAGシステムを評価し、反復的に改善するための実用的で包括的で効率的なフレームワークを提供する。
関連論文リスト
- Source Attribution in Retrieval-Augmented Generation [3.579940498399598]
本稿では,RAGにおける重要文書を識別するために,Shapleyに基づく属性を適応させることの有効性と有効性について検討する。
本研究の目的は,(1) 確立された帰属原則をRAG文書レベル設定に体系的に適用すること,(2) SHAP近似がどの程度正確な帰属を反映できるかを定量化すること,(3) 重要な文書を特定するための実践的説明可能性を評価することである。
論文 参考訳(メタデータ) (2025-07-06T17:36:45Z) - AlignRAG: Leveraging Critique Learning for Evidence-Sensitive Retrieval-Augmented Reasoning [61.28113271728859]
RAGは知識ベースで大規模言語モデル(LLM)を実現するためのパラダイムとして広く採用されている。
標準的なRAGパイプラインは、モデル推論が取得した証拠と整合性を維持するのに失敗することが多く、事実上の矛盾や否定的な結論につながる。
本研究では,RAGをRetrieval-Augmented Reasoningと解釈し,中心的だが未探索な問題であるtextitReasoning Misalignmentを同定する。
論文 参考訳(メタデータ) (2025-04-21T04:56:47Z) - Unanswerability Evaluation for Retrieval Augmented Generation [74.3022365715597]
UAEval4RAGは、RAGシステムが解答不能なクエリを効果的に処理できるかどうかを評価するために設計されたフレームワークである。
我々は、6つの未解決カテゴリを持つ分類を定義し、UAEval4RAGは、多様で挑戦的なクエリを自動的に合成する。
論文 参考訳(メタデータ) (2024-12-16T19:11:55Z) - CoFE-RAG: A Comprehensive Full-chain Evaluation Framework for Retrieval-Augmented Generation with Enhanced Data Diversity [23.48167670445722]
Retrieval-Augmented Generation (RAG) は、外部知識ソースから取得したコンテキストの助けを借りて、より正確で信頼性の高い回答を生成することを目的としている。
これらのシステムの評価は, 以下の問題により, 依然として重要な研究領域である。
RAGパイプライン全体にわたって徹底的な評価を容易にするために,包括的全チェーン評価(CoFE-RAG)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-16T05:20:32Z) - SFR-RAG: Towards Contextually Faithful LLMs [57.666165819196486]
Retrieval Augmented Generation (RAG) は、外部コンテキスト情報を大言語モデル(LLM)と統合し、事実の精度と妥当性を高めるパラダイムである。
SFR-RAG(SFR-RAG)について述べる。
また、複数の人気かつ多様なRAGベンチマークをコンパイルする新しい評価フレームワークであるConBenchについても紹介する。
論文 参考訳(メタデータ) (2024-09-16T01:08:18Z) - RAGEval: Scenario Specific RAG Evaluation Dataset Generation Framework [66.93260816493553]
本稿では,様々なシナリオにまたがってRAGシステムを評価するためのフレームワークであるRAGvalを紹介する。
事実の正確性に焦点をあてて,完全性,幻覚,不適切性の3つの新しい指標を提案する。
実験結果から, RAGEvalは, 生成した試料の明瞭度, 安全性, 適合性, 豊かさにおいて, ゼロショット法とワンショット法より優れていた。
論文 参考訳(メタデータ) (2024-08-02T13:35:11Z) - A Thorough Performance Benchmarking on Lightweight Embedding-based Recommender Systems [67.52782366565658]
State-of-the-art recommender system (RS) は、埋め込みベクトルによって符号化される分類的特徴に依存し、結果として非常に大きな埋め込みテーブルとなる。
軽量埋め込み型RSの繁栄にもかかわらず、評価プロトコルには幅広い多様性が見られる。
本研究では, LERSの性能, 効率, クロスタスク転送性について, 徹底的なベンチマークによる検討を行った。
論文 参考訳(メタデータ) (2024-06-25T07:45:00Z) - CRUD-RAG: A Comprehensive Chinese Benchmark for Retrieval-Augmented Generation of Large Language Models [49.16989035566899]
Retrieval-Augmented Generation (RAG)は、大規模言語モデル(LLM)の能力を高める技術である。
本稿では,大規模かつ包括的なベンチマークを構築し,様々なRAGアプリケーションシナリオにおけるRAGシステムのすべてのコンポーネントを評価する。
論文 参考訳(メタデータ) (2024-01-30T14:25:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。