論文の概要: RAGVUE: A Diagnostic View for Explainable and Automated Evaluation of Retrieval-Augmented Generation
- arxiv url: http://arxiv.org/abs/2601.04196v1
- Date: Wed, 03 Dec 2025 07:42:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-25 16:54:51.508286
- Title: RAGVUE: A Diagnostic View for Explainable and Automated Evaluation of Retrieval-Augmented Generation
- Title(参考訳): RAGVUE:Retrieval-Augmented Generationの説明可能な自動評価のための診断的視点
- Authors: Keerthana Murugaraj, Salima Lamsiyah, Martin Theobald,
- Abstract要約: RAGVUEはRetrieval-Augmented Generation (RAG)システムを評価するためのフレームワークである。
RAGの振る舞いを検索品質、回答の妥当性と完全性、厳格なクレームレベルの忠実さ、および判断の校正に分解する。
RAGVUEは手動のメートル法選択と完全に自動化されたエージェント評価の両方をサポートしている。
- 参考スコア(独自算出の注目度): 1.564663326217051
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Evaluating Retrieval-Augmented Generation (RAG) systems remains a challenging task: existing metrics often collapse heterogeneous behaviors into single scores and provide little insight into whether errors arise from retrieval,reasoning, or grounding. In this paper, we introduce RAGVUE, a diagnostic and explainable framework for automated, reference-free evaluation of RAG pipelines. RAGVUE decomposes RAG behavior into retrieval quality, answer relevance and completeness, strict claim-level faithfulness, and judge calibration. Each metric includes a structured explanation, making the evaluation process transparent. Our framework supports both manual metric selection and fully automated agentic evaluation. It also provides a Python API, CLI, and a local Streamlit interface for interactive usage. In comparative experiments, RAGVUE surfaces fine-grained failures that existing tools such as RAGAS often overlook. We showcase the full RAGVUE workflow and illustrate how it can be integrated into research pipelines and practical RAG development. The source code and detailed instructions on usage are publicly available on GitHub
- Abstract(参考訳): 既存のメトリクスは、不均一な振る舞いを単一のスコアに分解することが多く、エラーが検索、推論、グラウンドリングから発生するかどうかについての洞察はほとんど得られない。
本稿では,RAGパイプラインの自動参照フリー評価のための診断・説明可能なフレームワークであるRAGVUEを紹介する。
RAGVUEは、RAGの振る舞いを、検索品質、回答の妥当性と完全性、厳格なクレームレベルの忠実さ、および判断キャリブレーションに分解する。
各メトリクスは構造化された説明を含んでおり、評価プロセスは透過的である。
我々のフレームワークは、手動の計量選択と完全に自動化されたエージェント評価の両方をサポートしている。
また、インタラクティブな使用のためのPython API、CLI、ローカルのStreamlitインターフェースも提供する。
比較実験では、RAGVUEはRAGASのような既存のツールがしばしば見落としている、きめ細かい欠陥を表面化する。
RAGVUEの完全なワークフローを紹介し、研究パイプラインと実践的なRAG開発にどのように統合できるかを説明します。
ソースコードと使用に関する詳細な説明はGitHubで公開されている。
関連論文リスト
- MIRAGE: A Metric-Intensive Benchmark for Retrieval-Augmented Generation Evaluation [8.950307082012763]
大規模言語モデル(LLM)の生成能力向上に有効な手法として,検索拡張生成(RAG)が注目されている。
本稿では,RAG評価に特化して設計された質問応答データセットであるMIRAGEについて述べる。
MIRAGEは、37,800エントリの検索プールにマッピングされた7,560のキュレートされたインスタンスで構成され、検索と生成の両方のタスクの効率的かつ正確な評価を可能にする。
論文 参考訳(メタデータ) (2025-04-23T23:05:46Z) - RAGChecker: A Fine-grained Framework for Diagnosing Retrieval-Augmented Generation [61.14660526363607]
本稿では,検索モジュールと生成モジュールの両方に対して,一連の診断指標を組み込んだ詳細な評価フレームワークであるRAGCheckerを提案する。
RAGCheckerは、他の評価指標よりも、人間の判断との相関が著しく優れている。
RAGCheckerのメトリクスは、より効果的なRAGシステムの開発において研究者や実践者を導くことができる。
論文 参考訳(メタデータ) (2024-08-15T10:20:54Z) - RAGEval: Scenario Specific RAG Evaluation Dataset Generation Framework [66.93260816493553]
本稿では,様々なシナリオにまたがってRAGシステムを評価するためのフレームワークであるRAGvalを紹介する。
事実の正確性に焦点をあてて,完全性,幻覚,不適切性の3つの新しい指標を提案する。
実験結果から, RAGEvalは, 生成した試料の明瞭度, 安全性, 適合性, 豊かさにおいて, ゼロショット法とワンショット法より優れていた。
論文 参考訳(メタデータ) (2024-08-02T13:35:11Z) - RAGBench: Explainable Benchmark for Retrieval-Augmented Generation Systems [0.0]
Retrieval-Augmented Generation (RAG)は、ユーザ向けチャットアプリケーションにおけるドメイン固有の知識の標準的なアーキテクチャパターンとなっている。
RAGBenchは、100kのサンプルからなる、最初の包括的な大規模RAGベンチマークデータセットである。
TRACe評価フレームワークは、すべてのRAGドメインに適用可能な説明可能かつ実行可能なRAG評価指標のセットである。
論文 参考訳(メタデータ) (2024-06-25T20:23:15Z) - ARES: An Automated Evaluation Framework for Retrieval-Augmented Generation Systems [46.522527144802076]
本稿では,RAGシステム評価のための自動RAG評価システムであるARESを紹介する。
ARESは軽量LM判定器を微調整し、個々のRAG成分の品質を評価する。
コードとデータセットをGithubで公開しています。
論文 参考訳(メタデータ) (2023-11-16T00:39:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。