論文の概要: RAG-Zeval: Towards Robust and Interpretable Evaluation on RAG Responses through End-to-End Rule-Guided Reasoning
- arxiv url: http://arxiv.org/abs/2505.22430v1
- Date: Wed, 28 May 2025 14:55:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-29 17:35:50.666058
- Title: RAG-Zeval: Towards Robust and Interpretable Evaluation on RAG Responses through End-to-End Rule-Guided Reasoning
- Title(参考訳): RAG-Zeval: エンドツーエンドルール誘導推論によるRAG応答のロバストかつ解釈可能な評価に向けて
- Authors: Kun Li, Yunxiang Li, Tianhua Zhang, Hongyin Luo, Xixin Wu, James Glass, Helen Meng,
- Abstract要約: RAG-Zevalは、ルール誘導推論タスクとして忠実さと正しさの評価を定式化する、新しいエンドツーエンドフレームワークである。
提案手法は、強化学習による評価者を訓練し、コンパクトなモデルにより包括的および音質評価を生成する。
実験では、RAG-Zevalの優れた性能を示し、人間の判断と最も強い相関性を達成した。
- 参考スコア(独自算出の注目度): 64.46921169261852
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Robust evaluation is critical for deploying trustworthy retrieval-augmented generation (RAG) systems. However, current LLM-based evaluation frameworks predominantly rely on directly prompting resource-intensive models with complex multi-stage prompts, underutilizing models' reasoning capabilities and introducing significant computational cost. In this paper, we present RAG-Zeval (RAG-Zero Evaluator), a novel end-to-end framework that formulates faithfulness and correctness evaluation as a rule-guided reasoning task. Our approach trains evaluators with reinforcement learning, facilitating compact models to generate comprehensive and sound assessments with detailed explanation in one-pass. We introduce a ranking-based outcome reward mechanism, using preference judgments rather than absolute scores, to address the challenge of obtaining precise pointwise reward signals. To this end, we synthesize the ranking references by generating quality-controlled responses with zero human annotation. Experiments demonstrate RAG-Zeval's superior performance, achieving the strongest correlation with human judgments and outperforming baselines that rely on LLMs with 10-100 times more parameters. Our approach also exhibits superior interpretability in response evaluation.
- Abstract(参考訳): ロバスト評価は、信頼できる検索強化世代(RAG)システムを展開する上で重要である。
しかし、現在のLCMベースの評価フレームワークは主に、複雑な多段階のプロンプトを持つリソース集約モデルを直接的に促すこと、モデルの推論能力の過小評価、計算コストの大幅な向上に依存している。
本稿では,ルール誘導推論タスクとして忠実度と正しさ評価を定式化する新しいエンドツーエンドフレームワークであるRAG-Zeval(RAG-Zero Evaluator)を提案する。
提案手法は, 強化学習による評価者を訓練し, ワンパスで詳細な説明とともに, 包括的, 音響的評価を生成するためのコンパクトモデルを構築した。
絶対スコアではなく選好判断を用いたランキングベースの報奨機構を導入し、正確なポイントワイド報奨信号を得るという課題に対処する。
この目的のために,ゼロヒューマンアノテーションで品質制御された応答を生成することでランキング基準を合成する。
実験では、RAG-Zevalの優れた性能を実証し、人間の判断と最強の相関を達成し、10倍から100倍のパラメータを持つLLMに依存するベースラインを上回った。
また,本手法は応答評価において優れた解釈可能性を示す。
関連論文リスト
- T2I-Eval-R1: Reinforcement Learning-Driven Reasoning for Interpretable Text-to-Image Evaluation [60.620408007636016]
T2I-Eval-R1は,大まかな品質スコアのみを用いて,オープンソースのMLLMを訓練する新しい強化学習フレームワークである。
提案手法では,グループ相対政策最適化を命令調整プロセスに統合し,スカラースコアと解釈可能な推論チェーンの両方を生成する。
論文 参考訳(メタデータ) (2025-05-23T13:44:59Z) - RAGXplain: From Explainable Evaluation to Actionable Guidance of RAG Pipelines [0.7373617024876725]
RAGXplainは、RAGのパフォーマンスを定量化し、これらの評価を明確な洞察に変換する評価フレームワークである。
したがって、RAGXplainは定量的評価と実用的な最適化を橋渡しし、ユーザーがAIシステムを理解し、信頼し、拡張することを可能にする。
論文 参考訳(メタデータ) (2025-05-18T17:25:34Z) - From Rankings to Insights: Evaluation Should Shift Focus from Leaderboard to Feedback [36.68929551237421]
包括的できめ細かい結果を提供する評価フレームワークであるbftextFeedbackerを紹介します。
プロジェクトのホームページとデータセットはhttps://liudan193.io/Feedbacker.comで公開されています。
論文 参考訳(メタデータ) (2025-05-10T16:52:40Z) - The Great Nugget Recall: Automating Fact Extraction and RAG Evaluation with Large Language Models [53.12387628636912]
本稿では,人間のアノテーションに対して評価を行う自動評価フレームワークを提案する。
この手法は2003年にTREC Question Answering (QA) Trackのために開発された。
完全自動ナゲット評価から得られるスコアと人間に基づく変種とのランニングレベルでの強い一致を観察する。
論文 参考訳(メタデータ) (2025-04-21T12:55:06Z) - Chain-of-Retrieval Augmented Generation [72.06205327186069]
本稿では,o1-like RAGモデルを学習し,最終回答を生成する前に段階的に関連情報を抽出・推論する手法を提案する。
提案手法であるCoRAGは,進化状態に基づいて動的にクエリを再構成する。
論文 参考訳(メタデータ) (2025-01-24T09:12:52Z) - RMB: Comprehensively Benchmarking Reward Models in LLM Alignment [44.84304822376291]
リワードモデル(RM)は、大きな言語モデル(LLM)のアライメントをガイドする。
我々は、49以上の実世界のシナリオをカバーする包括的なRMベンチマークであるRMBを提案する。
ベンチマークに基づいて、最先端のRMについて広範な分析を行う。
論文 参考訳(メタデータ) (2024-10-13T16:06:54Z) - RAGEval: Scenario Specific RAG Evaluation Dataset Generation Framework [66.93260816493553]
本稿では,様々なシナリオにまたがってRAGシステムを評価するためのフレームワークであるRAGvalを紹介する。
事実の正確性に焦点をあてて,完全性,幻覚,不適切性の3つの新しい指標を提案する。
実験結果から, RAGEvalは, 生成した試料の明瞭度, 安全性, 適合性, 豊かさにおいて, ゼロショット法とワンショット法より優れていた。
論文 参考訳(メタデータ) (2024-08-02T13:35:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。