論文の概要: RAG-E: Quantifying Retriever-Generator Alignment and Failure Modes
- arxiv url: http://arxiv.org/abs/2601.21803v1
- Date: Thu, 29 Jan 2026 14:47:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-30 16:22:49.906762
- Title: RAG-E: Quantifying Retriever-Generator Alignment and Failure Modes
- Title(参考訳): RAG-E:Retriever-Generatorアライメントと障害モードの定量化
- Authors: Korbinian Randl, Guido Rocchietti, Aron Henriksson, Ziawasch Abedjan, Tony Lindgren, John Pavlopoulos,
- Abstract要約: RAG-Eは、数学的に基底化された帰属法により、レトリバー・ジェネレータのアライメントを定量化する、エンドツーエンドの説明可能性フレームワークである。
RAGの出力品質は、個々のコンポーネントのパフォーマンスにのみ依存せず、RAG-Eを介して監査可能な相互運用に依存していることを示す。
- 参考スコア(独自算出の注目度): 10.900031381533354
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Retrieval-Augmented Generation (RAG) systems combine dense retrievers and language models to ground LLM outputs in retrieved documents. However, the opacity of how these components interact creates challenges for deployment in high-stakes domains. We present RAG-E, an end-to-end explainability framework that quantifies retriever-generator alignment through mathematically grounded attribution methods. Our approach adapts Integrated Gradients for retriever analysis, introduces PMCSHAP, a Monte Carlo-stabilized Shapley Value approximation, for generator attribution, and introduces the Weighted Attribution-Relevance Gap (WARG) metric to measure how well a generator's document usage aligns with a retriever's ranking. Empirical analysis on TREC CAsT and FoodSafeSum reveals critical misalignments: for 47.4% to 66.7% of queries, generators ignore the retriever's top-ranked documents, while 48.1% to 65.9% rely on documents ranked as less relevant. These failure modes demonstrate that RAG output quality depends not solely on individual component performance but on their interplay, which can be audited via RAG-E.
- Abstract(参考訳): Retrieval-Augmented Generation (RAG) システムは、高密度検索器と言語モデルを組み合わせて、検索した文書のLLM出力をグラウンド化する。
しかし、これらのコンポーネントがどのように相互作用するかの不透明さは、高い領域に展開する上での課題を生み出します。
RAG-Eは、数学的に基底化された帰属法により、レトリバー・ジェネレータのアライメントを定量化する、エンドツーエンドの説明可能性フレームワークである。
提案手法では, モンテカルロ安定化シェープ値近似である PMCSHAP を導入し, 重み付き属性-関連ギャップ (WARG) 測定値を導入し, 生成元の文書使用率とレトリバーのランキングとの整合性を評価する。
TREC CAsTとFoodSafeSumの実証分析では、47.4%から66.7%のクエリにおいて、ジェネレータは検索者の上位にあるドキュメントを無視し、48.1%から65.9%は関連性の低いドキュメントに依存している。
これらの障害モードは、RAGの出力品質が個々のコンポーネントのパフォーマンスにのみ依存するのではなく、RAG-Eを介して監査できる相互作用に依存していることを示している。
関連論文リスト
- SIRAG: Towards Stable and Interpretable RAG with A Process-Supervised Multi-Agent Framework [7.37561751991963]
本稿では,レシーバとジェネレータのギャップを埋めるプロセス管理型マルチエージェントフレームワークを提案する。
提案するフレームワークはモジュール式でプラグアンドプレイで、レトリバーやジェネレータを変更する必要はない。
論文 参考訳(メタデータ) (2025-09-17T09:09:28Z) - Attributing Response to Context: A Jensen-Shannon Divergence Driven Mechanistic Study of Context Attribution in Retrieval-Augmented Generation [52.3707788779464]
我々は、コンテキストに対する属性応答(ARC-JSD)のための新しいJensen-Shannon Divergence駆動方式を提案する。
ARC-JSDは、追加の微調整、勾配計算、サロゲートモデリングなしで、重要な文脈文の効率的かつ正確な識別を可能にする。
TyDi QA, Hotpot QA, Musique など,様々なスケールの命令調整 LLM を用いたRAG ベンチマークの評価により,精度が向上し,計算効率が向上した。
論文 参考訳(メタデータ) (2025-05-22T09:04:03Z) - MIRAGE: A Metric-Intensive Benchmark for Retrieval-Augmented Generation Evaluation [8.950307082012763]
大規模言語モデル(LLM)の生成能力向上に有効な手法として,検索拡張生成(RAG)が注目されている。
本稿では,RAG評価に特化して設計された質問応答データセットであるMIRAGEについて述べる。
MIRAGEは、37,800エントリの検索プールにマッピングされた7,560のキュレートされたインスタンスで構成され、検索と生成の両方のタスクの効率的かつ正確な評価を可能にする。
論文 参考訳(メタデータ) (2025-04-23T23:05:46Z) - Retrieval-Augmented Generation for Domain-Specific Question Answering: A Case Study on Pittsburgh and CMU [3.1787418271023404]
我々は、ドメイン固有の質問に答えるために、関連文書を含む大規模言語モデルを提供するために、検索型拡張生成システム(RAG)を設計した。
我々は,グリーディスクレーピング戦略を用いて1,800以上のサブページを抽出し,手動とMistralの生成した質問応答ペアを組み合わせたハイブリッドアノテーションプロセスを用いた。
我々のRAGフレームワークはBM25とFAISSレトリバーを統合し、文書検索精度を向上させるリランカで強化した。
論文 参考訳(メタデータ) (2024-11-20T20:10:43Z) - RAGEval: Scenario Specific RAG Evaluation Dataset Generation Framework [66.93260816493553]
本稿では,様々なシナリオにまたがってRAGシステムを評価するためのフレームワークであるRAGvalを紹介する。
事実の正確性に焦点をあてて,完全性,幻覚,不適切性の3つの新しい指標を提案する。
実験結果から, RAGEvalは, 生成した試料の明瞭度, 安全性, 適合性, 豊かさにおいて, ゼロショット法とワンショット法より優れていた。
論文 参考訳(メタデータ) (2024-08-02T13:35:11Z) - Blended RAG: Improving RAG (Retriever-Augmented Generation) Accuracy with Semantic Search and Hybrid Query-Based Retrievers [0.0]
Retrieval-Augmented Generation (RAG) は、大規模言語モデル (LLM) で文書のプライベートな知識基盤を注入し、生成的Q&A (Question-Answering) システムを構築するための一般的なアプローチである。
本稿では,Vector インデックスや Sparse インデックスなどのセマンティック検索手法をハイブリッドクエリ手法と組み合わせた 'Blended RAG' 手法を提案する。
本研究は,NQ や TREC-COVID などの IR (Information Retrieval) データセットの検索結果の改善と,新たなベンチマーク設定を行う。
論文 参考訳(メタデータ) (2024-03-22T17:13:46Z) - ARES: An Automated Evaluation Framework for Retrieval-Augmented Generation Systems [46.522527144802076]
本稿では,RAGシステム評価のための自動RAG評価システムであるARESを紹介する。
ARESは軽量LM判定器を微調整し、個々のRAG成分の品質を評価する。
コードとデータセットをGithubで公開しています。
論文 参考訳(メタデータ) (2023-11-16T00:39:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。