論文の概要: SURE-RAG: Sufficiency and Uncertainty-Aware Evidence Verification for Selective Retrieval-Augmented Generation
- arxiv url: http://arxiv.org/abs/2605.03534v1
- Date: Tue, 05 May 2026 09:05:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-06 19:35:43.861301
- Title: SURE-RAG: Sufficiency and Uncertainty-Aware Evidence Verification for Selective Retrieval-Augmented Generation
- Title(参考訳): SURE-RAG:選択検索拡張生成のための十分かつ不確かさを意識した証拠検証
- Authors: Jingxi Qiu, Zeyu Han, Cheng Huang,
- Abstract要約: 本稿では,証拠満足度がセットレベル特性であることを示す,透過的なアグリゲーションプロトコルSURE-RAGを提案する。
共有ペアレベルのクレームエビデンス検証器は、SURE-RAGが集約した局所的関係分布を解釈可能な応答レベル信号に生成する。
制御されたマルチホップベンチマークであるHotpotQA-RAG v3をアーティファクト・アウェア・プロトコルで評価した。
- 参考スコア(独自算出の注目度): 6.604874054866016
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Retrieval-augmented generation (RAG) grounds answers in retrieved passages, but retrieval is not verification: a passage can be topical and still fail to justify the answer. We frame this gap as evidence sufficiency verification for selective RAG answering: given a question, a candidate answer, and retrieved evidence, predict whether the evidence supports, refutes, or is insufficient, and abstain unless support is established. We present SURE-RAG, a transparent aggregation protocol built on the observation that evidence sufficiency is a set-level property: missing hops and unresolved conflicts cannot be detected by independent passage scoring. A shared pair-level claim-evidence verifier produces local relation distributions, which SURE-RAG aggregates into interpretable answer-level signals -- coverage, relation strength, disagreement, conflict, and retrieval uncertainty -- yielding a three-way decision and an auditable selective score. We evaluate on HotpotQA-RAG v3, a controlled multi-hop benchmark, under an artifact-aware protocol (shortcut baselines, counterfactual swaps, no-oracle checks, GPT-4o audits). Calibrated SURE-RAG reaches 0.9075 Macro-F1 (0.8951 +/- 0.0069), substantially above DeBERTa mean-pooling (0.6516) and a GPT-4o judge (0.7284), while matching a strong but opaque concat cross-encoder (0.8888 +/- 0.0109) with full auditability. Risk at 30% coverage drops from 0.2588 to 0.1642, a 37% reduction in unsafe answers. To deliberately probe the task boundary, we further contrast SURE-RAG with GPT-4o on HaluBench unsafe detection: the ranking reverses (0.3343 vs 0.7389 unsafe-F1), establishing that controlled sufficiency verification and natural hallucination detection are distinct problems.
- Abstract(参考訳): Retrieval-augmented Generation (RAG) は、検索されたパスの回答を根拠にしているが、検索は検証されていない。
我々は、このギャップを、選択RAG回答に有効な証拠として位置づけている: 質問、候補者の回答、そして回収された証拠、証拠が支持し、反証し、あるいは不十分であるか否かを予測し、支持が確立されない限り棄権する。
本稿では,証拠満足度が集合的特性であることを示す透過的な集合プロトコル SURE-RAG について述べる。
共有ペアレベルのクレームエビデンス検証器は、局所的な関係分布を生成し、SURE-RAGは解釈可能な応答レベル信号(カバレッジ、関係強度、不一致、競合、検索の不確実性)に集約し、3方向決定と監査可能な選択スコアを生成する。
制御マルチホップベンチマークであるHotpotQA-RAG v3を,アーティファクト対応プロトコル(ショートカットベースライン,カウンターファクトスワップ,ノラクルチェック,GPT-4o監査)で評価した。
キャリブレーションされたSURE-RAGは0.9075 Macro-F1 (0.8951 +/- 0.0069) に達し、DeBERTa平均プーリング (0.6516) と GPT-4o の判定 (0.7284) を大幅に上回っている。
30%のカバレッジのリスクは0.2588から0.1642に減少し、安全でない回答は37%減少する。
タスク境界を意図的に探究するため,SURE-RAG と GPT-4o とをHaluBench のアンセーフ検出で比較した。
関連論文リスト
- LatentAudit: Real-Time White-Box Faithfulness Monitoring for Retrieval-Augmented Generation with Verifiable Deployment [19.317475241300397]
オープン・ウェイト・ジェネレータから中~後期の残ストリームアクティベーションをプールするホワイトボックス監査機であるLatentAuditを紹介する。
残差ストリーム幾何は、使用可能な忠実度信号を持ち、この信号がアーキテクチャの変化を生き延び、同じ規則が公衆の検証にも適用可能であることを示す。
論文 参考訳(メタデータ) (2026-04-07T02:55:32Z) - Adversarial Intent is a Latent Variable: Stateful Trust Inference for Securing Multimodal Agentic RAG [5.4716896485317195]
マルチモーダルエージェントRAGに対する現在のステートレスディフェンスは、悪意のあるセマンティクスを配布する敵の戦略を検出するのに失敗する。
MMA-RAGTは,MTA (Modular Trust Agent) が管理する推定時制御フレームワークで,ほぼ信頼状態を維持している。
論文 参考訳(メタデータ) (2026-02-24T23:52:27Z) - Rethinking the Reranker: Boundary-Aware Evidence Selection for Robust Retrieval-Augmented Generation [64.09110141948693]
Retrieval-Augmented Generation (RAG) システムは、現実的な検索ノイズの下でも不安定である。
そこで我々は,BAR-RAGを提案する。このBAR-RAGは,発電機のGoldilocks Zoneをターゲットとした境界認識型エビデンスセレクタである。
Bar-RAGはノイズ検索において、エンドツーエンドのパフォーマンスを一貫して改善する。
論文 参考訳(メタデータ) (2026-02-03T16:08:23Z) - SpatialBench-UC: Uncertainty-Aware Evaluation of Spatial Prompt Following in Text-to-Image Generation [0.0]
SpaceBench-UCは、ペアの空間関係を再現可能な小さなベンチマークである。
ベンチマークパッケージ、バージョン付きプロンプト、ピン付き構成、サンプルごとのチェッカー出力、レポートテーブルをリリースします。
安定拡散1.5, SD 1.5 BoxDiff, SD 1.4 GLIGENの3つのベースラインについて検討した。
論文 参考訳(メタデータ) (2026-01-19T23:37:10Z) - Seeing through the Conflict: Transparent Knowledge Conflict Handling in Retrieval-Augmented Generation [12.469991196570106]
TCR (Transparent Conflict Resolution) は、二重コントラストエンコーダを介して意味マッチングと事実整合性を切り離す。
知識ギャップリカバリを+21.4ppで増加させ、誤解を招くコンテキストオーバーライドを-29.3ppで削減し、パラメータは0.3%に留まる。
信号は人間の判断と一致し、時間的決定パターンを明らかにする。
論文 参考訳(メタデータ) (2026-01-11T10:08:49Z) - CARE What Fails: Contrastive Anchored-REflection for Verifiable Multimodal [84.71254539482369]
検証可能な報酬を伴うグループ相対的強化学習(RLVR)は、しばしば、すでに失敗している最も情報に富むデータを浪費する。
エラーを監督するマルチモーダル推論のための,障害中心のポストトレーニングフレームワークであるCAREを提案する。
CAREは正確さを改善し、スムーズさをトレーニングすると同時に、障害からの学習信号のシェアを明示的に増やします。
論文 参考訳(メタデータ) (2025-12-22T16:34:21Z) - From Facts to Conclusions : Integrating Deductive Reasoning in Retrieval-Augmented LLMs [5.838119242443381]
本稿では,3段階にまたがる構造的,解釈可能な推論を付加する推論トレース拡張RAGフレームワークを提案する。
矛盾認識信頼スコア(CATS)パイプラインを導入し、基礎性、事実的正確性、拒絶精度、紛争行動アライメントを評価する。
論文 参考訳(メタデータ) (2025-12-18T17:27:51Z) - Eigen-1: Adaptive Multi-Agent Refinement with Monitor-Based RAG for Scientific Reasoning [53.45095336430027]
暗黙的な検索と構造化された協調を組み合わせた統合フレームワークを開発する。
Humanity's Last Exam (HLE) Bio/Chem Goldでは,48.3%の精度を実現している。
SuperGPQAとTRQAの結果はドメイン間の堅牢性を確認した。
論文 参考訳(メタデータ) (2025-09-25T14:05:55Z) - Retrieval-Augmented Generation with Conflicting Evidence [57.66282463340297]
大規模言語モデル (LLM) エージェントは、応答の事実性を改善するために、検索強化世代 (RAG) をますます採用している。
実際には、これらのシステムは曖昧なユーザクエリを処理し、複数のソースからの情報に衝突する可能性がある。
RAMDocs(Retrieval with Ambiguity and Misinformation in Documents)は,ユーザクエリのエビデンスを矛盾させるような,複雑で現実的なシナリオをシミュレートする新しいデータセットである。
論文 参考訳(メタデータ) (2025-04-17T16:46:11Z) - Towards Copyright Protection for Knowledge Bases of Retrieval-augmented Language Models via Reasoning [58.57194301645823]
大規模言語モデル(LLM)は、現実のパーソナライズされたアプリケーションにますます統合されている。
RAGで使用される知識基盤の貴重かつしばしばプロプライエタリな性質は、敵による不正使用のリスクをもたらす。
これらの知識基盤を保護するための透かし技術として一般化できる既存の方法は、一般的に毒やバックドア攻撃を含む。
我々は、無害な」知識基盤の著作権保護の名称を提案する。
論文 参考訳(メタデータ) (2025-02-10T09:15:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。