論文の概要: Trust or Abstain? A Self-Aware RAG Approach
- arxiv url: http://arxiv.org/abs/2605.18792v1
- Date: Mon, 11 May 2026 05:44:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-20 21:37:32.329919
- Title: Trust or Abstain? A Self-Aware RAG Approach
- Title(参考訳): 信頼か存在か? 自己認識型RAGアプローチ
- Authors: Xi Zhu, Ziqi Wang, Kai Mei, Wujiang Xu, Minghao Guo, Bangji Yang, Jiajun Fan, Dimitris N. Metaxas,
- Abstract要約: Retrieval-augmented Generation (RAG)は、外部のエビデンスを組み込むことで、大きな言語モデルを改善する。
既存のアプローチは、各回答パスが正しいかどうかを明示的に問うことなく、使用するソースをコーディネートする。
我々は、忠実なRAGはLLM自己認識、すなわち、自身の知識と推論の限界を認識する能力を必要としていると論じる。
- 参考スコア(独自算出の注目度): 45.1230482333942
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Retrieval-augmented generation (RAG) improves large language models (LLMs) by incorporating external evidence, but it also introduces knowledge conflicts when retrieved contextual knowledge (CK) and parametric knowledge (PK) disagree or are both unreliable. Existing approaches mainly coordinate which source to use, without explicitly asking whether each answer path is correct. We argue that faithful RAG requires LLM self-awareness, namely the ability to recognize the limits of its own knowledge and reasoning. To ground this problem, we construct a model-specific, ground-truth-aligned knowledge-conflict benchmark by evaluating LLM backbones on PK-only and CK-conditioned answer paths over approximately 69K query-context instances per backbone, drawn from five conflict-QA datasets. We then introduce SABER, a Self-Aware Belief Estimator for RAG that requires no LLM fine-tuning. SABER combines a self-prior with PK-side and CK-side conditional reasoning representations from multi-trace inference, then estimates reliability beliefs with two lightweight predictors to drive a 4-cell decision over trust PK, trust CK, trust either, or abstain. Across four LLM backbones, SABER improves end-to-end accuracy and conflict-specific faithfulness over ten inference-time and fine-tuning baselines, with the largest gains on conflict-heavy datasets. Under abstention, SABER's risk-coverage curve Pareto-dominates every prompt-based abstainer, providing a tunable balance between coverage and answer risk. Our code is available at https://github.com/xizhu1022/SABER.
- Abstract(参考訳): Retrieval-augmented Generation (RAG)は、外部の証拠を組み込むことで、大きな言語モデル(LLM)を改善するが、検索された文脈知識(CK)とパラメトリック知識(PK)が一致しない場合や、信頼できない場合の知識衝突も導入する。
既存のアプローチは、各回答パスが正しいかどうかを明示的に問うことなく、使用するソースをコーディネートする。
我々は、忠実なRAGはLLM自己認識、すなわち、自身の知識と推論の限界を認識する能力を必要としていると論じる。
そこで本研究では,PKのみのLLMバックボーンとCK条件の応答パスを,5つのコンフリクトQAデータセットから抽出した約69Kのクエリコンテキストインスタンス上で評価することにより,モデル固有で地層構造に整合した知識競合ベンチマークを構築した。
次に, LLM微調整を必要としないRAGのための自己認識的信念推定器であるSABERを紹介する。
SABERは、PK側とCK側の条件推論表現を多トレース推論から組み合わせ、信頼性の信念を2つの軽量予測器で推定し、4セルのPK、信頼のCK、信頼のどちらか、または断固とした決定を駆動する。
4つのLCMバックボーンにわたって、SABERは10の推論時間と微調整ベースラインに対して、エンドツーエンドの正確性とコンフリクト固有の忠実性を改善し、コンフリクト重データセットに最大の利益をもたらす。
禁忌の下で、SABERのリスクカバレッジ曲線Pareto-は、すべてのプロンプトベースの禁忌者を支配し、カバレッジと回答リスクの調整可能なバランスを提供する。
私たちのコードはhttps://github.com/xizhu1022/SABER.comから入手可能です。
関連論文リスト
- Confidence-Aware Alignment Makes Reasoning LLMs More Reliable [65.44962502963378]
CASPOは、トークンレベルの信頼度とステップワイドな論理的正しさを、個別の報酬モデルをトレーニングせずに整合させるフレームワークである。
推論中、信頼を意識した思考(CaT)を提案し、不確実な推論枝を無視可能なO(V)レイテンシで動的に生成する。
10のベンチマークと複数のモデルファミリでの実験では、CASPOは推論の信頼性と推論効率を一貫して改善している。
論文 参考訳(メタデータ) (2026-05-08T07:08:25Z) - Beyond Semantic Relevance: Counterfactual Risk Minimization for Robust Retrieval-Augmented Generation [19.888565537472363]
CoRM-RAG(Counterfactual Risk Minimization for RAG)は、検索と意思決定の安全性を一致させるフレームワークである。
トレーニング中にユーザのバイアスをシミュレートする認知摂動プロトコルを導入し,それを軽量なエビデンス・クリティカルに蒸留する。
このスコアリングモジュールは、対向的なクエリの摂動にも拘わらず、モデルの正しさを判断するために十分な明らかな強度を持つ文書を特定することを学習する。
論文 参考訳(メタデータ) (2026-05-02T07:22:24Z) - FACT-E: Causality-Inspired Evaluation for Trustworthy Chain-of-Thought Reasoning [49.65751420291115]
CoT(Chain-of-Thought)プロンプトはLSM推論を改善したが、モデルはしばしば不誠実な中間ステップを含むコヒーレントな説明を生成する。
我々は、CoTの品質を評価するための因果性に着想を得たフレームワークであるFACT-Eを提案する。
FACT-Eは推論・軌道選択を改善し、文脈内学習を強くすることを示す。
論文 参考訳(メタデータ) (2026-04-12T15:35:08Z) - URAG: A Benchmark for Uncertainty Quantification in Retrieval-Augmented Large Language Models [35.441039437111606]
URAGは、医療、プログラミング、科学、数学、一般的なテキストなど、さまざまな分野にわたるRAGシステムの不確実性を評価するために設計されたベンチマークである。
評価パイプラインを8つの標準RAG手法に適用し,LACとAPSの計測値に基づいて,精度と予測セットのサイズを両立させ,その性能を計測する。
論文 参考訳(メタデータ) (2026-03-02T00:22:06Z) - Epistemic Context Learning: Building Trust the Right Way in LLM-Based Multi-Agent Systems [94.9141394384021]
マルチエージェントシステムの個々のエージェントは、しばしば堅牢性を欠き、誤解を招く仲間に盲目的に適合する傾向にある。
この弱点は, 相互信頼度を評価する能力の欠如に起因していると考えられる。
まず,歴史認識参照の学習問題を定式化し,ピア間の歴史的相互作用を付加的な入力として導入する。
次に,歴史的に構築されたピアプロファイルの予測を行うための推論フレームワークであるEcestemic Context Learning (ECL) を開発した。
論文 参考訳(メタデータ) (2026-01-29T13:59:32Z) - After Retrieval, Before Generation: Enhancing the Trustworthiness of Large Language Models in RAG [13.603907803297561]
RAGシステムは、内部(パラメトリック)と外部(検索)の知識のバランスをとる際の課題に直面します。
本稿では,大規模言語モデルの包括的応答戦略を動的に決定するBRIDGEフレームワークを提案する。
実験では、BRIDGEはすべてのシナリオでバランスの取れたパフォーマンスを維持しながら、ベースラインを5~15%精度で上回っている。
論文 参考訳(メタデータ) (2025-05-21T16:29:19Z) - Parameters vs. Context: Fine-Grained Control of Knowledge Reliance in Language Models [39.73834207174728]
Retrieval-Augmented Generation (RAG)は、外部知識を統合することで、大規模言語モデル(LLM)における幻覚を緩和する。
パラメトリック知識と検索コンテキストの対立は、RAGに課題をもたらす。
パラメトリックおよび文脈知識へのRAGの依存度を制御するためのプラグイン・アンド・プレイ方式である*CK-PLUG*を提案する。
論文 参考訳(メタデータ) (2025-03-20T06:26:28Z) - Aligning Large Language Models for Faithful Integrity Against Opposing Argument [71.33552795870544]
大規模言語モデル(LLM)は複雑な推論タスクにおいて印象的な機能を示している。
原文が正しい場合でも、会話中に不誠実な議論によって容易に誤解される。
本稿では,信頼度と信頼度を両立させる新しい枠組みを提案する。
論文 参考訳(メタデータ) (2025-01-02T16:38:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。