論文の概要: Does RAG Know When Retrieval Is Wrong? Diagnosing Context Compliance under Knowledge Conflict
- arxiv url: http://arxiv.org/abs/2605.14473v2
- Date: Fri, 15 May 2026 03:01:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-18 21:22:25.986529
- Title: Does RAG Know When Retrieval Is Wrong? Diagnosing Context Compliance under Knowledge Conflict
- Title(参考訳): RAGは検索が間違っていることを知っているか?知識紛争下でコンテキストコンプライアンスを診断する
- Authors: Yihang Chen, Pin Qian, Su Wang, Sipeng Zhang, Huan Xu, Shuhuai Lin, Xinpeng Wei,
- Abstract要約: 文脈駆動分解(英: Context-Driven Decomposition、CDD)は、推論時に動作する信念分解プローブである。
制御された検索競合の介入メカニズムとして機能する。
これら3つのパターンは、標準的なRAGを探索できる構造軸としてコンテキスト準拠を識別する。
- 参考スコア(独自算出の注目度): 7.091145002779077
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Context-Compliance Regime in Retrieval-Augmented Generation (RAG) occurs when retrieved context dominates the final answer even when it conflicts with the model's parametric knowledge. Accuracy alone does not reveal how retrieved context causally shapes answers under such conflict. We introduce Context-Driven Decomposition (CDD), a belief-decomposition probe that operates at inference time and serves as an intervention mechanism for controlled retrieval conflict. Across Epi-Scale stress tests, TruthfulQA misconception injection, and cross-model reruns, CDD exposes three patterns. P1: context compliance is measurable in an upper-bound adversarial setting, where Standard RAG reaches 15.0% accuracy on TruthfulQA misconception injection (N=500). P2: adversarial accuracy gains transfer across model families -- CDD improves accuracy on Gemini-2.5-Flash and on Claude Haiku/Sonnet/Opus -- but rationale-answer causal coupling does not transfer. CDD reaches 64.1% mistake-injection causal sensitivity on Gemini-2.5-Flash, while sensitivities for all three Claude variants fall in the [-3%, +7%] range, suggesting that the Claude-side accuracy gains operate through a mechanism distinct from the explicit conflict-resolution trace. P3: explicit conflict decomposition improves robustness under temporal drift and noisy distractors, with CDD reaching 71.3% on temporal shifts and 69.9% on distractor evidence on the full Epi-Scale adversarial benchmark. These three patterns identify context-compliance as a structural axis along which standard RAG can be probed and intervened on, distinct from retrieval-quality or single-method robustness questions, and motivate releasing Epi-Scale for systematic study across model families and retrieval pipelines.
- Abstract(参考訳): Retrieval-Augmented Generation(RAG)におけるコンテキストコンプライアンスレジーム(Context-Compliance Regime)は、検索されたコンテキストがモデルのパラメトリック知識と矛盾する場合でも、最終回答を支配するときに発生する。
正確性だけでは、検索された文脈がそのような矛盾の下でどのように回答を因果的に形成するかは明らかにしない。
本稿では,予測時に動作し,制御された検索競合の介入機構として機能する信念分解プローブであるコンテキスト駆動分解(CDD)を紹介する。
エピスケールストレステスト、トゥルースフルQA誤解注入、クロスモデル再実行、CDDは3つのパターンを公開する。
P1: コンテキストコンプライアンスは、Standard RAGがTruthfulQA誤認注入(N=500)で15.0%の精度に達する上行対向設定で測定可能である。
P2: 正反対の精度がモデルファミリ間で転送される -- CDDはGemini-2.5-FlashとClaude Haiku/Sonnet/Opusの精度を改善するが、合理性-問合せの因果結合は転送されない。
CDDはGemini-2.5-Flashに対して64.1%のミスインジェクション因果感度に達し、一方3つのクロード変種に対する感度は[-3%, +7%]の範囲に低下し、クロード側の精度向上は明示的なコンフリクト分解能の痕跡とは異なるメカニズムで作用することを示す。
P3: 明示的な対立の分解は、時間的ドリフトとノイズの散らばりの下で頑健さを向上し、CDDは時間的シフトで71.3%、エピスケールの正反対ベンチマークでは69.9%に達した。
これらの3つのパターンは、標準的なRAGを探索し、介入できる構造軸としてコンテキスト準拠を識別し、検索品質や単一メソッドのロバストネスの質問とは区別し、モデルファミリーや検索パイプラインを横断する体系的な研究のためのエピスケールのリリースを動機付けている。
関連論文リスト
- Three Regimes of Context-Parametric Conflict: A Predictive Framework and Empirical Validation [0.0]
大規模言語モデルが学習知識と矛盾する文書の相違にどのように対処するかを考察する。
本稿では,Regime 1 (単一ソース更新),Regime 2 (競合統合),Regime 3 (タスクに適した選択)という3つの登録フレームワークを提案する。
我々はClaude Sonnet 4.6、GPT-5.5、Gemini 2.5 Flash、Llama 4 Maverick、DeepSeek V3の3つの実験段階で9,970のAPIコールを使用してフレームワークを検証する。
論文 参考訳(メタデータ) (2026-05-12T06:00:48Z) - Adaptive Consensus in LLM Ensembles via Sequential Evidence Accumulation: Automatic Budget Identification and Calibrated Commit Signals [0.3384279376065155]
大きな言語モデルアンサンブルは、パフォーマンス境界までの推論精度を改善する。
DASE(Deliberative Adaptive Stopping Ensemble)は、真のコンセンサスを早期にコミットし、断片化された証拠にグローバル周波数のフォールバックを適用するアンサンブルである。
論文 参考訳(メタデータ) (2026-05-05T19:24:10Z) - Towards Trustworthy Depression Estimation via Disentangled Evidential Learning [50.22167852149165]
EviDepはうつ病の重症度を共同で定量化する明らかな学習フレームワークである。
EviDepは、堅牢な証拠合成を保証するために厳密な情報整合性を強制する。
最先端の予測精度と優れた不確実性校正を実現し、信頼できる臨床スクリーニングのための堅牢なフェールセーフメカニズムを提供する。
論文 参考訳(メタデータ) (2026-04-17T13:27:11Z) - Benchmarking Multi-turn Medical Diagnosis: Hold, Lure, and Self-Correction [72.89352076103889]
大規模言語モデル (LLM) は, 臨床情報がすべて一ターンで提供される場合に, 高い精度で診断を行う。
1,035例からなる高忠実多ターン診断ベンチマークであるMINTを導入する。
診断決定に大きな影響を及ぼす3つの永続的な行動パターンを明らかにする。
論文 参考訳(メタデータ) (2026-04-06T00:23:10Z) - TRIAGE: Type-Routed Interventions via Aleatoric-Epistemic Gated Estimation in Robotic Manipulation and Adaptive Perception -- Don't Treat All Uncertainty the Same [2.755751829139168]
ほとんどの不確実性を認識したロボットシステムは、予測の不確実性を単一のスカラースコアに分解し、それを使って一様に修正された応答をトリガーする。
このアグリゲーションは、破損した観測結果から不確実性が生じるか、あるいは学習されたモデルと真のシステム力学とのミスマッチから生じるのかを曖昧にしている。
本研究では,不確かさを動脈およびてんかん成分に分解する軽量なポストホックフレームワークを導入し,これらの信号を用いて推論時のシステム応答を調節する。
論文 参考訳(メタデータ) (2026-03-09T09:07:43Z) - Agentic retrieval-augmented reasoning reshapes collective reliability under model variability in radiology question answering [1.295312759062166]
エージェント検索強化推論パイプラインは、より大きな言語モデルが臨床決定支援に外部証拠を組み込むかを構築するために、ますます使用されている。
これらのシステムは、計算済みのドメイン知識を反復的に検索し、回答の選択の前に構造化されたレポートに合成する。
このようなパイプラインはパフォーマンスを向上させることができるが、モデルの可変性の下での信頼性への影響は、まだ不明である。
論文 参考訳(メタデータ) (2026-03-06T13:31:54Z) - Information Fidelity in Tool-Using LLM Agents: A Martingale Analysis of the Model Context Protocol [69.11739400975445]
モデルコンテキストプロトコル(MCP)エージェントにおけるエラー蓄積を解析するための最初の理論的枠組みを紹介する。
累積歪みが線形成長と高確率偏差を$O(sqrtT)$で表すことを示す。
主な発見は、意味重み付けは歪みを80%減らし、周期的再接地は、エラー制御の約9ステップごとに十分である。
論文 参考訳(メタデータ) (2026-02-10T21:08:53Z) - From Conflict to Consensus: Boosting Medical Reasoning via Multi-Round Agentic RAG [65.0203623486525]
大規模言語モデル(LLM)は、医学的質問応答において高い推論能力を示す。
幻覚や時代遅れの知識を生み出す傾向は、医療分野において重大なリスクをもたらす。
既存の手法はノイズの多いトークンレベルの信号に依存しており、複雑な推論に必要なマルチラウンドの改良は欠如している。
論文 参考訳(メタデータ) (2026-02-06T08:25:30Z) - Seeing through the Conflict: Transparent Knowledge Conflict Handling in Retrieval-Augmented Generation [12.469991196570106]
TCR (Transparent Conflict Resolution) は、二重コントラストエンコーダを介して意味マッチングと事実整合性を切り離す。
知識ギャップリカバリを+21.4ppで増加させ、誤解を招くコンテキストオーバーライドを-29.3ppで削減し、パラメータは0.3%に留まる。
信号は人間の判断と一致し、時間的決定パターンを明らかにする。
論文 参考訳(メタデータ) (2026-01-11T10:08:49Z) - Nonparametric Identifiability of Causal Representations from Unknown
Interventions [63.1354734978244]
本研究では, 因果表現学習, 潜伏因果変数を推定するタスク, およびそれらの変数の混合から因果関係を考察する。
我々のゴールは、根底にある真理潜入者とその因果グラフの両方を、介入データから解決不可能なあいまいさの集合まで識別することである。
論文 参考訳(メタデータ) (2023-06-01T10:51:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。