論文の概要: Detecting Is Not Resolving: The Monitoring Control Gap in Retrieval Augmented LLMs
- arxiv url: http://arxiv.org/abs/2605.27157v1
- Date: Tue, 26 May 2026 15:18:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-27 17:51:42.372874
- Title: Detecting Is Not Resolving: The Monitoring Control Gap in Retrieval Augmented LLMs
- Title(参考訳): 検知は解決しない:検索用LLMにおける監視制御ギャップ
- Authors: Zhe Yu, Wenpeng Xing, Chen Ye, Xuyang Teng, Bo Yang, Changting Lin, Meng Han,
- Abstract要約: 単一ターン診断はRAGの安全性を体系的に過大評価し、矛盾は安全な解決法とは無関係であり、普遍的な即時修正は存在しないことを示した。
モデルが認識するものと何をするかのギャップは、検索強化されたシステムが高レベルな設定で信頼される前に測定され、クローズされなければならない。
- 参考スコア(独自算出の注目度): 20.59321114618083
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Retrieval-augmented LLMs are deployed for tasks where evidence quality determines action safety, yet evaluation protocols assume that single-turn robustness predicts robustness when evidence accumulates across turns. We show this assumption is fundamentally incorrect. Models exhibit a monitoring-control gap: they readily acknowledge contradictory evidence, yet this awareness fails to constrain their final recommendations - detecting epistemic conflict does not imply resolving it safely. Through a multi-turn document accumulation protocol across four model families (1.5B-32B parameters) and over 50,000 turn-level evaluations, we demonstrate that single-turn diagnostics systematically overestimate RAG safety, that contradiction acknowledgement is uncorrelated with safe resolution, a pattern corroborated by targeted human validation, and that no universal prompt fix exists. Converging mechanism evidence - hidden-state probing, attention analysis, and response-strategy taxonomy - points to action selection as the most plausible locus of the deficit: danger-relevant information is internally represented and receives enhanced attention during unsafe generation, yet fails to constrain output behavior. The gap between what models recognize and what they do must be measured and closed before retrieval-augmented systems can be trusted in high-stakes settings.
- Abstract(参考訳): 検索可能なLLMは、エビデンスの品質が行動の安全性を決定するタスクにデプロイされるが、評価プロトコルは、一ターンのロバスト性はターンにまたがってエビデンスが蓄積されたときにロバスト性を予測すると仮定する。
この仮定は基本的に誤りである。
モデルには監視とコントロールのギャップがあり、矛盾する証拠をすぐに認識するが、この認識は最終的な勧告を制約しない。
4つのモデルファミリ(1.5B-32Bパラメータ)と5万以上のターンレベル評価の多ターン文書蓄積プロトコルを通じて、単一ターン診断がRAGの安全性を体系的に過大評価し、矛盾認識が安全解決とは無関係であることを示す。
収束メカニズムの証拠 - 隠れ状態の探究、注意分析、および応答戦略の分類 - は、障害の最も確実な軌跡として行動選択を指摘している:危険関連情報は内部的に表現され、安全でない世代の間に注意を増すが、出力の振る舞いを制限できない。
モデルが認識するものと何をするかのギャップは、検索強化されたシステムが高レベルな設定で信頼される前に測定され、クローズされなければならない。
関連論文リスト
- Cordon-MAS: Defending RAG against Knowledge Poisoning via Information-Flow Control [22.814552066611597]
既存の防衛は、毒物検出が害を防いでいると仮定している。
モデルは監視と制御のギャップを示す。
コードン原理を導入します -- 最終的な合成が可能なエージェントは、信頼できない自然言語の証拠にアクセスできません。
論文 参考訳(メタデータ) (2026-05-26T09:27:19Z) - Towards Trustworthy Depression Estimation via Disentangled Evidential Learning [50.22167852149165]
EviDepはうつ病の重症度を共同で定量化する明らかな学習フレームワークである。
EviDepは、堅牢な証拠合成を保証するために厳密な情報整合性を強制する。
最先端の予測精度と優れた不確実性校正を実現し、信頼できる臨床スクリーニングのための堅牢なフェールセーフメカニズムを提供する。
論文 参考訳(メタデータ) (2026-04-17T13:27:11Z) - Neural Uncertainty Principle: A Unified View of Adversarial Fragility and LLM Hallucination [60.197429875410286]
大規模言語モデルにおける視覚と幻覚の対立的脆弱性は、伝統的に別の問題と見なされている。
損失誘起状態下でのニューラル不確実性原理(NUP)の定式化により, ほぼバウンド状態においては, さらなる圧縮は感度分散の増大を伴うことが判明した。
視覚では、高度に結合したコンポーネントをマスキングすることで、コストのかかる敵の訓練なしに堅牢性を向上させる。
言語では、任意の応答トークンを生成する前に、同じプレフィルステージプローブが幻覚リスクを検出する。
論文 参考訳(メタデータ) (2026-03-20T02:07:10Z) - TRIAGE: Type-Routed Interventions via Aleatoric-Epistemic Gated Estimation in Robotic Manipulation and Adaptive Perception -- Don't Treat All Uncertainty the Same [2.755751829139168]
ほとんどの不確実性を認識したロボットシステムは、予測の不確実性を単一のスカラースコアに分解し、それを使って一様に修正された応答をトリガーする。
このアグリゲーションは、破損した観測結果から不確実性が生じるか、あるいは学習されたモデルと真のシステム力学とのミスマッチから生じるのかを曖昧にしている。
本研究では,不確かさを動脈およびてんかん成分に分解する軽量なポストホックフレームワークを導入し,これらの信号を用いて推論時のシステム応答を調節する。
論文 参考訳(メタデータ) (2026-03-09T09:07:43Z) - Agentic Uncertainty Quantification [76.94013626702183]
本稿では,言語化された不確実性をアクティブな双方向制御信号に変換する統合されたデュアルプロセスエージェントUQ(AUQ)フレームワークを提案する。
システム1(Uncertainty-Aware Memory, UAM)とシステム2(Uncertainty-Aware Reflection, UAR)は、これらの説明を合理的な手段として利用し、必要な時にのみターゲットの推論時間解決をトリガーする。
論文 参考訳(メタデータ) (2026-01-22T07:16:26Z) - Decision-Aware Trust Signal Alignment for SOC Alert Triage [0.0]
本稿では,SOC警告トリアージの信頼信号対応方式を提案する。
このフレームワークは、調整済みの信頼性、軽量不確実性、そしてコストに敏感な決定しきい値をコヒーレントな決定支持層に組み合わせている。
信頼度が不一致な表示によって偽陰性が大幅に増幅されるのに対し、コスト重み付き損失は決定整合信頼信号を持つモデル間での桁違いに減少することを示す。
論文 参考訳(メタデータ) (2026-01-08T01:41:54Z) - LatentGuard: Controllable Latent Steering for Robust Refusal of Attacks and Reliable Response Generation [4.29885665563186]
LATENTGUARDは、行動アライメントと教師付き潜在空間制御を組み合わせて、解釈可能で正確な安全操縦を行うフレームワークである。
本研究は, 実用性を損なうことなく, 安全性制御性と応答解釈性の両方を向上することを示す。
論文 参考訳(メタデータ) (2025-09-24T07:31:54Z) - D-REX: A Benchmark for Detecting Deceptive Reasoning in Large Language Models [62.83226685925107]
Deceptive Reasoning Exposure Suite (D-REX)は、モデルの内部推論プロセスと最終的な出力との相違を評価するために設計された、新しいデータセットである。
D-REXの各サンプルには、敵システムプロンプト、エンドユーザーのテストクエリ、モデルの一見無害な応答、そして重要なことに、モデルの内部チェーンが含まれている。
我々は、D-REXが既存のモデルと安全メカニズムに重大な課題をもたらすことを実証した。
論文 参考訳(メタデータ) (2025-09-22T15:59:40Z) - Uncertainty-Driven Reliability: Selective Prediction and Trustworthy Deployment in Modern Machine Learning [1.2183405753834562]
この論文は、不確実性推定が機械学習(ML)システムの安全性と信頼性を高める方法について考察する。
まず、モデルのトレーニング軌道は、アーキテクチャの変更や損失を伴わずに活用できるような、豊富な不確実性信号を含むことを示す。
本稿では,タスク間で動作し,深層アンサンブルのコストを回避し,最先端の選択的予測性能を実現する軽量なポストホック禁忌手法を提案する。
論文 参考訳(メタデータ) (2025-08-11T02:33:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。