論文の概要: The Attribution Blind Spot: Detecting When Language Models Rely on Memory Rather Than Retrieved Context
- arxiv url: http://arxiv.org/abs/2605.26778v1
- Date: Tue, 26 May 2026 09:48:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-27 17:51:41.799772
- Title: The Attribution Blind Spot: Detecting When Language Models Rely on Memory Rather Than Retrieved Context
- Title(参考訳): Attribution Blind Spot: 言語モデルがコンテクストを検索するのではなく、メモリ上でいつリライズされるかを検出する
- Authors: Zhe Yu, Wenpeng Xing, Yunzhao Wei, Bo Yang, Chen Ye, Gaolei Li, Meng Han,
- Abstract要約: 帰属盲点に対処するために,計算現実モニタリングを導入する。
CRMは、認知科学の現実監視フレームワークから適応した原則を運用する。
プレトレーニングされた露光が測定可能な内部軌道シグネチャを残すかどうかを検出する。
- 参考スコア(独自算出の注目度): 22.202409807556517
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Retrieval-augmented generation promises to ground language model outputs in external evidence, yet the field has no reliable way to verify whether retrieved context actually governs generation -- a prerequisite for any high-stakes deployment. The standard assumption, that context-consistent output implies context-governed output, breaks when the retrieved document overlaps with the model's pretraining data: the model can produce faithful-looking text entirely from parametric memory, and both pathways yield indistinguishable output. We name this failure the attribution blind spot and introduce Computational Reality Monitoring (CRM) to address it. CRM operationalizes a principle adapted from cognitive science's reality monitoring framework: comparing internal representations with and without context reveals membership-conditioned representational divergence that output-level monitors systematically miss. CRM does not certify which source an individual generation used; it detects whether pretraining exposure leaves a measurable internal trajectory signature, establishing a necessary substrate for source attribution. Across nine model variants spanning three families, this divergence concentrates in architecture-specific layer patterns, receives converging support from block-level noise intervention, and generalizes across tasks and datasets while collapsing on domain-confounded benchmarks. The attribution blind spot is measurable and partially addressable: internal representations carry a diagnostic signal invisible at the output level, establishing a foundation for systems whose internal awareness of evidence provenance governs their external behavior.
- Abstract(参考訳): Retrieval-augmented Generationは、言語モデルのアウトプットを外部のエビデンスに基礎付けることを約束するが、検索されたコンテキストが生成を実際に管理しているかどうかを検証するための信頼性の高い手段はない。
標準的な仮定では、コンテキスト一貫性のある出力はコンテキスト境界の出力を意味し、検索されたドキュメントがモデルの事前学習データと重なるときに壊れる:モデルはパラメトリックメモリから完全に忠実に見えるテキストを生成することができ、どちらの経路も区別できない出力を得る。
この障害を帰属盲点と呼び、それに対応するためにComputational Reality Monitoring (CRM)を導入します。
CRMは、認知科学の現実的なモニタリングフレームワークに適合した原則を運用している: 内部表現と文脈なしでの表現を比較すると、出力レベルのモニターが体系的に見逃すメンバーシップ条件の表現のばらつきが明らかになる。
CRMは、個々の世代が使用するソースを認証しない。事前訓練された露光が測定可能な内部軌道シグネチャを残しているかどうかを検出し、ソース属性に必要な基板を確立する。
3つのファミリーにまたがる9つのモデルバリエーションの中で、この分散はアーキテクチャ固有のレイヤパターンに集中し、ブロックレベルのノイズ介入からの収束サポートを受け、ドメインが確立したベンチマークをラップしながらタスクとデータセットを一般化する。
内部表現は、出力レベルで見えない診断信号を持ち、証拠の証明に対する内部認識が外部の振る舞いを統制するシステムの基礎を確立する。
関連論文リスト
- The Cost of Context: Mitigating Textual Bias in Multimodal Retrieval-Augmented Generation [18.83395586542378]
MLLM(Multimodal Large Language Models)とRAG(Retrieval-Augmented Generation)の統合が進んでいる
再破壊現象を特定し, 定式化した上で, 完全に正確な「おかしな」コンテキストを導入することで, 有能なモデルが早期に正しい予測を放棄する。
本稿では,BAIR(Bottleneck Attention Intervention for Recovery)を提案する。
論文 参考訳(メタデータ) (2026-05-07T02:27:04Z) - K$α$LOS finds Consensus: A Meta-Algorithm for Evaluating Inter-Annotator Agreement in Complex Vision Tasks [4.297070083645049]
本稿では,「ローカライゼーションファースト」の原理を一般化した統一メタアルゴリズムであるK$LOSを提案する。
合意を査定する前に空間対応を解消することにより,複雑な分類問題を名目上の信頼性に変換する。
論文 参考訳(メタデータ) (2026-03-28T08:54:05Z) - Adaptive Guidance for Retrieval-Augmented Masked Diffusion Models [60.25003813232697]
本稿では,Masked Diffusion Models (MDMs) のトレーニング自由適応ガイダンスフレームワークとして,適応検索型Masked Diffusion (ARAM) を提案する。
ARAMは、検索した文脈によって誘導される分布シフトのSNR(Signal-to-Noise Ratio)に従って、雑音発生時の誘導スケールを校正する。
複数の知識集約型QAベンチマークの実験は、ARAMが競争力のあるRAGベースラインよりも全体的なQA性能を改善することを示している。
論文 参考訳(メタデータ) (2026-03-18T12:54:50Z) - Leveraging LLM Parametric Knowledge for Fact Checking without Retrieval [60.25608870901428]
信頼性は、大規模言語モデル(LLM)上に構築されたエージェントAIシステムの中核研究課題である
本研究では,任意の自然言語クレームの検証に焦点をあて,検索なしで事実チェックを行うタスクを提案する。
論文 参考訳(メタデータ) (2026-03-05T18:42:51Z) - Hallucination Detection and Mitigation in Large Language Models [0.0]
LLM(Large Language Models)とLRM(Large Reasoning Models)は、金融や法律のような高額な領域に変革をもたらす。
幻覚を起こそうとする傾向は、事実的に不正確な、または、サポートされていないコンテンツを発生させ、重大な信頼性のリスクを生じさせる。
本稿では,根本原因認識による継続的改善サイクル上に構築された幻覚管理のための包括的枠組みを紹介する。
論文 参考訳(メタデータ) (2026-01-14T23:19:37Z) - Towards Unsupervised Causal Representation Learning via Latent Additive Noise Model Causal Autoencoders [1.9732490977700972]
教師なし表現学習は、潜伏する生成因子を回復しようとする。
観測データから因果変数を遠ざけることは、監督なしでは不可能である。
本研究では、非教師付き発見のための強力な誘導バイアスとして、Latent Additive Noise Model Causal Autoencoder (LANCA)を提案する。
論文 参考訳(メタデータ) (2025-12-15T10:52:30Z) - Context-Informed Grounding Supervision [102.11698329887226]
コンテキストインフォームド・グラウンド(Context-Informed Grounding Supervision, CINGS)は、モデルが応答に先立って関連するコンテキストでトレーニングされる訓練後の監督である。
実験により, CINGSで訓練したモデルでは, テキスト領域と視覚領域の両方において, より強い基底が示されることがわかった。
論文 参考訳(メタデータ) (2025-06-18T14:13:56Z) - Retrieval is Not Enough: Enhancing RAG Reasoning through Test-Time Critique and Optimization [58.390885294401066]
Retrieval-augmented Generation (RAG) は知識基底型大規模言語モデル(LLM)を実現するためのパラダイムとして広く採用されている。
RAGパイプラインは、モデル推論が得られた証拠と整合性を維持するのに失敗することが多く、事実上の矛盾や否定的な結論につながる。
批判駆動アライメント(CDA)に基づく新しい反復的枠組みであるAlignRAGを提案する。
AlignRAG-autoは、動的に洗練を終了し、批判的な反復回数を事前に指定する必要がなくなる自律的な変種である。
論文 参考訳(メタデータ) (2025-04-21T04:56:47Z) - Parallel Key-Value Cache Fusion for Position Invariant RAG [55.9809686190244]
大規模言語モデル(LLM)は、コンテキスト内の関連する情報の位置に敏感である。
入力コンテキスト順序に関係なく,デコーダのみのモデルに対して一貫した出力を生成するフレームワークを導入する。
論文 参考訳(メタデータ) (2025-01-13T17:50:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。