論文の概要: The Misattribution Gap: When Memory Poisoning Looks Like Model Failure in Agentic AI Systems
- arxiv url: http://arxiv.org/abs/2605.22842v1
- Date: Tue, 12 May 2026 20:21:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-01 02:55:42.93911
- Title: The Misattribution Gap: When Memory Poisoning Looks Like Model Failure in Agentic AI Systems
- Title(参考訳): ミストリビューションのギャップ:エージェントAIシステムにおけるメモリポジショニングはモデル失敗のように見える
- Authors: Tanzim Ahad, Ismail Hossain, Md Jahangir Alam, Sai Puppala, Syed Bahauddin Alam, Sajedul Talukder,
- Abstract要約: EmphSemantic Norm Drift (SND) をエージェント不正行為の第3の経路として定式化する。
SNDでは、ポリシーフォーマットの文書が通常のアップロードを通じて共有ベクターストアに入り、その後、信頼されたシステムコンテキストとして再現れる。
偽合成検査は87.5%の精度と偽陽性のゼロの因果関係を識別する。
- 参考スコア(独自算出の注目度): 1.0262304700896199
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-agent AI pipelines typically assume that agent misconduct originates from model misalignment. We identify a structural failure in this assumption, the \emph{Misattribution Gap}, where memory-layer attacks produce behaviors indistinguishable from model failure, causing defenders to apply the wrong remediation. We formalize \emph{Semantic Norm Drift} (SND) as a third path to agent misconduct, distinct from emergent misalignment and collusion. In SND, a policy-formatted document enters a shared vector store through normal uploads and later reappears as trusted system context after provenance is lost through a Trust Laundering Chain. Across 64 documented failures, attribution systems consistently blamed the model. Four safety classifiers, including one trained on memory poisoning, produced zero detections across 510 checkpoints. In 59 of 65 valid cases, agents explicitly cited the injected document as normative authority before complying. The attack requires no trigger, model access, or repeated interaction, achieves full effect within five sessions, and persists indefinitely. We introduce Counterfactual Composition Testing, which identifies the causal entry with 87.5% accuracy and zero false positives, while a forensics baseline fails across all 25 scenarios. We further prove the Retrieval-Coverage Dilemma, showing that stronger evasion inherently weakens the attack, limiting adaptive bypass strategies. Finally, we propose Memory-Persistent Information-Flow Control, which blocks 97% of attacks at the cross-session boundary where prior defenses fail. We release the SND Corpus, the first adversarial memory benchmark with temporal persistence and multi-agent composition across financial and Health Care domains.
- Abstract(参考訳): マルチエージェントAIパイプラインは通常、エージェントの不正行為はモデルミスアライメントに由来すると仮定する。
この仮定では、メモリ層攻撃がモデル失敗と区別できない振る舞いを生じさせ、ディフェンダーが間違った修復を施すという、構造的失敗(emph{Misattribution Gap})が特定される。
本研究は, 創発的悪行や癒着とは別として, エージェントの不正行為に対する第3の経路として \emph{Semantic Norm Drift} (SND) を定式化する。
SNDでは、ポリシーフォーマットの文書が通常のアップロードを通じて共有ベクターストアに入力され、その後、トラスト・ラダーリング・チェーンによって証明が失われた後、信頼されたシステムコンテキストとして再現れる。
64以上の障害が文書化され、帰属システムは一貫してモデルを非難した。
メモリ中毒の訓練を受けた4つの安全分類器は、510個のチェックポイントにわたってゼロ検出を発生させた。
65件のうち59件において、代理人は、指示された文書を遵守する前に規範的な権限として明示的に引用した。
この攻撃はトリガーやモデルアクセス、繰り返しのインタラクションを必要とせず、5つのセッションで完全な効果を達成し、無期限に持続する。
87.5%の精度とゼロの偽陽性で因果的入力を識別する反事実構成テストを導入し、法医学のベースラインは25のシナリオすべてで失敗する。
さらに、より強力な回避が本質的に攻撃を弱め、適応的バイパス戦略を制限していることを示す。
最後に,前回の防御が失敗するクロスセッション境界における攻撃の97%をブロックするメモリ永続型情報フロー制御を提案する。
SND Corpusは、金融・医療分野にまたがる時間的持続性とマルチエージェント構成を備えた最初の逆メモリベンチマークである。
関連論文リスト
- HunterAgent: Neuro-Symbolic Attack Trace Reconstruction under Anti-Forensics [4.5096964986324]
脅威狩りは、不均一な丸太を越えて因果攻撃鎖を再構築する必要がある。
我々は,コストバウンドグラフ検索としてトレース再構成を再構成するニューロシンボリックなフレームワークであるHunterAgentを提案する。
HunterAgentは86.1%の平均F1を達成し、トップエージェントベースラインを26.7F1、KAIROSを17.1F1で上回っている。
論文 参考訳(メタデータ) (2026-05-28T02:38:12Z) - Conformal Agent Error Attribution [12.400746451700945]
本稿では,共形予測(CP)に基づく誤り帰属の枠組みを提案する。
エージェントトラジェクトリなどのシーケンシャルデータ用に設計されたフィルタベースCPの新しいアルゴリズムを提案する。
我々の全体的なアプローチはモデルに依存しないものであり、MASエラーの帰属に対する原則的不確実性層を提供する。
論文 参考訳(メタデータ) (2026-05-07T18:00:07Z) - TwinGate: Stateful Defense against Decompositional Jailbreaks in Untraceable Traffic via Asymmetric Contrastive Learning [60.68349524623048]
分解されたジェイルブレイクは、大きな言語モデルにとって重大な脅威となる。
我々はステートフルなデュアルエンコーダ防御フレームワークであるTwinGateを紹介する。
我々は、8600の異なる悪意のある意図にまたがる360万以上の命令の包括的なデータセットを構築した。
論文 参考訳(メタデータ) (2026-04-30T13:44:01Z) - Measuring and Exploiting Confirmation Bias in LLM-Assisted Security Code Review [6.417595678110472]
ソフトウェアサプライチェーン攻撃において,確認バイアスがLSMベースの脆弱性検出に影響を及ぼすか,また,この障害モードを悪用できるかを検討する。
調査1では,5つのフレーミング条件下で4つの最先端モデルに対して評価された250個のCVE脆弱性/パッチペアに対する制御実験により,確認バイアスを定量化する。
調査2は、既知の脆弱性を再導入する敵のプルリクエストを模倣して、セキュリティの改善やプルリクエストメタデータによる緊急機能修正を実施可能であることを評価する。
論文 参考訳(メタデータ) (2026-03-19T10:40:27Z) - Sleeper Cell: Injecting Latent Malice Temporal Backdoors into Tool-Using LLMs [0.0]
オープンウェイト大規模言語モデル(LLM)はエージェントAIを民主化しているが、微調整されたウェイトは頻繁に共有され、リーダーボードのパフォーマンスを超えた限られた精査で採用されている。
これにより、サードパーティモデルが強力な行動保証なしで組み込まれるリスクが生じる。
有毒なモデルでは、良質なタスクに対して最先端のパフォーマンスを維持し、採用にインセンティブを与えていることを示す。
論文 参考訳(メタデータ) (2026-03-02T22:01:08Z) - Zombie Agents: Persistent Control of Self-Evolving LLM Agents via Self-Reinforcing Injections [57.64370755825839]
セルフ進化エージェントはセッション間で内部状態を更新する。
我々はこのリスクを調査し、Zombie Agentと呼ばれる永続的な攻撃を形式化する。
我々は,攻撃者が制御するWebコンテンツを通じて間接的露光のみを使用するブラックボックス攻撃フレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-17T15:28:24Z) - MemoryGraft: Persistent Compromise of LLM Agents via Poisoned Experience Retrieval [5.734678752740074]
MemoryGraftは、エージェントの動作を即時ジェイルブレイクではなく、エージェントの長期記憶に悪質な成功体験を埋め込むことによって妥協する、新しい間接的インジェクション攻撃である。
エージェントが実行中に読み取る良質な摂取レベルのアーティファクトを供給できる攻撃者は、それを誘導して有毒なRAGストアを構築することができることを示す。
エージェントが後に意味論的に類似したタスクに遭遇すると、語彙テンプレート上の結合検索と埋め込み類似性は、これらのグラフトされた記憶を確実に表面化し、エージェントは埋め込みされた安全でないパターンを採用し、セッション間の永続的な行動的ドリフトをもたらす。
論文 参考訳(メタデータ) (2025-12-18T08:34:40Z) - The Trojan Knowledge: Bypassing Commercial LLM Guardrails via Harmless Prompt Weaving and Adaptive Tree Search [58.8834056209347]
大規模言語モデル(LLM)は、有害な出力を誘導するために安全ガードレールをバイパスするジェイルブレイク攻撃に弱いままである。
CKA-Agent(Correlated Knowledge Attack Agent)は、ターゲットモデルの知識基盤の適応的木構造探索としてジェイルブレイクを再構成する動的フレームワークである。
論文 参考訳(メタデータ) (2025-12-01T07:05:23Z) - Dissecting Adversarial Robustness of Multimodal LM Agents [70.2077308846307]
我々は、VisualWebArena上に現実的な脅威モデルを用いて、200の敵タスクと評価スクリプトを手動で作成する。
我々は,クロボックスフロンティアLMを用いた最新のエージェントを,リフレクションやツリーサーチを行うエージェントを含む,壊すことに成功している。
AREを使用して、新しいコンポーネントの追加に伴うロバスト性の変化を厳格に評価しています。
論文 参考訳(メタデータ) (2024-06-18T17:32:48Z) - Lazy Layers to Make Fine-Tuned Diffusion Models More Traceable [70.77600345240867]
新たな任意の任意配置(AIAO)戦略は、微調整による除去に耐性を持たせる。
拡散モデルの入力/出力空間のバックドアを設計する既存の手法とは異なり,本手法では,サンプルサブパスの特徴空間にバックドアを埋め込む方法を提案する。
MS-COCO,AFHQ,LSUN,CUB-200,DreamBoothの各データセットに関する実証研究により,AIAOの堅牢性が確認された。
論文 参考訳(メタデータ) (2024-05-01T12:03:39Z) - A Self-supervised Approach for Adversarial Robustness [105.88250594033053]
敵対的な例は、ディープニューラルネットワーク(DNN)ベースの視覚システムにおいて破滅的な誤りを引き起こす可能性がある。
本稿では,入力空間における自己教師型対向学習機構を提案する。
これは、反逆攻撃に対する強力な堅牢性を提供する。
論文 参考訳(メタデータ) (2020-06-08T20:42:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。