論文の概要: Visual Inception: Compromising Long-term Planning in Agentic Recommenders via Multimodal Memory Poisoning
- arxiv url: http://arxiv.org/abs/2604.16966v1
- Date: Sat, 18 Apr 2026 11:15:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.264002
- Title: Visual Inception: Compromising Long-term Planning in Agentic Recommenders via Multimodal Memory Poisoning
- Title(参考訳): ビジュアルインセプション:マルチモーダルメモリによるエージェントレコメンダの長期計画の妥協
- Authors: Jiachen Qian,
- Abstract要約: 私たちは「ビジュアルインセプション」と呼ばれる脅威を見つけます
Visual Inceptionは、ユーザのアップロードしたイメージにトリガーを注入し、システムのメモリ内で“スリーパーエージェント”として機能する。
将来の計画中に回収されると、これらの記憶はエージェントの推論チェーンをハイジャックし、即時注射なしで敵が定義した目標に向けて制御する。
人間の認知に触発された二重プロセス防衛フレームワークであるCognitiveGuardを提案する。
- 参考スコア(独自算出の注目度): 1.0998907972211756
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The evolution from static ranking models to Agentic Recommender Systems (Agentic RecSys) empowers AI agents to maintain long-term user profiles and autonomously plan service tasks. While this paradigm shift enhances personalization, it introduces a vulnerability: reliance on Long-term Memory (LTM). In this paper, we uncover a threat termed "Visual Inception." Unlike traditional adversarial attacks that seek immediate misclassification, Visual Inception injects triggers into user-uploaded images (e.g., lifestyle photos) that act as "sleeper agents" within the system's memory. When retrieved during future planning, these poisoned memories hijack the agent's reasoning chain, steering it toward adversary-defined goals (e.g., promoting high-margin products) without prompt injection. To mitigate this, we propose CognitiveGuard, a dual-process defense framework inspired by human cognition. It consists of a System 1 Perceptual Sanitizer (diffusion-based purification) to cleanse sensory inputs and a System 2 Reasoning Verifier (counterfactual consistency checks) to detect anomalies in memory-driven planning. Extensive experiments on a mock e-commerce agent environment demonstrate that Visual Inception achieves about 85% Goal-Hit Rate (GHR), while CognitiveGuard reduces this risk to around 10% with configurable latency trade-offs (about 1.5s in lite mode to about 6.5s for full sequential verification), without quality degradation under our setup.
- Abstract(参考訳): 静的ランキングモデルからエージェントレコメンダシステム(Agentic Recommender Systems, Agentic RecSys)への進化により、AIエージェントは長期的なユーザプロファイルを維持し、サービスタスクを自律的に計画することが可能になる。
このパラダイムシフトはパーソナライゼーションを強化する一方で、LTM(Long-term Memory)への依存という脆弱性を導入している。
本稿では,「ビジュアル・インセプション」と呼ばれる脅威を明らかにする。
直近の誤分類を求める従来の敵攻撃とは異なり、Visual Inceptionはユーザーのアップロードした画像(例えばライフスタイルの写真)にトリガーを注入し、システムのメモリ内で「スリーパーエージェント」として機能する。
将来の計画中に回復すると、これらの中毒した記憶はエージェントの推論チェーンをハイジャックし、敵が定義した目標(例えば、高マージン製品を推進)に向けて、即時注射なしで操る。
これを緩和するために,人間の認知に触発された二重プロセス防衛フレームワークであるCognitiveGuardを提案する。
System 1 Perceptual Sanitizer (diffusion-based purification) と System 2 Reasoning Verifier (counterfactual consistency checks) で構成され、メモリ駆動計画における異常を検出する。
モックなEコマースエージェント環境に関する大規模な実験は、Visual Inceptionが約85%のゴール-ハイトレート(GHR)を達成したことを実証している。
関連論文リスト
- Zombie Agents: Persistent Control of Self-Evolving LLM Agents via Self-Reinforcing Injections [57.64370755825839]
セルフ進化エージェントはセッション間で内部状態を更新する。
我々はこのリスクを調査し、Zombie Agentと呼ばれる永続的な攻撃を形式化する。
我々は,攻撃者が制御するWebコンテンツを通じて間接的露光のみを使用するブラックボックス攻撃フレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-17T15:28:24Z) - MemoryGraft: Persistent Compromise of LLM Agents via Poisoned Experience Retrieval [5.734678752740074]
MemoryGraftは、エージェントの動作を即時ジェイルブレイクではなく、エージェントの長期記憶に悪質な成功体験を埋め込むことによって妥協する、新しい間接的インジェクション攻撃である。
エージェントが実行中に読み取る良質な摂取レベルのアーティファクトを供給できる攻撃者は、それを誘導して有毒なRAGストアを構築することができることを示す。
エージェントが後に意味論的に類似したタスクに遭遇すると、語彙テンプレート上の結合検索と埋め込み類似性は、これらのグラフトされた記憶を確実に表面化し、エージェントは埋め込みされた安全でないパターンを採用し、セッション間の永続的な行動的ドリフトをもたらす。
論文 参考訳(メタデータ) (2025-12-18T08:34:40Z) - Poison Once, Control Anywhere: Clean-Text Visual Backdoors in VLM-based Mobile Agents [54.35629963816521]
この研究は、VLMベースのモバイルエージェントをターゲットにした最初のクリーンテキストバックドアアタックであるVIBMAを紹介する。
この攻撃は、視覚的な入力だけを変更することによって、悪意ある振る舞いをモデルに注入する。
クリーンタスクの動作を保ちながら高い成功率を達成できることを示す。
論文 参考訳(メタデータ) (2025-06-16T08:09:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。