論文の概要: DrunkAgent: Stealthy Memory Corruption in LLM-Powered Recommender Agents
- arxiv url: http://arxiv.org/abs/2503.23804v2
- Date: Thu, 19 Jun 2025 08:01:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-23 14:57:51.682694
- Title: DrunkAgent: Stealthy Memory Corruption in LLM-Powered Recommender Agents
- Title(参考訳): DrunkAgent: LLMを動力とするレコメンダーエージェントの定常記憶破壊
- Authors: Shiyi Yang, Zhibo Hu, Xinshu Li, Chen Wang, Tong Yu, Xiwei Xu, Liming Zhu, Lina Yao,
- Abstract要約: 大規模言語モデル(LLM)を利用したエージェントは、パーソナライズされた振る舞いモデリングを実現するために、リコメンデータシステム(RS)でますます使われている。
本稿では,LSMを用いたリコメンデータエージェントにおけるメモリベースの脆弱性について,初めて体系的に検討する。
我々は,意味論的に意味のある敵の引き金を発生させる新しいブラックボックス攻撃フレームワークDrunkAgentを提案する。
- 参考スコア(独自算出の注目度): 28.294322726282896
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language model (LLM)-powered agents are increasingly used in recommender systems (RSs) to achieve personalized behavior modeling, where the memory mechanism plays a pivotal role in enabling the agents to autonomously explore, learn and self-evolve from real-world interactions. However, this very mechanism, serving as a contextual repository, inherently exposes an attack surface for potential adversarial manipulations. Despite its central role, the robustness of agentic RSs in the face of such threats remains largely underexplored. Previous works suffer from semantic mismatches or rely on static embeddings or pre-defined prompts, all of which hinder their applicability to systems with dynamic memory states. This challenge is exacerbated by the black-box nature of commercial RSs. To tackle the above problems, in this paper, we present the first systematic investigation of memory-based vulnerabilities in LLM-powered recommender agents, revealing their security limitations and guiding efforts to strengthen system resilience and trustworthiness. Specifically, we propose a novel black-box attack framework named DrunkAgent. DrunkAgent crafts semantically meaningful adversarial textual triggers for target item promotions and introduces a series of strategies to maximize the trigger effect by corrupting the memory updates during the interactions. The triggers and strategies are optimized on a surrogate model, enabling DrunkAgent transferable and stealthy. Extensive experiments on real-world datasets across diverse agentic RSs, including collaborative filtering, retrieval augmentation and sequential recommendations, demonstrate the generalizability, transferability and stealthiness of DrunkAgent.
- Abstract(参考訳): 大規模言語モデル(LLM)を利用したエージェントは、パーソナライズされた振る舞いモデリングを実現するためにリコメンデータシステム(RS)において、エージェントが現実世界の相互作用から自律的に探索し、学習し、自己進化することを可能にする上で、メモリメカニズムが重要な役割を担っている。
しかし、コンテキストレポジトリとして機能するこのメカニズムは、本質的には、潜在的な敵の操作に対する攻撃面を公開する。
その中心的な役割にもかかわらず、そのような脅威に直面したエージェントRSの堅牢性は、ほとんど未発見のままである。
これまでの作業はセマンティックなミスマッチや静的な埋め込みや事前定義されたプロンプトに悩まされており、それらすべてが動的メモリ状態のシステムに適用できない。
この課題は商用RSのブラックボックスの性質によって悪化している。
以上の課題に対処するため,本論文では,LLMを利用したレコメンデータエージェントにおけるメモリベースの脆弱性を初めて体系的に調査し,セキュリティ上の制約を明らかにし,システムのレジリエンスと信頼性を高めるための取り組みを指導する。
具体的には,新しいブラックボックス攻撃フレームワークDrunkAgentを提案する。
DrunkAgentは、ターゲットアイテムのプロモーションに意味のある敵対的なテキストトリガを作成し、インタラクション中にメモリ更新を破損させることでトリガー効果を最大化する一連の戦略を導入している。
トリガと戦略は代理モデルに最適化されており、DrunkAgentの転送とステルスを可能にする。
協調フィルタリング、検索強化、シーケンシャルレコメンデーションを含む、さまざまなエージェントRSにわたる実世界のデータセットに関する大規模な実験は、DrunkAgentの一般化可能性、転送可能性、ステルスネスを実証している。
関連論文リスト
- AegisLLM: Scaling Agentic Systems for Self-Reflective Defense in LLM Security [74.22452069013289]
AegisLLMは、敵の攻撃や情報漏洩に対する協調的なマルチエージェント防御である。
テスト時のエージェント推論システムのスケーリングは,モデルの有用性を損なうことなく,ロバスト性を大幅に向上させることを示す。
アンラーニングやジェイルブレイクを含む主要な脅威シナリオに対する総合的な評価は、AegisLLMの有効性を示している。
論文 参考訳(メタデータ) (2025-04-29T17:36:05Z) - DoomArena: A framework for Testing AI Agents Against Evolving Security Threats [84.94654617852322]
本稿では,AIエージェントのセキュリティ評価フレームワークであるDoomArenaを紹介する。
プラグインフレームワークであり、現実的なエージェントフレームワークと簡単に統合できる。
モジュールであり、エージェントがデプロイされる環境の詳細から攻撃の開発を分離する。
論文 参考訳(メタデータ) (2025-04-18T20:36:10Z) - Gödel Agent: A Self-Referential Agent Framework for Recursive Self-Improvement [117.94654815220404]
G"odel AgentはG"odelマシンにインスパイアされた自己進化型フレームワークである。
G"odel Agentは、パフォーマンス、効率、一般化性において手作業によるエージェントを上回る、継続的な自己改善を実現することができる。
論文 参考訳(メタデータ) (2024-10-06T10:49:40Z) - Breaking Agents: Compromising Autonomous LLM Agents Through Malfunction Amplification [35.16099878559559]
大規模言語モデル(LLM)は大きな発展を遂げ、現実世界のアプリケーションにデプロイされている。
エージェントが繰り返しまたは無関係なアクションを実行することを誤解させることで誤動作を引き起こす新しいタイプの攻撃を導入する。
実験の結果、これらの攻撃は複数のシナリオで80%以上の障害率を誘導できることがわかった。
論文 参考訳(メタデータ) (2024-07-30T14:35:31Z) - AgentPoison: Red-teaming LLM Agents via Poisoning Memory or Knowledge Bases [73.04652687616286]
本稿では,RAG とRAG をベースとした LLM エージェントを標的とした最初のバックドア攻撃である AgentPoison を提案する。
従来のバックドア攻撃とは異なり、AgentPoisonは追加のモデルトレーニングや微調整を必要としない。
エージェントごとに、AgentPoisonは平均攻撃成功率を80%以上達成し、良質なパフォーマンスに最小限の影響を与える。
論文 参考訳(メタデータ) (2024-07-17T17:59:47Z) - Dissecting Adversarial Robustness of Multimodal LM Agents [70.2077308846307]
我々は、VisualWebArena上に現実的な脅威モデルを用いて、200の敵タスクと評価スクリプトを手動で作成する。
我々は,クロボックスフロンティアLMを用いた最新のエージェントを,リフレクションやツリーサーチを行うエージェントを含む,壊すことに成功している。
AREを使用して、新しいコンポーネントの追加に伴うロバスト性の変化を厳格に評価しています。
論文 参考訳(メタデータ) (2024-06-18T17:32:48Z) - On Generative Agents in Recommendation [58.42840923200071]
Agent4Recは、Large Language Modelsに基づいたレコメンデーションのユーザーシミュレータである。
各エージェントは、ページ単位でパーソナライズされた推奨モデルと対話する。
論文 参考訳(メタデータ) (2023-10-16T06:41:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。