論文の概要: Get the Agents Drunk: Memory Perturbations in Autonomous Agent-based Recommender Systems
- arxiv url: http://arxiv.org/abs/2503.23804v1
- Date: Mon, 31 Mar 2025 07:35:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-01 19:35:57.303803
- Title: Get the Agents Drunk: Memory Perturbations in Autonomous Agent-based Recommender Systems
- Title(参考訳): Get the Agents Drunk: 自律エージェントベースのレコメンダシステムにおけるメモリ摂動
- Authors: Shiyi Yang, Zhibo Hu, Chen Wang, Tong Yu, Xiwei Xu, Liming Zhu, Lina Yao,
- Abstract要約: 大規模言語モデルベースのエージェントは、パーソナライズされた振る舞いモデリングを実現するために、リコメンデータシステム(Agent4RS)でますます使われている。
私たちの知る限りでは、Agent4RSがいかに堅牢かは未解明のままです。
本稿では,エージェントの記憶を乱すことによってエージェント4RSを攻撃するための最初の取り組みを提案する。
- 参考スコア(独自算出の注目度): 29.35591074298123
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language model-based agents are increasingly used in recommender systems (Agent4RSs) to achieve personalized behavior modeling. Specifically, Agent4RSs introduces memory mechanisms that enable the agents to autonomously learn and self-evolve from real-world interactions. However, to the best of our knowledge, how robust Agent4RSs are remains unexplored. As such, in this paper, we propose the first work to attack Agent4RSs by perturbing agents' memories, not only to uncover their limitations but also to enhance their security and robustness, ensuring the development of safer and more reliable AI agents. Given the security and privacy concerns, it is more practical to launch attacks under a black-box setting, where the accurate knowledge of the victim models cannot be easily obtained. Moreover, the practical attacks are often stealthy to maximize the impact. To this end, we propose a novel practical attack framework named DrunkAgent. DrunkAgent consists of a generation module, a strategy module, and a surrogate module. The generation module aims to produce effective and coherent adversarial textual triggers, which can be used to achieve attack objectives such as promoting the target items. The strategy module is designed to `get the target agents drunk' so that their memories cannot be effectively updated during the interaction process. As such, the triggers can play the best role. Both of the modules are optimized on the surrogate module to improve the transferability and imperceptibility of the attacks. By identifying and analyzing the vulnerabilities, our work provides critical insights that pave the way for building safer and more resilient Agent4RSs. Extensive experiments across various real-world datasets demonstrate the effectiveness of DrunkAgent.
- Abstract(参考訳): 大規模言語モデルベースのエージェントは、パーソナライズされた振る舞いモデリングを実現するために、リコメンデータシステム(Agent4RS)でますます使われている。
具体的には、Agent4RSsは、エージェントが現実世界のインタラクションから自律的に学習し、自己進化することを可能にするメモリメカニズムを導入している。
しかし、我々の知る限りでは、Agent4RSがいかに堅牢かは未解明のままである。
そこで本稿では,エージェントの記憶を乱すことによってエージェント4RSを攻撃し,その限界を明らかにするだけでなく,セキュリティと堅牢性を向上し,より安全で信頼性の高いAIエージェントの開発を保証するために,エージェント4RSを攻撃するための最初の取り組みを提案する。
セキュリティとプライバシの懸念から、被害者モデルの正確な知識を容易に取得できないブラックボックス設定で攻撃を起動することはより現実的である。
さらに、実際の攻撃は影響を最大化するためにステルス性を持つことが多い。
そこで本研究では,DrunkAgentという新しい攻撃フレームワークを提案する。
DrunkAgentは生成モジュール、戦略モジュール、代理モジュールで構成される。
生成モジュールは、ターゲットアイテムの促進などの攻撃目的を達成するために使用できる、効果的で一貫性のある対向的なテキストトリガーを作成することを目的としている。
戦略モジュールは、インタラクションプロセス中にメモリを効果的に更新できないように、‘ターゲットエージェントを酔っ払う’ように設計されている。
そのため、トリガーは最高の役割を果たすことができる。
どちらのモジュールもサロゲートモジュールに最適化されており、アタックの転送性と非許容性を改善する。
脆弱性を特定し分析することで、我々の研究はより安全でよりレジリエントなAgent4RSを構築するための重要な洞察を提供する。
さまざまな実世界のデータセットにわたる大規模な実験は、DrunkAgentの有効性を示している。
関連論文リスト
- Attractive Metadata Attack: Inducing LLM Agents to Invoke Malicious Tools [10.086284534400658]
大規模言語モデル(LLM)エージェントは、外部ツールを活用することで複雑な推論と意思決定において顕著な能力を示した。
我々はこれを、悪意のあるツールをLLMエージェントによって優先的に選択できる、新しくてステルスな脅威サーフェスとして認識する。
我々は,非常に魅力的だが構文的かつ意味論的に有効なツールメタデータを生成するブラックボックス・イン・コンテキスト学習フレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-04T06:38:59Z) - CyGATE: Game-Theoretic Cyber Attack-Defense Engine for Patch Strategy Optimization [73.13843039509386]
本稿では,攻撃と防御の相互作用をモデル化するゲーム理論フレームワークCyGATEを提案する。
CyGATEはサイバー・キル・チェーン(Cyber Kill Chain)の段階にわたって、サイバー紛争を部分的に観察可能なゲーム(POSG)として捉えている。
フレームワークの柔軟なアーキテクチャは、マルチエージェントシナリオの拡張を可能にする。
論文 参考訳(メタデータ) (2025-08-01T09:53:06Z) - Exploiting Edge Features for Transferable Adversarial Attacks in Distributed Machine Learning [54.26807397329468]
この研究は、分散ディープラーニングシステムにおいて、これまで見過ごされていた脆弱性を探究する。
中間的特徴をインターセプトする敵は、依然として深刻な脅威となる可能性がある。
本稿では,分散環境に特化して設計されたエクスプロイト戦略を提案する。
論文 参考訳(メタデータ) (2025-07-09T20:09:00Z) - A Survey on Autonomy-Induced Security Risks in Large Model-Based Agents [45.53643260046778]
大規模言語モデル(LLM)の最近の進歩は、自律型AIエージェントの台頭を触媒している。
これらの大きなモデルエージェントは、静的推論システムからインタラクティブなメモリ拡張エンティティへのパラダイムシフトを示す。
論文 参考訳(メタデータ) (2025-06-30T13:34:34Z) - TRAP: Targeted Redirecting of Agentic Preferences [3.6293956720749425]
本稿では,拡散型セマンティックインジェクションを用いてエージェントの意思決定を制御する,生成的敵対的フレームワークであるTRAPを紹介する。
提案手法は, 負のプロンプトに基づく劣化と正のセマンティック最適化を組み合わせ, シームズ意味ネットワークとレイアウト対応空間マスキングによって導かれる。
TRAPはLLaVA-34B、Gemma3、Mistral-3.1など主要なモデルで100%の攻撃成功率を達成した。
論文 参考訳(メタデータ) (2025-05-29T14:57:16Z) - LLM-Based User Simulation for Low-Knowledge Shilling Attacks on Recommender Systems [28.559223475725137]
我々は,Large Language Model(LLM)ベースのエージェントを利用して,低知識かつ高インパクトなシリング攻撃を行う新しいフレームワークであるAgent4SRを紹介する。
Agent4SRは、対向的なインタラクションを編成し、アイテムを選択し、評価を割り当て、レビューを作成し、行動の妥当性を維持しながら、現実的なユーザ動作をシミュレートする。
以上の結果から,レコメンデーションシステムにおける防衛強化の必要性を浮き彫りにして,LSMを駆使したエージェントによる新たな緊急脅威の出現が示唆された。
論文 参考訳(メタデータ) (2025-05-18T04:40:34Z) - AgentVigil: Generic Black-Box Red-teaming for Indirect Prompt Injection against LLM Agents [54.29555239363013]
本稿では,間接的なインジェクション脆弱性を自動的に検出し,悪用するための汎用的なブラックボックスファジリングフレームワークであるAgentVigilを提案する。
我々はAgentVigilをAgentDojoとVWA-advの2つの公開ベンチマークで評価し、o3-miniとGPT-4oに基づくエージェントに対して71%と70%の成功率を達成した。
攻撃を現実世界の環境に適用し、悪質なサイトを含む任意のURLに誘導するエージェントをうまく誘導する。
論文 参考訳(メタデータ) (2025-05-09T07:40:17Z) - AegisLLM: Scaling Agentic Systems for Self-Reflective Defense in LLM Security [74.22452069013289]
AegisLLMは、敵の攻撃や情報漏洩に対する協調的なマルチエージェント防御である。
テスト時のエージェント推論システムのスケーリングは,モデルの有用性を損なうことなく,ロバスト性を大幅に向上させることを示す。
アンラーニングやジェイルブレイクを含む主要な脅威シナリオに対する総合的な評価は、AegisLLMの有効性を示している。
論文 参考訳(メタデータ) (2025-04-29T17:36:05Z) - DoomArena: A framework for Testing AI Agents Against Evolving Security Threats [84.94654617852322]
本稿では,AIエージェントのセキュリティ評価フレームワークであるDoomArenaを紹介する。
プラグインフレームワークであり、現実的なエージェントフレームワークと簡単に統合できる。
モジュールであり、エージェントがデプロイされる環境の詳細から攻撃の開発を分離する。
論文 参考訳(メタデータ) (2025-04-18T20:36:10Z) - MIRAGE: Multimodal Immersive Reasoning and Guided Exploration for Red-Team Jailbreak Attacks [85.3303135160762]
MIRAGEは、物語駆動型コンテキストとロール没入を利用して、マルチモーダル大規模言語モデルにおける安全性メカニズムを回避する新しいフレームワークである。
最先端のパフォーマンスを達成し、最高のベースラインよりも攻撃成功率を最大17.5%向上させる。
役割の浸漬と構造的セマンティック再構築は、モデル固有のバイアスを活性化し、モデルが倫理的保護に自発的に違反することを実証する。
論文 参考訳(メタデータ) (2025-03-24T20:38:42Z) - Gödel Agent: A Self-Referential Agent Framework for Recursive Self-Improvement [117.94654815220404]
G"odel AgentはG"odelマシンにインスパイアされた自己進化型フレームワークである。
G"odel Agentは、パフォーマンス、効率、一般化性において手作業によるエージェントを上回る、継続的な自己改善を実現することができる。
論文 参考訳(メタデータ) (2024-10-06T10:49:40Z) - Breaking Agents: Compromising Autonomous LLM Agents Through Malfunction Amplification [35.16099878559559]
大規模言語モデル(LLM)は大きな発展を遂げ、現実世界のアプリケーションにデプロイされている。
エージェントが繰り返しまたは無関係なアクションを実行することを誤解させることで誤動作を引き起こす新しいタイプの攻撃を導入する。
実験の結果、これらの攻撃は複数のシナリオで80%以上の障害率を誘導できることがわかった。
論文 参考訳(メタデータ) (2024-07-30T14:35:31Z) - AgentPoison: Red-teaming LLM Agents via Poisoning Memory or Knowledge Bases [73.04652687616286]
本稿では,RAG とRAG をベースとした LLM エージェントを標的とした最初のバックドア攻撃である AgentPoison を提案する。
従来のバックドア攻撃とは異なり、AgentPoisonは追加のモデルトレーニングや微調整を必要としない。
エージェントごとに、AgentPoisonは平均攻撃成功率を80%以上達成し、良質なパフォーマンスに最小限の影響を与える。
論文 参考訳(メタデータ) (2024-07-17T17:59:47Z) - Dissecting Adversarial Robustness of Multimodal LM Agents [70.2077308846307]
我々は、VisualWebArena上に現実的な脅威モデルを用いて、200の敵タスクと評価スクリプトを手動で作成する。
我々は,クロボックスフロンティアLMを用いた最新のエージェントを,リフレクションやツリーサーチを行うエージェントを含む,壊すことに成功している。
AREを使用して、新しいコンポーネントの追加に伴うロバスト性の変化を厳格に評価しています。
論文 参考訳(メタデータ) (2024-06-18T17:32:48Z) - On Generative Agents in Recommendation [58.42840923200071]
Agent4Recは、Large Language Modelsに基づいたレコメンデーションのユーザーシミュレータである。
各エージェントは、ページ単位でパーソナライズされた推奨モデルと対話する。
論文 参考訳(メタデータ) (2023-10-16T06:41:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。