論文の概要: Get the Agents Drunk: Memory Perturbations in Autonomous Agent-based Recommender Systems
- arxiv url: http://arxiv.org/abs/2503.23804v1
- Date: Mon, 31 Mar 2025 07:35:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-01 14:38:42.295466
- Title: Get the Agents Drunk: Memory Perturbations in Autonomous Agent-based Recommender Systems
- Title(参考訳): Get the Agents Drunk: 自律エージェントベースのレコメンダシステムにおけるメモリ摂動
- Authors: Shiyi Yang, Zhibo Hu, Chen Wang, Tong Yu, Xiwei Xu, Liming Zhu, Lina Yao,
- Abstract要約: 大規模言語モデルベースのエージェントは、パーソナライズされた振る舞いモデリングを実現するために、リコメンデータシステム(Agent4RS)でますます使われている。
私たちの知る限りでは、Agent4RSがいかに堅牢かは未解明のままです。
本稿では,エージェントの記憶を乱すことによってエージェント4RSを攻撃するための最初の取り組みを提案する。
- 参考スコア(独自算出の注目度): 29.35591074298123
- License:
- Abstract: Large language model-based agents are increasingly used in recommender systems (Agent4RSs) to achieve personalized behavior modeling. Specifically, Agent4RSs introduces memory mechanisms that enable the agents to autonomously learn and self-evolve from real-world interactions. However, to the best of our knowledge, how robust Agent4RSs are remains unexplored. As such, in this paper, we propose the first work to attack Agent4RSs by perturbing agents' memories, not only to uncover their limitations but also to enhance their security and robustness, ensuring the development of safer and more reliable AI agents. Given the security and privacy concerns, it is more practical to launch attacks under a black-box setting, where the accurate knowledge of the victim models cannot be easily obtained. Moreover, the practical attacks are often stealthy to maximize the impact. To this end, we propose a novel practical attack framework named DrunkAgent. DrunkAgent consists of a generation module, a strategy module, and a surrogate module. The generation module aims to produce effective and coherent adversarial textual triggers, which can be used to achieve attack objectives such as promoting the target items. The strategy module is designed to `get the target agents drunk' so that their memories cannot be effectively updated during the interaction process. As such, the triggers can play the best role. Both of the modules are optimized on the surrogate module to improve the transferability and imperceptibility of the attacks. By identifying and analyzing the vulnerabilities, our work provides critical insights that pave the way for building safer and more resilient Agent4RSs. Extensive experiments across various real-world datasets demonstrate the effectiveness of DrunkAgent.
- Abstract(参考訳): 大規模言語モデルベースのエージェントは、パーソナライズされた振る舞いモデリングを実現するために、リコメンデータシステム(Agent4RS)でますます使われている。
具体的には、Agent4RSsは、エージェントが現実世界のインタラクションから自律的に学習し、自己進化することを可能にするメモリメカニズムを導入している。
しかし、我々の知る限りでは、Agent4RSがいかに堅牢かは未解明のままである。
そこで本稿では,エージェントの記憶を乱すことによってエージェント4RSを攻撃し,その限界を明らかにするだけでなく,セキュリティと堅牢性を向上し,より安全で信頼性の高いAIエージェントの開発を保証するために,エージェント4RSを攻撃するための最初の取り組みを提案する。
セキュリティとプライバシの懸念から、被害者モデルの正確な知識を容易に取得できないブラックボックス設定で攻撃を起動することはより現実的である。
さらに、実際の攻撃は影響を最大化するためにステルス性を持つことが多い。
そこで本研究では,DrunkAgentという新しい攻撃フレームワークを提案する。
DrunkAgentは生成モジュール、戦略モジュール、代理モジュールで構成される。
生成モジュールは、ターゲットアイテムの促進などの攻撃目的を達成するために使用できる、効果的で一貫性のある対向的なテキストトリガーを作成することを目的としている。
戦略モジュールは、インタラクションプロセス中にメモリを効果的に更新できないように、‘ターゲットエージェントを酔っ払う’ように設計されている。
そのため、トリガーは最高の役割を果たすことができる。
どちらのモジュールもサロゲートモジュールに最適化されており、アタックの転送性と非許容性を改善する。
脆弱性を特定し分析することで、我々の研究はより安全でよりレジリエントなAgent4RSを構築するための重要な洞察を提供する。
さまざまな実世界のデータセットにわたる大規模な実験は、DrunkAgentの有効性を示している。
関連論文リスト
- AIM: Additional Image Guided Generation of Transferable Adversarial Attacks [72.24101555828256]
トランスファー可能な敵の例は、さまざまな現実世界のアプリケーションにまたがる知覚できない摂動に対するディープニューラルネットワーク(DNN)の脆弱性を強調している。
本研究は,ターゲットの移動可能な攻撃に対する生成的アプローチに焦点を当てる。
本稿では,汎用ジェネレータアーキテクチャに新しいプラグイン・アンド・プレイモジュールを導入し,対向トランスファビリティを向上する。
論文 参考訳(メタデータ) (2025-01-02T07:06:49Z) - Gödel Agent: A Self-Referential Agent Framework for Recursive Self-Improvement [117.94654815220404]
G"odel AgentはG"odelマシンにインスパイアされた自己進化型フレームワークである。
G"odel Agentは、パフォーマンス、効率、一般化性において手作業によるエージェントを上回る、継続的な自己改善を実現することができる。
論文 参考訳(メタデータ) (2024-10-06T10:49:40Z) - Breaking Agents: Compromising Autonomous LLM Agents Through Malfunction Amplification [35.16099878559559]
大規模言語モデル(LLM)は大きな発展を遂げ、現実世界のアプリケーションにデプロイされている。
エージェントが繰り返しまたは無関係なアクションを実行することを誤解させることで誤動作を引き起こす新しいタイプの攻撃を導入する。
実験の結果、これらの攻撃は複数のシナリオで80%以上の障害率を誘導できることがわかった。
論文 参考訳(メタデータ) (2024-07-30T14:35:31Z) - AgentPoison: Red-teaming LLM Agents via Poisoning Memory or Knowledge Bases [73.04652687616286]
本稿では,RAG とRAG をベースとした LLM エージェントを標的とした最初のバックドア攻撃である AgentPoison を提案する。
従来のバックドア攻撃とは異なり、AgentPoisonは追加のモデルトレーニングや微調整を必要としない。
エージェントごとに、AgentPoisonは平均攻撃成功率を80%以上達成し、良質なパフォーマンスに最小限の影響を与える。
論文 参考訳(メタデータ) (2024-07-17T17:59:47Z) - Dissecting Adversarial Robustness of Multimodal LM Agents [70.2077308846307]
我々は、VisualWebArena上に現実的な脅威モデルを用いて、200の敵タスクと評価スクリプトを手動で作成する。
我々は,クロボックスフロンティアLMを用いた最新のエージェントを,リフレクションやツリーサーチを行うエージェントを含む,壊すことに成功している。
AREを使用して、新しいコンポーネントの追加に伴うロバスト性の変化を厳格に評価しています。
論文 参考訳(メタデータ) (2024-06-18T17:32:48Z) - Pangu-Agent: A Fine-Tunable Generalist Agent with Structured Reasoning [50.47568731994238]
人工知能(AI)エージェント作成の鍵となる方法は強化学習(RL)である
本稿では,構造化推論をAIエージェントのポリシーに統合し,学習するための一般的なフレームワークモデルを提案する。
論文 参考訳(メタデータ) (2023-12-22T17:57:57Z) - On Generative Agents in Recommendation [58.42840923200071]
Agent4Recは、Large Language Modelsに基づいたレコメンデーションのユーザーシミュレータである。
各エージェントは、ページ単位でパーソナライズされた推奨モデルと対話する。
論文 参考訳(メタデータ) (2023-10-16T06:41:16Z) - AGI Agent Safety by Iteratively Improving the Utility Function [0.0]
本稿では,AGIエージェントのユーティリティ機能の反復的改善を支援するために,専用の入力端末を作成するAGIセーフティ層を提案する。
因果影響図(CID)にマッピングする作業が進行中であることを示す。
次に、既知の機械学習システムや将来のAGIレベルの学習システムに、安全層をラップする学習エージェントの設計を示す。
論文 参考訳(メタデータ) (2020-07-10T14:30:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。