論文の概要: Collaborative Shadows: Distributed Backdoor Attacks in LLM-Based Multi-Agent Systems
- arxiv url: http://arxiv.org/abs/2510.11246v1
- Date: Mon, 13 Oct 2025 10:34:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:30.32162
- Title: Collaborative Shadows: Distributed Backdoor Attacks in LLM-Based Multi-Agent Systems
- Title(参考訳): 協調シャドウ:LLMベースのマルチエージェントシステムにおける分散バックドアアタック
- Authors: Pengyu Zhu, Lijun Li, Yaxing Lyu, Li Sun, Sen Su, Jing Shao,
- Abstract要約: マルチエージェントシステム(MAS)に対応した最初の分散バックドアアタックを提示する。
我々の攻撃は、良質なタスクの性能を低下させることなく、95%以上の攻撃成功率を達成する。
この作業は、エージェントのコラボレーションを活用する新しいバックドアアタックサーフェスを公開し、単一エージェント保護を超えた移動の必要性を強調している。
- 参考スコア(独自算出の注目度): 30.50143789643111
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LLM-based multi-agent systems (MAS) demonstrate increasing integration into next-generation applications, but their safety in backdoor attacks remains largely underexplored. However, existing research has focused exclusively on single-agent backdoor attacks, overlooking the novel attack surfaces introduced by agent collaboration in MAS. To bridge this gap, we present the first Distributed Backdoor Attack tailored to MAS. We decompose the backdoor into multiple distributed attack primitives that are embedded within MAS tools. These primitives remain dormant individually but collectively activate only when agents collaborate in a specific sequence, thereby assembling the full backdoor to execute targeted attacks such as data exfiltration. To fully assess this threat, we introduce a benchmark for multi-role collaborative tasks and a sandboxed framework to evaluate. Extensive experiments demonstrate that our attack achieves an attack success rate exceeding 95% without degrading performance on benign tasks. This work exposes novel backdoor attack surfaces that exploit agent collaboration, underscoring the need to move beyond single-agent protection. Code and benchmark are available at https://github.com/whfeLingYu/Distributed-Backdoor-Attacks-in-MAS.
- Abstract(参考訳): LLMベースのマルチエージェントシステム(MAS)は、次世代アプリケーションへの統合が増加することを示すが、バックドアアタックにおける安全性はほとんど探索されていない。
しかし、既存の研究は、MASにおけるエージェントの協力によって導入された新しい攻撃面を見渡して、単一エージェントのバックドア攻撃にのみ焦点を当てている。
このギャップを埋めるために、MASに合わせた最初の分散バックドアアタックを提示する。
バックドアを複数の分散攻撃プリミティブに分解し、MASツールに組み込む。
これらのプリミティブは、個別に休眠状態にあるが、エージェントが特定のシーケンスで協調するときにのみ一括して活性化されるため、データ消去のようなターゲット攻撃を実行するために完全なバックドアを組み立てる。
この脅威を十分に評価するために,マルチロール協調作業のためのベンチマークとサンドボックスフレームワークを導入する。
広範囲な実験により,攻撃が95%以上の攻撃成功率を達成でき,良質なタスクの性能を低下させることなく達成できることが実証された。
この作業は、エージェントのコラボレーションを活用する新しいバックドアアタックサーフェスを公開し、単一エージェント保護を超えた移動の必要性を強調している。
コードとベンチマークはhttps://github.com/whfeLingYu/Distributed-Backdoor-Attacks-in-MASで公開されている。
関連論文リスト
- AgentVigil: Generic Black-Box Red-teaming for Indirect Prompt Injection against LLM Agents [54.29555239363013]
本稿では,間接的なインジェクション脆弱性を自動的に検出し,悪用するための汎用的なブラックボックスファジリングフレームワークであるAgentVigilを提案する。
我々はAgentVigilをAgentDojoとVWA-advの2つの公開ベンチマークで評価し、o3-miniとGPT-4oに基づくエージェントに対して71%と70%の成功率を達成した。
攻撃を現実世界の環境に適用し、悪質なサイトを含む任意のURLに誘導するエージェントをうまく誘導する。
論文 参考訳(メタデータ) (2025-05-09T07:40:17Z) - BLAST: A Stealthy Backdoor Leverage Attack against Cooperative Multi-Agent Deep Reinforcement Learning based Systems [14.936720751131434]
協調型多エージェント深層強化学習(c-MADRL)は、バックドア攻撃の脅威にさらされている。
我々は,c-MADRLに対して,単一のエージェントに唯一のバックドアを埋め込むことで,マルチエージェントチーム全体を攻撃する新しいバックドアレバレッジアタックを提案する。
論文 参考訳(メタデータ) (2025-01-03T01:33:29Z) - A Spatiotemporal Stealthy Backdoor Attack against Cooperative Multi-Agent Deep Reinforcement Learning [12.535344011523897]
協調型多エージェント深層強化学習(c-MADRL)は、バックドア攻撃の脅威にさらされている。
我々は,c-MADRLに対する新たなバックドア攻撃を提案し,単一のエージェントにのみバックドアを埋め込むことで,マルチエージェントチーム全体を攻撃する。
私たちのバックドア攻撃は高い攻撃成功率(91.6%)を達成でき、クリーンパフォーマンスのばらつきは低い(3.7%)。
論文 参考訳(メタデータ) (2024-09-12T06:17:37Z) - Watch Out for Your Agents! Investigating Backdoor Threats to LLM-Based Agents [47.219047422240145]
我々は、LSMベースのエージェントに対して、典型的な安全脅威であるバックドアアタックの1つを調査する第一歩を踏み出した。
具体的には、ユーザ入力とモデル出力のみを操作できる従来のLDMに対するバックドア攻撃と比較して、エージェントバックドア攻撃はより多様で隠蔽的な形式を示す。
論文 参考訳(メタデータ) (2024-02-17T06:48:45Z) - Backdoors Stuck At The Frontdoor: Multi-Agent Backdoor Attacks That
Backfire [8.782809316491948]
複数の攻撃者が同時に被害者モデルをバックドアしようとするマルチエージェントバックドア攻撃シナリオについて検討する。
エージェントが集団攻撃の成功率の低いゲームで一貫したバックファイリング現象が観察される。
その結果,実践環境におけるバックドア・ディフェンス研究の再評価の動機となった。
論文 参考訳(メタデータ) (2022-01-28T16:11:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。