論文の概要: GroupGuard: A Framework for Modeling and Defending Collusive Attacks in Multi-Agent Systems
- arxiv url: http://arxiv.org/abs/2603.13940v1
- Date: Sat, 14 Mar 2026 13:19:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 16:19:35.497451
- Title: GroupGuard: A Framework for Modeling and Defending Collusive Attacks in Multi-Agent Systems
- Title(参考訳): GroupGuard: マルチエージェントシステムにおける衝突攻撃のモデル化と防御のためのフレームワーク
- Authors: Yiling Tao, Xinran Zheng, Shuo Yang, Meiling Tao, Xingjun Wang,
- Abstract要約: グループガード(GroupGuard)は、多層防御戦略を用いて、癒着剤の識別と分離を行う、トレーニングフリーの防衛フレームワークである。
GroupGuardは、高い検出精度(最大88%)を一貫して達成し、協調的なパフォーマンスを効果的に回復する。
- 参考スコア(独自算出の注目度): 12.188883494965694
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While large language model-based agents demonstrate great potential in collaborative tasks, their interactivity also introduces security vulnerabilities. In this paper, we propose and model group collusive attacks, a highly destructive threat in which multiple agents coordinate via sociological strategies to mislead the system. To address this challenge, we introduce GroupGuard, a training-free defense framework that employs a multi-layered defense strategy, including continuous graph-based monitoring, active honeypot inducement, and structural pruning, to identify and isolate collusive agents. Experimental results across five datasets and four topologies demonstrate that group collusive attacks increase the attack success rate by up to 15\% compared to individual attacks. GroupGuard consistently achieves high detection accuracy (up to 88\%) and effectively restores collaborative performance, providing a robust solution for securing multi-agent systems.
- Abstract(参考訳): 大きな言語モデルベースのエージェントは協調作業において大きな可能性を示す一方で、対話性はセキュリティ脆弱性も導入する。
本稿では,複数のエージェントが社会学的戦略を介して協調してシステムを誤解させる極めて破壊的な脅威である集団衝突攻撃を提案し,モデル化する。
この課題に対処するために、連続グラフベースの監視、アクティブなハニーポット誘導、構造的プルーニングを含む多層防御戦略を採用した、無訓練防衛フレームワークであるGroupGuardを導入し、コラーゲン化剤の同定と分離を行う。
5つのデータセットと4つのトポロジにまたがる実験結果から、集団衝突攻撃は個々の攻撃と比較して最大15倍の攻撃成功率を示す。
GroupGuardは、高い検出精度(最大88%)を一貫して達成し、協調的なパフォーマンスを効果的に回復し、マルチエージェントシステムを保護する堅牢なソリューションを提供する。
関連論文リスト
- INFA-Guard: Mitigating Malicious Propagation via Infection-Aware Safeguarding in LLM-Based Multi-Agent Systems [70.37731999972785]
本稿では,感染防止対策の枠組みであるINFA-Guardを提案する。
修復中、INFA-Guardは攻撃者を置き換え、感染した者を修復し、トポロジカルな整合性を維持しながら悪意のある伝播を避ける。
論文 参考訳(メタデータ) (2026-01-21T05:27:08Z) - Adversarial Reinforcement Learning for Large Language Model Agent Safety [20.704989548285372]
大きな言語モデル(LLM)エージェントは、複雑なタスクを完了するためにGoogle Searchのようなツールを利用することができる。
現在の防衛戦略は、既知の攻撃のデータセットに精巧なLLMエージェントを頼っている。
対戦型強化学習(RL)を両プレイヤーゼロサムゲームとして定式化して活用する新しいフレームワークであるエージェント安全のための敵強化学習(ARLAS)を提案する。
論文 参考訳(メタデータ) (2025-10-06T23:09:18Z) - AdvEvo-MARL: Shaping Internalized Safety through Adversarial Co-Evolution in Multi-Agent Reinforcement Learning [78.5751183537704]
AdvEvo-MARLは、タスクエージェントに安全性を内部化する、共進化型マルチエージェント強化学習フレームワークである。
外部ガードに頼るのではなく、AdvEvo-MARLは攻撃者と防御者を共同で最適化する。
論文 参考訳(メタデータ) (2025-10-02T02:06:30Z) - BlindGuard: Safeguarding LLM-based Multi-Agent Systems under Unknown Attacks [58.959622170433725]
BlindGuardは、攻撃固有のラベルや悪意のある振る舞いに関する事前の知識を必要とせずに学習する、教師なしの防御方法である。
BlindGuardはマルチエージェントシステムにまたがる多様な攻撃タイプ(即時注入、メモリ中毒、ツール攻撃)を効果的に検出する。
論文 参考訳(メタデータ) (2025-08-11T16:04:47Z) - Who's the Mole? Modeling and Detecting Intention-Hiding Malicious Agents in LLM-Based Multi-Agent Systems [25.6233463223145]
大規模言語モデル(LLM-MAS)を用いたマルチエージェントシステムにおける意図隠蔽脅威について検討する。
高いステルス性を維持しながらタスク完了を微妙に妨害する4つの代表的な攻撃パラダイムを設計する。
これらの脅威に対処するために,心理学に着想を得た検出フレームワークであるAgentXposedを提案する。
論文 参考訳(メタデータ) (2025-07-07T07:34:34Z) - MultiPhishGuard: An LLM-based Multi-Agent System for Phishing Email Detection [3.187381965457262]
MultiPhishGuardは動的マルチエージェント検出システムである。
本フレームワークでは, 政策最適化強化学習アルゴリズムを用いて, 自動決定重み付けを行う5つの協調エージェントを用いる。
実験により、MultiPhishGuardは偽陽性(2.73%)と偽陰性率(0.20%)で高い精度(97.89%)を達成することが示された。
論文 参考訳(メタデータ) (2025-05-26T23:27:15Z) - Multi-granular Adversarial Attacks against Black-box Neural Ranking Models [111.58315434849047]
多粒性摂動を取り入れた高品質な逆数例を作成する。
我々は,多粒体攻撃を逐次的意思決定プロセスに変換する。
本手法は,攻撃の有効性と非受容性の両方において,一般的なベースラインを超えている。
論文 参考訳(メタデータ) (2024-04-02T02:08:29Z) - Robust multi-agent coordination via evolutionary generation of auxiliary
adversarial attackers [23.15190337027283]
副次的攻撃者生成によるロバスト多エージェント協調(ROMANCE)を提案する。
ROMANCEは、訓練中に多種多様で強力な補助的敵攻撃に遭遇することを可能にし、様々な政策摂動の下で高い堅牢性を達成する。
品質の目標は、エゴシステムのコーディネーション効果を最小限に抑えることであり、攻撃者間の振る舞いを多様化するために、新しい多様性レギュレータを適用することである。
論文 参考訳(メタデータ) (2023-05-10T05:29:47Z) - Decentralized Adversarial Training over Graphs [44.03711922549992]
近年、敵攻撃に対する機械学習モデルの脆弱性が注目されている。
マルチエージェントシステムのための分散逆数フレームワークを開発する。
論文 参考訳(メタデータ) (2023-03-23T15:05:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。