論文の概要: Cowpox: Towards the Immunity of VLM-based Multi-Agent Systems
- arxiv url: http://arxiv.org/abs/2508.09230v1
- Date: Tue, 12 Aug 2025 07:48:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-14 20:42:00.640246
- Title: Cowpox: Towards the Immunity of VLM-based Multi-Agent Systems
- Title(参考訳): Cowpox: VLMベースのマルチエージェントシステムの免疫に向けて
- Authors: Yutong Wu, Jie Zhang, Yiming Li, Chao Zhang, Qing Guo, Nils Lukas, Tianwei Zhang,
- Abstract要約: 核となるセキュリティ特性は堅牢性であり、システムは敵の攻撃下でその整合性を維持するべきである、と述べている。
我々は,マルチエージェントシステムのロバスト性を高めるための新しい防衛手法,Cowpoxを提案する。
- 参考スコア(独自算出の注目度): 25.286964510949183
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision Language Model (VLM)-based agents are stateful, autonomous entities capable of perceiving and interacting with their environments through vision and language. Multi-agent systems comprise specialized agents who collaborate to solve a (complex) task. A core security property is robustness, stating that the system should maintain its integrity under adversarial attacks. However, the design of existing multi-agent systems lacks the robustness consideration, as a successful exploit against one agent can spread and infect other agents to undermine the entire system's assurance. To address this, we propose a new defense approach, Cowpox, to provably enhance the robustness of multi-agent systems. It incorporates a distributed mechanism, which improves the recovery rate of agents by limiting the expected number of infections to other agents. The core idea is to generate and distribute a special cure sample that immunizes an agent against the attack before exposure and helps recover the already infected agents. We demonstrate the effectiveness of Cowpox empirically and provide theoretical robustness guarantees.
- Abstract(参考訳): 視覚言語モデル(VLM)ベースのエージェントは、視覚と言語を通して環境を知覚し、相互作用することができる、ステートフルで自律的なエンティティである。
マルチエージェントシステムは、(複雑な)タスクを解決するために協力する特殊なエージェントから構成される。
核となるセキュリティ特性は堅牢性であり、システムは敵の攻撃下でその整合性を維持するべきである、と述べている。
しかし、既存のマルチエージェントシステムの設計は、システム全体の保証を損なうために、あるエージェントに対して成功したエクスプロイトが他のエージェントを拡散し感染させる可能性があるため、ロバストな考慮を欠いている。
そこで本研究では,マルチエージェントシステムのロバスト性を高めるために,新たな防御手法であるCowpoxを提案する。
分散メカニズムが組み込まれており、他のエージェントへの感染が期待される回数を制限することにより、エージェントの回復率を改善する。
その中核となる考え方は、曝露前に薬剤を免疫する特別な治療サンプルを生成し、配布し、既に感染している薬剤の回収を支援することである。
我々は,Cowpoxの有効性を実証的に証明し,理論的堅牢性を保証する。
関連論文リスト
- BlindGuard: Safeguarding LLM-based Multi-Agent Systems under Unknown Attacks [58.959622170433725]
BlindGuardは、攻撃固有のラベルや悪意のある振る舞いに関する事前の知識を必要とせずに学習する、教師なしの防御方法である。
BlindGuardはマルチエージェントシステムにまたがる多様な攻撃タイプ(即時注入、メモリ中毒、ツール攻撃)を効果的に検出する。
論文 参考訳(メタデータ) (2025-08-11T16:04:47Z) - Towards Unifying Quantitative Security Benchmarking for Multi Agent Systems [0.0]
AIシステムの進化 自律エージェントが協力し、情報を共有し、プロトコルを開発することでタスクを委譲するマルチエージェントアーキテクチャをますます展開する。
そのようなリスクの1つはカスケードリスクである。あるエージェントの侵入はシステムを通してカスケードし、エージェント間の信頼を利用して他人を妥協させる。
ACI攻撃では、あるエージェントに悪意のあるインプットまたはツールエクスプロイトが注入され、そのアウトプットを信頼するエージェント間でカスケードの妥協とダウンストリーム効果が増幅される。
論文 参考訳(メタデータ) (2025-07-23T13:51:28Z) - PeerGuard: Defending Multi-Agent Systems Against Backdoor Attacks Through Mutual Reasoning [8.191214701984162]
マルチエージェントシステムは、複雑なタスクを完了させたり、協力したり、競合したりする自律エージェントとして、高度なAIモデルを活用する。
重要性は増しているが、マルチエージェントシステムの安全性はいまだに未調査である。
本研究では,マルチエージェントシステムにおけるバックドア脆弱性を調査し,エージェントインタラクションに基づく防御機構を提案する。
論文 参考訳(メタデータ) (2025-05-16T19:08:29Z) - AgentVigil: Generic Black-Box Red-teaming for Indirect Prompt Injection against LLM Agents [54.29555239363013]
本稿では,間接的なインジェクション脆弱性を自動的に検出し,悪用するための汎用的なブラックボックスファジリングフレームワークであるAgentVigilを提案する。
我々はAgentVigilをAgentDojoとVWA-advの2つの公開ベンチマークで評価し、o3-miniとGPT-4oに基づくエージェントに対して71%と70%の成功率を達成した。
攻撃を現実世界の環境に適用し、悪質なサイトを含む任意のURLに誘導するエージェントをうまく誘導する。
論文 参考訳(メタデータ) (2025-05-09T07:40:17Z) - Free Agent in Agent-Based Mixture-of-Experts Generative AI Framework [0.0]
強化学習自由エージェント (Reinforcement Learning Free Agent, RLFA) アルゴリズムは、永続的な過パフォーマンスを示すエージェントを検出し、除去するための報酬に基づくメカニズムを導入する。
第一のユースケースは不正検出であり、RLFAは事前に設定された閾値以下で検出精度が低下するエージェントを即座に交換する。
このダイナミックでフリーの緊急サイクルは、持続的な正確さ、出現する脅威への迅速な適応、進行中の運用に対する最小限の中断を保証する。
論文 参考訳(メタデータ) (2025-01-29T13:00:22Z) - On the Resilience of LLM-Based Multi-Agent Collaboration with Faulty Agents [58.79302663733703]
大規模言語モデルに基づくマルチエージェントシステムは、専門家エージェントの協力により、様々なタスクにまたがる優れた能力を示している。
不器用なエージェントや悪意のあるエージェントが与える影響 - システム全体のパフォーマンスにおいて、頻繁にタスクでエラーを犯すものは、いまだに過小評価されていない。
本稿では,下流タスクにおける障害要因下での各種システム構造のレジリエンスについて検討する。
論文 参考訳(メタデータ) (2024-08-02T03:25:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。