論文の概要: Exposing Weak Links in Multi-Agent Systems under Adversarial Prompting
- arxiv url: http://arxiv.org/abs/2511.10949v1
- Date: Fri, 14 Nov 2025 04:22:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-17 22:42:18.431921
- Title: Exposing Weak Links in Multi-Agent Systems under Adversarial Prompting
- Title(参考訳): 対向プロンプティングによるマルチエージェントシステムにおける弱リンクの抽出
- Authors: Nirmit Arora, Sathvik Joel, Ishan Kavathekar, Palak, Rohan Gandhi, Yash Pandya, Tanuja Ganu, Aditya Kanade, Akshay Nambi,
- Abstract要約: 本稿では,マルチエージェントシステムのセキュリティ評価を行うフレームワークであるSafeAgentsを提案する。
広く採用されている5つのマルチエージェントアーキテクチャについて検討する。
この結果から,一般的なデザインパターンには重大な脆弱性があることが判明した。
- 参考スコア(独自算出の注目度): 5.544819942438653
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: LLM-based agents are increasingly deployed in multi-agent systems (MAS). As these systems move toward real-world applications, their security becomes paramount. Existing research largely evaluates single-agent security, leaving a critical gap in understanding the vulnerabilities introduced by multi-agent design. However, existing systems fall short due to lack of unified frameworks and metrics focusing on unique rejection modes in MAS. We present SafeAgents, a unified and extensible framework for fine-grained security assessment of MAS. SafeAgents systematically exposes how design choices such as plan construction strategies, inter-agent context sharing, and fallback behaviors affect susceptibility to adversarial prompting. We introduce Dharma, a diagnostic measure that helps identify weak links within multi-agent pipelines. Using SafeAgents, we conduct a comprehensive study across five widely adopted multi-agent architectures (centralized, decentralized, and hybrid variants) on four datasets spanning web tasks, tool use, and code generation. Our findings reveal that common design patterns carry significant vulnerabilities. For example, centralized systems that delegate only atomic instructions to sub-agents obscure harmful objectives, reducing robustness. Our results highlight the need for security-aware design in MAS. Link to code is https://github.com/microsoft/SafeAgents
- Abstract(参考訳): LLMベースのエージェントは、ますますマルチエージェントシステム(MAS)にデプロイされている。
これらのシステムが現実世界のアプリケーションに向かって進むにつれ、セキュリティは最重要となる。
既存の研究は、シングルエージェントのセキュリティを概ね評価しており、マルチエージェント設計によって導入された脆弱性を理解する上で重要なギャップを残している。
しかし、既存のシステムは、MASのユニークな拒絶モードに焦点を当てた統一されたフレームワークやメトリクスが欠如しているため、不足している。
我々は,MASのきめ細かいセキュリティ評価のための統一的で拡張可能なフレームワークであるSafeAgentsを提案する。
SafeAgentsは、計画構築戦略、エージェント間のコンテキスト共有、フォールバック行動などの設計選択が、敵のプロンプトに対する感受性にどのように影響するかを体系的に公開する。
マルチエージェントパイプライン内の弱いリンクの識別を支援する診断指標であるDharmaを紹介する。
SafeAgentsを使って、Webタスク、ツールの使用、コード生成にまたがる4つのデータセットに対して、広く採用されている5つのマルチエージェントアーキテクチャ(集中型、分散型、ハイブリッド型)の包括的な調査を行います。
この結果から,一般的なデザインパターンには重大な脆弱性があることが判明した。
例えば、アトミック命令のみをサブエージェントに委譲する集中型システムは有害な目的を曖昧にし、堅牢性を低下させる。
この結果は,MASにおけるセキュリティ対応設計の必要性を浮き彫りにした。
Link to code is https://github.com/microsoft/SafeAgents
関連論文リスト
- TAMAS: Benchmarking Adversarial Risks in Multi-Agent LLM Systems [11.885326879716738]
大規模言語モデル(LLM)は、ツールの使用、計画、意思決定能力を通じて、自律的なエージェントとして強力な能力を示している。
タスクの複雑さが増大するにつれて、複数エージェントのLLMシステムが協調的に問題解決に利用されている。
既存のベンチマークでは、主にシングルエージェント設定に重点を置いており、マルチエージェントのダイナミックスとコーディネーションのユニークな脆弱性を捉えていない。
我々は$textbfT$hreatsと$textbfA$ttacks in $textbfM$ulti-$textbfA$gent $textを導入する。
論文 参考訳(メタデータ) (2025-11-07T14:30:26Z) - Extending the OWASP Multi-Agentic System Threat Modeling Guide: Insights from Multi-Agent Security Research [0.8057006406834466]
この研究は、最近のマルチエージェントセキュリティ(MASEC)の予測研究を、大規模言語モデル(LLM)駆動のマルチエージェントアーキテクチャに特有の課題に対処するための実践的なガイダンスに翻訳する。
我々は,実践的なMAS展開に根ざした新たな脅威クラスとシナリオを導入し,良心的目標ドリフト,クロスエージェント伝搬,情緒的プロンプトフレーミング,マルチエージェントバックドアのリスクを強調した。
この研究は、ますます複雑で自律的で適応的なマルチエージェントシステムに適用性を広げることによって、堅牢性の枠組みを補完する。
論文 参考訳(メタデータ) (2025-08-13T13:47:55Z) - BlindGuard: Safeguarding LLM-based Multi-Agent Systems under Unknown Attacks [58.959622170433725]
BlindGuardは、攻撃固有のラベルや悪意のある振る舞いに関する事前の知識を必要とせずに学習する、教師なしの防御方法である。
BlindGuardはマルチエージェントシステムにまたがる多様な攻撃タイプ(即時注入、メモリ中毒、ツール攻撃)を効果的に検出する。
論文 参考訳(メタデータ) (2025-08-11T16:04:47Z) - Towards Unifying Quantitative Security Benchmarking for Multi Agent Systems [0.0]
AIシステムの進化 自律エージェントが協力し、情報を共有し、プロトコルを開発することでタスクを委譲するマルチエージェントアーキテクチャをますます展開する。
そのようなリスクの1つはカスケードリスクである。あるエージェントの侵入はシステムを通してカスケードし、エージェント間の信頼を利用して他人を妥協させる。
ACI攻撃では、あるエージェントに悪意のあるインプットまたはツールエクスプロイトが注入され、そのアウトプットを信頼するエージェント間でカスケードの妥協とダウンストリーム効果が増幅される。
論文 参考訳(メタデータ) (2025-07-23T13:51:28Z) - Who's the Mole? Modeling and Detecting Intention-Hiding Malicious Agents in LLM-Based Multi-Agent Systems [25.6233463223145]
大規模言語モデル(LLM-MAS)を用いたマルチエージェントシステムにおける意図隠蔽脅威について検討する。
高いステルス性を維持しながらタスク完了を微妙に妨害する4つの代表的な攻撃パラダイムを設計する。
これらの脅威に対処するために,心理学に着想を得た検出フレームワークであるAgentXposedを提案する。
論文 参考訳(メタデータ) (2025-07-07T07:34:34Z) - SentinelAgent: Graph-based Anomaly Detection in Multi-Agent Systems [11.497269773189254]
大規模言語モデル(LLM)に基づくマルチエージェントシステム(MAS)に適したシステムレベルの異常検出フレームワークを提案する。
本稿では,エージェント間相互作用を動的実行グラフとしてモデル化し,ノード,エッジ,パスレベルでの意味的異常検出を可能にするグラフベースのフレームワークを提案する。
第2に,セキュリティポリシとコンテキスト推論に基づくMAS実行の監視,解析,介入を行うLLMによる監視エージェントである,プラグイン可能なSentinelAgentを導入する。
論文 参考訳(メタデータ) (2025-05-30T04:25:19Z) - AgentVigil: Generic Black-Box Red-teaming for Indirect Prompt Injection against LLM Agents [54.29555239363013]
本稿では,間接的なインジェクション脆弱性を自動的に検出し,悪用するための汎用的なブラックボックスファジリングフレームワークであるAgentVigilを提案する。
我々はAgentVigilをAgentDojoとVWA-advの2つの公開ベンチマークで評価し、o3-miniとGPT-4oに基づくエージェントに対して71%と70%の成功率を達成した。
攻撃を現実世界の環境に適用し、悪質なサイトを含む任意のURLに誘導するエージェントをうまく誘導する。
論文 参考訳(メタデータ) (2025-05-09T07:40:17Z) - On the Resilience of LLM-Based Multi-Agent Collaboration with Faulty Agents [58.79302663733703]
大規模言語モデルに基づくマルチエージェントシステムは、専門家エージェントの協力により、様々なタスクにまたがる優れた能力を示している。
不器用なエージェントや悪意のあるエージェントが与える影響 - システム全体のパフォーマンスにおいて、頻繁にタスクでエラーを犯すものは、いまだに過小評価されていない。
本稿では,下流タスクにおける障害要因下での各種システム構造のレジリエンスについて検討する。
論文 参考訳(メタデータ) (2024-08-02T03:25:20Z) - Dissecting Adversarial Robustness of Multimodal LM Agents [70.2077308846307]
我々は、VisualWebArena上に現実的な脅威モデルを用いて、200の敵タスクと評価スクリプトを手動で作成する。
我々は,クロボックスフロンティアLMを用いた最新のエージェントを,リフレクションやツリーサーチを行うエージェントを含む,壊すことに成功している。
AREを使用して、新しいコンポーネントの追加に伴うロバスト性の変化を厳格に評価しています。
論文 参考訳(メタデータ) (2024-06-18T17:32:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。