論文の概要: MaMa: A Game-Theoretic Approach for Designing Safe Agentic Systems
- arxiv url: http://arxiv.org/abs/2602.04431v1
- Date: Wed, 04 Feb 2026 11:07:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-05 19:45:11.49318
- Title: MaMa: A Game-Theoretic Approach for Designing Safe Agentic Systems
- Title(参考訳): MaMa: 安全なエージェントシステムを設計するためのゲーム理論的アプローチ
- Authors: Jonathan Nöther, Adish Singla, Goran Radanovic,
- Abstract要約: エージェントのサブセットが侵害された場合でも安全であり続けるエージェントシステムの自動設計について検討する。
本稿では,このゲームをほぼ解決し,安全なエージェントシステムを自動的に設計する新しいアルゴリズムであるMeta-Adversary-Meta-Agent (MaMa)を提案する。
- 参考スコア(独自算出の注目度): 31.01865239234458
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LLM-based multi-agent systems have demonstrated impressive capabilities, but they also introduce significant safety risks when individual agents fail or behave adversarially. In this work, we study the automated design of agentic systems that remain safe even when a subset of agents is compromised. We formalize this challenge as a Stackelberg security game between a system designer (the Meta-Agent) and a best-responding Meta-Adversary that selects and compromises a subset of agents to minimize safety. We propose Meta-Adversary-Meta-Agent (MaMa), a novel algorithm for approximately solving this game and automatically designing safe agentic systems. Our approach uses LLM-based adversarial search, where the Meta-Agent iteratively proposes system designs and receives feedback based on the strongest attacks discovered by the Meta-Adversary. Empirical evaluations across diverse environments show that systems designed with MaMa consistently defend against worst-case attacks while maintaining performance comparable to systems optimized solely for task success. Moreover, the resulting systems generalize to stronger adversaries, as well as ones with different attack objectives or underlying LLMs, demonstrating robust safety beyond the training setting.
- Abstract(参考訳): LLMベースのマルチエージェントシステムは印象的な能力を示してきたが、個々のエージェントが失敗したり、逆向きに振る舞うと、重大な安全性のリスクが生じる。
本研究では,エージェントのサブセットが侵害された場合でも安全であり続けるエージェントシステムの自動設計について検討する。
この課題を,システムデザイナ(Meta-Agent)とベスト対応のMeta-Adversary間のStackelbergセキュリティゲームとして形式化し,エージェントのサブセットを選択して,安全性を最小限に抑える。
本稿では,このゲームをほぼ解決し,安全なエージェントシステムを自動的に設計する新しいアルゴリズムであるMeta-Adversary-Meta-Agent (MaMa)を提案する。
提案手法では,メタエージェントがシステム設計を反復的に提案し,メタエージェントが発見する最強攻撃に基づいてフィードバックを受け取る。
多様な環境にまたがる実証的な評価は、MaMaで設計されたシステムは、タスク成功のために最適化されたシステムに匹敵する性能を維持しながら、最悪のケース攻撃に対して一貫して防御していることを示している。
さらに、結果として得られるシステムは、より強力な敵、異なる攻撃目標または基礎となるLLMを持つ敵に一般化され、トレーニング設定を超えて堅牢な安全性を示す。
関連論文リスト
- Exposing Weak Links in Multi-Agent Systems under Adversarial Prompting [5.544819942438653]
本稿では,マルチエージェントシステムのセキュリティ評価を行うフレームワークであるSafeAgentsを提案する。
広く採用されている5つのマルチエージェントアーキテクチャについて検討する。
この結果から,一般的なデザインパターンには重大な脆弱性があることが判明した。
論文 参考訳(メタデータ) (2025-11-14T04:22:49Z) - TAMAS: Benchmarking Adversarial Risks in Multi-Agent LLM Systems [11.885326879716738]
大規模言語モデル(LLM)は、ツールの使用、計画、意思決定能力を通じて、自律的なエージェントとして強力な能力を示している。
タスクの複雑さが増大するにつれて、複数エージェントのLLMシステムが協調的に問題解決に利用されている。
既存のベンチマークでは、主にシングルエージェント設定に重点を置いており、マルチエージェントのダイナミックスとコーディネーションのユニークな脆弱性を捉えていない。
我々は$textbfT$hreatsと$textbfA$ttacks in $textbfM$ulti-$textbfA$gent $textを導入する。
論文 参考訳(メタデータ) (2025-11-07T14:30:26Z) - Can an Individual Manipulate the Collective Decisions of Multi-Agents? [53.01767232004823]
M-Spoilerは、マルチエージェントシステム内のエージェントインタラクションをシミュレートして、対向サンプルを生成するフレームワークである。
M-スポイラーは、敵対的サンプルの最適化を積極的に支援するスタブボーン剤を導入した。
本研究は,マルチエージェントシステムにおける個々のエージェントの知識によって引き起こされるリスクを検証した。
論文 参考訳(メタデータ) (2025-09-20T01:54:20Z) - Benchmarking the Robustness of Agentic Systems to Adversarially-Induced Harms [31.01865239234458]
本稿では,エージェントから有害な作用を誘発する攻撃に対するエージェントシステムの堅牢性を評価する。
本稿では,エージェントシステムに対する害の新たな分類法と,新たなベンチマークであるBAD-ACTSを提案する。
BAD-ACTSは、異なるアプリケーション環境におけるエージェントシステムの4つの実装と、有害なアクションの188の高品質な例のデータセットで構成されている。
論文 参考訳(メタデータ) (2025-08-22T15:53:22Z) - AgentVigil: Generic Black-Box Red-teaming for Indirect Prompt Injection against LLM Agents [54.29555239363013]
本稿では,間接的なインジェクション脆弱性を自動的に検出し,悪用するための汎用的なブラックボックスファジリングフレームワークであるAgentVigilを提案する。
我々はAgentVigilをAgentDojoとVWA-advの2つの公開ベンチマークで評価し、o3-miniとGPT-4oに基づくエージェントに対して71%と70%の成功率を達成した。
攻撃を現実世界の環境に適用し、悪質なサイトを含む任意のURLに誘導するエージェントをうまく誘導する。
論文 参考訳(メタデータ) (2025-05-09T07:40:17Z) - Systematic Categorization, Construction and Evaluation of New Attacks against Multi-modal Mobile GUI Agents [16.559272781032632]
本稿では,マルチモーダルなモバイルGUIエージェントのセキュリティを体系的に調査し,既存の文献におけるこの重大なギャップに対処する。
我々は,(1)新たな脅威モデリング手法を提案し,34件の未報告攻撃の発見・実現可能性分析を行い,(2)これらの脅威を体系的に構築・評価するアタック・フレームワークを設計する。
論文 参考訳(メタデータ) (2024-07-12T14:30:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。