論文の概要: MaMa: A Game-Theoretic Approach for Designing Safe Agentic Systems
- arxiv url: http://arxiv.org/abs/2602.04431v1
- Date: Wed, 04 Feb 2026 11:07:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-05 19:45:11.49318
- Title: MaMa: A Game-Theoretic Approach for Designing Safe Agentic Systems
- Title(参考訳): MaMa: 安全なエージェントシステムを設計するためのゲーム理論的アプローチ
- Authors: Jonathan Nöther, Adish Singla, Goran Radanovic,
- Abstract要約: エージェントのサブセットが侵害された場合でも安全であり続けるエージェントシステムの自動設計について検討する。
本稿では,このゲームをほぼ解決し,安全なエージェントシステムを自動的に設計する新しいアルゴリズムであるMeta-Adversary-Meta-Agent (MaMa)を提案する。
- 参考スコア(独自算出の注目度): 31.01865239234458
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LLM-based multi-agent systems have demonstrated impressive capabilities, but they also introduce significant safety risks when individual agents fail or behave adversarially. In this work, we study the automated design of agentic systems that remain safe even when a subset of agents is compromised. We formalize this challenge as a Stackelberg security game between a system designer (the Meta-Agent) and a best-responding Meta-Adversary that selects and compromises a subset of agents to minimize safety. We propose Meta-Adversary-Meta-Agent (MaMa), a novel algorithm for approximately solving this game and automatically designing safe agentic systems. Our approach uses LLM-based adversarial search, where the Meta-Agent iteratively proposes system designs and receives feedback based on the strongest attacks discovered by the Meta-Adversary. Empirical evaluations across diverse environments show that systems designed with MaMa consistently defend against worst-case attacks while maintaining performance comparable to systems optimized solely for task success. Moreover, the resulting systems generalize to stronger adversaries, as well as ones with different attack objectives or underlying LLMs, demonstrating robust safety beyond the training setting.
- Abstract(参考訳): LLMベースのマルチエージェントシステムは印象的な能力を示してきたが、個々のエージェントが失敗したり、逆向きに振る舞うと、重大な安全性のリスクが生じる。
本研究では,エージェントのサブセットが侵害された場合でも安全であり続けるエージェントシステムの自動設計について検討する。
この課題を,システムデザイナ(Meta-Agent)とベスト対応のMeta-Adversary間のStackelbergセキュリティゲームとして形式化し,エージェントのサブセットを選択して,安全性を最小限に抑える。
本稿では,このゲームをほぼ解決し,安全なエージェントシステムを自動的に設計する新しいアルゴリズムであるMeta-Adversary-Meta-Agent (MaMa)を提案する。
提案手法では,メタエージェントがシステム設計を反復的に提案し,メタエージェントが発見する最強攻撃に基づいてフィードバックを受け取る。
多様な環境にまたがる実証的な評価は、MaMaで設計されたシステムは、タスク成功のために最適化されたシステムに匹敵する性能を維持しながら、最悪のケース攻撃に対して一貫して防御していることを示している。
さらに、結果として得られるシステムは、より強力な敵、異なる攻撃目標または基礎となるLLMを持つ敵に一般化され、トレーニング設定を超えて堅牢な安全性を示す。
関連論文リスト
- ReasAlign: Reasoning Enhanced Safety Alignment against Prompt Injection Attack [52.17935054046577]
本稿では、間接的インジェクション攻撃に対する安全性アライメントを改善するためのモデルレベルのソリューションであるReasAlignを提案する。
ReasAlignには、ユーザクエリの分析、競合する命令の検出、ユーザの意図したタスクの継続性を維持するための構造化された推論ステップが組み込まれている。
論文 参考訳(メタデータ) (2026-01-15T08:23:38Z) - Exposing Weak Links in Multi-Agent Systems under Adversarial Prompting [5.544819942438653]
本稿では,マルチエージェントシステムのセキュリティ評価を行うフレームワークであるSafeAgentsを提案する。
広く採用されている5つのマルチエージェントアーキテクチャについて検討する。
この結果から,一般的なデザインパターンには重大な脆弱性があることが判明した。
論文 参考訳(メタデータ) (2025-11-14T04:22:49Z) - TAMAS: Benchmarking Adversarial Risks in Multi-Agent LLM Systems [11.885326879716738]
大規模言語モデル(LLM)は、ツールの使用、計画、意思決定能力を通じて、自律的なエージェントとして強力な能力を示している。
タスクの複雑さが増大するにつれて、複数エージェントのLLMシステムが協調的に問題解決に利用されている。
既存のベンチマークでは、主にシングルエージェント設定に重点を置いており、マルチエージェントのダイナミックスとコーディネーションのユニークな脆弱性を捉えていない。
我々は$textbfT$hreatsと$textbfA$ttacks in $textbfM$ulti-$textbfA$gent $textを導入する。
論文 参考訳(メタデータ) (2025-11-07T14:30:26Z) - Can an Individual Manipulate the Collective Decisions of Multi-Agents? [53.01767232004823]
M-Spoilerは、マルチエージェントシステム内のエージェントインタラクションをシミュレートして、対向サンプルを生成するフレームワークである。
M-スポイラーは、敵対的サンプルの最適化を積極的に支援するスタブボーン剤を導入した。
本研究は,マルチエージェントシステムにおける個々のエージェントの知識によって引き起こされるリスクを検証した。
論文 参考訳(メタデータ) (2025-09-20T01:54:20Z) - Benchmarking the Robustness of Agentic Systems to Adversarially-Induced Harms [31.01865239234458]
本稿では,エージェントから有害な作用を誘発する攻撃に対するエージェントシステムの堅牢性を評価する。
本稿では,エージェントシステムに対する害の新たな分類法と,新たなベンチマークであるBAD-ACTSを提案する。
BAD-ACTSは、異なるアプリケーション環境におけるエージェントシステムの4つの実装と、有害なアクションの188の高品質な例のデータセットで構成されている。
論文 参考訳(メタデータ) (2025-08-22T15:53:22Z) - OpenAgentSafety: A Comprehensive Framework for Evaluating Real-World AI Agent Safety [58.201189860217724]
OpenAgentSafetyは,8つの危機リスクカテゴリにまたがるエージェントの動作を評価する包括的なフレームワークである。
従来の作業とは異なり、我々のフレームワークは、Webブラウザ、コード実行環境、ファイルシステム、bashシェル、メッセージングプラットフォームなど、実際のツールと対話するエージェントを評価します。
ルールベースの分析とLSM-as-judgeアセスメントを組み合わせることで、過度な行動と微妙な不安全行動の両方を検出する。
論文 参考訳(メタデータ) (2025-07-08T16:18:54Z) - Who's the Mole? Modeling and Detecting Intention-Hiding Malicious Agents in LLM-Based Multi-Agent Systems [25.6233463223145]
大規模言語モデル(LLM-MAS)を用いたマルチエージェントシステムにおける意図隠蔽脅威について検討する。
高いステルス性を維持しながらタスク完了を微妙に妨害する4つの代表的な攻撃パラダイムを設計する。
これらの脅威に対処するために,心理学に着想を得た検出フレームワークであるAgentXposedを提案する。
論文 参考訳(メタデータ) (2025-07-07T07:34:34Z) - LLM Agents Should Employ Security Principles [60.03651084139836]
本稿では,大規模言語モデル(LLM)エージェントを大規模に展開する際には,情報セキュリティの確立した設計原則を採用するべきであることを論じる。
AgentSandboxは、エージェントのライフサイクル全体を通して保護を提供するために、これらのセキュリティ原則を組み込んだ概念的なフレームワークである。
論文 参考訳(メタデータ) (2025-05-29T21:39:08Z) - AgentVigil: Generic Black-Box Red-teaming for Indirect Prompt Injection against LLM Agents [54.29555239363013]
本稿では,間接的なインジェクション脆弱性を自動的に検出し,悪用するための汎用的なブラックボックスファジリングフレームワークであるAgentVigilを提案する。
我々はAgentVigilをAgentDojoとVWA-advの2つの公開ベンチマークで評価し、o3-miniとGPT-4oに基づくエージェントに対して71%と70%の成功率を達成した。
攻撃を現実世界の環境に適用し、悪質なサイトを含む任意のURLに誘導するエージェントをうまく誘導する。
論文 参考訳(メタデータ) (2025-05-09T07:40:17Z) - SafeAgentBench: A Benchmark for Safe Task Planning of Embodied LLM Agents [58.65256663334316]
我々は,対話型シミュレーション環境におけるLLMエージェントの安全性を考慮したタスク計画のための最初のベンチマークであるSafeAgentBenchを紹介する。
SafeAgentBenchは、(1)10の潜在的な危険と3つのタスクタイプをカバーするために厳格にキュレートされた750のタスクの実行可能な多種多様な高品質データセット、(2)低レベルコントローラを備えた普遍的な実施環境、9つの最先端ベースラインに対して17のハイレベルアクションでマルチエージェント実行をサポートするSafeAgentEnv、(3)実行とセマンティックの両方の観点から信頼性の高い評価方法を含む。
論文 参考訳(メタデータ) (2024-12-17T18:55:58Z) - Systematic Categorization, Construction and Evaluation of New Attacks against Multi-modal Mobile GUI Agents [16.559272781032632]
本稿では,マルチモーダルなモバイルGUIエージェントのセキュリティを体系的に調査し,既存の文献におけるこの重大なギャップに対処する。
我々は,(1)新たな脅威モデリング手法を提案し,34件の未報告攻撃の発見・実現可能性分析を行い,(2)これらの脅威を体系的に構築・評価するアタック・フレームワークを設計する。
論文 参考訳(メタデータ) (2024-07-12T14:30:05Z) - Can We Trust Embodied Agents? Exploring Backdoor Attacks against Embodied LLM-based Decision-Making Systems [27.316115171846953]
大規模言語モデル(LLM)は、実世界のAI意思決定タスクにおいて大きな可能性を示している。
LLMは、固有の常識と推論能力を活用するために微調整され、特定の用途に適合する。
この微調整プロセスは、特に安全クリティカルなサイバー物理システムにおいて、かなりの安全性とセキュリティの脆弱性をもたらす。
論文 参考訳(メタデータ) (2024-05-27T17:59:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。