論文の概要: Sentinel Agents for Secure and Trustworthy Agentic AI in Multi-Agent Systems
- arxiv url: http://arxiv.org/abs/2509.14956v1
- Date: Thu, 18 Sep 2025 13:39:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-19 17:26:53.243754
- Title: Sentinel Agents for Secure and Trustworthy Agentic AI in Multi-Agent Systems
- Title(参考訳): マルチエージェントシステムにおける安全で信頼できるエージェントAIのためのセンチネルエージェント
- Authors: Diego Gosmar, Deborah A. Dahl,
- Abstract要約: 本稿では,マルチエージェントシステム(MAS)のセキュリティと信頼性向上を目的とした新しいアーキテクチャフレームワークを提案する。
このフレームワークの中心的なコンポーネントは、分散セキュリティ層として機能するSentinel Agentsのネットワークである。
このようなエージェントは、エージェント間のコミュニケーションを監督し、潜在的な脅威を特定し、プライバシーとアクセス制御を強制し、包括的な監査記録を維持することができる。
- 参考スコア(独自算出の注目度): 0.42970700836450487
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper proposes a novel architectural framework aimed at enhancing security and reliability in multi-agent systems (MAS). A central component of this framework is a network of Sentinel Agents, functioning as a distributed security layer that integrates techniques such as semantic analysis via large language models (LLMs), behavioral analytics, retrieval-augmented verification, and cross-agent anomaly detection. Such agents can potentially oversee inter-agent communications, identify potential threats, enforce privacy and access controls, and maintain comprehensive audit records. Complementary to the idea of Sentinel Agents is the use of a Coordinator Agent. The Coordinator Agent supervises policy implementation, and manages agent participation. In addition, the Coordinator also ingests alerts from Sentinel Agents. Based on these alerts, it can adapt policies, isolate or quarantine misbehaving agents, and contain threats to maintain the integrity of the MAS ecosystem. This dual-layered security approach, combining the continuous monitoring of Sentinel Agents with the governance functions of Coordinator Agents, supports dynamic and adaptive defense mechanisms against a range of threats, including prompt injection, collusive agent behavior, hallucinations generated by LLMs, privacy breaches, and coordinated multi-agent attacks. In addition to the architectural design, we present a simulation study where 162 synthetic attacks of different families (prompt injection, hallucination, and data exfiltration) were injected into a multi-agent conversational environment. The Sentinel Agents successfully detected the attack attempts, confirming the practical feasibility of the proposed monitoring approach. The framework also offers enhanced system observability, supports regulatory compliance, and enables policy evolution over time.
- Abstract(参考訳): 本稿では,マルチエージェントシステム(MAS)のセキュリティと信頼性向上を目的とした新しいアーキテクチャフレームワークを提案する。
このフレームワークの中心的なコンポーネントはSentinel Agentsのネットワークであり、大きな言語モデル(LLM)によるセマンティック分析、行動分析、検索強化検証、クロスエージェント異常検出などの技術を統合する分散セキュリティ層として機能する。
このようなエージェントは、エージェント間のコミュニケーションを監督し、潜在的な脅威を特定し、プライバシーとアクセス制御を強制し、包括的な監査記録を維持できる。
センチネルエージェントのアイデアの補完として、コーディネーターエージェントの使用がある。
コーディネータエージェントは、ポリシーの実装を監督し、エージェントの参加を管理する。
さらに、CoordinatorはSentinel Agentsからのアラートも取り込みます。
これらの警告に基づいて、ポリシーを適応し、不正行為エージェントを隔離または隔離し、MASエコシステムの完全性を維持する脅威を含むことができる。
この二重層セキュリティアプローチは、Sentinel Agentsの継続的監視とCoordinator Agentsのガバナンス機能を組み合わせたもので、プロンプトインジェクション、凝固剤の挙動、LLMの生成した幻覚、プライバシー侵害、協調マルチエージェント攻撃など、さまざまな脅威に対する動的かつ適応的な防御メカニズムをサポートする。
建築設計に加えて,異なる家族の162件の合成攻撃(プロンプトインジェクション,幻覚,データ消去)を多エージェント会話環境に注入するシミュレーション研究を行った。
センチネル・エージェントズは攻撃の試みをうまく検知し、提案された監視アプローチの実現可能性を確認した。
このフレームワークはまた、強化されたシステムの可観測性を提供し、規制コンプライアンスをサポートし、時間とともにポリシーの進化を可能にする。
関連論文リスト
- OMNI-LEAK: Orchestrator Multi-Agent Network Induced Data Leakage [59.3826294523924]
オーケストレータ設定として知られる,一般的なマルチエージェントパターンのセキュリティ脆弱性について検討する。
本報告では,フロンティアモデルの攻撃カテゴリに対する感受性を報告し,推論モデルと非推論モデルの両方が脆弱であることが確認された。
論文 参考訳(メタデータ) (2026-02-13T21:32:32Z) - Bypassing AI Control Protocols via Agent-as-a-Proxy Attacks [12.356708678431183]
現在の防御は、エージェントのChain-of-Thought(CoT)とツール使用アクションを共同で評価し、ユーザの意図との整合性を保証する監視プロトコルに依存している。
これらの監視ベースの防御は、新しいエージェント・アズ・ア・プロキシ・ア・プロキシ・アタックによってバイパス可能であることを実証する。
以上の結果から,現在の監視型エージェント防御は,モデルスケールによらず根本的に脆弱であることが示唆された。
論文 参考訳(メタデータ) (2026-02-04T21:38:38Z) - AgentDoG: A Diagnostic Guardrail Framework for AI Agent Safety and Security [126.49733412191416]
現在のガードレールモデルは、リスク診断におけるエージェント的リスク認識と透明性を欠いている。
エージェントリスクをソース(場所)、障害モード(方法)、結果(何)で分類する統合された3次元分類法を提案する。
AgentDoG(AgentDoG)のための,エージェント安全性ベンチマーク(ATBench)と診断ガードレールフレームワークを新たに導入する。
論文 参考訳(メタデータ) (2026-01-26T13:45:41Z) - BackdoorAgent: A Unified Framework for Backdoor Attacks on LLM-based Agents [58.83028403414688]
大規模言語モデル(LLM)エージェントは、計画、メモリ、ツールの使用を組み合わせた多段階ワークフローを通じてタスクを実行する。
エージェントワークフローの特定のステージに注入されたバックドアトリガーは、複数の中間状態を通して持続し、下流出力に悪影響を及ぼす可能性がある。
LLMエージェントにおけるバックドア脅威を統一したエージェント中心のビューを提供するモジュールおよびステージアウェアフレームワークである textbfBackdoorAgent を提案する。
論文 参考訳(メタデータ) (2026-01-08T03:49:39Z) - Can an Individual Manipulate the Collective Decisions of Multi-Agents? [53.01767232004823]
M-Spoilerは、マルチエージェントシステム内のエージェントインタラクションをシミュレートして、対向サンプルを生成するフレームワークである。
M-スポイラーは、敵対的サンプルの最適化を積極的に支援するスタブボーン剤を導入した。
本研究は,マルチエージェントシステムにおける個々のエージェントの知識によって引き起こされるリスクを検証した。
論文 参考訳(メタデータ) (2025-09-20T01:54:20Z) - BlindGuard: Safeguarding LLM-based Multi-Agent Systems under Unknown Attacks [58.959622170433725]
BlindGuardは、攻撃固有のラベルや悪意のある振る舞いに関する事前の知識を必要とせずに学習する、教師なしの防御方法である。
BlindGuardはマルチエージェントシステムにまたがる多様な攻撃タイプ(即時注入、メモリ中毒、ツール攻撃)を効果的に検出する。
論文 参考訳(メタデータ) (2025-08-11T16:04:47Z) - Towards Unifying Quantitative Security Benchmarking for Multi Agent Systems [0.0]
AIシステムの進化 自律エージェントが協力し、情報を共有し、プロトコルを開発することでタスクを委譲するマルチエージェントアーキテクチャをますます展開する。
そのようなリスクの1つはカスケードリスクである。あるエージェントの侵入はシステムを通してカスケードし、エージェント間の信頼を利用して他人を妥協させる。
ACI攻撃では、あるエージェントに悪意のあるインプットまたはツールエクスプロイトが注入され、そのアウトプットを信頼するエージェント間でカスケードの妥協とダウンストリーム効果が増幅される。
論文 参考訳(メタデータ) (2025-07-23T13:51:28Z) - Who's the Mole? Modeling and Detecting Intention-Hiding Malicious Agents in LLM-Based Multi-Agent Systems [25.6233463223145]
大規模言語モデル(LLM-MAS)を用いたマルチエージェントシステムにおける意図隠蔽脅威について検討する。
高いステルス性を維持しながらタスク完了を微妙に妨害する4つの代表的な攻撃パラダイムを設計する。
これらの脅威に対処するために,心理学に着想を得た検出フレームワークであるAgentXposedを提案する。
論文 参考訳(メタデータ) (2025-07-07T07:34:34Z) - SafeMobile: Chain-level Jailbreak Detection and Automated Evaluation for Multimodal Mobile Agents [58.21223208538351]
本研究は,モバイルマルチモーダルエージェントを取り巻くセキュリティ問題について考察する。
行動シーケンス情報を組み込んだリスク識別機構の構築を試みる。
また、大規模言語モデルに基づく自動アセスメントスキームも設計している。
論文 参考訳(メタデータ) (2025-07-01T15:10:00Z) - From Prompt Injections to Protocol Exploits: Threats in LLM-Powered AI Agents Workflows [1.202155693533555]
構造化関数呼び出しインタフェースを持つ大規模言語モデル(LLM)は、リアルタイムデータ検索と計算機能を大幅に拡張した。
しかし、プラグイン、コネクター、エージェント間プロトコルの爆発的な増殖は、発見メカニズムやセキュリティプラクティスよりも大きくなっている。
ホスト・ツー・ツールとエージェント・ツー・エージェント・エージェントの通信にまたがる,LDM-エージェントエコシステムに対する最初の統一エンドツーエンド脅威モデルを導入する。
論文 参考訳(メタデータ) (2025-06-29T14:32:32Z) - Kaleidoscopic Teaming in Multi Agent Simulations [75.47388708240042]
我々は,エージェントが行う複雑な行動,思考プロセス,行動の安全性リスクを評価する上で,既存のレッドチームや安全評価フレームワークは不十分であると主張している。
我々は,新しいコンテキスト内最適化手法を導入し,安全解析のためのより良いシナリオを生成する。
エージェントの安全性を測定するためのフレームワークとともに使用できる適切なメトリクスを提案する。
論文 参考訳(メタデータ) (2025-06-20T23:37:17Z) - SentinelAgent: Graph-based Anomaly Detection in Multi-Agent Systems [11.497269773189254]
大規模言語モデル(LLM)に基づくマルチエージェントシステム(MAS)に適したシステムレベルの異常検出フレームワークを提案する。
本稿では,エージェント間相互作用を動的実行グラフとしてモデル化し,ノード,エッジ,パスレベルでの意味的異常検出を可能にするグラフベースのフレームワークを提案する。
第2に,セキュリティポリシとコンテキスト推論に基づくMAS実行の監視,解析,介入を行うLLMによる監視エージェントである,プラグイン可能なSentinelAgentを導入する。
論文 参考訳(メタデータ) (2025-05-30T04:25:19Z) - PeerGuard: Defending Multi-Agent Systems Against Backdoor Attacks Through Mutual Reasoning [8.191214701984162]
マルチエージェントシステムは、複雑なタスクを完了させたり、協力したり、競合したりする自律エージェントとして、高度なAIモデルを活用する。
重要性は増しているが、マルチエージェントシステムの安全性はいまだに未調査である。
本研究では,マルチエージェントシステムにおけるバックドア脆弱性を調査し,エージェントインタラクションに基づく防御機構を提案する。
論文 参考訳(メタデータ) (2025-05-16T19:08:29Z) - AgentVigil: Generic Black-Box Red-teaming for Indirect Prompt Injection against LLM Agents [54.29555239363013]
本稿では,間接的なインジェクション脆弱性を自動的に検出し,悪用するための汎用的なブラックボックスファジリングフレームワークであるAgentVigilを提案する。
我々はAgentVigilをAgentDojoとVWA-advの2つの公開ベンチマークで評価し、o3-miniとGPT-4oに基づくエージェントに対して71%と70%の成功率を達成した。
攻撃を現実世界の環境に適用し、悪質なサイトを含む任意のURLに誘導するエージェントをうまく誘導する。
論文 参考訳(メタデータ) (2025-05-09T07:40:17Z) - On the Resilience of LLM-Based Multi-Agent Collaboration with Faulty Agents [58.79302663733703]
大規模言語モデルに基づくマルチエージェントシステムは、専門家エージェントの協力により、様々なタスクにまたがる優れた能力を示している。
不器用なエージェントや悪意のあるエージェントが与える影響 - システム全体のパフォーマンスにおいて、頻繁にタスクでエラーを犯すものは、いまだに過小評価されていない。
本稿では,下流タスクにおける障害要因下での各種システム構造のレジリエンスについて検討する。
論文 参考訳(メタデータ) (2024-08-02T03:25:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。