論文の概要: BlindGuard: Safeguarding LLM-based Multi-Agent Systems under Unknown Attacks
- arxiv url: http://arxiv.org/abs/2508.08127v1
- Date: Mon, 11 Aug 2025 16:04:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 21:23:29.195491
- Title: BlindGuard: Safeguarding LLM-based Multi-Agent Systems under Unknown Attacks
- Title(参考訳): BlindGuard: 未知の攻撃下でのLLMベースのマルチエージェントシステムの保護
- Authors: Rui Miao, Yixin Liu, Yili Wang, Xu Shen, Yue Tan, Yiwei Dai, Shirui Pan, Xin Wang,
- Abstract要約: BlindGuardは、攻撃固有のラベルや悪意のある振る舞いに関する事前の知識を必要とせずに学習する、教師なしの防御方法である。
BlindGuardはマルチエージェントシステムにまたがる多様な攻撃タイプ(即時注入、メモリ中毒、ツール攻撃)を効果的に検出する。
- 参考スコア(独自算出の注目度): 58.959622170433725
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The security of LLM-based multi-agent systems (MAS) is critically threatened by propagation vulnerability, where malicious agents can distort collective decision-making through inter-agent message interactions. While existing supervised defense methods demonstrate promising performance, they may be impractical in real-world scenarios due to their heavy reliance on labeled malicious agents to train a supervised malicious detection model. To enable practical and generalizable MAS defenses, in this paper, we propose BlindGuard, an unsupervised defense method that learns without requiring any attack-specific labels or prior knowledge of malicious behaviors. To this end, we establish a hierarchical agent encoder to capture individual, neighborhood, and global interaction patterns of each agent, providing a comprehensive understanding for malicious agent detection. Meanwhile, we design a corruption-guided detector that consists of directional noise injection and contrastive learning, allowing effective detection model training solely on normal agent behaviors. Extensive experiments show that BlindGuard effectively detects diverse attack types (i.e., prompt injection, memory poisoning, and tool attack) across MAS with various communication patterns while maintaining superior generalizability compared to supervised baselines. The code is available at: https://github.com/MR9812/BlindGuard.
- Abstract(参考訳): LLMベースのマルチエージェントシステム(MAS)のセキュリティは、悪意のあるエージェントがエージェント間メッセージインタラクションを通じて集団決定を歪めるという、伝播脆弱性によって著しく脅かされている。
既存の監視された防御手法は有望な性能を示すが、監視された悪意のある検出モデルをトレーニングするためにラベル付き悪意のあるエージェントに大きく依存しているため、現実のシナリオでは実用的ではない可能性がある。
実用的で汎用的なMAS防御を実現するために,攻撃固有のラベルや悪意のある行動に関する事前の知識を必要とせずに学習する,教師なしの防御手法であるBlindGuardを提案する。
この目的のために,各エージェントの個人,周辺,グローバルなインタラクションパターンをキャプチャする階層型エージェントエンコーダを構築し,悪意のあるエージェント検出のための包括的な理解を提供する。
一方、指向性ノイズ注入とコントラスト学習からなる汚職誘導型検出器を設計し、通常のエージェントの動作にのみ依存する効果的な検出モデルトレーニングを可能にする。
大規模な実験により、BlindGuardは、教師付きベースラインよりも優れた一般化性を保ちながら、MAS全体にわたる多様な攻撃タイプ(即時注射、メモリ中毒、ツール攻撃)を様々なコミュニケーションパターンで効果的に検出することが示された。
コードは、https://github.com/MR9812/BlindGuard.comで入手できる。
関連論文リスト
- AgentSight: System-Level Observability for AI Agents Using eBPF [10.37440633887049]
既存のツールは、エージェントの高レベルな意図(LSMプロンプトを介して)または低レベルな行動(例えば、システムコール)を観察するが、これら2つのビューを関連付けることはできない。
AgentOpsはハイブリッドアプローチを使用して,このセマンティックギャップをブリッジする,AgentOpsオブザーバビリティフレームワークです。
AgentSightはTLS暗号化されたLLMトラフィックをインターセプトしてセマンティックインテントを抽出し、カーネルイベントを監視してシステム全体の効果を観察し、これら2つのストリームをプロセス境界を越えて因果的に関連付ける。
論文 参考訳(メタデータ) (2025-08-02T01:43:39Z) - Who's the Mole? Modeling and Detecting Intention-Hiding Malicious Agents in LLM-Based Multi-Agent Systems [15.843105510334388]
大規模言語モデル(LLM-MAS)を用いたマルチエージェントシステムにおける意図隠蔽脅威について検討する。
本稿では,HEXACOパーソナリティモデルとReid Techniqueを組み合わせた心理学的検出フレームワークAgentXposedを提案する。
本研究は、意図的攻撃による構造的・行動的リスクを明らかにし、LLMベースのマルチエージェントシステムの安全性に関する貴重な知見を提供する。
論文 参考訳(メタデータ) (2025-07-07T07:34:34Z) - SentinelAgent: Graph-based Anomaly Detection in Multi-Agent Systems [11.497269773189254]
大規模言語モデル(LLM)に基づくマルチエージェントシステム(MAS)に適したシステムレベルの異常検出フレームワークを提案する。
本稿では,エージェント間相互作用を動的実行グラフとしてモデル化し,ノード,エッジ,パスレベルでの意味的異常検出を可能にするグラフベースのフレームワークを提案する。
第2に,セキュリティポリシとコンテキスト推論に基づくMAS実行の監視,解析,介入を行うLLMによる監視エージェントである,プラグイン可能なSentinelAgentを導入する。
論文 参考訳(メタデータ) (2025-05-30T04:25:19Z) - MultiPhishGuard: An LLM-based Multi-Agent System for Phishing Email Detection [3.187381965457262]
MultiPhishGuardは動的マルチエージェント検出システムである。
本フレームワークでは, 政策最適化強化学習アルゴリズムを用いて, 自動決定重み付けを行う5つの協調エージェントを用いる。
実験により、MultiPhishGuardは偽陽性(2.73%)と偽陰性率(0.20%)で高い精度(97.89%)を達成することが示された。
論文 参考訳(メタデータ) (2025-05-26T23:27:15Z) - LlamaFirewall: An open source guardrail system for building secure AI agents [0.5603362829699733]
大規模言語モデル(LLM)は、単純なチャットボットから複雑なタスクを実行できる自律エージェントへと進化してきた。
リスクを軽減するための決定論的解決策が欠如していることを考えると、リアルタイムガードレールモニターが不可欠である。
私たちはオープンソースのセキュリティにフォーカスしたガードレールフレームワークであるLlamaFirewallを紹介します。
論文 参考訳(メタデータ) (2025-05-06T14:34:21Z) - MELON: Provable Defense Against Indirect Prompt Injection Attacks in AI Agents [60.30753230776882]
LLMエージェントは間接的プロンプトインジェクション(IPI)攻撃に対して脆弱であり、ツール検索情報に埋め込まれた悪意のあるタスクはエージェントをリダイレクトして不正なアクションを取ることができる。
マスク機能によって修正されたマスク付きユーザでエージェントの軌道を再実行することで攻撃を検知する新しいIPIディフェンスであるMELONを提案する。
論文 参考訳(メタデータ) (2025-02-07T18:57:49Z) - CP-Guard+: A New Paradigm for Malicious Agent Detection and Defense in Collaborative Perception [53.088988929450494]
協調知覚(CP)は、安全で自律的な運転のための有望な方法である。
本稿では,悪意のあるエージェントを機能レベルで効果的に識別する,悪意のあるエージェント検出のための新しいパラダイムを提案する。
また,CP-Guard+と呼ばれる堅牢な防御手法を開発し,良性の表現と悪質な特徴とのマージンを高める。
論文 参考訳(メタデータ) (2025-02-07T12:58:45Z) - Watch Out for Your Agents! Investigating Backdoor Threats to LLM-Based Agents [47.219047422240145]
我々は、LSMベースのエージェントに対して、典型的な安全脅威であるバックドアアタックの1つを調査する第一歩を踏み出した。
具体的には、ユーザ入力とモデル出力のみを操作できる従来のLDMに対するバックドア攻撃と比較して、エージェントバックドア攻撃はより多様で隠蔽的な形式を示す。
論文 参考訳(メタデータ) (2024-02-17T06:48:45Z) - Malicious Agent Detection for Robust Multi-Agent Collaborative Perception [52.261231738242266]
多エージェント協調(MAC)知覚は、単エージェント認識よりも敵攻撃に対して脆弱である。
MAC知覚に特異的な反応防御であるMADE(Malicious Agent Detection)を提案する。
我々は、ベンチマーク3DデータセットV2X-simとリアルタイムデータセットDAIR-V2Xで包括的な評価を行う。
論文 参考訳(メタデータ) (2023-10-18T11:36:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。