論文の概要: Explainable and Fine-Grained Safeguarding of LLM Multi-Agent Systems via Bi-Level Graph Anomaly Detection
- arxiv url: http://arxiv.org/abs/2512.18733v1
- Date: Sun, 21 Dec 2025 13:46:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-23 18:54:32.478535
- Title: Explainable and Fine-Grained Safeguarding of LLM Multi-Agent Systems via Bi-Level Graph Anomaly Detection
- Title(参考訳): 両レベルグラフ異常検出によるLLMマルチエージェントシステムの説明・微粒化保護
- Authors: Junjun Pan, Yixin Liu, Rui Miao, Kaize Ding, Yu Zheng, Quoc Viet Hung Nguyen, Alan Wee-Chung Liew, Shirui Pan,
- Abstract要約: 大規模言語モデル (LLM) に基づくマルチエージェントシステム (MAS) は複雑なタスクを解く上で強力な能力を示している。
XG-Guardは、MAS内の悪意のあるエージェントを検出するための、説明可能な、きめ細かい保護フレームワークである。
- 参考スコア(独自算出の注目度): 76.91230292971115
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language model (LLM)-based multi-agent systems (MAS) have shown strong capabilities in solving complex tasks. As MAS become increasingly autonomous in various safety-critical tasks, detecting malicious agents has become a critical security concern. Although existing graph anomaly detection (GAD)-based defenses can identify anomalous agents, they mainly rely on coarse sentence-level information and overlook fine-grained lexical cues, leading to suboptimal performance. Moreover, the lack of interpretability in these methods limits their reliability and real-world applicability. To address these limitations, we propose XG-Guard, an explainable and fine-grained safeguarding framework for detecting malicious agents in MAS. To incorporate both coarse and fine-grained textual information for anomalous agent identification, we utilize a bi-level agent encoder to jointly model the sentence- and token-level representations of each agent. A theme-based anomaly detector further captures the evolving discussion focus in MAS dialogues, while a bi-level score fusion mechanism quantifies token-level contributions for explanation. Extensive experiments across diverse MAS topologies and attack scenarios demonstrate robust detection performance and strong interpretability of XG-Guard.
- Abstract(参考訳): 大規模言語モデル (LLM) に基づくマルチエージェントシステム (MAS) は複雑なタスクを解く上で強力な能力を示している。
様々な安全クリティカルなタスクにおいてMASが自律化するにつれ、悪意のあるエージェントを検出することが重要なセキュリティ上の問題となっている。
既存のグラフ異常検出(GAD)ベースの防御は異常なエージェントを識別できるが、それらは主に粗い文レベルの情報に依存し、きめ細かい語彙の手がかりを見落とし、最適以下のパフォーマンスをもたらす。
さらに、これらの手法における解釈可能性の欠如は、信頼性と実世界の適用性を制限している。
これらの制約に対処するため、我々は、MAS内の悪意のあるエージェントを検出するための、説明可能な、きめ細かな保護フレームワークであるXG-Guardを提案する。
異常エージェント識別のための粗いテキスト情報と微粒なテキスト情報の両方を組み込むため,両レベルエージェントエンコーダを用いて各エージェントの文レベルとトークンレベルの表現を共同でモデル化する。
テーマベースの異常検出器はさらにMAS対話における議論の焦点を捉え、双方向スコア融合機構は説明のためのトークンレベルのコントリビューションを定量化する。
多様なMASトポロジと攻撃シナリオにわたる大規模な実験は、XG-Guardの堅牢な検出性能と強力な解釈可能性を示している。
関連論文リスト
- Can an Individual Manipulate the Collective Decisions of Multi-Agents? [53.01767232004823]
M-Spoilerは、マルチエージェントシステム内のエージェントインタラクションをシミュレートして、対向サンプルを生成するフレームワークである。
M-スポイラーは、敵対的サンプルの最適化を積極的に支援するスタブボーン剤を導入した。
本研究は,マルチエージェントシステムにおける個々のエージェントの知識によって引き起こされるリスクを検証した。
論文 参考訳(メタデータ) (2025-09-20T01:54:20Z) - VulAgent: Hypothesis-Validation based Multi-Agent Vulnerability Detection [55.957275374847484]
VulAgentは仮説検証に基づくマルチエージェント脆弱性検出フレームワークである。
セマンティクスに敏感なマルチビュー検出パイプラインを実装しており、それぞれが特定の分析の観点から一致している。
平均して、VulAgentは全体的な精度を6.6%改善し、脆弱性のある固定されたコードペアの正確な識別率を最大450%向上させ、偽陽性率を約36%削減する。
論文 参考訳(メタデータ) (2025-09-15T02:25:38Z) - BlindGuard: Safeguarding LLM-based Multi-Agent Systems under Unknown Attacks [58.959622170433725]
BlindGuardは、攻撃固有のラベルや悪意のある振る舞いに関する事前の知識を必要とせずに学習する、教師なしの防御方法である。
BlindGuardはマルチエージェントシステムにまたがる多様な攻撃タイプ(即時注入、メモリ中毒、ツール攻撃)を効果的に検出する。
論文 参考訳(メタデータ) (2025-08-11T16:04:47Z) - Who's the Mole? Modeling and Detecting Intention-Hiding Malicious Agents in LLM-Based Multi-Agent Systems [25.6233463223145]
大規模言語モデル(LLM-MAS)を用いたマルチエージェントシステムにおける意図隠蔽脅威について検討する。
高いステルス性を維持しながらタスク完了を微妙に妨害する4つの代表的な攻撃パラダイムを設計する。
これらの脅威に対処するために,心理学に着想を得た検出フレームワークであるAgentXposedを提案する。
論文 参考訳(メタデータ) (2025-07-07T07:34:34Z) - Demonstrations of Integrity Attacks in Multi-Agent Systems [7.640342064257848]
マルチエージェントシステム(Multi-Agent Systems、MAS)は、システムの中核機能を破壊しずに自己利益を提供する悪意のあるエージェントに対して脆弱である可能性がある。
この研究は、悪意のあるエージェントが微妙なプロンプト操作を使用してバイアスMAS操作を行ない、様々な利益を得る、完全性攻撃を探索する。
論文 参考訳(メタデータ) (2025-06-05T02:44:49Z) - SentinelAgent: Graph-based Anomaly Detection in Multi-Agent Systems [11.497269773189254]
大規模言語モデル(LLM)に基づくマルチエージェントシステム(MAS)に適したシステムレベルの異常検出フレームワークを提案する。
本稿では,エージェント間相互作用を動的実行グラフとしてモデル化し,ノード,エッジ,パスレベルでの意味的異常検出を可能にするグラフベースのフレームワークを提案する。
第2に,セキュリティポリシとコンテキスト推論に基づくMAS実行の監視,解析,介入を行うLLMによる監視エージェントである,プラグイン可能なSentinelAgentを導入する。
論文 参考訳(メタデータ) (2025-05-30T04:25:19Z) - GUARDIAN: Safeguarding LLM Multi-Agent Collaborations with Temporal Graph Modeling [5.798273384241793]
大規模言語モデル (LLM) は、複雑な対話や多ターン対話を行えるインテリジェントエージェントの開発を可能にする。
GUARDIANは、GUARDing Intelligent Agent ColllaboratioNsにおいて、複数の安全上の懸念を検出し緩和する方法である。
論文 参考訳(メタデータ) (2025-05-25T17:15:55Z) - G-Safeguard: A Topology-Guided Security Lens and Treatment on LLM-based Multi-agent Systems [10.450573905691677]
大規模言語モデル(LLM)に基づくマルチエージェントシステム(MAS)は,様々な複雑なタスクにおいて顕著な機能を示した。
これらのシステムがますます重要なアプリケーションに統合されるにつれて、敵の攻撃、誤情報伝播、意図しない行動に対する脆弱性が懸念されている。
我々は、トポロジー誘導型セキュリティレンズであるG-Safeguardを導入し、ロバストMASに対する治療を行った。
論文 参考訳(メタデータ) (2025-02-16T13:48:41Z) - On the Resilience of LLM-Based Multi-Agent Collaboration with Faulty Agents [58.79302663733703]
大規模言語モデルに基づくマルチエージェントシステムは、専門家エージェントの協力により、様々なタスクにまたがる優れた能力を示している。
不器用なエージェントや悪意のあるエージェントが与える影響 - システム全体のパフォーマンスにおいて、頻繁にタスクでエラーを犯すものは、いまだに過小評価されていない。
本稿では,下流タスクにおける障害要因下での各種システム構造のレジリエンスについて検討する。
論文 参考訳(メタデータ) (2024-08-02T03:25:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。