論文の概要: PropGuard: Safeguarding LLM-MAS via Propagation-Aware Exploration and Remediation
- arxiv url: http://arxiv.org/abs/2605.16346v1
- Date: Fri, 08 May 2026 03:26:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-25 12:34:33.90255
- Title: PropGuard: Safeguarding LLM-MAS via Propagation-Aware Exploration and Remediation
- Title(参考訳): PropGuard: プロパゲーションによるLLM-MASの保護-探索と修復を意識して-
- Authors: Bingyu Yan, Xiaoming Zhang, Jinyu Hou, Chaozhuo Li, Ziyi Zhou, Xiaozhe Zhang, Litian Zhang,
- Abstract要約: 既存の防御は、良心的な協調を妨害することなく、きめ細かい伝播経路や汚染状態の追跡に失敗する。
PropGuardは、応答中心のリスク推定とフルステートのエビデンス保存を組み合わせた、デュアルビュー・テンポラルグラフを構築している。
プロップガードは高いタスクレベルの防衛の成功を維持しながら常に攻撃し、好意的な修復効率のトレードオフを実現した。
- 参考スコア(独自算出の注目度): 25.496319464385277
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: LLM-based multi-agent systems (LLM-MAS) have become a promising paradigm for solving complex tasks through role specialization, tool use, memory, and collaborative reasoning. However, these interactions create new security risks that malicious instructions injected through messages, tools, or memories can propagate across agents and rounds, causing system-level compromise. Existing defenses largely rely on local filtering or graph-based anomaly detection, but they often fail to trace fine-grained propagation paths or remediate contaminated states without disrupting benign collaboration. We propose PropGuard, a propagation-aware framework for safeguarding LLM-MAS. PropGuard constructs a dual-view spatio-temporal graph that combines response-centric risk estimation with full-state evidence preservation. Guided by these risk priors, a GE-GRPO trained inspector sequentially explores the full-state graph to recover compact suspicious propagation subgraphs. PropGuard then verifies harmful propagation through subgraph-aware diagnosis and applies source-guided remediation to correct upstream contamination and replay affected downstream interactions. Experiments across four communication architectures and five attack settings demonstrate that PropGuard consistently lowers attack success while maintaining high task-level defense success, achieving a favorable effectiveness--efficiency trade-off.
- Abstract(参考訳): LLMベースのマルチエージェントシステム(LLM-MAS)は、役割の特殊化、ツールの使用、メモリ、協調的推論を通じて複雑なタスクを解決するための有望なパラダイムとなっている。
しかし、これらの相互作用は、メッセージやツール、記憶を通じて悪意ある命令が注入され、エージェントやラウンド間で伝播し、システムレベルの妥協を引き起こす新たなセキュリティリスクを生み出します。
既存の防御は局所的なフィルタリングやグラフベースの異常検出に大きく依存しているが、しばしば細かい伝播経路の追跡や汚染状態の修正に失敗する。
本稿では,LLM-MASの保護を目的とした伝搬対応フレームワークであるPropGuardを提案する。
PropGuardは、応答中心のリスク推定とフルステートのエビデンス保存を組み合わせた、デュアルビュー時空間グラフを構築している。
GE-GRPOの訓練を受けた検査官は、これらのリスク先行に導かれ、連続してフルステートグラフを探索し、コンパクトな不審な伝播部分グラフを復元する。
その後PropGuardは、サブグラフ認識診断を通じて有害な増殖を検証し、ソース誘導修復を適用して上流の汚染を補正し、影響を受けた下流の相互作用を再生する。
4つの通信アーキテクチャと5つの攻撃設定の実験により、PropGuardは高いタスクレベルの防御成功を維持しながら、攻撃の成功を継続的に低下させ、良好な有効性、効率のトレードオフを実現している。
関連論文リスト
- GAMMAF: A Common Framework for Graph-Based Anomaly Monitoring Benchmarking in LLM Multi-Agent Systems [0.42970700836450487]
本稿では,オープンソースのベンチマークプラットフォームであるGammaf(LLM Multi-Agent System Framework用のグラフベースの異常モニタリング)を紹介する。
Gammafは、新しい防御機構ではなく、合成マルチエージェントインタラクションデータセットを生成するために設計された包括的な評価アーキテクチャである。
論文 参考訳(メタデータ) (2026-04-27T13:45:14Z) - T-MAP: Red-Teaming LLM Agents with Trajectory-aware Evolutionary Search [49.99459363244884]
提案手法は, 対向的プロンプトの発見を導くために, 実行トラジェクトリを利用するトラジェクトリ対応の進化探索手法であるT-MAPを提案する。
本手法は,安全ガードレールをバイパスするだけでなく,実際のツールインタラクションによる有害な目標を確実に実現するための攻撃の自動生成を可能にする。
論文 参考訳(メタデータ) (2026-03-21T12:33:34Z) - HomeGuard: VLM-based Embodied Safeguard for Identifying Contextual Risk in Household Task [42.665798473119516]
CG-CoT(Context-Guided Chain-of-Thought)を特徴とするアーキテクチャ非依存型セーフガードを提案する。
CG-CoTは、リスクアセスメントをアクティブな知覚に分解し、相互作用対象や関連する空間近傍への注意を順次固定する。
実験により、我々のモデルであるHomeGuardは安全性を大幅に向上し、ベースモデルと比較してリスクマッチ率を30%以上改善することが示された。
論文 参考訳(メタデータ) (2026-03-15T13:09:43Z) - INFA-Guard: Mitigating Malicious Propagation via Infection-Aware Safeguarding in LLM-Based Multi-Agent Systems [70.37731999972785]
本稿では,感染防止対策の枠組みであるINFA-Guardを提案する。
修復中、INFA-Guardは攻撃者を置き換え、感染した者を修復し、トポロジカルな整合性を維持しながら悪意のある伝播を避ける。
論文 参考訳(メタデータ) (2026-01-21T05:27:08Z) - The Trojan Knowledge: Bypassing Commercial LLM Guardrails via Harmless Prompt Weaving and Adaptive Tree Search [58.8834056209347]
大規模言語モデル(LLM)は、有害な出力を誘導するために安全ガードレールをバイパスするジェイルブレイク攻撃に弱いままである。
CKA-Agent(Correlated Knowledge Attack Agent)は、ターゲットモデルの知識基盤の適応的木構造探索としてジェイルブレイクを再構成する動的フレームワークである。
論文 参考訳(メタデータ) (2025-12-01T07:05:23Z) - BlindGuard: Safeguarding LLM-based Multi-Agent Systems under Unknown Attacks [58.959622170433725]
BlindGuardは、攻撃固有のラベルや悪意のある振る舞いに関する事前の知識を必要とせずに学習する、教師なしの防御方法である。
BlindGuardはマルチエージェントシステムにまたがる多様な攻撃タイプ(即時注入、メモリ中毒、ツール攻撃)を効果的に検出する。
論文 参考訳(メタデータ) (2025-08-11T16:04:47Z) - CoTGuard: Using Chain-of-Thought Triggering for Copyright Protection in Multi-Agent LLM Systems [55.57181090183713]
我々は、Chain-of-Thought推論内でトリガーベースの検出を活用する著作権保護のための新しいフレームワークであるCoTGuardを紹介する。
具体的には、特定のCoTセグメントをアクティベートし、特定のトリガクエリをエージェントプロンプトに埋め込むことで、未許可コンテンツ再生の中間的推論ステップを監視する。
このアプローチは、協調エージェントシナリオにおける著作権侵害の微細かつ解釈可能な検出を可能にする。
論文 参考訳(メタデータ) (2025-05-26T01:42:37Z) - Towards Copyright Protection for Knowledge Bases of Retrieval-augmented Language Models via Reasoning [58.57194301645823]
大規模言語モデル(LLM)は、現実のパーソナライズされたアプリケーションにますます統合されている。
RAGで使用される知識基盤の貴重かつしばしばプロプライエタリな性質は、敵による不正使用のリスクをもたらす。
これらの知識基盤を保護するための透かし技術として一般化できる既存の方法は、一般的に毒やバックドア攻撃を含む。
我々は、無害な」知識基盤の著作権保護の名称を提案する。
論文 参考訳(メタデータ) (2025-02-10T09:15:56Z) - GCP: Guarded Collaborative Perception with Spatial-Temporal Aware Malicious Agent Detection [11.336965062177722]
協調的知覚は、悪意のあるエージェントからの敵対的なメッセージ攻撃に対して脆弱である。
本稿では,既存の単発外乱検出手法を損なう新しい盲検領域混乱(BAC)攻撃を明らかにする。
本稿では、空間的時間的認識による悪意のあるエージェント検出に基づくガード付き協調認識フレームワークを提案する。
論文 参考訳(メタデータ) (2025-01-05T06:03:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。