論文の概要: AgentShield: Make MAS more secure and efficient
- arxiv url: http://arxiv.org/abs/2511.22924v1
- Date: Fri, 28 Nov 2025 06:55:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 19:47:55.79379
- Title: AgentShield: Make MAS more secure and efficient
- Title(参考訳): AgentShield: MASをより安全で効率的にする
- Authors: Kaixiang Wang, Zhaojiacheng Zhou, Bunyod Suvonov, Jiong Lou, Jie LI,
- Abstract要約: AgentShieldは、効率的な分散監査のための分散フレームワークである。
AgentShieldは92.5%のリカバリ率を獲得し、既存の方法と比較して監査オーバーヘッドを70%以上削減する。
- 参考スコア(独自算出の注目度): 5.105635962432747
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Model (LLM)-based Multi-Agent Systems (MAS) offer powerful cooperative reasoning but remain vulnerable to adversarial attacks, where compromised agents can undermine the system's overall performance. Existing defenses either depend on single trusted auditors, creating single points of failure, or sacrifice efficiency for robustness. To resolve this tension, we propose \textbf{AgentShield}, a distributed framework for efficient, decentralized auditing. AgentShield introduces a novel three-layer defense: \textbf{(i) Critical Node Auditing} prioritizes high-influence agents via topological analysis; \textbf{(ii) Light Token Auditing} implements a cascade protocol using lightweight sentry models for rapid discriminative verification; and \textbf{(iii) Two-Round Consensus Auditing} triggers heavyweight arbiters only upon uncertainty to ensure global agreement. This principled design optimizes the robustness-efficiency trade-off. Experiments demonstrate that AgentShield achieves a 92.5\% recovery rate and reduces auditing overhead by over 70\% compared to existing methods, maintaining high collaborative accuracy across diverse MAS topologies and adversarial scenarios.
- Abstract(参考訳): LLM(Large Language Model)ベースのマルチエージェントシステム(Multi-Agent Systems、MAS)は強力な協調推論を提供するが、攻撃に対して脆弱であり、侵入されたエージェントがシステム全体の性能を損なう可能性がある。
既存の防御は単一の信頼された監査人に依存し、単一障害点を作り出すか、堅牢性のために効率を犠牲にする。
この緊張を解決するために,効率的な分散監査を行う分散フレームワークである‘textbf{AgentShield} を提案する。
AgentShieldが新しい3層ディフェンスを導入: \textbf{
(i)Critical Node Auditing}は、トポロジ解析による高影響エージェントの優先順位付け; \textbf{
(ii) Light Token Auditing} は、迅速な識別検証のために軽量のセンタリーモデルを使用してカスケードプロトコルを実装し、そして \textbf{
(三)二元合意監査は、世界的合意を確保するため、不確実性にのみ重機をトリガーする。
この基本設計は、堅牢性と効率性のトレードオフを最適化する。
実験の結果、AgentShieldは既存の手法と比較して92.5\%のリカバリ率を実現し、監査オーバーヘッドを70\%以上削減し、様々なMASトポロジや敵のシナリオで高い協調精度を維持していることがわかった。
関連論文リスト
- Structured Uncertainty guided Clarification for LLM Agents [126.26213027785813]
LLMエージェントは、ツールコール機能を備えた大きな言語モデルを拡張するが、曖昧なユーザ命令は、しばしば誤った呼び出しやタスクの失敗につながる。
本稿では,ツールコールパラメータに対する構造的不確かさの定式化,完全情報の期待値(EVPI)を目標としたPOMDPのモデル化,冗長性防止のためのアスペクトベースコストモデルを提案する。
我々のSAGE-Agentは、この構造化された不確実性を活用し、より優れた効率を達成するために、曖昧なタスクのカバレッジを7~39%増加させ、明確な質問を1.5~2.7$times$に減らした。
論文 参考訳(メタデータ) (2025-11-11T21:50:44Z) - CoT-Saliency: Unified Chain-of-Thought Reasoning for Heterogeneous Saliency Tasks [96.64597365827046]
本稿では,3つの運用上不均一なサリエンシタスクを共同で処理する,最初の統合フレームワークを提案する。
タスクの不均一性を橋渡しする視覚言語モデル(VLM)において、チェーン・オブ・ソート(CoT)推論プロセスを導入する。
我々は,全タスクにまたがる特別なSOTA手法と強力なクローズドソースVLMの整合性を示す。
論文 参考訳(メタデータ) (2025-11-01T04:37:01Z) - SentinelNet: Safeguarding Multi-Agent Collaboration Through Credit-Based Dynamic Threat Detection [22.242243610133215]
大規模言語モデル(LLM)を用いたマルチエージェントシステム(MAS)の信頼性と意思決定能力に悪質なエージェントが重大な脅威をもたらす
マルチエージェントコラボレーションにおいて,悪意ある動作を積極的に検出・緩和する,最初の分散化フレームワークであるSentinelNetを提案する。
MASベンチマークの実験では、SentinelNetは2回の討論ラウンドで100%近く、悪意のあるエージェントのほぼ完全な検出を実現し、漏洩したベースラインからシステム精度の95%を回復している。
論文 参考訳(メタデータ) (2025-10-17T21:10:35Z) - AdvEvo-MARL: Shaping Internalized Safety through Adversarial Co-Evolution in Multi-Agent Reinforcement Learning [78.5751183537704]
AdvEvo-MARLは、タスクエージェントに安全性を内部化する、共進化型マルチエージェント強化学習フレームワークである。
外部ガードに頼るのではなく、AdvEvo-MARLは攻撃者と防御者を共同で最適化する。
論文 参考訳(メタデータ) (2025-10-02T02:06:30Z) - DiffuGuard: How Intrinsic Safety is Lost and Found in Diffusion Large Language Models [50.21378052667732]
我々は、ステップ内およびステップ間ダイナミクスという2つの異なる次元にわたるジェイルブレイク攻撃に対して、dLLM脆弱性の詳細な分析を行う。
デュアルステージアプローチによる脆弱性に対処する,トレーニング不要な防御フレームワークであるDiffuGuardを提案する。
論文 参考訳(メタデータ) (2025-09-29T05:17:10Z) - VeriLLM: A Lightweight Framework for Publicly Verifiable Decentralized Inference [3.8760740008451156]
本稿では,分散言語モデル (LLM) 推論のための公開検証プロトコルであるVeriLLMを紹介する。
VeriLLMは、軽量な経験的再実行と暗号的なコミットメントを組み合わせることで、検証者は基礎となる推論コストの約1%で結果を検証することができる。
We show that VeriLLM achieve reliable public verifiability with least overhead。
論文 参考訳(メタデータ) (2025-09-29T04:07:32Z) - ReliabilityRAG: Effective and Provably Robust Defense for RAG-based Web-Search [69.60882125603133]
本稿では,検索した文書の信頼性情報を明確に活用する,敵対的堅牢性のためのフレームワークであるReliabilityRAGを提案する。
我々の研究は、RAGの回収されたコーパスの腐敗に対するより効果的で確実に堅牢な防御に向けた重要な一歩である。
論文 参考訳(メタデータ) (2025-09-27T22:36:42Z) - A Self-supervised Approach for Adversarial Robustness [105.88250594033053]
敵対的な例は、ディープニューラルネットワーク(DNN)ベースの視覚システムにおいて破滅的な誤りを引き起こす可能性がある。
本稿では,入力空間における自己教師型対向学習機構を提案する。
これは、反逆攻撃に対する強力な堅牢性を提供する。
論文 参考訳(メタデータ) (2020-06-08T20:42:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。