論文の概要: SHIELD: An Auto-Healing Agentic Defense Framework for LLM Resource Exhaustion Attacks
- arxiv url: http://arxiv.org/abs/2601.19174v1
- Date: Tue, 27 Jan 2026 04:03:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-28 15:26:51.165531
- Title: SHIELD: An Auto-Healing Agentic Defense Framework for LLM Resource Exhaustion Attacks
- Title(参考訳): ShiELD: LLMリソース流出攻撃のためのオートヒーリングエージェント防御フレームワーク
- Authors: Nirhoshan Sivaroopan, Kanchana Thilakarathna, Albert Zomaya, Manu, Yi Guo, Jo Plested, Tim Lynar, Jack Yang, Wangli Yang,
- Abstract要約: 既存の防御は意味論的に意味のある攻撃に失敗する統計的フィルタに依存するか、攻撃戦略の進展に苦慮する静的LLMベースの検出器を使用するかのいずれかである。
3段階防衛エージェントを中心とした多エージェント自動治癒防衛フレームワークShiELDについて紹介する。
知識更新エージェントとプロンプト最適化エージェントの2つの補助エージェントは、攻撃が検出をバイパスした場合に閉じた自己修復ループを形成する。
- 参考スコア(独自算出の注目度): 5.779141020370452
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sponge attacks increasingly threaten LLM systems by inducing excessive computation and DoS. Existing defenses either rely on statistical filters that fail on semantically meaningful attacks or use static LLM-based detectors that struggle to adapt as attack strategies evolve. We introduce SHIELD, a multi-agent, auto-healing defense framework centered on a three-stage Defense Agent that integrates semantic similarity retrieval, pattern matching, and LLM-based reasoning. Two auxiliary agents, a Knowledge Updating Agent and a Prompt Optimization Agent, form a closed self-healing loop, when an attack bypasses detection, the system updates an evolving knowledgebase, and refines defense instructions. Extensive experiments show that SHIELD consistently outperforms perplexity-based and standalone LLM defenses, achieving high F1 scores across both non-semantic and semantic sponge attacks, demonstrating the effectiveness of agentic self-healing against evolving resource-exhaustion threats.
- Abstract(参考訳): スポンジ攻撃は過剰な計算とDoSを誘導することでLLMシステムに脅威を与える。
既存の防御は意味論的に意味のある攻撃に失敗する統計的フィルタに依存するか、攻撃戦略の進展に苦慮する静的LLMベースの検出器を使用するかのいずれかである。
意味的類似性検索,パターンマッチング,LLMに基づく推論を統合した3段階防衛エージェントを中心とした多エージェント自動修復防衛フレームワークShiELDを紹介する。
知識更新エージェント(Knowledge Updating Agent)とプロンプト最適化エージェント(Prompt Optimization Agent)という2つの補助エージェントは、攻撃が検出をバイパスすると閉じた自己修復ループを形成し、システムは進化するナレッジベースを更新し、防御命令を洗練する。
広汎な実験により、ShiELDは難易度ベースおよびスタンドアロンのLSM防御を一貫して上回り、非意味的および意味的スポンジ攻撃の両方で高いF1スコアを達成し、進化する資源消費脅威に対するエージェント的自己修復の有効性を実証した。
関連論文リスト
- Adversarial Attack-Defense Co-Evolution for LLM Safety Alignment via Tree-Group Dual-Aware Search and Optimization [51.12422886183246]
大規模言語モデル(LLM)は、Webサービスにおいて急速に発展し、社会的リスクを増幅しつつ、前例のない能力を提供してきた。
既存の作業は、分離されたジェイルブレイク攻撃または静的防御に重点を置いており、現実世界のWebコンテキストにおける進化する脅威とセーフガードの間の動的な相互作用を無視している。
ACE-Safetyは、2つの重要な革新的手順をシームレスに統合することにより、攻撃と防御モデルを協調的に最適化する新しいフレームワークである。
論文 参考訳(メタデータ) (2025-11-24T15:23:41Z) - Adversarial Reinforcement Learning for Large Language Model Agent Safety [20.704989548285372]
大きな言語モデル(LLM)エージェントは、複雑なタスクを完了するためにGoogle Searchのようなツールを利用することができる。
現在の防衛戦略は、既知の攻撃のデータセットに精巧なLLMエージェントを頼っている。
対戦型強化学習(RL)を両プレイヤーゼロサムゲームとして定式化して活用する新しいフレームワークであるエージェント安全のための敵強化学習(ARLAS)を提案する。
論文 参考訳(メタデータ) (2025-10-06T23:09:18Z) - AdvEvo-MARL: Shaping Internalized Safety through Adversarial Co-Evolution in Multi-Agent Reinforcement Learning [78.5751183537704]
AdvEvo-MARLは、タスクエージェントに安全性を内部化する、共進化型マルチエージェント強化学習フレームワークである。
外部ガードに頼るのではなく、AdvEvo-MARLは攻撃者と防御者を共同で最適化する。
論文 参考訳(メタデータ) (2025-10-02T02:06:30Z) - BlindGuard: Safeguarding LLM-based Multi-Agent Systems under Unknown Attacks [58.959622170433725]
BlindGuardは、攻撃固有のラベルや悪意のある振る舞いに関する事前の知識を必要とせずに学習する、教師なしの防御方法である。
BlindGuardはマルチエージェントシステムにまたがる多様な攻撃タイプ(即時注入、メモリ中毒、ツール攻撃)を効果的に検出する。
論文 参考訳(メタデータ) (2025-08-11T16:04:47Z) - AgentVigil: Generic Black-Box Red-teaming for Indirect Prompt Injection against LLM Agents [54.29555239363013]
本稿では,間接的なインジェクション脆弱性を自動的に検出し,悪用するための汎用的なブラックボックスファジリングフレームワークであるAgentVigilを提案する。
我々はAgentVigilをAgentDojoとVWA-advの2つの公開ベンチマークで評価し、o3-miniとGPT-4oに基づくエージェントに対して71%と70%の成功率を達成した。
攻撃を現実世界の環境に適用し、悪質なサイトを含む任意のURLに誘導するエージェントをうまく誘導する。
論文 参考訳(メタデータ) (2025-05-09T07:40:17Z) - AegisLLM: Scaling Agentic Systems for Self-Reflective Defense in LLM Security [74.22452069013289]
AegisLLMは、敵の攻撃や情報漏洩に対する協調的なマルチエージェント防御である。
テスト時のエージェント推論システムのスケーリングは,モデルの有用性を損なうことなく,ロバスト性を大幅に向上させることを示す。
アンラーニングやジェイルブレイクを含む主要な脅威シナリオに対する総合的な評価は、AegisLLMの有効性を示している。
論文 参考訳(メタデータ) (2025-04-29T17:36:05Z) - Large Language Model Sentinel: LLM Agent for Adversarial Purification [27.742161175314635]
大規模言語モデル(LLM)は、よく設計されたテキストの摂動による敵攻撃に対して脆弱である。
LLAMOS(Large LAnguage Model Sentinel)と呼ばれる新しい防御技術を導入し,LLMの対角的堅牢性を高める。
論文 参考訳(メタデータ) (2024-05-24T07:23:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。