論文の概要: Spider-Sense: Intrinsic Risk Sensing for Efficient Agent Defense with Hierarchical Adaptive Screening
- arxiv url: http://arxiv.org/abs/2602.05386v1
- Date: Thu, 05 Feb 2026 07:11:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 18:49:08.804905
- Title: Spider-Sense: Intrinsic Risk Sensing for Efficient Agent Defense with Hierarchical Adaptive Screening
- Title(参考訳): スパイダーセンス:階層的適応スクリーニングによる効果的なエージェント防御のための本質的なリスクセンシング
- Authors: Zhenxiong Yu, Zhi Yang, Zhiheng Jin, Shuhe Wang, Heng Zhang, Yanlin Fei, Lingfeng Zeng, Fangqi Lou, Shuo Zhang, Tu Hu, Jingping Liu, Rongze Chen, Xingyu Zhu, Kunyi Wang, Chaofa Yuan, Xin Guo, Zhaowei Liu, Feipeng Zhang, Jie Huang, Huacan Wang, Ronghao Chen, Liwen Zhang,
- Abstract要約: 効果的なエージェントセキュリティは、アーキテクチャ上の分離や強制よりも、本質的で選択的であるべきだ、と我々は主張する。
我々はスパイダーセンス・フレームワークを提案する。スパイダーセンス・フレームワークは、エージェントが潜伏警戒を維持し、リスク認識によってのみ防御をトリガーすることができる。
スパイダーセンスは、最低攻撃成功率(ASR)と偽陽性率(FPR)を達成して、競争力または優れた防御性能を達成する
- 参考スコア(独自算出の注目度): 23.066685616914807
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As large language models (LLMs) evolve into autonomous agents, their real-world applicability has expanded significantly, accompanied by new security challenges. Most existing agent defense mechanisms adopt a mandatory checking paradigm, in which security validation is forcibly triggered at predefined stages of the agent lifecycle. In this work, we argue that effective agent security should be intrinsic and selective rather than architecturally decoupled and mandatory. We propose Spider-Sense framework, an event-driven defense framework based on Intrinsic Risk Sensing (IRS), which allows agents to maintain latent vigilance and trigger defenses only upon risk perception. Once triggered, the Spider-Sense invokes a hierarchical defence mechanism that trades off efficiency and precision: it resolves known patterns via lightweight similarity matching while escalating ambiguous cases to deep internal reasoning, thereby eliminating reliance on external models. To facilitate rigorous evaluation, we introduce S$^2$Bench, a lifecycle-aware benchmark featuring realistic tool execution and multi-stage attacks. Extensive experiments demonstrate that Spider-Sense achieves competitive or superior defense performance, attaining the lowest Attack Success Rate (ASR) and False Positive Rate (FPR), with only a marginal latency overhead of 8.3\%.
- Abstract(参考訳): 大規模言語モデル(LLM)が自律エージェントへと進化するにつれて、その現実的な適用性は大幅に拡大し、新たなセキュリティ上の課題も伴っている。
既存のエージェント防御機構のほとんどは必須チェックパラダイムを採用しており、エージェントライフサイクルの事前定義された段階で、セキュリティ検証を強制的にトリガーする。
本研究では,効果的なエージェントセキュリティは,アーキテクチャ上の分離や強制よりも,本質的かつ選択的であるべきだと論じる。
Intrinsic Risk Sensing (IRS)に基づく事象駆動型防衛フレームワークであるSpider-Senseフレームワークを提案する。
スパイダーセンスは、効率と精度をトレードオフする階層的な防御機構を起動し、曖昧なケースを深い内部推論にエスカレートしながら、軽量な類似性マッチングを通じて既知のパターンを解決し、外部モデルへの依存をなくす。
厳密な評価を容易にするために,現実的なツールの実行とマルチステージ攻撃を特徴とするライフサイクル対応ベンチマークであるS$^2$Benchを紹介する。
広範囲にわたる実験により、スパイダーセンスは、最低攻撃成功率 (ASR) と偽陽性率 (FPR) を8.3 %の限界遅延オーバーヘッドで達成し、競争力または優れた防御性能を達成することが示された。
関連論文リスト
- SafeThinker: Reasoning about Risk to Deepen Safety Beyond Shallow Alignment [43.86865924673546]
軽量なゲートウェイ分類器を介して防御資源を割り当てる適応型フレームワークであるSafeThinkerを提案する。
実験によると、SafeThinkerは、堅牢性を損なうことなく、さまざまなジェイルブレイク戦略における攻撃の成功率を大幅に低下させる。
論文 参考訳(メタデータ) (2026-01-23T07:12:53Z) - ReasAlign: Reasoning Enhanced Safety Alignment against Prompt Injection Attack [52.17935054046577]
本稿では、間接的インジェクション攻撃に対する安全性アライメントを改善するためのモデルレベルのソリューションであるReasAlignを提案する。
ReasAlignには、ユーザクエリの分析、競合する命令の検出、ユーザの意図したタスクの継続性を維持するための構造化された推論ステップが組み込まれている。
論文 参考訳(メタデータ) (2026-01-15T08:23:38Z) - Cognitive Control Architecture (CCA): A Lifecycle Supervision Framework for Robustly Aligned AI Agents [1.014002853673217]
LLMエージェントはIPI(Indirect Prompt Injection)攻撃に対して脆弱である。
IPIは外部情報ソースを汚染することでハイジャックエージェントの動作を攻撃している。
本稿では,全ライフサイクルの認知管理を実現するための総合的な枠組みである認知制御アーキテクチャ(CCA)を提案する。
論文 参考訳(メタデータ) (2025-12-07T08:11:19Z) - Indirect Prompt Injections: Are Firewalls All You Need, or Stronger Benchmarks? [58.48689960350828]
エージェントインタフェースにおけるシンプルでモジュール的で,モデルに依存しないディフェンスが,高ユーティリティで完全なセキュリティを実現することを示す。
ツール入力ファイアウォール(最小限のファイアウォール)とツール出力ファイアウォール(サニタイザ)の2つのファイアウォールをベースとしたディフェンスを採用している。
論文 参考訳(メタデータ) (2025-10-06T18:09:02Z) - AdvEvo-MARL: Shaping Internalized Safety through Adversarial Co-Evolution in Multi-Agent Reinforcement Learning [78.5751183537704]
AdvEvo-MARLは、タスクエージェントに安全性を内部化する、共進化型マルチエージェント強化学習フレームワークである。
外部ガードに頼るのではなく、AdvEvo-MARLは攻撃者と防御者を共同で最適化する。
論文 参考訳(メタデータ) (2025-10-02T02:06:30Z) - MISLEADER: Defending against Model Extraction with Ensembles of Distilled Models [56.09354775405601]
モデル抽出攻撃は、クエリアクセスを通じてブラックボックスモデルの機能を複製することを目的としている。
既存のディフェンスでは、アタッカークエリにはオフ・オブ・ディストリビューション(OOD)サンプルがあることを前提としており、不審な入力を検出し破壊することができる。
OOD仮定に依存しない新しい防衛戦略であるMISLEADERを提案する。
論文 参考訳(メタデータ) (2025-06-03T01:37:09Z) - RADEP: A Resilient Adaptive Defense Framework Against Model Extraction Attacks [6.6680585862156105]
モデル抽出攻撃防御(RADEP)のためのレジリエント・アダプティブ・ディフェンス・フレームワークについて紹介する。
RADEPは、抽出の試みに対するモデルレジリエンスを高めるために、プログレッシブ・逆行訓練を採用している。
オーナーシップ検証は、組み込みのウォーターマーキングとバックドアトリガーを通じて実施される。
論文 参考訳(メタデータ) (2025-05-25T23:28:05Z) - ALRPHFS: Adversarially Learned Risk Patterns with Hierarchical Fast \& Slow Reasoning for Robust Agent Defense [12.836334933428738]
既存の防御は、有害なユーザ入力や安全でないエージェントの振る舞いによって引き起こされる複雑なセマンティックリスクを捉えるのに苦労する“セーフティチェック(Safety Checks)”に依存している。
我々は新しい防衛フレームワーク ALRPHFS (Adversarially Learned Risk Patterns with Hierarchical Fast & Slow Reasoning) を提案する。
ALRPHFS は,(1) リスクパターンの一般化可能な,バランスのとれたライブラリを反復的に洗練するオフライン対向自己学習ループ,(2) 検出効率と計算効率のバランスをとるオンライン階層型高速・低速推論エンジンの2つのコアコンポーネントから構成される。
論文 参考訳(メタデータ) (2025-05-25T18:31:48Z) - AegisLLM: Scaling Agentic Systems for Self-Reflective Defense in LLM Security [74.22452069013289]
AegisLLMは、敵の攻撃や情報漏洩に対する協調的なマルチエージェント防御である。
テスト時のエージェント推論システムのスケーリングは,モデルの有用性を損なうことなく,ロバスト性を大幅に向上させることを示す。
アンラーニングやジェイルブレイクを含む主要な脅威シナリオに対する総合的な評価は、AegisLLMの有効性を示している。
論文 参考訳(メタデータ) (2025-04-29T17:36:05Z) - Dissecting Adversarial Robustness of Multimodal LM Agents [70.2077308846307]
我々は、VisualWebArena上に現実的な脅威モデルを用いて、200の敵タスクと評価スクリプトを手動で作成する。
我々は,クロボックスフロンティアLMを用いた最新のエージェントを,リフレクションやツリーサーチを行うエージェントを含む,壊すことに成功している。
AREを使用して、新しいコンポーネントの追加に伴うロバスト性の変化を厳格に評価しています。
論文 参考訳(メタデータ) (2024-06-18T17:32:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。