論文の概要: AgentVisor: Defending LLM Agents Against Prompt Injection via Semantic Virtualization
- arxiv url: http://arxiv.org/abs/2604.24118v1
- Date: Mon, 27 Apr 2026 07:12:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-28 17:12:07.784368
- Title: AgentVisor: Defending LLM Agents Against Prompt Injection via Semantic Virtualization
- Title(参考訳): AgentVisor: セマンティック仮想化によるプロンプト注入に対するLDMエージェントの防御
- Authors: Zonghao Ying, Haozheng Wang, Jiangfan Liu, Quanchen Zou, Aishan Liu, Jian Yang, Yaodong Yang, Xianglong Liu,
- Abstract要約: 本稿では,セマンティックな特権分離を実現する新しい防衛フレームワークであるAgentVisorを提案する。
AgentVisorは、ターゲットエージェントを信頼できないゲストとして扱い、信頼できるセマンティックバイザを介してツールコールをインターセプトする。
我々はAgentVisorが攻撃成功率を0.65%に下げ、この強力な防御を達成し、実用性は1.45%しか低下しないことを示した。
- 参考スコア(独自算出の注目度): 37.5130864321051
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Model (LLM) agents are increasingly used to automate complex workflows, but integrating untrusted external data with privileged execution exposes them to severe security risks, particularly direct and indirect prompt injection. Existing defenses face significant challenges in balancing security with utility, often encountering a trade-off where rigorous protection leads to over-defense, or where subtle indirect injections bypass detection. Drawing inspiration from operating system virtualization, we propose AgentVisor, a novel defense framework that enforces semantic privilege separation. AgentVisor treats the target agent as an untrusted guest and intercepts tool calls via a trusted semantic visor. Central to our approach is a rigorous audit protocol grounded in classic OS security primitives, designed to systematically mitigate both direct and indirect injection attacks. Furthermore, we introduce a one-shot self-correction mechanism that transforms security violations into constructive feedback, enabling agents to recover from attacks. Extensive experiments show that AgentVisor reduces the attack success rate to 0.65%, achieving this strong defense while incurring only a 1.45% average decrease in utility relative to the No Defense scenario, demonstrating superior performance compared to existing defense methods.
- Abstract(参考訳): 大きな言語モデル(LLM)エージェントは複雑なワークフローを自動化するために使われることが多いが、信頼できない外部データと特権的な実行を統合することで、特に直接および間接的なインジェクションといった深刻なセキュリティリスクにさらされる。
既存の防衛は、セキュリティとユーティリティのバランスをとる上で重大な課題に直面している。
本稿では,OS仮想化からインスピレーションを得たAgentVisorを提案する。
AgentVisorは、ターゲットエージェントを信頼できないゲストとして扱い、信頼できるセマンティックバイザを介してツールコールをインターセプトする。
当社のアプローチの中心は、従来のOSセキュリティプリミティブを基盤とした厳格な監査プロトコルで、直接および間接のインジェクション攻撃を系統的に緩和するように設計されています。
さらに,セキュリティ違反を建設的フィードバックに変換するワンショット自己訂正機構を導入し,エージェントが攻撃から回復できるようにする。
大規模な実験により、AgentVisorは攻撃成功率を0.65%に下げ、この強力な防御を達成する一方で、No Defenseのシナリオと比較して1.45%の実用性しか低下せず、既存の防御方法よりも優れた性能を示した。
関連論文リスト
- Your Agent is More Brittle Than You Think: Uncovering Indirect Injection Vulnerabilities in Agentic LLMs [32.38053469964495]
システム間インタラクションを含む拡張されたアクションスペースは、深刻なセキュリティ上の問題を引き起こす。
悪意のある命令をサードパーティのコンテンツ内に隠蔽するIPIは、データ流出などの不正なアクションをトリガーする。
9個のLPMバックボーンにまたがる4つの高度なIPI攻撃ベクトルに対する6つの防御戦略を評価した。
論文 参考訳(メタデータ) (2026-04-04T21:27:04Z) - The Autonomy Tax: Defense Training Breaks LLM Agents [5.990318568221089]
安全を改善するために設計された防衛訓練は、高度な攻撃を防ぐのに失敗しながら、エージェントの能力を体系的に破壊する。
我々は,97件のエージェントタスクと1,000件の敵のプロンプトにまたがる無防備なベースラインに対する防御モデルの評価を行った。
その結果,現在の防衛パラダイムは,マルチステップエージェントを基本的に信頼できないようにレンダリングしながら,シングルターンリフェールベンチマークに最適化されていることがわかった。
論文 参考訳(メタデータ) (2026-03-19T19:33:17Z) - ReasAlign: Reasoning Enhanced Safety Alignment against Prompt Injection Attack [52.17935054046577]
本稿では、間接的インジェクション攻撃に対する安全性アライメントを改善するためのモデルレベルのソリューションであるReasAlignを提案する。
ReasAlignには、ユーザクエリの分析、競合する命令の検出、ユーザの意図したタスクの継続性を維持するための構造化された推論ステップが組み込まれている。
論文 参考訳(メタデータ) (2026-01-15T08:23:38Z) - Indirect Prompt Injections: Are Firewalls All You Need, or Stronger Benchmarks? [58.48689960350828]
エージェントインタフェースにおけるシンプルでモジュール的で,モデルに依存しないディフェンスが,高ユーティリティで完全なセキュリティを実現することを示す。
ツール入力ファイアウォール(最小限のファイアウォール)とツール出力ファイアウォール(サニタイザ)の2つのファイアウォールをベースとしたディフェンスを採用している。
論文 参考訳(メタデータ) (2025-10-06T18:09:02Z) - AdvEvo-MARL: Shaping Internalized Safety through Adversarial Co-Evolution in Multi-Agent Reinforcement Learning [78.5751183537704]
AdvEvo-MARLは、タスクエージェントに安全性を内部化する、共進化型マルチエージェント強化学習フレームワークである。
外部ガードに頼るのではなく、AdvEvo-MARLは攻撃者と防御者を共同で最適化する。
論文 参考訳(メタデータ) (2025-10-02T02:06:30Z) - BlindGuard: Safeguarding LLM-based Multi-Agent Systems under Unknown Attacks [58.959622170433725]
BlindGuardは、攻撃固有のラベルや悪意のある振る舞いに関する事前の知識を必要とせずに学習する、教師なしの防御方法である。
BlindGuardはマルチエージェントシステムにまたがる多様な攻撃タイプ(即時注入、メモリ中毒、ツール攻撃)を効果的に検出する。
論文 参考訳(メタデータ) (2025-08-11T16:04:47Z) - The Dark Side of LLMs: Agent-based Attacks for Complete Computer Takeover [0.0]
大規模言語モデル(LLM)エージェントとマルチエージェントシステムは、従来のコンテンツ生成からシステムレベルの妥協まで及ぶセキュリティ脆弱性を導入している。
本稿では,自律エージェント内の推論エンジンとして使用されるLLMのセキュリティを総合的に評価する。
異なる攻撃面と信頼境界がどのように活用され、そのような乗っ取りを組織化できるかを示す。
論文 参考訳(メタデータ) (2025-07-09T13:54:58Z) - AgentVigil: Generic Black-Box Red-teaming for Indirect Prompt Injection against LLM Agents [54.29555239363013]
本稿では,間接的なインジェクション脆弱性を自動的に検出し,悪用するための汎用的なブラックボックスファジリングフレームワークであるAgentVigilを提案する。
我々はAgentVigilをAgentDojoとVWA-advの2つの公開ベンチマークで評価し、o3-miniとGPT-4oに基づくエージェントに対して71%と70%の成功率を達成した。
攻撃を現実世界の環境に適用し、悪質なサイトを含む任意のURLに誘導するエージェントをうまく誘導する。
論文 参考訳(メタデータ) (2025-05-09T07:40:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。