論文の概要: Automating Agent Hijacking via Structural Template Injection
- arxiv url: http://arxiv.org/abs/2602.16958v1
- Date: Wed, 18 Feb 2026 23:52:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-20 15:21:28.523841
- Title: Automating Agent Hijacking via Structural Template Injection
- Title(参考訳): 構造テンプレート注入による自動エージェントハイジャック
- Authors: Xinhao Deng, Jiaqing Wu, Miao Chen, Yue Xiao, Ke Xu, Qi Li,
- Abstract要約: エージェントハイジャックは、Large Language Model (LLM)エコシステムにとって重要な脅威であり、悪意のある命令を検索されたコンテンツに注入することで、敵が実行を操作できるようにする。
LLMエージェントの基本的構造機構をターゲットにした自動エージェントハイジャックフレームワークPhantomを提案する。
最適化されたテンプレートを検索されたコンテキストに注入することにより、ロールの混乱を誘発し、インジェクトされたコンテンツを正規のユーザ命令や以前のツール出力と誤解釈させる。
- 参考スコア(独自算出の注目度): 18.856564341900555
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Agent hijacking, highlighted by OWASP as a critical threat to the Large Language Model (LLM) ecosystem, enables adversaries to manipulate execution by injecting malicious instructions into retrieved content. Most existing attacks rely on manually crafted, semantics-driven prompt manipulation, which often yields low attack success rates and limited transferability to closed-source commercial models. In this paper, we propose Phantom, an automated agent hijacking framework built upon Structured Template Injection that targets the fundamental architectural mechanisms of LLM agents. Our key insight is that agents rely on specific chat template tokens to separate system, user, assistant, and tool instructions. By injecting optimized structured templates into the retrieved context, we induce role confusion and cause the agent to misinterpret the injected content as legitimate user instructions or prior tool outputs. To enhance attack transferability against black-box agents, Phantom introduces a novel attack template search framework. We first perform multi-level template augmentation to increase structural diversity and then train a Template Autoencoder (TAE) to embed discrete templates into a continuous, searchable latent space. Subsequently, we apply Bayesian optimization to efficiently identify optimal adversarial vectors that are decoded into high-potency structured templates. Extensive experiments on Qwen, GPT, and Gemini demonstrate that our framework significantly outperforms existing baselines in both Attack Success Rate (ASR) and query efficiency. Moreover, we identified over 70 vulnerabilities in real-world commercial products that have been confirmed by vendors, underscoring the practical severity of structured template-based hijacking and providing an empirical foundation for securing next-generation agentic systems.
- Abstract(参考訳): OWASPによってLarge Language Model (LLM)エコシステムに対する重要な脅威として強調されたエージェントハイジャックは、悪意のある命令を検索されたコンテンツに注入することで、敵が実行を操作できるようにする。
既存の攻撃のほとんどは手作業によるセマンティクス駆動のプロンプト操作に依存しており、攻撃の成功率が低く、クローズドソースの商用モデルへの転送性が制限されることが多い。
本稿では,構造化テンプレートインジェクションをベースとした自動エージェントハイジャックフレームワークPhantomを提案する。
私たちの重要な洞察は、エージェントが特定のチャットテンプレートトークンを使用して、システム、ユーザ、アシスタント、ツール命令を分離することです。
最適化されたテンプレートを検索されたコンテキストに注入することにより、ロールの混乱を誘発し、インジェクトされたコンテンツを正規のユーザ命令や以前のツール出力と誤解釈させる。
ブラックボックスエージェントに対する攻撃伝達性を高めるため、Phantomは新たな攻撃テンプレート検索フレームワークを導入した。
まず、構造的多様性を高めるためにマルチレベルテンプレート拡張を行い、次にテンプレートオートエンコーダ(TAE)をトレーニングして、個別のテンプレートを連続して検索可能な潜在空間に埋め込む。
次にベイズ最適化を適用し、高能率構造化テンプレートにデコードされた最適逆ベクトルを効率的に同定する。
Qwen, GPT, Geminiの大規模な実験により、我々のフレームワークはアタック成功率(ASR)とクエリ効率の両方において、既存のベースラインを大幅に上回っていることが実証された。
さらに、ベンダーが確認した現実世界の商用製品に70以上の脆弱性を特定し、構造化テンプレートベースのハイジャックの実用的深刻さを強調し、次世代のエージェントシステムを保護するための実証的な基盤を提供する。
関連論文リスト
- BackdoorAgent: A Unified Framework for Backdoor Attacks on LLM-based Agents [58.83028403414688]
大規模言語モデル(LLM)エージェントは、計画、メモリ、ツールの使用を組み合わせた多段階ワークフローを通じてタスクを実行する。
エージェントワークフローの特定のステージに注入されたバックドアトリガーは、複数の中間状態を通して持続し、下流出力に悪影響を及ぼす可能性がある。
LLMエージェントにおけるバックドア脅威を統一したエージェント中心のビューを提供するモジュールおよびステージアウェアフレームワークである textbfBackdoorAgent を提案する。
論文 参考訳(メタデータ) (2026-01-08T03:49:39Z) - The Trojan Knowledge: Bypassing Commercial LLM Guardrails via Harmless Prompt Weaving and Adaptive Tree Search [58.8834056209347]
大規模言語モデル(LLM)は、有害な出力を誘導するために安全ガードレールをバイパスするジェイルブレイク攻撃に弱いままである。
CKA-Agent(Correlated Knowledge Attack Agent)は、ターゲットモデルの知識基盤の適応的木構造探索としてジェイルブレイクを再構成する動的フレームワークである。
論文 参考訳(メタデータ) (2025-12-01T07:05:23Z) - Attractive Metadata Attack: Inducing LLM Agents to Invoke Malicious Tools [10.086284534400658]
大規模言語モデル(LLM)エージェントは、外部ツールを活用することで複雑な推論と意思決定において顕著な能力を示した。
我々はこれを、悪意のあるツールをLLMエージェントによって優先的に選択できる、新しくてステルスな脅威サーフェスとして認識する。
我々は,非常に魅力的だが構文的かつ意味論的に有効なツールメタデータを生成するブラックボックス・イン・コンテキスト学習フレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-04T06:38:59Z) - AgentVigil: Generic Black-Box Red-teaming for Indirect Prompt Injection against LLM Agents [54.29555239363013]
本稿では,間接的なインジェクション脆弱性を自動的に検出し,悪用するための汎用的なブラックボックスファジリングフレームワークであるAgentVigilを提案する。
我々はAgentVigilをAgentDojoとVWA-advの2つの公開ベンチマークで評価し、o3-miniとGPT-4oに基づくエージェントに対して71%と70%の成功率を達成した。
攻撃を現実世界の環境に適用し、悪質なサイトを含む任意のURLに誘導するエージェントをうまく誘導する。
論文 参考訳(メタデータ) (2025-05-09T07:40:17Z) - Manipulating Multimodal Agents via Cross-Modal Prompt Injection [34.35145839873915]
マルチモーダルエージェントにおいて、これまで見過ごされていた重要なセキュリティ脆弱性を特定します。
攻撃者が複数のモードにまたがって敵の摂動を埋め込む新たな攻撃フレームワークであるCrossInjectを提案する。
本手法は,攻撃成功率を少なくとも30.1%向上させることで,最先端の攻撃よりも優れる。
論文 参考訳(メタデータ) (2025-04-19T16:28:03Z) - StruPhantom: Evolutionary Injection Attacks on Black-Box Tabular Agents Powered by Large Language Models [25.579489111240136]
ブラックボックスLSMを用いた表型エージェントを対象とするStruPhantomという新たな攻撃手法を提案する。
我々の攻撃は、フィッシングリンクや悪意のあるコードを含むアプリケーションの応答を強制する上で、ベースラインよりも50%以上の成功率を達成する。
論文 参考訳(メタデータ) (2025-04-14T03:22:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。