論文の概要: ChatInject: Abusing Chat Templates for Prompt Injection in LLM Agents
- arxiv url: http://arxiv.org/abs/2509.22830v1
- Date: Fri, 26 Sep 2025 18:38:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:18.896187
- Title: ChatInject: Abusing Chat Templates for Prompt Injection in LLM Agents
- Title(参考訳): チャットインジェクション: LLMエージェントにおけるプロンプトインジェクションのためのチャットテンプレートの回避
- Authors: Hwan Chang, Yonghyun Jun, Hwanhee Lee,
- Abstract要約: ChatInjectは、悪意のあるペイロードをフォーマットしてネイティブチャットテンプレートを模倣する攻撃である。
我々は,会話の交互にエージェントを素数化して不審な行為を受け入れ,実行させる,説得駆動型マルチターン変異体を開発した。
ChatInjectは従来のプロンプトインジェクション法よりも平均的な攻撃成功率が高い。
- 参考スコア(独自算出の注目度): 15.773168171609754
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The growing deployment of large language model (LLM) based agents that interact with external environments has created new attack surfaces for adversarial manipulation. One major threat is indirect prompt injection, where attackers embed malicious instructions in external environment output, causing agents to interpret and execute them as if they were legitimate prompts. While previous research has focused primarily on plain-text injection attacks, we find a significant yet underexplored vulnerability: LLMs' dependence on structured chat templates and their susceptibility to contextual manipulation through persuasive multi-turn dialogues. To this end, we introduce ChatInject, an attack that formats malicious payloads to mimic native chat templates, thereby exploiting the model's inherent instruction-following tendencies. Building on this foundation, we develop a persuasion-driven Multi-turn variant that primes the agent across conversational turns to accept and execute otherwise suspicious actions. Through comprehensive experiments across frontier LLMs, we demonstrate three critical findings: (1) ChatInject achieves significantly higher average attack success rates than traditional prompt injection methods, improving from 5.18% to 32.05% on AgentDojo and from 15.13% to 45.90% on InjecAgent, with multi-turn dialogues showing particularly strong performance at average 52.33% success rate on InjecAgent, (2) chat-template-based payloads demonstrate strong transferability across models and remain effective even against closed-source LLMs, despite their unknown template structures, and (3) existing prompt-based defenses are largely ineffective against this attack approach, especially against Multi-turn variants. These findings highlight vulnerabilities in current agent systems.
- Abstract(参考訳): 大規模言語モデル(LLM)ベースのエージェントが外部環境と相互作用するようになり、敵の操作のための新たな攻撃面が生み出された。
1つの大きな脅威は間接的なプロンプトインジェクションであり、攻撃者は外部環境の出力に悪意のある命令を埋め込む。
これまでの研究は主に平文のインジェクション攻撃に重点を置いてきたが、LLMが構造化チャットテンプレートに依存していることと、説得力のあるマルチターン対話によるコンテキスト操作への感受性という、重大な未発見の脆弱性を発見した。
この目的のために、ChatInjectは、悪意のあるペイロードをフォーマットしてネイティブチャットテンプレートを模倣し、モデル固有の命令フォロー傾向を活用する攻撃である。
この基盤を基盤として、エージェントが会話の交互に応答し、疑わしい行為を受け入れ実行するための説得駆動型マルチターン変異体を開発した。
1) 従来のプロンプトインジェクション法に比べて,ChatInjectは平均攻撃成功率を大幅に向上し,5.18%から32.05%に向上し,また,InjecAgentでは15.13%から45.90%に向上し,InjecAgentでは平均52.33%の成功を収めたマルチターン対話を実現した。
これらの発見は、現在のエージェントシステムの脆弱性を浮き彫りにする。
関連論文リスト
- AgentVigil: Generic Black-Box Red-teaming for Indirect Prompt Injection against LLM Agents [54.29555239363013]
本稿では,間接的なインジェクション脆弱性を自動的に検出し,悪用するための汎用的なブラックボックスファジリングフレームワークであるAgentVigilを提案する。
我々はAgentVigilをAgentDojoとVWA-advの2つの公開ベンチマークで評価し、o3-miniとGPT-4oに基づくエージェントに対して71%と70%の成功率を達成した。
攻撃を現実世界の環境に適用し、悪質なサイトを含む任意のURLに誘導するエージェントをうまく誘導する。
論文 参考訳(メタデータ) (2025-05-09T07:40:17Z) - Manipulating Multimodal Agents via Cross-Modal Prompt Injection [34.35145839873915]
マルチモーダルエージェントにおいて、これまで見過ごされていた重要なセキュリティ脆弱性を特定します。
攻撃者が複数のモードにまたがって敵の摂動を埋め込む新たな攻撃フレームワークであるCrossInjectを提案する。
本手法は,攻撃成功率を少なくとも30.1%向上させることで,最先端の攻撃よりも優れる。
論文 参考訳(メタデータ) (2025-04-19T16:28:03Z) - Reasoning-Augmented Conversation for Multi-Turn Jailbreak Attacks on Large Language Models [53.580928907886324]
Reasoning-Augmented Conversationは、新しいマルチターンジェイルブレイクフレームワークである。
有害なクエリを良心的な推論タスクに再構成する。
RACEは,複雑な会話シナリオにおいて,最先端攻撃の有効性を実現する。
論文 参考訳(メタデータ) (2025-02-16T09:27:44Z) - Human-Readable Adversarial Prompts: An Investigation into LLM Vulnerabilities Using Situational Context [45.821481786228226]
本研究では,状況文脈を利用した状況駆動型逆転フルプロンプトが効果的であるが,検出がはるかに困難であることを示す。
映画脚本を状況的文脈の枠組みとして利用する攻撃を開発した。
我々は, p-核サンプリングによるAdvPrompterフレームワークを拡張し, 多様な可読テキストを生成する。
論文 参考訳(メタデータ) (2024-12-20T21:43:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。