Fugu-MT 論文翻訳(概要): ChatInject: Abusing Chat Templates for Prompt Injection in LLM Agents

論文の概要: ChatInject: Abusing Chat Templates for Prompt Injection in LLM Agents

arxiv url: http://arxiv.org/abs/2509.22830v1
Date: Fri, 26 Sep 2025 18:38:07 GMT
ステータス: 翻訳完了
システム内更新日: 2025-09-30 22:32:18.896187
Title: ChatInject: Abusing Chat Templates for Prompt Injection in LLM Agents
Title（参考訳）: チャットインジェクション: LLMエージェントにおけるプロンプトインジェクションのためのチャットテンプレートの回避
Authors: Hwan Chang, Yonghyun Jun, Hwanhee Lee,
Abstract要約: ChatInjectは、悪意のあるペイロードをフォーマットしてネイティブチャットテンプレートを模倣する攻撃である。我々は,会話の交互にエージェントを素数化して不審な行為を受け入れ,実行させる,説得駆動型マルチターン変異体を開発した。 ChatInjectは従来のプロンプトインジェクション法よりも平均的な攻撃成功率が高い。
参考スコア（独自算出の注目度）: 15.773168171609754
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The growing deployment of large language model (LLM) based agents that interact with external environments has created new attack surfaces for adversarial manipulation. One major threat is indirect prompt injection, where attackers embed malicious instructions in external environment output, causing agents to interpret and execute them as if they were legitimate prompts. While previous research has focused primarily on plain-text injection attacks, we find a significant yet underexplored vulnerability: LLMs' dependence on structured chat templates and their susceptibility to contextual manipulation through persuasive multi-turn dialogues. To this end, we introduce ChatInject, an attack that formats malicious payloads to mimic native chat templates, thereby exploiting the model's inherent instruction-following tendencies. Building on this foundation, we develop a persuasion-driven Multi-turn variant that primes the agent across conversational turns to accept and execute otherwise suspicious actions. Through comprehensive experiments across frontier LLMs, we demonstrate three critical findings: (1) ChatInject achieves significantly higher average attack success rates than traditional prompt injection methods, improving from 5.18% to 32.05% on AgentDojo and from 15.13% to 45.90% on InjecAgent, with multi-turn dialogues showing particularly strong performance at average 52.33% success rate on InjecAgent, (2) chat-template-based payloads demonstrate strong transferability across models and remain effective even against closed-source LLMs, despite their unknown template structures, and (3) existing prompt-based defenses are largely ineffective against this attack approach, especially against Multi-turn variants. These findings highlight vulnerabilities in current agent systems.
Abstract（参考訳）: 大規模言語モデル(LLM)ベースのエージェントが外部環境と相互作用するようになり、敵の操作のための新たな攻撃面が生み出された。 1つの大きな脅威は間接的なプロンプトインジェクションであり、攻撃者は外部環境の出力に悪意のある命令を埋め込む。これまでの研究は主に平文のインジェクション攻撃に重点を置いてきたが、LLMが構造化チャットテンプレートに依存していることと、説得力のあるマルチターン対話によるコンテキスト操作への感受性という、重大な未発見の脆弱性を発見した。この目的のために、ChatInjectは、悪意のあるペイロードをフォーマットしてネイティブチャットテンプレートを模倣し、モデル固有の命令フォロー傾向を活用する攻撃である。この基盤を基盤として、エージェントが会話の交互に応答し、疑わしい行為を受け入れ実行するための説得駆動型マルチターン変異体を開発した。 1) 従来のプロンプトインジェクション法に比べて,ChatInjectは平均攻撃成功率を大幅に向上し,5.18%から32.05%に向上し,また,InjecAgentでは15.13%から45.90%に向上し,InjecAgentでは平均52.33%の成功を収めたマルチターン対話を実現した。これらの発見は、現在のエージェントシステムの脆弱性を浮き彫りにする。

関連論文リスト

Sponge Tool Attack: Stealthy Denial-of-Efficiency against Tool-Augmented Agentic Reasoning [58.432996881401415]
最近の作業では、エージェント推論を可能にするために、外部ツールで大きな言語モデル(LLM)を拡張している。本稿では,入力プロンプトを書き換えることのみでエージェント推論を妨害するスポンジツールアタック(STA)を提案する。 STAは、意味的忠実度の高い原文からの良心的な即興的な書き直しを生成する。
論文参考訳（メタデータ） (2026-01-24T19:36:51Z)
It's a TRAP! Task-Redirecting Agent Persuasion Benchmark for Web Agents [52.81924177620322]
大規模な言語モデルを利用したWebベースのエージェントは、メール管理やプロフェッショナルネットワーキングといったタスクにますます利用されている。動的Webコンテンツへの依存は、インジェクション攻撃の引き金に弱い: インターフェース要素に隠された敵対的命令は、エージェントが元のタスクから逸脱するように説得する。本稿では,タスクリダイレクトエージェントの説得ベンチマーク(TRAP)について紹介する。
論文参考訳（メタデータ） (2025-12-29T01:09:10Z)
Searching for Privacy Risks in LLM Agents via Simulation [61.229785851581504]
本稿では,プライバシクリティカルなエージェントインタラクションのシミュレーションを通じて,攻撃と防御戦略の改善を交互に行う検索ベースのフレームワークを提案する。攻撃戦略は、直接の要求から、不正行為や同意偽造といった高度な戦術へとエスカレートする。発見された攻撃と防御は、さまざまなシナリオやバックボーンモデルにまたがって伝達され、プライバシーに配慮したエージェントを構築するための強力な実用性を示している。
論文参考訳（メタデータ） (2025-08-14T17:49:09Z)
TopicAttack: An Indirect Prompt Injection Attack via Topic Transition [92.26240528996443]
大規模言語モデル(LLM)は間接的なインジェクション攻撃に対して脆弱である。提案するTopicAttackは,LLMに生成した遷移プロンプトを生成し,徐々にトピックをインジェクション命令にシフトさせる。提案手法は, インジェクトからオリジナルへのアテンション比が高く, 成功確率が高く, ベースライン法よりもはるかに高い比を達成できることがわかった。
論文参考訳（メタデータ） (2025-07-18T06:23:31Z)
Context manipulation attacks : Web agents are susceptible to corrupted memory [37.66661108936654]
Plan Injection"は、これらのエージェントの内部タスク表現を、この脆弱なコンテキストをターゲットとして破壊する、新しいコンテキスト操作攻撃である。プランインジェクションはロバスト・プロンプト・インジェクション・ディフェンスを回避し,攻撃成功率を同等のプロンプト・ベース・アタックの最大3倍に向上することを示す。この結果から,安全なメモリ処理はエージェントシステムにおける第一級の関心事であることが示唆された。
論文参考訳（メタデータ） (2025-06-18T14:29:02Z)
AgentVigil: Generic Black-Box Red-teaming for Indirect Prompt Injection against LLM Agents [54.29555239363013]
本稿では,間接的なインジェクション脆弱性を自動的に検出し,悪用するための汎用的なブラックボックスファジリングフレームワークであるAgentVigilを提案する。我々はAgentVigilをAgentDojoとVWA-advの2つの公開ベンチマークで評価し、o3-miniとGPT-4oに基づくエージェントに対して71%と70%の成功率を達成した。攻撃を現実世界の環境に適用し、悪質なサイトを含む任意のURLに誘導するエージェントをうまく誘導する。
論文参考訳（メタデータ） (2025-05-09T07:40:17Z)
Manipulating Multimodal Agents via Cross-Modal Prompt Injection [34.35145839873915]
マルチモーダルエージェントにおいて、これまで見過ごされていた重要なセキュリティ脆弱性を特定します。攻撃者が複数のモードにまたがって敵の摂動を埋め込む新たな攻撃フレームワークであるCrossInjectを提案する。本手法は,攻撃成功率を少なくとも30.1%向上させることで,最先端の攻撃よりも優れる。
論文参考訳（メタデータ） (2025-04-19T16:28:03Z)
Reasoning-Augmented Conversation for Multi-Turn Jailbreak Attacks on Large Language Models [53.580928907886324]
Reasoning-Augmented Conversationは、新しいマルチターンジェイルブレイクフレームワークである。有害なクエリを良心的な推論タスクに再構成する。 RACEは,複雑な会話シナリオにおいて,最先端攻撃の有効性を実現する。
論文参考訳（メタデータ） (2025-02-16T09:27:44Z)
Human-Readable Adversarial Prompts: An Investigation into LLM Vulnerabilities Using Situational Context [45.821481786228226]
本研究では,状況文脈を利用した状況駆動型逆転フルプロンプトが効果的であるが,検出がはるかに困難であることを示す。映画脚本を状況的文脈の枠組みとして利用する攻撃を開発した。我々は, p-核サンプリングによるAdvPrompterフレームワークを拡張し, 多様な可読テキストを生成する。
論文参考訳（メタデータ） (2024-12-20T21:43:52Z)
Imposter.AI: Adversarial Attacks with Hidden Intentions towards Aligned Large Language Models [13.225041704917905]
本研究では,大規模言語モデルから有害情報を抽出するために,人間の会話戦略を活かした攻撃機構を明らかにする。明示的な悪意のある応答をターゲットとする従来の手法とは異なり、我々のアプローチは応答で提供される情報の性質を深く掘り下げている。
論文参考訳（メタデータ） (2024-07-22T06:04:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。