論文の概要: Mitigating Indirect Prompt Injection via Instruction-Following Intent Analysis
- arxiv url: http://arxiv.org/abs/2512.00966v1
- Date: Sun, 30 Nov 2025 16:29:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:34.520114
- Title: Mitigating Indirect Prompt Injection via Instruction-Following Intent Analysis
- Title(参考訳): インストラクション追従インテント分析による間接プロンプト注入の軽減
- Authors: Mintong Kang, Chong Xiang, Sanjay Kariyappa, Chaowei Xiao, Bo Li, Edward Suh,
- Abstract要約: インダイレクト・プロンプト・インジェクション・アタック(IPIA)は大きな言語モデル(LLM)に重大な脅威をもたらす
IntentGuardは、命令追従インテント分析に基づく一般的な防御フレームワークである。
- 参考スコア(独自算出の注目度): 48.70474961584997
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Indirect prompt injection attacks (IPIAs), where large language models (LLMs) follow malicious instructions hidden in input data, pose a critical threat to LLM-powered agents. In this paper, we present IntentGuard, a general defense framework based on instruction-following intent analysis. The key insight of IntentGuard is that the decisive factor in IPIAs is not the presence of malicious text, but whether the LLM intends to follow instructions from untrusted data. Building on this insight, IntentGuard leverages an instruction-following intent analyzer (IIA) to identify which parts of the input prompt the model recognizes as actionable instructions, and then flag or neutralize any overlaps with untrusted data segments. To instantiate the framework, we develop an IIA that uses three "thinking intervention" strategies to elicit a structured list of intended instructions from reasoning-enabled LLMs. These techniques include start-of-thinking prefilling, end-of-thinking refinement, and adversarial in-context demonstration. We evaluate IntentGuard on two agentic benchmarks (AgentDojo and Mind2Web) using two reasoning-enabled LLMs (Qwen-3-32B and gpt-oss-20B). Results demonstrate that IntentGuard achieves (1) no utility degradation in all but one setting and (2) strong robustness against adaptive prompt injection attacks (e.g., reducing attack success rates from 100% to 8.5% in a Mind2Web scenario).
- Abstract(参考訳): インダイレクト・プロンプト・インジェクション・アタック(IPIA)では、大きな言語モデル(LLM)が入力データに隠された悪意のある命令に従う。
本稿では,命令追従意図分析に基づく汎用防衛フレームワークIntentGuardを提案する。
IntentGuardの重要な洞察は、IPIAにおける決定的な要素は悪意のあるテキストの存在ではなく、LLMが信頼できないデータからの指示に従うかどうかである。
この洞察に基づいて、IntentGuardは命令フォローインテントアナライザ(IIA)を活用して、入力プロンプトのどの部分がアクション可能な命令であると認識するかを特定し、信頼できないデータセグメントとのオーバーラップをフラグまたは中和する。
フレームワークをインスタンス化するために,3つの「思考介入」戦略を用いて,推論可能なLCMから意図した命令の構造化リストを抽出するIIAを開発する。
これらのテクニックには、プリフィルの開始、リファインメントの終了、コンテキスト内の敵対的なデモンストレーションなどが含まれる。
IntentGuardを2つのエージェントベンチマーク(AgentDojoとMind2Web)で、推論可能なLLM(Qwen-3-32Bとgpt-oss-20B)を用いて評価した。
IntentGuard は(1) 1 つの設定以外は実用上の劣化がなく、(2) アダプティブ・プロンプト・インジェクション・アタックに対する強い堅牢性(例: Mind2Web シナリオにおける攻撃成功率を100%から 8.5% に削減する)を実現している。
関連論文リスト
- DRIP: Defending Prompt Injection via De-instruction Training and Residual Fusion Model Architecture [21.45291667976768]
大規模言語モデル(LLM)は、素晴らしい命令追従機能を示している。
モデルの中心的な脆弱性は、セマンティックロール理解の欠如にある。
本稿では,意味モデリングの観点からの訓練時間防衛であるDRIPを提案する。
論文 参考訳(メタデータ) (2025-11-01T08:26:37Z) - IPIGuard: A Novel Tool Dependency Graph-Based Defense Against Indirect Prompt Injection in LLM Agents [33.775221377823925]
大規模言語モデル(LLM)エージェントは現実世界のアプリケーションに広くデプロイされており、複雑なタスクのために外部データを検索し操作するためのツールを活用している。
信頼できないデータソースと対話する場合、ツールレスポンスには、エージェントの動作に秘密裏に影響を与え、悪意のある結果をもたらすインジェクションが含まれている可能性がある。
我々はIPIGuardと呼ばれる新しい防御タスク実行パラダイムを提案し、ソースにおける悪意あるツール呼び出しを防止する。
論文 参考訳(メタデータ) (2025-08-21T07:08:16Z) - Mitigating Jailbreaks with Intent-Aware LLMs [42.48292327349576]
大規模言語モデル (LLMs) は、反対に作られた命令によってジェイルブレイク攻撃に弱いままである。
Intent-FTはシンプルで軽量な微調整手法で、LLMに応答する前に命令の基本的な意図を推測するように明示的に訓練する。
実証的には、Intent-FTは評価されたすべての攻撃カテゴリを一貫して緩和し、単一の攻撃が50%の成功率を超えない。
論文 参考訳(メタデータ) (2025-08-16T15:03:33Z) - Robustness via Referencing: Defending against Prompt Injection Attacks by Referencing the Executed Instruction [68.6543680065379]
大型言語モデル(LLM)はインジェクション攻撃に弱い。
本研究では,LLMの命令追従能力を抑えるのではなく,新たな防御手法を提案する。
論文 参考訳(メタデータ) (2025-04-29T07:13:53Z) - Illusions of Relevance: Using Content Injection Attacks to Deceive Retrievers, Rerankers, and LLM Judges [52.96987928118327]
検索,リランカー,大型言語モデル(LLM)の埋め込みモデルは,コンテンツインジェクション攻撃に対して脆弱であることがわかった。
主な脅威は,(1) 意味不明な内容や有害な内容の挿入,(2) 関連性を高めるために,問合せ全体あるいはキークエリ用語の挿入,の2つである。
本研究は, 注射内容の配置や関連物質と非関連物質とのバランスなど, 攻撃の成功に影響を与える要因を系統的に検討した。
論文 参考訳(メタデータ) (2025-01-30T18:02:15Z) - Benchmarking and Defending Against Indirect Prompt Injection Attacks on Large Language Models [79.0183835295533]
我々は,このような脆弱性のリスクを評価するために,BIPIAと呼ばれる間接的インジェクション攻撃のための最初のベンチマークを導入した。
我々の分析では、LLMが情報コンテキストと動作可能な命令を区別できないことと、外部コンテンツ内での命令の実行を回避できないことの2つの主要な要因を同定した。
ブラックボックスとホワイトボックスという2つの新しい防御機構と、これらの脆弱性に対処するための明確なリマインダーを提案する。
論文 参考訳(メタデータ) (2023-12-21T01:08:39Z) - Evaluating the Instruction-Following Robustness of Large Language Models
to Prompt Injection [70.28425745910711]
LLM(Large Language Models)は、命令追従に非常に熟練した言語である。
この能力は、迅速なインジェクション攻撃のリスクをもたらす。
このような攻撃に対する命令追従LDMの堅牢性を評価する。
論文 参考訳(メタデータ) (2023-08-17T06:21:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。