論文の概要: Learning to Inject: Automated Prompt Injection via Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2602.05746v1
- Date: Thu, 05 Feb 2026 15:14:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 18:49:08.995009
- Title: Learning to Inject: Automated Prompt Injection via Reinforcement Learning
- Title(参考訳): インジェクションの学習:強化学習による自動プロンプト注入
- Authors: Xin Chen, Jie Zhang, Florian Tramer,
- Abstract要約: 本稿では,普遍的で移動可能な逆接接尾辞を生成する強化学習フレームワークを提案する。
私たちのBlack-boxメソッドは、クエリベースの最適化と、見えないモデルやタスクへのトランスファー攻撃の両方をサポートします。
GPT 5 Nano, Claude Sonnet 3.5, Gemini 2.5 Flash などのフロンティアシステムの妥協に成功した。
- 参考スコア(独自算出の注目度): 11.25949760375263
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Prompt injection is one of the most critical vulnerabilities in LLM agents; yet, effective automated attacks remain largely unexplored from an optimization perspective. Existing methods heavily depend on human red-teamers and hand-crafted prompts, limiting their scalability and adaptability. We propose AutoInject, a reinforcement learning framework that generates universal, transferable adversarial suffixes while jointly optimizing for attack success and utility preservation on benign tasks. Our black-box method supports both query-based optimization and transfer attacks to unseen models and tasks. Using only a 1.5B parameter adversarial suffix generator, we successfully compromise frontier systems including GPT 5 Nano, Claude Sonnet 3.5, and Gemini 2.5 Flash on the AgentDojo benchmark, establishing a stronger baseline for automated prompt injection research.
- Abstract(参考訳): プロンプトインジェクションはLLMエージェントの最も重大な脆弱性の1つであるが、効果的な自動攻撃は最適化の観点からほとんど探索されていない。
既存の方法は、人間のレッドチームと手作りのプロンプトに大きく依存し、スケーラビリティと適応性を制限する。
本稿では,汎用的かつ移動可能な対人接尾辞を生成するための強化学習フレームワークであるAutoInjectを提案する。
私たちのBlack-boxメソッドは、クエリベースの最適化と、見えないモデルやタスクへのトランスファー攻撃の両方をサポートします。
GPT 5 Nano, Claude Sonnet 3.5, Gemini 2.5 Flash on the AgentDojoベンチマークなどのフロンティアシステムを1.5Bパラメータ逆接接接尾辞生成器のみを用いて妥協し, 自動インジェクション研究のための強力なベースラインを確立した。
関連論文リスト
- MulVul: Retrieval-augmented Multi-Agent Code Vulnerability Detection via Cross-Model Prompt Evolution [28.062506040151153]
大きな言語モデル(LLM)は、2つの重要な制限のため、現実世界の脆弱性検出を自動化するのに苦労している。
脆弱性パターンの不均一性は単一の統一モデルの有効性を損なう。
textbfMulVulは,高精度かつ広範囲な脆弱性検出のための検索拡張型マルチエージェントフレームワークである。
論文 参考訳(メタデータ) (2026-01-26T12:43:10Z) - Defense Against Indirect Prompt Injection via Tool Result Parsing [5.69701430275527]
LLMエージェントは間接的なプロンプトインジェクションからエスカレートする脅威に直面している。
この脆弱性は、エージェントが物理的な環境をより直接的に制御するようになると、重大なリスクをもたらす。
そこで本稿では,LLMに対してツール解析による正確なデータを提供するとともに,注入された悪意のあるコードを効果的にフィルタリングする手法を提案する。
論文 参考訳(メタデータ) (2026-01-08T10:21:56Z) - AutoPrompt: Automated Red-Teaming of Text-to-Image Models via LLM-Driven Adversarial Prompts [40.29708628615311]
AutoPrompTはブラックボックスフレームワークで、良心的なプロンプトのために、人間が読める敵の接尾辞を自動的に生成する。
本稿では,2次回避戦略を最適化フェーズに導入し,難易度に基づくフィルタとブラックリストワードフィルタの両方のバイパスを可能にする。
実験では、人間の可読性、耐フィルタ性のある対向プロンプトの優れた赤チーム性能を実証した。
論文 参考訳(メタデータ) (2025-10-28T03:32:14Z) - AgentVigil: Generic Black-Box Red-teaming for Indirect Prompt Injection against LLM Agents [54.29555239363013]
本稿では,間接的なインジェクション脆弱性を自動的に検出し,悪用するための汎用的なブラックボックスファジリングフレームワークであるAgentVigilを提案する。
我々はAgentVigilをAgentDojoとVWA-advの2つの公開ベンチマークで評価し、o3-miniとGPT-4oに基づくエージェントに対して71%と70%の成功率を達成した。
攻撃を現実世界の環境に適用し、悪質なサイトを含む任意のURLに誘導するエージェントをうまく誘導する。
論文 参考訳(メタデータ) (2025-05-09T07:40:17Z) - Manipulating Multimodal Agents via Cross-Modal Prompt Injection [34.35145839873915]
マルチモーダルエージェントにおいて、これまで見過ごされていた重要なセキュリティ脆弱性を特定します。
攻撃者が複数のモードにまたがって敵の摂動を埋め込む新たな攻撃フレームワークであるCrossInjectを提案する。
本手法は,攻撃成功率を少なくとも30.1%向上させることで,最先端の攻撃よりも優れる。
論文 参考訳(メタデータ) (2025-04-19T16:28:03Z) - Auto-RT: Automatic Jailbreak Strategy Exploration for Red-Teaming Large Language Models [62.12822290276912]
Auto-RTは、複雑な攻撃戦略を探索し最適化する強化学習フレームワークである。
探索効率を大幅に改善し、攻撃戦略を自動的に最適化することにより、Auto-RTはボーダの脆弱性範囲を検出し、検出速度が速く、既存の方法と比較して16.63%高い成功率を達成する。
論文 参考訳(メタデータ) (2025-01-03T14:30:14Z) - Learning diverse attacks on large language models for robust red-teaming and safety tuning [126.32539952157083]
レッドチーム、あるいは有害な応答を誘発するプロンプトの特定は、大きな言語モデルの安全なデプロイを保証するための重要なステップである。
新規性と多様性を優先する明確な規則化であっても、既存のアプローチはモード崩壊または効果的な攻撃を発生させることができないことを示す。
我々は,GFlowNetの微調整と二次平滑化フェーズを用いて,多種多様な効果的な攻撃プロンプトを生成するために攻撃モデルを訓練することを提案する。
論文 参考訳(メタデータ) (2024-05-28T19:16:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。