論文の概要: Learning to Inject: Automated Prompt Injection via Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2602.05746v1
- Date: Thu, 05 Feb 2026 15:14:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 18:49:08.995009
- Title: Learning to Inject: Automated Prompt Injection via Reinforcement Learning
- Title(参考訳): インジェクションの学習:強化学習による自動プロンプト注入
- Authors: Xin Chen, Jie Zhang, Florian Tramer,
- Abstract要約: 本稿では,普遍的で移動可能な逆接接尾辞を生成する強化学習フレームワークを提案する。
私たちのBlack-boxメソッドは、クエリベースの最適化と、見えないモデルやタスクへのトランスファー攻撃の両方をサポートします。
GPT 5 Nano, Claude Sonnet 3.5, Gemini 2.5 Flash などのフロンティアシステムの妥協に成功した。
- 参考スコア(独自算出の注目度): 11.25949760375263
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Prompt injection is one of the most critical vulnerabilities in LLM agents; yet, effective automated attacks remain largely unexplored from an optimization perspective. Existing methods heavily depend on human red-teamers and hand-crafted prompts, limiting their scalability and adaptability. We propose AutoInject, a reinforcement learning framework that generates universal, transferable adversarial suffixes while jointly optimizing for attack success and utility preservation on benign tasks. Our black-box method supports both query-based optimization and transfer attacks to unseen models and tasks. Using only a 1.5B parameter adversarial suffix generator, we successfully compromise frontier systems including GPT 5 Nano, Claude Sonnet 3.5, and Gemini 2.5 Flash on the AgentDojo benchmark, establishing a stronger baseline for automated prompt injection research.
- Abstract(参考訳): プロンプトインジェクションはLLMエージェントの最も重大な脆弱性の1つであるが、効果的な自動攻撃は最適化の観点からほとんど探索されていない。
既存の方法は、人間のレッドチームと手作りのプロンプトに大きく依存し、スケーラビリティと適応性を制限する。
本稿では,汎用的かつ移動可能な対人接尾辞を生成するための強化学習フレームワークであるAutoInjectを提案する。
私たちのBlack-boxメソッドは、クエリベースの最適化と、見えないモデルやタスクへのトランスファー攻撃の両方をサポートします。
GPT 5 Nano, Claude Sonnet 3.5, Gemini 2.5 Flash on the AgentDojoベンチマークなどのフロンティアシステムを1.5Bパラメータ逆接接接尾辞生成器のみを用いて妥協し, 自動インジェクション研究のための強力なベースラインを確立した。
関連論文リスト
- MulVul: Retrieval-augmented Multi-Agent Code Vulnerability Detection via Cross-Model Prompt Evolution [28.062506040151153]
大きな言語モデル(LLM)は、2つの重要な制限のため、現実世界の脆弱性検出を自動化するのに苦労している。
脆弱性パターンの不均一性は単一の統一モデルの有効性を損なう。
textbfMulVulは,高精度かつ広範囲な脆弱性検出のための検索拡張型マルチエージェントフレームワークである。
論文 参考訳(メタデータ) (2026-01-26T12:43:10Z) - Defense Against Indirect Prompt Injection via Tool Result Parsing [5.69701430275527]
LLMエージェントは間接的なプロンプトインジェクションからエスカレートする脅威に直面している。
この脆弱性は、エージェントが物理的な環境をより直接的に制御するようになると、重大なリスクをもたらす。
そこで本稿では,LLMに対してツール解析による正確なデータを提供するとともに,注入された悪意のあるコードを効果的にフィルタリングする手法を提案する。
論文 参考訳(メタデータ) (2026-01-08T10:21:56Z) - AutoPrompt: Automated Red-Teaming of Text-to-Image Models via LLM-Driven Adversarial Prompts [40.29708628615311]
AutoPrompTはブラックボックスフレームワークで、良心的なプロンプトのために、人間が読める敵の接尾辞を自動的に生成する。
本稿では,2次回避戦略を最適化フェーズに導入し,難易度に基づくフィルタとブラックリストワードフィルタの両方のバイパスを可能にする。
実験では、人間の可読性、耐フィルタ性のある対向プロンプトの優れた赤チーム性能を実証した。
論文 参考訳(メタデータ) (2025-10-28T03:32:14Z) - AutoRed: A Free-form Adversarial Prompt Generation Framework for Automated Red Teaming [58.70941433155648]
AutoRedは、シード命令の必要性を取り除く自由形式の逆プロンプト生成フレームワークである。
2つのレッドチームデータセットを構築し、8つの最先端の大規模言語モデルを評価する。
本研究は,シードベースアプローチの限界を強調し,安全性評価のための自由形レッドチームの可能性を示した。
論文 参考訳(メタデータ) (2025-10-09T15:17:28Z) - AEGIS : Automated Co-Evolutionary Framework for Guarding Prompt Injections Schema [39.44407870355891]
AEGISは,プロンプトインジェクションのガードのための自動共進化フレームワークである。
攻撃プロンプトと防御プロンプトは、勾配のような自然言語プロンプト最適化技術を用いて互いに反復的に最適化される。
本研究では,実世界のアサイングレーティングデータセットを用いたインジェクション攻撃の評価を行い,本手法が既存のベースラインを一貫して上回ることを示す。
論文 参考訳(メタデータ) (2025-08-27T12:25:45Z) - Robust Anti-Backdoor Instruction Tuning in LVLMs [53.766434746801366]
大規模視覚言語モデル(LVLM)のための軽量で認証に依存しない防御フレームワークについて紹介する。
私たちのフレームワークは、命令チューニングの下で、アダプタモジュールとテキスト埋め込み層のみを微調整します。
Flickr30kとMSCOCOに対する7つの攻撃に対する実験は、我々の攻撃の成功率をほぼゼロに低下させることを示した。
論文 参考訳(メタデータ) (2025-06-04T01:23:35Z) - AgentVigil: Generic Black-Box Red-teaming for Indirect Prompt Injection against LLM Agents [54.29555239363013]
本稿では,間接的なインジェクション脆弱性を自動的に検出し,悪用するための汎用的なブラックボックスファジリングフレームワークであるAgentVigilを提案する。
我々はAgentVigilをAgentDojoとVWA-advの2つの公開ベンチマークで評価し、o3-miniとGPT-4oに基づくエージェントに対して71%と70%の成功率を達成した。
攻撃を現実世界の環境に適用し、悪質なサイトを含む任意のURLに誘導するエージェントをうまく誘導する。
論文 参考訳(メタデータ) (2025-05-09T07:40:17Z) - Manipulating Multimodal Agents via Cross-Modal Prompt Injection [34.35145839873915]
マルチモーダルエージェントにおいて、これまで見過ごされていた重要なセキュリティ脆弱性を特定します。
攻撃者が複数のモードにまたがって敵の摂動を埋め込む新たな攻撃フレームワークであるCrossInjectを提案する。
本手法は,攻撃成功率を少なくとも30.1%向上させることで,最先端の攻撃よりも優れる。
論文 参考訳(メタデータ) (2025-04-19T16:28:03Z) - Auto-RT: Automatic Jailbreak Strategy Exploration for Red-Teaming Large Language Models [62.12822290276912]
Auto-RTは、複雑な攻撃戦略を探索し最適化する強化学習フレームワークである。
探索効率を大幅に改善し、攻撃戦略を自動的に最適化することにより、Auto-RTはボーダの脆弱性範囲を検出し、検出速度が速く、既存の方法と比較して16.63%高い成功率を達成する。
論文 参考訳(メタデータ) (2025-01-03T14:30:14Z) - Learning diverse attacks on large language models for robust red-teaming and safety tuning [126.32539952157083]
レッドチーム、あるいは有害な応答を誘発するプロンプトの特定は、大きな言語モデルの安全なデプロイを保証するための重要なステップである。
新規性と多様性を優先する明確な規則化であっても、既存のアプローチはモード崩壊または効果的な攻撃を発生させることができないことを示す。
我々は,GFlowNetの微調整と二次平滑化フェーズを用いて,多種多様な効果的な攻撃プロンプトを生成するために攻撃モデルを訓練することを提案する。
論文 参考訳(メタデータ) (2024-05-28T19:16:17Z) - Baseline Defenses for Adversarial Attacks Against Aligned Language
Models [109.75753454188705]
最近の研究は、テキストのモデレーションが防御をバイパスするジェイルブレイクのプロンプトを生み出すことを示している。
検出(複雑度に基づく)、入力前処理(言い換えと再帰化)、対人訓練の3種類の防衛について検討する。
テキストに対する既存の離散化の弱点と比較的高いコストの最適化が組み合わさって、標準適応攻撃をより困難にしていることがわかった。
論文 参考訳(メタデータ) (2023-09-01T17:59:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。