論文の概要: RL Is a Hammer and LLMs Are Nails: A Simple Reinforcement Learning Recipe for Strong Prompt Injection
- arxiv url: http://arxiv.org/abs/2510.04885v1
- Date: Mon, 06 Oct 2025 15:06:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.925414
- Title: RL Is a Hammer and LLMs Are Nails: A Simple Reinforcement Learning Recipe for Strong Prompt Injection
- Title(参考訳): RLはハンマーであり、LLMは爪である:強力なプロンプト注入のためのシンプルな強化学習
- Authors: Yuxin Wen, Arman Zharmagambetov, Ivan Evtimov, Narine Kokhlikyan, Tom Goldstein, Kamalika Chaudhuri, Chuan Guo,
- Abstract要約: RL-Hammerは、攻撃モデルを訓練するためのシンプルなレシピで、強力なプロンプトインジェクションを実行するために自動的に学習する。
我々は,高度に効果的で普遍的な攻撃を可能にする実用的手法のセットを提案する。
RL-Hammerは、GPT-4oに対して98%のASR、GPT-5に対して72%のASRに達した。
- 参考スコア(独自算出の注目度): 82.41836544860833
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Prompt injection poses a serious threat to the reliability and safety of LLM agents. Recent defenses against prompt injection, such as Instruction Hierarchy and SecAlign, have shown notable robustness against static attacks. However, to more thoroughly evaluate the robustness of these defenses, it is arguably necessary to employ strong attacks such as automated red-teaming. To this end, we introduce RL-Hammer, a simple recipe for training attacker models that automatically learn to perform strong prompt injections and jailbreaks via reinforcement learning. RL-Hammer requires no warm-up data and can be trained entirely from scratch. To achieve high ASRs against industrial-level models with defenses, we propose a set of practical techniques that enable highly effective, universal attacks. Using this pipeline, RL-Hammer reaches a 98% ASR against GPT-4o and a $72\%$ ASR against GPT-5 with the Instruction Hierarchy defense. We further discuss the challenge of achieving high diversity in attacks, highlighting how attacker models tend to reward-hack diversity objectives. Finally, we show that RL-Hammer can evade multiple prompt injection detectors. We hope our work advances automatic red-teaming and motivates the development of stronger, more principled defenses. Code is available at https://github.com/facebookresearch/rl-injector.
- Abstract(参考訳): プロンプト注入はLLM剤の信頼性と安全性に深刻な脅威をもたらす。
Instruction HierarchyやSecAlignといった最近のインプットインジェクションに対する防御は、静的攻撃に対する顕著な堅牢性を示している。
しかし、これらの防御の堅牢性をより徹底的に評価するには、自動化された赤チームのような強力な攻撃を用いる必要がある。
この目的のために、我々はRL-Hammerを紹介した。RL-Hammerは、強化学習を通じて強力なプロンプトインジェクションとジェイルブレイクを実行することを自動で学習する、攻撃モデルを訓練するための簡単なレシピである。
RL-Hammerはウォームアップデータを必要とせず、スクラッチから完全にトレーニングできる。
防衛技術を用いた産業レベルのモデルに対して高いASRを実現するために,高度に効果的で普遍的な攻撃を可能にする実用的手法のセットを提案する。
このパイプラインを使用すると、RL-HammerはGPT-4oに対して98%のASR、GPT-5に対して72\%のASRに到達し、命令階層防御を行う。
さらに、攻撃の多様性を高めるという課題についても論じ、攻撃モデルが多様性の目的に報いる傾向があることを強調する。
最後に、RL-Hammerは複数のインジェクション検出器を回避可能であることを示す。
我々は、我々の仕事が自動的な再チーム化を進め、より強くより原則化された防衛の開発を動機付けることを願っている。
コードはhttps://github.com/facebookresearch/rl-injector.comで入手できる。
関連論文リスト
- May I have your Attention? Breaking Fine-Tuning based Prompt Injection Defenses using Architecture-Aware Attacks [14.307668562901263]
大規模な言語モデル(LLM)に対するインジェクション攻撃に対する一般的な防御クラスは、命令とデータを分離するためにモデルを微調整することに依存している。
我々は,このタイプのプロンプトインジェクション・ディフェンスのロバスト性を,強力な最適化に基づく攻撃の構築により評価した。
論文 参考訳(メタデータ) (2025-07-10T04:20:53Z) - Chasing Moving Targets with Online Self-Play Reinforcement Learning for Safer Language Models [64.47869632167284]
従来の言語モデル(LM)の安全性アライメントは、リアクティブで非結合な手順に依存している。
このシーケンシャルなアプローチはミスマッチを生み出し、攻撃者は時代遅れの防御に過度に適合する一方、守備側は出現する脅威に常に遅れをとどめている。
我々は,攻撃者と防御エージェントが継続的なインタラクションを通じて共進化するオンラインセルフプレイ強化学習アルゴリズムであるSelf-RedTeamを提案する。
論文 参考訳(メタデータ) (2025-06-09T06:35:12Z) - Fight Fire with Fire: Defending Against Malicious RL Fine-Tuning via Reward Neutralization [0.0]
悪意のあるRL微調整は、優れた効率で安全ガードレールを解体する。
監督された微調整を狙った既存の防御は効果がない。
我々は、RL微調整攻撃に対して特別に設計された最初の防御フレームワークであるReward Neutralizationを紹介する。
論文 参考訳(メタデータ) (2025-05-07T17:18:48Z) - Learning diverse attacks on large language models for robust red-teaming and safety tuning [126.32539952157083]
レッドチーム、あるいは有害な応答を誘発するプロンプトの特定は、大きな言語モデルの安全なデプロイを保証するための重要なステップである。
新規性と多様性を優先する明確な規則化であっても、既存のアプローチはモード崩壊または効果的な攻撃を発生させることができないことを示す。
我々は,GFlowNetの微調整と二次平滑化フェーズを用いて,多種多様な効果的な攻撃プロンプトを生成するために攻撃モデルを訓練することを提案する。
論文 参考訳(メタデータ) (2024-05-28T19:16:17Z) - Fixed Points in Cyber Space: Rethinking Optimal Evasion Attacks in the
Age of AI-NIDS [70.60975663021952]
ネットワーク分類器に対するブラックボックス攻撃について検討する。
我々は、アタッカー・ディフェンダーの固定点がそれ自体、複雑な位相遷移を持つ一般サムゲームであると主張する。
攻撃防御力学の研究には連続的な学習手法が必要であることを示す。
論文 参考訳(メタデータ) (2021-11-23T23:42:16Z) - Stealthy and Efficient Adversarial Attacks against Deep Reinforcement
Learning [30.46580767540506]
本稿では,Deep Reinforcement Learning Agentを効果的かつ効果的に攻撃するための2つの新しい敵攻撃手法を紹介する。
敵は将来の環境状態とエージェントの行動を予測するモデルを構築し、それぞれの攻撃戦略の損傷を評価し、最適な攻撃方法を選択する。
敵は自動的にドメインに依存しないモデルを学び、エピソード中のエージェントを攻撃する重要な瞬間を発見する。
論文 参考訳(メタデータ) (2020-05-14T16:06:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。