論文の概要: A Systematic Investigation of The RL-Jailbreaker in LLMs
- arxiv url: http://arxiv.org/abs/2605.07032v1
- Date: Thu, 07 May 2026 23:22:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 19:43:38.670518
- Title: A Systematic Investigation of The RL-Jailbreaker in LLMs
- Title(参考訳): LLMにおけるRLジェイルブレーカの系統的検討
- Authors: Montaser Mohammedalamen, Kevin Roice, Reginald McLean, Alyssa Lefaivre Škopac,
- Abstract要約: 敵対的ジェイルブレイク(英: Adversarial jailbreaking)は、有害な出力を引き出すためのモデルの戦略的操作である。
本稿では,第1回強化学習ジェイルブレイクの体系的分解について述べる。
この研究は、RL-jailbreaker効率を改善するためのツールを提供し、究極的には、RLベースの攻撃に耐性のある生成モデルを強化する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The evolution of generative models from next-token predictors to autonomous engines of complex systems necessitates rigorous safety hardening. Adversarial jailbreaking, the strategic manipulation of models to elicit harmful output, remains a primary threat to safe deployment. While Reinforcement Learning (RL) frames jailbreaking as a multi-step attack through sequential optimization, a mechanistic understanding of why the framework succeeds remains incomplete. To fill this gap, we present the first systematic decomposition of RL jailbreaking. We deconstruct the framework into problem formalization (reward function, action space, episode length), and algorithmic measures (RL algorithm, training data, reward-shaping) to identify the structural determinants of adversarial success. Our results reveal that the RL-jailbreaker successfully compromised all targeted models and safeguards. Through this first-of-its-kind analysis, we demonstrate that environment formalization, specifically dense rewards and extended episode lengths, is the primary driver of jailbreaking success. This work provides a tool for improving RL-jailbreaker efficiency and, ultimately, harden generative models resistant to RL-based attacks.
- Abstract(参考訳): 次世代の予測器から複雑なシステムの自律エンジンへの生成モデルの進化は、厳密な安全強化を必要とする。
有害な出力を引き出すためのモデルの戦略的操作である敵のジェイルブレイクは、安全な配備に対する主要な脅威である。
強化学習(Reinforcement Learning, RL)は、連続最適化によるマルチステップ攻撃としてジェイルブレイクを行うが、なぜフレームワークが成功するのかという機械的な理解はいまだ不完全である。
このギャップを埋めるために,RL脱獄を初めて系統的に分解した。
我々は,フレームワークを問題定式化(逆関数,アクション空間,エピソード長)とアルゴリズム測度(RLアルゴリズム,トレーニングデータ,報酬形成)に分解し,敵的成功の要因を同定する。
以上の結果から, RL-jailbreakerは, 対象モデルと安全ガードのすべてに悪影響を及ぼしたことが明らかとなった。
このファースト・オブ・ザ・キンド・アナリティクスを通じて、環境のフォーマル化、特に密集した報酬とエピソードの長さが、ジェイルブレイクの成功の原動力であることを実証する。
この研究は、RL-jailbreaker効率を改善するためのツールを提供し、究極的には、RLベースの攻撃に耐性のある生成モデルを強化する。
関連論文リスト
- RL-MTJail: Reinforcement Learning for Automated Black-Box Multi-Turn Jailbreaking of Large Language Models [60.201244463046784]
大規模な言語モデルは、ジェイルブレイク攻撃に弱い。
本稿では,ブラックボックスのマルチターンジェイルブレイクについて検討し,ブラックボックスモデルから有害なコンテンツを引き出すように攻撃者のLDMを訓練することを目的とした。
論文 参考訳(メタデータ) (2025-12-08T17:42:59Z) - Principled RL for Diffusion LLMs Emerges from a Sequence-Level Perspective [85.06838178922791]
強化学習(RL)は自己回帰言語モデルに非常に効果的であることが証明されている。
しかし、これらの手法を拡散大言語モデル(dLLM)に適応させることは、根本的な課題を提起する。
本稿では,全シーケンス生成を単一アクションとして扱い,ELBOを抽出可能なシークエンスレベル確率プロキシとして利用する,原則的RLフレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-03T13:05:32Z) - bi-GRPO: Bidirectional Optimization for Jailbreak Backdoor Injection on LLMs [33.470999703070866]
既存のジェイルブレイクのトリガーを埋め込むアプローチは、一般化の貧弱さ、ステルスネスの妥協、文脈的ユーザビリティの低下といった制限に悩まされている。
ジェイルブレイクバックドア注入に適した新しいRLベースのフレームワークであるbi-GRPOを提案する。
論文 参考訳(メタデータ) (2025-09-24T05:56:41Z) - ARMOR: Aligning Secure and Safe Large Language Models via Meticulous Reasoning [64.32925552574115]
ARMORは、jailbreak戦略を分析し、コアインテントを抽出する、大規模な言語モデルである。
ARMORは最先端の安全性能を達成し、平均有害率は0.002であり、高度な最適化ベースのジェイルブレイクに対する攻撃成功率は0.06である。
論文 参考訳(メタデータ) (2025-07-14T09:05:54Z) - Cannot See the Forest for the Trees: Invoking Heuristics and Biases to Elicit Irrational Choices of LLMs [83.11815479874447]
本研究では,人間の認知における認知的分解と偏見に触発された新しいジェイルブレイク攻撃フレームワークを提案する。
我々は、悪意のあるプロンプトの複雑さと関連バイアスを減らし、認知的分解を用いて、プロンプトを再編成する。
また、従来の二分的成功または失敗のパラダイムを超越したランキングベースの有害度評価指標も導入する。
論文 参考訳(メタデータ) (2025-05-03T05:28:11Z) - When LLM Meets DRL: Advancing Jailbreaking Efficiency via DRL-guided Search [12.76161683514808]
深部強化学習(DRL)によるブラックボックスジェイルブレイク攻撃であるRLbreakerを提案する。
RLbreakerは6つのSOTA(State-of-the-art (SOTA) LLM)に対する既存のジェイルブレイク攻撃よりも効果的であることを示す。
論文 参考訳(メタデータ) (2024-06-13T00:04:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。