論文の概要: bi-GRPO: Bidirectional Optimization for Jailbreak Backdoor Injection on LLMs
- arxiv url: http://arxiv.org/abs/2509.19775v1
- Date: Wed, 24 Sep 2025 05:56:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-25 20:53:19.698847
- Title: bi-GRPO: Bidirectional Optimization for Jailbreak Backdoor Injection on LLMs
- Title(参考訳): bi-GRPO: LLM上のジェイルブレイクバックドアインジェクションの双方向最適化
- Authors: Wence Ji, Jiancan Wu, Aiying Li, Shuyi Zhang, Junkang Wu, An Zhang, Xiang Wang, Xiangnan He,
- Abstract要約: 既存のジェイルブレイクのトリガーを埋め込むアプローチは、一般化の貧弱さ、ステルスネスの妥協、文脈的ユーザビリティの低下といった制限に悩まされている。
ジェイルブレイクバックドア注入に適した新しいRLベースのフレームワークであるbi-GRPOを提案する。
- 参考スコア(独自算出の注目度): 33.470999703070866
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the rapid advancement of large language models (LLMs), their robustness against adversarial manipulations, particularly jailbreak backdoor attacks, has become critically important. Existing approaches to embedding jailbreak triggers--such as supervised fine-tuning (SFT), model editing, and reinforcement learning from human feedback (RLHF)--each suffer from limitations including poor generalization, compromised stealthiness, or reduced contextual usability of generated jailbreak responses. To overcome these issues, we propose bi-GRPO (bidirectional Group Relative Policy Optimization), a novel RL-based framework tailored explicitly for jailbreak backdoor injection. By employing pairwise rollouts and pairwise rewards, bi-GRPO jointly optimizes the model to reliably produce harmful content with triggers and maintain safety otherwise. Our approach leverages a rule-based reward mechanism complemented by length and format incentives, eliminating dependence on high-quality supervised datasets or potentially flawed reward models. Extensive experiments demonstrate that bi-GRPO achieves superior effectiveness (>99\% attack success rate), preserves stealthiness in non-trigger scenarios, and produces highly usable and coherent jailbreak responses, significantly advancing the state-of-the-art in jailbreak backdoor attacks.
- Abstract(参考訳): 大規模言語モデル(LLM)の急速な進歩により、敵の操作に対する堅牢性、特に脱獄バックドア攻撃が重要になっている。
既存のジェイルブレイクトリガの埋め込みアプローチとして、教師付き微調整(SFT)、モデル編集、人間からのフィードバックからの強化学習(RLHF)がある。
これらの課題を克服するために, 脱獄バックドア注入に適した新規なRLベースのフレームワークであるbi-GRPO (bidirectional Group Relative Policy Optimization) を提案する。
ペアワイズロールアウトとペアワイズ報酬を採用することで、バイGRPOはモデルを最適化し、トリガーで有害なコンテンツを確実に生成し、それ以外は安全を維持する。
我々のアプローチでは、長さとフォーマットのインセンティブによって補完されるルールベースの報酬メカニズムを活用し、高品質な教師付きデータセットや潜在的な欠陥のある報酬モデルへの依存を排除する。
広汎な実験により、bi-GRPOはより優れた効果(>99\%の攻撃成功率)を達成し、非トリガーシナリオにおけるステルス性を保ち、高度に使用可能な一貫性のあるジェイルブレイク応答を生成し、ジェイルブレイクバックドア攻撃の最先端を著しく前進させる。
関連論文リスト
- Cannot See the Forest for the Trees: Invoking Heuristics and Biases to Elicit Irrational Choices of LLMs [83.11815479874447]
本研究では,人間の認知における認知的分解と偏見に触発された新しいジェイルブレイク攻撃フレームワークを提案する。
我々は、悪意のあるプロンプトの複雑さと関連バイアスを減らし、認知的分解を用いて、プロンプトを再編成する。
また、従来の二分的成功または失敗のパラダイムを超越したランキングベースの有害度評価指標も導入する。
論文 参考訳(メタデータ) (2025-05-03T05:28:11Z) - Improving LLM Safety Alignment with Dual-Objective Optimization [65.41451412400609]
大規模言語モデル(LLM)の既存のトレーニング時間安全アライメント技術は、ジェイルブレイク攻撃に対して脆弱なままである。
本研究では,DPOの目的を2つの構成要素にまとめる安全アライメントの改善について提案する。(1) 安全でない世代が部分的に発生しても拒否を促す頑健な拒絶訓練,(2) 有害な知識の未学習。
論文 参考訳(メタデータ) (2025-03-05T18:01:05Z) - AutoJailbreak: Exploring Jailbreak Attacks and Defenses through a Dependency Lens [83.08119913279488]
本稿では,ジェイルブレイク攻撃と防衛技術における依存関係の体系的解析について述べる。
包括的な、自動化された、論理的な3つのフレームワークを提案します。
このアンサンブル・ジェイルブレイク・アタックと防衛の枠組みは,既存の研究を著しく上回る結果となった。
論文 参考訳(メタデータ) (2024-06-06T07:24:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。