論文の概要: REFLECTOR: Internalizing Step-wise Reflection against Indirect Jailbreak
- arxiv url: http://arxiv.org/abs/2605.20654v1
- Date: Wed, 20 May 2026 03:16:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-21 19:19:56.456796
- Title: REFLECTOR: Internalizing Step-wise Reflection against Indirect Jailbreak
- Title(参考訳): Reflexor: 間接ジェイルブレイクに対するステップワイズ反射を内部化する
- Authors: Jiachen Ma, Jiawen Zhang, Xiangtian Li, Bo Zou, Chaochao Lu, Chao Yang,
- Abstract要約: 大規模言語モデル(LLM)は、洗練されたマルチステップのジェイルブレイク攻撃の影響を受けやすい。
生成軌道内で自己回帰を内部化する2段階の原理的枠組みを提案する。
- 参考スコア(独自算出の注目度): 17.68660005545745
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While Large Language Models (LLMs) demonstrate remarkable capabilities, they remain susceptible to sophisticated, multi-step jailbreak attacks that circumvent conventional surface-level safety alignment by exploiting the internal generation process. To address these vulnerabilities, we propose Reflector, a principled two-stage framework that internalizes self-reflection within the generation trajectory. Reflector first leverages teacher-guided generation to produce high-quality reflection data for supervised fine-tuning (SFT), establishing structured reflection patterns. It subsequently uses Reinforcement Learning (RL) with outcome-driven and reward-validity supervision to instill robust, autonomous self-reflection capabilities. Empirical results show that Reflector achieves Defense Success Rates (DSR) exceeding 90% against complex indirect attacks while generalizing robustly across diverse threat scenarios. Notably, the framework enhances both task-specific and general utility, yielding a 5.85% gain on GSM8K alongside improved performance on knowledge-intensive benchmarks. By internalizing trajectory-level safety, Reflector overcomes the fundamental limitations of surface alignment without significant computational overhead, offering an efficient and scalable solution for the development of safe and capable LLMs.
- Abstract(参考訳): LLM(Large Language Models)は目覚ましい能力を示すが、内部生成プロセスを活用することで、従来の表面レベルの安全アライメントを回避する、洗練されたマルチステップのジェイルブレイク攻撃の影響を受け続けている。
これらの脆弱性に対処するために、生成軌道内で自己回帰を内部化する原則化された2段階のフレームワークであるReflectorを提案する。
リフレクタはまず教師誘導生成を利用し、教師付き微調整(SFT)のための高品質なリフレクタデータを生成し、構造化されたリフレクタパターンを確立する。
その後、強化学習(Reinforcement Learning, RL)と結果駆動型および報奨正当性監視を使用して、堅牢で自律的な自己回帰機能を具備する。
実験結果から,リフレクターは複雑な間接攻撃に対して90%を超える防衛成功率(DSR)を達成し,多様な脅威シナリオに対して強固に一般化することを示した。
特に、このフレームワークはタスク固有性と汎用性の両方を強化し、GSM8Kでは5.85%、知識集約ベンチマークではパフォーマンスが向上した。
軌道レベルの安全性を内部化することにより、リフレクターは計算上のオーバーヘッドを伴わずに表面アライメントの基本的な限界を克服し、安全で有能なLCMを開発するための効率的でスケーラブルなソリューションを提供する。
関連論文リスト
- RouteHijack: Routing-Aware Attack on Mixture-of-Experts LLMs [9.24144060095413]
RouteHijackは、大規模言語モデル(LLM)のためのルーティング対応のジェイルブレイクである。
RouteHijackは、安全クリティカルで有害な専門家を特定するために、応答駆動のエキスパートローカライゼーションを実行する。
次に、安全の専門家を抑圧し、有害な専門家を奨励し、早期の拒絶を防ぐルーティング対応の目的で、敵の接尾辞を構築する。
論文 参考訳(メタデータ) (2026-05-01T11:54:55Z) - Steering Externalities: Benign Activation Steering Unintentionally Increases Jailbreak Risk for Large Language Models [62.16655896700062]
活性化ステアリングは大規模言語モデル(LLM)の有用性を高める技術である
重要かつ過度に調査された安全リスクを無意識に導入することを示します。
実験によると、これらの介入は強制乗算器として機能し、ジェイルブレイクに新たな脆弱性を発生させ、標準ベンチマークで攻撃成功率を80%以上向上させる。
論文 参考訳(メタデータ) (2026-02-03T12:32:35Z) - Think-Reflect-Revise: A Policy-Guided Reflective Framework for Safety Alignment in Large Vision Language Models [58.17589701432514]
Think-Reflect-Revise (TRR)は、LVLM(Large Vision Language Models)の安全性向上を目的としたトレーニングフレームワークである。
まず、リフレクティブセーフティ推論(ReSafe)データセットを5000の例で構築し、シンク・リフレクティブ・リフレクティブ・プロセスに従っています。
次に、ReSafeデータセットを用いてターゲットモデルを微調整し、反射行動の初期化を行い、最後に強化学習を通じてポリシー誘導反射を強化する。
論文 参考訳(メタデータ) (2025-12-08T03:46:03Z) - Breaking the Safety-Capability Tradeoff: Reinforcement Learning with Verifiable Rewards Maintains Safety Guardrails in LLMs [3.198812241868092]
検証可能な報酬(RLVR)による強化学習は、客観的に測定可能なタスクのモデルを最適化する有望な代替手段として登場した。
RLVRにおける安全特性の総合的・実証的な分析を行った。
実証実験により,RLVRは安全ガードレールの維持・改善を図りながら推論能力を同時に向上できることを示す。
論文 参考訳(メタデータ) (2025-11-26T04:36:34Z) - SAID: Empowering Large Language Models with Self-Activating Internal Defense [23.654016424365906]
我々は,新たな非訓練型防衛パラダイム,自走型内国防衛(SAID)を導入する。
SAIDは、防衛タスクを外部修正から内部機能アクティベーションにリフレームする。
それは、有害な出力を減らすために最先端の防御を著しく上回っている。
論文 参考訳(メタデータ) (2025-10-23T02:07:54Z) - RL-PLUS: Countering Capability Boundary Collapse of LLMs in Reinforcement Learning with Hybrid-policy Optimization [111.1749164063616]
大規模言語モデル(LLM)のための新しいハイブリッド政治最適化手法RL-PLUSを提案する。
RL-PLUSは、外部データと内部エクスプロイトを相乗化して、より強力な推論能力を達成し、ベースモデルのバウンダリを超える。
提案手法の優位性と一般化性を示すため,理論解析と広範な実験を行った。
論文 参考訳(メタデータ) (2025-07-31T23:55:29Z) - Improving LLM Safety Alignment with Dual-Objective Optimization [81.98466438000086]
大規模言語モデル(LLM)の既存のトレーニング時間安全アライメント技術は、ジェイルブレイク攻撃に対して脆弱なままである。
本研究では,DPOの目的を2つの構成要素にまとめる安全アライメントの改善について提案する。(1) 安全でない世代が部分的に発生しても拒否を促す頑健な拒絶訓練,(2) 有害な知識の未学習。
論文 参考訳(メタデータ) (2025-03-05T18:01:05Z) - Reasoning-to-Defend: Safety-Aware Reasoning Can Defend Large Language Models from Jailbreaking [54.10710423370126]
本稿では,大規模言語モデルの生成プロセスに安全性を考慮した推論機構を統合する訓練パラダイムであるReasoning-to-Defend(R2D)を提案する。
CPOは、与えられた対話の安全性に対するモデルの認識を高める。
実験によると、R2Dは様々な攻撃を効果的に軽減し、元の性能を維持しながら全体の安全性を向上させる。
論文 参考訳(メタデータ) (2025-02-18T15:48:46Z) - TrustRAG: Enhancing Robustness and Trustworthiness in Retrieval-Augmented Generation [31.231916859341865]
TrustRAGは、生成のために取得される前に、悪意のある、無関係なコンテンツを体系的にフィルタリングするフレームワークである。
TrustRAGは、検索精度、効率、攻撃抵抗を大幅に改善する。
論文 参考訳(メタデータ) (2025-01-01T15:57:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。