論文の概要: Beyond SFT: Reinforcement Learning for Safer Large Reasoning Models with Better Reasoning Ability
- arxiv url: http://arxiv.org/abs/2512.01848v1
- Date: Mon, 01 Dec 2025 16:35:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:34.95961
- Title: Beyond SFT: Reinforcement Learning for Safer Large Reasoning Models with Better Reasoning Ability
- Title(参考訳): SFTを超えて: 推論能力が向上した大規模推論モデルの強化学習
- Authors: Jinghan Jia, Nathalie Baracaldo, Sijia Liu,
- Abstract要約: 大きな推論モデル(LRM)は、明らかにチェーン・オブ・シント(CoT)推論を生成することで、大きな言語モデルを拡張する。
既存の安全アライメントアプローチは、安全指向の長いCoTデータセットよりも教師付き微調整(SFT)に依存している。
LRM安全訓練のための補完的最適化フレームワークとして強化学習(RL)について検討する。
- 参考スコア(独自算出の注目度): 18.931331452604066
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large reasoning models (LRMs) extend large language models by generating explicit chain-of-thought (CoT) reasoning, significantly improving mathematical and logical problem solving. However, this explicit reasoning process also introduces new safety risks, as unsafe behaviors often emerge within intermediate reasoning trajectories, even when final answers appear harmless. Existing safety alignment approaches primarily rely on supervised fine-tuning (SFT) over safety-oriented long CoT datasets. While intuitive, we find that SFT produces inconsistent safety improvements, degrades reasoning ability, and generalizes poorly across model families. These limitations suggest that purely supervised approaches are insufficient for robust safety alignment in LRMs. To address this, we investigate reinforcement learning (RL) as a complementary optimization framework for LRM safety training. Unlike SFT, RL directly optimizes model policies with reward feedback, enabling more adaptive and stable alignment. Extensive experiments across multiple model families and benchmarks show that RL achieves stronger and more consistent safety gains while maintaining reasoning competence. Further analysis of reflection dynamics and token-level entropy reveals that RL suppresses unsafe exploratory reasoning while preserving reflective depth, leading to safer and more reliable reasoning processes.
- Abstract(参考訳): 大きな推論モデル(LRM)は、明らかにチェーン・オブ・シント(CoT)推論を生成し、数学的および論理的な問題解決を大幅に改善することで、大きな言語モデルを拡張する。
しかしながら、この明示的な推論プロセスは、最終回答が無害に見える場合でも、中間的推論軌道内に安全でない振る舞いがしばしば現れるため、新しい安全性リスクももたらします。
既存の安全アライメントアプローチは主に、安全指向の長いCoTデータセットよりも監督された微調整(SFT)に依存している。
直感的ではあるが、SFTは一貫性のない安全性の向上、推論能力の低下、モデルファミリ間の一般化が不十分であることが分かる。
これらの制限は、純粋に監督されたアプローチがLRMの堅牢な安全確保に不十分であることを示唆している。
そこで本稿では,LRM安全訓練のための補完的最適化フレームワークとして強化学習(RL)について検討する。
SFTとは異なり、RLは報酬フィードバックでモデルポリシーを直接最適化し、より適応的で安定したアライメントを可能にする。
複数のモデルファミリとベンチマークにわたる大規模な実験により、RLは推論能力を維持しながら、より強く一貫性のある安全性向上を達成することが示された。
反射力学とトークンレベルのエントロピーのさらなる分析により、RLは反射深度を維持しながら安全でない探索的推論を抑え、より安全で信頼性の高い推論プロセスをもたらすことが明らかになった。
関連論文リスト
- Breaking the Safety-Capability Tradeoff: Reinforcement Learning with Verifiable Rewards Maintains Safety Guardrails in LLMs [3.198812241868092]
検証可能な報酬(RLVR)による強化学習は、客観的に測定可能なタスクのモデルを最適化する有望な代替手段として登場した。
RLVRにおける安全特性の総合的・実証的な分析を行った。
実証実験により,RLVRは安全ガードレールの維持・改善を図りながら推論能力を同時に向上できることを示す。
論文 参考訳(メタデータ) (2025-11-26T04:36:34Z) - When Models Outthink Their Safety: Mitigating Self-Jailbreak in Large Reasoning Models with Chain-of-Guardrails [74.63933201261595]
大規模推論モデル(LRM)は複雑な推論タスクにおいて顕著な能力を示す。
LRMは、有害なコンテンツ生成やジェイルブレイク攻撃など、深刻な安全リスクに弱いままである。
安全でない推論ステップを再構成またはバックトラックするトレーニングフレームワークであるChain-of-Guardrail(CoG)を提案する。
論文 参考訳(メタデータ) (2025-10-24T09:32:25Z) - Large Reasoning Models Learn Better Alignment from Flawed Thinking [56.08883934423522]
大規模推論モデル(LRM)は、最終的な答えを生成する前に構造化チェーン・オブ・シント(CoT)を生成することで「考える」。
本稿では,Regressed Learning (RL) 手法であるRECAPを提案する。
論文 参考訳(メタデータ) (2025-10-01T14:15:43Z) - Towards Safe Reasoning in Large Reasoning Models via Corrective Intervention [53.25106308403173]
既存の手法は、安全推論の独特な重要性を軽視し、信頼性を損なうとともに、悪質なユーザに対して安全でない推論がアクセス可能で、悪質なユーザによって悪用された場合、アプリケーションに潜在的なリスクを生じさせることを示す。
我々は、安全トリガー付きコンプライアンスステップを代入し、強い信号による優先学習のためのペアを構築することで、安全推論を強制するアライメント手法であるIntervened Preference Optimization (IPO)を提案する。
論文 参考訳(メタデータ) (2025-09-29T07:41:09Z) - How Should We Enhance the Safety of Large Reasoning Models: An Empirical Study [90.34190170330481]
大規模推論モデル(LRM)は数学やプログラミングのような推論集約的なタスクにおいて顕著な成功を収めた。
しかし、その強化された推論能力は必ずしも安全性能の向上に必ずしも寄与しない。
スーパーバイザード・ファイン・チューニング(Supervised Fine-Tuning)によるLEMの安全性向上に関する総合的な実証研究について述べる。
論文 参考訳(メタデータ) (2025-05-21T11:45:29Z) - Reasoning-to-Defend: Safety-Aware Reasoning Can Defend Large Language Models from Jailbreaking [54.10710423370126]
本稿では,大規模言語モデルの生成プロセスに安全性を考慮した推論機構を統合する訓練パラダイムであるReasoning-to-Defend(R2D)を提案する。
CPOは、与えられた対話の安全性に対するモデルの認識を高める。
実験によると、R2Dは様々な攻撃を効果的に軽減し、元の性能を維持しながら全体の安全性を向上させる。
論文 参考訳(メタデータ) (2025-02-18T15:48:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。