論文の概要: THINKSAFE: Self-Generated Safety Alignment for Reasoning Models
- arxiv url: http://arxiv.org/abs/2601.23143v1
- Date: Fri, 30 Jan 2026 16:31:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 18:28:15.557774
- Title: THINKSAFE: Self-Generated Safety Alignment for Reasoning Models
- Title(参考訳): THINKSAFE:推論モデルのための自己生成型安全アライメント
- Authors: Seanie Lee, Sangwoo Park, Yumin Choi, Gyeongman Kim, Minki Kang, Jihun Yun, Dongmin Park, Jongho Park, Sung Ju Hwang,
- Abstract要約: 外部の教師がいなくても安心して安心できるフレームワークであるThinkSafeを提案する。
我々の重要な洞察は、コンプライアンスは安全メカニズムを抑制するが、モデルはしばしば害を特定するために潜伏した知識を保持することである。
DeepSeek-R1-DistillとQwen3の実験では、ThinkSafeは推論能力を維持しながら安全性を大幅に向上している。
- 参考スコア(独自算出の注目度): 60.10077024249373
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large reasoning models (LRMs) achieve remarkable performance by leveraging reinforcement learning (RL) on reasoning tasks to generate long chain-of-thought (CoT) reasoning. However, this over-optimization often prioritizes compliance, making models vulnerable to harmful prompts. To mitigate this safety degradation, recent approaches rely on external teacher distillation, yet this introduces a distributional discrepancy that degrades native reasoning. We propose ThinkSafe, a self-generated alignment framework that restores safety alignment without external teachers. Our key insight is that while compliance suppresses safety mechanisms, models often retain latent knowledge to identify harm. ThinkSafe unlocks this via lightweight refusal steering, guiding the model to generate in-distribution safety reasoning traces. Fine-tuning on these self-generated responses effectively realigns the model while minimizing distribution shift. Experiments on DeepSeek-R1-Distill and Qwen3 show ThinkSafe significantly improves safety while preserving reasoning proficiency. Notably, it achieves superior safety and comparable reasoning to GRPO, with significantly reduced computational cost. Code, models, and datasets are available at https://github.com/seanie12/ThinkSafe.git.
- Abstract(参考訳): 大きな推論モデル(LRM)は、推論タスクに強化学習(RL)を活用して、長いチェーン・オブ・シークレット(CoT)推論を生成することで、優れた性能を達成する。
しかし、この過度な最適化は、しばしばコンプライアンスを優先し、有害なプロンプトに対してモデルを脆弱にする。
この安全性の低下を緩和するために、近年のアプローチは外部教師の蒸留に依存している。
本研究では,外部教師を使わずに安全アライメントを復元する,自己生成型アライメントフレームワークThinkSafeを提案する。
我々の重要な洞察は、コンプライアンスは安全メカニズムを抑制するが、モデルはしばしば害を特定するために潜伏した知識を保持することである。
ThinkSafeは、ライトウェイトなリファレンスステアリングを通じてこれをアンロックし、ディストリビューション内の安全推論トレースを生成するモデルを誘導する。
これらの自己生成応答の微調整は、分散シフトを最小化しながら、効果的にモデルを実現する。
DeepSeek-R1-DistillとQwen3の実験では、ThinkSafeは推論能力を維持しながら安全性を大幅に向上させる。
特に、GRPOに匹敵する安全性を達成し、計算コストを大幅に削減する。
コード、モデル、データセットはhttps://github.com/seanie12/ThinkSafe.git.comで入手できる。
関連論文リスト
- Beyond SFT: Reinforcement Learning for Safer Large Reasoning Models with Better Reasoning Ability [18.931331452604066]
大きな推論モデル(LRM)は、明らかにチェーン・オブ・シント(CoT)推論を生成することで、大きな言語モデルを拡張する。
既存の安全アライメントアプローチは、安全指向の長いCoTデータセットよりも教師付き微調整(SFT)に依存している。
LRM安全訓練のための補完的最適化フレームワークとして強化学習(RL)について検討する。
論文 参考訳(メタデータ) (2025-12-01T16:35:34Z) - When Models Outthink Their Safety: Mitigating Self-Jailbreak in Large Reasoning Models with Chain-of-Guardrails [74.63933201261595]
大規模推論モデル(LRM)は複雑な推論タスクにおいて顕著な能力を示す。
LRMは、有害なコンテンツ生成やジェイルブレイク攻撃など、深刻な安全リスクに弱いままである。
安全でない推論ステップを再構成またはバックトラックするトレーニングフレームワークであるChain-of-Guardrail(CoG)を提案する。
論文 参考訳(メタデータ) (2025-10-24T09:32:25Z) - Refusal Falls off a Cliff: How Safety Alignment Fails in Reasoning? [68.82210578851442]
メカニスティックな解釈可能性レンズによる推論モデルにおいて、なぜ安全アライメントが失敗するのかを考察する。
トークン位置における拒絶意図の追跡のための線形探索手法を用いて,textbfrefusal cliff と呼ばれる現象を発見した。
提案手法は,最大断崖を示す訓練例を識別し,推論モデルの安全性を向上する手法であるtextbfCliff-as-a-Judge を提案する。
論文 参考訳(メタデータ) (2025-10-07T15:32:59Z) - Large Reasoning Models Learn Better Alignment from Flawed Thinking [56.08883934423522]
大規模推論モデル(LRM)は、最終的な答えを生成する前に構造化チェーン・オブ・シント(CoT)を生成することで「考える」。
本稿では,Regressed Learning (RL) 手法であるRECAPを提案する。
論文 参考訳(メタデータ) (2025-10-01T14:15:43Z) - SafeKey: Amplifying Aha-Moment Insights for Safety Reasoning [76.56522719330911]
大規模推論モデル(LRM)は、応答する前に明示的に推論する新しい世代パラダイムを導入する。
LRMは有害なクエリや敵の攻撃に対して大きな安全リスクをもたらす。
キー文中の安全アハモーメントをより活性化するSafeKeyを提案する。
論文 参考訳(メタデータ) (2025-05-22T03:46:03Z) - RealSafe-R1: Safety-Aligned DeepSeek-R1 without Compromising Reasoning Capability [29.437113221903715]
我々は、DeepSeek-R1モデルの安全対応バージョンとしてRealSafe-R1を紹介する。
本手法は,学習データを生成元の分布内に保持することにより,モデルの推論能力を維持できる。
論文 参考訳(メタデータ) (2025-04-14T10:26:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。