論文の概要: Towards Safer Large Reasoning Models by Promoting Safety Decision-Making before Chain-of-Thought Generation
- arxiv url: http://arxiv.org/abs/2603.17368v1
- Date: Wed, 18 Mar 2026 05:21:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-19 18:32:57.518993
- Title: Towards Safer Large Reasoning Models by Promoting Safety Decision-Making before Chain-of-Thought Generation
- Title(参考訳): チェーン・オブ・ソート・ジェネレーション前における安全意思決定の促進による大規模推論モデル構築に向けて
- Authors: Jianan Chen, Zhifang Zhang, Shuo He, Linan Yue, Lei Feng, Minling Zhang,
- Abstract要約: 大推理モデル (LRM) はチェーン・オブ・シント (CoT) による顕著な性能を達成した
近年の研究では、このような推論能力の強化は、安全性の大幅な低下を招いていることが示されている。
本稿では,COT生成開始前の安全意思決定を促進する新しい安全アライメント手法を提案する。
- 参考スコア(独自算出の注目度): 58.15178451387516
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large reasoning models (LRMs) achieved remarkable performance via chain-of-thought (CoT), but recent studies showed that such enhanced reasoning capabilities are at the expense of significantly degraded safety capabilities. In this paper, we reveal that LRMs' safety degradation occurs only after CoT is enabled, and this degradation is not observed when CoT is disabled. This observation motivates us to consider encouraging LRMs to make safety decisions before CoT generation. To this end, we propose a novel safety alignment method that promotes the safety decision-making of LRMs before starting CoT generation. Specifically, we first utilize a Bert-based classifier to extract safety decision signals from a safe model (e.g., a CoT-disabled LRM) and then integrate these signals into LRMs' safety alignment as auxiliary supervision. In this way, the safety gradients can be backpropagated to the LRMs' latent representations, effectively strengthening the LRMs' safety decision-making abilities against CoT generation. Extensive experiments demonstrate that our method substantially improves the safety capabilities of LRMs while effectively maintaining LRMs' general reasoning performance.
- Abstract(参考訳): 大規模推論モデル (LRM) はチェーン・オブ・シント (CoT) によって顕著な性能を達成したが、近年の研究により、そのような推論能力の強化は安全性の大幅な低下を犠牲にしていることが示された。
本稿では,CoTの有効化後のみ LRMs の安全性劣化が発生し,CoT の無効化時にこの劣化が観測されないことを明らかにする。
この観察は、COT生成前に安全決定を行うためのLEMを奨励する動機となる。
そこで本研究では,COT 生成開始前の LRM の安全性決定を促進する新しい安全アライメント手法を提案する。
具体的には、まずBertベースの分類器を用いて、安全モデル(例えば、CoTを無効としたLRM)から安全判定信号を抽出し、それらの信号をLRMの安全アライメントに統合して補助的な監視を行う。
このようにして、安全勾配をLRMの潜在表現に逆転させ、COT生成に対するLRMの安全性決定能力を効果的に強化することができる。
本手法は, LRMの一般推論性能を効果的に維持しつつ, LRMの安全性を大幅に向上することを示した。
関連論文リスト
- Mitigating Safety Tax via Distribution-Grounded Refinement in Large Reasoning Models [63.368505631152594]
安全調整は、大きな推論モデル(LRM)の一般的な推論能力を乱す安全税を発生させる。
LRMの安全アライメントに使われる既存のデータセットは、通常、外部のLRMまたは人間のラベルから安全推論の痕跡と回答を蒸留することによって構築される。
本稿では,DGRと呼ばれる安全アライメントデータセット構築手法を提案する。DGRは,既存のアウト・オブ・ディストリビューション型安全推論データセットを改良し,目標のLLM内部分布に適合させる。
論文 参考訳(メタデータ) (2026-02-02T14:18:48Z) - Beyond SFT: Reinforcement Learning for Safer Large Reasoning Models with Better Reasoning Ability [18.931331452604066]
大きな推論モデル(LRM)は、明らかにチェーン・オブ・シント(CoT)推論を生成することで、大きな言語モデルを拡張する。
既存の安全アライメントアプローチは、安全指向の長いCoTデータセットよりも教師付き微調整(SFT)に依存している。
LRM安全訓練のための補完的最適化フレームワークとして強化学習(RL)について検討する。
論文 参考訳(メタデータ) (2025-12-01T16:35:34Z) - When Models Outthink Their Safety: Mitigating Self-Jailbreak in Large Reasoning Models with Chain-of-Guardrails [74.63933201261595]
大規模推論モデル(LRM)は複雑な推論タスクにおいて顕著な能力を示す。
LRMは、有害なコンテンツ生成やジェイルブレイク攻撃など、深刻な安全リスクに弱いままである。
安全でない推論ステップを再構成またはバックトラックするトレーニングフレームワークであるChain-of-Guardrail(CoG)を提案する。
論文 参考訳(メタデータ) (2025-10-24T09:32:25Z) - UpSafe$^\circ$C: Upcycling for Controllable Safety in Large Language Models [67.91151588917396]
大規模言語モデル(LLM)は、幅広いタスクで顕著な進歩を遂げているが、有害なコンテンツ生成やジェイルブレイク攻撃といった安全リスクに弱いままである。
安全に配慮したリサイクルによるLCMの安全性向上のための統合フレームワークであるUpSafe$circ$Cを提案する。
この結果から, 静的アライメントから動的, モジュール, 推論対応制御への移行という, LLMの安全性の新たな方向性が明らかになった。
論文 参考訳(メタデータ) (2025-10-02T16:43:33Z) - Towards Safe Reasoning in Large Reasoning Models via Corrective Intervention [53.25106308403173]
既存の手法は、安全推論の独特な重要性を軽視し、信頼性を損なうとともに、悪質なユーザに対して安全でない推論がアクセス可能で、悪質なユーザによって悪用された場合、アプリケーションに潜在的なリスクを生じさせることを示す。
我々は、安全トリガー付きコンプライアンスステップを代入し、強い信号による優先学習のためのペアを構築することで、安全推論を強制するアライメント手法であるIntervened Preference Optimization (IPO)を提案する。
論文 参考訳(メタデータ) (2025-09-29T07:41:09Z) - FuSaR: A Fuzzification-Based Method for LRM Safety-Reasoning Balance [16.657840274027958]
大規模推論モデル(LRM)は、その強力な推論能力のために、様々なタスクにまたがって印象的な性能を誇示している。
推論能力を犠牲にすることなく, LLMの安全性を向上させる新しい手法を提案する。
論文 参考訳(メタデータ) (2025-08-18T12:54:16Z) - SafeChain: Safety of Language Models with Long Chain-of-Thought Reasoning Capabilities [21.317245896641136]
ロングチェーン・オブ・シークレット(CoT)推論は、構造化中間ステップを生成し、推論能力を高める。
大規模言語モデル(LLM)の安全性に関する現在の研究は、通常、LRMの長いCoTスタイルの出力を見越して、短応答に焦点を当てている。
論文 参考訳(メタデータ) (2025-02-17T16:57:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。