論文の概要: Mitigating Safety Tax via Distribution-Grounded Refinement in Large Reasoning Models
- arxiv url: http://arxiv.org/abs/2602.02136v1
- Date: Mon, 02 Feb 2026 14:18:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:34.196256
- Title: Mitigating Safety Tax via Distribution-Grounded Refinement in Large Reasoning Models
- Title(参考訳): 大規模共振モデルにおける配電型リファインメントによる安全税の緩和
- Authors: Yingsha Xie, Tiansheng Huang, Enneng Yang, Rui Min, Wenjie Lu, Xiaochun Cao, Naiqiang Tan, Li Shen,
- Abstract要約: 安全調整は、大きな推論モデル(LRM)の一般的な推論能力を乱す安全税を発生させる。
LRMの安全アライメントに使われる既存のデータセットは、通常、外部のLRMまたは人間のラベルから安全推論の痕跡と回答を蒸留することによって構築される。
本稿では,DGRと呼ばれる安全アライメントデータセット構築手法を提案する。DGRは,既存のアウト・オブ・ディストリビューション型安全推論データセットを改良し,目標のLLM内部分布に適合させる。
- 参考スコア(独自算出の注目度): 63.368505631152594
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Safety alignment incurs safety tax that perturbs a large reasoning model's (LRM) general reasoning ability. Existing datasets used for safety alignment for an LRM are usually constructed by distilling safety reasoning traces and answers from an external LRM or human labeler. However, such reasoning traces and answers exhibit a distributional gap with the target LRM that needs alignment, and we conjecture such distributional gap is the culprit leading to significant degradation of reasoning ability of the target LRM. Driven by this hypothesis, we propose a safety alignment dataset construction method, dubbed DGR. DGR transforms and refines an existing out-of-distributional safety reasoning dataset to be aligned with the target's LLM inner distribution. Experimental results demonstrate that i) DGR effectively mitigates the safety tax while maintaining safety performance across all baselines, i.e., achieving \textbf{+30.2\%} on DirectRefusal and \textbf{+21.2\%} on R1-ACT improvement in average reasoning accuracy compared to Vanilla SFT; ii) the degree of reasoning degradation correlates with the extent of distribution shift, suggesting that bridging this gap is central to preserving capabilities. Furthermore, we find that safety alignment in LRMs may primarily function as a mechanism to activate latent knowledge, as a mere \textbf{10} samples are sufficient for activating effective refusal behaviors. These findings not only emphasize the importance of distributional consistency but also provide insights into the activation mechanism of safety in reasoning models.
- Abstract(参考訳): 安全調整は、大きな推論モデル(LRM)の一般的な推論能力を乱す安全税を発生させる。
LRMの安全アライメントに使われる既存のデータセットは、通常、外部のLRMまたは人間のラベルから安全推論の痕跡と回答を蒸留することによって構築される。
しかし,そのような推理トレースと解答は,アライメントを必要とする対象のLEMとの分布ギャップを示し,そのような分布ギャップが,対象のLEMの推論能力の著しく低下する原因であると推測する。
本仮説により,DGRと呼ばれる安全アライメントデータセット構築手法を提案する。
DGRは、既存のアウト・オブ・ディストリビューションの安全推論データセットを変換して洗練し、ターゲットのLSM内部分布に適合させる。
実験の結果
一) DGRは、安全税を効果的に軽減し、かつ、全基準線にわたって安全性能を維持し、すなわち、ダイレクトリファレルにおいて \textbf{+30.2\%}、バニラSFTと比較して平均推理精度において R1-ACT の改善において \textbf{+21.2\%} を達成する。
二 推理劣化の程度は、分布シフトの程度と相関し、このギャップを埋めることが保存能力の中心であることを示唆する。
さらに, LRMの安全性アライメントは, 単にtextbf{10}サンプルが効果的な拒絶行動の活性化に十分であるので, 潜伏知識を活性化するメカニズムとして機能する可能性がある。
これらの知見は、分布整合性の重要性を強調するだけでなく、推論モデルにおける安全性の活性化メカニズムに関する洞察を与える。
関連論文リスト
- THINKSAFE: Self-Generated Safety Alignment for Reasoning Models [60.10077024249373]
外部の教師がいなくても安心して安心できるフレームワークであるThinkSafeを提案する。
我々の重要な洞察は、コンプライアンスは安全メカニズムを抑制するが、モデルはしばしば害を特定するために潜伏した知識を保持することである。
DeepSeek-R1-DistillとQwen3の実験では、ThinkSafeは推論能力を維持しながら安全性を大幅に向上している。
論文 参考訳(メタデータ) (2026-01-30T16:31:02Z) - Beyond SFT: Reinforcement Learning for Safer Large Reasoning Models with Better Reasoning Ability [18.931331452604066]
大きな推論モデル(LRM)は、明らかにチェーン・オブ・シント(CoT)推論を生成することで、大きな言語モデルを拡張する。
既存の安全アライメントアプローチは、安全指向の長いCoTデータセットよりも教師付き微調整(SFT)に依存している。
LRM安全訓練のための補完的最適化フレームワークとして強化学習(RL)について検討する。
論文 参考訳(メタデータ) (2025-12-01T16:35:34Z) - When Models Outthink Their Safety: Mitigating Self-Jailbreak in Large Reasoning Models with Chain-of-Guardrails [74.63933201261595]
大規模推論モデル(LRM)は複雑な推論タスクにおいて顕著な能力を示す。
LRMは、有害なコンテンツ生成やジェイルブレイク攻撃など、深刻な安全リスクに弱いままである。
安全でない推論ステップを再構成またはバックトラックするトレーニングフレームワークであるChain-of-Guardrail(CoG)を提案する。
論文 参考訳(メタデータ) (2025-10-24T09:32:25Z) - Towards Safe Reasoning in Large Reasoning Models via Corrective Intervention [53.25106308403173]
既存の手法は、安全推論の独特な重要性を軽視し、信頼性を損なうとともに、悪質なユーザに対して安全でない推論がアクセス可能で、悪質なユーザによって悪用された場合、アプリケーションに潜在的なリスクを生じさせることを示す。
我々は、安全トリガー付きコンプライアンスステップを代入し、強い信号による優先学習のためのペアを構築することで、安全推論を強制するアライメント手法であるIntervened Preference Optimization (IPO)を提案する。
論文 参考訳(メタデータ) (2025-09-29T07:41:09Z) - FuSaR: A Fuzzification-Based Method for LRM Safety-Reasoning Balance [16.657840274027958]
大規模推論モデル(LRM)は、その強力な推論能力のために、様々なタスクにまたがって印象的な性能を誇示している。
推論能力を犠牲にすることなく, LLMの安全性を向上させる新しい手法を提案する。
論文 参考訳(メタデータ) (2025-08-18T12:54:16Z) - Retrieval is Not Enough: Enhancing RAG Reasoning through Test-Time Critique and Optimization [58.390885294401066]
Retrieval-augmented Generation (RAG) は知識基底型大規模言語モデル(LLM)を実現するためのパラダイムとして広く採用されている。
RAGパイプラインは、モデル推論が得られた証拠と整合性を維持するのに失敗することが多く、事実上の矛盾や否定的な結論につながる。
批判駆動アライメント(CDA)に基づく新しい反復的枠組みであるAlignRAGを提案する。
AlignRAG-autoは、動的に洗練を終了し、批判的な反復回数を事前に指定する必要がなくなる自律的な変種である。
論文 参考訳(メタデータ) (2025-04-21T04:56:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。