論文の概要: How Should We Enhance the Safety of Large Reasoning Models: An Empirical Study
- arxiv url: http://arxiv.org/abs/2505.15404v1
- Date: Wed, 21 May 2025 11:45:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-22 15:42:59.601443
- Title: How Should We Enhance the Safety of Large Reasoning Models: An Empirical Study
- Title(参考訳): 大規模共振モデルの安全性を高める方法--実証的研究
- Authors: Zhexin Zhang, Xian Qi Loye, Victor Shea-Jay Huang, Junxiao Yang, Qi Zhu, Shiyao Cui, Fei Mi, Lifeng Shang, Yingkang Wang, Hongning Wang, Minlie Huang,
- Abstract要約: 大規模推論モデル(LRM)は数学やプログラミングのような推論集約的なタスクにおいて顕著な成功を収めた。
しかし、その強化された推論能力は必ずしも安全性能の向上に必ずしも寄与しない。
スーパーバイザード・ファイン・チューニング(Supervised Fine-Tuning)によるLEMの安全性向上に関する総合的な実証研究について述べる。
- 参考スコア(独自算出の注目度): 90.34190170330481
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Reasoning Models (LRMs) have achieved remarkable success on reasoning-intensive tasks such as mathematics and programming. However, their enhanced reasoning capabilities do not necessarily translate to improved safety performance-and in some cases, may even degrade it. This raises an important research question: how can we enhance the safety of LRMs? In this paper, we present a comprehensive empirical study on how to enhance the safety of LRMs through Supervised Fine-Tuning (SFT). Our investigation begins with an unexpected observation: directly distilling safe responses from DeepSeek-R1 fails to significantly enhance safety. We analyze this phenomenon and identify three key failure patterns that contribute to it. We then demonstrate that explicitly addressing these issues during the data distillation process can lead to substantial safety improvements. Next, we explore whether a long and complex reasoning process is necessary for achieving safety. Interestingly, we find that simply using short or template-based reasoning process can attain comparable safety performance-and are significantly easier for models to learn than more intricate reasoning chains. These findings prompt a deeper reflection on the role of reasoning in ensuring safety. Finally, we find that mixing math reasoning data during safety fine-tuning is helpful to balance safety and over-refusal. Overall, we hope our empirical study could provide a more holistic picture on enhancing the safety of LRMs. The code and data used in our experiments are released in https://github.com/thu-coai/LRM-Safety-Study.
- Abstract(参考訳): 大規模推論モデル(LRM)は数学やプログラミングのような推論集約的なタスクにおいて顕著な成功を収めた。
しかし、その強化された推論能力は必ずしも安全性能の向上に必ずしも変換されないため、場合によってはその性能を低下させることもある。
LRMの安全性を高めるにはどうすればいいのか?
本稿では,SFT(Supervised Fine-Tuning)によるLRMの安全性向上に関する総合的研究について述べる。
私たちの調査は、DeepSeek-R1からの安全な応答を直接蒸留することは、安全性を著しく向上させることができないという予期せぬ観察から始まります。
この現象を分析し、それに寄与する3つの重要な障害パターンを特定します。
そして、データ蒸留プロセス中にこれらの問題に明示的に対処することは、かなりの安全性向上につながることを実証する。
次に,安全を達成するためには,長期かつ複雑な推論プロセスが必要であるかを検討する。
興味深いことに、単にショートまたはテンプレートベースの推論プロセスを使用することで、モデルがより複雑な推論チェーンよりも学習しやすくなることが分かりました。
これらの知見は、安全性を確保する上での推論の役割を深く反映している。
最後に、安全性の微調整中に数学の推論データを混合することは、安全性と過剰な拒絶のバランスをとるのに役立ちます。
全体としては、我々の実証研究が、LEMの安全性を高めるためのより総合的なイメージを提供することを期待しています。
実験で使用されたコードとデータはhttps://github.com/thu-coai/LRM-Safety-Studyで公開されています。
関連論文リスト
- Think in Safety: Unveiling and Mitigating Safety Alignment Collapse in Multimodal Large Reasoning Model [30.774446187857475]
5つのベンチマークでMLRM(Multimodal Large Reasoning Model)11の安全性評価を行う。
分析の結果、異なるベンチマークで異なる安全性パターンが明らかになった。
これは、モデル固有の推論能力を活用して安全でない意図を検出することで、MLRMの安全性問題に対処する潜在的アプローチである。
論文 参考訳(メタデータ) (2025-05-10T06:59:36Z) - SafeMLRM: Demystifying Safety in Multi-modal Large Reasoning Models [50.34706204154244]
推論能力の獲得は、引き継がれた安全アライメントを壊滅的に劣化させる。
特定のシナリオは、25倍の攻撃率を被る。
MLRMは、厳密な推論と問合せの安全結合にもかかわらず、初期段階の自己補正を示す。
論文 参考訳(メタデータ) (2025-04-09T06:53:23Z) - Safety Tax: Safety Alignment Makes Your Large Reasoning Models Less Reasonable [7.140765245328677]
安全アライメントは、大規模言語モデルが公式にデプロイされる前に重要な手順である。
シーケンシャルなLRM生産パイプラインでは、推論と安全性のトレードオフがあることが示されている。
副産物として、安全アライメントのための代替データセットとして機能する、DirectRefusalと呼ばれるデータセットをキュレートします。
論文 参考訳(メタデータ) (2025-03-01T16:42:01Z) - The Hidden Risks of Large Reasoning Models: A Safety Assessment of R1 [70.94607997570729]
本稿では,OpenAI-o3およびDeepSeek-R1推論モデルの総合的安全性評価を行う。
本研究では, 現実の応用における強靭性を評価するために, ジェイルブレイクやインジェクションなどの敵攻撃に対する感受性について検討する。
論文 参考訳(メタデータ) (2025-02-18T09:06:07Z) - SafeChain: Safety of Language Models with Long Chain-of-Thought Reasoning Capabilities [21.317245896641136]
ロングチェーン・オブ・シークレット(CoT)推論は、構造化中間ステップを生成し、推論能力を高める。
大規模言語モデル(LLM)の安全性に関する現在の研究は、通常、LRMの長いCoTスタイルの出力を見越して、短応答に焦点を当てている。
論文 参考訳(メタデータ) (2025-02-17T16:57:56Z) - Safetywashing: Do AI Safety Benchmarks Actually Measure Safety Progress? [59.96471873997733]
我々は、より有意義な安全指標を開発するための実証的な基盤を提案し、機械学習研究の文脈でAIの安全性を定義する。
我々は、AI安全研究のためのより厳格なフレームワークを提供し、安全性評価の科学を前進させ、測定可能な進歩への道筋を明らかにすることを目指している。
論文 参考訳(メタデータ) (2024-07-31T17:59:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。