論文の概要: R1-ACT: Efficient Reasoning Model Safety Alignment by Activating Safety Knowledge
- arxiv url: http://arxiv.org/abs/2508.00324v1
- Date: Fri, 01 Aug 2025 05:14:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-04 18:08:53.743276
- Title: R1-ACT: Efficient Reasoning Model Safety Alignment by Activating Safety Knowledge
- Title(参考訳): R1-ACT:安全知識の活性化による効率的な推論モデル安全アライメント
- Authors: Yeonjun In, Wonjoong Kim, Sangwu Park, Chanyoung Park,
- Abstract要約: LRMの安全性リスクの根本原因について検討し、モデルに既に十分な安全性知識があるが、推論中にそれを活性化できないことを発見した。
R1-Actは、構造的推論プロセスを通じて安全知識を明示的に引き起こす、シンプルで効率的なポストトレーニング手法である。
R1-Actは推論性能を保ちながら強力な安全性向上を実現し、事前アライメント手法よりも優れている。
- 参考スコア(独自算出の注目度): 16.653490433862224
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Although large reasoning models (LRMs) have demonstrated impressive capabilities on complex tasks, recent studies reveal that these models frequently fulfill harmful user instructions, raising significant safety concerns. In this paper, we investigate the underlying cause of LRM safety risks and find that models already possess sufficient safety knowledge but fail to activate it during reasoning. Based on this insight, we propose R1-Act, a simple and efficient post-training method that explicitly triggers safety knowledge through a structured reasoning process. R1-Act achieves strong safety improvements while preserving reasoning performance, outperforming prior alignment methods. Notably, it requires only 1,000 training examples and 90 minutes of training on a single RTX A6000 GPU. Extensive experiments across multiple LRM backbones and sizes demonstrate the robustness, scalability, and practical efficiency of our approach.
- Abstract(参考訳): 大規模推論モデル(LRM)は複雑なタスクにおいて印象的な機能を示すが、最近の研究では、これらのモデルが有害なユーザー指示を頻繁に満たし、重大な安全上の懸念を生じさせることが示されている。
本稿では, LRMの安全性リスクの根本原因について検討し, モデルに既に十分な安全性の知識があるが, 推論中に有効化できないことを明らかにする。
この知見に基づいて,構造化推論プロセスを通じて安全知識を明示的に引き起こす簡易かつ効率的なポストトレーニング手法であるR1-Actを提案する。
R1-Actは推論性能を保ちながら強力な安全性向上を実現し、事前アライメント手法よりも優れている。
特に、単一のRTX A6000 GPU上でのトレーニングには1,000のトレーニング例と90分しか必要ありません。
複数のLRMバックボーンとサイズにわたる大規模な実験は、我々のアプローチの堅牢性、スケーラビリティ、実践的効率を実証している。
関連論文リスト
- How Should We Enhance the Safety of Large Reasoning Models: An Empirical Study [90.34190170330481]
大規模推論モデル(LRM)は数学やプログラミングのような推論集約的なタスクにおいて顕著な成功を収めた。
しかし、その強化された推論能力は必ずしも安全性能の向上に必ずしも寄与しない。
スーパーバイザード・ファイン・チューニング(Supervised Fine-Tuning)によるLEMの安全性向上に関する総合的な実証研究について述べる。
論文 参考訳(メタデータ) (2025-05-21T11:45:29Z) - RealSafe-R1: Safety-Aligned DeepSeek-R1 without Compromising Reasoning Capability [29.437113221903715]
我々は、DeepSeek-R1モデルの安全対応バージョンとしてRealSafe-R1を紹介する。
本手法は,学習データを生成元の分布内に保持することにより,モデルの推論能力を維持できる。
論文 参考訳(メタデータ) (2025-04-14T10:26:37Z) - The Hidden Risks of Large Reasoning Models: A Safety Assessment of R1 [70.94607997570729]
本稿では,OpenAI-o3およびDeepSeek-R1推論モデルの総合的安全性評価を行う。
本研究では, 現実の応用における強靭性を評価するために, ジェイルブレイクやインジェクションなどの敵攻撃に対する感受性について検討する。
論文 参考訳(メタデータ) (2025-02-18T09:06:07Z) - Safety Reasoning with Guidelines [63.15719512614899]
RT(Refusal Training)は、様々なアウト・オブ・ディストリビューション(OOD)のジェイルブレイク攻撃に対する一般化に苦慮している。
本稿では,クエリ毎に安全推論を行うためのトレーニングモデルを提案する。
論文 参考訳(メタデータ) (2025-02-06T13:01:44Z) - OpenAI o1 System Card [274.83891368890977]
o1モデルシリーズは、思考の連鎖を用いて推論するために大規模な強化学習で訓練されている。
本報告では,OpenAI o1およびOpenAI o1-miniモデルに対して実施される安全作業の概要について述べる。
論文 参考訳(メタデータ) (2024-12-21T18:04:31Z) - Safety-Driven Deep Reinforcement Learning Framework for Cobots: A Sim2Real Approach [1.0488553716155147]
本研究では,深部強化学習(DRL)におけるロボットシミュレーションに安全性制約を取り入れた新しい手法を提案する。
このフレームワークは、速度制約のような安全要件の特定の部分をDRLモデルに直接統合する。
提案手法は,テストシナリオの平均成功率を16.5%向上させる。
論文 参考訳(メタデータ) (2024-07-02T12:56:17Z) - Safety through Permissibility: Shield Construction for Fast and Safe Reinforcement Learning [57.84059344739159]
シールドディング」は、強化学習(RL)の安全性を強制する一般的な手法である
安全と遮蔽構造に対処する新しい許容性に基づく枠組みを提案する。
論文 参考訳(メタデータ) (2024-05-29T18:00:21Z) - Evaluating Model-free Reinforcement Learning toward Safety-critical
Tasks [70.76757529955577]
本稿では、国家安全RLの観点から、この領域における先行研究を再考する。
安全最適化と安全予測を組み合わせた共同手法であるUnrolling Safety Layer (USL)を提案する。
この領域のさらなる研究を容易にするため、我々は関連するアルゴリズムを統一パイプラインで再現し、SafeRL-Kitに組み込む。
論文 参考訳(メタデータ) (2022-12-12T06:30:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。