論文の概要: RealSafe-R1: Safety-Aligned DeepSeek-R1 without Compromising Reasoning Capability
- arxiv url: http://arxiv.org/abs/2504.10081v1
- Date: Mon, 14 Apr 2025 10:26:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-15 16:55:13.342039
- Title: RealSafe-R1: Safety-Aligned DeepSeek-R1 without Compromising Reasoning Capability
- Title(参考訳): RealSafe-R1: 推論能力を損なうことなく安全性に配慮したDeepSeek-R1
- Authors: Yichi Zhang, Zihao Zeng, Dongbai Li, Yao Huang, Zhijie Deng, Yinpeng Dong,
- Abstract要約: 我々は、DeepSeek-R1モデルの安全対応バージョンとしてRealSafe-R1を紹介する。
本手法は,学習データを生成元の分布内に保持することにより,モデルの推論能力を維持できる。
- 参考スコア(独自算出の注目度): 29.437113221903715
- License:
- Abstract: Large Reasoning Models (LRMs), such as OpenAI o1 and DeepSeek-R1, have been rapidly progressing and achieving breakthrough performance on complex reasoning tasks such as mathematics and coding. However, the open-source R1 models have raised safety concerns in wide applications, such as the tendency to comply with malicious queries, which greatly impacts the utility of these powerful models in their applications. In this paper, we introduce RealSafe-R1 as safety-aligned versions of DeepSeek-R1 distilled models. To train these models, we construct a dataset of 15k safety-aware reasoning trajectories generated by DeepSeek-R1, under explicit instructions for expected refusal behavior. Both quantitative experiments and qualitative case studies demonstrate the models' improvements, which are shown in their safety guardrails against both harmful queries and jailbreak attacks. Importantly, unlike prior safety alignment efforts that often compromise reasoning performance, our method preserves the models' reasoning capabilities by maintaining the training data within the original distribution of generation. Model weights of RealSafe-R1 are open-source at https://huggingface.co/RealSafe.
- Abstract(参考訳): OpenAI o1やDeepSeek-R1のようなLRM(Large Reasoning Models)は急速に進歩し、数学やコーディングといった複雑な推論タスクにおいて画期的なパフォーマンスを実現している。
しかし、オープンソースのR1モデルは、悪意のあるクエリに準拠する傾向など、広範囲のアプリケーションで安全上の懸念を提起している。
本稿では,DeepSeek-R1蒸留モデルの安全対応バージョンとしてRealSafe-R1を紹介する。
これらのモデルをトレーニングするために,DeepSeek-R1が生成した15kの安全性を考慮した推論トラジェクトリのデータセットを構築した。
定量的実験と定性的なケーススタディの両方が、有害なクエリとジェイルブレイク攻撃の両方に対する安全ガードレールに示されているモデルの改良を実証している。
重要なことは、しばしば推論性能を損なうような事前の安全アライメントの取り組みとは異なり、本手法は、生成元の分布内にトレーニングデータを保持することにより、モデルの推論能力を保ちます。
RealSafe-R1のモデルはhttps://huggingface.co/RealSafeでオープンソース化されている。
関連論文リスト
- H-CoT: Hijacking the Chain-of-Thought Safety Reasoning Mechanism to Jailbreak Large Reasoning Models, Including OpenAI o1/o3, DeepSeek-R1, and Gemini 2.0 Flash Thinking [17.386871039393718]
大規模推論モデル(LRM)は先日,その強力な推論能力を安全性チェックにまで拡張した。
このベンチマークは、正当な教育プロンプトの下に非常に危険な、または悪意のある要求を偽装するものです。
当社の実験では,OpenAI o1/o3,DeepSeek-R1,Gemini 2.0 Flash Thinkingなど,一般的な商用LRMの重大なセキュリティ欠陥が明らかになった。
論文 参考訳(メタデータ) (2025-02-18T14:29:12Z) - The Hidden Risks of Large Reasoning Models: A Safety Assessment of R1 [70.94607997570729]
本稿では,OpenAI-o3およびDeepSeek-R1推論モデルの総合的安全性評価を行う。
本研究では, 現実の応用における強靭性を評価するために, ジェイルブレイクやインジェクションなどの敵攻撃に対する感受性について検討する。
論文 参考訳(メタデータ) (2025-02-18T09:06:07Z) - Challenges in Ensuring AI Safety in DeepSeek-R1 Models: The Shortcomings of Reinforcement Learning Strategies [0.0]
本稿では,DeepSeek-R1における有害なアウトプットを減らすための主要なアプローチとして,強化学習の限界について検討する。
我々はRLとSupervised Fine-Tuningを組み合わせたハイブリッドトレーニング手法を提案し、ロバストな無害化を実現する。
論文 参考訳(メタデータ) (2025-01-28T15:52:51Z) - DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning [147.16121855209246]
第一世代の推論モデルであるDeepSeek-R1-ZeroとDeepSeek-R1を紹介します。
DeepSeek-R1-Zeroは大規模な強化学習を通じて訓練されている。
DeepSeek-R1は、RLの前にマルチステージトレーニングとコールドスタートデータを組み込んでいる。
論文 参考訳(メタデータ) (2025-01-22T15:19:35Z) - OpenAI o1 System Card [274.83891368890977]
o1モデルシリーズは、思考の連鎖を用いて推論するために大規模な強化学習で訓練されている。
本報告では,OpenAI o1およびOpenAI o1-miniモデルに対して実施される安全作業の概要について述べる。
論文 参考訳(メタデータ) (2024-12-21T18:04:31Z) - Don't Command, Cultivate: An Exploratory Study of System-2 Alignment [19.495897656702557]
o1システムカードは、o1モデルをOpenAIの中でもっとも堅牢なものとして識別する。
モデル安全性に及ぼすシステム2思考パターンの影響について検討する。
論文 参考訳(メタデータ) (2024-11-26T03:27:43Z) - Refuse Whenever You Feel Unsafe: Improving Safety in LLMs via Decoupled Refusal Training [67.30423823744506]
本研究では,Large Language Models (LLMs) の安全性チューニングにおける重要なギャップについて考察する。
我々は,LLMに対して,いかなる応答位置においても有害なプロンプトへのコンプライアンスを拒否する権限を与える新しいアプローチであるDecoupled Refusal Training(DeRTa)を導入する。
DeRTaは、(1)安全応答の開始に有害な応答のセグメントを付加することにより、安全でないコンテンツを認識・回避するようモデルに訓練する、(1)有害応答前フィックスによる最大限の類似度推定、(2)有害応答の開始を通して潜在的害から安全拒絶へ継続的に移行する能力を持つ強化遷移最適化(RTO)という2つの新しいコンポーネントを組み込んでいる。
論文 参考訳(メタデータ) (2024-07-12T09:36:33Z) - BEEAR: Embedding-based Adversarial Removal of Safety Backdoors in Instruction-tuned Language Models [57.5404308854535]
大型言語モデル(LLM)における安全バックドア攻撃は、正常な相互作用中の検出を回避しながら、安全でない振る舞いをステルス的に引き起こすことができる。
モデル埋め込み空間において,バックドアトリガーが比較的均一なドリフトを引き起こすという知見を活かした緩和手法であるBEEARを提案する。
両レベル最適化手法は、不要な振る舞いを誘発する普遍的な埋め込み摂動を特定し、モデルパラメータを調整し、これらの摂動に対する安全な振舞いを強化する。
論文 参考訳(メタデータ) (2024-06-24T19:29:47Z) - Watch the Watcher! Backdoor Attacks on Security-Enhancing Diffusion Models [65.30406788716104]
本研究では,セキュリティ強化拡散モデルの脆弱性について検討する。
これらのモデルは、シンプルで効果的なバックドア攻撃であるDIFF2に非常に感受性があることを実証する。
ケーススタディでは、DIFF2は、ベンチマークデータセットとモデル間で、パーフィケーション後の精度と認定精度の両方を著しく削減できることを示している。
論文 参考訳(メタデータ) (2024-06-14T02:39:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。