論文の概要: Safety Evaluation and Enhancement of DeepSeek Models in Chinese Contexts
- arxiv url: http://arxiv.org/abs/2503.16529v1
- Date: Tue, 18 Mar 2025 08:38:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-24 14:59:02.480577
- Title: Safety Evaluation and Enhancement of DeepSeek Models in Chinese Contexts
- Title(参考訳): 中国におけるディープシークモデルの安全性評価と強化
- Authors: Wenjing Zhang, Xuejiao Lei, Zhaoxiang Liu, Limin Han, Jiaojiao Zhao, Beibei Huang, Zhenhong Long, Junting Guo, Meijuan An, Rongjia Du, Ning Wang, Kai Wang, Shiguo Lian,
- Abstract要約: DeepSeek-R1は例外的な推論機能とオープンソース戦略で有名だ。
DeepSeek-R1は有害なプロンプトを処理する際に100%の攻撃成功率を達成する。
- 参考スコア(独自算出の注目度): 11.573196818552649
- License:
- Abstract: DeepSeek-R1, renowned for its exceptional reasoning capabilities and open-source strategy, is significantly influencing the global artificial intelligence landscape. However, it exhibits notable safety shortcomings. Recent research conducted by Robust Intelligence, a subsidiary of Cisco, in collaboration with the University of Pennsylvania, revealed that DeepSeek-R1 achieves a 100\% attack success rate when processing harmful prompts. Furthermore, multiple security firms and research institutions have identified critical security vulnerabilities within the model. Although China Unicom has uncovered safety vulnerabilities of R1 in Chinese contexts, the safety capabilities of the remaining distilled models in the R1 series have not yet been comprehensively evaluated. To address this gap, this study utilizes the comprehensive Chinese safety benchmark CHiSafetyBench to conduct an in-depth safety evaluation of the DeepSeek-R1 series distilled models. The objective is to assess the safety capabilities of these models in Chinese contexts both before and after distillation, and to further elucidate the adverse effects of distillation on model safety. Building on these findings, we implement targeted safety enhancements for six distilled models. Evaluation results indicate that the enhanced models achieve significant improvements in safety while maintaining reasoning capabilities without notable degradation. We open-source the safety-enhanced models at https://github.com/UnicomAI/DeepSeek-R1-Distill-Safe/tree/main to serve as a valuable resource for future research and optimization of DeepSeek models.
- Abstract(参考訳): 例外的な推論能力とオープンソース戦略で有名なDeepSeek-R1は、世界の人工知能界に大きな影響を与えている。
しかし、特に安全上の欠点が指摘されている。
Ciscoの子会社であるロバスト・インテリジェンスがペンシルベニア大学と共同で行った最近の研究によると、DeepSeek-R1は有害なプロンプトを処理する際に100倍の攻撃成功率を達成した。
さらに、複数のセキュリティ企業や研究機関が、モデル内の重要なセキュリティ脆弱性を特定している。
中国ユニコムは、中国の文脈でR1の安全性の脆弱性を発見したが、R1シリーズの残りの蒸留モデルの安全性は、まだ包括的に評価されていない。
このギャップに対処するために,中国の総合安全ベンチマークCHiSafetyBenchを用いて,DeepSeek-R1シリーズ蒸留モデルの詳細な安全性評価を行う。
本研究の目的は, 蒸留前後の中国の文脈において, これらのモデルの安全性を評価することであり, 蒸留の安全性に対する悪影響をさらに解明することである。
これらの結果に基づいて,6種類の蒸留モデルを対象とした安全性向上を図った。
評価結果から, 改良されたモデルでは, 顕著な劣化を伴わない推論能力を維持しつつ, 安全性を著しく向上することが示唆された。
我々は、DeepSeekモデルの将来の研究と最適化のための貴重なリソースとなるために、https://github.com/UnicomAI/DeepSeek-R1-Distill-Safe/tree/mainで安全強化モデルをオープンソース化しました。
関連論文リスト
- The Hidden Risks of Large Reasoning Models: A Safety Assessment of R1 [70.94607997570729]
本稿では,OpenAI-o3およびDeepSeek-R1推論モデルの総合的安全性評価を行う。
本研究では, 現実の応用における強靭性を評価するために, ジェイルブレイクやインジェクションなどの敵攻撃に対する感受性について検討する。
論文 参考訳(メタデータ) (2025-02-18T09:06:07Z) - Safety Evaluation of DeepSeek Models in Chinese Contexts [12.297396865203973]
本研究では,中国固有の安全性評価ベンチマークであるCHiSafetyBenchを紹介する。
このベンチマークは、中国の文脈におけるDeepSeek-R1とDeepSeek-V3の安全性を体系的に評価する。
実験結果は、これらの2つのモデルの中国の文脈における欠陥を定量化し、その後の改善の鍵となる洞察を与える。
論文 参考訳(メタデータ) (2025-02-16T14:05:54Z) - Vulnerability Mitigation for Safety-Aligned Language Models via Debiasing [12.986006070964772]
安全性アライメントは、現実世界のAIアプリケーションにとって重要な研究トピックである。
本研究はまず,モデルの有用性を犠牲にすることなく,このような脆弱性を除去することの難しさを明らかにした。
本手法は,安全性を維持しつつモデルの有用性を高め,トレードオフを改善できる。
論文 参考訳(メタデータ) (2025-02-04T09:31:54Z) - OpenAI o1 System Card [274.83891368890977]
o1モデルシリーズは、思考の連鎖を用いて推論するために大規模な強化学習で訓練されている。
本報告では,OpenAI o1およびOpenAI o1-miniモデルに対して実施される安全作業の概要について述べる。
論文 参考訳(メタデータ) (2024-12-21T18:04:31Z) - EARBench: Towards Evaluating Physical Risk Awareness for Task Planning of Foundation Model-based Embodied AI Agents [53.717918131568936]
EAI(Embodied AI)は、高度なAIモデルを現実世界のインタラクションのための物理的なエンティティに統合する。
高レベルのタスク計画のためのEAIエージェントの"脳"としてのファンデーションモデルは、有望な結果を示している。
しかし、これらのエージェントの物理的環境への展開は、重大な安全性上の課題を呈している。
本研究では,EAIシナリオにおける身体的リスクの自動評価のための新しいフレームワークEARBenchを紹介する。
論文 参考訳(メタデータ) (2024-08-08T13:19:37Z) - Safetywashing: Do AI Safety Benchmarks Actually Measure Safety Progress? [59.96471873997733]
我々は、より有意義な安全指標を開発するための実証的な基盤を提案し、機械学習研究の文脈でAIの安全性を定義する。
我々は、AI安全研究のためのより厳格なフレームワークを提供し、安全性評価の科学を前進させ、測定可能な進歩への道筋を明らかにすることを目指している。
論文 参考訳(メタデータ) (2024-07-31T17:59:24Z) - Towards Safer Generative Language Models: A Survey on Safety Risks,
Evaluations, and Improvements [76.80453043969209]
本調査では,大規模モデルに関する安全研究の枠組みについて述べる。
まず、広範囲にわたる安全問題を導入し、その後、大型モデルの安全性評価手法を掘り下げる。
トレーニングからデプロイメントまで,大規模なモデルの安全性を高めるための戦略について検討する。
論文 参考訳(メタデータ) (2023-02-18T09:32:55Z) - Evaluating Model-free Reinforcement Learning toward Safety-critical
Tasks [70.76757529955577]
本稿では、国家安全RLの観点から、この領域における先行研究を再考する。
安全最適化と安全予測を組み合わせた共同手法であるUnrolling Safety Layer (USL)を提案する。
この領域のさらなる研究を容易にするため、我々は関連するアルゴリズムを統一パイプラインで再現し、SafeRL-Kitに組み込む。
論文 参考訳(メタデータ) (2022-12-12T06:30:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。