論文の概要: o3-mini vs DeepSeek-R1: Which One is Safer?
- arxiv url: http://arxiv.org/abs/2501.18438v1
- Date: Thu, 30 Jan 2025 15:45:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-31 15:15:42.890193
- Title: o3-mini vs DeepSeek-R1: Which One is Safer?
- Title(参考訳): o3-mini vs DeepSeek-R1: どれが安全か?
- Authors: Aitor Arrieta, Miriam Ugarte, Pablo Valle, José Antonio Parejo, Sergio Segura,
- Abstract要約: DeepSeek-R1はOpenAIのo3-miniと比べて非常に安全ではない。
DeepSeek-R1は、実行されたプロンプトの11.98%に対して安全ではないと答えたが、o3-miniは1.19%だった。
- 参考スコア(独自算出の注目度): 6.105030666773317
- License:
- Abstract: The irruption of DeepSeek-R1 constitutes a turning point for the AI industry in general and the LLMs in particular. Its capabilities have demonstrated outstanding performance in several tasks, including creative thinking, code generation, maths and automated program repair, at apparently lower execution cost. However, LLMs must adhere to an important qualitative property, i.e., their alignment with safety and human values. A clear competitor of DeepSeek-R1 is its American counterpart, OpenAI's o3-mini model, which is expected to set high standards in terms of performance, safety and cost. In this paper we conduct a systematic assessment of the safety level of both, DeepSeek-R1 (70b version) and OpenAI's o3-mini (beta version). To this end, we make use of our recently released automated safety testing tool, named ASTRAL. By leveraging this tool, we automatically and systematically generate and execute a total of 1260 unsafe test inputs on both models. After conducting a semi-automated assessment of the outcomes provided by both LLMs, the results indicate that DeepSeek-R1 is highly unsafe as compared to OpenAI's o3-mini. Based on our evaluation, DeepSeek-R1 answered unsafely to 11.98% of the executed prompts whereas o3-mini only to 1.19%.
- Abstract(参考訳): DeepSeek-R1の噴火は、AI産業全般、特にLLMの転換点となっている。
その能力は、創造的思考、コード生成、数学、自動プログラム修復など、明らかに実行コストの低いいくつかのタスクで優れたパフォーマンスを示している。
しかし、LSMは重要な質的特性、すなわち安全性と人間の価値との整合性に固執しなければならない。
DeepSeek-R1の明確な競合相手は、OpenAIのo3-miniモデルである。
本稿では,DeepSeek-R1(70b版)とOpenAIのo3-mini(ベータ版)の双方の安全性を体系的に評価する。
この目的のために、最近リリースされたASTRALという自動安全テストツールを使用しています。
このツールを利用することで、両モデルで合計1260の安全でないテストインプットを自動かつ体系的に生成し、実行します。
その結果,OpenAIのo3-miniと比較して,DeepSeek-R1は安全性が低いことが示唆された。
評価の結果、DeepSeek-R1は実行中のプロンプトの11.98%に対して安全ではないと答えたが、o3-miniは1.19%に留まった。
関連論文リスト
- The Hidden Risks of Large Reasoning Models: A Safety Assessment of R1 [70.94607997570729]
本稿では,OpenAI-o3およびDeepSeek-R1推論モデルの総合的安全性評価を行う。
本研究では, 現実の応用における強靭性を評価するために, ジェイルブレイクやインジェクションなどの敵攻撃に対する感受性について検討する。
論文 参考訳(メタデータ) (2025-02-18T09:06:07Z) - Early External Safety Testing of OpenAI's o3-mini: Insights from the Pre-Deployment Evaluation [6.105030666773317]
大きな言語モデル(LLM)は、個人のプライバシを害し、バイアスを持続させ、誤情報を拡散するリスクを含む、特定のリスクを課す。
本稿では,モンドラゴン大学とセビリア大学の研究者による,OpenAIの新しいo3-mini LLMに関する外部安全試験経験について報告する。
論文 参考訳(メタデータ) (2025-01-29T16:36:53Z) - DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning [147.16121855209246]
第一世代の推論モデルであるDeepSeek-R1-ZeroとDeepSeek-R1を紹介します。
DeepSeek-R1-Zeroは大規模な強化学習を通じて訓練されている。
DeepSeek-R1は、RLの前にマルチステージトレーニングとコールドスタートデータを組み込んでいる。
論文 参考訳(メタデータ) (2025-01-22T15:19:35Z) - OpenAI o1 System Card [274.83891368890977]
o1モデルシリーズは、思考の連鎖を用いて推論するために大規模な強化学習で訓練されている。
本報告では,OpenAI o1およびOpenAI o1-miniモデルに対して実施される安全作業の概要について述べる。
論文 参考訳(メタデータ) (2024-12-21T18:04:31Z) - AI Cyber Risk Benchmark: Automated Exploitation Capabilities [0.24578723416255752]
自動ソフトウェアエクスプロイトにおけるAIモデルの能力とリスクを評価するための新しいベンチマークを導入する。
OpenAIのo1-previewやo1-mini、AnthropicのClaude-3.5-sonnet-20241022、Claude-3.5-sonnet-20240620など、主要な言語モデルの評価を行った。
論文 参考訳(メタデータ) (2024-10-29T10:57:11Z) - Iterative Self-Tuning LLMs for Enhanced Jailbreaking Capabilities [63.603861880022954]
本稿では,対戦型LDMをジェイルブレイク能力に富んだ反復的自己調整プロセスであるADV-LLMを紹介する。
我々のフレームワークは,様々なオープンソース LLM 上で ASR を100% 近く達成しながら,逆接接尾辞を生成する計算コストを大幅に削減する。
Llama3のみに最適化されているにもかかわらず、GPT-3.5では99%のASR、GPT-4では49%のASRを達成している。
論文 参考訳(メタデータ) (2024-10-24T06:36:12Z) - A Comparative Study on Reasoning Patterns of OpenAI's o1 Model [69.08287909042421]
OpenAIのo1モデルは、ほとんどのデータセットで最高のパフォーマンスを実現しています。
また、いくつかの推論ベンチマークについて詳細な分析を行う。
論文 参考訳(メタデータ) (2024-10-17T15:09:03Z) - Software Vulnerability and Functionality Assessment using LLMs [0.8057006406834466]
我々は,Large Language Models (LLMs) がコードレビューに役立つかどうかを検討する。
我々の調査は、良質なレビューに欠かせない2つの課題に焦点を当てている。
論文 参考訳(メタデータ) (2024-03-13T11:29:13Z) - A Preliminary Study on Using Large Language Models in Software
Pentesting [2.0551676463612636]
大規模言語モデル(LLM)は、セキュリティタスクを自動化するための有望な可能性を提供すると考えられている。
ソフトウェアペンテスティングにおけるLLMの使用について検討し,ソースコード中のソフトウェアセキュリティ脆弱性を自動的に識別する作業を行う。
論文 参考訳(メタデータ) (2024-01-30T21:42:59Z) - Evaluating Model-free Reinforcement Learning toward Safety-critical
Tasks [70.76757529955577]
本稿では、国家安全RLの観点から、この領域における先行研究を再考する。
安全最適化と安全予測を組み合わせた共同手法であるUnrolling Safety Layer (USL)を提案する。
この領域のさらなる研究を容易にするため、我々は関連するアルゴリズムを統一パイプラインで再現し、SafeRL-Kitに組み込む。
論文 参考訳(メタデータ) (2022-12-12T06:30:17Z) - AIBench Training: Balanced Industry-Standard AI Training Benchmarking [26.820244556465333]
新しいAIアーキテクチャ/システムのアーリーステージ評価には、安価なベンチマークが必要だ。
私たちは現実世界のベンチマークを使って、学習力学に影響を与える要因をカバーしています。
私たちは、最も包括的なAIトレーニングベンチマークスイートにコントリビュートしています。
論文 参考訳(メタデータ) (2020-04-30T11:08:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。