論文の概要: o3-mini vs DeepSeek-R1: Which One is Safer?
- arxiv url: http://arxiv.org/abs/2501.18438v1
- Date: Thu, 30 Jan 2025 15:45:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-31 15:15:42.890193
- Title: o3-mini vs DeepSeek-R1: Which One is Safer?
- Title(参考訳): o3-mini vs DeepSeek-R1: どれが安全か?
- Authors: Aitor Arrieta, Miriam Ugarte, Pablo Valle, José Antonio Parejo, Sergio Segura,
- Abstract要約: DeepSeek-R1はOpenAIのo3-miniと比べて非常に安全ではない。
DeepSeek-R1は、実行されたプロンプトの11.98%に対して安全ではないと答えたが、o3-miniは1.19%だった。
- 参考スコア(独自算出の注目度): 6.105030666773317
- License:
- Abstract: The irruption of DeepSeek-R1 constitutes a turning point for the AI industry in general and the LLMs in particular. Its capabilities have demonstrated outstanding performance in several tasks, including creative thinking, code generation, maths and automated program repair, at apparently lower execution cost. However, LLMs must adhere to an important qualitative property, i.e., their alignment with safety and human values. A clear competitor of DeepSeek-R1 is its American counterpart, OpenAI's o3-mini model, which is expected to set high standards in terms of performance, safety and cost. In this paper we conduct a systematic assessment of the safety level of both, DeepSeek-R1 (70b version) and OpenAI's o3-mini (beta version). To this end, we make use of our recently released automated safety testing tool, named ASTRAL. By leveraging this tool, we automatically and systematically generate and execute a total of 1260 unsafe test inputs on both models. After conducting a semi-automated assessment of the outcomes provided by both LLMs, the results indicate that DeepSeek-R1 is highly unsafe as compared to OpenAI's o3-mini. Based on our evaluation, DeepSeek-R1 answered unsafely to 11.98% of the executed prompts whereas o3-mini only to 1.19%.
- Abstract(参考訳): DeepSeek-R1の噴火は、AI産業全般、特にLLMの転換点となっている。
その能力は、創造的思考、コード生成、数学、自動プログラム修復など、明らかに実行コストの低いいくつかのタスクで優れたパフォーマンスを示している。
しかし、LSMは重要な質的特性、すなわち安全性と人間の価値との整合性に固執しなければならない。
DeepSeek-R1の明確な競合相手は、OpenAIのo3-miniモデルである。
本稿では,DeepSeek-R1(70b版)とOpenAIのo3-mini(ベータ版)の双方の安全性を体系的に評価する。
この目的のために、最近リリースされたASTRALという自動安全テストツールを使用しています。
このツールを利用することで、両モデルで合計1260の安全でないテストインプットを自動かつ体系的に生成し、実行します。
その結果,OpenAIのo3-miniと比較して,DeepSeek-R1は安全性が低いことが示唆された。
評価の結果、DeepSeek-R1は実行中のプロンプトの11.98%に対して安全ではないと答えたが、o3-miniは1.19%に留まった。
関連論文リスト
- AI Cyber Risk Benchmark: Automated Exploitation Capabilities [0.24578723416255752]
自動ソフトウェアエクスプロイトにおけるAIモデルの能力とリスクを評価するための新しいベンチマークを導入する。
OpenAIのo1-previewやo1-mini、AnthropicのClaude-3.5-sonnet-20241022、Claude-3.5-sonnet-20240620など、主要な言語モデルの評価を行った。
論文 参考訳(メタデータ) (2024-10-29T10:57:11Z) - A Comparative Study on Reasoning Patterns of OpenAI's o1 Model [69.08287909042421]
OpenAIのo1モデルは、ほとんどのデータセットで最高のパフォーマンスを実現しています。
また、いくつかの推論ベンチマークについて詳細な分析を行う。
論文 参考訳(メタデータ) (2024-10-17T15:09:03Z) - AI Sandbagging: Language Models can Strategically Underperform on Evaluations [1.0485739694839669]
トラストロックされたAIシステムは、AIシステムの安全性を保証するために不可欠である。
AIシステムの開発者は、サンドバッグ評価のためのインセンティブを持つかもしれない。
性能評価がサンドバッグに弱いことを示す。
論文 参考訳(メタデータ) (2024-06-11T15:26:57Z) - Work-in-Progress: Crash Course: Can (Under Attack) Autonomous Driving Beat Human Drivers? [60.51287814584477]
本稿では,現在のAVの状況を調べることによって,自律運転における本質的なリスクを評価する。
AVの利点と、現実のシナリオにおける潜在的なセキュリティ課題との微妙なバランスを強調した、特定のクレームを開発する。
論文 参考訳(メタデータ) (2024-05-14T09:42:21Z) - Introducing v0.5 of the AI Safety Benchmark from MLCommons [101.98401637778638]
本稿では,MLCommons AI Safety Working Groupが作成したAI Safety Benchmarkのv0.5を紹介する。
このベンチマークは、チャットチューニング言語モデルを使用するAIシステムの安全性リスクを評価するように設計されている。
論文 参考訳(メタデータ) (2024-04-18T15:01:00Z) - Enhancing Security of AI-Based Code Synthesis with GitHub Copilot via Cheap and Efficient Prompt-Engineering [1.7702475609045947]
開発者や企業がその潜在能力を最大限に活用することを避けている理由の1つは、生成されたコードに対する疑わしいセキュリティである。
本稿ではまず,現状を概観し,今後の課題について述べる。
我々は、GitHub CopilotのようなAIベースのコードジェネレータのコードセキュリティを改善するために、プロンプト変換手法に基づく体系的なアプローチを提案する。
論文 参考訳(メタデータ) (2024-03-19T12:13:33Z) - Software Vulnerability and Functionality Assessment using LLMs [0.8057006406834466]
我々は,Large Language Models (LLMs) がコードレビューに役立つかどうかを検討する。
我々の調査は、良質なレビューに欠かせない2つの課題に焦点を当てている。
論文 参考訳(メタデータ) (2024-03-13T11:29:13Z) - Intention Analysis Makes LLMs A Good Jailbreak Defender [79.4014719271075]
我々は,シンプルかつ高能率な防衛戦略,すなわち意図分析(mathbbIA$)を提示する。
$mathbbIA$ は LLM 固有の自己修正をトリガーし、2段階のプロセスを通じて能力を向上させる。
さまざまなjailbreakベンチマークの実験によると、$mathbbIA$は一貫して応答の有害性を著しく低減できる。
論文 参考訳(メタデータ) (2024-01-12T13:15:05Z) - Evaluating Model-free Reinforcement Learning toward Safety-critical
Tasks [70.76757529955577]
本稿では、国家安全RLの観点から、この領域における先行研究を再考する。
安全最適化と安全予測を組み合わせた共同手法であるUnrolling Safety Layer (USL)を提案する。
この領域のさらなる研究を容易にするため、我々は関連するアルゴリズムを統一パイプラインで再現し、SafeRL-Kitに組み込む。
論文 参考訳(メタデータ) (2022-12-12T06:30:17Z) - Robust Deep Reinforcement Learning through Adversarial Loss [74.20501663956604]
近年の研究では、深層強化学習剤は、エージェントの入力に対する小さな逆方向の摂動に弱いことが示されている。
敵攻撃に対する堅牢性を向上した強化学習エージェントを訓練するための原則的フレームワークであるRADIAL-RLを提案する。
論文 参考訳(メタデータ) (2020-08-05T07:49:42Z) - AIBench Training: Balanced Industry-Standard AI Training Benchmarking [26.820244556465333]
新しいAIアーキテクチャ/システムのアーリーステージ評価には、安価なベンチマークが必要だ。
私たちは現実世界のベンチマークを使って、学習力学に影響を与える要因をカバーしています。
私たちは、最も包括的なAIトレーニングベンチマークスイートにコントリビュートしています。
論文 参考訳(メタデータ) (2020-04-30T11:08:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。