Fugu-MT 論文翻訳(概要): o3-mini vs DeepSeek-R1: Which One is Safer?

論文の概要: o3-mini vs DeepSeek-R1: Which One is Safer?

arxiv url: http://arxiv.org/abs/2501.18438v1
Date: Thu, 30 Jan 2025 15:45:56 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-31 22:50:04.22535
Title: o3-mini vs DeepSeek-R1: Which One is Safer?
Title（参考訳）: o3-mini vs DeepSeek-R1: どれが安全か?
Authors: Aitor Arrieta, Miriam Ugarte, Pablo Valle, José Antonio Parejo, Sergio Segura,
Abstract要約: DeepSeek-R1はOpenAIのo3-miniと比べて非常に安全ではない。 DeepSeek-R1は、実行されたプロンプトの11.98%に対して安全ではないと答えたが、o3-miniは1.19%だった。
参考スコア（独自算出の注目度）: 6.105030666773317
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The irruption of DeepSeek-R1 constitutes a turning point for the AI industry in general and the LLMs in particular. Its capabilities have demonstrated outstanding performance in several tasks, including creative thinking, code generation, maths and automated program repair, at apparently lower execution cost. However, LLMs must adhere to an important qualitative property, i.e., their alignment with safety and human values. A clear competitor of DeepSeek-R1 is its American counterpart, OpenAI's o3-mini model, which is expected to set high standards in terms of performance, safety and cost. In this paper we conduct a systematic assessment of the safety level of both, DeepSeek-R1 (70b version) and OpenAI's o3-mini (beta version). To this end, we make use of our recently released automated safety testing tool, named ASTRAL. By leveraging this tool, we automatically and systematically generate and execute a total of 1260 unsafe test inputs on both models. After conducting a semi-automated assessment of the outcomes provided by both LLMs, the results indicate that DeepSeek-R1 is highly unsafe as compared to OpenAI's o3-mini. Based on our evaluation, DeepSeek-R1 answered unsafely to 11.98% of the executed prompts whereas o3-mini only to 1.19%.
Abstract（参考訳）: DeepSeek-R1の噴火は、AI産業全般、特にLLMの転換点となっている。その能力は、創造的思考、コード生成、数学、自動プログラム修復など、明らかに実行コストの低いいくつかのタスクで優れたパフォーマンスを示している。しかし、LSMは重要な質的特性、すなわち安全性と人間の価値との整合性に固執しなければならない。 DeepSeek-R1の明確な競合相手は、OpenAIのo3-miniモデルである。本稿では,DeepSeek-R1(70b版)とOpenAIのo3-mini(ベータ版)の双方の安全性を体系的に評価する。この目的のために、最近リリースされたASTRALという自動安全テストツールを使用しています。このツールを利用することで、両モデルで合計1260の安全でないテストインプットを自動かつ体系的に生成し、実行します。その結果,OpenAIのo3-miniと比較して,DeepSeek-R1は安全性が低いことが示唆された。評価の結果、DeepSeek-R1は実行中のプロンプトの11.98%に対して安全ではないと答えたが、o3-miniは1.19%に留まった。

関連論文リスト

ASTRA: Autonomous Spatial-Temporal Red-teaming for AI Software Assistants [21.35387344588118]
ASTRAはAIによるコード生成とセキュリティガイダンスシステムの安全性上の欠陥を明らかにするために設計された自動化システムである。 ASTRAは、既存のテクニックよりも11～66%多くの問題を見つけ、17%の効果的なアライメントトレーニングにつながるテストケースを生成します。
論文参考訳（メタデータ） (2025-08-05T21:57:52Z)
Reasoning Models Can be Easily Hacked by Fake Reasoning Bias [59.79548223686273]
我々は、Reasoning Theatre Bias (RTB)を評価するための総合的なベンチマークTheATERを紹介する。簡単なクイズとフェイク・オブ・サートを含む6種類のバイアスタイプについて検討した。我々は、RTBの最も強力な形式として、'hallow reasoning'-plausibleだが欠陥のある議論を識別する。
論文参考訳（メタデータ） (2025-07-18T09:06:10Z)
RealSafe-R1: Safety-Aligned DeepSeek-R1 without Compromising Reasoning Capability [29.437113221903715]
我々は、DeepSeek-R1モデルの安全対応バージョンとしてRealSafe-R1を紹介する。本手法は,学習データを生成元の分布内に保持することにより,モデルの推論能力を維持できる。
論文参考訳（メタデータ） (2025-04-14T10:26:37Z)
START: Self-taught Reasoner with Tools [51.38785489790888]
ツール統合長チェーン・オブ・シークレット(CoT)推論LSMであるSTART(Self-Taught Reasoner with Tools)を紹介する。 STARTは複雑な計算、自己チェック、多様な方法の探索、そして自己老化を行うことができる。基礎となるQwQ-32Bを著しく上回り、最先端のオープンウェイトモデルR1-Distill-Qwen-32Bに匹敵する性能を達成する。
論文参考訳（メタデータ） (2025-03-06T17:11:51Z)
Early External Safety Testing of OpenAI's o3-mini: Insights from the Pre-Deployment Evaluation [6.105030666773317]
大きな言語モデル(LLM)は、個人のプライバシを害し、バイアスを持続させ、誤情報を拡散するリスクを含む、特定のリスクを課す。本稿では,モンドラゴン大学とセビリア大学の研究者による,OpenAIの新しいo3-mini LLMに関する外部安全試験経験について報告する。
論文参考訳（メタデータ） (2025-01-29T16:36:53Z)
DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning [147.16121855209246]
第一世代の推論モデルであるDeepSeek-R1-ZeroとDeepSeek-R1を紹介します。 DeepSeek-R1-Zeroは大規模な強化学習を通じて訓練されている。 DeepSeek-R1は、RLの前にマルチステージトレーニングとコールドスタートデータを組み込んでいる。
論文参考訳（メタデータ） (2025-01-22T15:19:35Z)
The Dual-use Dilemma in LLMs: Do Empowering Ethical Capacities Make a Degraded Utility? [54.18519360412294]
大きな言語モデル(LLM)は、安全のための有害な要求を拒否することと、ユーティリティのための正当な要求を収容することのバランスをとる必要がある。本稿では,DPO(Direct Preference Optimization)に基づくアライメントフレームワークを提案する。我々は,DeepSeek-R1をベンチマークでテストした結果を解析し,この高い評価を得たモデルがもたらす批判的倫理的懸念を明らかにする。
論文参考訳（メタデータ） (2025-01-20T06:35:01Z)
OpenAI o1 System Card [274.83891368890977]
o1モデルシリーズは、思考の連鎖を用いて推論するために大規模な強化学習で訓練されている。本報告では,OpenAI o1およびOpenAI o1-miniモデルに対して実施される安全作業の概要について述べる。
論文参考訳（メタデータ） (2024-12-21T18:04:31Z)
AI Cyber Risk Benchmark: Automated Exploitation Capabilities [0.24578723416255752]
自動ソフトウェアエクスプロイトにおけるAIモデルの能力とリスクを評価するための新しいベンチマークを導入する。 OpenAIのo1-previewやo1-mini、AnthropicのClaude-3.5-sonnet-20241022、Claude-3.5-sonnet-20240620など、主要な言語モデルの評価を行った。
論文参考訳（メタデータ） (2024-10-29T10:57:11Z)
Iterative Self-Tuning LLMs for Enhanced Jailbreaking Capabilities [63.603861880022954]
本稿では,対戦型LDMをジェイルブレイク能力に富んだ反復的自己調整プロセスであるADV-LLMを紹介する。我々のフレームワークは,様々なオープンソース LLM 上で ASR を100% 近く達成しながら,逆接接尾辞を生成する計算コストを大幅に削減する。 Llama3のみに最適化されているにもかかわらず、GPT-3.5では99%のASR、GPT-4では49%のASRを達成している。
論文参考訳（メタデータ） (2024-10-24T06:36:12Z)
A Comparative Study on Reasoning Patterns of OpenAI's o1 Model [69.08287909042421]
OpenAIのo1モデルは、ほとんどのデータセットで最高のパフォーマンスを実現しています。また、いくつかの推論ベンチマークについて詳細な分析を行う。
論文参考訳（メタデータ） (2024-10-17T15:09:03Z)
AI Sandbagging: Language Models can Strategically Underperform on Evaluations [1.0485739694839669]
トラストロックされたAIシステムは、AIシステムの安全性を保証するために不可欠である。 AIシステムの開発者は、サンドバッグ評価のためのインセンティブを持つかもしれない。性能評価がサンドバッグに弱いことを示す。
論文参考訳（メタデータ） (2024-06-11T15:26:57Z)
Work-in-Progress: Crash Course: Can (Under Attack) Autonomous Driving Beat Human Drivers? [60.51287814584477]
本稿では,現在のAVの状況を調べることによって,自律運転における本質的なリスクを評価する。 AVの利点と、現実のシナリオにおける潜在的なセキュリティ課題との微妙なバランスを強調した、特定のクレームを開発する。
論文参考訳（メタデータ） (2024-05-14T09:42:21Z)
Introducing v0.5 of the AI Safety Benchmark from MLCommons [101.98401637778638]
本稿では,MLCommons AI Safety Working Groupが作成したAI Safety Benchmarkのv0.5を紹介する。このベンチマークは、チャットチューニング言語モデルを使用するAIシステムの安全性リスクを評価するように設計されている。
論文参考訳（メタデータ） (2024-04-18T15:01:00Z)
Software Vulnerability and Functionality Assessment using LLMs [0.8057006406834466]
我々は,Large Language Models (LLMs) がコードレビューに役立つかどうかを検討する。我々の調査は、良質なレビューに欠かせない2つの課題に焦点を当てている。
論文参考訳（メタデータ） (2024-03-13T11:29:13Z)
Evaluating Model-free Reinforcement Learning toward Safety-critical Tasks [70.76757529955577]
本稿では、国家安全RLの観点から、この領域における先行研究を再考する。安全最適化と安全予測を組み合わせた共同手法であるUnrolling Safety Layer (USL)を提案する。この領域のさらなる研究を容易にするため、我々は関連するアルゴリズムを統一パイプラインで再現し、SafeRL-Kitに組み込む。
論文参考訳（メタデータ） (2022-12-12T06:30:17Z)
AIBench Training: Balanced Industry-Standard AI Training Benchmarking [26.820244556465333]
新しいAIアーキテクチャ/システムのアーリーステージ評価には、安価なベンチマークが必要だ。私たちは現実世界のベンチマークを使って、学習力学に影響を与える要因をカバーしています。私たちは、最も包括的なAIトレーニングベンチマークスイートにコントリビュートしています。
論文参考訳（メタデータ） (2020-04-30T11:08:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。