Fugu-MT 論文翻訳(概要): The Hidden Risks of Large Reasoning Models: A Safety Assessment of R1

論文の概要: The Hidden Risks of Large Reasoning Models: A Safety Assessment of R1

arxiv url: http://arxiv.org/abs/2502.12659v2
Date: Tue, 25 Feb 2025 07:55:11 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-26 13:17:50.520969
Title: The Hidden Risks of Large Reasoning Models: A Safety Assessment of R1
Title（参考訳）: 大規模共振モデルの隠れリスク:R1の安全性評価
Authors: Kaiwen Zhou, Chengzhi Liu, Xuandong Zhao, Shreedhar Jangam, Jayanth Srinivasa, Gaowen Liu, Dawn Song, Xin Eric Wang,
Abstract要約: 本稿では,OpenAI-o3およびDeepSeek-R1推論モデルの総合的安全性評価を行う。本研究では, 現実の応用における強靭性を評価するために, ジェイルブレイクやインジェクションなどの敵攻撃に対する感受性について検討する。
参考スコア（独自算出の注目度）: 70.94607997570729
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The rapid development of large reasoning models, such as OpenAI-o3 and DeepSeek-R1, has led to significant improvements in complex reasoning over non-reasoning large language models~(LLMs). However, their enhanced capabilities, combined with the open-source access of models like DeepSeek-R1, raise serious safety concerns, particularly regarding their potential for misuse. In this work, we present a comprehensive safety assessment of these reasoning models, leveraging established safety benchmarks to evaluate their compliance with safety regulations. Furthermore, we investigate their susceptibility to adversarial attacks, such as jailbreaking and prompt injection, to assess their robustness in real-world applications. Through our multi-faceted analysis, we uncover four key findings: (1) There is a significant safety gap between the open-source R1 models and the o3-mini model, on both safety benchmark and attack, suggesting more safety effort on R1 is needed. (2) The distilled reasoning model shows poorer safety performance compared to its safety-aligned base models. (3) The stronger the model's reasoning ability, the greater the potential harm it may cause when answering unsafe questions. (4) The thinking process in R1 models pose greater safety concerns than their final answers. Our study provides insights into the security implications of reasoning models and highlights the need for further advancements in R1 models' safety to close the gap.
Abstract（参考訳）: OpenAI-o3やDeepSeek-R1のような大規模推論モデルの急速な開発により、非合理的な大規模言語モデル~(LLM)よりも複雑な推論が大幅に改善された。しかし、その強化された機能とDeepSeek-R1のようなモデルのオープンソースアクセスが組み合わさって、特に誤用の可能性に関して、深刻な安全性上の懸念を提起している。本研究では,これらの推論モデルの総合的安全性評価を行い,安全基準の遵守性を評価するために,確立された安全性ベンチマークを活用する。さらに,ジェイルブレイクやインジェクションなどの敵攻撃に対する感受性について検討し,実世界のアプリケーションにおけるロバスト性を評価する。 1)オープンソースのR1モデルとo3-miniモデルの間には、安全性ベンチマークとアタックの両方において大きな安全性のギャップがあり、R1に対するより安全な取り組みが必要であることを示唆している。 2) 蒸留した推理モデルでは, 安全に整合したベースモデルに比べて安全性が劣っている。 (3)モデルの推論能力が強くなればなるほど、安全でない質問に答えるときに潜在的に害を与える可能性がある。 (4) R1モデルにおける思考プロセスは, 最終回答よりも安全性が懸念される。我々の研究は、推論モデルのセキュリティへの影響に関する洞察を提供し、ギャップを埋めるためにR1モデルの安全性をさらに向上する必要性を強調している。

関連論文リスト

SafeWork-R1: Coevolving Safety and Intelligence under the AI-45$^{\circ}$ Law [91.33824439029533]
我々は,機能と安全性の共進化を示す最先端のマルチモーダル推論モデルであるSafeWork-R1を紹介する。大規模でプログレッシブで安全指向の強化学習をポストトレーニングに取り入れたSafeLadderフレームワークを開発した。さらに,SafeWork-R1-InternVL3-78B,SafeWork-R1-DeepSeek-70B,SafeWork-R1-Qwen2.5VL-7Bを開発した。
論文参考訳（メタデータ） (2025-07-24T16:49:19Z)
SafeKey: Amplifying Aha-Moment Insights for Safety Reasoning [76.56522719330911]
大規模推論モデル(LRM)は、応答する前に明示的に推論する新しい世代パラダイムを導入する。 LRMは有害なクエリや敵の攻撃に対して大きな安全リスクをもたらす。キー文中の安全アハモーメントをより活性化するSafeKeyを提案する。
論文参考訳（メタデータ） (2025-05-22T03:46:03Z)
How Should We Enhance the Safety of Large Reasoning Models: An Empirical Study [90.34190170330481]
大規模推論モデル(LRM)は数学やプログラミングのような推論集約的なタスクにおいて顕著な成功を収めた。しかし、その強化された推論能力は必ずしも安全性能の向上に必ずしも寄与しない。スーパーバイザード・ファイン・チューニング(Supervised Fine-Tuning)によるLEMの安全性向上に関する総合的な実証研究について述べる。
論文参考訳（メタデータ） (2025-05-21T11:45:29Z)
Think in Safety: Unveiling and Mitigating Safety Alignment Collapse in Multimodal Large Reasoning Model [30.774446187857475]
5つのベンチマークでMLRM(Multimodal Large Reasoning Model)11の安全性評価を行う。分析の結果、異なるベンチマークで異なる安全性パターンが明らかになった。これは、モデル固有の推論能力を活用して安全でない意図を検出することで、MLRMの安全性問題に対処する潜在的アプローチである。
論文参考訳（メタデータ） (2025-05-10T06:59:36Z)
RealSafe-R1: Safety-Aligned DeepSeek-R1 without Compromising Reasoning Capability [29.437113221903715]
我々は、DeepSeek-R1モデルの安全対応バージョンとしてRealSafe-R1を紹介する。本手法は,学習データを生成元の分布内に保持することにより,モデルの推論能力を維持できる。
論文参考訳（メタデータ） (2025-04-14T10:26:37Z)
SafeMLRM: Demystifying Safety in Multi-modal Large Reasoning Models [50.34706204154244]
推論能力の獲得は、引き継がれた安全アライメントを壊滅的に劣化させる。特定のシナリオは、25倍の攻撃率を被る。 MLRMは、厳密な推論と問合せの安全結合にもかかわらず、初期段階の自己補正を示す。
論文参考訳（メタデータ） (2025-04-09T06:53:23Z)
Safety Evaluation and Enhancement of DeepSeek Models in Chinese Contexts [11.573196818552649]
DeepSeek-R1は例外的な推論機能とオープンソース戦略で有名だ。 DeepSeek-R1は有害なプロンプトを処理する際に100%の攻撃成功率を達成する。
論文参考訳（メタデータ） (2025-03-18T08:38:10Z)
H-CoT: Hijacking the Chain-of-Thought Safety Reasoning Mechanism to Jailbreak Large Reasoning Models, Including OpenAI o1/o3, DeepSeek-R1, and Gemini 2.0 Flash Thinking [22.760366525219762]
大規模推論モデル(LRM)は先日,その強力な推論能力を安全性チェックにまで拡張した。このベンチマークは、正当な教育プロンプトの下に非常に危険な、または悪意のある要求を偽装するものです。当社の実験では,OpenAI o1/o3,DeepSeek-R1,Gemini 2.0 Flash Thinkingなど,一般的な商用LRMの重大なセキュリティ欠陥が明らかになった。
論文参考訳（メタデータ） (2025-02-18T14:29:12Z)
SafeChain: Safety of Language Models with Long Chain-of-Thought Reasoning Capabilities [21.317245896641136]
ロングチェーン・オブ・シークレット(CoT)推論は、構造化中間ステップを生成し、推論能力を高める。大規模言語モデル(LLM)の安全性に関する現在の研究は、通常、LRMの長いCoTスタイルの出力を見越して、短応答に焦点を当てている。
論文参考訳（メタデータ） (2025-02-17T16:57:56Z)
Safety at Scale: A Comprehensive Survey of Large Model Safety [298.05093528230753]
我々は、敵攻撃、データ中毒、バックドア攻撃、ジェイルブレイクとプロンプトインジェクション攻撃、エネルギー遅延攻撃、データとモデル抽出攻撃、出現するエージェント固有の脅威を含む、大規模なモデルに対する安全脅威の包括的分類を提示する。我々は、大規模なモデル安全性におけるオープンな課題を特定し、議論し、包括的な安全性評価、スケーラブルで効果的な防御機構、持続可能なデータプラクティスの必要性を強調します。
論文参考訳（メタデータ） (2025-02-02T05:14:22Z)
OpenAI o1 System Card [274.83891368890977]
o1モデルシリーズは、思考の連鎖を用いて推論するために大規模な強化学習で訓練されている。本報告では,OpenAI o1およびOpenAI o1-miniモデルに対して実施される安全作業の概要について述べる。
論文参考訳（メタデータ） (2024-12-21T18:04:31Z)
On the Role of Attention Heads in Large Language Model Safety [64.51534137177491]
大規模言語モデル(LLM)は、複数の言語タスクにおいて最先端のパフォーマンスを達成するが、それらの安全ガードレールを回避できる。モデル安全への個人的貢献を評価するため,マルチヘッド対応のための新しい指標として,安全ヘッドImPortant Score(Ships)を提案する。
論文参考訳（メタデータ） (2024-10-17T16:08:06Z)
On Prompt-Driven Safeguarding for Large Language Models [172.13943777203377]
表現空間では、入力クエリは通常、安全プロンプトによって「より高い拒絶」方向に移動される。これらの知見に触発されて,安全性向上,すなわちDROの最適化手法を提案する。安全性プロンプトを継続的かつトレーニング可能な埋め込みとして扱うことで、DROは、その有害性に応じて、クエリの表現を拒否方向に沿ってあるいは反対に移動させることを学ぶ。
論文参考訳（メタデータ） (2024-01-31T17:28:24Z)
Towards Safer Generative Language Models: A Survey on Safety Risks, Evaluations, and Improvements [76.80453043969209]
本調査では,大規模モデルに関する安全研究の枠組みについて述べる。まず、広範囲にわたる安全問題を導入し、その後、大型モデルの安全性評価手法を掘り下げる。トレーニングからデプロイメントまで,大規模なモデルの安全性を高めるための戦略について検討する。
論文参考訳（メタデータ） (2023-02-18T09:32:55Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。