論文の概要: H-CoT: Hijacking the Chain-of-Thought Safety Reasoning Mechanism to Jailbreak Large Reasoning Models, Including OpenAI o1/o3, DeepSeek-R1, and Gemini 2.0 Flash Thinking
- arxiv url: http://arxiv.org/abs/2502.12893v2
- Date: Thu, 27 Feb 2025 01:32:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-28 14:53:27.959044
- Title: H-CoT: Hijacking the Chain-of-Thought Safety Reasoning Mechanism to Jailbreak Large Reasoning Models, Including OpenAI o1/o3, DeepSeek-R1, and Gemini 2.0 Flash Thinking
- Title(参考訳): H-CoT: OpenAI o1/o3、DeepSeek-R1、およびGemini 2.0 Flashシンキングを含む大規模な推論モデルに対して、チェーン・オブ・ワットの安全推論メカニズムをハイジャックする
- Authors: Martin Kuo, Jianyi Zhang, Aolin Ding, Qinsi Wang, Louis DiValentin, Yujia Bao, Wei Wei, Hai Li, Yiran Chen,
- Abstract要約: 大規模推論モデル(LRM)は先日,その強力な推論能力を安全性チェックにまで拡張した。
このベンチマークは、正当な教育プロンプトの下に非常に危険な、または悪意のある要求を偽装するものです。
当社の実験では,OpenAI o1/o3,DeepSeek-R1,Gemini 2.0 Flash Thinkingなど,一般的な商用LRMの重大なセキュリティ欠陥が明らかになった。
- 参考スコア(独自算出の注目度): 17.386871039393718
- License:
- Abstract: Large Reasoning Models (LRMs) have recently extended their powerful reasoning capabilities to safety checks-using chain-of-thought reasoning to decide whether a request should be answered. While this new approach offers a promising route for balancing model utility and safety, its robustness remains underexplored. To address this gap, we introduce Malicious-Educator, a benchmark that disguises extremely dangerous or malicious requests beneath seemingly legitimate educational prompts. Our experiments reveal severe security flaws in popular commercial-grade LRMs, including OpenAI o1/o3, DeepSeek-R1, and Gemini 2.0 Flash Thinking. For instance, although OpenAI's o1 model initially maintains a high refusal rate of about 98%, subsequent model updates significantly compromise its safety; and attackers can easily extract criminal strategies from DeepSeek-R1 and Gemini 2.0 Flash Thinking without any additional tricks. To further highlight these vulnerabilities, we propose Hijacking Chain-of-Thought (H-CoT), a universal and transferable attack method that leverages the model's own displayed intermediate reasoning to jailbreak its safety reasoning mechanism. Under H-CoT, refusal rates sharply decline-dropping from 98% to below 2%-and, in some instances, even transform initially cautious tones into ones that are willing to provide harmful content. We hope these findings underscore the urgent need for more robust safety mechanisms to preserve the benefits of advanced reasoning capabilities without compromising ethical standards.
- Abstract(参考訳): 大規模推論モデル(LRM)は、最近、要求に答えるべきかどうかを決定するために、安全チェックを使用する連鎖推論に強力な推論能力を拡張した。
この新しいアプローチは、モデルユーティリティと安全性のバランスをとるための有望なルートを提供するが、その堅牢性はまだ未定だ。
このギャップに対処するため、私たちはMalicious-Educatorを紹介します。
当社の実験では,OpenAI o1/o3,DeepSeek-R1,Gemini 2.0 Flash Thinkingなど,一般的な商用LRMの重大なセキュリティ欠陥が明らかになった。
例えば、OpenAIのo1モデルは当初、約98%の拒絶率を維持していたが、その後のモデル更新で安全性が著しく損なわれ、攻撃者は追加のトリックなしでDeepSeek-R1とGemini 2.0 Flash Thinkingから犯罪戦略を簡単に抽出できる。
これらの脆弱性をさらに強調するために,H-CoT(Hijacking Chain-of-Thought)を提案する。
H-CoTの下では、拒絶率は98%から2%以下に急激に低下し、場合によっては、注意深い音色を有害なコンテンツを提供するものへと変化させることもある。
これらの知見は、倫理基準を損なうことなく高度な推論能力の利点を維持するために、より堅牢な安全メカニズムの必要性を緊急に示してくれることを願っている。
関連論文リスト
- How Jailbreak Defenses Work and Ensemble? A Mechanistic Investigation [39.44000290664494]
ジェイルブレイク攻撃は、生成モデルのビルトインセーフをバイパスする有害なプロンプトであり、モデルの脆弱性に対する深刻な懸念を引き起こす。
本稿では,標準生成タスクをバイナリ分類問題として再検討することにより,ジェイルブレイク防御を体系的に検討する。
我々は,全てのクエリに対する拒絶率を増加させる安全性シフトと,有害な入力と良質な入力を区別するモデルの能力を向上させる有害性判別という2つの主要な防御メカニズムを同定する。
論文 参考訳(メタデータ) (2025-02-20T12:07:40Z) - The Hidden Risks of Large Reasoning Models: A Safety Assessment of R1 [70.94607997570729]
本稿では,OpenAI-o3およびDeepSeek-R1推論モデルの総合的安全性評価を行う。
本研究では, 現実の応用における強靭性を評価するために, ジェイルブレイクやインジェクションなどの敵攻撃に対する感受性について検討する。
論文 参考訳(メタデータ) (2025-02-18T09:06:07Z) - SafeChain: Safety of Language Models with Long Chain-of-Thought Reasoning Capabilities [21.317245896641136]
ロングチェーン・オブ・シークレット(CoT)推論は、構造化中間ステップを生成し、推論能力を高める。
大規模言語モデル(LLM)の安全性に関する現在の研究は、通常、LRMの長いCoTスタイルの出力を見越して、短応答に焦点を当てている。
論文 参考訳(メタデータ) (2025-02-17T16:57:56Z) - Reasoning-Augmented Conversation for Multi-Turn Jailbreak Attacks on Large Language Models [53.580928907886324]
Reasoning-Augmented Conversationは、新しいマルチターンジェイルブレイクフレームワークである。
有害なクエリを良心的な推論タスクに再構成する。
RACEは,複雑な会話シナリオにおいて,最先端攻撃の有効性を実現する。
論文 参考訳(メタデータ) (2025-02-16T09:27:44Z) - OpenAI o1 System Card [274.83891368890977]
o1モデルシリーズは、思考の連鎖を用いて推論するために大規模な強化学習で訓練されている。
本報告では,OpenAI o1およびOpenAI o1-miniモデルに対して実施される安全作業の概要について述べる。
論文 参考訳(メタデータ) (2024-12-21T18:04:31Z) - Refuse Whenever You Feel Unsafe: Improving Safety in LLMs via Decoupled Refusal Training [67.30423823744506]
本研究では,Large Language Models (LLMs) の安全性チューニングにおける重要なギャップについて考察する。
我々は,LLMに対して,いかなる応答位置においても有害なプロンプトへのコンプライアンスを拒否する権限を与える新しいアプローチであるDecoupled Refusal Training(DeRTa)を導入する。
DeRTaは、(1)安全応答の開始に有害な応答のセグメントを付加することにより、安全でないコンテンツを認識・回避するようモデルに訓練する、(1)有害応答前フィックスによる最大限の類似度推定、(2)有害応答の開始を通して潜在的害から安全拒絶へ継続的に移行する能力を持つ強化遷移最適化(RTO)という2つの新しいコンポーネントを組み込んでいる。
論文 参考訳(メタデータ) (2024-07-12T09:36:33Z) - Watch the Watcher! Backdoor Attacks on Security-Enhancing Diffusion Models [65.30406788716104]
本研究では,セキュリティ強化拡散モデルの脆弱性について検討する。
これらのモデルは、シンプルで効果的なバックドア攻撃であるDIFF2に非常に感受性があることを実証する。
ケーススタディでは、DIFF2は、ベンチマークデータセットとモデル間で、パーフィケーション後の精度と認定精度の両方を著しく削減できることを示している。
論文 参考訳(メタデータ) (2024-06-14T02:39:43Z) - Ring-A-Bell! How Reliable are Concept Removal Methods for Diffusion Models? [52.238883592674696]
Ring-A-Bellは、T2I拡散モデルのためのモデルに依存しないレッドチームツールである。
これは、不適切なコンテンツの生成に対応する拡散モデルに対する問題的プロンプトを特定する。
この結果から,安全プロンプトベンチマークの操作により,既存の安全メカニズムを回避できると考えられるプロンプトを変換できることが示唆された。
論文 参考訳(メタデータ) (2023-10-16T02:11:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。