論文の概要: H-CoT: Hijacking the Chain-of-Thought Safety Reasoning Mechanism to Jailbreak Large Reasoning Models, Including OpenAI o1/o3, DeepSeek-R1, and Gemini 2.0 Flash Thinking
- arxiv url: http://arxiv.org/abs/2502.12893v1
- Date: Tue, 18 Feb 2025 14:29:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-19 14:02:46.405059
- Title: H-CoT: Hijacking the Chain-of-Thought Safety Reasoning Mechanism to Jailbreak Large Reasoning Models, Including OpenAI o1/o3, DeepSeek-R1, and Gemini 2.0 Flash Thinking
- Title(参考訳): H-CoT: OpenAI o1/o3、DeepSeek-R1、およびGemini 2.0 Flashシンキングを含む大規模な推論モデルに対して、チェーン・オブ・ワットの安全推論メカニズムをハイジャックする
- Authors: Martin Kuo, Jianyi Zhang, Aolin Ding, Qinsi Wang, Louis DiValentin, Yujia Bao, Wei Wei, Da-Cheng Juan, Hai Li, Yiran Chen,
- Abstract要約: 大規模推論モデル(LRM)は先日,その強力な推論能力を安全性チェックにまで拡張した。
このベンチマークは、正当な教育プロンプトの下に非常に危険な、または悪意のある要求を偽装するものです。
当社の実験では,OpenAI o1/o3,DeepSeek-R1,Gemini 2.0 Flash Thinkingなど,一般的な商用LRMの重大なセキュリティ欠陥が明らかになった。
- 参考スコア(独自算出の注目度): 22.760366525219762
- License:
- Abstract: Large Reasoning Models (LRMs) have recently extended their powerful reasoning capabilities to safety checks-using chain-of-thought reasoning to decide whether a request should be answered. While this new approach offers a promising route for balancing model utility and safety, its robustness remains underexplored. To address this gap, we introduce Malicious-Educator, a benchmark that disguises extremely dangerous or malicious requests beneath seemingly legitimate educational prompts. Our experiments reveal severe security flaws in popular commercial-grade LRMs, including OpenAI o1/o3, DeepSeek-R1, and Gemini 2.0 Flash Thinking. For instance, although OpenAI's o1 model initially maintains a high refusal rate of about 98%, subsequent model updates significantly compromise its safety; and attackers can easily extract criminal strategies from DeepSeek-R1 and Gemini 2.0 Flash Thinking without any additional tricks. To further highlight these vulnerabilities, we propose Hijacking Chain-of-Thought (H-CoT), a universal and transferable attack method that leverages the model's own displayed intermediate reasoning to jailbreak its safety reasoning mechanism. Under H-CoT, refusal rates sharply decline-dropping from 98% to below 2%-and, in some instances, even transform initially cautious tones into ones that are willing to provide harmful content. We hope these findings underscore the urgent need for more robust safety mechanisms to preserve the benefits of advanced reasoning capabilities without compromising ethical standards.
- Abstract(参考訳): 大規模推論モデル(LRM)は、最近、要求に答えるべきかどうかを決定するために、安全チェックを使用する連鎖推論に強力な推論能力を拡張した。
この新しいアプローチは、モデルユーティリティと安全性のバランスをとるための有望なルートを提供するが、その堅牢性はまだ未定だ。
このギャップに対処するため、私たちはMalicious-Educatorを紹介します。
当社の実験では,OpenAI o1/o3,DeepSeek-R1,Gemini 2.0 Flash Thinkingなど,一般的な商用LRMの重大なセキュリティ欠陥が明らかになった。
例えば、OpenAIのo1モデルは当初、約98%の拒絶率を維持していたが、その後のモデル更新で安全性が著しく損なわれ、攻撃者は追加のトリックなしでDeepSeek-R1とGemini 2.0 Flash Thinkingから犯罪戦略を簡単に抽出できる。
これらの脆弱性をさらに強調するために,H-CoT(Hijacking Chain-of-Thought)を提案する。
H-CoTの下では、拒絶率は98%から2%以下に急激に低下し、場合によっては、注意深い音色を有害なコンテンツを提供するものへと変化させることもある。
これらの知見は、倫理基準を損なうことなく高度な推論能力の利点を維持するために、より堅牢な安全メカニズムの必要性を緊急に示してくれることを願っている。
関連論文リスト
- Don't Command, Cultivate: An Exploratory Study of System-2 Alignment [19.495897656702557]
o1システムカードは、o1モデルをOpenAIの中でもっとも堅牢なものとして識別する。
モデル安全性に及ぼすシステム2思考パターンの影響について検討する。
論文 参考訳(メタデータ) (2024-11-26T03:27:43Z) - Refuse Whenever You Feel Unsafe: Improving Safety in LLMs via Decoupled Refusal Training [67.30423823744506]
本研究では,Large Language Models (LLMs) の安全性チューニングにおける重要なギャップについて考察する。
我々は,LLMに対して,いかなる応答位置においても有害なプロンプトへのコンプライアンスを拒否する権限を与える新しいアプローチであるDecoupled Refusal Training(DeRTa)を導入する。
DeRTaは、(1)安全応答の開始に有害な応答のセグメントを付加することにより、安全でないコンテンツを認識・回避するようモデルに訓練する、(1)有害応答前フィックスによる最大限の類似度推定、(2)有害応答の開始を通して潜在的害から安全拒絶へ継続的に移行する能力を持つ強化遷移最適化(RTO)という2つの新しいコンポーネントを組み込んでいる。
論文 参考訳(メタデータ) (2024-07-12T09:36:33Z) - BEEAR: Embedding-based Adversarial Removal of Safety Backdoors in Instruction-tuned Language Models [57.5404308854535]
大型言語モデル(LLM)における安全バックドア攻撃は、正常な相互作用中の検出を回避しながら、安全でない振る舞いをステルス的に引き起こすことができる。
モデル埋め込み空間において,バックドアトリガーが比較的均一なドリフトを引き起こすという知見を活かした緩和手法であるBEEARを提案する。
両レベル最適化手法は、不要な振る舞いを誘発する普遍的な埋め込み摂動を特定し、モデルパラメータを調整し、これらの摂動に対する安全な振舞いを強化する。
論文 参考訳(メタデータ) (2024-06-24T19:29:47Z) - Watch the Watcher! Backdoor Attacks on Security-Enhancing Diffusion Models [65.30406788716104]
本研究では,セキュリティ強化拡散モデルの脆弱性について検討する。
これらのモデルは、シンプルで効果的なバックドア攻撃であるDIFF2に非常に感受性があることを実証する。
ケーススタディでは、DIFF2は、ベンチマークデータセットとモデル間で、パーフィケーション後の精度と認定精度の両方を著しく削減できることを示している。
論文 参考訳(メタデータ) (2024-06-14T02:39:43Z) - Ring-A-Bell! How Reliable are Concept Removal Methods for Diffusion Models? [52.238883592674696]
Ring-A-Bellは、T2I拡散モデルのためのモデルに依存しないレッドチームツールである。
これは、不適切なコンテンツの生成に対応する拡散モデルに対する問題的プロンプトを特定する。
この結果から,安全プロンプトベンチマークの操作により,既存の安全メカニズムを回避できると考えられるプロンプトを変換できることが示唆された。
論文 参考訳(メタデータ) (2023-10-16T02:11:20Z) - Jailbroken: How Does LLM Safety Training Fail? [92.8748773632051]
ChatGPTの初期リリースに対する"jailbreak"攻撃は、望ましくない振る舞いを引き起こす。
このような攻撃がなぜ成功し、どのように発生できるかを考察する。
障害モードを利用した新たな攻撃は、安全でない要求の収集において、すべてのプロンプトで成功します。
論文 参考訳(メタデータ) (2023-07-05T17:58:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。