論文の概要: Self-Jailbreaking: Language Models Can Reason Themselves Out of Safety Alignment After Benign Reasoning Training
- arxiv url: http://arxiv.org/abs/2510.20956v1
- Date: Thu, 23 Oct 2025 19:34:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 09:00:15.304914
- Title: Self-Jailbreaking: Language Models Can Reason Themselves Out of Safety Alignment After Benign Reasoning Training
- Title(参考訳): 自己破壊:言語モデルは、良心的推論訓練後に安全アライメントから脱却できる
- Authors: Zheng-Xin Yong, Stephen H. Bach,
- Abstract要約: 良心的な推論訓練の後、RLMは自身の安全ガードレールを回避するために複数の戦略を使用する。
DeepSeek-R1蒸留、s1.1、Phi-4-mini-reasoning、Nemotronを含む多くのオープンウェイトRLMは自己ジェイルブレイクに悩まされている。
- 参考スコア(独自算出の注目度): 16.077654900815947
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We discover a novel and surprising phenomenon of unintentional misalignment in reasoning language models (RLMs), which we call self-jailbreaking. Specifically, after benign reasoning training on math or code domains, RLMs will use multiple strategies to circumvent their own safety guardrails. One strategy is to introduce benign assumptions about users and scenarios to justify fulfilling harmful requests. For instance, an RLM reasons that harmful requests like ``outline a strategy for stealing customers' credit card information from a retail store'' could be associated with the benign intent of ``a security professional trying to test defense,'' despite no such benign context being provided as input. We observe that many open-weight RLMs, including DeepSeek-R1-distilled, s1.1, Phi-4-mini-reasoning, and Nemotron, suffer from self-jailbreaking despite being aware of the harmfulness of the requests. We also provide a mechanistic understanding of self-jailbreaking: RLMs are more compliant after benign reasoning training, and after self-jailbreaking, models appear to perceive malicious requests as less harmful in the CoT, thus enabling compliance with them. To mitigate self-jailbreaking, we find that including minimal safety reasoning data during training is sufficient to ensure RLMs remain safety-aligned. Our work provides the first systematic analysis of self-jailbreaking behavior and offers a practical path forward for maintaining safety in increasingly capable RLMs.
- Abstract(参考訳): 推論言語モデル (RLM) における意図しない不一致の新たな現象を発見し,これを自己ジェイルブレイクと呼ぶ。
具体的には、数学やコードドメインに関する合理的な推論トレーニングの後、RLMは、自身の安全ガードレールを回避するために、複数の戦略を使用する。
1つの戦略は、有害な要求を満たすことを正当化するために、ユーザとシナリオに関する良心的な仮定を導入することである。
例えば、「顧客のクレジットカード情報を小売店から盗むための戦略をアウトライン化する」といった有害な要求が、「防衛をテストしようとするセキュリティ専門家」の良心に結びついているため、そのような良心的なコンテキストは入力として提供されない。
我々は,DeepSeek-R1-distilled, s1.1, Phi-4-mini-reasoning, Nemotronを含む多くのオープンウェイトRLMが,要求の有害性を認識しながらも自己ジェイルブレイクに悩まされていることを観察した。
我々はまた、自己ジェイルブレーカーの機械的理解も提供する: RLMは、良心的な推論訓練の後により適合しており、自己ジェイルブレーカーの後に、モデルは、CoTにおいて有害でないとして悪意ある要求を知覚し、それらへのコンプライアンスを可能にする。
自己ジェイルブレーキングを緩和するため,トレーニング中の安全推論データを最小限に抑えることで,RTMの安全性確保が図られる。
我々の研究は、自己ジェイルブレイク行動の体系的分析を初めて提供し、より有能なRCMの安全性を維持するための実践的な道筋を提供する。
関連論文リスト
- When Models Outthink Their Safety: Mitigating Self-Jailbreak in Large Reasoning Models with Chain-of-Guardrails [74.63933201261595]
大規模推論モデル(LRM)は複雑な推論タスクにおいて顕著な能力を示す。
LRMは、有害なコンテンツ生成やジェイルブレイク攻撃など、深刻な安全リスクに弱いままである。
安全でない推論ステップを再構成またはバックトラックするトレーニングフレームワークであるChain-of-Guardrail(CoG)を提案する。
論文 参考訳(メタデータ) (2025-10-24T09:32:25Z) - Bag of Tricks for Subverting Reasoning-based Safety Guardrails [62.139297207938036]
推論に基づくガードレールを覆い隠すジェイルブレイク手法の袋を提示する。
攻撃対象は白、グレー、ブラックボックスの設定で、無駄なテンプレート操作から完全に自動化された最適化までさまざまです。
論文 参考訳(メタデータ) (2025-10-13T16:16:44Z) - Between a Rock and a Hard Place: Exploiting Ethical Reasoning to Jailbreak LLMs [19.15237483387352]
本稿では,TLMの倫理的推論を利用して安全を回避するためのフレームワークであるTRIAL(Trolley-problem Reasoning for Interactive Attack Logic)を紹介する。
TRIALは、オープンソースモデルとオープンソースモデルの両方に対して、高いジェイルブレイク成功率を示している。
モデルが高度な推論能力を得るにつれ、そのアライメントの性質は必然的に、より秘密のセキュリティ脆弱性を悪用することを可能にするかもしれない。
論文 参考訳(メタデータ) (2025-09-04T05:53:20Z) - ARMOR: Aligning Secure and Safe Large Language Models via Meticulous Reasoning [64.32925552574115]
ARMORは、jailbreak戦略を分析し、コアインテントを抽出する、大規模な言語モデルである。
ARMORは最先端の安全性能を達成し、平均有害率は0.002であり、高度な最適化ベースのジェイルブレイクに対する攻撃成功率は0.06である。
論文 参考訳(メタデータ) (2025-07-14T09:05:54Z) - Safety is Not Only About Refusal: Reasoning-Enhanced Fine-tuning for Interpretable LLM Safety [41.32331563680919]
大きな言語モデル(LLM)は、従来の安全アライメントの弱点を利用するジェイルブレイク攻撃に対して脆弱である。
解釈可能なLLM安全性のための推論強化ファインタニング(Rational)を提案する。
合理的列車は、応答前に明確な安全な推論を行うようにモデル化する。
論文 参考訳(メタデータ) (2025-03-06T22:47:45Z) - Refuse Whenever You Feel Unsafe: Improving Safety in LLMs via Decoupled Refusal Training [67.30423823744506]
我々は,LLMに対して,いかなる応答位置においても有害なプロンプトへのコンプライアンスを拒否する権限を付与する,新しいアプローチであるDecoupled Refusal Training(DeRTa)を導入する。
DeRTaは,(1)安全応答の開始に有害な応答のセグメントを付加することにより,安全でないコンテンツの認識と回避をモデルに訓練する,(2)有害応答シーケンスを通して潜在的障害から安全拒絶へ移行する能力をモデルに装備する強化遷移最適化(RTO)という,2つの新しいコンポーネントを組み込んでいる。
論文 参考訳(メタデータ) (2024-07-12T09:36:33Z) - Jailbroken: How Does LLM Safety Training Fail? [92.8748773632051]
ChatGPTの初期リリースに対する"jailbreak"攻撃は、望ましくない振る舞いを引き起こす。
このような攻撃がなぜ成功し、どのように発生できるかを考察する。
障害モードを利用した新たな攻撃は、安全でない要求の収集において、すべてのプロンプトで成功します。
論文 参考訳(メタデータ) (2023-07-05T17:58:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。