論文の概要: Self-Jailbreaking: Language Models Can Reason Themselves Out of Safety Alignment After Benign Reasoning Training
- arxiv url: http://arxiv.org/abs/2510.20956v1
- Date: Thu, 23 Oct 2025 19:34:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 09:00:15.304914
- Title: Self-Jailbreaking: Language Models Can Reason Themselves Out of Safety Alignment After Benign Reasoning Training
- Title(参考訳): 自己破壊:言語モデルは、良心的推論訓練後に安全アライメントから脱却できる
- Authors: Zheng-Xin Yong, Stephen H. Bach,
- Abstract要約: 良心的な推論訓練の後、RLMは自身の安全ガードレールを回避するために複数の戦略を使用する。
DeepSeek-R1蒸留、s1.1、Phi-4-mini-reasoning、Nemotronを含む多くのオープンウェイトRLMは自己ジェイルブレイクに悩まされている。
- 参考スコア(独自算出の注目度): 16.077654900815947
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We discover a novel and surprising phenomenon of unintentional misalignment in reasoning language models (RLMs), which we call self-jailbreaking. Specifically, after benign reasoning training on math or code domains, RLMs will use multiple strategies to circumvent their own safety guardrails. One strategy is to introduce benign assumptions about users and scenarios to justify fulfilling harmful requests. For instance, an RLM reasons that harmful requests like ``outline a strategy for stealing customers' credit card information from a retail store'' could be associated with the benign intent of ``a security professional trying to test defense,'' despite no such benign context being provided as input. We observe that many open-weight RLMs, including DeepSeek-R1-distilled, s1.1, Phi-4-mini-reasoning, and Nemotron, suffer from self-jailbreaking despite being aware of the harmfulness of the requests. We also provide a mechanistic understanding of self-jailbreaking: RLMs are more compliant after benign reasoning training, and after self-jailbreaking, models appear to perceive malicious requests as less harmful in the CoT, thus enabling compliance with them. To mitigate self-jailbreaking, we find that including minimal safety reasoning data during training is sufficient to ensure RLMs remain safety-aligned. Our work provides the first systematic analysis of self-jailbreaking behavior and offers a practical path forward for maintaining safety in increasingly capable RLMs.
- Abstract(参考訳): 推論言語モデル (RLM) における意図しない不一致の新たな現象を発見し,これを自己ジェイルブレイクと呼ぶ。
具体的には、数学やコードドメインに関する合理的な推論トレーニングの後、RLMは、自身の安全ガードレールを回避するために、複数の戦略を使用する。
1つの戦略は、有害な要求を満たすことを正当化するために、ユーザとシナリオに関する良心的な仮定を導入することである。
例えば、「顧客のクレジットカード情報を小売店から盗むための戦略をアウトライン化する」といった有害な要求が、「防衛をテストしようとするセキュリティ専門家」の良心に結びついているため、そのような良心的なコンテキストは入力として提供されない。
我々は,DeepSeek-R1-distilled, s1.1, Phi-4-mini-reasoning, Nemotronを含む多くのオープンウェイトRLMが,要求の有害性を認識しながらも自己ジェイルブレイクに悩まされていることを観察した。
我々はまた、自己ジェイルブレーカーの機械的理解も提供する: RLMは、良心的な推論訓練の後により適合しており、自己ジェイルブレーカーの後に、モデルは、CoTにおいて有害でないとして悪意ある要求を知覚し、それらへのコンプライアンスを可能にする。
自己ジェイルブレーキングを緩和するため,トレーニング中の安全推論データを最小限に抑えることで,RTMの安全性確保が図られる。
我々の研究は、自己ジェイルブレイク行動の体系的分析を初めて提供し、より有能なRCMの安全性を維持するための実践的な道筋を提供する。
関連論文リスト
- THINKSAFE: Self-Generated Safety Alignment for Reasoning Models [60.10077024249373]
外部の教師がいなくても安心して安心できるフレームワークであるThinkSafeを提案する。
我々の重要な洞察は、コンプライアンスは安全メカニズムを抑制するが、モデルはしばしば害を特定するために潜伏した知識を保持することである。
DeepSeek-R1-DistillとQwen3の実験では、ThinkSafeは推論能力を維持しながら安全性を大幅に向上している。
論文 参考訳(メタデータ) (2026-01-30T16:31:02Z) - When Models Outthink Their Safety: Mitigating Self-Jailbreak in Large Reasoning Models with Chain-of-Guardrails [74.63933201261595]
大規模推論モデル(LRM)は複雑な推論タスクにおいて顕著な能力を示す。
LRMは、有害なコンテンツ生成やジェイルブレイク攻撃など、深刻な安全リスクに弱いままである。
安全でない推論ステップを再構成またはバックトラックするトレーニングフレームワークであるChain-of-Guardrail(CoG)を提案する。
論文 参考訳(メタデータ) (2025-10-24T09:32:25Z) - Bag of Tricks for Subverting Reasoning-based Safety Guardrails [62.139297207938036]
推論に基づくガードレールを覆い隠すジェイルブレイク手法の袋を提示する。
攻撃対象は白、グレー、ブラックボックスの設定で、無駄なテンプレート操作から完全に自動化された最適化までさまざまです。
論文 参考訳(メタデータ) (2025-10-13T16:16:44Z) - Between a Rock and a Hard Place: Exploiting Ethical Reasoning to Jailbreak LLMs [19.15237483387352]
本稿では,TLMの倫理的推論を利用して安全を回避するためのフレームワークであるTRIAL(Trolley-problem Reasoning for Interactive Attack Logic)を紹介する。
TRIALは、オープンソースモデルとオープンソースモデルの両方に対して、高いジェイルブレイク成功率を示している。
モデルが高度な推論能力を得るにつれ、そのアライメントの性質は必然的に、より秘密のセキュリティ脆弱性を悪用することを可能にするかもしれない。
論文 参考訳(メタデータ) (2025-09-04T05:53:20Z) - LLMs Encode Harmfulness and Refusal Separately [38.953626527935384]
LLMは有害な指示を拒否するように訓練されていますが、単に拒否する以上の有害性を理解しているのでしょうか?
我々は,LLMの安全性メカニズム,すなわち有害性を分析するための新しい次元を同定し,拒絶とは別の概念として内部的にコード化する。
特定のジェイルブレイク法は、モデルの内部の有害性に対する信念を逆転させることなく、拒絶信号を減らすことで機能する。
論文 参考訳(メタデータ) (2025-07-16T03:48:03Z) - ARMOR: Aligning Secure and Safe Large Language Models via Meticulous Reasoning [64.32925552574115]
ARMORは、jailbreak戦略を分析し、コアインテントを抽出する、大規模な言語モデルである。
ARMORは最先端の安全性能を達成し、平均有害率は0.002であり、高度な最適化ベースのジェイルブレイクに対する攻撃成功率は0.06である。
論文 参考訳(メタデータ) (2025-07-14T09:05:54Z) - Safety is Not Only About Refusal: Reasoning-Enhanced Fine-tuning for Interpretable LLM Safety [41.32331563680919]
大きな言語モデル(LLM)は、従来の安全アライメントの弱点を利用するジェイルブレイク攻撃に対して脆弱である。
解釈可能なLLM安全性のための推論強化ファインタニング(Rational)を提案する。
合理的列車は、応答前に明確な安全な推論を行うようにモデル化する。
論文 参考訳(メタデータ) (2025-03-06T22:47:45Z) - Layer-Level Self-Exposure and Patch: Affirmative Token Mitigation for Jailbreak Attack Defense [55.77152277982117]
私たちは、jailbreak攻撃から防御するために設計された方法であるLayer-AdvPatcherを紹介します。
私たちは、自己拡張データセットを通じて、大規模言語モデル内の特定のレイヤにパッチを適用するために、未学習の戦略を使用します。
我々の枠組みは、脱獄攻撃の有害性と攻撃の成功率を減らす。
論文 参考訳(メタデータ) (2025-01-05T19:06:03Z) - DROJ: A Prompt-Driven Attack against Large Language Models [0.0]
大規模言語モデル(LLM)は、様々な自然言語処理タスクにまたがる例外的な機能を示している。
大規模なアライメント努力にもかかわらず、LLMは相変わらず敵の脱獄攻撃を受けやすいままである。
我々はDROJ(Directed Rrepresentation Optimization Jailbreak)という新しいアプローチを導入する。
論文 参考訳(メタデータ) (2024-11-14T01:48:08Z) - Refuse Whenever You Feel Unsafe: Improving Safety in LLMs via Decoupled Refusal Training [67.30423823744506]
我々は,LLMに対して,いかなる応答位置においても有害なプロンプトへのコンプライアンスを拒否する権限を付与する,新しいアプローチであるDecoupled Refusal Training(DeRTa)を導入する。
DeRTaは,(1)安全応答の開始に有害な応答のセグメントを付加することにより,安全でないコンテンツの認識と回避をモデルに訓練する,(2)有害応答シーケンスを通して潜在的障害から安全拒絶へ移行する能力をモデルに装備する強化遷移最適化(RTO)という,2つの新しいコンポーネントを組み込んでいる。
論文 参考訳(メタデータ) (2024-07-12T09:36:33Z) - How Alignment and Jailbreak Work: Explain LLM Safety through Intermediate Hidden States [65.45603614354329]
大規模言語モデル(LLM)は、悪意のあるユーザ入力に対する応答を避けるために、安全アライメントに依存している。
ジェイルブレイクは安全ガードレールを回避でき、LLMは有害な内容を生成する。
中間隠蔽状態を通してLSMの安全性を説明するために弱い分類器を用いる。
論文 参考訳(メタデータ) (2024-06-09T05:04:37Z) - Jailbroken: How Does LLM Safety Training Fail? [92.8748773632051]
ChatGPTの初期リリースに対する"jailbreak"攻撃は、望ましくない振る舞いを引き起こす。
このような攻撃がなぜ成功し、どのように発生できるかを考察する。
障害モードを利用した新たな攻撃は、安全でない要求の収集において、すべてのプロンプトで成功します。
論文 参考訳(メタデータ) (2023-07-05T17:58:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。