論文の概要: Different Paths to Harmful Compliance: Behavioral Side Effects and Mechanistic Divergence Across LLM Jailbreaks
- arxiv url: http://arxiv.org/abs/2604.18510v1
- Date: Mon, 20 Apr 2026 17:01:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:53.011187
- Title: Different Paths to Harmful Compliance: Behavioral Side Effects and Mechanistic Divergence Across LLM Jailbreaks
- Title(参考訳): 有害コンプライアンスへの異なる経路: LLMジェイルブレイクにおける行動側効果と機械的多様性
- Authors: Md Rysul Kabir, Zoran Tiganj,
- Abstract要約: オープンウェイト言語モデルは、いくつかの異なる介入によって安全でないようにすることができる。
安全でない3経路にわたるジェイルブレイクモデルの挙動と力学特性について検討する。
いずれのルートも、ほぼ強制的に有害なコンプライアンスを実現するが、直接的な有害性を超えると、それらが分岐する。
- 参考スコア(独自算出の注目度): 4.726777092009554
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Open-weight language models can be rendered unsafe through several distinct interventions, but the resulting models may differ substantially in capabilities, behavioral profile, and internal failure mode. We study behavioral and mechanistic properties of jailbroken models across three unsafe routes: harmful supervised fine-tuning (SFT), harmful reinforcement learning with verifiable rewards (RLVR), and refusal-suppressing abliteration. All three routes achieve near-ceiling harmful compliance, but they diverge once we move beyond direct harmfulness. RLVR-jailbroken models show minimal degradation and preserve explicit harm recognition in a structured self-audit: they are able to identify harmful prompts and describe how a safe LLM should respond, yet they comply with the harmful request. With RLVR, harmful behavior is strongly suppressed by a reflective safety scaffold: when a harmful prompt is prepended with an instruction to reflect on safety standards, harmful behavior drops close to the baseline. Category-specific RLVR jailbreaks generalize broadly across harmfulness domains. Models jailbroken with SFT show the largest collapse in explicit safety judgments, the highest behavioral drift, and a substantial capability loss on standard benchmarks. Abliteration is family-dependent in both self-audit and response to a reflective safety scaffold. Mechanistic and repair analyses further separate the routes: abliteration is consistent with localized refusal-feature deletion, RLVR with preserved safety geometry but retargeted policy behavior, and SFT with broader distributed drift. Targeted repair partially recovers RLVR-jailbroken models, but has little effect on SFT-jailbroken models. Together, these results show that jailbreaks can produce vastly different properties despite similar harmfulness, with models jailbroken via RLVR showing remarkable similarity to the base model.
- Abstract(参考訳): オープンウェイト言語モデルは、いくつかの異なる介入によって、安全でないようにレンダリングすることができるが、結果として得られるモデルは、機能、行動プロファイル、内部障害モードで大きく異なる場合がある。
危険監視微調整(SFT)、検証可能な報酬(RLVR)による有害強化学習(RLVR)、拒絶抑制アブリーブ化(refusal-pressing abliteration)という3つの安全でないルートにおけるジェイルブレイクモデルの挙動と力学特性について検討した。
いずれのルートも、ほぼ強制的に有害なコンプライアンスを実現するが、直接的な有害性を超えると、それらが分岐する。
RLVRジェイルブレイクモデルは、構造化自己監査において最小限の劣化と明示的な害認識を保ち、有害なプロンプトを識別し、安全なLLMがどう対応すべきかを記述できるが、有害な要求に従う。
RLVRでは、有害な行動が反射性安全足場によって強く抑制される。
カテゴリー特異的なRLVRジェイルブレイクは有害領域で広く一般化する。
SFTでジェイルブレイクされたモデルでは、明示的な安全性判断の最大の崩壊、行動的ドリフト、標準ベンチマークでの実質的な能力喪失が示される。
消音は、自己監査と反射安全足場への応答の両方において家族依存である。
機械的および修復的解析により、失語は局所的な拒絶・機能的削除と一致し、RLVRは保存された安全形状を持つが、ポリシーの振る舞いを再ターゲティングし、SFTは広範囲に分散したドリフトを持つ。
目標修理は、部分的にRLVRジェイルブレイクモデルを回復するが、SFTジェイルブレイクモデルにはほとんど影響しない。
これらの結果から、ジェイルブレイクは同様の有害性にもかかわらず、全く異なる特性を生み出すことができることが示され、RLVRを介してジェイルブレイクされたモデルはベースモデルと著しく類似している。
関連論文リスト
- Pruning Unsafe Tickets: A Resource-Efficient Framework for Safer and More Robust LLMs [23.758453206408102]
現在のアライメントメソッドは、有害なアウトプットを引き起こすアンセーフワークを明示的に削除しない。
本研究では,安全でない動作に関連するパラメータを直接識別し,除去する資源効率の高いプルーニングフレームワークを提案する。
MLモデルに対する実証的な評価では、安全でない世代が大幅に減少し、脱獄攻撃に対する堅牢性が向上し、実用性は最小限に抑えられた。
論文 参考訳(メタデータ) (2026-04-17T07:37:41Z) - Principled Steering via Null-space Projection for Jailbreak Defense in Vision-Language Models [71.11171576590134]
視覚言語モデルは視覚的ジェイルブレイク攻撃によって容易に誘導され、有害なコンテンツを生成する。
本稿では,NullSteerを提案する。
我々はNullSteerが様々なジェイルブレイク攻撃において有害な出力を著しく減少させることを示す。
論文 参考訳(メタデータ) (2026-03-23T15:23:23Z) - Read the Scene, Not the Script: Outcome-Aware Safety for LLMs [22.814397376238755]
現在のモデルでは、アクションと結果の結びつきが弱いのです。
この障害モードをコンシークエンス・ブラインドネス(Consequence-blindness)と定義する。
CS-Chain-4kで微調整されたモデルでは、セマンティックカモフラージュジェイルブレイクに対する明らかな利得を示す。
論文 参考訳(メタデータ) (2025-10-05T18:46:49Z) - DiffuGuard: How Intrinsic Safety is Lost and Found in Diffusion Large Language Models [50.21378052667732]
我々は、ステップ内およびステップ間ダイナミクスという2つの異なる次元にわたるジェイルブレイク攻撃に対して、dLLM脆弱性の詳細な分析を行う。
デュアルステージアプローチによる脆弱性に対処する,トレーニング不要な防御フレームワークであるDiffuGuardを提案する。
論文 参考訳(メタデータ) (2025-09-29T05:17:10Z) - ARMOR: Aligning Secure and Safe Large Language Models via Meticulous Reasoning [64.32925552574115]
ARMORは、jailbreak戦略を分析し、コアインテントを抽出する、大規模な言語モデルである。
ARMORは最先端の安全性能を達成し、平均有害率は0.002であり、高度な最適化ベースのジェイルブレイクに対する攻撃成功率は0.06である。
論文 参考訳(メタデータ) (2025-07-14T09:05:54Z) - Why LLM Safety Guardrails Collapse After Fine-tuning: A Similarity Analysis Between Alignment and Fine-tuning Datasets [64.96967819446553]
本稿では,上流アライメントデータセットと下流微調整タスクの表現類似性のレンズによる安全ガードレールの劣化について検討する。
これらのデータセット間の高い類似性は、安全ガードレールを著しく弱め、モデルがジェイルブレイクの影響を受けやすくする。
これら2種類のデータセット間の類似性が低いと、より堅牢なモデルが得られ、有害度スコアが最大10.33%減少する。
論文 参考訳(メタデータ) (2025-06-05T17:59:55Z) - AdaSteer: Your Aligned LLM is Inherently an Adaptive Jailbreak Defender [99.3105257001476]
本稿では,入力特性に基づいてモデル動作を調整するアダプティブアクティベーションステアリング手法であるAdaSteerを提案する。
AdaSteer は Rejection Direction (RD) と Harmfulness Direction (HD) の両方に沿って入力表現を操る
本研究は,LLMにおけるリアルタイム・フレキシブル安全対策のための解釈可能なモデル内装の可能性を明らかにするものである。
論文 参考訳(メタデータ) (2025-04-13T07:39:17Z) - JailDAM: Jailbreak Detection with Adaptive Memory for Vision-Language Model [25.204224437843365]
マルチモーダル大規模言語モデル (MLLM) は視覚言語タスクに優れるが、有害なコンテンツを生成する大きなリスクを生じさせる。
ジェイルブレイク攻撃は、モデル内の安全メカニズムを回避し、不適切なコンテンツや安全でないコンテンツを生成する意図的な操作を指す。
JAILDAMと呼ばれるテスト時間適応フレームワークを導入し、これらの問題に対処する。
論文 参考訳(メタデータ) (2025-04-03T05:00:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。