論文の概要: SafeDream: Safety World Model for Proactive Early Jailbreak Detection
- arxiv url: http://arxiv.org/abs/2604.16824v1
- Date: Sat, 18 Apr 2026 04:31:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-22 14:04:47.902413
- Title: SafeDream: Safety World Model for Proactive Early Jailbreak Detection
- Title(参考訳): SafeDream:予防的早期脱獄検出のための安全世界モデル
- Authors: Bo Yan, Weikai Lin, Yada Zhu, Song Wang,
- Abstract要約: マルチターンジェイルブレイク攻撃は、一見無害な会話のターンにLSMの安全性を徐々に損なう。
LLMの重みを変更することなく外部モジュールとして動作する軽量なワールドモデルベースフレームワークであるSAFEDREAMを提案する。
3つのマルチターンジェイルブレイクベンチマークでは、SAFEDREAMは全てのベンチマーク(1.06-1.20はコンプライアンス前)で最高の検出を達成し、競合する偽陽性率を維持し、検出品質のベースラインを上回っている。
- 参考スコア(独自算出の注目度): 23.14126936942301
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-turn jailbreak attacks progressively erode LLM safety alignment across seemingly innocuous conversation turns, achieving success rates exceeding 90% against state-of-the-art models. Existing alignment-based and guardrail methods suffer from three key limitations: they require costly weight modification, evaluate each turn independently without modeling cumulative safety erosion, and detect attacks only after harmful content has been generated. To address these limitations, we first formulate the proactive early jailbreak detection problem with a new metric, detection lead, that measures how early an attack can be detected before the LLM complies. We then propose SAFEDREAM, a lightweight world-model-based framework that operates as an external module without modifying the LLM's weights. SAFEDREAM introduces three components: (1) a safety state world model that encodes LLM hidden states into a compact safety representation and predicts how it evolves across turns, (2) CUSUM detection that accumulates weak per-turn risk signals into reliable evidence, and (3) contrastive imagination that simultaneously rolls out attack and benign futures in latent space to issue early alarms before jailbreaks occur. On three multi-turn jailbreak benchmarks (XGuard-Train, SafeDialBench, SafeMTData) against 8 baselines, SAFEDREAM achieves the best detection timeliness across all benchmarks (1.06-1.20 turns before compliance) while maintaining competitive false positive rates and outperforming baselines in detection quality.
- Abstract(参考訳): マルチターンジェイルブレイク攻撃は、一見無害な会話を横切るLLMの安全性のアライメントを徐々に減らし、最先端のモデルに対して90%以上の成功率を達成する。
既存のアライメントベースおよびガードレール法は、コストのかかる重量調整が必要であり、累積安全性の侵食をモデル化せずに各ターンを独立に評価し、有害なコンテンツが生成された後のみ攻撃を検出する。
これらの制限に対処するために,我々はまず,LDMに適合する前に攻撃を早期に検出できる新しい指標である検出リードを用いて,前向きの早期ジェイルブレイク検出問題を定式化する。
次に、LLMの重みを変更することなく外部モジュールとして動作する軽量なワールドモデルベースのフレームワークであるSAFEDREAMを提案する。
SAFEDREAMは,(1)LDM隠蔽状態をコンパクトな安全表現にエンコードし,ターン間でどのように進化するかを予測する安全状態世界モデル,(2)ターン当たりのリスク信号の弱い蓄積を信頼性のある証拠にするCUSUM検出,(3)潜伏空間における攻撃と良質な未来を同時にロールアウトしてジェイルブレイクが起こる前に早期警報を発するコントラスト的想像力,の3つのコンポーネントを導入している。
XGuard-Train, SafeDialBench, SafeMTDataの3つのマルチターンジェイルブレイクベンチマークにおいて、SAFEDREAMは、全てのベンチマーク(1.06-1.20はコンプライアンス前)で最高の検出タイムラインを達成し、競合する偽陽性率を維持し、検出品質においてベースラインを上回っている。
関連論文リスト
- ALERT: Zero-shot LLM Jailbreak Detection via Internal Discrepancy Amplification [47.135407245022115]
既存の検出方法は、トレーニングデータに存在するジェイルブレイクテンプレートに依存するジェイルブレイクステータスを主に検出する。
本稿では,階層的に,モジュール単位で,トークン単位での増幅フレームワークを提案する。
これらの知見に基づいて、効率的なゼロショットジェイルブレイク検出器であるALERTを導入する。
論文 参考訳(メタデータ) (2026-01-07T05:30:53Z) - OmniSafeBench-MM: A Unified Benchmark and Toolbox for Multimodal Jailbreak Attack-Defense Evaluation [94.61617176929384]
OmniSafeBench-MMはマルチモーダル・ジェイルブレイク攻撃防御評価のための総合ツールボックスである。
13の代表的な攻撃方法と15の防衛戦略、9つの主要なリスクドメインと50のきめ細かいカテゴリにまたがる多様なデータセットを統合している。
データ、方法論、評価をオープンソースで再現可能なプラットフォームに統合することで、OmniSafeBench-MMは将来の研究のための標準化された基盤を提供する。
論文 参考訳(メタデータ) (2025-12-06T22:56:29Z) - Learning to Detect Unknown Jailbreak Attacks in Large Vision-Language Models [22.796169894587475]
攻撃特化学習からタスク特化学習へ焦点を移すことにより、未知のジェイルブレイク攻撃を正確に検出する一般的なフレームワークを提案する。
実験の結果,AUROCの未知攻撃に対する検出精度は向上し,効率は向上した。
論文 参考訳(メタデータ) (2025-08-08T16:13:28Z) - ARMOR: Aligning Secure and Safe Large Language Models via Meticulous Reasoning [64.32925552574115]
ARMORは、jailbreak戦略を分析し、コアインテントを抽出する、大規模な言語モデルである。
ARMORは最先端の安全性能を達成し、平均有害率は0.002であり、高度な最適化ベースのジェイルブレイクに対する攻撃成功率は0.06である。
論文 参考訳(メタデータ) (2025-07-14T09:05:54Z) - JailDAM: Jailbreak Detection with Adaptive Memory for Vision-Language Model [25.204224437843365]
マルチモーダル大規模言語モデル (MLLM) は視覚言語タスクに優れるが、有害なコンテンツを生成する大きなリスクを生じさせる。
ジェイルブレイク攻撃は、モデル内の安全メカニズムを回避し、不適切なコンテンツや安全でないコンテンツを生成する意図的な操作を指す。
JAILDAMと呼ばれるテスト時間適応フレームワークを導入し、これらの問題に対処する。
論文 参考訳(メタデータ) (2025-04-03T05:00:28Z) - Immune: Improving Safety Against Jailbreaks in Multi-modal LLMs via Inference-Time Alignment [97.38766396447369]
訓練時安全アライメントにもかかわらず、Multimodal Large Language Models (MLLM) はジェイルブレイク攻撃に対して脆弱である。
我々は,ジェイルブレイク攻撃に対する防御のために,制御復号化による安全な報酬モデルを活用する推論時防御フレームワークImmuneを提案する。
論文 参考訳(メタデータ) (2024-11-27T19:00:10Z) - Refuse Whenever You Feel Unsafe: Improving Safety in LLMs via Decoupled Refusal Training [67.30423823744506]
我々は,LLMに対して,いかなる応答位置においても有害なプロンプトへのコンプライアンスを拒否する権限を付与する,新しいアプローチであるDecoupled Refusal Training(DeRTa)を導入する。
DeRTaは,(1)安全応答の開始に有害な応答のセグメントを付加することにより,安全でないコンテンツの認識と回避をモデルに訓練する,(2)有害応答シーケンスを通して潜在的障害から安全拒絶へ移行する能力をモデルに装備する強化遷移最適化(RTO)という,2つの新しいコンポーネントを組み込んでいる。
論文 参考訳(メタデータ) (2024-07-12T09:36:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。