論文の概要: Steering Beyond the Support: Adversarial Training on Unsupervised Jailbroken Activation Simulation
- arxiv url: http://arxiv.org/abs/2605.24535v1
- Date: Sat, 23 May 2026 12:07:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:18.171371
- Title: Steering Beyond the Support: Adversarial Training on Unsupervised Jailbroken Activation Simulation
- Title(参考訳): 支援を超えて動く: 教師なしジェイルブレイクアクティベーションシミュレーションの敵対的訓練
- Authors: Luoyu Chen, Weiqi Wang, Zhiyi Tian, Chenhan Zhang, Feng Wu, Jianhuan Huang, Ahmed Asiri, Shui Yu,
- Abstract要約: ゼロショットジェイルブレイク防御のための二段階対向訓練フレームワークを提案する。
内段では、拒絶状態の有害な要求活性化から外挿することで、多様な脱獄活性化をシミュレートする。
外側のステップでは、潜在的に誘発される操舵場を訓練し、敵のジェイルブレイク状態は、良性を維持しつつ、拒絶領域にプッシュする。
- 参考スコア(独自算出の注目度): 42.60089935868113
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Jailbreak prompts can trigger harmful completions on aligned LLMs, In accordance, safety steering has been proposed: test-time activation interventions that steer jailbreak activations to trigger refusal while preserving benign utility. However, existing steering methods are fundamentally supervised and tied to a static, limited training set, whereas real jailbreaks evolve and are often out-of-distributed from the training set, leading to failures on unseen attacks. In this paper, we tackle the failure on unseen jailbreaks problem, base on unsupervised latent direction discovery. We propose a bi-level adversarial training framework for zero-shot jailbreak defense. In the inner step, we simulate diverse jail-broken activations by extrapolating from refusal-state harmful-request activations via unsupervised latent direction discovery, which expands the coverage of real jailbreak activation subspaces. In the outer step, we train a potential-induced steering field to push these adversarial jailbroken states into refusal regions while keeping benign unchanged. Across three LLMs and six classical jailbreak families, our method achieves strong defense with attack success rates mostly below 5%, and rising subspace coverage throughout training helps explain the improved generalization.
- Abstract(参考訳): ジェイルブレイクプロンプトは、協調LDMの有害な完了を誘発する可能性があるが、それに従って安全ステアリングが提案されている: テスト時アクティベーションの介入は、ジェイルブレイクアクティベーションを操り、良質なユーティリティを保ちながら拒絶を誘発する。
しかし、既存のステアリングメソッドは基本的に監督され、静的で制限されたトレーニングセットに結びついているが、実際のジェイルブレイクは進化し、しばしばトレーニングセットから分離され、目に見えない攻撃の失敗につながる。
本稿では、教師なし潜在方向発見に基づく、目に見えないジェイルブレイク問題に対する障害に対処する。
ゼロショットジェイルブレイク防御のための二段階対向訓練フレームワークを提案する。
内部ステップでは、非教師なし潜在方向発見により、拒絶状態の有害な要求活性化から外挿することで、多様なジェイルブレイク活性化をシミュレートし、実際のジェイルブレイク活性化サブスペースのカバレッジを拡大する。
外側のステップでは、潜在的に誘発される操舵場を訓練し、敵のジェイルブレイク状態は、良性を維持しつつ、拒絶領域にプッシュする。
3つのLDMと6つの古典的ジェイルブレイクファミリーにまたがって、攻撃成功率を5%以下に抑えることができ、訓練を通してサブスペースのカバーが増加し、一般化の進展を説明するのに役立ちます。
関連論文リスト
- Re-Triggering Safeguards within LLMs for Jailbreak Detection [15.26823084609871]
本稿では,大規模言語モデル (LLM) に対するジェイルブレイク攻撃の防止を目的としたジェイルブレイク検出手法を提案する。
このような脱獄プロンプトは本質的に脆弱であり, 組込み破壊法を導入し, 安全対策を再活性化する。
われわれのアプローチは、ホワイトボックスやブラックボックスの設定における最先端のジェイルブレイク攻撃を効果的に防ぎ、適応攻撃に対しても堅牢である。
論文 参考訳(メタデータ) (2026-05-11T14:09:31Z) - JPU: Bridging Jailbreak Defense and Unlearning via On-Policy Path Rectification [18.505062396846565]
大規模言語モデル(LLM)は、しばしばジェイルブレイク攻撃に失敗する。
我々は、安全アンカーへの動的ジェイルブレイクパスの修正のために、$textbfJ$ailbreak $textbfP$ath $textbfU$nlearning (JPU)を提案する。
論文 参考訳(メタデータ) (2026-01-06T13:30:10Z) - LLM Jailbreak Detection for (Almost) Free! [62.466970731998714]
大規模言語モデル(LLM)は、広く使用されている場合、アライメントを通じてセキュリティを高めるが、ジェイルブレイク攻撃の影響を受けない。
ジェイルブレイク検出方法は、他のモデルや複数のモデル推論の助けを借りて、ジェイルブレイク攻撃を緩和する。
本稿では,入力に対する肯定的な指示を前提としたフリージェイルブレイク検出(FJD)を提案する。
論文 参考訳(メタデータ) (2025-09-18T02:42:52Z) - Test-Time Immunization: A Universal Defense Framework Against Jailbreaks for (Multimodal) Large Language Models [80.66766532477973]
テストタイム免疫(TIM)は、自己進化的な方法で様々なジェイルブレイク攻撃に対して適応的に防御することができる。
テストタイム免疫(TIM)は、自己進化的な方法で様々なジェイルブレイク攻撃に対して適応的に防御することができる。
論文 参考訳(メタデータ) (2025-05-28T11:57:46Z) - JailbreaksOverTime: Detecting Jailbreak Attacks Under Distribution Shift [10.737151905158926]
継続的学習を用いてジェイルブレイクを検出し、新しいジェイルブレイクに迅速に適応する方法を示す。
新規のジェイルブレイクを特定するために,教師なしのアクティブモニタリング手法を導入する。
論文 参考訳(メタデータ) (2025-04-28T03:01:51Z) - Layer-Level Self-Exposure and Patch: Affirmative Token Mitigation for Jailbreak Attack Defense [55.77152277982117]
私たちは、jailbreak攻撃から防御するために設計された方法であるLayer-AdvPatcherを紹介します。
私たちは、自己拡張データセットを通じて、大規模言語モデル内の特定のレイヤにパッチを適用するために、未学習の戦略を使用します。
我々の枠組みは、脱獄攻撃の有害性と攻撃の成功率を減らす。
論文 参考訳(メタデータ) (2025-01-05T19:06:03Z) - JailbreakLens: Interpreting Jailbreak Mechanism in the Lens of Representation and Circuit [12.392258585661446]
大規模言語モデル(LLM)はジェイルブレイク攻撃に対して脆弱であり、敵のプロンプトはセキュリティメカニズムをバイパスし、予期せぬ応答を誘発する。
本稿では,Jailbreak機構を表現と回路の両方の観点から解析する解釈フレームワークであるJailbreakLensを提案する。
論文 参考訳(メタデータ) (2024-11-17T16:08:34Z) - EnJa: Ensemble Jailbreak on Large Language Models [69.13666224876408]
大きな言語モデル(LLM)は、安全クリティカルなアプリケーションにますますデプロイされている。
LLMは、悪質なプロンプトを慎重に作り、ポリシーに違反するコンテンツを生成することで、まだジェイルブレイクされる可能性がある。
本稿では,プロンプトレベルのジェイルブレイクを用いて有害な命令を隠蔽し,グラデーションベースの攻撃で攻撃成功率を高め,テンプレートベースのコネクタを介して2種類のジェイルブレイク攻撃を接続する新しいEnJa攻撃を提案する。
論文 参考訳(メタデータ) (2024-08-07T07:46:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。