論文の概要: JPU: Bridging Jailbreak Defense and Unlearning via On-Policy Path Rectification
- arxiv url: http://arxiv.org/abs/2601.03005v1
- Date: Tue, 06 Jan 2026 13:30:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-07 17:02:12.947931
- Title: JPU: Bridging Jailbreak Defense and Unlearning via On-Policy Path Rectification
- Title(参考訳): JPU: オン・ポリティィ・パスによるジェイルブレイク防衛と未学習の橋渡し
- Authors: Xi Wang, Songlei Jian, Shasha Li, Xiaopeng Li, Zhaoye Li, Bin Ji, Baosheng Wang, Jie Yu,
- Abstract要約: 大規模言語モデル(LLM)は、しばしばジェイルブレイク攻撃に失敗する。
我々は、安全アンカーへの動的ジェイルブレイクパスの修正のために、$textbfJ$ailbreak $textbfP$ath $textbfU$nlearning (JPU)を提案する。
- 参考スコア(独自算出の注目度): 18.505062396846565
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Despite extensive safety alignment, Large Language Models (LLMs) often fail against jailbreak attacks. While machine unlearning has emerged as a promising defense by erasing specific harmful parameters, current methods remain vulnerable to diverse jailbreaks. We first conduct an empirical study and discover that this failure mechanism is caused by jailbreaks primarily activating non-erased parameters in the intermediate layers. Further, by probing the underlying mechanism through which these circumvented parameters reassemble into the prohibited output, we verify the persistent existence of dynamic $\textbf{jailbreak paths}$ and show that the inability to rectify them constitutes the fundamental gap in existing unlearning defenses. To bridge this gap, we propose $\textbf{J}$ailbreak $\textbf{P}$ath $\textbf{U}$nlearning (JPU), which is the first to rectify dynamic jailbreak paths towards safety anchors by dynamically mining on-policy adversarial samples to expose vulnerabilities and identify jailbreak paths. Extensive experiments demonstrate that JPU significantly enhances jailbreak resistance against dynamic attacks while preserving the model's utility.
- Abstract(参考訳): 大規模な安全性にもかかわらず、LLM(Large Language Models)は、しばしばジェイルブレイク攻撃に失敗する。
マシン・アンラーニングは特定の有害なパラメータを消去することで有望な防御手段として現れてきたが、現在の手法は多様なジェイルブレイクに対して脆弱なままである。
まず, この障害機構は, 主に中間層における非消去パラメータを活性化するジェイルブレイクによって引き起こされる。
さらに、これらの回避されたパラメータが禁止された出力に再集合する基盤メカニズムを探索することにより、動的$\textbf{jailbreak paths}$の持続的存在を検証し、それらを修正できないことが、既存の未学習防衛の基本的なギャップを構成することを示す。
このギャップを埋めるために、我々は$\textbf{J}$ailbreak $\textbf{P}$ath $\textbf{U}$nlearning (JPU)を提案する。
大規模な実験により、JPUはモデルの有用性を維持しながら、動的攻撃に対するジェイルブレイク耐性を著しく向上することが示された。
関連論文リスト
- LLM Jailbreak Detection for (Almost) Free! [62.466970731998714]
大規模言語モデル(LLM)は、広く使用されている場合、アライメントを通じてセキュリティを高めるが、ジェイルブレイク攻撃の影響を受けない。
ジェイルブレイク検出方法は、他のモデルや複数のモデル推論の助けを借りて、ジェイルブレイク攻撃を緩和する。
本稿では,入力に対する肯定的な指示を前提としたフリージェイルブレイク検出(FJD)を提案する。
論文 参考訳(メタデータ) (2025-09-18T02:42:52Z) - Test-Time Immunization: A Universal Defense Framework Against Jailbreaks for (Multimodal) Large Language Models [80.66766532477973]
テストタイム免疫(TIM)は、自己進化的な方法で様々なジェイルブレイク攻撃に対して適応的に防御することができる。
テストタイム免疫(TIM)は、自己進化的な方法で様々なジェイルブレイク攻撃に対して適応的に防御することができる。
論文 参考訳(メタデータ) (2025-05-28T11:57:46Z) - JBShield: Defending Large Language Models from Jailbreak Attacks through Activated Concept Analysis and Manipulation [22.75124155879712]
大規模言語モデル(LLM)は、ジェイルブレイク攻撃に弱いままである。
本稿では,JBShield-DとJBShield-Mの2つの主要コンポーネントからなる総合的ジェイルブレイク防御フレームワークJBShieldを提案する。
論文 参考訳(メタデータ) (2025-02-11T13:50:50Z) - Layer-Level Self-Exposure and Patch: Affirmative Token Mitigation for Jailbreak Attack Defense [55.77152277982117]
私たちは、jailbreak攻撃から防御するために設計された方法であるLayer-AdvPatcherを紹介します。
私たちは、自己拡張データセットを通じて、大規模言語モデル内の特定のレイヤにパッチを適用するために、未学習の戦略を使用します。
我々の枠組みは、脱獄攻撃の有害性と攻撃の成功率を減らす。
論文 参考訳(メタデータ) (2025-01-05T19:06:03Z) - JailbreakLens: Interpreting Jailbreak Mechanism in the Lens of Representation and Circuit [12.392258585661446]
大規模言語モデル(LLM)はジェイルブレイク攻撃に対して脆弱であり、敵のプロンプトはセキュリティメカニズムをバイパスし、予期せぬ応答を誘発する。
本稿では,Jailbreak機構を表現と回路の両方の観点から解析する解釈フレームワークであるJailbreakLensを提案する。
論文 参考訳(メタデータ) (2024-11-17T16:08:34Z) - What Features in Prompts Jailbreak LLMs? Investigating the Mechanisms Behind Attacks [6.392966062933521]
本研究では,35種類の攻撃方法にまたがる10,800件のジェイルブレイク試行からなる新しいデータセットを提案する。
我々は、脱獄の成功を予測するために、オープンウェイトLLMの隠れ状態に関する線形および非線形プローブを訓練する。
因果関係を確立するために、予測方向のコンプライアンスを体系的にシフトするプローブ誘導潜時介入を構築した。
論文 参考訳(メタデータ) (2024-11-02T17:29:47Z) - EnJa: Ensemble Jailbreak on Large Language Models [69.13666224876408]
大きな言語モデル(LLM)は、安全クリティカルなアプリケーションにますますデプロイされている。
LLMは、悪質なプロンプトを慎重に作り、ポリシーに違反するコンテンツを生成することで、まだジェイルブレイクされる可能性がある。
本稿では,プロンプトレベルのジェイルブレイクを用いて有害な命令を隠蔽し,グラデーションベースの攻撃で攻撃成功率を高め,テンプレートベースのコネクタを介して2種類のジェイルブレイク攻撃を接続する新しいEnJa攻撃を提案する。
論文 参考訳(メタデータ) (2024-08-07T07:46:08Z) - AutoJailbreak: Exploring Jailbreak Attacks and Defenses through a Dependency Lens [83.08119913279488]
本稿では,ジェイルブレイク攻撃と防衛技術における依存関係の体系的解析について述べる。
包括的な、自動化された、論理的な3つのフレームワークを提案します。
このアンサンブル・ジェイルブレイク・アタックと防衛の枠組みは,既存の研究を著しく上回る結果となった。
論文 参考訳(メタデータ) (2024-06-06T07:24:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。