論文の概要: Jailbreak to Protect: Buffering and Reinforcing via Temporary Jailbreaking for Safe Fine-Tuning in Large Language Models
- arxiv url: http://arxiv.org/abs/2605.24550v1
- Date: Sat, 23 May 2026 12:35:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:18.233619
- Title: Jailbreak to Protect: Buffering and Reinforcing via Temporary Jailbreaking for Safe Fine-Tuning in Large Language Models
- Title(参考訳): ジェイルブレイクから保護へ:大規模言語モデルにおける安全チューニングのための一時的ジェイルブレイクによるバッファリングと強化
- Authors: Seokil Ham, Jaehyuk Jang, Wonjun Lee, Changick Kim,
- Abstract要約: 本稿では,ユーザの微調整中に有害な更新をバッファリングし,適応後の安全性を向上するBuffer-and-Reinforceファインタニングフレームワークを提案する。
本フレームワークは,ユーザの微調整や計算コストの最小化にともなって,安全性と利便性を向上する。
- 参考スコア(独自算出の注目度): 33.45528815544902
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Fine-tuning-as-a-Service (FaaS) enables personalization of large language models (LLMs), but it can weaken safety-alignment under harmful fine-tuning attacks. Recent work has shown that activating harmful-behavior modules during fine-tuning can prevent models from learning undesired behaviors, but its mechanism remains unclear. In this paper, we revisit temporary jailbreaking as a defense against harmful fine-tuning and provide a gradient-level analysis showing that it saturates safety-degrading gradients while preserving benign task-relevant gradients. Based on this insight, we propose a Buffer-and-Reinforce fine-tuning framework that buffers harmful updates during user fine-tuning and reinforces safety after adaptation. Specifically, BufferLoRA induces temporary jailbreaking as a removable adapter to reduce harmful updates during user fine-tuning. After adaptation, ReinforceLoRA, trained to recover refusal behavior under the temporarily jailbroken state, is integrated with UserLoRA via QR decomposition-based merging to reinforce safety while preserving user-task performance. Extensive experiments show that our framework achieves superior safety and utility with no additional safety data during user fine-tuning and minimal computational cost.
- Abstract(参考訳): ファインチューニング・アズ・ア・サービス(FaaS)は、大規模言語モデル(LLM)のパーソナライズを可能にするが、有害なファインチューニング攻撃による安全性の調整を弱めることができる。
近年の研究では、微調整中に有害な行動モジュールを活性化することで、モデルが望ましくない振る舞いを学習するのを防ぐことが示されているが、そのメカニズムはいまだ不明である。
本稿では,有害な微調整に対する防御手段としての一時的ジェイルブレイクを再考し,良質なタスク関連勾配を保ちながら,安全性劣化勾配を飽和させることを示す勾配レベルの解析を行った。
この知見に基づいて,ユーザの微調整中に有害な更新をバッファリングし,適応後の安全性を向上するBuffer-and-Reinforceファインタニングフレームワークを提案する。
具体的には、BufferLoRAは、ユーザの微調整時に有害な更新を減らすために、削除可能なアダプタとして一時的なジェイルブレイクを誘導する。
適応後、一時的にジェイルブレイク状態下での拒絶行動の回復を訓練したReinforceLoRAは、QR分解ベースのマージを通じてUserLoRAに統合され、ユーザタスクのパフォーマンスを維持しながら安全性を向上する。
大規模な実験により, 利用者の微調整や計算コストの最小化などにより, 安全性と利便性が向上し, 安全性が向上することが示された。
関連論文リスト
- EVA: Editing for Versatile Alignment against Jailbreaks [85.18411558566851]
EVA (Editing for Versatile Alignment against Jailbreaks) は、安全アライメントのための直接モデル編集を開拓する新しいフレームワークである。
EVAは、有害な指示に対するモデルの感受性に責任がある特定のニューロンを特定し、外科的に編集する。
モデルの一般的な推論能力を損なうことなく、有害な振る舞いを効果的に中和する。
論文 参考訳(メタデータ) (2026-05-14T12:16:10Z) - Defending Large Language Models Against Jailbreak Attacks via In-Decoding Safety-Awareness Probing [27.582748494845706]
大規模言語モデル(LLM)は、自然言語タスク全体で印象的なパフォーマンスを達成し、現実のアプリケーションにますますデプロイされている。
大規模な安全確保努力にもかかわらず、最近の研究では、このようなアライメントはしばしば浅く、ジェイルブレイク攻撃に弱いことが示されている。
ジェイルブレイクに成功したとしても、モデルが内部的に、世代毎に遅延した安全関連信号を表示します。
復号中、安全でないコンテンツを早期に検出するために、これらの潜伏安全信号を明示的にサーフェスし、活用する、単純で効果的なアプローチを提案する。
論文 参考訳(メタデータ) (2026-01-15T16:09:10Z) - Curvature-Aware Safety Restoration In LLMs Fine-Tuning [25.423475514922725]
下流タスクのための微調整大型言語モデル(LLM)は、しばしば安全性を損なう。
影響関数と2階最適化を利用する曲率対応アライメント復元法を提案する。
提案手法は, 実用性を維持しつつ, 学習性能を向上しながら, 有害な応答を効率的に低減する。
論文 参考訳(メタデータ) (2025-11-22T12:33:31Z) - Why LLM Safety Guardrails Collapse After Fine-tuning: A Similarity Analysis Between Alignment and Fine-tuning Datasets [64.96967819446553]
本稿では,上流アライメントデータセットと下流微調整タスクの表現類似性のレンズによる安全ガードレールの劣化について検討する。
これらのデータセット間の高い類似性は、安全ガードレールを著しく弱め、モデルがジェイルブレイクの影響を受けやすくする。
これら2種類のデータセット間の類似性が低いと、より堅牢なモデルが得られ、有害度スコアが最大10.33%減少する。
論文 参考訳(メタデータ) (2025-06-05T17:59:55Z) - Shape it Up! Restoring LLM Safety during Finetuning [65.75757313781104]
大型言語モデル(LLM)の微調整は、ユーザ固有のカスタマイズを可能にするが、重大な安全性リスクをもたらす。
動的安全整形(DSS)は,不安全コンテンツを抑えつつ,応答の安全な部分からの学習を強化するための,きめ細かい安全信号を用いたフレームワークである。
STARスコアによって導かれるSTAR-DSSは、微調整リスクを堅牢に軽減し、多様な脅威、データセット、モデルファミリーにまたがる大幅な安全性の向上を提供する。
論文 参考訳(メタデータ) (2025-05-22T18:05:16Z) - Layer-Level Self-Exposure and Patch: Affirmative Token Mitigation for Jailbreak Attack Defense [55.77152277982117]
私たちは、jailbreak攻撃から防御するために設計された方法であるLayer-AdvPatcherを紹介します。
私たちは、自己拡張データセットを通じて、大規模言語モデル内の特定のレイヤにパッチを適用するために、未学習の戦略を使用します。
我々の枠組みは、脱獄攻撃の有害性と攻撃の成功率を減らす。
論文 参考訳(メタデータ) (2025-01-05T19:06:03Z) - Safety Alignment Backfires: Preventing the Re-emergence of Suppressed Concepts in Fine-tuned Text-to-Image Diffusion Models [57.16056181201623]
微調整されたテキストと画像の拡散モデルは、必然的に安全対策を解除し、有害な概念を再現する。
本報告では,Funice-Tuning LoRAコンポーネントとは別に,安全性の低い適応モジュールをトレーニングする,Modular LoRAと呼ばれる新しいソリューションを提案する。
本手法は,新しいタスクにおけるモデルの性能を損なうことなく,有害なコンテンツの再学習を効果的に防止する。
論文 参考訳(メタデータ) (2024-11-30T04:37:38Z) - Pruning for Protection: Increasing Jailbreak Resistance in Aligned LLMs Without Fine-Tuning [6.579419241184795]
我々は、中程度のWANDA刈り取りは、微調整なしでジェイルブレイク攻撃に対する耐性を高めることができることを示した。
5つのカテゴリにまたがって225の有害なタスクのデータセットを導入します。
LLaMA-2は、手動のジェイルブレイク試行で評価した場合、我々のデータセットよりもAdvBenchプロンプトの方がずっと安全であることがわかった。
論文 参考訳(メタデータ) (2024-01-19T18:05:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。