論文の概要: Towards Resilient Safety-driven Unlearning for Diffusion Models against Downstream Fine-tuning
- arxiv url: http://arxiv.org/abs/2507.16302v1
- Date: Tue, 22 Jul 2025 07:40:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-23 21:34:14.008295
- Title: Towards Resilient Safety-driven Unlearning for Diffusion Models against Downstream Fine-tuning
- Title(参考訳): 下流微調整に対する拡散モデルに対する弾力的安全駆動型未学習に向けて
- Authors: Boheng Li, Renjie Gu, Junjie Wang, Leyi Qi, Yiming Li, Run Wang, Zhan Qin, Tianwei Zhang,
- Abstract要約: テキスト・ツー・イメージ(T2I)拡散モデルは、印象的な画像生成品質を達成し、パーソナライズされたアプリケーション向けに微調整されている。
これらのモデルはしばしば有毒な事前訓練データから安全でない行動を継承し、安全性の懸念が高まる。
本稿では、下流の微調整に対するレジリエンスを高める安全駆動型アンラーニングフレームワークResAlignを提案する。
- 参考スコア(独自算出の注目度): 24.176983833455413
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Text-to-image (T2I) diffusion models have achieved impressive image generation quality and are increasingly fine-tuned for personalized applications. However, these models often inherit unsafe behaviors from toxic pretraining data, raising growing safety concerns. While recent safety-driven unlearning methods have made promising progress in suppressing model toxicity, they are identified to be fragile to downstream fine-tuning, where we reveal that state-of-the-art methods largely fail to retain their effectiveness even when fine-tuned on entirely benign datasets. To mitigate this problem, in this paper, we propose ResAlign, a safety-driven unlearning framework with enhanced resilience against downstream fine-tuning. By modeling downstream fine-tuning as an implicit optimization problem with a Moreau Envelope-based reformulation, ResAlign enables efficient gradient estimation to minimize the recovery of harmful behaviors. Additionally, a meta-learning strategy is proposed to simulate a diverse distribution of fine-tuning scenarios to improve generalization. Extensive experiments across a wide range of datasets, fine-tuning methods, and configurations demonstrate that ResAlign consistently outperforms prior unlearning approaches in retaining safety after downstream fine-tuning while preserving benign generation capability well.
- Abstract(参考訳): テキスト・ツー・イメージ(T2I)拡散モデルは、印象的な画像生成品質を達成し、パーソナライズされたアプリケーション向けに微調整されている。
しかし、これらのモデルはしばしば有害な事前学習データから安全でない行動を継承し、安全性の懸念が高まる。
最近の安全駆動型アンラーニング手法は, モデル毒性の抑制に有望な進歩を遂げているが, 下流の微調整には脆弱であることが確認されている。
この問題を軽減するために,本稿では,下流の微調整に対するレジリエンスを向上した安全駆動型アンラーニングフレームワークであるResAlignを提案する。
下流の微調整をモロー・エンベロープに基づく再構成による暗黙の最適化問題としてモデル化することにより、ResAlignは有害な行動の回復を最小限に抑えるために効率的な勾配推定を可能にする。
さらに,多種多様な微調整シナリオの分布をシミュレートし,一般化を改善するメタラーニング戦略を提案する。
幅広いデータセット、微調整方法、設定にわたる広範な実験により、ResAlignは、良質な生成能力を十分に保ちながら、下流の微調整後の安全性を維持するために、未学習のアプローチを一貫して上回っていることが示された。
関連論文リスト
- GIFT: Gradient-aware Immunization of diffusion models against malicious Fine-Tuning with safe concepts retention [5.429335132446078]
GIFT: 拡散モデルを守るグラディエント対応免疫技術。
論文 参考訳(メタデータ) (2025-07-18T01:47:07Z) - LookAhead Tuning: Safer Language Models via Partial Answer Previews [38.7113305301502]
LookAhead Tuningは、微調整時のモデルの安全性の低下を軽減する。
2つの単純で低リソースで効果的なデータ駆動手法は、部分的な回答プレフィックスをプレビューすることでトレーニングデータを修正する。
論文 参考訳(メタデータ) (2025-03-24T18:11:42Z) - Panacea: Mitigating Harmful Fine-tuning for Large Language Models via Post-fine-tuning Perturbation [58.7395356511539]
有害な微調整攻撃は、微調整サービスに重大なセキュリティリスクをもたらす。
主流防衛は、後の有害な微調整攻撃がより効果的でないように、モデルを予防接種することを目的としている。
微調整後のモデルに適用可能な適応的摂動を最適化するパナセアを提案する。
論文 参考訳(メタデータ) (2025-01-30T02:47:09Z) - Efficient Fine-Tuning and Concept Suppression for Pruned Diffusion Models [93.76814568163353]
本稿では,2段階の拡散モデルに対する新しい最適化フレームワークを提案する。
このフレームワークは、微調整と未学習のプロセスを統一的なフェーズに統合する。
様々なプルーニングや概念未学習の手法と互換性がある。
論文 参考訳(メタデータ) (2024-12-19T19:13:18Z) - Safety Alignment Backfires: Preventing the Re-emergence of Suppressed Concepts in Fine-tuned Text-to-Image Diffusion Models [57.16056181201623]
微調整されたテキストと画像の拡散モデルは、必然的に安全対策を解除し、有害な概念を再現する。
本報告では,Funice-Tuning LoRAコンポーネントとは別に,安全性の低い適応モジュールをトレーニングする,Modular LoRAと呼ばれる新しいソリューションを提案する。
本手法は,新しいタスクにおけるモデルの性能を損なうことなく,有害なコンテンツの再学習を効果的に防止する。
論文 参考訳(メタデータ) (2024-11-30T04:37:38Z) - Transferable Adversarial Attacks on SAM and Its Downstream Models [87.23908485521439]
本稿では,セグメント・アプライス・モデル(SAM)から微調整した様々な下流モデルに対する敵攻撃の可能性について検討する。
未知のデータセットを微調整したモデルに対する敵攻撃の有効性を高めるために,ユニバーサルメタ初期化(UMI)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-26T15:04:04Z) - Enhancing Robustness of Vision-Language Models through Orthogonality Learning and Self-Regularization [77.62516752323207]
そこで本研究では,事前訓練した重みを効率よく微調整する直交微調整法を導入し,頑健さと一般化の強化を実現した。
自己正規化戦略は、OrthSRと呼ばれるVLMのゼロショット一般化の観点から安定性を維持するためにさらに活用される。
筆者らはCLIPとCoOpを再検討し,少数の画像のクラスフィシエーションシナリオにおけるモデルの改善を効果的に行う。
論文 参考訳(メタデータ) (2024-07-11T10:35:53Z) - Query-Free Adversarial Transfer via Undertrained Surrogates [14.112444998191698]
本研究では,ブラックボックス環境における敵攻撃の有効性を改善するための新しい手法を提案する。
本稿では, この手法がアーキテクチャ全体にわたって良好に伝達し, 最先端の手法よりも広いマージンで性能を向上することを示す。
論文 参考訳(メタデータ) (2020-07-01T23:12:22Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。