論文の概要: Projected Gradient Unlearning for Text-to-Image Diffusion Models: Defending Against Concept Revival Attacks
- arxiv url: http://arxiv.org/abs/2604.21041v1
- Date: Wed, 22 Apr 2026 19:39:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-24 14:40:06.1542
- Title: Projected Gradient Unlearning for Text-to-Image Diffusion Models: Defending Against Concept Revival Attacks
- Title(参考訳): テキスト・画像拡散モデルのための段階的学習計画:再帰的攻撃に対する防御
- Authors: Aljalila Aladawi, Mohammed Talha Alam, Fakhri Karray,
- Abstract要約: 現在のアンラーニングメソッドは共通の弱点を共有している。 下流データでモデルが微調整されたときに、削除された概念が返される。
我々は,予測勾配学習を分類から拡散領域に適応させ,ポストホックハードニングのステップとした。
このアプローチはスタイルの概念の復活を排除し、メタ・アンラーニングに必要な2時間に対して約6分で実行される、オブジェクトの概念に対して大幅に遅延する。
- 参考スコア(独自算出の注目度): 6.0599090126776565
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Machine unlearning for text-to-image diffusion models aims to selectively remove undesirable concepts from pre-trained models without costly retraining. Current unlearning methods share a common weakness: erased concepts return when the model is fine-tuned on downstream data, even when that data is entirely unrelated. We adapt Projected Gradient Unlearning (PGU) from classification to the diffusion domain as a post-hoc hardening step. By constructing a Core Gradient Space (CGS) from the retain concept activations and projecting gradient updates into its orthogonal complement, PGU ensures that subsequent fine-tuning cannot undo the achieved erasure. Applied on top of existing methods (ESD, UCE, Receler), the approach eliminates revival for style concepts and substantially delays it for object concepts, running in roughly 6 minutes versus the ~2 hours required by Meta-Unlearning. PGU and Meta-Unlearning turn out to be complementary: which performs better depends on how the concept is encoded, and retain concept selection should follow visual feature similarity rather than semantic grouping.
- Abstract(参考訳): テキストから画像への拡散モデルの機械学習は、コストのかかる再学習なしに、事前学習されたモデルから望ましくない概念を選択的に除去することを目的としている。
削除された概念は、データが完全に無関係である場合でも、下流データに微調整された時に返される。
我々は,GAU(Projected Gradient Unlearning)を拡散領域に分類し,ポストホック硬化工程として適用した。
コアグラディエント空間(CGS)をコンセプトアクティベーションの保持から構築し、直交補体に勾配の更新を投影することで、PGUは、その後の微調整が達成された消去を阻止できないことを保証している。
既存の手法(ESD、UCE、Receler)をベースとして、この手法はスタイルの概念の復活を排除し、メタ・アンラーニングが必要とする約2時間に対して約6分で実行されるオブジェクトの概念に対して大幅に遅延する。
PGUとMeta-Unlearningは相補的であり、概念のエンコード方法に依存し、概念の選択はセマンティックグルーピングよりも視覚的特徴の類似性に従うべきである。
関連論文リスト
- MeGU: Machine-Guided Unlearning with Target Feature Disentanglement [73.49657372882082]
本稿では,概念意識の再調整を通じて学習をガイドする新しいフレームワークを提案する。
MeGUは制御的かつ選択的に忘れることを可能にし、アンダーアンラーニングとオーバーアンラーニングの両方を効果的に緩和する。
論文 参考訳(メタデータ) (2026-02-19T05:20:31Z) - AEGIS: Adversarial Target-Guided Retention-Data-Free Robust Concept Erasure from Diffusion Models [36.91937453334139]
概念消去は、拡散モデル(DM)が有害なコンテンツを生成するのを防ぐのに役立ちますが、現在の手法は保持のトレードオフに直面します。
本稿では,頑健性と保持性の両方を向上する保持データフリーフレームワークであるAdversarial Erasure with Gradient Informed Synergy (AEGIS)を紹介する。
論文 参考訳(メタデータ) (2026-02-06T15:27:42Z) - ReLAPSe: Reinforcement-Learning-trained Adversarial Prompt Search for Erased concepts in unlearned diffusion models [12.021923446217722]
マシン・アンラーニングは、テキスト・ツー・イメージ拡散モデルから不正な概念を取り除くための鍵となる防御メカニズムである。
この漏洩を悪用する既存の敵のアプローチは、基本的な制限によって制約される。
本稿では,ReLAPSeについて紹介する。ReLAPSeは,概念回復を強化学習問題として再編成する政策ベースの敵対的枠組みである。
論文 参考訳(メタデータ) (2026-01-30T21:56:50Z) - Geometric-Disentangelment Unlearning [106.99160454669902]
忘れたサンプルへの勾配は しばしば 保持された知識を傷つける
本稿では,GU(Geometric-disment Unlearning)を提案する。
本手法はプラグ・アンド・プレイであり,既存の勾配に基づくアンラーニング手法と併用することで副作用を軽減できる。
論文 参考訳(メタデータ) (2025-11-21T09:58:25Z) - GrOCE:Graph-Guided Online Concept Erasure for Text-to-Image Diffusion Models [24.278300091974085]
概念消去は、テキストから画像への拡散モデルから有害、不適切、または著作権のあるコンテンツを除去することを目的としている。
本稿では,GrOCE(Graph-Guided Online Concept Erasure)を提案する。
論文 参考訳(メタデータ) (2025-11-17T04:47:16Z) - Fine-Grained Erasure in Text-to-Image Diffusion-based Foundation Models [56.35484513848296]
FADE(Fine grained Attenuation for Diffusion Erasure)は、テキストから画像への生成モデルのための非学習アルゴリズムである。
関連する概念に最小限の影響で目標概念を排除し、最先端の手法よりも保持性能が12%向上した。
論文 参考訳(メタデータ) (2025-03-25T15:49:48Z) - Unlearning Concepts in Diffusion Model via Concept Domain Correction and Concept Preserving Gradient [20.698305103879232]
我々はtextbfDoCo (textbfDomaintextbfCorrection) という新しい概念領域補正フレームワークを提案する。
本手法は, 対象概念の包括的未学習を保証し, 先進的学習を通して, センシティブな概念とアンカーの概念の出力領域を整合させることにより, 対象概念の包括的未学習を確実にする。
また、矛盾する勾配成分を緩和し、特定の概念を学習しながらモデルの実用性を維持するための概念保存的勾配手術手法も導入する。
論文 参考訳(メタデータ) (2024-05-24T07:47:36Z) - Implicit Concept Removal of Diffusion Models [92.55152501707995]
テキスト・ツー・イメージ(T2I)拡散モデルはしばしば、透かしや安全でない画像のような望ましくない概念を不注意に生成する。
幾何学駆動制御に基づく新しい概念除去手法であるGeom-Erasingを提案する。
論文 参考訳(メタデータ) (2023-10-09T17:13:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。