論文の概要: Erasure or Erosion? Evaluating Compositional Degradation in Unlearned Text-To-Image Diffusion Models
- arxiv url: http://arxiv.org/abs/2604.04575v1
- Date: Mon, 06 Apr 2026 10:16:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-07 15:49:19.16936
- Title: Erasure or Erosion? Evaluating Compositional Degradation in Unlearned Text-To-Image Diffusion Models
- Title(参考訳): 消去かエロージョンか? 未学習テキスト・画像拡散モデルにおける構成劣化の評価
- Authors: Arian Komaei Koma, Seyed Amir Kasaei, Ali Aghayari, AmirMahdi Sadeghzadeh, Mohammad Hossein Rohban,
- Abstract要約: ポストホック・アンラーニングは、大規模なテキスト・画像拡散モデルから望ましくない概念を取り除くための実践的なメカニズムとして登場した。
我々は、合成テキスト・画像生成のレンズを通して、概念を学習しない体系的な実証的研究を行う。
この結果から,非学習効果と構成整合性との間に一貫したトレードオフが明らかとなった。
- 参考スコア(独自算出の注目度): 7.251531287880316
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Post-hoc unlearning has emerged as a practical mechanism for removing undesirable concepts from large text-to-image diffusion models. However, prior work primarily evaluates unlearning through erasure success; its impact on broader generative capabilities remains poorly understood. In this work, we conduct a systematic empirical study of concept unlearning through the lens of compositional text-to-image generation. Focusing on nudity removal in Stable Diffusion 1.4, we evaluate a diverse set of state-of-the-art unlearning methods using T2I-CompBench++ and GenEval, alongside established unlearning benchmarks. Our results reveal a consistent trade-off between unlearning effectiveness and compositional integrity: methods that achieve strong erasure frequently incur substantial degradation in attribute binding, spatial reasoning, and counting. Conversely, approaches that preserve compositional structure often fail to provide robust erasure. These findings highlight limitations of current evaluation practices and underscore the need for unlearning objectives that explicitly account for semantic preservation beyond targeted suppression.
- Abstract(参考訳): ポストホック・アンラーニングは、大規模なテキスト・画像拡散モデルから望ましくない概念を取り除くための実践的なメカニズムとして登場した。
しかしながら、先行研究は、未学習を消去の成功を通じて評価するものであり、より広範な生成能力への影響はいまだに理解されていない。
本研究では、合成テキスト・画像生成のレンズを通して、概念を学習しない体系的な実証的研究を行う。
安定拡散1.4におけるヌード除去に着目し,T2I-CompBench++とGenEvalを用いた最先端の未学習手法を,既存の未学習ベンチマークとともに評価した。
その結果,非学習効果と構成整合性の間に一貫したトレードオフがあることが判明した: 強い消去を達成する手法は,属性結合,空間的推論,カウントの大幅な劣化を頻繁に引き起こす。
逆に、構成構造を保存するアプローチは、しばしば堅牢な消去を提供しない。
これらの知見は、現在の評価慣行の限界を強調し、標的的抑制以上の意味的保存を明示的に考慮する未学習の目的の必要性を強調している。
関連論文リスト
- Continual Unlearning for Text-to-Image Diffusion Models: A Regularization Perspective [35.50502807526103]
テキスト・画像拡散モデルにおける連続的アンラーニングに関する最初の体系的研究について述べる。
一般的なアンラーニング手法は, 数回だけ要求した後で, 急速にユーティリティーの崩壊に悩まされることを示す。
パラメータドリフトをサブスペースに制約する勾配投影法を提案する。
論文 参考訳(メタデータ) (2025-11-11T08:33:16Z) - Semantic Surgery: Zero-Shot Concept Erasure in Diffusion Models [27.672305802461377]
拡散プロセスの前にテキスト埋め込みを直接操作する,概念消去のための新しいトレーニングフリーゼロショットフレームワークを提案する。
我々は、局所性と画質を保ちながら、優れた完全性と堅牢性を達成する。
この堅牢性により、我々のフレームワークは脅威検出システムとして機能し、より安全なテキスト・画像生成のための実用的なソリューションを提供する。
論文 参考訳(メタデータ) (2025-10-26T22:04:17Z) - Fine-Grained Erasure in Text-to-Image Diffusion-based Foundation Models [56.35484513848296]
FADE(Fine grained Attenuation for Diffusion Erasure)は、テキストから画像への生成モデルのための非学習アルゴリズムである。
関連する概念に最小限の影響で目標概念を排除し、最先端の手法よりも保持性能が12%向上した。
論文 参考訳(メタデータ) (2025-03-25T15:49:48Z) - TRCE: Towards Reliable Malicious Concept Erasure in Text-to-Image Diffusion Models [53.937498564603054]
近年のテキスト・画像拡散モデルの進歩により、フォトリアリスティックな画像生成が可能になったが、NSFW画像のような悪意のあるコンテンツを生成するリスクもある。
リスクを軽減するため,概念消去手法が研究され,モデルが特定の概念を学習しやすくする。
本稿では,2段階のコンセプト消去戦略を用いて,信頼性の高い消去と知識保存の効果的なトレードオフを実現するTRCEを提案する。
論文 参考訳(メタデータ) (2025-03-10T14:37:53Z) - Holistic Unlearning Benchmark: A Multi-Faceted Evaluation for Text-to-Image Diffusion Model Unlearning [11.566380065176526]
概念アンラーニングは、非倫理的または有害なテキスト・ツー・イメージ拡散モデルの使用に対する有望な解決策である。
我々のベンチマークでは、33のターゲットコンセプトがカバーされており、1概念あたり16,000のプロンプトが含まれており、Celebrity、Style、Intellectual Property、NSFWの4つのカテゴリにまたがっている。
本研究は,全ての評価基準において1つの方法が排他的でないことを明らかにする。
論文 参考訳(メタデータ) (2024-10-08T03:30:39Z) - Six-CD: Benchmarking Concept Removals for Benign Text-to-image Diffusion Models [58.74606272936636]
テキスト・ツー・イメージ(T2I)拡散モデルは、テキスト・プロンプトと密接に対応した画像を生成する際、例外的な機能を示す。
モデルは、暴力やヌードの画像を生成したり、不適切な文脈で公共の人物の無許可の肖像画を作成するなど、悪意ある目的のために利用することができる。
悪質な概念や望ましくない概念の発生を防ぐために拡散モデルを変更する概念除去法が提案されている。
論文 参考訳(メタデータ) (2024-06-21T03:58:44Z) - Unlearning Concepts in Diffusion Model via Concept Domain Correction and Concept Preserving Gradient [20.698305103879232]
我々はtextbfDoCo (textbfDomaintextbfCorrection) という新しい概念領域補正フレームワークを提案する。
本手法は, 対象概念の包括的未学習を保証し, 先進的学習を通して, センシティブな概念とアンカーの概念の出力領域を整合させることにより, 対象概念の包括的未学習を確実にする。
また、矛盾する勾配成分を緩和し、特定の概念を学習しながらモデルの実用性を維持するための概念保存的勾配手術手法も導入する。
論文 参考訳(メタデータ) (2024-05-24T07:47:36Z) - Incremental False Negative Detection for Contrastive Learning [95.68120675114878]
本稿では,自己指導型コントラスト学習のための新たな偽陰性検出手法を提案する。
対照的な学習では、検出された偽陰性を明示的に除去する2つの戦略について議論する。
提案手法は,制限された計算内での複数のベンチマークにおいて,他の自己教師付きコントラスト学習フレームワークよりも優れる。
論文 参考訳(メタデータ) (2021-06-07T15:29:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。