論文の概要: Prototype-Guided Concept Erasure in Diffusion Models
- arxiv url: http://arxiv.org/abs/2603.08271v1
- Date: Mon, 09 Mar 2026 11:42:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:15.887677
- Title: Prototype-Guided Concept Erasure in Diffusion Models
- Title(参考訳): 拡散モデルにおけるプロトタイプ誘導概念消去
- Authors: Yuze Cai, Jiahao Lu, Hongxiang Shi, Yichao Zhou, Hong Lu,
- Abstract要約: 概念消去は画像生成において広く利用され、テキスト・ツー・イメージのモデルが望ましくないコンテンツを生成するのを防ぐ。
モデル固有の埋め込み幾何を利用して、ある概念を符号化する潜伏埋め込みを同定する。
これらの埋め込みをクラスタ化することで、モデルの内部表現を要約するコンセプトプロトタイプのセットを導出します。
- 参考スコア(独自算出の注目度): 16.248171349385725
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Concept erasure is extensively utilized in image generation to prevent text-to-image models from generating undesired content. Existing methods can effectively erase narrow concepts that are specific and concrete, such as distinct intellectual properties (e.g. Pikachu) or recognizable characters (e.g. Elon Musk). However, their performance degrades on broad concepts such as ``sexual'' or ``violent'', whose wide scope and multi-faceted nature make them difficult to erase reliably. To overcome this limitation, we exploit the model's intrinsic embedding geometry to identify latent embeddings that encode a given concept. By clustering these embeddings, we derive a set of concept prototypes that summarize the model's internal representations of the concept, and employ them as negative conditioning signals during inference to achieve precise and reliable erasure. Extensive experiments across multiple benchmarks show that our approach achieves substantially more reliable removal of broad concepts while preserving overall image quality, marking a step towards safer and more controllable image generation.
- Abstract(参考訳): 概念消去は画像生成において広く利用され、テキスト・ツー・イメージのモデルが望ましくないコンテンツを生成するのを防ぐ。
既存の方法は、異なる知的特性(例えばピカチュウ)や認識可能な文字(例えばイーロン・マスク)など、具体的で具体的な狭い概念を効果的に消去することができる。
しかし、その演技は「「性」や「暴力」といった幅広い概念に根ざし、その範囲と多面的な性質が、確実に消し去るのを困難にしている。
この制限を克服するために、モデル固有の埋め込み幾何を利用して、与えられた概念を符号化する潜伏埋め込みを特定する。
これらの埋め込みをクラスタ化することにより、モデルの内部表現を要約した一連のコンセプトプロトタイプを導出し、推論中に負の条件付け信号として使用し、正確で信頼性の高い消去を実現する。
複数のベンチマークを対象とする大規模な実験により,画像の質を保ちながら,より信頼性の高い広義概念の除去を実現し,より安全で制御しやすい画像生成に向けた一歩を踏み出した。
関連論文リスト
- VCE: Safe Autoregressive Image Generation via Visual Contrast Exploitation [57.36681904639463]
自己回帰的テキスト・画像モデルを保護する方法はまだ未検討のままである。
コンテンツセマンティクスから安全でない概念を正確に分離する新しいフレームワークであるVisual Contrast Exploitation (VCE)を提案する。
提案手法は,安全でない概念を消去し,無関係な概念の整合性を保ちながら,最先端の成果を効果的に確保できることを実証する。
論文 参考訳(メタデータ) (2025-09-21T09:00:27Z) - CRCE: Coreference-Retention Concept Erasure in Text-to-Image Diffusion Models [19.205261933636645]
本稿では,新しい概念消去フレームワークCRCEを紹介する。
コアフェルデンシャルと保持概念を意味的に明示的にモデル化することにより、CRCEはより正確な概念除去を可能にする。
実験により、CRCEは様々な消去タスクにおいて既存の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2025-03-18T13:09:01Z) - TRCE: Towards Reliable Malicious Concept Erasure in Text-to-Image Diffusion Models [53.937498564603054]
近年のテキスト・画像拡散モデルの進歩により、フォトリアリスティックな画像生成が可能になったが、NSFW画像のような悪意のあるコンテンツを生成するリスクもある。
リスクを軽減するため,概念消去手法が研究され,モデルが特定の概念を学習しやすくする。
本稿では,2段階のコンセプト消去戦略を用いて,信頼性の高い消去と知識保存の効果的なトレードオフを実現するTRCEを提案する。
論文 参考訳(メタデータ) (2025-03-10T14:37:53Z) - Memories of Forgotten Concepts [16.53173953073833]
削除された概念画像は正しい潜伏子を用いて生成可能であることを示す。
これを拡張して、消去された概念セットのすべてのイメージに対して、消去された概念を生成する多くのシードを生成することができることを示す。
この結果から,概念情報の完全消去は困難である可能性が示唆された。
論文 参考訳(メタデータ) (2024-12-01T12:12:24Z) - Safety Without Semantic Disruptions: Editing-free Safe Image Generation via Context-preserving Dual Latent Reconstruction [88.18235230849554]
大規模で未処理のデータセットでマルチモーダル生成モデルをトレーニングすることで、ユーザは有害で安全でない、議論の余地のない、文化的に不適切なアウトプットにさらされる可能性がある。
我々は、安全な埋め込みと、より安全な画像を生成するために、潜伏空間の重み付け可能な総和による修正拡散プロセスを活用する。
安全と検閲のトレードオフを特定し、倫理的AIモデルの開発に必要な視点を提示します。
論文 参考訳(メタデータ) (2024-11-21T09:47:13Z) - ConceptPrune: Concept Editing in Diffusion Models via Skilled Neuron Pruning [10.201633236997104]
大規模テキスト・画像拡散モデルでは、印象的な画像生成能力が示されている。
提案するConceptPruneでは,まず,望ましくない概念を生成するための事前学習モデル内の重要な領域を同定する。
芸術的スタイル、ヌード性、オブジェクトの消去、ジェンダーのデバイアスなど、さまざまな概念に対する実験は、ターゲットのコンセプトをごくわずかに刈って効率よく消去できることを実証している。
論文 参考訳(メタデータ) (2024-05-29T16:19:37Z) - Implicit Concept Removal of Diffusion Models [92.55152501707995]
テキスト・ツー・イメージ(T2I)拡散モデルはしばしば、透かしや安全でない画像のような望ましくない概念を不注意に生成する。
幾何学駆動制御に基づく新しい概念除去手法であるGeom-Erasingを提案する。
論文 参考訳(メタデータ) (2023-10-09T17:13:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。