論文の概要: One Image is Worth a Thousand Words: A Usability Preservable Text-Image Collaborative Erasing Framework
- arxiv url: http://arxiv.org/abs/2505.11131v1
- Date: Fri, 16 May 2025 11:25:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-19 14:36:14.787642
- Title: One Image is Worth a Thousand Words: A Usability Preservable Text-Image Collaborative Erasing Framework
- Title(参考訳): 1つの画像は1万ワードの価値がある: ユーザビリティの保存可能なテキスト-画像の協調的消去フレームワーク
- Authors: Feiran Li, Qianqian Xu, Shilong Bao, Zhiyong Yang, Xiaochun Cao, Qingming Huang,
- Abstract要約: 我々は、最初のテキストイメージ協調概念消去(Co-Erasing)フレームワークを紹介する。
Co-Erasingは、テキストプロンプトと、プロンプトによって誘導されるそれに対応する望ましくないイメージによって、この概念を共同で記述する。
我々は,テキストガイドによる画像概念の洗練戦略を設計し,特定のテキスト概念に最も関係のある視覚的特徴に焦点を当てるようモデルに指示する。
- 参考スコア(独自算出の注目度): 127.07102988701092
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Concept erasing has recently emerged as an effective paradigm to prevent text-to-image diffusion models from generating visually undesirable or even harmful content. However, current removal methods heavily rely on manually crafted text prompts, making it challenging to achieve a high erasure (efficacy) while minimizing the impact on other benign concepts (usability). In this paper, we attribute the limitations to the inherent gap between the text and image modalities, which makes it hard to transfer the intricately entangled concept knowledge from text prompts to the image generation process. To address this, we propose a novel solution by directly integrating visual supervision into the erasure process, introducing the first text-image Collaborative Concept Erasing (Co-Erasing) framework. Specifically, Co-Erasing describes the concept jointly by text prompts and the corresponding undesirable images induced by the prompts, and then reduces the generating probability of the target concept through negative guidance. This approach effectively bypasses the knowledge gap between text and image, significantly enhancing erasure efficacy. Additionally, we design a text-guided image concept refinement strategy that directs the model to focus on visual features most relevant to the specified text concept, minimizing disruption to other benign concepts. Finally, comprehensive experiments suggest that Co-Erasing outperforms state-of-the-art erasure approaches significantly with a better trade-off between efficacy and usability. Codes are available at https://github.com/Ferry-Li/Co-Erasing.
- Abstract(参考訳): 概念消去は、近ごろ、テキストと画像の拡散モデルが視覚的に望ましくない、有害なコンテンツを生成するのを防ぐ効果的なパラダイムとして登場した。
しかし、現在の除去方法は手作業によるテキストプロンプトに大きく依存しているため、他の良質な概念(使用性)への影響を最小限に抑えつつ、高い消去(有効性)を達成することは困難である。
本稿では,テキストプロンプトから画像生成プロセスへの複雑な絡み合った概念知識の転送を困難にしている。
そこで我々は,視覚的監督を消去プロセスに直接統合し,最初のテキストイメージ協調概念消去(Co-Erasing)フレームワークを提案する。
特にCo-Erasingは、テキストプロンプトと、プロンプトによって誘導されるそれに対応する望ましくないイメージを共同で記述し、負の誘導によってターゲット概念の生成確率を減少させる。
このアプローチは、テキストと画像間の知識ギャップを効果的に回避し、消去効果を大幅に向上させる。
さらに,特定テキスト概念に最も関連性の高い視覚的特徴に着目し,他の良性概念の破壊を最小限に抑えるための,テキスト誘導型画像概念改善戦略を設計する。
最後に、包括的な実験から、Co-Erasingは最先端の消去アプローチを著しく上回り、有効性とユーザビリティのトレードオフを改善することが示唆されている。
コードはhttps://github.com/Ferry-Li/Co-Erasing.comで入手できる。
関連論文リスト
- Concept Corrector: Erase concepts on the fly for text-to-image diffusion models [13.065682925662237]
概念消去は、モデルが生成できる望ましくない概念を消去することを目的としている。
本研究では,特定のタイミングで予測される最終生成画像から得られる視覚的特徴に基づいて,対象概念をチェックする概念コレクタを提案する。
パイプライン全体において、我々の手法はモデルパラメータを変更せず、特定のターゲット概念とそれに対応する代替コンテンツのみを必要とする。
論文 参考訳(メタデータ) (2025-02-22T21:53:43Z) - Continuous Concepts Removal in Text-to-image Diffusion Models [27.262721132177845]
著作権を侵害したり、乱暴な主題を描写するコンテンツを作成するためのテキスト・ツー・イメージモデルの可能性について懸念が高まっている。
本稿では,知識蒸留パラダイムを設計したCCRTという新しい手法を提案する。
一連のテキストプロンプトを使用することで、連続的な概念削除プロセス中のテキストイメージのアライメント動作を制限します。
論文 参考訳(メタデータ) (2024-11-30T20:40:10Z) - Growth Inhibitors for Suppressing Inappropriate Image Concepts in Diffusion Models [35.2881940850787]
テキストと画像の拡散モデルは、広範かつ未フィルタリングのトレーニングデータから不適切な概念を不適切な方法で学習する。
本手法は,画像レベルでの微妙な単語の出現を効果的に捉え,ターゲット概念の直接的かつ効率的な消去を可能にする。
論文 参考訳(メタデータ) (2024-08-02T05:17:14Z) - Reliable and Efficient Concept Erasure of Text-to-Image Diffusion Models [76.39651111467832]
本稿では,Reliable and Efficient Concept Erasure (RECE)を提案する。
派生した埋め込みによって表現される不適切なコンテンツを緩和するために、RECEはそれらをクロスアテンション層における無害な概念と整合させる。
新たな表現埋め込みの導出と消去を反復的に行い、不適切な概念の徹底的な消去を実現する。
論文 参考訳(メタデータ) (2024-07-17T08:04:28Z) - Safeguard Text-to-Image Diffusion Models with Human Feedback Inversion [51.931083971448885]
本稿では,Human Feedback Inversion (HFI) というフレームワークを提案する。
実験の結果,画像品質を維持しながら,好ましくないコンテンツ生成を著しく削減し,公的な領域におけるAIの倫理的展開に寄与することが示された。
論文 参考訳(メタデータ) (2024-07-17T05:21:41Z) - Non-confusing Generation of Customized Concepts in Diffusion Models [135.4385383284657]
テキスト誘導拡散モデル(TGDM)を用いた合成概念生成における概念間視覚混乱の共通課題に取り組む。
既存のカスタマイズされた生成方法は、第2ステージの微調整のみに焦点を当て、第1ステージを見下ろしている。
本稿では,CLIF(CLIF)と呼ばれる単純かつ効果的な画像言語微調整法を提案する。
論文 参考訳(メタデータ) (2024-05-11T05:01:53Z) - Multi-Concept T2I-Zero: Tweaking Only The Text Embeddings and Nothing
Else [75.6806649860538]
我々は,事前学習した拡散モデルを用いた自然多概念生成という,より野心的な目標を考える。
マルチコンセプト生成性能を著しく低下させる概念支配と非局所的貢献を観察する。
我々は、より現実的なマルチコンセプトのテキスト・ツー・イメージ生成のために、テキストの埋め込みを微調整することで、上記の問題を克服する最小の低コストのソリューションを設計する。
論文 参考訳(メタデータ) (2023-10-11T12:05:44Z) - Create Your World: Lifelong Text-to-Image Diffusion [75.14353789007902]
本稿では,過去の概念の「破滅的忘れ」を克服するために,ライフロングテキスト・画像拡散モデル(L2DM)を提案する。
我々のL2DMフレームワークは,知識の「破滅的忘れ」に関して,タスク対応メモリ拡張モジュールと弾性概念蒸留モジュールを考案している。
我々のモデルは、質的および定量的な指標の両方の観点から、連続的なテキストプロンプトの範囲にわたって、より忠実な画像を生成することができる。
論文 参考訳(メタデータ) (2023-09-08T16:45:56Z) - ELODIN: Naming Concepts in Embedding Spaces [0.0]
複数の画像にまたがって再利用可能な特定の概念を生成することによって制御を強化する手法を提案する。
本手法はテキストのみのプロンプトよりも大幅に改善されている。
論文 参考訳(メタデータ) (2023-03-07T16:00:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。