論文の概要: Espresso: Robust Concept Filtering in Text-to-Image Models
- arxiv url: http://arxiv.org/abs/2404.19227v4
- Date: Fri, 7 Jun 2024 14:28:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-10 19:18:14.432322
- Title: Espresso: Robust Concept Filtering in Text-to-Image Models
- Title(参考訳): Espresso: テキスト・画像モデルにおけるロバストな概念フィルタリング
- Authors: Anudeep Das, Vasisht Duddu, Rui Zhang, N. Asokan,
- Abstract要約: 拡散ベースのテキスト・トゥ・イメージ(T2I)モデルは、与えられたテキスト・プロンプトに対して高忠実な画像を生成する。
トレーニングデータにおける受け入れ難い概念をフィルタリングした後のT2Iモデルのリトレーニングは非効率であり、実用性は低下する。
EspressoはContrastive Language-Image Pre-Trainingに基づく最初の堅牢な概念フィルタである。
- 参考スコア(独自算出の注目度): 15.136993805135537
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion-based text-to-image (T2I) models generate high-fidelity images for given textual prompts. They are trained on large datasets scraped from the Internet, potentially containing unacceptable concepts (e.g., copyright infringing or unsafe). Retraining T2I models after filtering out unacceptable concepts in the training data is inefficient and degrades utility. Hence, there is a need for concept removal techniques (CRTs) which are effective in removing unacceptable concepts, utility-preserving on acceptable concepts, and robust against evasion with adversarial prompts. None of the prior filtering and fine-tuning CRTs satisfy all these requirements simultaneously. We introduce Espresso, the first robust concept filter based on Contrastive Language-Image Pre-Training (CLIP). It identifies unacceptable concepts by projecting the generated image's embedding onto the vector connecting unacceptable and acceptable concepts in the joint text-image embedding space. This ensures robustness by restricting the adversary to adding noise only along this vector, in the direction of the acceptable concept. Further fine-tuning Espresso to separate embeddings of acceptable and unacceptable concepts, while preserving their pairing with image embeddings, ensures both effectiveness and utility. We evaluate Espresso on eleven concepts to show that it is effective (~5% CLIP accuracy on unacceptable concepts), utility-preserving (~93% normalized CLIP score on acceptable concepts), and robust (~4% CLIP accuracy on adversarial prompts for unacceptable concepts). Finally, we present theoretical bounds for the certified robustness of Espresso against adversarial prompts, and an empirical analysis.
- Abstract(参考訳): 拡散ベースのテキスト・トゥ・イメージ(T2I)モデルは、与えられたテキスト・プロンプトに対して高忠実な画像を生成する。
それらはインターネットから取り除かれた大規模なデータセットでトレーニングされており、受け入れがたい概念(著作権侵害や安全でない)を含んでいる可能性がある。
トレーニングデータにおける受け入れ難い概念をフィルタリングした後のT2Iモデルのリトレーニングは非効率であり、実用性は低下する。
したがって、許容できない概念を排除し、許容可能な概念を有効に保存し、敵のプロンプトによる回避に対して堅牢な概念除去技術(CRT)が必要である。
以前のフィルタリングと微調整のCRTはいずれもこれらの要件を同時に満たしていない。
本稿では,Contrastive Language-Image Pre-Training (CLIP) に基づく最初のロバストな概念フィルタであるEspressoを紹介する。
これは、生成した画像の埋め込みを、ジョイントテキストイメージの埋め込み空間における受け入れがたい概念と許容できる概念を接続するベクトルに投影することで、受け入れがたい概念を識別する。
これにより、許容される概念の方向において、このベクトルに沿ってのみノイズを追加する敵を制限することによって、堅牢性を保証する。
さらに微調整されたエスプレッソは、許容可能な概念と許容できない概念の埋め込みを分離すると同時に、イメージ埋め込みとのペアリングを保ち、有効性と有用性の両方を保証する。
Espressoを11種類の概念で評価し,有効性(許容できない概念に対するCLIPの精度〜5%),実用性(許容可能な概念に対するCLIPの正常化スコア~93%),堅牢性(許容できない概念に対する敵対的プロンプトに対するCLIPの精度〜4%)を示す。
最後に,Espressoの対向的プロンプトに対するロバスト性に関する理論的境界,および経験的解析について述べる。
関連論文リスト
- Concept Steerers: Leveraging K-Sparse Autoencoders for Controllable Generations [10.86252546314626]
テキスト・ツー・イメージ生成モデルは、敵対的な攻撃をしがちであり、不安全で非倫理的なコンテンツを不注意に生成する。
我々は,k-スパースオートエンコーダ(k-SAE)を活用して,効率的な,解釈可能な概念操作を実現する新しいフレームワークを提案する。
提案手法は, 安全でない概念除去において$mathbf20.01%$の改善を実現し, スタイル操作に有効であり, 現在の最先端技術よりも$mathbfsim5$x高速である。
論文 参考訳(メタデータ) (2025-01-31T11:52:47Z) - OmniPrism: Learning Disentangled Visual Concept for Image Generation [57.21097864811521]
創造的な視覚概念の生成は、しばしば関連する結果を生み出すために参照イメージ内の特定の概念からインスピレーションを引き出す。
我々は,創造的画像生成のための視覚的概念分離手法であるOmniPrismを提案する。
提案手法は,自然言語で案内される不整合概念表現を学習し,これらの概念を組み込むために拡散モデルを訓練する。
論文 参考訳(メタデータ) (2024-12-16T18:59:52Z) - Continuous Concepts Removal in Text-to-image Diffusion Models [27.262721132177845]
著作権を侵害したり、乱暴な主題を描写するコンテンツを作成するためのテキスト・ツー・イメージモデルの可能性について懸念が高まっている。
本稿では,知識蒸留パラダイムを設計したCCRTという新しい手法を提案する。
一連のテキストプロンプトを使用することで、連続的な概念削除プロセス中のテキストイメージのアライメント動作を制限します。
論文 参考訳(メタデータ) (2024-11-30T20:40:10Z) - Reliable and Efficient Concept Erasure of Text-to-Image Diffusion Models [76.39651111467832]
本稿では,Reliable and Efficient Concept Erasure (RECE)を提案する。
派生した埋め込みによって表現される不適切なコンテンツを緩和するために、RECEはそれらをクロスアテンション層における無害な概念と整合させる。
新たな表現埋め込みの導出と消去を反復的に行い、不適切な概念の徹底的な消去を実現する。
論文 参考訳(メタデータ) (2024-07-17T08:04:28Z) - ConceptPrune: Concept Editing in Diffusion Models via Skilled Neuron Pruning [10.201633236997104]
大規模テキスト・画像拡散モデルでは、印象的な画像生成能力が示されている。
提案するConceptPruneでは,まず,望ましくない概念を生成するための事前学習モデル内の重要な領域を同定する。
芸術的スタイル、ヌード性、オブジェクトの消去、ジェンダーのデバイアスなど、さまざまな概念に対する実験は、ターゲットのコンセプトをごくわずかに刈って効率よく消去できることを実証している。
論文 参考訳(メタデータ) (2024-05-29T16:19:37Z) - Non-confusing Generation of Customized Concepts in Diffusion Models [135.4385383284657]
テキスト誘導拡散モデル(TGDM)を用いた合成概念生成における概念間視覚混乱の共通課題に取り組む。
既存のカスタマイズされた生成方法は、第2ステージの微調整のみに焦点を当て、第1ステージを見下ろしている。
本稿では,CLIF(CLIF)と呼ばれる単純かつ効果的な画像言語微調整法を提案する。
論文 参考訳(メタデータ) (2024-05-11T05:01:53Z) - Multi-Concept T2I-Zero: Tweaking Only The Text Embeddings and Nothing
Else [75.6806649860538]
我々は,事前学習した拡散モデルを用いた自然多概念生成という,より野心的な目標を考える。
マルチコンセプト生成性能を著しく低下させる概念支配と非局所的貢献を観察する。
我々は、より現実的なマルチコンセプトのテキスト・ツー・イメージ生成のために、テキストの埋め込みを微調整することで、上記の問題を克服する最小の低コストのソリューションを設計する。
論文 参考訳(メタデータ) (2023-10-11T12:05:44Z) - Implicit Concept Removal of Diffusion Models [92.55152501707995]
テキスト・ツー・イメージ(T2I)拡散モデルはしばしば、透かしや安全でない画像のような望ましくない概念を不注意に生成する。
幾何学駆動制御に基づく新しい概念除去手法であるGeom-Erasingを提案する。
論文 参考訳(メタデータ) (2023-10-09T17:13:10Z) - Degeneration-Tuning: Using Scrambled Grid shield Unwanted Concepts from
Stable Diffusion [106.42918868850249]
SD重みから不要な概念の内容を保護するために,textbf Degeneration-Tuning (DT) という新しい手法を提案する。
この適応はモデルの重みのレベルで発生するため、DT後のSDは、CrutNetのような他の条件付き拡散フレームワークに移植して不要な概念を保護することができる。
論文 参考訳(メタデータ) (2023-08-02T03:34:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。