論文の概要: Localizing and Editing Knowledge in Text-to-Image Generative Models
- arxiv url: http://arxiv.org/abs/2310.13730v1
- Date: Fri, 20 Oct 2023 17:31:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-25 05:49:38.222597
- Title: Localizing and Editing Knowledge in Text-to-Image Generative Models
- Title(参考訳): テキスト・画像生成モデルにおける知識のローカライズと編集
- Authors: Samyadeep Basu, Nanxuan Zhao, Vlad Morariu, Soheil Feizi, Varun
Manjunatha
- Abstract要約: 異なる属性に関する知識は、独立したコンポーネントにローカライズされず、代わりに条件付きUNetのコンポーネントセットに分散される。
テキスト・ツー・イメージ・モデルの概念を効果的に編集できる高速でデータフリーなモデル編集手法Diff-QuickFixを提案する。
- 参考スコア(独自算出の注目度): 62.02776252311559
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-to-Image Diffusion Models such as Stable-Diffusion and Imagen have
achieved unprecedented quality of photorealism with state-of-the-art FID scores
on MS-COCO and other generation benchmarks. Given a caption, image generation
requires fine-grained knowledge about attributes such as object structure,
style, and viewpoint amongst others. Where does this information reside in
text-to-image generative models? In our paper, we tackle this question and
understand how knowledge corresponding to distinct visual attributes is stored
in large-scale text-to-image diffusion models. We adapt Causal Mediation
Analysis for text-to-image models and trace knowledge about distinct visual
attributes to various (causal) components in the (i) UNet and (ii) text-encoder
of the diffusion model. In particular, we show that unlike generative
large-language models, knowledge about different attributes is not localized in
isolated components, but is instead distributed amongst a set of components in
the conditional UNet. These sets of components are often distinct for different
visual attributes. Remarkably, we find that the CLIP text-encoder in public
text-to-image models such as Stable-Diffusion contains only one causal state
across different visual attributes, and this is the first self-attention layer
corresponding to the last subject token of the attribute in the caption. This
is in stark contrast to the causal states in other language models which are
often the mid-MLP layers. Based on this observation of only one causal state in
the text-encoder, we introduce a fast, data-free model editing method
Diff-QuickFix which can effectively edit concepts in text-to-image models.
DiffQuickFix can edit (ablate) concepts in under a second with a closed-form
update, providing a significant 1000x speedup and comparable editing
performance to existing fine-tuning based editing methods.
- Abstract(参考訳): 安定拡散やイメージnのようなテキストと画像の拡散モデルは、MS-COCOや他の世代ベンチマークで最先端のFIDスコアを用いて、前例のないフォトリアリズムの質を達成している。
キャプションが与えられた場合、画像生成はオブジェクトの構造、スタイル、視点などの属性に関する詳細な知識を必要とする。
この情報は、テキストから画像への生成モデルにどこにあるのか?
本稿では,この問題に取り組み,視覚的特徴に応じた知識が大規模テキスト・画像拡散モデルにどのように格納されているかを理解する。
我々は,テキスト・画像間モデルにおける因果的調停分析と異なる視覚属性に関するトレース知識を,様々な(causal)コンポーネントに適用する。
(i)UNetおよび
(ii)拡散モデルのテキストエンコーダ。
特に、生成型大言語モデルとは異なり、異なる属性に関する知識は分離されたコンポーネントにローカライズされるのではなく、条件付きunetのコンポーネント群に分散されている。
これらのコンポーネントセットは、しばしば異なる視覚的属性で区別される。
注目すべきことに、stable-diffusionのような公開テキスト-画像モデルにおけるクリップテキストエンコーダは、異なる視覚的属性にまたがる1つの因果状態しか含んでおらず、キャプション中の属性の最後の主題トークンに対応する最初のセルフアテンション層である。
これは、MLPの中間層である他の言語モデルにおける因果状態とは対照的である。
テキストエンコーダ内の1つの因果状態のみを観察することにより,テキスト対画像モデルの概念を効果的に編集できる高速でデータフリーなモデル編集手法diff-quickfixを提案する。
DiffQuickFixはクローズドフォームの更新でコンセプトを1秒未満で編集し、1000倍のスピードアップと既存の微調整ベースの編集方法に匹敵する編集性能を提供する。
関連論文リスト
- On Mechanistic Knowledge Localization in Text-to-Image Generative Models [44.208804082687294]
本稿では,テキスト・ツー・イメージモデルにおけるメカニスティック・ローカライゼーションの概念を紹介する。
UNetのクロスアテンション層に介入することで、中間層による出力生成に対する直接的な効果を計測する。
我々は、人気のあるオープンソーステキスト・ツー・イメージモデルにまたがる高速なクローズドフォーム編集手法であるLocoEditを採用している。
論文 参考訳(メタデータ) (2024-05-02T05:19:05Z) - Object-Attribute Binding in Text-to-Image Generation: Evaluation and Control [58.37323932401379]
現在の拡散モデルは、入力としてテキストプロンプトが与えられたイメージを生成するが、テキストで言及されている属性を画像の正しいオブジェクトに正しく結び付けるのに苦労する。
入力文中の構文的制約により視覚的注意マップを制御できる集中的横断注意(FCA)を提案する。
我々は、T2I生成の大幅な改善、特にいくつかのデータセットに対する属性オブジェクトのバインディングを示す。
論文 参考訳(メタデータ) (2024-04-21T20:26:46Z) - DragonDiffusion: Enabling Drag-style Manipulation on Diffusion Models [66.43179841884098]
本研究では,DiffusionモデルにおけるDragスタイルの操作を可能にする新しい画像編集手法DragonDiffusionを提案する。
提案手法は,オブジェクト移動,オブジェクトのリサイズ,オブジェクトの外観置換,コンテンツドラッグングなど,生成された画像や実際の画像に対する様々な編集モードを実現する。
論文 参考訳(メタデータ) (2023-07-05T16:43:56Z) - DiffUTE: Universal Text Editing Diffusion Model [32.384236053455]
汎用的な自己教師型テキスト編集拡散モデル(DiffUTE)を提案する。
それは、その現実的な外観を維持しながら、ソースイメージ内の単語を別の単語に置き換えたり、修正したりすることを目的としている。
提案手法は印象的な性能を実現し,高忠実度画像の編集を可能にする。
論文 参考訳(メタデータ) (2023-05-18T09:06:01Z) - PAIR-Diffusion: A Comprehensive Multimodal Object-Level Image Editor [135.17302411419834]
PAIR Diffusionは、画像内の各オブジェクトの構造と外観を制御する拡散モデルを可能にする汎用フレームワークである。
画像中の各オブジェクトのプロパティを制御できることが、包括的な編集機能に繋がることを示す。
我々のフレームワークは、参照画像ベースの外観編集、自由形形状編集、オブジェクトの追加、バリエーションなど、実際の画像に対する様々なオブジェクトレベルの編集操作を可能にする。
論文 参考訳(メタデータ) (2023-03-30T17:13:56Z) - Editing Implicit Assumptions in Text-to-Image Diffusion Models [48.542005079915896]
テキストから画像への拡散モデルは、画像を生成するときに世界について暗黙の仮定をすることが多い。
本研究では,事前学習した拡散モデルにおいて,与えられた暗黙の仮定を編集することを目的とする。
モデルパラメータの2.2%を1秒以下で変更するため,本手法は極めて効率的である。
論文 参考訳(メタデータ) (2023-03-14T17:14:21Z) - PRedItOR: Text Guided Image Editing with Diffusion Prior [2.3022070933226217]
テキストガイド画像編集は、テキスト埋め込みの計算集約的な最適化や、テキストガイド画像編集のモデル重みの微調整を必要とする。
我々のアーキテクチャは、テキストプロンプト上に条件付きCLIP画像埋め込みを生成する拡散先行モデルと、CLIP画像埋め込みに条件付き画像を生成するために訓練されたカスタムラテント拡散モデルで構成されている。
我々はこれを、逆DDIMなどの既存のアプローチを用いて、画像デコーダの編集を保存し、テキストガイド画像編集を行う構造と組み合わせる。
論文 参考訳(メタデータ) (2023-02-15T22:58:11Z) - ManiCLIP: Multi-Attribute Face Manipulation from Text [104.30600573306991]
テキスト記述に基づく新しい多属性顔操作法を提案する。
本手法は,テキスト関連属性の編集を最小限に抑えた自然な顔を生成する。
論文 参考訳(メタデータ) (2022-10-02T07:22:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。