論文の概要: Diffusion Self-Distillation for Zero-Shot Customized Image Generation
- arxiv url: http://arxiv.org/abs/2411.18616v1
- Date: Wed, 27 Nov 2024 18:58:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-28 15:28:42.646115
- Title: Diffusion Self-Distillation for Zero-Shot Customized Image Generation
- Title(参考訳): ゼロショットカスタマイズ画像生成のための拡散自己蒸留
- Authors: Shengqu Cai, Eric Chan, Yunzhi Zhang, Leonidas Guibas, Jiajun Wu, Gordon Wetzstein,
- Abstract要約: Diffusion Self-Distillationは、テキスト条件のイメージ・ツー・イメージタスクのための独自のデータセットを生成する方法である。
まず、画像のグリッドを作成するために、テキスト・ツー・イメージ拡散モデルのコンテキスト内生成機能を利用する。
次に、キュレートされたペア化されたデータセットを使用して、テキストからイメージへのモデルに微調整する。
- 参考スコア(独自算出の注目度): 40.11194010431839
- License:
- Abstract: Text-to-image diffusion models produce impressive results but are frustrating tools for artists who desire fine-grained control. For example, a common use case is to create images of a specific instance in novel contexts, i.e., "identity-preserving generation". This setting, along with many other tasks (e.g., relighting), is a natural fit for image+text-conditional generative models. However, there is insufficient high-quality paired data to train such a model directly. We propose Diffusion Self-Distillation, a method for using a pre-trained text-to-image model to generate its own dataset for text-conditioned image-to-image tasks. We first leverage a text-to-image diffusion model's in-context generation ability to create grids of images and curate a large paired dataset with the help of a Visual-Language Model. We then fine-tune the text-to-image model into a text+image-to-image model using the curated paired dataset. We demonstrate that Diffusion Self-Distillation outperforms existing zero-shot methods and is competitive with per-instance tuning techniques on a wide range of identity-preservation generation tasks, without requiring test-time optimization.
- Abstract(参考訳): テキストと画像の拡散モデルは印象的な結果をもたらすが、きめ細かいコントロールを望むアーティストにとってはイライラするツールだ。
例えば、一般的なユースケースは、新しいコンテキストにおける特定のインスタンスの画像、すなわち「アイデンティティ保存生成」を作成することである。
この設定は、他の多くのタスク(例えば、relighting)と共に、Image+text-conditionalgenerative modelに自然に適合します。
しかし、そのようなモデルを直接訓練するには、高品質なペアリングデータが不十分である。
本研究では,事前に訓練されたテキスト・ツー・イメージ・モデルを用いて,テキスト・コンディショニングされた画像・画像タスクのための独自のデータセットを生成する拡散自己蒸留法を提案する。
まず、画像のグリッドを作成し、Visual-Language Modelの助けを借りて、大きなペアのデータセットをキュレートする、テキスト間拡散モデルのコンテキスト内生成機能を活用します。
次に、キュレートされたペア化されたデータセットを使用して、テキストからイメージへのモデルに微調整する。
本研究では,Diffusion Self-Distillationが既存のゼロショット法より優れており,テスト時間最適化を必要とせず,広範囲のID保存タスクにおけるインスタンスごとのチューニング技術と競合することを示す。
関連論文リスト
- CLIP-VQDiffusion : Langauge Free Training of Text To Image generation using CLIP and vector quantized diffusion model [2.9849290402462927]
トレーニング済みのCLIPモデルを利用して,マルチモーダルなテキスト画像表現と強力な画像生成機能を実現するCLIP-VQDiffusionを提案する。
筆者らのモデルでは,従来の最先端手法を4.4%向上させ,テキストが分布内外であっても,非常にリアルな画像を生成することができた。
論文 参考訳(メタデータ) (2024-03-22T04:34:59Z) - Scene Graph Conditioning in Latent Diffusion [0.0]
拡散モデルは画像生成に優れるが、テキストプロンプトを用いた詳細なセマンティック制御は欠如している。
対照的に、シーングラフは画像の内容をより正確に表現する。
提案手法を用いることで,より高品質なシーングラフから画像を生成することができることを示す。
論文 参考訳(メタデータ) (2023-10-16T12:26:01Z) - Leveraging Unpaired Data for Vision-Language Generative Models via Cycle
Consistency [47.3163261953469]
現在の視覚言語生成モデルは、最適な性能と一般化能力を達成するために、ペア画像テキストデータの拡張コーパスに依存している。
サイクル整合性の概念に基づく革新的なトレーニングパラダイムであるITITを導入する。
ITITは、分離された画像とテキストデコーダを備えたジョイントな画像テキストエンコーダで構成され、単一のフレームワークで双方向の画像テキスト生成とテキスト画像生成を可能にする。
論文 参考訳(メタデータ) (2023-10-05T17:55:19Z) - Generating Images with Multimodal Language Models [78.6660334861137]
本稿では,凍結したテキストのみの大規模言語モデルを,事前学習した画像エンコーダとデコーダモデルで融合する手法を提案する。
本モデルでは,画像検索,新しい画像生成,マルチモーダル対話など,多モーダルな機能群を示す。
論文 参考訳(メタデータ) (2023-05-26T19:22:03Z) - GlyphDiffusion: Text Generation as Image Generation [100.98428068214736]
テキスト誘導画像生成によるテキスト生成のための新しい拡散手法であるGlyphDiffusionを提案する。
私たちのキーとなるアイデアは、ターゲットのテキストを視覚言語コンテンツを含むグリフイメージとしてレンダリングすることです。
また,本モデルでは,近年の拡散モデルよりも大幅に改善されている。
論文 参考訳(メタデータ) (2023-04-25T02:14:44Z) - Discriminative Class Tokens for Text-to-Image Diffusion Models [102.88033622546251]
自由形式のテキストの表現可能性を利用した非侵襲的な微調整手法を提案する。
本手法は,従来の微調整法と比較して高速で,クラス内の画像の収集を必要としない。
i)標準拡散モデルよりも正確で高品質な生成画像,(ii)低リソース環境でのトレーニングデータの拡張,および(iii)誘導分類器の訓練に使用されるデータ情報を明らかにする。
論文 参考訳(メタデータ) (2023-03-30T05:25:20Z) - eDiffi: Text-to-Image Diffusion Models with an Ensemble of Expert
Denoisers [87.52504764677226]
大規模拡散に基づく生成モデルは、テキスト条件の高解像度画像合成においてブレークスルーをもたらした。
異なる段階合成に特化したテキスト・画像拡散モデルのアンサンブルを訓練する。
eDiffiと呼ばれる拡散モデルのアンサンブルは、同じ推論コストを維持しながらテキストアライメントを改善する。
論文 参考訳(メタデータ) (2022-11-02T17:43:04Z) - LAFITE: Towards Language-Free Training for Text-to-Image Generation [83.2935513540494]
テキストデータなしでテキストから画像への生成モデルをトレーニングするための最初の作業を提案する。
提案手法は,CLIPモデルのマルチモーダルなセマンティック空間の整合性を活用している。
我々は,標準的なテキスト・画像生成タスクにおいて,最先端の結果を得る。
論文 参考訳(メタデータ) (2021-11-27T01:54:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。