論文の概要: clip2latent: Text driven sampling of a pre-trained StyleGAN using
denoising diffusion and CLIP
- arxiv url: http://arxiv.org/abs/2210.02347v1
- Date: Wed, 5 Oct 2022 15:49:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-06 14:18:26.457097
- Title: clip2latent: Text driven sampling of a pre-trained StyleGAN using
denoising diffusion and CLIP
- Title(参考訳): clip2latent: DenoisingfusionとCLIPを用いた事前訓練されたStyleGANのテキスト駆動サンプリング
- Authors: Justin N. M. Pinkney and Chuan Li
- Abstract要約: 事前学習したCLIPとStyleGANからテキスト・ツー・イメージ・モデルを効率的に作成するための新しい手法を提案する。
外部データや微調整を必要とせずに、既存の生成モデルによるテキスト駆動サンプリングを可能にする。
CLIPのイメージとテキスト埋め込みのアライメントを活用して、条件付き拡散モデルをトレーニングするためのラベル付きデータを必要としないようにする。
- 参考スコア(独自算出の注目度): 1.3733526575192976
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce a new method to efficiently create text-to-image models from a
pre-trained CLIP and StyleGAN. It enables text driven sampling with an existing
generative model without any external data or fine-tuning. This is achieved by
training a diffusion model conditioned on CLIP embeddings to sample latent
vectors of a pre-trained StyleGAN, which we call clip2latent. We leverage the
alignment between CLIP's image and text embeddings to avoid the need for any
text labelled data for training the conditional diffusion model. We demonstrate
that clip2latent allows us to generate high-resolution (1024x1024 pixels)
images based on text prompts with fast sampling, high image quality, and low
training compute and data requirements. We also show that the use of the well
studied StyleGAN architecture, without further fine-tuning, allows us to
directly apply existing methods to control and modify the generated images
adding a further layer of control to our text-to-image pipeline.
- Abstract(参考訳): 事前学習したCLIPとStyleGANからテキスト・ツー・イメージ・モデルを効率的に作成するための新しい手法を提案する。
外部データや微調整なしに、既存の生成モデルでテキスト駆動サンプリングを可能にする。
これは、CLIP埋め込みに条件付き拡散モデルをトレーニングして、トレーニング済みのStyleGANの潜伏ベクトルをサンプリングすることで実現される。
CLIPのイメージとテキスト埋め込みのアライメントを利用して、条件付き拡散モデルのトレーニングのためにラベル付きデータを必要としないようにする。
clip2latentでは,高速サンプリングによるテキストプロンプトによる高解像度(1024×1024ピクセル)画像の生成,高画質,低トレーニング計算とデータ要求を実現する。
また,よく研究されているstyleganアーキテクチャを使えば,さらに微調整することなく,生成した画像の制御や修正に既存の手法を直接適用することが可能であることを示す。
関連論文リスト
- Direct Consistency Optimization for Compositional Text-to-Image
Personalization [73.94505688626651]
テキスト・ツー・イメージ(T2I)拡散モデルは、いくつかの個人画像に微調整された場合、高い一貫性で視覚を生成することができる。
本稿では,参照画像との整合性を最大化しつつ,事前学習したモデルからの偏差を補償することにより,T2Iモデルを微調整する。
論文 参考訳(メタデータ) (2024-02-19T09:52:41Z) - UDiffText: A Unified Framework for High-quality Text Synthesis in
Arbitrary Images via Character-aware Diffusion Models [25.219960711604728]
本稿では,事前学習した拡散モデルを用いたテキスト画像生成手法を提案する。
我々のアプローチは、オリジナルのCLIPエンコーダを置き換える軽量文字レベルテキストエンコーダの設計と訓練である。
推論段階の精細化プロセスを用いることで、任意に与えられた画像のテキストを合成する際に、顕著に高いシーケンス精度を実現する。
論文 参考訳(メタデータ) (2023-12-08T07:47:46Z) - Text-based Person Search without Parallel Image-Text Data [52.63433741872629]
テキストベースの人物探索(TBPS)は,対象者の画像を与えられた自然言語記述に基づいて大きな画像ギャラリーから検索することを目的としている。
既存の手法は、並列画像テキストペアによるトレーニングモデルによって支配されており、収集には非常にコストがかかる。
本稿では,並列画像テキストデータなしでTBPSを探索する試みについて述べる。
論文 参考訳(メタデータ) (2023-05-22T12:13:08Z) - The CLIP Model is Secretly an Image-to-Prompt Converter [26.92989288717742]
本稿は,CLIPモデルが安定拡散で利用されるように,画像のテキストプロンプトへの即時変換機能を備えていることを実証する。
このような画像からプロンプトへの変換は、閉形式で計算される線形射影行列を利用することで実現できる。
論文 参考訳(メタデータ) (2023-05-22T04:52:12Z) - iEdit: Localised Text-guided Image Editing with Weak Supervision [53.082196061014734]
テキスト誘導画像編集のための新しい学習法を提案する。
ソースイメージに条件付けされた画像とテキスト編集プロンプトを生成する。
画像の忠実度、CLIPアライメントスコア、および生成された画像と実際の画像の両方を定性的に編集する点において、画像に対して好ましい結果を示す。
論文 参考訳(メタデータ) (2023-05-10T07:39:14Z) - SceneGenie: Scene Graph Guided Diffusion Models for Image Synthesis [38.22195812238951]
拡散モデルにおけるサンプリングプロセスのための新しいガイダンス手法を提案する。
提案手法では,CLIP埋め込みのセマンティックな特徴によってモデルをガイドし,幾何学的制約を強制する。
本研究は,拡散モデルサンプリングプロセスにおいて,境界ボックスとセグメンテーションマップガイダンスを組み込むことの有効性を示した。
論文 参考訳(メタデータ) (2023-04-28T00:14:28Z) - Variational Distribution Learning for Unsupervised Text-to-Image
Generation [42.3246826401366]
本稿では,訓練中に画像のテキストキャプションが利用できない場合に,ディープニューラルネットワークに基づくテキスト画像生成アルゴリズムを提案する。
画像と対応するテキストの埋め込みを結合空間に適切に整列できる事前訓練されたCLIPモデルを用いる。
画像テキストCLIP埋め込みのペア上での条件付きデータログを最大化することにより、テキスト・画像生成モデルを最適化する。
論文 参考訳(メタデータ) (2023-03-28T16:18:56Z) - SpaText: Spatio-Textual Representation for Controllable Image Generation [61.89548017729586]
SpaTextはオープン語彙シーン制御を用いたテキスト・ツー・イメージ生成の新しい手法である。
シーン全体を記述したグローバルテキストプロンプトに加えて、ユーザはセグメンテーションマップを提供する。
現状拡散モデルである画素ベースと潜在条件ベースでの有効性を示す。
論文 参考訳(メタデータ) (2022-11-25T18:59:10Z) - eDiffi: Text-to-Image Diffusion Models with an Ensemble of Expert
Denoisers [87.52504764677226]
大規模拡散に基づく生成モデルは、テキスト条件の高解像度画像合成においてブレークスルーをもたらした。
異なる段階合成に特化したテキスト・画像拡散モデルのアンサンブルを訓練する。
eDiffiと呼ばれる拡散モデルのアンサンブルは、同じ推論コストを維持しながらテキストアライメントを改善する。
論文 参考訳(メタデータ) (2022-11-02T17:43:04Z) - Hierarchical Text-Conditional Image Generation with CLIP Latents [20.476720970770128]
画像表現を明示的に生成することで、フォトリアリズムとキャプションの類似性が最小限に抑えられ、画像の多様性が向上することを示す。
画像表現に条件付けされたデコーダは、その意味とスタイルの両方を保存した画像のバリエーションを生成できる。
論文 参考訳(メタデータ) (2022-04-13T01:10:33Z) - Towards Open-World Text-Guided Face Image Generation and Manipulation [52.83401421019309]
顔画像生成と操作の両方に統一的なフレームワークを提案する。
本手法は,画像とテキストの両方を含むオープンワールドシナリオをサポートし,再トレーニングや微調整,後処理は行わない。
論文 参考訳(メタデータ) (2021-04-18T16:56:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。