論文の概要: Prompt-Free Diffusion: Taking "Text" out of Text-to-Image Diffusion
Models
- arxiv url: http://arxiv.org/abs/2305.16223v2
- Date: Thu, 1 Jun 2023 02:27:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-02 21:24:36.131505
- Title: Prompt-Free Diffusion: Taking "Text" out of Text-to-Image Diffusion
Models
- Title(参考訳): テキストと画像の拡散モデルから「テキスト」を取り出すプロンプトフリー拡散
- Authors: Xingqian Xu, Jiayi Guo, Zhangyang Wang, Gao Huang, Irfan Essa,
Humphrey Shi
- Abstract要約: テキスト・トゥ・イメージ(T2I)の研究はこの1年で爆発的に成長した。
テキストプロンプトエンジニアリングと、カスタマイズされた結果のための高品質なテキストプロンプトの検索は、科学よりも芸術的だ。
本稿では,事前学習したT2I拡散モデルから"Text"を抽出し,ユーザの負担を軽減した。
- 参考スコア(独自算出の注目度): 94.25020178662392
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-to-image (T2I) research has grown explosively in the past year, owing to
the large-scale pre-trained diffusion models and many emerging personalization
and editing approaches. Yet, one pain point persists: the text prompt
engineering, and searching high-quality text prompts for customized results is
more art than science. Moreover, as commonly argued: "an image is worth a
thousand words" - the attempt to describe a desired image with texts often ends
up being ambiguous and cannot comprehensively cover delicate visual details,
hence necessitating more additional controls from the visual domain. In this
paper, we take a bold step forward: taking "Text" out of a pre-trained T2I
diffusion model, to reduce the burdensome prompt engineering efforts for users.
Our proposed framework, Prompt-Free Diffusion, relies on only visual inputs to
generate new images: it takes a reference image as "context", an optional image
structural conditioning, and an initial noise, with absolutely no text prompt.
The core architecture behind the scene is Semantic Context Encoder (SeeCoder),
substituting the commonly used CLIP-based or LLM-based text encoder. The
reusability of SeeCoder also makes it a convenient drop-in component: one can
also pre-train a SeeCoder in one T2I model and reuse it for another. Through
extensive experiments, Prompt-Free Diffusion is experimentally found to (i)
outperform prior exemplar-based image synthesis approaches; (ii) perform on par
with state-of-the-art T2I models using prompts following the best practice; and
(iii) be naturally extensible to other downstream applications such as anime
figure generation and virtual try-on, with promising quality. Our code and
models are open-sourced at https://github.com/SHI-Labs/Prompt-Free-Diffusion.
- Abstract(参考訳): テキスト・ツー・イメージ(T2I)の研究は、大規模な事前学習による拡散モデルや、新たなパーソナライズと編集アプローチによって、近年爆発的に成長している。
テキストのプロンプトエンジニアリングや、高品質なテキストプロンプトの検索は、科学よりも芸術的だ。
さらに、一般的に議論されているように、「画像は千語に値する」 - 所望の画像をテキストで記述しようとする試みは、しばしば曖昧で、繊細な視覚詳細を包括的にカバーできないため、視覚領域からのさらなる制御が必要となる。
本稿では,事前学習したt2i拡散モデルから"テキスト"を取り出して,ユーザへの迅速なエンジニアリング作業の負担を軽減するという大胆な一歩を踏み出す。
提案するフレームワークであるPrompt-Free Diffusionは、参照イメージを"context"、任意の画像構造条件付け、および初期ノイズとして、まったくテキストプロンプトなしで、新しい画像を生成するための視覚入力のみに依存している。
シーンの背後にあるコアアーキテクチャはセマンティックコンテキストエンコーダ(seecoder)で、一般的なクリップベースまたはllmベースのテキストエンコーダを構成する。
seecoderの再利用性は、t2iモデルでseecoderを事前トレーニングし、別のモデルで再利用することができるため、ドロップインコンポーネントとして便利である。
広範囲な実験により、即席拡散が実験的に検出される。
(i)前例に基づく画像合成手法より優れる。
(ii) ベストプラクティスに従うプロンプトを用いて、最先端のT2Iモデルと同等に実行する。
(iii) アニメフィギュア生成や仮想トライオンといった他の下流アプリケーションにも自然に拡張可能であり、有望な品質を持つ。
私たちのコードとモデルは、https://github.com/shi-labs/prompt-free-diffusionでオープンソースです。
関連論文リスト
- Diffusion Lens: Interpreting Text Encoders in Text-to-Image Pipelines [33.49257838597258]
テキスト間拡散モデル(T2I)は、テキストプロンプトの潜在表現を用いて、画像生成プロセスを導く。
本稿では,その中間表現から画像を生成することによって,T2Iモデルのテキストエンコーダを解析するDiffusion Lensを提案する。
論文 参考訳(メタデータ) (2024-03-09T09:11:49Z) - UDiffText: A Unified Framework for High-quality Text Synthesis in
Arbitrary Images via Character-aware Diffusion Models [25.219960711604728]
本稿では,事前学習した拡散モデルを用いたテキスト画像生成手法を提案する。
我々のアプローチは、オリジナルのCLIPエンコーダを置き換える軽量文字レベルテキストエンコーダの設計と訓練である。
推論段階の精細化プロセスを用いることで、任意に与えられた画像のテキストを合成する際に、顕著に高いシーケンス精度を実現する。
論文 参考訳(メタデータ) (2023-12-08T07:47:46Z) - De-Diffusion Makes Text a Strong Cross-Modal Interface [33.90004746543745]
我々は、事前訓練されたテキスト-画像拡散モデルを用いてデコードを行うオートエンコーダを用いる。
画像を表すDe-Diffusionテキストの精度と包括性を検証する実験。
単一のDe-Diffusionモデルは、さまざまなテキスト・トゥ・イメージツールに対して転送可能なプロンプトを提供するために一般化することができる。
論文 参考訳(メタデータ) (2023-11-01T16:12:40Z) - BLIP-Diffusion: Pre-trained Subject Representation for Controllable
Text-to-Image Generation and Editing [73.74570290836152]
BLIP-Diffusionはマルチモーダル制御をサポートする新しい主観駆動画像生成モデルである。
他の主観駆動生成モデルとは異なり、BLIP-Diffusionは主観表現を提供するために事前訓練された新しいマルチモーダルエンコーダを導入する。
論文 参考訳(メタデータ) (2023-05-24T04:51:04Z) - LLM-grounded Diffusion: Enhancing Prompt Understanding of Text-to-Image
Diffusion Models with Large Language Models [62.75006608940132]
本研究は,テキストから画像への拡散モデルにおいて,迅速な理解能力を高めることを提案する。
提案手法は,新たな2段階プロセスにおいて,事前訓練された大規模言語モデルを用いてグラウンドド生成を行う。
提案手法は,画像の正確な生成において,ベース拡散モデルといくつかの強いベースラインを著しく上回る。
論文 参考訳(メタデータ) (2023-05-23T03:59:06Z) - If at First You Don't Succeed, Try, Try Again: Faithful Diffusion-based
Text-to-Image Generation by Selection [53.320946030761796]
拡散ベースのテキスト・トゥ・イメージ(T2I)モデルは、テキスト・プロンプトへの忠実さを欠く可能性がある。
大規模なT2I拡散モデルは通常想定されるよりも忠実であり、複雑なプロンプトに忠実な画像を生成することができることを示す。
本稿では,テキストプロンプトの候補画像を生成するパイプラインを導入し,自動スコアリングシステムにより最適な画像を選択する。
論文 参考訳(メタデータ) (2023-05-22T17:59:41Z) - Zero-shot Image-to-Image Translation [57.46189236379433]
手動のプロンプトを使わずに元の画像を保存できる画像から画像への変換法であるpix2pix-zeroを提案する。
本稿では,拡散過程全体を通して入力画像の相互注意マップを維持することを目的とした,相互注意誘導を提案する。
本手法では,これらの編集のための追加のトレーニングを必要とせず,既存のテキスト・画像拡散モデルを直接使用することができる。
論文 参考訳(メタデータ) (2023-02-06T18:59:51Z) - eDiffi: Text-to-Image Diffusion Models with an Ensemble of Expert
Denoisers [87.52504764677226]
大規模拡散に基づく生成モデルは、テキスト条件の高解像度画像合成においてブレークスルーをもたらした。
異なる段階合成に特化したテキスト・画像拡散モデルのアンサンブルを訓練する。
eDiffiと呼ばれる拡散モデルのアンサンブルは、同じ推論コストを維持しながらテキストアライメントを改善する。
論文 参考訳(メタデータ) (2022-11-02T17:43:04Z) - Text to Image Generation with Semantic-Spatial Aware GAN [41.73685713621705]
テキストから画像生成(T2I)モデルは、テキスト記述と意味的に一致するフォトリアリズム画像を生成することを目的としている。
本稿では,テキストエンコーダがより良いテキスト情報を活用できるように,エンドツーエンドで訓練された新しいフレームワークSemantic-Spatial Aware GANを提案する。
論文 参考訳(メタデータ) (2021-04-01T15:48:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。