論文の概要: Shifted Diffusion for Text-to-image Generation
- arxiv url: http://arxiv.org/abs/2211.15388v1
- Date: Thu, 24 Nov 2022 03:25:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-29 14:54:15.469776
- Title: Shifted Diffusion for Text-to-image Generation
- Title(参考訳): テキストから画像への移動拡散
- Authors: Yufan Zhou, Bingchen Liu, Yizhe Zhu, Xiao Yang, Changyou Chen, Jinhui
Xu
- Abstract要約: Corgiは,提案したシフト拡散モデルに基づいて,入力テキストからより優れた画像埋め込み生成を実現する。
Corgiはまた、ダウンストリーム言語フリーのテキスト画像生成タスク上で、さまざまなデータセットにまたがる最先端の新たな結果も達成している。
- 参考スコア(独自算出の注目度): 65.53758187995744
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present Corgi, a novel method for text-to-image generation. Corgi is based
on our proposed shifted diffusion model, which achieves better image embedding
generation from input text. Unlike the baseline diffusion model used in DALL-E
2, our method seamlessly encodes prior knowledge of the pre-trained CLIP model
in its diffusion process by designing a new initialization distribution and a
new transition step of the diffusion. Compared to the strong DALL-E 2 baseline,
our method performs better in generating image embedding from the text in terms
of both efficiency and effectiveness, resulting in better text-to-image
generation. Extensive large-scale experiments are conducted and evaluated in
terms of both quantitative measures and human evaluation, indicating a stronger
generation ability of our method compared to existing ones. Furthermore, our
model enables semi-supervised and language-free training for text-to-image
generation, where only part or none of the images in the training dataset have
an associated caption. Trained with only 1.7% of the images being captioned,
our semi-supervised model obtains FID results comparable to DALL-E 2 on
zero-shot text-to-image generation evaluated on MS-COCO. Corgi also achieves
new state-of-the-art results across different datasets on downstream
language-free text-to-image generation tasks, outperforming the previous
method, Lafite, by a large margin.
- Abstract(参考訳): テキスト・画像生成の新しい手法であるCorgiを提案する。
Corgiは,提案したシフト拡散モデルに基づいて,入力テキストからより優れた画像埋め込み生成を実現する。
dall-e 2 で用いられるベースライン拡散モデルとは異なり、新しい初期化分布と新しい拡散遷移ステップを設計することにより、その拡散過程における事前訓練クリップモデルの事前知識をシームレスにエンコードする。
強力なDALL-E 2ベースラインと比較して,本手法は効率と効率の両面から画像埋め込みを生成するのに優れ,テキスト・画像生成の精度が向上する。
定量的評価と人為的評価の両面から大規模な実験を行い, 従来の手法に比べて高い生成能力を示した。
さらに,本モデルでは,トレーニングデータセット内の画像の一部あるいは全くが関連キャプションを持たないテキスト・ツー・イメージ生成のための,半教師あり言語なしのトレーニングを可能にする。
画像のたった1.7%をキャプションで訓練し,MS-COCOを用いたゼロショットテキスト画像生成において,DALL-E 2に匹敵するFID結果を得た。
Corgiはまた、ダウンストリーム言語なしのテキスト・ツー・イメージ生成タスク上で、さまざまなデータセットにまたがる新たな最先端の結果も達成している。
関連論文リスト
- Refining Text-to-Image Generation: Towards Accurate Training-Free Glyph-Enhanced Image Generation [5.55027585813848]
視覚テキストを生成する能力は重要であり、学術的関心と幅広い実践的応用の両方を提供する。
我々はLenCom-Evalというベンチマークを導入し、Lengthy と Complex Visual Text を用いて画像を生成するモデルの性能をテストする。
ここでは,CLIPSスコア,OCR精度,リコール,F1スコア,精度,距離スコアの編集など,様々な評価指標に対する顕著な改善点を示す。
論文 参考訳(メタデータ) (2024-03-25T04:54:49Z) - From Text to Mask: Localizing Entities Using the Attention of Text-to-Image Diffusion Models [38.14123683674355]
本稿では,テキスト・画像拡散モデルの認知ネットワークにおける注意機構を利用する手法を提案する。
そこで我々はPascal VOC 2012 と Microsoft COCO 2014 のセマンティックセグメンテーションを弱教師付きで評価した。
本研究は,セグメンテーションの拡散モデルに隠された豊富なマルチモーダル知識を抽出する方法を明らかにする。
論文 参考訳(メタデータ) (2023-09-08T04:10:01Z) - Variational Distribution Learning for Unsupervised Text-to-Image
Generation [42.3246826401366]
本稿では,訓練中に画像のテキストキャプションが利用できない場合に,ディープニューラルネットワークに基づくテキスト画像生成アルゴリズムを提案する。
画像と対応するテキストの埋め込みを結合空間に適切に整列できる事前訓練されたCLIPモデルを用いる。
画像テキストCLIP埋め込みのペア上での条件付きデータログを最大化することにより、テキスト・画像生成モデルを最適化する。
論文 参考訳(メタデータ) (2023-03-28T16:18:56Z) - Unleashing Text-to-Image Diffusion Models for Visual Perception [84.41514649568094]
VPD (Visual Perception with a pre-trained diffusion model) は、視覚知覚タスクにおいて、事前訓練されたテキスト・画像拡散モデルの意味情報を利用する新しいフレームワークである。
本稿では,提案したVPDを用いて,下流の視覚的タスクに迅速に適応できることを示す。
論文 参考訳(メタデータ) (2023-03-03T18:59:47Z) - eDiffi: Text-to-Image Diffusion Models with an Ensemble of Expert
Denoisers [87.52504764677226]
大規模拡散に基づく生成モデルは、テキスト条件の高解像度画像合成においてブレークスルーをもたらした。
異なる段階合成に特化したテキスト・画像拡散モデルのアンサンブルを訓練する。
eDiffiと呼ばれる拡散モデルのアンサンブルは、同じ推論コストを維持しながらテキストアライメントを改善する。
論文 参考訳(メタデータ) (2022-11-02T17:43:04Z) - Lafite2: Few-shot Text-to-Image Generation [132.14211027057766]
本稿では,画像のみのデータセットを用いたテキスト・画像生成モデルの事前学習手法を提案する。
擬似テキスト特徴を合成する検索テーマ最適化手法を検討する。
これは、数ショット、半教師あり、完全に教師された学習など、幅広い設定で有益である。
論文 参考訳(メタデータ) (2022-10-25T16:22:23Z) - Photorealistic Text-to-Image Diffusion Models with Deep Language
Understanding [53.170767750244366]
Imagenは、前例のないフォトリアリズムと深い言語理解を備えたテキスト間拡散モデルである。
テキスト・ツー・イメージ・モデルをより深く評価するために,テキスト・ツー・イメージ・モデルの総合的かつ挑戦的なベンチマークであるDrawBenchを紹介した。
論文 参考訳(メタデータ) (2022-05-23T17:42:53Z) - LAFITE: Towards Language-Free Training for Text-to-Image Generation [83.2935513540494]
テキストデータなしでテキストから画像への生成モデルをトレーニングするための最初の作業を提案する。
提案手法は,CLIPモデルのマルチモーダルなセマンティック空間の整合性を活用している。
我々は,標準的なテキスト・画像生成タスクにおいて,最先端の結果を得る。
論文 参考訳(メタデータ) (2021-11-27T01:54:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。