論文の概要: Photorealistic Text-to-Image Diffusion Models with Deep Language
Understanding
- arxiv url: http://arxiv.org/abs/2205.11487v1
- Date: Mon, 23 May 2022 17:42:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-24 15:53:38.094409
- Title: Photorealistic Text-to-Image Diffusion Models with Deep Language
Understanding
- Title(参考訳): 深い言語理解を伴うフォトリアリスティックテキスト-画像拡散モデル
- Authors: Chitwan Saharia, William Chan, Saurabh Saxena, Lala Li, Jay Whang,
Emily Denton, Seyed Kamyar Seyed Ghasemipour, Burcu Karagol Ayan, S. Sara
Mahdavi, Rapha Gontijo Lopes, Tim Salimans, Jonathan Ho, David J Fleet,
Mohammad Norouzi
- Abstract要約: Imagenは、前例のないフォトリアリズムと深い言語理解を備えたテキスト間拡散モデルである。
テキスト・ツー・イメージ・モデルをより深く評価するために,テキスト・ツー・イメージ・モデルの総合的かつ挑戦的なベンチマークであるDrawBenchを紹介した。
- 参考スコア(独自算出の注目度): 53.170767750244366
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present Imagen, a text-to-image diffusion model with an unprecedented
degree of photorealism and a deep level of language understanding. Imagen
builds on the power of large transformer language models in understanding text
and hinges on the strength of diffusion models in high-fidelity image
generation. Our key discovery is that generic large language models (e.g. T5),
pretrained on text-only corpora, are surprisingly effective at encoding text
for image synthesis: increasing the size of the language model in Imagen boosts
both sample fidelity and image-text alignment much more than increasing the
size of the image diffusion model. Imagen achieves a new state-of-the-art FID
score of 7.27 on the COCO dataset, without ever training on COCO, and human
raters find Imagen samples to be on par with the COCO data itself in image-text
alignment. To assess text-to-image models in greater depth, we introduce
DrawBench, a comprehensive and challenging benchmark for text-to-image models.
With DrawBench, we compare Imagen with recent methods including VQ-GAN+CLIP,
Latent Diffusion Models, and DALL-E 2, and find that human raters prefer Imagen
over other models in side-by-side comparisons, both in terms of sample quality
and image-text alignment. See https://imagen.research.google/ for an overview
of the results.
- Abstract(参考訳): 我々は、前例のないフォトリアリズムと深い言語理解を備えたテキスト・画像拡散モデルであるImagenを提案する。
Imagenは、テキストとヒンジを理解するための大きなトランスフォーマー言語モデルの力に基づいて構築され、高忠実度画像生成における拡散モデルの強みに基づいている。
私たちの重要な発見は、テキストのみのコーパスで事前訓練された汎用的な大規模言語モデル(T5など)が、画像合成のためのテキストの符号化に驚くほど効果的であることです。
ImagenはCOCOデータセットの7.27という最先端のFIDスコアをCOCOでトレーニングすることなく達成し、画像テキストアライメントでCOCOデータと同等のイメージnサンプルを見つける。
テキスト・ツー・イメージモデルをより深く評価するために,テキスト・ツー・イメージモデルの包括的かつ挑戦的なベンチマークであるdrawbenchを紹介する。
drawbenchでは、vq-gan+clip、潜伏拡散モデル、dall-e 2などの最近の手法と比較し、サンプル品質と画像テキストアライメントの両面で、人手が他のモデルよりもimagenを好むことを発見した。
結果の概要はhttps://imagen.research.google/を参照。
関連論文リスト
- UDiffText: A Unified Framework for High-quality Text Synthesis in
Arbitrary Images via Character-aware Diffusion Models [25.219960711604728]
本稿では,事前学習した拡散モデルを用いたテキスト画像生成手法を提案する。
我々のアプローチは、オリジナルのCLIPエンコーダを置き換える軽量文字レベルテキストエンコーダの設計と訓練である。
推論段階の精細化プロセスを用いることで、任意に与えられた画像のテキストを合成する際に、顕著に高いシーケンス精度を実現する。
論文 参考訳(メタデータ) (2023-12-08T07:47:46Z) - Paragraph-to-Image Generation with Information-Enriched Diffusion Model [67.9265336953134]
パラディフュージョン(英: ParaDiffusion)は、パラディフュージョンモデルである。
これは、大きな言語モデルの広範囲な意味理解能力を画像生成のタスクに移すことを念頭に置いている。
コードとデータセットは、長文アライメントに関するコミュニティの研究を促進するためにリリースされます。
論文 参考訳(メタデータ) (2023-11-24T05:17:01Z) - Leveraging Unpaired Data for Vision-Language Generative Models via Cycle
Consistency [47.3163261953469]
現在の視覚言語生成モデルは、最適な性能と一般化能力を達成するために、ペア画像テキストデータの拡張コーパスに依存している。
サイクル整合性の概念に基づく革新的なトレーニングパラダイムであるITITを導入する。
ITITは、分離された画像とテキストデコーダを備えたジョイントな画像テキストエンコーダで構成され、単一のフレームワークで双方向の画像テキスト生成とテキスト画像生成を可能にする。
論文 参考訳(メタデータ) (2023-10-05T17:55:19Z) - Shifted Diffusion for Text-to-image Generation [65.53758187995744]
Corgiは,提案したシフト拡散モデルに基づいて,入力テキストからより優れた画像埋め込み生成を実現する。
Corgiはまた、ダウンストリーム言語フリーのテキスト画像生成タスク上で、さまざまなデータセットにまたがる最先端の新たな結果も達成している。
論文 参考訳(メタデータ) (2022-11-24T03:25:04Z) - eDiffi: Text-to-Image Diffusion Models with an Ensemble of Expert
Denoisers [87.52504764677226]
大規模拡散に基づく生成モデルは、テキスト条件の高解像度画像合成においてブレークスルーをもたらした。
異なる段階合成に特化したテキスト・画像拡散モデルのアンサンブルを訓練する。
eDiffiと呼ばれる拡散モデルのアンサンブルは、同じ推論コストを維持しながらテキストアライメントを改善する。
論文 参考訳(メタデータ) (2022-11-02T17:43:04Z) - Swinv2-Imagen: Hierarchical Vision Transformer Diffusion Models for
Text-to-Image Generation [25.14323931233249]
階層型ビジュアルトランスフォーマとセマンティックレイアウトを取り入れたシーングラフに基づくテキスト・画像拡散モデルを提案する。
提案モデルでは, 実体と関係の特徴ベクトルを抽出し, 拡散モデルに関係付ける。
我々はまた、CNN畳み込み操作に起因する問題に対処できるSwinv2-Unetと呼ばれるSwin-TransformerベースのUNetアーキテクチャも導入した。
論文 参考訳(メタデータ) (2022-10-18T02:50:34Z) - GLIDE: Towards Photorealistic Image Generation and Editing with
Text-Guided Diffusion Models [16.786221846896108]
テキスト条件画像合成問題に対する拡散モデルについて検討し、2つの異なるガイダンス戦略を比較した。
後者は、フォトリアリズムとキャプションの類似性の両方において、人間の評価者によって好まれており、しばしばフォトリアリスティックなサンプルを生成する。
我々のモデルは、画像のインペイントを行うように微調整することができ、強力なテキスト駆動画像編集を可能にします。
論文 参考訳(メタデータ) (2021-12-20T18:42:55Z) - LAFITE: Towards Language-Free Training for Text-to-Image Generation [83.2935513540494]
テキストデータなしでテキストから画像への生成モデルをトレーニングするための最初の作業を提案する。
提案手法は,CLIPモデルのマルチモーダルなセマンティック空間の整合性を活用している。
我々は,標準的なテキスト・画像生成タスクにおいて,最先端の結果を得る。
論文 参考訳(メタデータ) (2021-11-27T01:54:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。