論文の概要: Swinv2-Imagen: Hierarchical Vision Transformer Diffusion Models for
Text-to-Image Generation
- arxiv url: http://arxiv.org/abs/2210.09549v1
- Date: Tue, 18 Oct 2022 02:50:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-19 13:56:01.499308
- Title: Swinv2-Imagen: Hierarchical Vision Transformer Diffusion Models for
Text-to-Image Generation
- Title(参考訳): Swinv2-Imagen:テキスト・画像生成のための階層型視覚変換器拡散モデル
- Authors: Ruijun Li, Weihua Li, Yi Yang, Hanyu Wei, Jianhua Jiang and Quan Bai
- Abstract要約: 階層型ビジュアルトランスフォーマとセマンティックレイアウトを取り入れたシーングラフに基づくテキスト・画像拡散モデルを提案する。
提案モデルでは, 実体と関係の特徴ベクトルを抽出し, 拡散モデルに関係付ける。
我々はまた、CNN畳み込み操作に起因する問題に対処できるSwinv2-Unetと呼ばれるSwin-TransformerベースのUNetアーキテクチャも導入した。
- 参考スコア(独自算出の注目度): 25.14323931233249
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, diffusion models have been proven to perform remarkably well in
text-to-image synthesis tasks in a number of studies, immediately presenting
new study opportunities for image generation. Google's Imagen follows this
research trend and outperforms DALLE2 as the best model for text-to-image
generation. However, Imagen merely uses a T5 language model for text
processing, which cannot ensure learning the semantic information of the text.
Furthermore, the Efficient UNet leveraged by Imagen is not the best choice in
image processing. To address these issues, we propose the Swinv2-Imagen, a
novel text-to-image diffusion model based on a Hierarchical Visual Transformer
and a Scene Graph incorporating a semantic layout. In the proposed model, the
feature vectors of entities and relationships are extracted and involved in the
diffusion model, effectively improving the quality of generated images. On top
of that, we also introduce a Swin-Transformer-based UNet architecture, called
Swinv2-Unet, which can address the problems stemming from the CNN convolution
operations. Extensive experiments are conducted to evaluate the performance of
the proposed model by using three real-world datasets, i.e., MSCOCO, CUB and
MM-CelebA-HQ. The experimental results show that the proposed Swinv2-Imagen
model outperforms several popular state-of-the-art methods.
- Abstract(参考訳): 近年,画像生成における新たな研究機会として,テキストと画像の合成タスクにおいて,拡散モデルが顕著に機能することが証明されている。
GoogleのImagenはこの研究トレンドに従い、DALLE2をテキスト・画像生成の最良のモデルとして上回っている。
しかし、Imagenは単にテキスト処理にT5言語モデルを使用するだけで、テキストの意味情報を確実に学習することはできない。
さらに、画像処理では、imagenによって利用される効率的なunetが最適ではない。
そこで本稿では,階層的視覚トランスフォーマーに基づくテキスト・画像拡散モデル swinv2-imagen と意味的レイアウトを組み込んだシーングラフを提案する。
提案モデルでは, 実体と関係の特徴ベクトルを抽出し, 拡散モデルに関与し, 生成画像の品質を効果的に向上させる。
さらに、CNNの畳み込み操作に起因する問題に対処できるSwinv2-Unetという、Swin-TransformerベースのUNetアーキテクチャも導入しています。
MSCOCO, CUB, MM-CelebA-HQの3つの実世界のデータセットを用いて, 提案モデルの性能評価実験を行った。
実験の結果,提案したSwinv2-Imagenモデルは,いくつかの最先端手法よりも優れていた。
関連論文リスト
- Image Regeneration: Evaluating Text-to-Image Model via Generating Identical Image with Multimodal Large Language Models [54.052963634384945]
画像再生タスクを導入し,テキスト・ツー・イメージ・モデルの評価を行う。
我々はGPT4Vを用いて参照画像とT2Iモデルのテキスト入力のギャップを埋める。
また、生成した画像の品質を高めるために、ImageRepainterフレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-14T13:52:43Z) - DreamDistribution: Prompt Distribution Learning for Text-to-Image
Diffusion Models [53.17454737232668]
本稿では,事前学習したT2I拡散モデルを用いて,ソフトプロンプトの集合を学習する解を提案する。
これらのプロンプトは、テキストガイドによる編集機能と、複数のディストリビューション間の変動と混合を制御する柔軟性を提供する。
また,テキスト・トゥ・3Dなどの他のタスクに対して,学習したプロンプト分布の適応性を示す。
論文 参考訳(メタデータ) (2023-12-21T12:11:00Z) - DiffDis: Empowering Generative Diffusion Model with Cross-Modal
Discrimination Capability [75.9781362556431]
本稿では,拡散過程下での1つのフレームワークに,モダクティブと差別的事前学習を統一するDiffDisを提案する。
DiffDisは画像生成タスクと画像テキスト識別タスクの両方において単一タスクモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-08-18T05:03:48Z) - LayoutDiffuse: Adapting Foundational Diffusion Models for
Layout-to-Image Generation [24.694298869398033]
提案手法は,高い知覚品質とレイアウトアライメントの両面から画像を生成し,効率よく訓練する。
提案手法は, GAN, VQ-VAE, 拡散モデルに基づく他の10種類の生成モデルよりも優れていた。
論文 参考訳(メタデータ) (2023-02-16T14:20:25Z) - Lafite2: Few-shot Text-to-Image Generation [132.14211027057766]
本稿では,画像のみのデータセットを用いたテキスト・画像生成モデルの事前学習手法を提案する。
擬似テキスト特徴を合成する検索テーマ最適化手法を検討する。
これは、数ショット、半教師あり、完全に教師された学習など、幅広い設定で有益である。
論文 参考訳(メタデータ) (2022-10-25T16:22:23Z) - Implementing and Experimenting with Diffusion Models for Text-to-Image
Generation [0.0]
DALL-E 2 と Imagen という2つのモデルでは、画像の単純なテキスト記述から高画質の画像を生成できることが示されている。
テキスト・ツー・イメージのモデルは、トレーニングに必要な膨大な計算リソースと、インターネットから収集された巨大なデータセットを扱う必要がある。
この論文は、これらのモデルが使用するさまざまなアプローチとテクニックをレビューし、それから、テキスト・ツー・イメージ・モデルの独自の実装を提案することで貢献する。
論文 参考訳(メタデータ) (2022-09-22T12:03:33Z) - Photorealistic Text-to-Image Diffusion Models with Deep Language
Understanding [53.170767750244366]
Imagenは、前例のないフォトリアリズムと深い言語理解を備えたテキスト間拡散モデルである。
テキスト・ツー・イメージ・モデルをより深く評価するために,テキスト・ツー・イメージ・モデルの総合的かつ挑戦的なベンチマークであるDrawBenchを紹介した。
論文 参考訳(メタデータ) (2022-05-23T17:42:53Z) - Zero-Shot Image-to-Text Generation for Visual-Semantic Arithmetic [72.60554897161948]
最近のテキストと画像のマッチングモデルは、未修正画像と文の大きなコーパスに対してコントラスト学習を適用している。
本研究では、そのようなモデルを用いて、推論時に画像が与えられた記述テキストを生成する。
結果として得られたキャプションは、教師付きキャプション法によるキャプションよりもはるかに制限を受けない。
論文 参考訳(メタデータ) (2021-11-29T11:01:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。