論文の概要: LayoutDiffuse: Adapting Foundational Diffusion Models for
Layout-to-Image Generation
- arxiv url: http://arxiv.org/abs/2302.08908v1
- Date: Thu, 16 Feb 2023 14:20:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-20 14:35:49.050483
- Title: LayoutDiffuse: Adapting Foundational Diffusion Models for
Layout-to-Image Generation
- Title(参考訳): LayoutDiffuse: 画像生成のための基礎拡散モデルの適用
- Authors: Jiaxin Cheng, Xiao Liang, Xingjian Shi, Tong He, Tianjun Xiao and Mu
Li
- Abstract要約: 提案手法は,高い知覚品質とレイアウトアライメントの両面から画像を生成し,効率よく訓練する。
提案手法は, GAN, VQ-VAE, 拡散モデルに基づく他の10種類の生成モデルよりも優れていた。
- 参考スコア(独自算出の注目度): 24.694298869398033
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Layout-to-image generation refers to the task of synthesizing photo-realistic
images based on semantic layouts. In this paper, we propose LayoutDiffuse that
adapts a foundational diffusion model pretrained on large-scale image or
text-image datasets for layout-to-image generation. By adopting a novel neural
adaptor based on layout attention and task-aware prompts, our method trains
efficiently, generates images with both high perceptual quality and layout
alignment, and needs less data. Experiments on three datasets show that our
method significantly outperforms other 10 generative models based on GANs,
VQ-VAE, and diffusion models.
- Abstract(参考訳): レイアウト・トゥ・イメージ生成(Layout-to-image generation)とは、セマンティックレイアウトに基づいて写真リアルなイメージを合成するタスクである。
本稿では,大規模画像やテキスト画像データセットに事前学習した基本拡散モデルをレイアウトから画像への生成に適応させるレイアウト拡散を提案する。
レイアウト注意とタスク認識のプロンプトに基づく新しいニューラルアダプタを採用することで、効率よくトレーニングし、高い知覚品質とレイアウトアライメントを持つ画像を生成し、少ないデータを必要とする。
GAN, VQ-VAE, 拡散モデルに基づく他の10種類の生成モデルよりも有意に優れていることを示す。
関連論文リスト
- Reason out Your Layout: Evoking the Layout Master from Large Language
Models for Text-to-Image Synthesis [47.27044390204868]
本稿では,レイアウト生成器としてLarge Language Models (LLM) を用いたT2I拡散モデルの改良手法を提案する。
実験により,画像の画質とレイアウト精度が大幅に向上した。
論文 参考訳(メタデータ) (2023-11-28T14:51:13Z) - Kandinsky: an Improved Text-to-Image Synthesis with Image Prior and
Latent Diffusion [50.59261592343479]
本稿では、潜伏拡散アーキテクチャの新しい探索であるKandinsky1を紹介する。
提案したモデルは、CLIPのイメージ埋め込みにテキスト埋め込みをマッピングするために別々に訓練されている。
また,テキスト・ツー・イメージ生成,画像融合,テキスト・画像融合,画像のバリエーション生成,テキスト・インペイント/アウトペイントなど,多様な生成モードをサポートするユーザフレンドリーなデモシステムも展開した。
論文 参考訳(メタデータ) (2023-10-05T12:29:41Z) - Steered Diffusion: A Generalized Framework for Plug-and-Play Conditional
Image Synthesis [62.07413805483241]
Steered Diffusionは、無条件生成のために訓練された拡散モデルを用いたゼロショット条件画像生成のためのフレームワークである。
塗装,着色,テキスト誘導セマンティック編集,画像超解像などのタスクに対して,ステアリング拡散を用いた実験を行った。
論文 参考訳(メタデータ) (2023-09-30T02:03:22Z) - DiffDis: Empowering Generative Diffusion Model with Cross-Modal
Discrimination Capability [75.9781362556431]
本稿では,拡散過程下での1つのフレームワークに,モダクティブと差別的事前学習を統一するDiffDisを提案する。
DiffDisは画像生成タスクと画像テキスト識別タスクの両方において単一タスクモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-08-18T05:03:48Z) - Training on Thin Air: Improve Image Classification with Generated Data [28.96941414724037]
Diffusion Inversionは、画像分類のための多種多様な高品質なトレーニングデータを生成するための、シンプルで効果的な方法である。
提案手法は,元のデータ分布を捕捉し,画像を安定拡散の潜在空間に反転させることにより,データカバレッジを確保する。
生成した画像が元のデータセットに取って代わることに成功した3つの重要なコンポーネントを特定します。
論文 参考訳(メタデータ) (2023-05-24T16:33:02Z) - Lafite2: Few-shot Text-to-Image Generation [132.14211027057766]
本稿では,画像のみのデータセットを用いたテキスト・画像生成モデルの事前学習手法を提案する。
擬似テキスト特徴を合成する検索テーマ最適化手法を検討する。
これは、数ショット、半教師あり、完全に教師された学習など、幅広い設定で有益である。
論文 参考訳(メタデータ) (2022-10-25T16:22:23Z) - Semantic Image Synthesis via Diffusion Models [159.4285444680301]
Denoising Diffusion Probabilistic Models (DDPM) は様々な画像生成タスクにおいて顕著な成功を収めた。
セマンティック画像合成に関する最近の研究は、主に「GAN(Generative Adversarial Nets)」に追従している。
論文 参考訳(メタデータ) (2022-06-30T18:31:51Z) - InvGAN: Invertible GANs [88.58338626299837]
InvGANはInvertible GANの略で、高品質な生成モデルの潜在空間に実際の画像を埋め込むことに成功した。
これにより、画像のインペイント、マージ、オンラインデータ拡張を実行できます。
論文 参考訳(メタデータ) (2021-12-08T21:39:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。