論文の概要: Frido: Feature Pyramid Diffusion for Complex Scene Image Synthesis
- arxiv url: http://arxiv.org/abs/2208.13753v1
- Date: Mon, 29 Aug 2022 17:37:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-30 12:57:33.233721
- Title: Frido: Feature Pyramid Diffusion for Complex Scene Image Synthesis
- Title(参考訳): Frido:複雑なシーン画像合成のための特徴ピラミッド拡散
- Authors: Wan-Cyuan Fan, Yen-Chun Chen, DongDong Chen, Yu Cheng, Lu Yuan,
Yu-Chiang Frank Wang
- Abstract要約: 画像合成のためのマルチスケール粗大な分極処理を行う特徴ピラミッド拡散モデルであるFridoについて述べる。
提案モデルでは,入力画像をスケール依存ベクトル量子化特徴に分解し,次に粗い粒度ゲーティングを用いて画像出力を生成する。
我々は、テキスト・ツー・イメージ合成、レイアウト・ツー・イメージ、シーン・トゥ・イメージ、ラベル・ツー・イメージなど、様々な無条件・条件の画像生成タスクについて広範な実験を行った。
- 参考スコア(独自算出の注目度): 77.23998762763078
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion models (DMs) have shown great potential for high-quality image
synthesis. However, when it comes to producing images with complex scenes, how
to properly describe both image global structures and object details remains a
challenging task. In this paper, we present Frido, a Feature Pyramid Diffusion
model performing a multi-scale coarse-to-fine denoising process for image
synthesis. Our model decomposes an input image into scale-dependent vector
quantized features, followed by a coarse-to-fine gating for producing image
output. During the above multi-scale representation learning stage, additional
input conditions like text, scene graph, or image layout can be further
exploited. Thus, Frido can be also applied for conditional or cross-modality
image synthesis. We conduct extensive experiments over various unconditioned
and conditional image generation tasks, ranging from text-to-image synthesis,
layout-to-image, scene-graph-to-image, to label-to-image. More specifically, we
achieved state-of-the-art FID scores on five benchmarks, namely layout-to-image
on COCO and OpenImages, scene-graph-to-image on COCO and Visual Genome, and
label-to-image on COCO. Code is available at
https://github.com/davidhalladay/Frido.
- Abstract(参考訳): 拡散モデル(dms)は高品質画像合成に大きな可能性を示している。
しかし、複雑なシーンで画像を生成する場合、画像のグローバル構造とオブジェクトの詳細の両方を適切に記述する方法は、依然として難しい課題である。
本稿では,画像合成のための大規模粗粒化処理を行う特徴ピラミッド拡散モデルであるFridoについて述べる。
提案モデルでは,入力画像をスケール依存ベクトル量子化特徴に分解し,次に粗い粒度ゲーティングを用いて画像出力を生成する。
上記のマルチスケール表現学習段階では、テキスト、シーングラフ、イメージレイアウトなどの入力条件をさらに活用することができる。
したがって、Fridoは条件付きあるいは横断的な画像合成にも応用できる。
テキスト・画像合成,レイアウト・ツー・イメージ,シーン・グラフ・ツー・イメージ,ラベル・ツー・イメージなど,様々な無条件・条件画像生成タスクについて広範な実験を行った。
具体的には、COCOとOpenImageのレイアウトとイメージ、COCOとVisual Genomeのシーングラフとイメージ、COCOのラベルとイメージの5つのベンチマークで最先端のFIDスコアを達成しました。
コードはhttps://github.com/davidhalladay/fridoで入手できる。
関連論文リスト
- SAMPLING: Scene-adaptive Hierarchical Multiplane Images Representation
for Novel View Synthesis from a Single Image [60.52991173059486]
単一画像からの新規ビュー合成のためのシーン適応型階層型多面体画像表現であるSAMPlingを紹介する。
提案手法は,KITTIデータセット上の単一画像を用いて,大規模非有界屋外シーンにおいてかなりの性能向上を示す。
論文 参考訳(メタデータ) (2023-09-12T15:33:09Z) - Composer: Creative and Controllable Image Synthesis with Composable
Conditions [57.78533372393828]
ビッグデータで学んだ最近の大規模な生成モデルは、驚くべき画像を合成できるが、制御性は限られている。
この研究は、合成品質とモデルの創造性を維持しつつ、空間配置やパレットのような出力画像の柔軟な制御を可能にする新しい世代パラダイムを提供する。
論文 参考訳(メタデータ) (2023-02-20T05:48:41Z) - A Shared Representation for Photorealistic Driving Simulators [83.5985178314263]
本稿では、識別器アーキテクチャを再考することにより、生成画像の品質を向上させることを提案する。
シーンセグメンテーションマップや人体ポーズといったセマンティックインプットによって画像が生成されるという問題に焦点が当てられている。
我々は,意味的セグメンテーション,コンテンツ再構成,および粗い粒度の逆解析を行うのに十分な情報をエンコードする,共有潜在表現を学習することを目指している。
論文 参考訳(メタデータ) (2021-12-09T18:59:21Z) - Improving Visual Quality of Image Synthesis by A Token-based Generator
with Transformers [51.581926074686535]
本稿では,このタスクを視覚的トークン生成問題とみなして,画像合成の新たな視点を示す。
提案したTokenGANは、広く使われている画像合成ベンチマークで最先端の結果を得た。
論文 参考訳(メタデータ) (2021-11-05T12:57:50Z) - ImageBART: Bidirectional Context with Multinomial Diffusion for
Autoregressive Image Synthesis [15.006676130258372]
自己回帰モデルは、以前に合成された画像パッチを上または左にのみ参加することで、コンテキストを線形1次元順序で組み込む。
自己回帰的定式化と多項拡散過程を組み合わせたコンテキストの粗大な階層構造を提案する。
当社のアプローチは、ローカルな画像編集を行うために、制限のない、ユーザが提供するマスクを考慮に入れることができる。
論文 参考訳(メタデータ) (2021-08-19T17:50:07Z) - High-Resolution Complex Scene Synthesis with Transformers [6.445605125467574]
深層生成モデルによる複雑なシーン画像の粗粒合成が最近人気を集めている。
本稿では, 生成モデルが, 追加の目的を持たず, 純粋帰納的学習に基づく, この課題に対するアプローチを提案する。
提案システムは,所定のレイアウトに整合した高品質な画像を合成可能であることを示す。
論文 参考訳(メタデータ) (2021-05-13T17:56:07Z) - Multimodal Image Synthesis with Conditional Implicit Maximum Likelihood
Estimation [54.17177006826262]
我々はImplicit Maximum Likelihood Estimation (IMLE)に基づく新しい一般条件画像合成法を開発した。
我々は,シーンレイアウトからの単一画像超解像と画像合成という,2つのタスクにおけるマルチモーダル画像合成性能の改善を実証した。
論文 参考訳(メタデータ) (2020-04-07T03:06:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。