論文の概要: Multimodal Conditional Image Synthesis with Product-of-Experts GANs
- arxiv url: http://arxiv.org/abs/2112.05130v1
- Date: Thu, 9 Dec 2021 18:59:00 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-10 14:54:28.549972
- Title: Multimodal Conditional Image Synthesis with Product-of-Experts GANs
- Title(参考訳): gansを用いたマルチモーダル条件付き画像合成
- Authors: Xun Huang, Arun Mallya, Ting-Chun Wang, Ming-Yu Liu
- Abstract要約: PoE-GAN(PoE-GAN)は、プロジェクターおよびマルチモーダルプロジェクターである。
高品質で多様なイメージを合成することを学ぶ。
また、単調条件条件画像合成法では、単調条件下での試験において、最も優れた一調条件画像合成法よりも優れている。
- 参考スコア(独自算出の注目度): 41.45898101314992
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing conditional image synthesis frameworks generate images based on user
inputs in a single modality, such as text, segmentation, sketch, or style
reference. They are often unable to leverage multimodal user inputs when
available, which reduces their practicality. To address this limitation, we
propose the Product-of-Experts Generative Adversarial Networks (PoE-GAN)
framework, which can synthesize images conditioned on multiple input modalities
or any subset of them, even the empty set. PoE-GAN consists of a
product-of-experts generator and a multimodal multiscale projection
discriminator. Through our carefully designed training scheme, PoE-GAN learns
to synthesize images with high quality and diversity. Besides advancing the
state of the art in multimodal conditional image synthesis, PoE-GAN also
outperforms the best existing unimodal conditional image synthesis approaches
when tested in the unimodal setting. The project website is available at
https://deepimagination.github.io/PoE-GAN .
- Abstract(参考訳): 既存の条件付き画像合成フレームワークは、テキスト、セグメンテーション、スケッチ、スタイル参照など、単一のモードでユーザ入力に基づいて画像を生成する。
利用可能な時にマルチモーダルなユーザ入力を活用できないことが多いため、実用性が低下する。
この制限に対処するために,複数の入力モダリティやサブセットに条件付き画像を合成する,Product-of-Experts Generative Adversarial Networks (PoE-GAN) フレームワークを提案する。
PoE-GANは、製品・オブ・エキスパート・ジェネレータとマルチモーダル・マルチスケール・プロジェクション・ディミネータから構成される。
PoE-GANは、慎重に設計されたトレーニングスキームを通じて、高品質で多様な画像の合成を学ぶ。
マルチモーダル条件画像合成における技術の進歩に加えて、PoE-GANは単モーダル条件画像合成におけるテストにおいて、最も優れた単モーダル条件画像合成手法よりも優れている。
プロジェクトのWebサイトはhttps://deepimagination.github.io/PoE-GAN で公開されている。
関連論文リスト
- Many-to-many Image Generation with Auto-regressive Diffusion Models [59.5041405824704]
本稿では,与えられた画像集合から関連画像系列を生成可能な多対多画像生成のためのドメイン汎用フレームワークを提案する。
我々は,25個の相互接続された画像を含む12Mの合成マルチイメージサンプルを含む,新しい大規模マルチイメージデータセットMISを提案する。
我々はM2Mを学習し、M2Mは多対多生成のための自己回帰モデルであり、各画像は拡散フレームワーク内でモデル化される。
論文 参考訳(メタデータ) (2024-04-03T23:20:40Z) - UNIMO-G: Unified Image Generation through Multimodal Conditional Diffusion [36.06457895469353]
UNIMO-Gは条件付き拡散フレームワークであり、インターリーブされたテキストと視覚入力を持つマルチモーダルプロンプトで動作する。
テキスト・ツー・イメージ生成とゼロショット・テーマ駆動合成の両面で優れている。
論文 参考訳(メタデータ) (2024-01-24T11:36:44Z) - Unified Brain MR-Ultrasound Synthesis using Multi-Modal Hierarchical
Representations [34.821129614819604]
MHVAE(Deep Hierarchical Variational Auto-Encoder, VAE)は, 様々なモダリティから欠落した画像を合成する。
階層的な潜在構造を持つマルチモーダルVAEを拡張して,複数のモーダル画像を共通の潜在表現で融合する確率的定式化を導入する。
画像の欠落に対して,マルチモーダルVAE,条件付きGAN,現在の最先端統一手法(ResViT)より優れた性能を示した。
論文 参考訳(メタデータ) (2023-09-15T20:21:03Z) - Semantic Image Synthesis via Diffusion Models [159.4285444680301]
Denoising Diffusion Probabilistic Models (DDPM) は様々な画像生成タスクにおいて顕著な成功を収めた。
セマンティック画像合成に関する最近の研究は、主に「GAN(Generative Adversarial Nets)」に追従している。
論文 参考訳(メタデータ) (2022-06-30T18:31:51Z) - Cascading Modular Network (CAM-Net) for Multimodal Image Synthesis [7.726465518306907]
永続的な課題は、同じ入力画像から出力画像の多様なバージョンを生成することである。
我々は,幅広いタスクに適用可能な統一アーキテクチャであるCAM-Netを提案する。
FID(Frechet Inception Distance)は、ベースラインに比べて最大45.3%低減できる。
論文 参考訳(メタデータ) (2021-06-16T17:58:13Z) - IMAGINE: Image Synthesis by Image-Guided Model Inversion [79.4691654458141]
IMGE-Guided Model INvErsion (IMAGINE) と呼ばれるインバージョンベースの手法を導入し、高品質で多様な画像を生成します。
我々は,事前学習した分類器から画像意味論の知識を活用し,妥当な世代を実現する。
IMAGINEは,1)合成中の意味的特異性制約を同時に実施し,2)ジェネレータトレーニングなしでリアルな画像を生成し,3)生成過程を直感的に制御する。
論文 参考訳(メタデータ) (2021-04-13T02:00:24Z) - Multimodal Face Synthesis from Visual Attributes [85.87796260802223]
本稿では,マルチモーダル顔画像を保存するIDを同時に合成する新たな生成対向ネットワークを提案する。
実画像と偽画像の区別を行う識別装置にマルチモーダルストレッチインモジュールを導入。
論文 参考訳(メタデータ) (2021-04-09T13:47:23Z) - Multimodal Image Synthesis with Conditional Implicit Maximum Likelihood
Estimation [54.17177006826262]
我々はImplicit Maximum Likelihood Estimation (IMLE)に基づく新しい一般条件画像合成法を開発した。
我々は,シーンレイアウトからの単一画像超解像と画像合成という,2つのタスクにおけるマルチモーダル画像合成性能の改善を実証した。
論文 参考訳(メタデータ) (2020-04-07T03:06:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。