論文の概要: Multimodal Image Synthesis with Conditional Implicit Maximum Likelihood
Estimation
- arxiv url: http://arxiv.org/abs/2004.03590v1
- Date: Tue, 7 Apr 2020 03:06:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-15 22:26:39.606228
- Title: Multimodal Image Synthesis with Conditional Implicit Maximum Likelihood
Estimation
- Title(参考訳): 条件付きインシシミット最大近似を用いたマルチモーダル画像合成
- Authors: Ke Li, Shichong Peng, Tianhao Zhang, Jitendra Malik
- Abstract要約: 我々はImplicit Maximum Likelihood Estimation (IMLE)に基づく新しい一般条件画像合成法を開発した。
我々は,シーンレイアウトからの単一画像超解像と画像合成という,2つのタスクにおけるマルチモーダル画像合成性能の改善を実証した。
- 参考スコア(独自算出の注目度): 54.17177006826262
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many tasks in computer vision and graphics fall within the framework of
conditional image synthesis. In recent years, generative adversarial nets
(GANs) have delivered impressive advances in quality of synthesized images.
However, it remains a challenge to generate both diverse and plausible images
for the same input, due to the problem of mode collapse. In this paper, we
develop a new generic multimodal conditional image synthesis method based on
Implicit Maximum Likelihood Estimation (IMLE) and demonstrate improved
multimodal image synthesis performance on two tasks, single image
super-resolution and image synthesis from scene layouts. We make our
implementation publicly available.
- Abstract(参考訳): コンピュータビジョンやグラフィックの多くのタスクは条件付き画像合成の枠組みに含まれる。
近年,GAN(Generative Adversarial Nets)は,合成画像の品質向上に寄与している。
しかしながら、モード崩壊の問題から、同一入力に対して多様で妥当な画像を生成することは依然として課題である。
本稿では,Implicit Maximum Likelihood Estimation (IMLE)に基づく新しい汎用マルチモーダル条件付き画像合成法を開発し,シーンレイアウトからの単一画像超解像と画像合成という2つのタスクにおいて,改良されたマルチモーダル画像合成性能を示す。
私たちは実装を公開しています。
関連論文リスト
- Many-to-many Image Generation with Auto-regressive Diffusion Models [59.5041405824704]
本稿では,与えられた画像集合から関連画像系列を生成可能な多対多画像生成のためのドメイン汎用フレームワークを提案する。
我々は,25個の相互接続された画像を含む12Mの合成マルチイメージサンプルを含む,新しい大規模マルチイメージデータセットMISを提案する。
我々はM2Mを学習し、M2Mは多対多生成のための自己回帰モデルであり、各画像は拡散フレームワーク内でモデル化される。
論文 参考訳(メタデータ) (2024-04-03T23:20:40Z) - Unified Brain MR-Ultrasound Synthesis using Multi-Modal Hierarchical
Representations [34.821129614819604]
MHVAE(Deep Hierarchical Variational Auto-Encoder, VAE)は, 様々なモダリティから欠落した画像を合成する。
階層的な潜在構造を持つマルチモーダルVAEを拡張して,複数のモーダル画像を共通の潜在表現で融合する確率的定式化を導入する。
画像の欠落に対して,マルチモーダルVAE,条件付きGAN,現在の最先端統一手法(ResViT)より優れた性能を示した。
論文 参考訳(メタデータ) (2023-09-15T20:21:03Z) - SAMPLING: Scene-adaptive Hierarchical Multiplane Images Representation
for Novel View Synthesis from a Single Image [60.52991173059486]
単一画像からの新規ビュー合成のためのシーン適応型階層型多面体画像表現であるSAMPlingを紹介する。
提案手法は,KITTIデータセット上の単一画像を用いて,大規模非有界屋外シーンにおいてかなりの性能向上を示す。
論文 参考訳(メタデータ) (2023-09-12T15:33:09Z) - MMoT: Mixture-of-Modality-Tokens Transformer for Composed Multimodal
Conditional Image Synthesis [73.08923361242925]
マルチモーダル制御信号の合成を条件とした画像を生成する。
MMoT(Mixture-of-Modality-Tokens Transformer)を導入し,微細なマルチモーダル制御信号を適応的に融合する。
論文 参考訳(メタデータ) (2023-05-10T09:00:04Z) - Less is More: Unsupervised Mask-guided Annotated CT Image Synthesis with
Minimum Manual Segmentations [2.1785903900600316]
医用画像合成のための新しい手法,すなわちunsupervised Mask (UM)-guided synthesisを提案する。
UM誘導合成は、忠実度、多様性、有用性が著しく高い高品質な合成画像を提供する。
論文 参考訳(メタデータ) (2023-03-19T20:30:35Z) - Frido: Feature Pyramid Diffusion for Complex Scene Image Synthesis [77.23998762763078]
画像合成のためのマルチスケール粗大な分極処理を行う特徴ピラミッド拡散モデルであるFridoについて述べる。
提案モデルでは,入力画像をスケール依存ベクトル量子化特徴に分解し,次に粗い粒度ゲーティングを用いて画像出力を生成する。
我々は、テキスト・ツー・イメージ合成、レイアウト・ツー・イメージ、シーン・トゥ・イメージ、ラベル・ツー・イメージなど、様々な無条件・条件の画像生成タスクについて広範な実験を行った。
論文 参考訳(メタデータ) (2022-08-29T17:37:29Z) - Multimodal Conditional Image Synthesis with Product-of-Experts GANs [41.45898101314992]
PoE-GAN(PoE-GAN)は、プロジェクターおよびマルチモーダルプロジェクターである。
高品質で多様なイメージを合成することを学ぶ。
また、単調条件条件画像合成法では、単調条件下での試験において、最も優れた一調条件画像合成法よりも優れている。
論文 参考訳(メタデータ) (2021-12-09T18:59:00Z) - Cascading Modular Network (CAM-Net) for Multimodal Image Synthesis [7.726465518306907]
永続的な課題は、同じ入力画像から出力画像の多様なバージョンを生成することである。
我々は,幅広いタスクに適用可能な統一アーキテクチャであるCAM-Netを提案する。
FID(Frechet Inception Distance)は、ベースラインに比べて最大45.3%低減できる。
論文 参考訳(メタデータ) (2021-06-16T17:58:13Z) - Multimodal Face Synthesis from Visual Attributes [85.87796260802223]
本稿では,マルチモーダル顔画像を保存するIDを同時に合成する新たな生成対向ネットワークを提案する。
実画像と偽画像の区別を行う識別装置にマルチモーダルストレッチインモジュールを導入。
論文 参考訳(メタデータ) (2021-04-09T13:47:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。