論文の概要: Cascading Modular Network (CAM-Net) for Multimodal Image Synthesis
- arxiv url: http://arxiv.org/abs/2106.09015v1
- Date: Wed, 16 Jun 2021 17:58:13 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-17 17:35:43.835909
- Title: Cascading Modular Network (CAM-Net) for Multimodal Image Synthesis
- Title(参考訳): cascading modular network (cam-net) によるマルチモーダル画像合成
- Authors: Shichong Peng, Alireza Moazeni, Ke Li
- Abstract要約: 永続的な課題は、同じ入力画像から出力画像の多様なバージョンを生成することである。
我々は,幅広いタスクに適用可能な統一アーキテクチャであるCAM-Netを提案する。
FID(Frechet Inception Distance)は、ベースラインに比べて最大45.3%低減できる。
- 参考スコア(独自算出の注目度): 7.726465518306907
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep generative models such as GANs have driven impressive advances in
conditional image synthesis in recent years. A persistent challenge has been to
generate diverse versions of output images from the same input image, due to
the problem of mode collapse: because only one ground truth output image is
given per input image, only one mode of the conditional distribution is
modelled. In this paper, we focus on this problem of multimodal conditional
image synthesis and build on the recently proposed technique of Implicit
Maximum Likelihood Estimation (IMLE). Prior IMLE-based methods required
different architectures for different tasks, which limit their applicability,
and were lacking in fine details in the generated images. We propose CAM-Net, a
unified architecture that can be applied to a broad range of tasks.
Additionally, it is capable of generating convincing high frequency details,
achieving a reduction of the Frechet Inception Distance (FID) by up to 45.3%
compared to the baseline.
- Abstract(参考訳): ganのような深い生成モデルは近年、条件付き画像合成の素晴らしい進歩をもたらしている。
モード崩壊の問題により、同じ入力画像から出力画像の多様なバージョンを生成するのが永続的な課題であり、入力画像毎に1つの基底真理出力画像しか与えられないため、条件分布の1つのモードのみがモデル化される。
本稿では,マルチモーダルな条件付き画像合成の問題に焦点をあて,最近提案されたImplicit Maximum Likelihood Estimation (IMLE) 技術に基づいて構築する。
従来のIMLEベースの手法では、異なるタスクに対して異なるアーキテクチャを必要とするため、適用性が制限され、生成された画像の細部が不足していた。
我々は,幅広いタスクに適用可能な統一アーキテクチャであるCAM-Netを提案する。
さらに、信頼性の高い高周波ディテールを生成し、ベースラインと比較して最大45.3%のフレシェインセプション距離(fid)を削減できる。
関連論文リスト
- A Simple Approach to Unifying Diffusion-based Conditional Generation [63.389616350290595]
多様な条件生成タスクを処理するための、シンプルで統一されたフレームワークを導入します。
提案手法は,異なる推論時間サンプリング方式による多目的化を実現する。
我々のモデルは、非親密なアライメントや粗い条件付けのような追加機能をサポートしています。
論文 参考訳(メタデータ) (2024-10-15T09:41:43Z) - MultiDiff: Consistent Novel View Synthesis from a Single Image [60.04215655745264]
MultiDiffは、単一のRGB画像からシーンを一貫した新しいビュー合成のための新しいアプローチである。
以上の結果から,MultiDiffは,課題の多いリアルタイムデータセットであるRealEstate10KとScanNetにおいて,最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-06-26T17:53:51Z) - CHIMLE: Conditional Hierarchical IMLE for Multimodal Conditional Image
Synthesis [5.7789164588489035]
条件付き画像合成における永続的な課題は、同じ入力画像から多様な出力画像を生成することである。
モード崩壊を克服できるImplicit Conditional Likelihood Estimation Maximum(IMLE)を利用する。
高忠実度画像を生成するために、従来のIMLEベースの手法では大量のサンプルを必要とするが、これは高価である。
画像の忠実度とモードカバレッジの点で,CHIMLEは,先行する最高のIMLE,GAN,拡散に基づく手法よりも優れていた。
論文 参考訳(メタデータ) (2022-11-25T18:41:44Z) - Semantic Image Synthesis via Diffusion Models [159.4285444680301]
Denoising Diffusion Probabilistic Models (DDPM) は様々な画像生成タスクにおいて顕著な成功を収めた。
セマンティック画像合成に関する最近の研究は、主に「GAN(Generative Adversarial Nets)」に追従している。
論文 参考訳(メタデータ) (2022-06-30T18:31:51Z) - Image Generation with Multimodal Priors using Denoising Diffusion
Probabilistic Models [54.1843419649895]
このタスクを達成するために生成モデルを使用する際の大きな課題は、すべてのモダリティと対応する出力を含むペアデータの欠如である。
本稿では,拡散確率的合成モデルに基づく多モデル先行画像生成手法を提案する。
論文 参考訳(メタデータ) (2022-06-10T12:23:05Z) - Large Scale Image Completion via Co-Modulated Generative Adversarial
Networks [18.312552957727828]
画像条件と最近の非条件生成アーキテクチャのギャップを埋める汎用的な新しいアプローチを提案する。
また,画像補完のための定量的指標が不十分なため,Paired/Unpaired Inception Discriminative Score (P-IDS/U-IDS)を提案する。
実験は、自由形式の画像補完における最先端の手法よりも品質と多様性の両面で優れた性能を示し、画像から画像への変換を容易に一般化する。
論文 参考訳(メタデータ) (2021-03-18T17:59:11Z) - Locally Masked Convolution for Autoregressive Models [107.4635841204146]
LMConvは標準的な2Dコンボリューションの簡単な修正であり、任意のマスクを画像の各位置の重みに適用することができる。
我々は,パラメータを共有するが生成順序が異なる分布推定器のアンサンブルを学習し,全画像密度推定の性能を向上させる。
論文 参考訳(メタデータ) (2020-06-22T17:59:07Z) - Multimodal Image Synthesis with Conditional Implicit Maximum Likelihood
Estimation [54.17177006826262]
我々はImplicit Maximum Likelihood Estimation (IMLE)に基づく新しい一般条件画像合成法を開発した。
我々は,シーンレイアウトからの単一画像超解像と画像合成という,2つのタスクにおけるマルチモーダル画像合成性能の改善を実証した。
論文 参考訳(メタデータ) (2020-04-07T03:06:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。