論文の概要: CHIMLE: Conditional Hierarchical IMLE for Multimodal Conditional Image
Synthesis
- arxiv url: http://arxiv.org/abs/2211.14286v1
- Date: Fri, 25 Nov 2022 18:41:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-28 15:34:48.305675
- Title: CHIMLE: Conditional Hierarchical IMLE for Multimodal Conditional Image
Synthesis
- Title(参考訳): CHIMLE:マルチモーダル条件画像合成のための条件階層型IMLE
- Authors: Shichong Peng, Alireza Moazeni, Ke Li
- Abstract要約: 条件付き画像合成における永続的な課題は、同じ入力画像から多様な出力画像を生成することである。
モード崩壊を克服できるImplicit Conditional Likelihood Estimation Maximum(IMLE)を利用する。
高忠実度画像を生成するために、従来のIMLEベースの手法では大量のサンプルを必要とするが、これは高価である。
画像の忠実度とモードカバレッジの点で,CHIMLEは,先行する最高のIMLE,GAN,拡散に基づく手法よりも優れていた。
- 参考スコア(独自算出の注目度): 5.7789164588489035
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A persistent challenge in conditional image synthesis has been to generate
diverse output images from the same input image despite only one output image
being observed per input image. GAN-based methods are prone to mode collapse,
which leads to low diversity. To get around this, we leverage Implicit Maximum
Likelihood Estimation (IMLE) which can overcome mode collapse fundamentally.
IMLE uses the same generator as GANs but trains it with a different,
non-adversarial objective which ensures each observed image has a generated
sample nearby. Unfortunately, to generate high-fidelity images, prior
IMLE-based methods require a large number of samples, which is expensive. In
this paper, we propose a new method to get around this limitation, which we dub
Conditional Hierarchical IMLE (CHIMLE), which can generate high-fidelity images
without requiring many samples. We show CHIMLE significantly outperforms the
prior best IMLE, GAN and diffusion-based methods in terms of image fidelity and
mode coverage across four tasks, namely night-to-day, 16x single image
super-resolution, image colourization and image decompression. Quantitatively,
our method improves Fr\'echet Inception Distance (FID) by 36.9% on average
compared to the prior best IMLE-based method, and by 27.5% on average compared
to the best non-IMLE-based general-purpose methods.
- Abstract(参考訳): 条件付き画像合成における永続的な課題は、入力画像毎に1つの出力画像のみが観察されているにもかかわらず、同じ入力画像から多様な出力画像を生成することである。
GANベースの手法はモード崩壊を起こしやすいため、多様性は低い。
これを回避するために、モード崩壊を根本的に克服できるImplicit Maximum Likelihood Estimation (IMLE)を利用する。
IMLEはGANと同じジェネレータを使用するが、異なる非敵対的な目的でトレーニングすることで、各観察画像が近傍に生成されたサンプルを持つことを保証する。
残念なことに、高忠実な画像を生成するには、従来のIMLEベースの手法では大量のサンプルを必要とするため、高価である。
本稿では,この制限を回避するための新しい手法を提案する。これは条件付き階層型IMLE (CHIMLE) をダブし,多数のサンプルを必要とすることなく高忠実度画像を生成する。
提案手法は,画像の忠実度やモードカバレッジの面で,従来の最善のimle,gan,拡散ベースの手法,すなわち1日毎,16倍の超解像度,画像のカラー化,画像圧縮の4つのタスクにおいて有意に優れていた。
本手法は,Fr'echet Inception Distance (FID)を従来のIMLE法と比較して平均36.9%,非IMLE法に比べて平均27.5%改善する。
関連論文リスト
- A Simple Approach to Unifying Diffusion-based Conditional Generation [63.389616350290595]
多様な条件生成タスクを処理するための、シンプルで統一されたフレームワークを導入します。
提案手法は,異なる推論時間サンプリング方式による多目的化を実現する。
我々のモデルは、非親密なアライメントや粗い条件付けのような追加機能をサポートしています。
論文 参考訳(メタデータ) (2024-10-15T09:41:43Z) - MMAR: Towards Lossless Multi-Modal Auto-Regressive Probabilistic Modeling [64.09238330331195]
本稿では,MMAR(Multi-Modal Auto-Regressive)確率モデルフレームワークを提案する。
離散化の手法とは異なり、MMARは情報損失を避けるために連続的に評価された画像トークンを取り入れる。
MMARは他のジョイントマルチモーダルモデルよりもはるかに優れた性能を示す。
論文 参考訳(メタデータ) (2024-10-14T17:57:18Z) - Provably Robust Score-Based Diffusion Posterior Sampling for Plug-and-Play Image Reconstruction [31.503662384666274]
科学と工学において、ゴールは、ある画像のモダリティを記述する既知のフォワードモデルから収集された少数の測定値から未知の画像を推測することである。
モチベートされたスコアベース拡散モデルはその経験的成功により、画像再構成に先立って模範の印象的な候補として現れた。
論文 参考訳(メタデータ) (2024-03-25T15:58:26Z) - Improving Denoising Diffusion Probabilistic Models via Exploiting Shared
Representations [5.517338199249029]
SR-DDPMはノイズ拡散過程を逆転することで高品質な画像を生成する生成モデルのクラスである。
多様なデータ分布の類似性を利用して、画像の品質を損なうことなく、複数のタスクにスケールできる。
提案手法を標準画像データセット上で評価し、FIDとSSIMの指標で条件付きDDPMと条件付きDDPMの両方より優れていることを示す。
論文 参考訳(メタデータ) (2023-11-27T22:30:26Z) - A Novel Truncated Norm Regularization Method for Multi-channel Color
Image Denoising [5.624787484101139]
本論文は,DtNFM法(DtNFM法)を用いて,二重重み付き核ノルム最小化法(double-weighted truncated nuclear norm minus truncated Frobenius norm minimization, DtNFM法)を用いてカラー画像のノイズ化を行う。
雑音像の非局所的な自己相似性を利用して、類似した構造を収集し、類似したパッチ行列を連続的に構築する。
合成および実雑音データセットの実験により、提案手法は、多くの最先端カラー画像復調法より優れていることを示した。
論文 参考訳(メタデータ) (2023-07-16T03:40:35Z) - DDFM: Denoising Diffusion Model for Multi-Modality Image Fusion [144.9653045465908]
拡散確率モデル(DDPM)に基づく新しい融合アルゴリズムを提案する。
近赤外可視画像融合と医用画像融合で有望な融合が得られた。
論文 参考訳(メタデータ) (2023-03-13T04:06:42Z) - DEff-GAN: Diverse Attribute Transfer for Few-Shot Image Synthesis [0.38073142980733]
我々は、サンプル合成のための複数の画像をモデル化するために、単一画像GAN法を拡張した。
我々のデータ効率GAN(DEff-GAN)は、入力画像やクラス間で類似性や対応性を引き出すことができる場合に優れた結果をもたらす。
論文 参考訳(メタデータ) (2023-02-28T12:43:52Z) - CDPMSR: Conditional Diffusion Probabilistic Models for Single Image
Super-Resolution [91.56337748920662]
拡散確率モデル(DPM)は画像から画像への変換において広く採用されている。
単純だが自明なDPMベースの超解像後処理フレームワーク,すなわちcDPMSRを提案する。
本手法は, 定性的および定量的な結果の両面において, 先行試行を超越した手法である。
論文 参考訳(メタデータ) (2023-02-14T15:13:33Z) - Image Generation with Multimodal Priors using Denoising Diffusion
Probabilistic Models [54.1843419649895]
このタスクを達成するために生成モデルを使用する際の大きな課題は、すべてのモダリティと対応する出力を含むペアデータの欠如である。
本稿では,拡散確率的合成モデルに基づく多モデル先行画像生成手法を提案する。
論文 参考訳(メタデータ) (2022-06-10T12:23:05Z) - MIRST-DM: Multi-Instance RST with Drop-Max Layer for Robust
Classification of Breast Cancer [62.997667081978825]
MIRST-DMと呼ばれるドロップマックス層を用いたマルチインスタンスRTTを提案し、小さなデータセット上でよりスムーズな決定境界を学習する。
提案手法は1,190画像の小さな乳房超音波データセットを用いて検証した。
論文 参考訳(メタデータ) (2022-05-02T20:25:26Z) - Cascading Modular Network (CAM-Net) for Multimodal Image Synthesis [7.726465518306907]
永続的な課題は、同じ入力画像から出力画像の多様なバージョンを生成することである。
我々は,幅広いタスクに適用可能な統一アーキテクチャであるCAM-Netを提案する。
FID(Frechet Inception Distance)は、ベースラインに比べて最大45.3%低減できる。
論文 参考訳(メタデータ) (2021-06-16T17:58:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。