論文の概要: Image Generation with Multimodal Priors using Denoising Diffusion
Probabilistic Models
- arxiv url: http://arxiv.org/abs/2206.05039v1
- Date: Fri, 10 Jun 2022 12:23:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-13 21:40:04.381226
- Title: Image Generation with Multimodal Priors using Denoising Diffusion
Probabilistic Models
- Title(参考訳): Denoising Diffusion Probabilistic Model を用いたマルチモーダル先行画像生成
- Authors: Nithin Gopalakrishnan Nair, Wele Gedara Chaminda Bandara, Vishal M
Patel
- Abstract要約: このタスクを達成するために生成モデルを使用する際の大きな課題は、すべてのモダリティと対応する出力を含むペアデータの欠如である。
本稿では,拡散確率的合成モデルに基づく多モデル先行画像生成手法を提案する。
- 参考スコア(独自算出の注目度): 54.1843419649895
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Image synthesis under multi-modal priors is a useful and challenging task
that has received increasing attention in recent years. A major challenge in
using generative models to accomplish this task is the lack of paired data
containing all modalities (i.e. priors) and corresponding outputs. In recent
work, a variational auto-encoder (VAE) model was trained in a weakly supervised
manner to address this challenge. Since the generative power of VAEs is usually
limited, it is difficult for this method to synthesize images belonging to
complex distributions. To this end, we propose a solution based on a denoising
diffusion probabilistic models to synthesise images under multi-model priors.
Based on the fact that the distribution over each time step in the diffusion
model is Gaussian, in this work we show that there exists a closed-form
expression to the generate the image corresponds to the given modalities. The
proposed solution does not require explicit retraining for all modalities and
can leverage the outputs of individual modalities to generate realistic images
according to different constraints. We conduct studies on two real-world
datasets to demonstrate the effectiveness of our approach
- Abstract(参考訳): マルチモーダル以前の画像合成は,近年注目を集めている,有用かつ困難な課題である。
このタスクを達成するために生成モデルを使用する際の大きな課題は、すべてのモダリティ(すなわち事前)と対応する出力を含むペアデータがないことである。
最近の研究では、この課題に対処するために、変分自動エンコーダ(VAE)モデルを弱い教師付きで訓練した。
VAEの生成能力は通常限られているため、複雑な分布に属する画像を合成することは困難である。
そこで本論文では,多モデル優先条件下で画像合成を行うため,雑音拡散確率モデルに基づく解を提案する。
拡散モデルにおける各時間ステップ上の分布がガウス的であるという事実に基づいて、この研究において、画像を生成するための閉形式表現が与えられたモダリティに対応することを示す。
提案手法は,全てのモダリティに対して明示的なリトレーニングを必要とせず,個々のモダリティの出力を利用して,制約に応じてリアルな画像を生成する。
実世界の2つのデータセットの研究を行い、我々のアプローチの有効性を実証する。
関連論文リスト
- Provably Robust Score-Based Diffusion Posterior Sampling for Plug-and-Play Image Reconstruction [31.503662384666274]
科学と工学において、ゴールは、ある画像のモダリティを記述する既知のフォワードモデルから収集された少数の測定値から未知の画像を推測することである。
モチベートされたスコアベース拡散モデルはその経験的成功により、画像再構成に先立って模範の印象的な候補として現れた。
論文 参考訳(メタデータ) (2024-03-25T15:58:26Z) - Steered Diffusion: A Generalized Framework for Plug-and-Play Conditional
Image Synthesis [62.07413805483241]
Steered Diffusionは、無条件生成のために訓練された拡散モデルを用いたゼロショット条件画像生成のためのフレームワークである。
塗装,着色,テキスト誘導セマンティック編集,画像超解像などのタスクに対して,ステアリング拡散を用いた実験を行った。
論文 参考訳(メタデータ) (2023-09-30T02:03:22Z) - Hierarchical Integration Diffusion Model for Realistic Image Deblurring [71.76410266003917]
拡散モデル (DM) は画像劣化に導入され, 有望な性能を示した。
本稿では,階層型統合拡散モデル(HI-Diff)を提案する。
人工的および実世界のぼかしデータセットの実験は、HI-Diffが最先端の手法より優れていることを示した。
論文 参考訳(メタデータ) (2023-05-22T12:18:20Z) - A Variational Perspective on Solving Inverse Problems with Diffusion
Models [101.831766524264]
逆タスクは、データ上の後続分布を推測するものとして定式化することができる。
しかし、拡散過程の非線形的かつ反復的な性質が後部を引き付けるため、拡散モデルではこれは困難である。
そこで我々は,真の後続分布を近似する設計手法を提案する。
論文 参考訳(メタデータ) (2023-05-07T23:00:47Z) - DDFM: Denoising Diffusion Model for Multi-Modality Image Fusion [144.9653045465908]
拡散確率モデル(DDPM)に基づく新しい融合アルゴリズムを提案する。
近赤外可視画像融合と医用画像融合で有望な融合が得られた。
論文 参考訳(メタデータ) (2023-03-13T04:06:42Z) - One Transformer Fits All Distributions in Multi-Modal Diffusion at Scale [36.590918776922905]
本論文では,マルチモーダルデータの集合に関連するすべての分布を1つのモデルに適合させる統合拡散フレームワーク(UniDiffuser)を提案する。
統一的な視点に触発されたUniDiffuserは、元の拡散モデルに最小限の変更を加えながら、全ての分布を同時に学習する。
論文 参考訳(メタデータ) (2023-03-12T03:38:39Z) - Person Image Synthesis via Denoising Diffusion Model [116.34633988927429]
本研究では,高忠実度人物画像合成に拡散モデルをいかに応用できるかを示す。
2つの大規模ベンチマークとユーザスタディの結果は、挑戦的なシナリオ下で提案したアプローチのフォトリアリズムを実証している。
論文 参考訳(メタデータ) (2022-11-22T18:59:50Z) - Cascading Modular Network (CAM-Net) for Multimodal Image Synthesis [7.726465518306907]
永続的な課題は、同じ入力画像から出力画像の多様なバージョンを生成することである。
我々は,幅広いタスクに適用可能な統一アーキテクチャであるCAM-Netを提案する。
FID(Frechet Inception Distance)は、ベースラインに比べて最大45.3%低減できる。
論文 参考訳(メタデータ) (2021-06-16T17:58:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。