論文の概要: Conditional Image Synthesis with Diffusion Models: A Survey
- arxiv url: http://arxiv.org/abs/2409.19365v2
- Date: Thu, 3 Oct 2024 14:01:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-05 23:48:39.602913
- Title: Conditional Image Synthesis with Diffusion Models: A Survey
- Title(参考訳): 拡散モデルを用いた条件付き画像合成:サーベイ
- Authors: Zheyuan Zhan, Defang Chen, Jian-Ping Mei, Zhenghe Zhao, Jiawei Chen, Chun Chen, Siwei Lyu, Can Wang,
- Abstract要約: ユーザ指定要求に基づく条件付き画像合成は、複雑な視覚コンテンツを作成する上で重要な要素である。
近年、拡散に基づく生成モデリングは条件付き画像合成の非常に効果的な方法となり、文献の指数的成長につながっている。
本研究では,拡散モデルの基礎となる2つの要素に条件がどのように組み込まれているかに基づいて,既存の研究を分類する。
- 参考スコア(独自算出の注目度): 31.910734496838923
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Conditional image synthesis based on user-specified requirements is a key component in creating complex visual content. In recent years, diffusion-based generative modeling has become a highly effective way for conditional image synthesis, leading to exponential growth in the literature. However, the complexity of diffusion-based modeling, the wide range of image synthesis tasks, and the diversity of conditioning mechanisms present significant challenges for researchers to keep up with rapid developments and understand the core concepts on this topic. In this survey, we categorize existing works based on how conditions are integrated into the two fundamental components of diffusion-based modeling, i.e., the denoising network and the sampling process. We specifically highlight the underlying principles, advantages, and potential challenges of various conditioning approaches in the training, re-purposing, and specialization stages to construct a desired denoising network. We also summarize six mainstream conditioning mechanisms in the essential sampling process. All discussions are centered around popular applications. Finally, we pinpoint some critical yet still open problems to be solved in the future and suggest some possible solutions. Our reviewed works are itemized at https://github.com/zju-pi/Awesome-Conditional-Diffusion-Models.
- Abstract(参考訳): ユーザ指定要求に基づく条件付き画像合成は、複雑な視覚コンテンツを作成する上で重要な要素である。
近年、拡散に基づく生成モデリングは条件付き画像合成の非常に効果的な方法となり、文献の指数的成長につながっている。
しかし、拡散に基づくモデリングの複雑さ、幅広い画像合成タスク、条件付け機構の多様性は、研究者が急速な発展に追随し、この話題の核となる概念を理解する上で重要な課題である。
本研究では,拡散モデルの基礎となる2つの要素,すなわちデノナイジングネットワークとサンプリングプロセスに条件がどのように組み込まれているかに基づいて,既存の研究を分類する。
所望の認知ネットワークを構築するためのトレーニング、再調達、特殊化の段階において、様々な条件付けアプローチの根底にある原則、利点、潜在的な課題を特に強調する。
また,本質的なサンプリングプロセスにおいて,6つの主要な条件付け機構を要約した。
すべての議論はポピュラーなアプリケーションを中心に行われます。
最後に、将来解決すべきいくつかの重要な、そしてまだ未解決の問題を指摘し、いくつかの可能な解決策を提案する。
レビューされた作品はhttps://github.com/zju-pi/Awesome-Conditional-Diffusion-Models.comで項目化されています。
関連論文リスト
- A Simple Approach to Unifying Diffusion-based Conditional Generation [63.389616350290595]
多様な条件生成タスクを処理するための、シンプルで統一されたフレームワークを導入します。
提案手法は,異なる推論時間サンプリング方式による多目的化を実現する。
我々のモデルは、非親密なアライメントや粗い条件付けのような追加機能をサポートしています。
論文 参考訳(メタデータ) (2024-10-15T09:41:43Z) - A Comprehensive Survey on Diffusion Models and Their Applications [0.4218593777811082]
拡散モデルは拡散過程をシミュレートして現実的なサンプルを作成する確率論的モデルである。
これらのモデルは、画像処理、音声合成、自然言語処理といった領域で人気を博している。
このレビューは、拡散モデルをより深く理解し、より広く採用することを目的としている。
論文 参考訳(メタデータ) (2024-07-01T17:10:29Z) - Multi-View Unsupervised Image Generation with Cross Attention Guidance [23.07929124170851]
本稿では,単一カテゴリデータセット上でのポーズ条件拡散モデルの教師なし学習のための新しいパイプラインを提案する。
特定のオブジェクト部分の可視性と位置を比較することで、データセットをクラスタリングすることで、オブジェクトのポーズを識別する。
我々のモデルであるMIRAGEは、実画像における新しいビュー合成における先行研究を超越している。
論文 参考訳(メタデータ) (2023-12-07T14:55:13Z) - Advancing Pose-Guided Image Synthesis with Progressive Conditional
Diffusion Models [13.795706255966259]
本稿では,ターゲット下の人物像とソースポーズのギャップを段階的に橋渡しするプログレッシブ条件拡散モデル(PCDM)を提案する。
定性的かつ定量的な結果は,難解なシナリオ下で提案したPCDMの一貫性と光現実性を示すものである。
論文 参考訳(メタデータ) (2023-10-10T05:13:17Z) - Steered Diffusion: A Generalized Framework for Plug-and-Play Conditional
Image Synthesis [62.07413805483241]
Steered Diffusionは、無条件生成のために訓練された拡散モデルを用いたゼロショット条件画像生成のためのフレームワークである。
塗装,着色,テキスト誘導セマンティック編集,画像超解像などのタスクに対して,ステアリング拡散を用いた実験を行った。
論文 参考訳(メタデータ) (2023-09-30T02:03:22Z) - Conditional Generation from Unconditional Diffusion Models using
Denoiser Representations [94.04631421741986]
本稿では,学習したデノイザネットワークの内部表現を用いて,事前学習した非条件拡散モデルを新しい条件に適用することを提案する。
提案手法により生成した合成画像を用いたTiny ImageNetトレーニングセットの強化により,ResNetベースラインの分類精度が最大8%向上することを示す。
論文 参考訳(メタデータ) (2023-06-02T20:09:57Z) - Person Image Synthesis via Denoising Diffusion Model [116.34633988927429]
本研究では,高忠実度人物画像合成に拡散モデルをいかに応用できるかを示す。
2つの大規模ベンチマークとユーザスタディの結果は、挑戦的なシナリオ下で提案したアプローチのフォトリアリズムを実証している。
論文 参考訳(メタデータ) (2022-11-22T18:59:50Z) - Image Generation with Multimodal Priors using Denoising Diffusion
Probabilistic Models [54.1843419649895]
このタスクを達成するために生成モデルを使用する際の大きな課題は、すべてのモダリティと対応する出力を含むペアデータの欠如である。
本稿では,拡散確率的合成モデルに基づく多モデル先行画像生成手法を提案する。
論文 参考訳(メタデータ) (2022-06-10T12:23:05Z) - DiVAE: Photorealistic Images Synthesis with Denoising Diffusion Decoder [73.1010640692609]
本稿では,拡散デコーダ(DiVAE)を用いたVQ-VAEアーキテクチャモデルを提案する。
我々のモデルは最先端の成果を達成し、さらに多くのフォトリアリスティックな画像を生成する。
論文 参考訳(メタデータ) (2022-06-01T10:39:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。