論文の概要: Diffusion Models in Vision: A Survey
- arxiv url: http://arxiv.org/abs/2209.04747v5
- Date: Sat, 1 Apr 2023 14:27:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-05 00:46:08.291793
- Title: Diffusion Models in Vision: A Survey
- Title(参考訳): 視覚における拡散モデル:調査
- Authors: Florinel-Alin Croitoru, Vlad Hondru, Radu Tudor Ionescu, Mubarak Shah
- Abstract要約: 拡散モデルは、前方拡散段階と逆拡散段階の2つの段階に基づく深層生成モデルである。
拡散モデルは、既知の計算負荷にもかかわらず、生成したサンプルの品質と多様性に対して広く評価されている。
- 参考スコア(独自算出の注目度): 80.82832715884597
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Denoising diffusion models represent a recent emerging topic in computer
vision, demonstrating remarkable results in the area of generative modeling. A
diffusion model is a deep generative model that is based on two stages, a
forward diffusion stage and a reverse diffusion stage. In the forward diffusion
stage, the input data is gradually perturbed over several steps by adding
Gaussian noise. In the reverse stage, a model is tasked at recovering the
original input data by learning to gradually reverse the diffusion process,
step by step. Diffusion models are widely appreciated for the quality and
diversity of the generated samples, despite their known computational burdens,
i.e. low speeds due to the high number of steps involved during sampling. In
this survey, we provide a comprehensive review of articles on denoising
diffusion models applied in vision, comprising both theoretical and practical
contributions in the field. First, we identify and present three generic
diffusion modeling frameworks, which are based on denoising diffusion
probabilistic models, noise conditioned score networks, and stochastic
differential equations. We further discuss the relations between diffusion
models and other deep generative models, including variational auto-encoders,
generative adversarial networks, energy-based models, autoregressive models and
normalizing flows. Then, we introduce a multi-perspective categorization of
diffusion models applied in computer vision. Finally, we illustrate the current
limitations of diffusion models and envision some interesting directions for
future research.
- Abstract(参考訳): 拡散モデルの認知はコンピュータビジョンにおける近年の話題であり、生成モデリングの領域において顕著な成果を示している。
拡散モデルは、前方拡散段階と逆拡散段階の2つの段階に基づく深い生成モデルである。
前方拡散段階では、ガウスノイズを加えることにより、入力データが数ステップにわたって徐々に摂動される。
逆段階では、拡散過程を段階的に徐々に逆転させる学習により、元の入力データを復元するモデルを課題とする。
拡散モデルは、その計算負荷、すなわちサンプリング中のステップ数の増加による低速さにもかかわらず、生成したサンプルの品質と多様性について広く評価されている。
本研究は,視覚に応用される分別拡散モデルに関する論文を総合的にレビューし,その分野における理論的および実用的貢献を考察する。
まず, 一般化確率モデル, 雑音条件付スコアネットワーク, 確率微分方程式に基づく3つの一般化拡散モデリングフレームワークを同定し, 提案する。
さらに,拡散モデルと可変オートエンコーダ,生成逆ネットワーク,エネルギーベースモデル,自己回帰モデル,正規化フローなど,他の深層生成モデルとの関係についても論じる。
次に,コンピュータビジョンに適用された拡散モデルの多視点分類を提案する。
最後に, 拡散モデルの現在の限界を説明し, 今後の研究に向けた興味深い方向性について考察する。
関連論文リスト
- Energy-Based Diffusion Language Models for Text Generation [126.23425882687195]
エネルギーベース拡散言語モデル(Energy-based Diffusion Language Model, EDLM)は、拡散ステップごとに全シーケンスレベルで動作するエネルギーベースモデルである。
我々のフレームワークは、既存の拡散モデルよりも1.3$times$のサンプリングスピードアップを提供する。
論文 参考訳(メタデータ) (2024-10-28T17:25:56Z) - Diffusion Models in Low-Level Vision: A Survey [82.77962165415153]
拡散モデルに基づくソリューションは、優れた品質と多様性のサンプルを作成する能力で広く称賛されている。
本稿では,3つの一般化拡散モデリングフレームワークを提案し,それらと他の深層生成モデルとの相関関係について検討する。
医療、リモートセンシング、ビデオシナリオなど、他のタスクに適用された拡張拡散モデルについて要約する。
論文 参考訳(メタデータ) (2024-06-17T01:49:27Z) - An Overview of Diffusion Models: Applications, Guided Generation, Statistical Rates and Optimization [59.63880337156392]
拡散モデルはコンピュータビジョン、オーディオ、強化学習、計算生物学において大きな成功を収めた。
経験的成功にもかかわらず、拡散モデルの理論は非常に限定的である。
本稿では,前向きな理論や拡散モデルの手法を刺激する理論的露光について述べる。
論文 参考訳(メタデータ) (2024-04-11T14:07:25Z) - The Emergence of Reproducibility and Generalizability in Diffusion Models [10.188731323681575]
同じスタートノイズ入力と決定論的サンプリングが与えられた場合、異なる拡散モデルはしばしば驚くほど類似した出力が得られる。
拡散モデルはトレーニングデータサイズの影響を受けやすい分布を学習していることを示す。
この価値ある性質は、条件付き使用、逆問題解決、モデル微調整など、拡散モデルの多くの変種に一般化される。
論文 参考訳(メタデータ) (2023-10-08T19:02:46Z) - Diffusion Models for Medical Image Analysis: A Comprehensive Survey [7.272308924113656]
生成モデルのクラスである拡散モデルのデノイングは、近年、様々なディープラーニング問題に多大な関心を集めている。
拡散モデルは、その強いモードカバレッジと、生成されたサンプルの品質で広く評価されている。
本調査では,医療画像解析の分野における拡散モデルの概要について概観する。
論文 参考訳(メタデータ) (2022-11-14T23:50:52Z) - Unifying Diffusion Models' Latent Space, with Applications to
CycleDiffusion and Guidance [95.12230117950232]
関係領域で独立に訓練された2つの拡散モデルから共通潜時空間が現れることを示す。
テキスト・画像拡散モデルにCycleDiffusionを適用することで、大規模なテキスト・画像拡散モデルがゼロショット画像・画像拡散エディタとして使用できることを示す。
論文 参考訳(メタデータ) (2022-10-11T15:53:52Z) - A Survey on Generative Diffusion Model [75.93774014861978]
拡散モデルは、深層生成モデルの新たなクラスである。
時間を要する反復生成過程や高次元ユークリッド空間への閉じ込めなど、いくつかの制限がある。
本調査では,拡散モデルの向上を目的とした高度な手法を多数提示する。
論文 参考訳(メタデータ) (2022-09-06T16:56:21Z) - Diffusion Models: A Comprehensive Survey of Methods and Applications [10.557289965753437]
拡散モデル(英: Diffusion model)は、密度理論の確立を伴う様々なタスクにおいて印象的な結果を示す深層生成モデルのクラスである。
近年,拡散モデルの性能向上への熱意が高まっている。
論文 参考訳(メタデータ) (2022-09-02T02:59:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。