論文の概要: Diffusion Models in Vision: A Survey
- arxiv url: http://arxiv.org/abs/2209.04747v1
- Date: Sat, 10 Sep 2022 22:00:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-13 12:13:45.402331
- Title: Diffusion Models in Vision: A Survey
- Title(参考訳): 視覚における拡散モデル:調査
- Authors: Florinel-Alin Croitoru, Vlad Hondru, Radu Tudor Ionescu, Mubarak Shah
- Abstract要約: 拡散モデルは、前方拡散段階と逆拡散段階の2つの段階に基づく深層生成モデルである。
拡散モデルは、既知の計算負荷にもかかわらず、生成したサンプルの品質と多様性に対して広く評価されている。
- 参考スコア(独自算出の注目度): 80.82832715884597
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Denoising diffusion models represent a recent emerging topic in computer
vision, demonstrating remarkable results in the area of generative modeling. A
diffusion model is a deep generative model that is based on two stages, a
forward diffusion stage and a reverse diffusion stage. In the forward diffusion
stage, the input data is gradually perturbed over several steps by adding
Gaussian noise. In the reverse stage, a model is tasked at recovering the
original input data by learning to gradually reverse the diffusion process,
step by step. Diffusion models are widely appreciated for the quality and
diversity of the generated samples, despite their known computational burdens,
i.e. low speeds due to the high number of steps involved during sampling. In
this survey, we provide a comprehensive review of articles on denoising
diffusion models applied in vision, comprising both theoretical and practical
contributions in the field. First, we identify and present three generic
diffusion modeling frameworks, which are based on denoising diffusion
probabilistic models, noise conditioned score networks, and stochastic
differential equations. We further discuss the relations between diffusion
models and other deep generative models, including variational auto-encoders,
generative adversarial networks, energy-based models, autoregressive models and
normalizing flows. Then, we introduce a multi-perspective categorization of
diffusion models applied in computer vision. Finally, we illustrate the current
limitations of diffusion models and envision some interesting directions for
future research.
- Abstract(参考訳): 拡散モデルの認知はコンピュータビジョンにおける近年の話題であり、生成モデリングの領域において顕著な成果を示している。
拡散モデルは、前方拡散段階と逆拡散段階の2つの段階に基づく深い生成モデルである。
前方拡散段階では、ガウスノイズを加えることにより、入力データが数ステップにわたって徐々に摂動される。
逆段階では、拡散過程を段階的に徐々に逆転させる学習により、元の入力データを復元するモデルを課題とする。
拡散モデルは、その計算負荷、すなわちサンプリング中のステップ数の増加による低速さにもかかわらず、生成したサンプルの品質と多様性について広く評価されている。
本研究は,視覚に応用される分別拡散モデルに関する論文を総合的にレビューし,その分野における理論的および実用的貢献を考察する。
まず, 一般化確率モデル, 雑音条件付スコアネットワーク, 確率微分方程式に基づく3つの一般化拡散モデリングフレームワークを同定し, 提案する。
さらに,拡散モデルと可変オートエンコーダ,生成逆ネットワーク,エネルギーベースモデル,自己回帰モデル,正規化フローなど,他の深層生成モデルとの関係についても論じる。
次に,コンピュータビジョンに適用された拡散モデルの多視点分類を提案する。
最後に, 拡散モデルの現在の限界を説明し, 今後の研究に向けた興味深い方向性について考察する。
関連論文リスト
- The Emergence of Reproducibility and Consistency in Diffusion Models [10.699652598371213]
同じスタートノイズ入力と決定論的サンプリングが与えられた場合、異なる拡散モデルはしばしば驚くほど類似した出力が得られる。
拡散モデルはトレーニングデータサイズの影響を受けやすい分布を学習していることを示す。
この価値ある性質は、条件付き使用、逆問題解決、モデル微調整など、拡散モデルの多くの変種に一般化される。
論文 参考訳(メタデータ) (2023-10-08T19:02:46Z) - Soft Mixture Denoising: Beyond the Expressive Bottleneck of Diffusion
Models [76.46246743508651]
我々は,現在の拡散モデルが後方認知において表現力のあるボトルネックを持っていることを示した。
本稿では,後方復調のための表現的かつ効率的なモデルであるソフトミキシング・デノナイジング(SMD)を導入する。
論文 参考訳(メタデータ) (2023-09-25T12:03:32Z) - Expressiveness Remarks for Denoising Diffusion Models and Samplers [2.5137859989323537]
微分拡散モデル(Denoising diffusion model)は、最近多くの領域で最先端の結果を得た生成モデルのクラスである。
我々は、F"ollmer flow"に似た既知の接続を利用して、F"ollmer drift"の確立されたニューラルネットワーク近似結果を拡張し、拡散モデルとサンプリング器をデノナイズする。
論文 参考訳(メタデータ) (2023-05-16T16:56:19Z) - Diffusion Models as Masked Autoencoders [52.442717717898056]
拡散モデルに対する近年の関心を踏まえて、生成的に事前学習された視覚表現を再考する。
拡散モデルによる直接事前学習では強い表現は得られないが、マスク付き入力上での拡散モデルと公式拡散モデルをマスク付きオートエンコーダ(DiffMAE)として条件付ける。
設計選択の長所と短所について包括的な研究を行い、拡散モデルとマスク付きオートエンコーダ間の接続を構築する。
論文 参考訳(メタデータ) (2023-04-06T17:59:56Z) - SinDiffusion: Learning a Diffusion Model from a Single Natural Image [159.4285444680301]
SinDiffusionは1つの自然な画像からパッチの内部分布を捉えるためにデノナイズ拡散モデルを利用する。
SinDiffusionは、2つのコア設計に基づいている。まず、SinDiffusionは、段階的にスケールが成長する複数のモデルではなく、1つのスケールで1つのモデルで訓練されている。
第2に,拡散ネットワークのパッチレベルの受容領域は,画像のパッチ統計を捉える上で重要かつ効果的であることを示す。
論文 参考訳(メタデータ) (2022-11-22T18:00:03Z) - Diffusion Models for Medical Image Analysis: A Comprehensive Survey [7.272308924113656]
生成モデルのクラスである拡散モデルのデノイングは、近年、様々なディープラーニング問題に多大な関心を集めている。
拡散モデルは、その強いモードカバレッジと、生成されたサンプルの品質で広く評価されている。
本調査では,医療画像解析の分野における拡散モデルの概要について概観する。
論文 参考訳(メタデータ) (2022-11-14T23:50:52Z) - Unifying Diffusion Models' Latent Space, with Applications to
CycleDiffusion and Guidance [95.12230117950232]
関係領域で独立に訓練された2つの拡散モデルから共通潜時空間が現れることを示す。
テキスト・画像拡散モデルにCycleDiffusionを適用することで、大規模なテキスト・画像拡散モデルがゼロショット画像・画像拡散エディタとして使用できることを示す。
論文 参考訳(メタデータ) (2022-10-11T15:53:52Z) - A Survey on Generative Diffusion Model [75.93774014861978]
拡散モデルは、深層生成モデルの新たなクラスである。
時間を要する反復生成過程や高次元ユークリッド空間への閉じ込めなど、いくつかの制限がある。
本調査では,拡散モデルの向上を目的とした高度な手法を多数提示する。
論文 参考訳(メタデータ) (2022-09-06T16:56:21Z) - Diffusion Models: A Comprehensive Survey of Methods and Applications [10.557289965753437]
拡散モデル(英: Diffusion model)は、密度理論の確立を伴う様々なタスクにおいて印象的な結果を示す深層生成モデルのクラスである。
近年,拡散モデルの性能向上への熱意が高まっている。
論文 参考訳(メタデータ) (2022-09-02T02:59:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。