論文の概要: Efficient Diffusion Models for Vision: A Survey
- arxiv url: http://arxiv.org/abs/2210.09292v2
- Date: Thu, 20 Oct 2022 12:29:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-23 20:25:01.272753
- Title: Efficient Diffusion Models for Vision: A Survey
- Title(参考訳): 視覚の効率的な拡散モデル:調査
- Authors: Anwaar Ulhaq, Naveed Akhtar, Ganna Pogrebna
- Abstract要約: 拡散モデル (DM) は, 逆行訓練を必要とせず, コンテンツ生成における最先端の性能を実証している。
DMは非平衡熱力学にインスパイアされ、本質的に高い計算複雑性を持つ。
DMはトレーニングと推論の段階でかなりの計算オーバーヘッドを発生させる。
- 参考スコア(独自算出の注目度): 21.689461247198384
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion Models (DMs) have demonstrated state-of-the-art performance in
content generation without requiring adversarial training. These models are
trained using a two-step process. First, a forward - diffusion - process
gradually adds noise to a datum (usually an image). Then, a backward - reverse
diffusion - process gradually removes the noise to turn it into a sample of the
target distribution being modelled. DMs are inspired by non-equilibrium
thermodynamics and have inherent high computational complexity. Due to the
frequent function evaluations and gradient calculations in high-dimensional
spaces, these models incur considerable computational overhead during both
training and inference stages. This can not only preclude the democratization
of diffusion-based modelling, but also hinder the adaption of diffusion models
in real-life applications. Not to mention, the efficiency of computational
models is fast becoming a significant concern due to excessive energy
consumption and environmental scares. These factors have led to multiple
contributions in the literature that focus on devising computationally
efficient DMs. In this review, we present the most recent advances in diffusion
models for vision, specifically focusing on the important design aspects that
affect the computational efficiency of DMs. In particular, we emphasize the
recently proposed design choices that have led to more efficient DMs. Unlike
the other recent reviews, which discuss diffusion models from a broad
perspective, this survey is aimed at pushing this research direction forward by
highlighting the design strategies in the literature that are resulting in
practicable models for the broader research community. We also provide a future
outlook of diffusion models in vision from their computational efficiency
viewpoint.
- Abstract(参考訳): 拡散モデル (DM) は, 逆行訓練を必要とせず, コンテンツ生成における最先端の性能を示す。
これらのモデルは2段階のプロセスで訓練される。
第一に、前方拡散 - 過程は徐々にデータム(通常は画像)にノイズを付加する。
その後、後ろ向きの逆拡散 - プロセスはノイズを徐々に取り除き、対象分布のサンプルとしてモデル化する。
DMは非平衡熱力学にインスパイアされ、本質的に高い計算複雑性を持つ。
高次元空間での頻繁な関数評価と勾配計算のため、これらのモデルはトレーニングと推論の段階でかなりの計算オーバーヘッドを負う。
これは拡散に基づくモデリングの民主化を妨げるだけでなく、現実の応用における拡散モデルの適応を妨げる。
言うまでもなく、計算モデルの効率性は、過度のエネルギー消費と環境問題のために急速に重要な関心事になりつつある。
これらの要因は、計算効率の良いDMを考案することに焦点を当てた文献に多くの貢献をもたらした。
本稿では,視覚の拡散モデルにおける最新の進歩について述べる。特に,DMの計算効率に影響を与える重要な設計側面に着目して述べる。
特に、最近提案された設計選択が、より効率的なDMに繋がったことを強調する。
広義の拡散モデルについて論じる他の最近のレビューとは違い,本調査は,幅広い研究コミュニティの実践可能なモデルとなる文献のデザイン戦略を強調することにより,この研究の方向性を推し進めることを目的としている。
また,その計算効率の観点からの拡散モデルの将来展望について述べる。
関連論文リスト
- Self-Play Fine-Tuning of Diffusion Models for Text-to-Image Generation [59.184980778643464]
ファインチューニング拡散モデル : 生成人工知能(GenAI)の最前線
本稿では,拡散モデル(SPIN-Diffusion)のための自己演奏ファインチューニングという革新的な手法を紹介する。
提案手法は従来の教師付き微調整とRL戦略の代替として,モデル性能とアライメントの両方を大幅に改善する。
論文 参考訳(メタデータ) (2024-02-15T18:59:18Z) - Taming Latent Diffusion Models to See in the Dark [65.6004750218506]
LDM-SIDは,提案するテーピングモジュールの集合を凍結した事前学習拡散モデルに挿入し,生成過程を制御することを目的としている。
入力されたRAW画像に2次元離散ウェーブレット変換を適用し、LLIEタスクを低周波コンテンツ生成と高周波ディテールメンテナンスという2つの重要な部分に分割する。
論文 参考訳(メタデータ) (2023-12-02T04:31:51Z) - On Memorization in Diffusion Models [46.656797890144105]
より小さなデータセットでは記憶の挙動が生じる傾向があることを示す。
我々は、有効モデル記憶(EMM)の観点から、影響因子がこれらの記憶行動に与える影響を定量化する。
本研究は,拡散モデル利用者にとって実用的意義を持ち,深部生成モデルの理論研究の手がかりを提供する。
論文 参考訳(メタデータ) (2023-10-04T09:04:20Z) - Eliminating Lipschitz Singularities in Diffusion Models [51.806899946775076]
拡散モデルは、時間ステップの零点付近で無限のリプシッツをしばしば表すことを示す。
これは、積分演算に依存する拡散過程の安定性と精度に脅威をもたらす。
我々はE-TSDMと呼ばれる新しい手法を提案し、これは0に近い拡散モデルのリプシッツを除去する。
論文 参考訳(メタデータ) (2023-06-20T03:05:28Z) - Restoration based Generative Models [0.886014926770622]
デノイング拡散モデル(DDM)は、印象的な合成品質を示すことで注目を集めている。
本稿では、画像復元(IR)の観点からDDMの解釈を確立する。
本稿では,前処理の柔軟性を生かして,拡散過程と比較して性能を向上するマルチスケールトレーニングを提案する。
われわれのフレームワークは、新しいタイプのフレキシブル・ジェネラル・ジェネラル・ジェネレーティブ・モデルの設計の道を開いたと信じている。
論文 参考訳(メタデータ) (2023-02-20T00:53:33Z) - Diffusion Models in Vision: A Survey [80.82832715884597]
拡散モデルは、前方拡散段階と逆拡散段階の2つの段階に基づく深層生成モデルである。
拡散モデルは、既知の計算負荷にもかかわらず、生成したサンプルの品質と多様性に対して広く評価されている。
論文 参考訳(メタデータ) (2022-09-10T22:00:30Z) - A Survey on Generative Diffusion Model [75.93774014861978]
拡散モデルは、深層生成モデルの新たなクラスである。
時間を要する反復生成過程や高次元ユークリッド空間への閉じ込めなど、いくつかの制限がある。
本調査では,拡散モデルの向上を目的とした高度な手法を多数提示する。
論文 参考訳(メタデータ) (2022-09-06T16:56:21Z) - Diffusion Models: A Comprehensive Survey of Methods and Applications [10.557289965753437]
拡散モデル(英: Diffusion model)は、密度理論の確立を伴う様々なタスクにおいて印象的な結果を示す深層生成モデルのクラスである。
近年,拡散モデルの性能向上への熱意が高まっている。
論文 参考訳(メタデータ) (2022-09-02T02:59:10Z) - How Much is Enough? A Study on Diffusion Times in Score-based Generative
Models [76.76860707897413]
現在のベストプラクティスは、フォワードダイナミクスが既知の単純なノイズ分布に十分に近づくことを確実にするために大きなTを提唱している。
本稿では, 理想とシミュレーションされたフォワードダイナミクスのギャップを埋めるために補助モデルを用いて, 標準的な逆拡散過程を導出する方法について述べる。
論文 参考訳(メタデータ) (2022-06-10T15:09:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。