論文の概要: Efficient Diffusion Models for Vision: A Survey
- arxiv url: http://arxiv.org/abs/2210.09292v3
- Date: Tue, 12 Mar 2024 02:08:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-14 02:34:05.354097
- Title: Efficient Diffusion Models for Vision: A Survey
- Title(参考訳): 視覚の効率的な拡散モデル:調査
- Authors: Anwaar Ulhaq and Naveed Akhtar
- Abstract要約: 拡散モデル (DM) は, 逆行訓練を必要とせず, コンテンツ生成における最先端の性能を実証している。
DMは非平衡熱力学にインスパイアされ、本質的に高い計算複雑性を持つ。
DMはトレーニングと推論の段階でかなりの計算オーバーヘッドを発生させる。
- 参考スコア(独自算出の注目度): 34.610299976294904
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion Models (DMs) have demonstrated state-of-the-art performance in
content generation without requiring adversarial training. These models are
trained using a two-step process. First, a forward - diffusion - process
gradually adds noise to a datum (usually an image). Then, a backward - reverse
diffusion - process gradually removes the noise to turn it into a sample of the
target distribution being modelled. DMs are inspired by non-equilibrium
thermodynamics and have inherent high computational complexity. Due to the
frequent function evaluations and gradient calculations in high-dimensional
spaces, these models incur considerable computational overhead during both
training and inference stages. This can not only preclude the democratization
of diffusion-based modelling, but also hinder the adaption of diffusion models
in real-life applications. Not to mention, the efficiency of computational
models is fast becoming a significant concern due to excessive energy
consumption and environmental scares. These factors have led to multiple
contributions in the literature that focus on devising computationally
efficient DMs. In this review, we present the most recent advances in diffusion
models for vision, specifically focusing on the important design aspects that
affect the computational efficiency of DMs. In particular, we emphasize the
recently proposed design choices that have led to more efficient DMs. Unlike
the other recent reviews, which discuss diffusion models from a broad
perspective, this survey is aimed at pushing this research direction forward by
highlighting the design strategies in the literature that are resulting in
practicable models for the broader research community. We also provide a future
outlook of diffusion models in vision from their computational efficiency
viewpoint.
- Abstract(参考訳): 拡散モデル (DM) は, 逆行訓練を必要とせず, コンテンツ生成における最先端の性能を示す。
これらのモデルは2段階のプロセスで訓練される。
第一に、前方拡散 - 過程は徐々にデータム(通常は画像)にノイズを付加する。
その後、後ろ向きの逆拡散 - プロセスはノイズを徐々に取り除き、対象分布のサンプルとしてモデル化する。
DMは非平衡熱力学にインスパイアされ、本質的に高い計算複雑性を持つ。
高次元空間での頻繁な関数評価と勾配計算のため、これらのモデルはトレーニングと推論の段階でかなりの計算オーバーヘッドを負う。
これは拡散に基づくモデリングの民主化を妨げるだけでなく、現実の応用における拡散モデルの適応を妨げる。
言うまでもなく、計算モデルの効率性は、過度のエネルギー消費と環境問題のために急速に重要な関心事になりつつある。
これらの要因は、計算効率の良いDMを考案することに焦点を当てた文献に多くの貢献をもたらした。
本稿では,視覚の拡散モデルにおける最新の進歩について述べる。特に,DMの計算効率に影響を与える重要な設計側面に着目して述べる。
特に、最近提案された設計選択が、より効率的なDMに繋がったことを強調する。
広義の拡散モデルについて論じる他の最近のレビューとは違い,本調査は,幅広い研究コミュニティの実践可能なモデルとなる文献のデザイン戦略を強調することにより,この研究の方向性を推し進めることを目的としている。
また,その計算効率の観点からの拡散モデルの将来展望について述べる。
関連論文リスト
- Diffusion Models in Low-Level Vision: A Survey [82.77962165415153]
拡散モデルに基づくソリューションは、優れた品質と多様性のサンプルを作成する能力で広く称賛されている。
本稿では,3つの一般化拡散モデリングフレームワークを提案し,それらと他の深層生成モデルとの相関関係について検討する。
医療、リモートセンシング、ビデオシナリオなど、他のタスクに適用された拡張拡散モデルについて要約する。
論文 参考訳(メタデータ) (2024-06-17T01:49:27Z) - An Overview of Diffusion Models: Applications, Guided Generation, Statistical Rates and Optimization [59.63880337156392]
拡散モデルはコンピュータビジョン、オーディオ、強化学習、計算生物学において大きな成功を収めた。
経験的成功にもかかわらず、拡散モデルの理論は非常に限定的である。
本稿では,前向きな理論や拡散モデルの手法を刺激する理論的露光について述べる。
論文 参考訳(メタデータ) (2024-04-11T14:07:25Z) - Self-Play Fine-Tuning of Diffusion Models for Text-to-Image Generation [59.184980778643464]
ファインチューニング拡散モデル : 生成人工知能(GenAI)の最前線
本稿では,拡散モデル(SPIN-Diffusion)のための自己演奏ファインチューニングという革新的な手法を紹介する。
提案手法は従来の教師付き微調整とRL戦略の代替として,モデル性能とアライメントの両方を大幅に改善する。
論文 参考訳(メタデータ) (2024-02-15T18:59:18Z) - Restoration based Generative Models [0.886014926770622]
デノイング拡散モデル(DDM)は、印象的な合成品質を示すことで注目を集めている。
本稿では、画像復元(IR)の観点からDDMの解釈を確立する。
本稿では,前処理の柔軟性を生かして,拡散過程と比較して性能を向上するマルチスケールトレーニングを提案する。
われわれのフレームワークは、新しいタイプのフレキシブル・ジェネラル・ジェネラル・ジェネレーティブ・モデルの設計の道を開いたと信じている。
論文 参考訳(メタデータ) (2023-02-20T00:53:33Z) - Diffusion Models in Vision: A Survey [80.82832715884597]
拡散モデルは、前方拡散段階と逆拡散段階の2つの段階に基づく深層生成モデルである。
拡散モデルは、既知の計算負荷にもかかわらず、生成したサンプルの品質と多様性に対して広く評価されている。
論文 参考訳(メタデータ) (2022-09-10T22:00:30Z) - A Survey on Generative Diffusion Model [75.93774014861978]
拡散モデルは、深層生成モデルの新たなクラスである。
時間を要する反復生成過程や高次元ユークリッド空間への閉じ込めなど、いくつかの制限がある。
本調査では,拡散モデルの向上を目的とした高度な手法を多数提示する。
論文 参考訳(メタデータ) (2022-09-06T16:56:21Z) - How Much is Enough? A Study on Diffusion Times in Score-based Generative
Models [76.76860707897413]
現在のベストプラクティスは、フォワードダイナミクスが既知の単純なノイズ分布に十分に近づくことを確実にするために大きなTを提唱している。
本稿では, 理想とシミュレーションされたフォワードダイナミクスのギャップを埋めるために補助モデルを用いて, 標準的な逆拡散過程を導出する方法について述べる。
論文 参考訳(メタデータ) (2022-06-10T15:09:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。