Fugu-MT 論文翻訳(概要): Efficient Diffusion Models for Vision: A Survey

論文の概要: Efficient Diffusion Models for Vision: A Survey

arxiv url: http://arxiv.org/abs/2210.09292v2
Date: Thu, 20 Oct 2022 12:29:30 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-23 20:25:01.272753
Title: Efficient Diffusion Models for Vision: A Survey
Title（参考訳）: 視覚の効率的な拡散モデル:調査
Authors: Anwaar Ulhaq, Naveed Akhtar, Ganna Pogrebna
Abstract要約: 拡散モデル (DM) は, 逆行訓練を必要とせず, コンテンツ生成における最先端の性能を実証している。 DMは非平衡熱力学にインスパイアされ、本質的に高い計算複雑性を持つ。 DMはトレーニングと推論の段階でかなりの計算オーバーヘッドを発生させる。
参考スコア（独自算出の注目度）: 21.689461247198384
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Diffusion Models (DMs) have demonstrated state-of-the-art performance in content generation without requiring adversarial training. These models are trained using a two-step process. First, a forward - diffusion - process gradually adds noise to a datum (usually an image). Then, a backward - reverse diffusion - process gradually removes the noise to turn it into a sample of the target distribution being modelled. DMs are inspired by non-equilibrium thermodynamics and have inherent high computational complexity. Due to the frequent function evaluations and gradient calculations in high-dimensional spaces, these models incur considerable computational overhead during both training and inference stages. This can not only preclude the democratization of diffusion-based modelling, but also hinder the adaption of diffusion models in real-life applications. Not to mention, the efficiency of computational models is fast becoming a significant concern due to excessive energy consumption and environmental scares. These factors have led to multiple contributions in the literature that focus on devising computationally efficient DMs. In this review, we present the most recent advances in diffusion models for vision, specifically focusing on the important design aspects that affect the computational efficiency of DMs. In particular, we emphasize the recently proposed design choices that have led to more efficient DMs. Unlike the other recent reviews, which discuss diffusion models from a broad perspective, this survey is aimed at pushing this research direction forward by highlighting the design strategies in the literature that are resulting in practicable models for the broader research community. We also provide a future outlook of diffusion models in vision from their computational efficiency viewpoint.
Abstract（参考訳）: 拡散モデル (DM) は, 逆行訓練を必要とせず, コンテンツ生成における最先端の性能を示す。これらのモデルは2段階のプロセスで訓練される。第一に、前方拡散 - 過程は徐々にデータム(通常は画像)にノイズを付加する。その後、後ろ向きの逆拡散 - プロセスはノイズを徐々に取り除き、対象分布のサンプルとしてモデル化する。 DMは非平衡熱力学にインスパイアされ、本質的に高い計算複雑性を持つ。高次元空間での頻繁な関数評価と勾配計算のため、これらのモデルはトレーニングと推論の段階でかなりの計算オーバーヘッドを負う。これは拡散に基づくモデリングの民主化を妨げるだけでなく、現実の応用における拡散モデルの適応を妨げる。言うまでもなく、計算モデルの効率性は、過度のエネルギー消費と環境問題のために急速に重要な関心事になりつつある。これらの要因は、計算効率の良いDMを考案することに焦点を当てた文献に多くの貢献をもたらした。本稿では,視覚の拡散モデルにおける最新の進歩について述べる。特に,DMの計算効率に影響を与える重要な設計側面に着目して述べる。特に、最近提案された設計選択が、より効率的なDMに繋がったことを強調する。広義の拡散モデルについて論じる他の最近のレビューとは違い,本調査は,幅広い研究コミュニティの実践可能なモデルとなる文献のデザイン戦略を強調することにより,この研究の方向性を推し進めることを目的としている。また,その計算効率の観点からの拡散モデルの将来展望について述べる。

関連論文リスト

Diffusion Beats Autoregressive in Data-Constrained Settings [50.56893491038853]
自己回帰(AR)モデルは長い間、大きな言語モデルのランドスケープを支配してきた。近年,ARモデルよりもアドバンテージが低いものの,拡散型言語モデルが将来性のある選択肢として浮上している。本研究では,限られたデータ上で繰り返し学習を行うデータ制約付き環境で,マスク拡散モデルについて系統的に研究する。我々の結果は、データが計算ではなくボトルネックである場合、拡散モデルは標準的なARパラダイムに代わる魅力的な代替手段となることを示唆している。
論文参考訳（メタデータ） (2025-07-21T17:59:57Z)
Diffusion Models in Low-Level Vision: A Survey [82.77962165415153]
拡散モデルに基づくソリューションは、優れた品質と多様性のサンプルを作成する能力で広く称賛されている。本稿では,3つの一般化拡散モデリングフレームワークを提案し,それらと他の深層生成モデルとの相関関係について検討する。医療、リモートセンシング、ビデオシナリオなど、他のタスクに適用された拡張拡散モデルについて要約する。
論文参考訳（メタデータ） (2024-06-17T01:49:27Z)
An Overview of Diffusion Models: Applications, Guided Generation, Statistical Rates and Optimization [59.63880337156392]
拡散モデルはコンピュータビジョン、オーディオ、強化学習、計算生物学において大きな成功を収めた。経験的成功にもかかわらず、拡散モデルの理論は非常に限定的である。本稿では,前向きな理論や拡散モデルの手法を刺激する理論的露光について述べる。
論文参考訳（メタデータ） (2024-04-11T14:07:25Z)
Self-Play Fine-Tuning of Diffusion Models for Text-to-Image Generation [59.184980778643464]
ファインチューニング拡散モデル : 生成人工知能(GenAI)の最前線本稿では,拡散モデル(SPIN-Diffusion)のための自己演奏ファインチューニングという革新的な手法を紹介する。提案手法は従来の教師付き微調整とRL戦略の代替として,モデル性能とアライメントの両方を大幅に改善する。
論文参考訳（メタデータ） (2024-02-15T18:59:18Z)
Restoration based Generative Models [0.886014926770622]
デノイング拡散モデル(DDM)は、印象的な合成品質を示すことで注目を集めている。本稿では、画像復元(IR)の観点からDDMの解釈を確立する。本稿では,前処理の柔軟性を生かして,拡散過程と比較して性能を向上するマルチスケールトレーニングを提案する。われわれのフレームワークは、新しいタイプのフレキシブル・ジェネラル・ジェネラル・ジェネレーティブ・モデルの設計の道を開いたと信じている。
論文参考訳（メタデータ） (2023-02-20T00:53:33Z)
Diffusion Models in Vision: A Survey [80.82832715884597]
拡散モデルは、前方拡散段階と逆拡散段階の2つの段階に基づく深層生成モデルである。拡散モデルは、既知の計算負荷にもかかわらず、生成したサンプルの品質と多様性に対して広く評価されている。
論文参考訳（メタデータ） (2022-09-10T22:00:30Z)
A Survey on Generative Diffusion Model [75.93774014861978]
拡散モデルは、深層生成モデルの新たなクラスである。時間を要する反復生成過程や高次元ユークリッド空間への閉じ込めなど、いくつかの制限がある。本調査では,拡散モデルの向上を目的とした高度な手法を多数提示する。
論文参考訳（メタデータ） (2022-09-06T16:56:21Z)
How Much is Enough? A Study on Diffusion Times in Score-based Generative Models [76.76860707897413]
現在のベストプラクティスは、フォワードダイナミクスが既知の単純なノイズ分布に十分に近づくことを確実にするために大きなTを提唱している。本稿では, 理想とシミュレーションされたフォワードダイナミクスのギャップを埋めるために補助モデルを用いて, 標準的な逆拡散過程を導出する方法について述べる。
論文参考訳（メタデータ） (2022-06-10T15:09:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。