Fugu-MT 論文翻訳(概要): Accelerating Video Diffusion Models via Distribution Matching

論文の概要: Accelerating Video Diffusion Models via Distribution Matching

arxiv url: http://arxiv.org/abs/2412.05899v1
Date: Sun, 08 Dec 2024 11:36:32 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-10 23:11:44.078882
Title: Accelerating Video Diffusion Models via Distribution Matching
Title（参考訳）: 分布マッチングによる映像拡散モデルの高速化
Authors: Yuanzhi Zhu, Hanshu Yan, Huan Yang, Kai Zhang, Junnan Li,
Abstract要約: 本研究は, 拡散蒸留と分散マッチングのための新しい枠組みを導入する。提案手法は, 事前学習した拡散モデルをより効率的な数ステップ生成器に蒸留することに焦点を当てる。ビデオGAN損失と新しい2Dスコア分布マッチング損失の組合せを利用して、高品質なビデオフレームを生成する可能性を実証する。
参考スコア（独自算出の注目度）: 26.475459912686986
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Generative models, particularly diffusion models, have made significant success in data synthesis across various modalities, including images, videos, and 3D assets. However, current diffusion models are computationally intensive, often requiring numerous sampling steps that limit their practical application, especially in video generation. This work introduces a novel framework for diffusion distillation and distribution matching that dramatically reduces the number of inference steps while maintaining-and potentially improving-generation quality. Our approach focuses on distilling pre-trained diffusion models into a more efficient few-step generator, specifically targeting video generation. By leveraging a combination of video GAN loss and a novel 2D score distribution matching loss, we demonstrate the potential to generate high-quality video frames with substantially fewer sampling steps. To be specific, the proposed method incorporates a denoising GAN discriminator to distil from the real data and a pre-trained image diffusion model to enhance the frame quality and the prompt-following capabilities. Experimental results using AnimateDiff as the teacher model showcase the method's effectiveness, achieving superior performance in just four sampling steps compared to existing techniques.
Abstract（参考訳）: 生成モデル、特に拡散モデルは、画像、ビデオ、および3Dアセットを含む様々なモダリティにわたるデータ合成において大きな成功を収めている。しかし、現在の拡散モデルは計算集約的であり、特にビデオ生成において、実際の応用を制限する多くのサンプリングステップを必要とすることが多い。本研究は, 拡散蒸留および分散マッチングのための新しい枠組みを導入し, 世代品質を維持しつつ, 推論ステップの数を劇的に削減する。提案手法は,事前学習した拡散モデルをより効率的な数ステップ生成器に蒸留することに焦点を当てる。ビデオGANの損失と新しい2Dスコアの分布マッチングの損失を併用することにより、サンプリングステップが大幅に少ない高品質なビデオフレームを生成する可能性を実証する。具体的には、実データと事前学習した画像拡散モデルとを除去し、フレーム品質とプロンプト追従能力を向上する。 AnimateDiffを教師モデルとして使用した実験結果から,既存の手法と比較して,わずか4段階のサンプリングで優れた性能が得られた。

関連論文リスト

AccVideo: Accelerating Video Diffusion Model with Synthetic Dataset [55.82208863521353]
合成データセットを用いたビデオ拡散モデルの高速化のための推論ステップを削減するために,AccVideoを提案する。本モデルでは,教師モデルに比べて生成速度が8.5倍向上した。従来の高速化手法と比較して,より高品質で解像度の高いビデオを生成することができる。
論文参考訳（メタデータ） (2025-03-25T08:52:07Z)
One-Step Diffusion Model for Image Motion-Deblurring [85.76149042561507]
本稿では,脱臭過程を1段階に短縮する新しいフレームワークである脱臭拡散モデル(OSDD)を提案する。拡散モデルにおける忠実度損失に対処するために,構造復元を改善する改良された変分オートエンコーダ(eVAE)を導入する。提案手法は,実測値と非参照値の両方で高い性能を達成する。
論文参考訳（メタデータ） (2025-03-09T09:39:57Z)
Diffusion Models in Low-Level Vision: A Survey [82.77962165415153]
拡散モデルに基づくソリューションは、優れた品質と多様性のサンプルを作成する能力で広く称賛されている。本稿では,3つの一般化拡散モデリングフレームワークを提案し,それらと他の深層生成モデルとの相関関係について検討する。医療、リモートセンシング、ビデオシナリオなど、他のタスクに適用された拡張拡散モデルについて要約する。
論文参考訳（メタデータ） (2024-06-17T01:49:27Z)
AdaDiff: Adaptive Step Selection for Fast Diffusion Models [82.78899138400435]
我々は、インスタンス固有のステップ利用ポリシーを学ぶために設計された軽量フレームワークであるAdaDiffを紹介します。 AdaDiffはポリシーメソッドを使用して最適化され、慎重に設計された報酬関数を最大化する。我々は3つの画像生成と2つのビデオ生成ベンチマークの実験を行い、本手法がベースラインと同じような視覚的品質を実現することを示す。
論文参考訳（メタデータ） (2023-11-24T11:20:38Z)
Fast Inference in Denoising Diffusion Models via MMD Finetuning [23.779985842891705]
拡散モデルの高速サンプリング法であるMDD-DDMを提案する。我々のアプローチは、学習した分布を所定の予算のタイムステップで微調整するために、最大平均離散性(MMD)を使用するという考え方に基づいている。提案手法は,広範に普及した拡散モデルで要求されるわずかな時間で高品質なサンプルを生成できることが示唆された。
論文参考訳（メタデータ） (2023-01-19T09:48:07Z)
Diffusion Glancing Transformer for Parallel Sequence to Sequence Learning [52.72369034247396]
モーダリティ拡散プロセスと残差グランシングサンプリングを併用した拡散グランシング変換器を提案する。 DIFFGLATは、自己回帰モデルと非自己回帰モデルの両方と比較して、高速な復号速度を維持しながら、より優れた生成精度を実現する。
論文参考訳（メタデータ） (2022-12-20T13:36:25Z)
VIDM: Video Implicit Diffusion Models [75.90225524502759]
拡散モデルは、高品質で多様な画像の集合を合成するための強力な生成方法として登場した。本研究では,移動の効果を暗黙の条件でモデル化する拡散モデルに基づく映像生成手法を提案する。我々は,空間トランケーションのサンプリング,ロバストネスペナルティ,位置群正規化などの複数の戦略を提案することにより,生成されたビデオの品質を向上させる。
論文参考訳（メタデータ） (2022-12-01T02:58:46Z)
Diffusion Models in Vision: A Survey [80.82832715884597]
拡散モデルは、前方拡散段階と逆拡散段階の2つの段階に基づく深層生成モデルである。拡散モデルは、既知の計算負荷にもかかわらず、生成したサンプルの品質と多様性に対して広く評価されている。
論文参考訳（メタデータ） (2022-09-10T22:00:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。