論文の概要: GPD: Guided Progressive Distillation for Fast and High-Quality Video Generation
- arxiv url: http://arxiv.org/abs/2602.01814v1
- Date: Mon, 02 Feb 2026 08:47:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:34.016717
- Title: GPD: Guided Progressive Distillation for Fast and High-Quality Video Generation
- Title(参考訳): GPD:高速高画質ビデオ生成のためのガイド付きプログレッシブ蒸留
- Authors: Xiao Liang, Yunzhu Zhang, Linchao Zhu,
- Abstract要約: 高速かつ高品質なビデオ生成のための拡散過程を高速化するフレームワークであるGPD(Guid Progressive Distillation)を提案する。
GPDは、VBench上での競争的な視覚的品質を維持しながら、サンプリングステップを48から6に減らす。
- 参考スコア(独自算出の注目度): 48.965157828225074
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion models have achieved remarkable success in video generation; however, the high computational cost of the denoising process remains a major bottleneck. Existing approaches have shown promise in reducing the number of diffusion steps, but they often suffer from significant quality degradation when applied to video generation. We propose Guided Progressive Distillation (GPD), a framework that accelerates the diffusion process for fast and high-quality video generation. GPD introduces a novel training strategy in which a teacher model progressively guides a student model to operate with larger step sizes. The framework consists of two key components: (1) an online-generated training target that reduces optimization difficulty while improving computational efficiency, and (2) frequency-domain constraints in the latent space that promote the preservation of fine-grained details and temporal dynamics. Applied to the Wan2.1 model, GPD reduces the number of sampling steps from 48 to 6 while maintaining competitive visual quality on VBench. Compared with existing distillation methods, GPD demonstrates clear advantages in both pipeline simplicity and quality preservation.
- Abstract(参考訳): 拡散モデルはビデオ生成において顕著な成功を収めてきたが、デノナイジングプロセスの計算コストは依然として大きなボトルネックとなっている。
既存のアプローチでは、拡散ステップの数を減らすことが約束されているが、ビデオ生成に適用した場合、大きな品質劣化に悩まされることがしばしばある。
高速かつ高品質なビデオ生成のための拡散過程を高速化するフレームワークであるGPD(Guid Progressive Distillation)を提案する。
GPDは、教師モデルが学生モデルを段階的にガイドし、より大きなステップサイズで運用する、新しいトレーニング戦略を導入する。
本フレームワークは,(1)計算効率を向上しながら最適化の難易度を下げるオンライン学習目標と,(2)細粒度や時間的ダイナミクスの保存を促進する潜伏空間における周波数領域の制約とから構成される。
Wan2.1 モデルに適用された GPD は、VBench 上での競合的な視覚的品質を維持しながら、サンプリングステップを 48 から 6 に削減する。
既存の蒸留法と比較すると, GPDはパイプラインの簡易性と品質保全の両面において明らかな優位性を示す。
関連論文リスト
- Towards One-step Causal Video Generation via Adversarial Self-Distillation [71.30373662465648]
最近のハイブリッドビデオ生成モデルは、自己回帰時間力学と拡散に基づく空間認知を組み合わせている。
我々のフレームワークは、複数の推論ステップ設定を柔軟にサポートする単一の蒸留モデルを生成する。
論文 参考訳(メタデータ) (2025-11-03T10:12:47Z) - SwiftVideo: A Unified Framework for Few-Step Video Generation through Trajectory-Distribution Alignment [76.60024640625478]
拡散ベースまたはフローベースモデルは、ビデオ合成において大きな進歩を遂げているが、複数の反復サンプリングステップが必要である。
本稿では, トラジェクトリ保存と分散マッチングの利点を組み合わせた, 統一かつ安定な蒸留フレームワークを提案する。
提案手法は高品質なビデオ生成を維持しつつ,推論ステップの数を著しく削減する。
論文 参考訳(メタデータ) (2025-08-08T07:26:34Z) - PMQ-VE: Progressive Multi-Frame Quantization for Video Enhancement [83.89668902758243]
多フレームビデオ強調タスクは、ビデオシーケンスの空間的および時間的解像度と品質を改善することを目的としている。
映像強調のためのプログレッシブマルチフレーム量子化(PMQ-VE)を提案する。
このフレームワークは、バックトラックベースマルチフレーム量子化(BMFQ)とプログレッシブマルチ教師蒸留(PMTD)という、粗大な2段階のプロセスを備えている。
論文 参考訳(メタデータ) (2025-05-18T07:10:40Z) - One-Step Diffusion Model for Image Motion-Deblurring [85.76149042561507]
本稿では,脱臭過程を1段階に短縮する新しいフレームワークである脱臭拡散モデル(OSDD)を提案する。
拡散モデルにおける忠実度損失に対処するために,構造復元を改善する改良された変分オートエンコーダ(eVAE)を導入する。
提案手法は,実測値と非参照値の両方で高い性能を達成する。
論文 参考訳(メタデータ) (2025-03-09T09:39:57Z) - VideoGuide: Improving Video Diffusion Models without Training Through a Teacher's Guide [48.22321420680046]
VideoGuideは、事前訓練されたテキスト・ツー・ビデオ(T2V)モデルの時間的一貫性を高める新しいフレームワークである。
ガイドモデルの復調標本をサンプリングモデルの復調過程に補間することにより、時間的品質を向上させる。
提案手法は時間的一貫性と画像の忠実度を大幅に向上させる。
論文 参考訳(メタデータ) (2024-10-06T05:46:17Z) - OSV: One Step is Enough for High-Quality Image to Video Generation [44.09826880566572]
一貫性蒸留とGANトレーニングを効果的に組み合わせた2段階トレーニングフレームワークを提案する。
また,ビデオラテントを復号化する必要のない新しいビデオ識別器の設計を提案する。
本モデルでは,高画質映像を1ステップで生成可能であり,多段精細化の柔軟性が期待できる。
論文 参考訳(メタデータ) (2024-09-17T17:16:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。