論文の概要: DOLLAR: Few-Step Video Generation via Distillation and Latent Reward Optimization
- arxiv url: http://arxiv.org/abs/2412.15689v1
- Date: Fri, 20 Dec 2024 09:07:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-23 16:23:54.790065
- Title: DOLLAR: Few-Step Video Generation via Distillation and Latent Reward Optimization
- Title(参考訳): DOLLAR:蒸留と遅延リワード最適化による数ステップビデオ生成
- Authors: Zihan Ding, Chi Jin, Difan Liu, Haitian Zheng, Krishna Kumar Singh, Qiang Zhang, Yan Kang, Zhe Lin, Yuchen Liu,
- Abstract要約: 本稿では,数段階のビデオ生成を実現するため,変量点蒸留と整合蒸留を組み合わせた蒸留法を提案する。
提案手法は10秒ビデオ(12FPSで128フレーム)の複数ステップ生成における最先端性能を示す。
1段階の蒸留により、教師モデルの拡散サンプリングを最大278.6倍加速し、ほぼリアルタイムで生成できる。
- 参考スコア(独自算出の注目度): 50.30051934609654
- License:
- Abstract: Diffusion probabilistic models have shown significant progress in video generation; however, their computational efficiency is limited by the large number of sampling steps required. Reducing sampling steps often compromises video quality or generation diversity. In this work, we introduce a distillation method that combines variational score distillation and consistency distillation to achieve few-step video generation, maintaining both high quality and diversity. We also propose a latent reward model fine-tuning approach to further enhance video generation performance according to any specified reward metric. This approach reduces memory usage and does not require the reward to be differentiable. Our method demonstrates state-of-the-art performance in few-step generation for 10-second videos (128 frames at 12 FPS). The distilled student model achieves a score of 82.57 on VBench, surpassing the teacher model as well as baseline models Gen-3, T2V-Turbo, and Kling. One-step distillation accelerates the teacher model's diffusion sampling by up to 278.6 times, enabling near real-time generation. Human evaluations further validate the superior performance of our 4-step student models compared to teacher model using 50-step DDIM sampling.
- Abstract(参考訳): 拡散確率モデルはビデオ生成において顕著な進歩を示したが、その計算効率は大量のサンプリングステップによって制限されている。
サンプリングステップの削減は、ビデオの品質や生成の多様性を損なうことが多い。
本研究では, 品質と多様性の両面を保ちながら, 数段階のビデオ生成を実現するため, 変量点蒸留と整合蒸留を組み合わせた蒸留法を提案する。
また,特定の報酬基準に従って映像生成性能をさらに向上する潜在報酬モデル微調整手法を提案する。
このアプローチはメモリ使用量を削減し、識別可能な報酬を必要としない。
提案手法は,10秒ビデオ(12FPSで128フレーム)の複数ステップ生成における最先端性能を示す。
蒸留された学生モデルはVBenchで82.57点を獲得し、教師モデルとベースラインモデルGen-3、T2V-Turbo、Klingを上回っている。
1段階の蒸留により、教師モデルの拡散サンプリングを最大278.6倍加速し、ほぼリアルタイムで生成できる。
人的評価は,50段階DDIMサンプリングを用いた教師モデルと比較して,4段階の学生モデルの優れた性能を更に評価する。
関連論文リスト
- Diffusion Adversarial Post-Training for One-Step Video Generation [26.14991703029242]
本稿では,1ステップビデオ生成のための拡散事前学習後の実データに対して,APT(Adversarial Post-Training)を提案する。
我々のモデルは1ステップで1024px画像を生成することができ、最先端の手法に匹敵する品質を実現することができる。
論文 参考訳(メタデータ) (2025-01-14T18:51:48Z) - From Slow Bidirectional to Fast Autoregressive Video Diffusion Models [52.32078428442281]
現在のビデオ拡散モデルは、印象的な生成品質を実現するが、双方向の注意依存のため、インタラクティブなアプリケーションに苦戦する。
この制限には、事前訓練された双方向拡散変換器を自己回帰変換器に適応させ、フレームをオンザフライで生成することで対処する。
我々のモデルは、VBench-Longベンチマークで84.27点のスコアを達成し、以前のすべてのビデオ生成モデルを上回った。
論文 参考訳(メタデータ) (2024-12-10T18:59:50Z) - Accelerating Video Diffusion Models via Distribution Matching [26.475459912686986]
本研究は, 拡散蒸留と分散マッチングのための新しい枠組みを導入する。
提案手法は, 事前学習した拡散モデルをより効率的な数ステップ生成器に蒸留することに焦点を当てる。
ビデオGAN損失と新しい2Dスコア分布マッチング損失の組合せを利用して、高品質なビデオフレームを生成する可能性を実証する。
論文 参考訳(メタデータ) (2024-12-08T11:36:32Z) - OSV: One Step is Enough for High-Quality Image to Video Generation [29.77646091911169]
一貫性蒸留とGANトレーニングを効果的に組み合わせた2段階トレーニングフレームワークを提案する。
また,ビデオラテントを復号化する必要のない新しいビデオ識別器の設計を提案する。
本モデルでは,高画質映像を1ステップで生成可能であり,多段精細化の柔軟性が期待できる。
論文 参考訳(メタデータ) (2024-09-17T17:16:37Z) - T2V-Turbo: Breaking the Quality Bottleneck of Video Consistency Model with Mixed Reward Feedback [111.40967379458752]
本稿では,T2V-Turboについて述べる。T2V-Turboは,様々なモデルから得られるフィードバックを,事前学習したT2Vモデルの一貫性蒸留プロセスに統合する。
興味深いことに、我々のT2V-Turboの4段階の世代は、Gen-2とPikaを抜いてVBenchで最高スコアを達成した。
論文 参考訳(メタデータ) (2024-05-29T04:26:17Z) - BOOT: Data-free Distillation of Denoising Diffusion Models with
Bootstrapping [64.54271680071373]
拡散モデルは多様な画像を生成する優れた可能性を示している。
知識蒸留は、推論ステップの数を1つか数に減らすための治療法として最近提案されている。
本稿では,効率的なデータフリー蒸留アルゴリズムにより限界を克服するBOOTと呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2023-06-08T20:30:55Z) - Consistency Models [89.68380014789861]
ノイズを直接データにマッピングすることで,高品質なサンプルを生成する新しいモデル群を提案する。
設計によって高速なワンステップ生成をサポートしながら、マルチステップサンプリングによって、サンプル品質の計算を交換することができる。
イメージインペイント、カラー化、超高解像度といったゼロショットデータ編集も、明示的なトレーニングを必要とせずサポートしている。
論文 参考訳(メタデータ) (2023-03-02T18:30:16Z) - Reinforced Multi-Teacher Selection for Knowledge Distillation [54.72886763796232]
知識蒸留はモデル圧縮の一般的な方法です。
現在の方法は、蒸留全体の教師モデルに固定重量を割り当てます。
既存のメソッドのほとんどは、すべての教師モデルに等しい重みを割り当てます。
本論文では,学習例の複雑性や生徒モデル能力の違いから,教師モデルとの違いを学習することで,生徒モデルの蒸留性能の向上が期待できることを考察する。
論文 参考訳(メタデータ) (2020-12-11T08:56:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。