論文の概要: DOLLAR: Few-Step Video Generation via Distillation and Latent Reward Optimization
- arxiv url: http://arxiv.org/abs/2412.15689v1
- Date: Fri, 20 Dec 2024 09:07:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-23 16:23:54.790065
- Title: DOLLAR: Few-Step Video Generation via Distillation and Latent Reward Optimization
- Title(参考訳): DOLLAR:蒸留と遅延リワード最適化による数ステップビデオ生成
- Authors: Zihan Ding, Chi Jin, Difan Liu, Haitian Zheng, Krishna Kumar Singh, Qiang Zhang, Yan Kang, Zhe Lin, Yuchen Liu,
- Abstract要約: 本稿では,数段階のビデオ生成を実現するため,変量点蒸留と整合蒸留を組み合わせた蒸留法を提案する。
提案手法は10秒ビデオ(12FPSで128フレーム)の複数ステップ生成における最先端性能を示す。
1段階の蒸留により、教師モデルの拡散サンプリングを最大278.6倍加速し、ほぼリアルタイムで生成できる。
- 参考スコア(独自算出の注目度): 50.30051934609654
- License:
- Abstract: Diffusion probabilistic models have shown significant progress in video generation; however, their computational efficiency is limited by the large number of sampling steps required. Reducing sampling steps often compromises video quality or generation diversity. In this work, we introduce a distillation method that combines variational score distillation and consistency distillation to achieve few-step video generation, maintaining both high quality and diversity. We also propose a latent reward model fine-tuning approach to further enhance video generation performance according to any specified reward metric. This approach reduces memory usage and does not require the reward to be differentiable. Our method demonstrates state-of-the-art performance in few-step generation for 10-second videos (128 frames at 12 FPS). The distilled student model achieves a score of 82.57 on VBench, surpassing the teacher model as well as baseline models Gen-3, T2V-Turbo, and Kling. One-step distillation accelerates the teacher model's diffusion sampling by up to 278.6 times, enabling near real-time generation. Human evaluations further validate the superior performance of our 4-step student models compared to teacher model using 50-step DDIM sampling.
- Abstract(参考訳): 拡散確率モデルはビデオ生成において顕著な進歩を示したが、その計算効率は大量のサンプリングステップによって制限されている。
サンプリングステップの削減は、ビデオの品質や生成の多様性を損なうことが多い。
本研究では, 品質と多様性の両面を保ちながら, 数段階のビデオ生成を実現するため, 変量点蒸留と整合蒸留を組み合わせた蒸留法を提案する。
また,特定の報酬基準に従って映像生成性能をさらに向上する潜在報酬モデル微調整手法を提案する。
このアプローチはメモリ使用量を削減し、識別可能な報酬を必要としない。
提案手法は,10秒ビデオ(12FPSで128フレーム)の複数ステップ生成における最先端性能を示す。
蒸留された学生モデルはVBenchで82.57点を獲得し、教師モデルとベースラインモデルGen-3、T2V-Turbo、Klingを上回っている。
1段階の蒸留により、教師モデルの拡散サンプリングを最大278.6倍加速し、ほぼリアルタイムで生成できる。
人的評価は,50段階DDIMサンプリングを用いた教師モデルと比較して,4段階の学生モデルの優れた性能を更に評価する。
関連論文リスト
- One-Step Diffusion Distillation through Score Implicit Matching [74.91234358410281]
本稿では,Score Implicit Matching (SIM) を用いて,事前学習した拡散モデルを単一ステップジェネレータモデルに蒸留する手法を提案する。
SIMはワンステップジェネレータに対して強い経験的性能を示す。
リードトランスに基づく拡散モデルにSIMを適用することにより,テキスト・ツー・イメージ生成のための単一ステップ生成器を蒸留する。
論文 参考訳(メタデータ) (2024-10-22T08:17:20Z) - OSV: One Step is Enough for High-Quality Image to Video Generation [29.77646091911169]
一貫性蒸留とGANトレーニングを効果的に組み合わせた2段階トレーニングフレームワークを提案する。
また,ビデオラテントを復号化する必要のない新しいビデオ識別器の設計を提案する。
本モデルでは,高画質映像を1ステップで生成可能であり,多段精細化の柔軟性が期待できる。
論文 参考訳(メタデータ) (2024-09-17T17:16:37Z) - Diffusion Models Are Innate One-Step Generators [2.3359837623080613]
拡散モデル(DM)は優れた高品質な結果をもたらす。
DMの層は異なる時間ステップで微分活性化され、単一のステップで画像を生成する固有の能力をもたらす。
提案手法は, CIFAR-10, AFHQv2 64x64 (FID 1.23), FFHQ 64x64 (FID 0.85), ImageNet 64x64 (FID 1.16) のSOTA結果を効率よく達成する。
論文 参考訳(メタデータ) (2024-05-31T11:14:12Z) - T2V-Turbo: Breaking the Quality Bottleneck of Video Consistency Model with Mixed Reward Feedback [111.40967379458752]
本稿では,T2V-Turboについて述べる。T2V-Turboは,様々なモデルから得られるフィードバックを,事前学習したT2Vモデルの一貫性蒸留プロセスに統合する。
興味深いことに、我々のT2V-Turboの4段階の世代は、Gen-2とPikaを抜いてVBenchで最高スコアを達成した。
論文 参考訳(メタデータ) (2024-05-29T04:26:17Z) - Progressive Distillation Based on Masked Generation Feature Method for Knowledge Graph Completion [29.297959023968165]
そこで本稿では,KGCタスクのためのマスク生成機能に基づくプログレッシブ蒸留法を提案する。
具体的には、PLMの予蒸留を行い、高品質の教師モデルを取得し、PLMネットワークを圧縮し、マルチグレードの学生モデルを得る。
実験により, 予蒸留段階のモデルが, 既存の最先端手法を超越していることが実証された。
論文 参考訳(メタデータ) (2024-01-19T07:34:36Z) - BOOT: Data-free Distillation of Denoising Diffusion Models with
Bootstrapping [64.54271680071373]
拡散モデルは多様な画像を生成する優れた可能性を示している。
知識蒸留は、推論ステップの数を1つか数に減らすための治療法として最近提案されている。
本稿では,効率的なデータフリー蒸留アルゴリズムにより限界を克服するBOOTと呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2023-06-08T20:30:55Z) - Consistency Models [89.68380014789861]
ノイズを直接データにマッピングすることで,高品質なサンプルを生成する新しいモデル群を提案する。
設計によって高速なワンステップ生成をサポートしながら、マルチステップサンプリングによって、サンプル品質の計算を交換することができる。
イメージインペイント、カラー化、超高解像度といったゼロショットデータ編集も、明示的なトレーニングを必要とせずサポートしている。
論文 参考訳(メタデータ) (2023-03-02T18:30:16Z) - Reinforced Multi-Teacher Selection for Knowledge Distillation [54.72886763796232]
知識蒸留はモデル圧縮の一般的な方法です。
現在の方法は、蒸留全体の教師モデルに固定重量を割り当てます。
既存のメソッドのほとんどは、すべての教師モデルに等しい重みを割り当てます。
本論文では,学習例の複雑性や生徒モデル能力の違いから,教師モデルとの違いを学習することで,生徒モデルの蒸留性能の向上が期待できることを考察する。
論文 参考訳(メタデータ) (2020-12-11T08:56:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。