Fugu-MT 論文翻訳(概要): DOLLAR: Few-Step Video Generation via Distillation and Latent Reward Optimization

論文の概要: DOLLAR: Few-Step Video Generation via Distillation and Latent Reward Optimization

arxiv url: http://arxiv.org/abs/2412.15689v1
Date: Fri, 20 Dec 2024 09:07:36 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-23 18:46:08.89447
Title: DOLLAR: Few-Step Video Generation via Distillation and Latent Reward Optimization
Title（参考訳）: DOLLAR:蒸留と遅延リワード最適化による数ステップビデオ生成
Authors: Zihan Ding, Chi Jin, Difan Liu, Haitian Zheng, Krishna Kumar Singh, Qiang Zhang, Yan Kang, Zhe Lin, Yuchen Liu,
Abstract要約: 本稿では,数段階のビデオ生成を実現するため,変量点蒸留と整合蒸留を組み合わせた蒸留法を提案する。提案手法は10秒ビデオ(12FPSで128フレーム)の複数ステップ生成における最先端性能を示す。 1段階の蒸留により、教師モデルの拡散サンプリングを最大278.6倍加速し、ほぼリアルタイムで生成できる。
参考スコア（独自算出の注目度）: 50.30051934609654
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Diffusion probabilistic models have shown significant progress in video generation; however, their computational efficiency is limited by the large number of sampling steps required. Reducing sampling steps often compromises video quality or generation diversity. In this work, we introduce a distillation method that combines variational score distillation and consistency distillation to achieve few-step video generation, maintaining both high quality and diversity. We also propose a latent reward model fine-tuning approach to further enhance video generation performance according to any specified reward metric. This approach reduces memory usage and does not require the reward to be differentiable. Our method demonstrates state-of-the-art performance in few-step generation for 10-second videos (128 frames at 12 FPS). The distilled student model achieves a score of 82.57 on VBench, surpassing the teacher model as well as baseline models Gen-3, T2V-Turbo, and Kling. One-step distillation accelerates the teacher model's diffusion sampling by up to 278.6 times, enabling near real-time generation. Human evaluations further validate the superior performance of our 4-step student models compared to teacher model using 50-step DDIM sampling.
Abstract（参考訳）: 拡散確率モデルはビデオ生成において顕著な進歩を示したが、その計算効率は大量のサンプリングステップによって制限されている。サンプリングステップの削減は、ビデオの品質や生成の多様性を損なうことが多い。本研究では, 品質と多様性の両面を保ちながら, 数段階のビデオ生成を実現するため, 変量点蒸留と整合蒸留を組み合わせた蒸留法を提案する。また,特定の報酬基準に従って映像生成性能をさらに向上する潜在報酬モデル微調整手法を提案する。このアプローチはメモリ使用量を削減し、識別可能な報酬を必要としない。提案手法は,10秒ビデオ(12FPSで128フレーム)の複数ステップ生成における最先端性能を示す。蒸留された学生モデルはVBenchで82.57点を獲得し、教師モデルとベースラインモデルGen-3、T2V-Turbo、Klingを上回っている。 1段階の蒸留により、教師モデルの拡散サンプリングを最大278.6倍加速し、ほぼリアルタイムで生成できる。人的評価は,50段階DDIMサンプリングを用いた教師モデルと比較して,4段階の学生モデルの優れた性能を更に評価する。

関連論文リスト

AccVideo: Accelerating Video Diffusion Model with Synthetic Dataset [55.82208863521353]
合成データセットを用いたビデオ拡散モデルの高速化のための推論ステップを削減するために,AccVideoを提案する。本モデルでは,教師モデルに比べて生成速度が8.5倍向上した。従来の高速化手法と比較して,より高品質で解像度の高いビデオを生成することができる。
論文参考訳（メタデータ） (2025-03-25T08:52:07Z)
Learning Few-Step Diffusion Models by Trajectory Distribution Matching [18.229753357571116]
トラジェクティブ・ディストリビュータ・マッチング(TDM)は、トラジェクタ・マッチングとトラジェクタ・マッチングの強さを組み合わせた統合蒸留パラダイムである。我々は,学習目標を異なるステップで分離し,より調整可能なサンプリングを可能にする,サンプリングステップ対応の目標を開発する。我々のモデルであるTDMは、様々なバックボーン上で既存の手法よりも優れており、優れた品質を提供し、トレーニングコストを大幅に削減する。
論文参考訳（メタデータ） (2025-03-09T15:53:49Z)
From Slow Bidirectional to Fast Causal Video Generators [52.32078428442281]
現在のビデオ拡散モデルは、印象的な生成品質を実現するが、双方向の注意依存のため、インタラクティブなアプリケーションに苦戦する。この制限は、予め訓練された双方向拡散変換器を、フレームをオンザフライで生成する因果変換器に適応させることによって解決する。我々のモデルは、KVキャッシュのおかげで、単一のGPU上で9.4 FPSで高速な高品質ビデオのストリーミング生成をサポートする。
論文参考訳（メタデータ） (2024-12-10T18:59:50Z)
Accelerating Video Diffusion Models via Distribution Matching [26.475459912686986]
本研究は, 拡散蒸留と分散マッチングのための新しい枠組みを導入する。提案手法は, 事前学習した拡散モデルをより効率的な数ステップ生成器に蒸留することに焦点を当てる。ビデオGAN損失と新しい2Dスコア分布マッチング損失の組合せを利用して、高品質なビデオフレームを生成する可能性を実証する。
論文参考訳（メタデータ） (2024-12-08T11:36:32Z)
OSV: One Step is Enough for High-Quality Image to Video Generation [29.77646091911169]
一貫性蒸留とGANトレーニングを効果的に組み合わせた2段階トレーニングフレームワークを提案する。また,ビデオラテントを復号化する必要のない新しいビデオ識別器の設計を提案する。本モデルでは,高画質映像を1ステップで生成可能であり,多段精細化の柔軟性が期待できる。
論文参考訳（メタデータ） (2024-09-17T17:16:37Z)
Diffusion Models Are Innate One-Step Generators [2.3359837623080613]
拡散モデル(DM)は優れた高品質な結果をもたらす。 DMの層は異なる時間ステップで微分活性化され、単一のステップで画像を生成する固有の能力をもたらす。提案手法は, CIFAR-10, AFHQv2 64x64 (FID 1.23), FFHQ 64x64 (FID 0.85), ImageNet 64x64 (FID 1.16) のSOTA結果を効率よく達成する。
論文参考訳（メタデータ） (2024-05-31T11:14:12Z)
T2V-Turbo: Breaking the Quality Bottleneck of Video Consistency Model with Mixed Reward Feedback [111.40967379458752]
本稿では,T2V-Turboについて述べる。T2V-Turboは,様々なモデルから得られるフィードバックを,事前学習したT2Vモデルの一貫性蒸留プロセスに統合する。興味深いことに、我々のT2V-Turboの4段階の世代は、Gen-2とPikaを抜いてVBenchで最高スコアを達成した。
論文参考訳（メタデータ） (2024-05-29T04:26:17Z)
Consistency Models [89.68380014789861]
ノイズを直接データにマッピングすることで,高品質なサンプルを生成する新しいモデル群を提案する。設計によって高速なワンステップ生成をサポートしながら、マルチステップサンプリングによって、サンプル品質の計算を交換することができる。イメージインペイント、カラー化、超高解像度といったゼロショットデータ編集も、明示的なトレーニングを必要とせずサポートしている。
論文参考訳（メタデータ） (2023-03-02T18:30:16Z)
Reinforced Multi-Teacher Selection for Knowledge Distillation [54.72886763796232]
知識蒸留はモデル圧縮の一般的な方法です。現在の方法は、蒸留全体の教師モデルに固定重量を割り当てます。既存のメソッドのほとんどは、すべての教師モデルに等しい重みを割り当てます。本論文では,学習例の複雑性や生徒モデル能力の違いから,教師モデルとの違いを学習することで,生徒モデルの蒸留性能の向上が期待できることを考察する。
論文参考訳（メタデータ） (2020-12-11T08:56:39Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。