論文の概要: VDOT: Efficient Unified Video Creation via Optimal Transport Distillation
- arxiv url: http://arxiv.org/abs/2512.06802v2
- Date: Mon, 15 Dec 2025 03:40:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-16 15:10:29.115482
- Title: VDOT: Efficient Unified Video Creation via Optimal Transport Distillation
- Title(参考訳): VDOT: 最適な輸送蒸留による効率的な統合ビデオ作成
- Authors: Yutong Wang, Haiyu Zhang, Tianfan Xue, Yu Qiao, Yaohui Wang, Chang Xu, Xinyuan Chen,
- Abstract要約: 本稿では,VDOT という名前の効率的な統合ビデオ生成モデルを提案する。
我々は,実測値分布と偽測値分布の差分を最適化するために,新しい計算最適輸送(OT)技術を用いる。
統合ビデオ生成モデルの訓練を支援するため,ビデオデータアノテーションとフィルタリングのための完全自動パイプラインを提案する。
- 参考スコア(独自算出の注目度): 70.02065520468726
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid development of generative models has significantly advanced image and video applications. Among these, video creation, aimed at generating videos under various conditions, has gained substantial attention. However, existing video creation models either focus solely on a few specific conditions or suffer from excessively long generation times due to complex model inference, making them impractical for real-world applications. To mitigate these issues, we propose an efficient unified video creation model, named VDOT. Concretely, we model the training process with the distribution matching distillation (DMD) paradigm. Instead of using the Kullback-Leibler (KL) minimization, we additionally employ a novel computational optimal transport (OT) technique to optimize the discrepancy between the real and fake score distributions. The OT distance inherently imposes geometric constraints, mitigating potential zero-forcing or gradient collapse issues that may arise during KL-based distillation within the few-step generation scenario, and thus, enhances the efficiency and stability of the distillation process. Further, we integrate a discriminator to enable the model to perceive real video data, thereby enhancing the quality of generated videos. To support training unified video creation models, we propose a fully automated pipeline for video data annotation and filtering that accommodates multiple video creation tasks. Meanwhile, we curate a unified testing benchmark, UVCBench, to standardize evaluation. Experiments demonstrate that our 4-step VDOT outperforms or matches other baselines with 100 denoising steps.
- Abstract(参考訳): 生成モデルの急速な開発により、画像やビデオの応用が大幅に進歩した。
このうち、様々な条件下で動画を制作することを目的としたビデオ制作が注目されている。
しかし、既存のビデオ生成モデルはいくつかの特定の条件にのみ焦点を合わせているか、複雑なモデル推論のために過度に長い時間に悩まされているかのいずれかであり、現実のアプリケーションでは実用的ではない。
これらの問題を緩和するために,VDOTと呼ばれる効率的な統合ビデオ生成モデルを提案する。
具体的には, 分散マッチング蒸留(DMD)パラダイムを用いて, 学習過程をモデル化する。
Kullback-Leibler (KL) の最小化の代わりに,実数分布と偽値分布との差分を最適化するために,新しい計算最適トランスポート(OT)技術を用いる。
OT距離は本質的に幾何学的制約を課し、数段階の生成シナリオ内でKLベースの蒸留中に生じる潜在的なゼロフォースまたは勾配崩壊問題を緩和し、蒸留プロセスの効率と安定性を高める。
さらに、判別器を統合して、モデルが実際の映像データを知覚できるようにし、それによって生成された映像の品質を向上させる。
統合ビデオ生成モデルのトレーニングを支援するため,複数のビデオ生成タスクに対応するビデオデータアノテーションとフィルタリングのための完全自動化パイプラインを提案する。
一方、評価を標準化するために統一テストベンチマークであるUVCBenchをキュレートする。
実験では、私たちの4ステップのVDOTは100ステップで他のベースラインを上回ったり、マッチすることを示した。
関連論文リスト
- AccVideo: Accelerating Video Diffusion Model with Synthetic Dataset [55.82208863521353]
合成データセットを用いたビデオ拡散モデルの高速化のための推論ステップを削減するために,AccVideoを提案する。
本モデルでは,教師モデルに比べて生成速度が8.5倍向上した。
従来の高速化手法と比較して,より高品質で解像度の高いビデオを生成することができる。
論文 参考訳(メタデータ) (2025-03-25T08:52:07Z) - From Slow Bidirectional to Fast Autoregressive Video Diffusion Models [48.35054927704544]
現在のビデオ拡散モデルは、印象的な生成品質を実現するが、双方向の注意依存のため、インタラクティブなアプリケーションに苦戦する。
この制限には、事前訓練された双方向拡散変換器を自己回帰変換器に適応させ、フレームをオンザフライで生成することで対処する。
我々のモデルは、VBench-Longベンチマークで84.27点のスコアを達成し、以前のすべてのビデオ生成モデルを上回った。
論文 参考訳(メタデータ) (2024-12-10T18:59:50Z) - Accelerating Video Diffusion Models via Distribution Matching [26.475459912686986]
本研究は, 拡散蒸留と分散マッチングのための新しい枠組みを導入する。
提案手法は, 事前学習した拡散モデルをより効率的な数ステップ生成器に蒸留することに焦点を当てる。
ビデオGAN損失と新しい2Dスコア分布マッチング損失の組合せを利用して、高品質なビデオフレームを生成する可能性を実証する。
論文 参考訳(メタデータ) (2024-12-08T11:36:32Z) - SF-V: Single Forward Video Generation Model [57.292575082410785]
そこで本稿では,単段階ビデオ生成モデルを得るための新しい手法を提案する。
実験により,提案手法は計算オーバーヘッドを大幅に低減した合成ビデオの競合生成品質を実現することを示す。
論文 参考訳(メタデータ) (2024-06-06T17:58:27Z) - AnimateLCM: Computation-Efficient Personalized Style Video Generation without Personalized Video Data [45.20627288830823]
同様のサイズのビデオ拡散モデルの必要な生成時間を25秒から1秒程度に短縮する。
この手法の有効性は、二重レベルデカップリング学習アプローチにある。
論文 参考訳(メタデータ) (2024-02-01T16:58:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。