論文の概要: Towards One-step Causal Video Generation via Adversarial Self-Distillation
- arxiv url: http://arxiv.org/abs/2511.01419v1
- Date: Mon, 03 Nov 2025 10:12:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:27.21847
- Title: Towards One-step Causal Video Generation via Adversarial Self-Distillation
- Title(参考訳): 逆自己蒸留による一段階因果ビデオ生成に向けて
- Authors: Yongqi Yang, Huayang Huang, Xu Peng, Xiaobin Hu, Donghao Luo, Jiangning Zhang, Chengjie Wang, Yu Wu,
- Abstract要約: 最近のハイブリッドビデオ生成モデルは、自己回帰時間力学と拡散に基づく空間認知を組み合わせている。
我々のフレームワークは、複数の推論ステップ設定を柔軟にサポートする単一の蒸留モデルを生成する。
- 参考スコア(独自算出の注目度): 71.30373662465648
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent hybrid video generation models combine autoregressive temporal dynamics with diffusion-based spatial denoising, but their sequential, iterative nature leads to error accumulation and long inference times. In this work, we propose a distillation-based framework for efficient causal video generation that enables high-quality synthesis with extremely limited denoising steps. Our approach builds upon the Distribution Matching Distillation (DMD) framework and proposes a novel Adversarial Self-Distillation (ASD) strategy, which aligns the outputs of the student model's n-step denoising process with its (n+1)-step version at the distribution level. This design provides smoother supervision by bridging small intra-student gaps and more informative guidance by combining teacher knowledge with locally consistent student behavior, substantially improving training stability and generation quality in extremely few-step scenarios (e.g., 1-2 steps). In addition, we present a First-Frame Enhancement (FFE) strategy, which allocates more denoising steps to the initial frames to mitigate error propagation while applying larger skipping steps to later frames. Extensive experiments on VBench demonstrate that our method surpasses state-of-the-art approaches in both one-step and two-step video generation. Notably, our framework produces a single distilled model that flexibly supports multiple inference-step settings, eliminating the need for repeated re-distillation and enabling efficient, high-quality video synthesis.
- Abstract(参考訳): 最近のハイブリッドビデオ生成モデルは、自己回帰時間力学と拡散に基づく空間認知を組み合わせているが、その逐次的かつ反復的な性質は、エラーの蓄積と長い推測時間をもたらす。
本研究では,非常に限定的なデノナイジングステップで高品質な合成を可能にする,効率の良い因果ビデオ生成のための蒸留ベースのフレームワークを提案する。
本手法は, 分散マッチング蒸留(DMD)フレームワークを基盤として, 生徒のn段階のデノナイズプロセスの出力と(n+1)段階の分布レベルでの出力とを整合させる, 適応型自己蒸留(ASD)戦略を提案する。
この設計は、教師の知識を局所的に一貫した生徒行動と組み合わせ、極端に少数のシナリオ(例えば1-2ステップ)における訓練の安定性と生成品質を大幅に向上させることにより、学生間のギャップを埋めることにより、よりスムーズな監督を提供する。
さらに,第1フレーム拡張(FFE)戦略を提案する。第1フレーム拡張(FFE)戦略は,後続フレームにより大きなスキップステップを適用しながら,エラーの伝播を緩和するために,初期フレームにより多くの遅延ステップを割り当てる。
VBenchの広汎な実験により,本手法は1段階と2段階のビデオ生成において最先端のアプローチを超越していることが示された。
特に,本フレームワークは,複数の推論ステップ設定を柔軟にサポートし,繰り返し再蒸留の必要性を排除し,効率よく高品質なビデオ合成を可能にする,単一の蒸留モデルを生成する。
関連論文リスト
- SwiftVideo: A Unified Framework for Few-Step Video Generation through Trajectory-Distribution Alignment [76.60024640625478]
拡散ベースまたはフローベースモデルは、ビデオ合成において大きな進歩を遂げているが、複数の反復サンプリングステップが必要である。
本稿では, トラジェクトリ保存と分散マッチングの利点を組み合わせた, 統一かつ安定な蒸留フレームワークを提案する。
提案手法は高品質なビデオ生成を維持しつつ,推論ステップの数を著しく削減する。
論文 参考訳(メタデータ) (2025-08-08T07:26:34Z) - Hybrid Autoregressive-Diffusion Model for Real-Time Sign Language Production [0.0]
我々は手話生成のための自己回帰モデルと拡散モデルを組み合わせたハイブリッドアプローチを開発する。
微粒な体の動きを捉えるため,異なる音節から細かな特徴を別々に抽出するマルチスケール・ポース表現モジュールを設計した。
ポーズ生成過程を動的に導くために,共同レベルの信頼度スコアを利用する信頼度対応型因果注意機構を導入する。
論文 参考訳(メタデータ) (2025-07-12T01:34:50Z) - SimpleGVR: A Simple Baseline for Latent-Cascaded Video Super-Resolution [46.311223206965934]
後続の超解像モデルの設計原理について検討し,その設計原理について検討する。
まず、ベースモデルの出力特性をよりよく模倣し、VSRモデルと上流ジェネレータとの整合性を確保するための2つのトレーニングペアを生成する方法を提案する。
第2に,(1)時間ステップサンプリング戦略,(2)低分解能(LR)入力に対する雑音増強効果の系統的解析を通じて,VSRモデル行動に対する批判的洞察を提供する。
論文 参考訳(メタデータ) (2025-06-24T17:57:26Z) - One-Step Diffusion Model for Image Motion-Deblurring [85.76149042561507]
本稿では,脱臭過程を1段階に短縮する新しいフレームワークである脱臭拡散モデル(OSDD)を提案する。
拡散モデルにおける忠実度損失に対処するために,構造復元を改善する改良された変分オートエンコーダ(eVAE)を導入する。
提案手法は,実測値と非参照値の両方で高い性能を達成する。
論文 参考訳(メタデータ) (2025-03-09T09:39:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。