論文の概要: Streaming Autoregressive Video Generation via Diagonal Distillation
- arxiv url: http://arxiv.org/abs/2603.09488v1
- Date: Tue, 10 Mar 2026 10:45:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-11 15:25:24.238052
- Title: Streaming Autoregressive Video Generation via Diagonal Distillation
- Title(参考訳): 対角蒸留による自己回帰映像のストリーミング
- Authors: Jinxiu Liu, Xuanming Liu, Kangfu Mei, Yandong Wen, Ming-HsuanYang, Weiyang Liu,
- Abstract要約: 自己回帰モデルは、シーケンシャルフレーム合成のための自然なフレームワークを提供するが、高い忠実性を達成するためには重い計算を必要とする。
ビデオチャンクとデノイングステップの時間的情報を活用するために,ダイアゴナル蒸留を提案する。
本手法は,2.61秒(最大31FPS)で5秒ビデオを生成し,未蒸留モデル上で277.3倍のスピードアップを実現する。
- 参考スコア(独自算出の注目度): 50.13573884115673
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large pretrained diffusion models have significantly enhanced the quality of generated videos, and yet their use in real-time streaming remains limited. Autoregressive models offer a natural framework for sequential frame synthesis but require heavy computation to achieve high fidelity. Diffusion distillation can compress these models into efficient few-step variants, but existing video distillation approaches largely adapt image-specific methods that neglect temporal dependencies. These techniques often excel in image generation but underperform in video synthesis, exhibiting reduced motion coherence, error accumulation over long sequences, and a latency-quality trade-off. We identify two factors that result in these limitations: insufficient utilization of temporal context during step reduction and implicit prediction of subsequent noise levels in next-chunk prediction (i.e., exposure bias). To address these issues, we propose Diagonal Distillation, which operates orthogonally to existing approaches and better exploits temporal information across both video chunks and denoising steps. Central to our approach is an asymmetric generation strategy: more steps early, fewer steps later. This design allows later chunks to inherit rich appearance information from thoroughly processed early chunks, while using partially denoised chunks as conditional inputs for subsequent synthesis. By aligning the implicit prediction of subsequent noise levels during chunk generation with the actual inference conditions, our approach mitigates error propagation and reduces oversaturation in long-range sequences. We further incorporate implicit optical flow modeling to preserve motion quality under strict step constraints. Our method generates a 5-second video in 2.61 seconds (up to 31 FPS), achieving a 277.3x speedup over the undistilled model.
- Abstract(参考訳): 大規模な事前学習拡散モデルは、生成したビデオの品質を大幅に向上させたが、リアルタイムストリーミングでの使用は制限されている。
自己回帰モデルは、シーケンシャルフレーム合成のための自然なフレームワークを提供するが、高い忠実性を達成するためには重い計算を必要とする。
拡散蒸留はこれらのモデルを効率的な数ステップの変種に圧縮することができるが、既存のビデオ蒸留手法は時間的依存を無視する画像固有の手法に大きく適応している。
これらの技術はしばしば画像生成に優れるが、ビデオ合成では性能が劣り、動きのコヒーレンスが低下し、長いシーケンスでエラーが蓄積され、遅延品質のトレードオフが生じる。
これらの制約を生じる2つの要因として,ステップリダクション時の時間的文脈の不十分な利用と,次のチャンク予測(露光バイアス)におけるその後の雑音レベルの暗黙的な予測があげられる。
これらの問題に対処するために,既存のアプローチに直交して動作する対角蒸留法を提案し,ビデオチャンクとデノナイジングステップの時間的情報をよりよく活用する。
私たちのアプローチの中心は、非対称な生成戦略です。
この設計により、後続のチャンクは、完全に処理された初期チャンクからリッチな外観情報を継承し、部分的な分別チャンクを条件入力として後続の合成を行うことができる。
チャンク生成中の暗黙的なノイズレベルの予測と実際の推測条件を一致させることにより,提案手法は誤りの伝播を軽減し,長距離シーケンスにおける過飽和を低減する。
さらに、厳密なステップ制約下での動作品質を維持するために、暗黙の光学フローモデリングを取り入れた。
本手法は,2.61秒(最大31FPS)で5秒ビデオを生成し,未蒸留モデル上で277.3倍のスピードアップを実現する。
関連論文リスト
- JoyAvatar: Real-time and Infinite Audio-Driven Avatar Generation with Autoregressive Diffusion [19.420963062956222]
JoyAvatarは、リアルタイム推論と無限長のビデオ生成が可能なオーディオ駆動の自己回帰モデルである。
我々のモデルは、視覚的品質、時間的一貫性、唇同期の競合的な結果を達成する。
論文 参考訳(メタデータ) (2025-12-12T10:06:01Z) - Rolling Forcing: Autoregressive Long Video Diffusion in Real Time [86.40480237741609]
Rolling Forcingは、エラーの最小限の蓄積で長いビデオをストリーミングできる、新しいビデオ生成技術である。
転がり強制力には3つの新しい設計が伴う。第一に、エラー伝播を加速する個別のフレームを反復的にサンプリングする代わりに、共同演示方式を設計する。
第2に,アテンションシンク機構を長軸ストリームビデオ生成タスクに導入し,初期フレームのキー値状態をグローバルなコンテキストアンカーとして保持する。
第3に,大半が拡張された遮音窓上での無段蒸留を可能にする効率的な訓練アルゴリズムを設計する。
論文 参考訳(メタデータ) (2025-09-29T17:57:14Z) - POSE: Phased One-Step Adversarial Equilibrium for Video Diffusion Models [18.761042377485367]
POSE(Phased One-Step Equilibrium)は、大規模ビデオ拡散モデルのサンプリングステップを削減する蒸留フレームワークである。
PSEはVBench-I2V上の他の加速度法よりもセマンティックアライメント,時間的会議,フレーム品質が平均7.15%向上していることを示す。
論文 参考訳(メタデータ) (2025-08-28T17:20:01Z) - SwiftVideo: A Unified Framework for Few-Step Video Generation through Trajectory-Distribution Alignment [76.60024640625478]
拡散ベースまたはフローベースモデルは、ビデオ合成において大きな進歩を遂げているが、複数の反復サンプリングステップが必要である。
本稿では, トラジェクトリ保存と分散マッチングの利点を組み合わせた, 統一かつ安定な蒸留フレームワークを提案する。
提案手法は高品質なビデオ生成を維持しつつ,推論ステップの数を著しく削減する。
論文 参考訳(メタデータ) (2025-08-08T07:26:34Z) - Fast constrained sampling in pre-trained diffusion models [80.99262780028015]
任意の制約下で高速で高品質な生成を可能にするアルゴリズムを提案する。
我々の手法は、最先端のトレーニングフリー推論手法に匹敵するか、超越した結果をもたらす。
論文 参考訳(メタデータ) (2024-10-24T14:52:38Z) - Training-Free Adaptive Diffusion with Bounded Difference Approximation Strategy [44.09909260046396]
雑音発生過程における雑音予測のステップを削減するための適応拡散法を提案する。
提案手法は, 最大25倍の速度アップを達成し, 元の処理と同一の処理結果を生成するとともに, デノナイズ処理を著しく高速化することができる。
論文 参考訳(メタデータ) (2024-10-13T15:19:18Z) - Identifying and Solving Conditional Image Leakage in Image-to-Video Diffusion Model [31.70050311326183]
拡散モデルは、予想より少ない動きでビデオを生成する傾向がある。
推論とトレーニングの両方の観点からこの問題に対処します。
提案手法は,より低い誤差で高い動作スコアを生成することにより,ベースラインを上回ります。
論文 参考訳(メタデータ) (2024-06-22T04:56:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。