論文の概要: Efficient Autoregressive Video Diffusion with Dummy Head
- arxiv url: http://arxiv.org/abs/2601.20499v1
- Date: Wed, 28 Jan 2026 11:20:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-29 15:46:06.908062
- Title: Efficient Autoregressive Video Diffusion with Dummy Head
- Title(参考訳): ダミーヘッドを用いた高能率自己回帰ビデオ拡散
- Authors: Hang Guo, Zhaoyang Jia, Jiahao Li, Bin Li, Yuanhao Cai, Jiangshan Wang, Yawei Li, Yan Lu,
- Abstract要約: 本研究では,異なるヘッド間のコンテキストアクセシビリティを制御するDummy Forcingを提案する。
具体的には、提案したヘテロジニアスメモリ割り当てにより、動的ヘッドプログラミングを伴う頭部コンテキスト冗長性が低減される。
追加のトレーニングなしでは、Dummy Forcingはベースライン上で最大2.0倍のスピードアップを実現し、ビデオ生成を0.5%以下の品質低下で24.3 FPSでサポートしています。
- 参考スコア(独自算出の注目度): 35.72735205078644
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The autoregressive video diffusion model has recently gained considerable research interest due to its causal modeling and iterative denoising. In this work, we identify that the multi-head self-attention in these models under-utilizes historical frames: approximately 25% heads attend almost exclusively to the current frame, and discarding their KV caches incurs only minor performance degradation. Building upon this, we propose Dummy Forcing, a simple yet effective method to control context accessibility across different heads. Specifically, the proposed heterogeneous memory allocation reduces head-wise context redundancy, accompanied by dynamic head programming to adaptively classify head types. Moreover, we develop a context packing technique to achieve more aggressive cache compression. Without additional training, our Dummy Forcing delivers up to 2.0x speedup over the baseline, supporting video generation at 24.3 FPS with less than 0.5% quality drop. Project page is available at https://csguoh.github.io/project/DummyForcing/.
- Abstract(参考訳): 自己回帰ビデオ拡散モデルは近年,因果的モデリングと反復的復調により,かなりの研究関心を集めている。
約25%のヘッドは、ほぼ現在のフレームにのみ参加し、KVキャッシュを破棄すると、パフォーマンスが低下するのみである。
そこで我々はDummy Forcingを提案する。Dummy Forcingは、異なるヘッド間のコンテキストアクセシビリティをシンプルかつ効果的に制御する手法である。
具体的には、提案したヘテロジニアスメモリアロケーションは、頭部型を適応的に分類する動的ヘッドプログラミングを伴って、頭部のコンテキスト冗長性を減少させる。
さらに,より積極的なキャッシュ圧縮を実現するためのコンテキストパッキング手法を開発した。
追加のトレーニングなしでは、Dummy Forcingはベースライン上で最大2.0倍のスピードアップを実現し、画質が0.5%未満の24.3 FPSでビデオ生成をサポートしています。
プロジェクトページはhttps://csguoh.github.io/project/DummyForcing/.comで公開されている。
関連論文リスト
- Reward Forcing: Efficient Streaming Video Generation with Rewarded Distribution Matching Distillation [69.57572900337176]
本稿では,効率的なストリーミングビデオ生成のための新しいフレームワークであるReward Forcingを紹介する。
EMA-Sinkトークンは、長期コンテキストと最近のダイナミクスの両方をキャプチャし、初期フレームコピーを防ぐ。
Re-DMDは、視覚言語モデルにより評価されたより大きなダイナミックスを持つサンプルを優先順位付けすることで、モデル出力分布を高逆領域にバイアスする。
論文 参考訳(メタデータ) (2025-12-04T11:12:13Z) - Lightning Fast Caching-based Parallel Denoising Prediction for Accelerating Talking Head Generation [50.04968365065964]
拡散に基づく音声ヘッドモデルは高品質でフォトリアリスティックなビデオを生成するが、推論が遅い。
我々はLightning-fast Caching-based Parallel Denoising Prediction (LightningCP)を紹介する。
また,より高速な注意計算を実現するために,DFA(Decoupled Foreground Attention)を提案する。
論文 参考訳(メタデータ) (2025-08-25T02:58:39Z) - Self Forcing: Bridging the Train-Test Gap in Autoregressive Video Diffusion [67.94300151774085]
本稿では,自己回帰ビデオ拡散モデルのための新しい訓練パラダイムであるSelf Forcingを紹介する。
露光バイアスの長年の問題に対処し、地道的な文脈で訓練されたモデルは、自身の不完全な出力で条件付けられたシーケンスを生成する必要がある。
論文 参考訳(メタデータ) (2025-06-09T17:59:55Z) - Model Reveals What to Cache: Profiling-Based Feature Reuse for Video Diffusion Models [41.11005178050448]
ProfilingDiTは、フォアグラウンドとバックグラウンドに焦点を当てたブロックを明示的にアンタングルする、新しいアダプティブキャッシュ戦略である。
当社のフレームワークは,総合的な品質指標間の視覚的忠実度を維持しながら,大幅な加速を実現している。
論文 参考訳(メタデータ) (2025-04-04T03:30:15Z) - From Slow Bidirectional to Fast Autoregressive Video Diffusion Models [48.35054927704544]
現在のビデオ拡散モデルは、印象的な生成品質を実現するが、双方向の注意依存のため、インタラクティブなアプリケーションに苦戦する。
この制限には、事前訓練された双方向拡散変換器を自己回帰変換器に適応させ、フレームをオンザフライで生成することで対処する。
我々のモデルは、VBench-Longベンチマークで84.27点のスコアを達成し、以前のすべてのビデオ生成モデルを上回った。
論文 参考訳(メタデータ) (2024-12-10T18:59:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。