論文の概要: Lightning Fast Caching-based Parallel Denoising Prediction for Accelerating Talking Head Generation
- arxiv url: http://arxiv.org/abs/2509.00052v1
- Date: Mon, 25 Aug 2025 02:58:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:03.030433
- Title: Lightning Fast Caching-based Parallel Denoising Prediction for Accelerating Talking Head Generation
- Title(参考訳): 高速キャッシングに基づく発話ヘッドの高速化のための並列デノジング予測
- Authors: Jianzhi Long, Wenhao Sun, Rongcheng Tu, Dacheng Tao,
- Abstract要約: 拡散に基づく音声ヘッドモデルは高品質でフォトリアリスティックなビデオを生成するが、推論が遅い。
我々はLightning-fast Caching-based Parallel Denoising Prediction (LightningCP)を紹介する。
また,より高速な注意計算を実現するために,DFA(Decoupled Foreground Attention)を提案する。
- 参考スコア(独自算出の注目度): 50.04968365065964
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion-based talking head models generate high-quality, photorealistic videos but suffer from slow inference, limiting practical applications. Existing acceleration methods for general diffusion models fail to exploit the temporal and spatial redundancies unique to talking head generation. In this paper, we propose a task-specific framework addressing these inefficiencies through two key innovations. First, we introduce Lightning-fast Caching-based Parallel denoising prediction (LightningCP), caching static features to bypass most model layers in inference time. We also enable parallel prediction using cached features and estimated noisy latents as inputs, efficiently bypassing sequential sampling. Second, we propose Decoupled Foreground Attention (DFA) to further accelerate attention computations, exploiting the spatial decoupling in talking head videos to restrict attention to dynamic foreground regions. Additionally, we remove reference features in certain layers to bring extra speedup. Extensive experiments demonstrate that our framework significantly improves inference speed while preserving video quality.
- Abstract(参考訳): 拡散に基づく音声ヘッドモデルは高品質なフォトリアリスティックなビデオを生成するが、推論が遅く、実用的な応用が制限される。
一般的な拡散モデルに対する既存の加速度法は、対話型ヘッド生成に特有の時間的および空間的冗長性を利用することができない。
本稿では,2つの重要なイノベーションを通じて,これらの非効率性に対処するタスク固有フレームワークを提案する。
まず、Lightning-fast CachingベースのParallel denoising Prediction (LightningCP)を導入し、ほとんどのモデルレイヤを推論時間でバイパスするために静的機能をキャッシュする。
また、キャッシュされた特徴と推定ノイズ潜時を入力として並列予測が可能であり、シーケンシャルサンプリングを効率よく回避する。
第2に,音声ヘッドビデオにおける空間的疎結合を利用して,動的フォアグラウンド領域への注意を制限し,注意計算をさらに高速化するデカップリングフォアグラウンドアテンション(DFA)を提案する。
さらに、一部のレイヤで参照機能を削除することで、さらなるスピードアップを実現しています。
大規模な実験により,ビデオ品質を保ちながら推論速度を大幅に向上することが示された。
関連論文リスト
- READ: Real-time and Efficient Asynchronous Diffusion for Audio-driven Talking Head Generation [55.58089937219475]
本稿では,最初のリアルタイム拡散変換器を用いた音声ヘッド生成フレームワークREADを提案する。
提案手法はまず,VAEを用いて高度に圧縮されたビデオ潜時空間を学習し,音声生成におけるトークン数を大幅に削減する。
また,READは,実行時間を大幅に短縮した競合する音声ヘッドビデオを生成することにより,最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2025-08-05T13:57:03Z) - FastCar: Cache Attentive Replay for Fast Auto-Regressive Video Generation on the Edge [60.000984252907195]
自動回帰(AR)モデルは、サンプリング効率が優れているため、近年、視覚生成タスクにおいて有望であることが示されている。
ビデオ生成は、コヒーレントな時間フレームを生成するために、かなり多くのトークンを必要とする。
我々は,時間的冗長性を探究して,ARビデオ生成のデコードフェーズを高速化する textbfFastCar フレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-17T05:00:39Z) - Model Reveals What to Cache: Profiling-Based Feature Reuse for Video Diffusion Models [41.11005178050448]
ProfilingDiTは、フォアグラウンドとバックグラウンドに焦点を当てたブロックを明示的にアンタングルする、新しいアダプティブキャッシュ戦略である。
当社のフレームワークは,総合的な品質指標間の視覚的忠実度を維持しながら,大幅な加速を実現している。
論文 参考訳(メタデータ) (2025-04-04T03:30:15Z) - Adaptive Caching for Faster Video Generation with Diffusion Transformers [52.73348147077075]
拡散変換器(DiT)はより大きなモデルと重い注意機構に依存しており、推論速度が遅くなる。
本稿では,Adaptive Caching(AdaCache)と呼ばれる,ビデオDiTの高速化のためのトレーニング不要手法を提案する。
また,AdaCache内で動画情報を利用するMoReg方式を導入し,動作内容に基づいて計算割り当てを制御する。
論文 参考訳(メタデータ) (2024-11-04T18:59:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。