論文の概要: Accelerating Diffusion-based Video Editing via Heterogeneous Caching: Beyond Full Computing at Sampled Denoising Timestep
- arxiv url: http://arxiv.org/abs/2603.24260v1
- Date: Wed, 25 Mar 2026 12:53:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-26 21:06:11.296372
- Title: Accelerating Diffusion-based Video Editing via Heterogeneous Caching: Beyond Full Computing at Sampled Denoising Timestep
- Title(参考訳): 不均一キャッシングによる拡散に基づくビデオ編集の高速化:サンプリングされたデノイング時間におけるフルコンピューティングを超えて
- Authors: Tianyi Liu, Ye Lu, Linfeng Zhang, Chen Cai, Jianjun Gao, Yi Wang, Kim-Hui Yap, Lap-Pui Chau,
- Abstract要約: HetCacheは、ビデオ・ツー・ビデオ(MV2V)の生成と編集のためのトレーニング不要な拡散加速フレームワークである。
編集の一貫性と忠実さを維持しながら、冗長な注意操作を低減する。
実験によると、HetCacheは2.67$times$レイテンシのスピードアップやFLOPの削減など、目立った加速を実現している。
- 参考スコア(独自算出の注目度): 37.62908191585867
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion-based video editing has emerged as an important paradigm for high-quality and flexible content generation. However, despite their generality and strong modeling capacity, Diffusion Transformers (DiT) remain computationally expensive due to the iterative denoising process, posing challenges for practical deployment. Existing video diffusion acceleration methods primarily exploit denoising timestep-level feature reuse, which mitigates the redundancy in denoising process, but overlooks the architectural redundancy within the DiT that many attention operations over spatio-temporal tokens are redundantly executed, offering little to no incremental contribution to the model output. This work introduces HetCache, a training-free diffusion acceleration framework designed to exploit the inherent heterogeneity in diffusion-based masked video-to-video (MV2V) generation and editing. Instead of uniformly reuse or randomly sampling tokens, HetCache assesses the contextual relevance and interaction strength among various types of tokens in designated computing steps. Guided by spatial priors, it divides the spatial-temporal tokens in DiT model into context and generative tokens, and selectively caches the context tokens that exhibit the strongest correlation and most representative semantics with generative ones. This strategy reduces redundant attention operations while maintaining editing consistency and fidelity. Experiments show that HetCache achieves a noticeable acceleration, including a 2.67$\times$ latency speedup and FLOPs reduction over commonly used foundation models, with negligible degradation in editing quality.
- Abstract(参考訳): 拡散に基づくビデオ編集は、高品質で柔軟なコンテンツ生成の重要なパラダイムとして現れてきた。
しかし、その一般化と強力なモデリング能力にもかかわらず、拡散変換器(DiT)は反復的デノナイジングプロセスのために計算コストがかかり、実用的展開の難しさを浮き彫りにしている。
既存のビデオ拡散加速法は主に、デノナイジングプロセスにおける冗長性を緩和する時間ステップレベルの特徴再利用を利用するが、時空間トークンに対する多くの注意操作が冗長に実行されるため、モデル出力への漸進的な寄与はほとんど提供されないため、DiT内のアーキテクチャ上の冗長性を見落としている。
HetCacheは、拡散ベースのマスク付きビデオ・トゥ・ビデオ(MV2V)生成と編集において固有の不均一性を活用するために設計された、トレーニング不要な拡散加速フレームワークである。
トークンを一様に再利用したり、ランダムにサンプリングする代わりに、HetCacheは指定されたコンピューティングステップにおいて、さまざまなタイプのトークン間のコンテキスト関連性と相互作用の強度を評価する。
空間的先行性によって導かれ、DiTモデルの空間的時間的トークンを文脈的および生成的トークンに分割し、最も強い相関を示す文脈的トークンと生成的トークンとの最も代表的な意味論を選択的にキャッシュする。
この戦略は、編集の一貫性と忠実さを維持しながら、冗長な注意操作を減らす。
実験の結果、HetCacheは2.67$\times$レイテンシのスピードアップやFLOPの削減といった顕著な高速化を実現しており、編集品質の劣化は無視できることがわかった。
関連論文リスト
- AdaCorrection: Adaptive Offset Cache Correction for Accurate Diffusion Transformers [37.38708392928324]
Transformer Diffusion (TDis) は高忠実さと画像生成において最先端を実現するが、反復的デノイングにより高価な推論に苦しむ。
AdaCorrectionは適応的なオフセットキャッシュ補正フレームワークで、高ジェネレーションの忠実さを維持しつつ、拡散推論中にキャッシュ層間の効率的な再利用を可能にする。
提案手法は計算オーバーヘッドを最小限に抑えながら高い生成品質を実現し, ほぼオリジナルに近いFIDを維持しながら, 適度な加速を実現している。
論文 参考訳(メタデータ) (2026-02-13T08:11:54Z) - BWCache: Accelerating Video Diffusion Transformers through Block-Wise Caching [6.354675628412448]
Block-Wise Caching (BWCache)は、DiTベースのビデオ生成を高速化するトレーニング不要の手法である。
いくつかのビデオ拡散モデルの実験では、BWCacheは2.24$times$ speedupを同等の視覚的品質で達成している。
論文 参考訳(メタデータ) (2025-09-17T07:58:36Z) - Lightning Fast Caching-based Parallel Denoising Prediction for Accelerating Talking Head Generation [50.04968365065964]
拡散に基づく音声ヘッドモデルは高品質でフォトリアリスティックなビデオを生成するが、推論が遅い。
我々はLightning-fast Caching-based Parallel Denoising Prediction (LightningCP)を紹介する。
また,より高速な注意計算を実現するために,DFA(Decoupled Foreground Attention)を提案する。
論文 参考訳(メタデータ) (2025-08-25T02:58:39Z) - Rethinking Video Tokenization: A Conditioned Diffusion-based Approach [58.164354605550194]
新しいトークン化ツールであるDiffusion Conditioned-based Gene Tokenizerは、GANベースのデコーダを条件付き拡散モデルで置き換える。
再建に基本的MSE拡散損失とKL項,LPIPSを併用した訓練を行った。
CDTのスケールダウン版(3$times inference speedup)でさえ、トップベースラインと互換性がある。
論文 参考訳(メタデータ) (2025-03-05T17:59:19Z) - COVE: Unleashing the Diffusion Feature Correspondence for Consistent Video Editing [57.76170824395532]
ビデオ編集は新たな課題であり、現在のほとんどの手法では、ソースビデオを編集するために、事前訓練されたテキスト・トゥ・イメージ(T2I)拡散モデルを採用している。
我々は,高品質で一貫したビデオ編集を実現するために,COVE(Cor correspondingence-guided Video Editing)を提案する。
COVEは、追加のトレーニングや最適化を必要とせずに、事前訓練されたT2I拡散モデルにシームレスに統合することができる。
論文 参考訳(メタデータ) (2024-06-13T06:27:13Z) - Object-Centric Diffusion for Efficient Video Editing [64.71639719352636]
拡散ベースのビデオ編集は素晴らしい品質に達している。
このようなソリューションは通常、時間的に整合性のあるフレームを生成するために重いメモリと計算コストを発生させる。
品質を維持しつつ、大幅なスピードアップを可能にする修正を提案する。
論文 参考訳(メタデータ) (2024-01-11T08:36:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。