論文の概要: Model Reveals What to Cache: Profiling-Based Feature Reuse for Video Diffusion Models
- arxiv url: http://arxiv.org/abs/2504.03140v1
- Date: Fri, 04 Apr 2025 03:30:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-07 14:48:21.432209
- Title: Model Reveals What to Cache: Profiling-Based Feature Reuse for Video Diffusion Models
- Title(参考訳): ビデオ拡散モデルのためのプロファイリングに基づく特徴再利用モデル
- Authors: Xuran Ma, Yexin Liu, Yaofu Liu, Xianfeng Wu, Mingzhe Zheng, Zihao Wang, Ser-Nam Lim, Harry Yang,
- Abstract要約: ProfilingDiTは、フォアグラウンドとバックグラウンドに焦点を当てたブロックを明示的にアンタングルする、新しいアダプティブキャッシュ戦略である。
当社のフレームワークは,総合的な品質指標間の視覚的忠実度を維持しながら,大幅な加速を実現している。
- 参考スコア(独自算出の注目度): 41.11005178050448
- License:
- Abstract: Recent advances in diffusion models have demonstrated remarkable capabilities in video generation. However, the computational intensity remains a significant challenge for practical applications. While feature caching has been proposed to reduce the computational burden of diffusion models, existing methods typically overlook the heterogeneous significance of individual blocks, resulting in suboptimal reuse and degraded output quality. To this end, we address this gap by introducing ProfilingDiT, a novel adaptive caching strategy that explicitly disentangles foreground and background-focused blocks. Through a systematic analysis of attention distributions in diffusion models, we reveal a key observation: 1) Most layers exhibit a consistent preference for either foreground or background regions. 2) Predicted noise shows low inter-step similarity initially, which stabilizes as denoising progresses. This finding inspires us to formulate a selective caching strategy that preserves full computation for dynamic foreground elements while efficiently caching static background features. Our approach substantially reduces computational overhead while preserving visual fidelity. Extensive experiments demonstrate that our framework achieves significant acceleration (e.g., 2.01 times speedup for Wan2.1) while maintaining visual fidelity across comprehensive quality metrics, establishing a viable method for efficient video generation.
- Abstract(参考訳): 拡散モデルの最近の進歩は、ビデオ生成において顕著な能力を示している。
しかし、計算強度は実用上重要な課題である。
拡散モデルの計算負担を軽減するために特徴キャッシングが提案されているが、既存の手法は一般に個々のブロックの不均一な重要性を軽視し、準最適再利用と出力品質の低下をもたらす。
この目的のために,前景および背景に焦点を絞ったブロックを明示的に切り離す適応型キャッシュ戦略であるProfilingDiTを導入することで,このギャップに対処する。
拡散モデルにおける注意分布の系統的解析を通して、重要な観察を明らかにする。
1)ほとんどの層は前景または背景領域に対して一貫した嗜好を示す。
2) 予測ノイズは段階間類似度が低く, 進行が進行するにつれて安定化する。
この発見は、動的前景要素の完全な計算を保存し、静的な背景特徴を効率的にキャッシュする選択的なキャッシュ戦略を定式化するきっかけとなった。
本手法は,視覚的忠実度を維持しながら計算オーバーヘッドを大幅に削減する。
広範にわたる実験により,Wan2.1の2.01倍の高速化を実現するとともに,総合的な品質指標の視覚的忠実度を維持し,効率的な映像生成のための有効な方法を確立した。
関連論文リスト
- DepthMaster: Taming Diffusion Models for Monocular Depth Estimation [41.81343543266191]
識別深度推定タスクに生成的特徴を適応する単一ステップ拡散モデルを提案する。
2つのモジュールの可能性を完全に活用するために、2段階のトレーニング戦略を採用しています。
本モデルでは, 一般化と詳細保存の観点から最先端の性能を達成し, 各種データセット間の拡散に基づく他の手法よりも優れる。
論文 参考訳(メタデータ) (2025-01-05T15:18:32Z) - Timestep Embedding Tells: It's Time to Cache for Video Diffusion Model [55.64316746098431]
Timestep Embedding Aware Cache (TeaCache)は、タイムステップ間のモデルアウトプットの変動を推定し、活用する、トレーニング不要なキャッシュアプローチである。
TeaCacheはOpen-Sora-Plan上で最大4.41倍の高速化を実現している。
論文 参考訳(メタデータ) (2024-11-28T12:50:05Z) - FasterCache: Training-Free Video Diffusion Model Acceleration with High Quality [58.80996741843102]
FasterCacheは、高品質な生成を伴うビデオ拡散モデルの推論を高速化するために設計された、トレーニング不要の戦略である。
我々は、FasterCacheがビデオの質をベースラインと同等に保ちながら、ビデオ生成を著しく加速できることを示した。
論文 参考訳(メタデータ) (2024-10-25T07:24:38Z) - Edge-preserving noise for diffusion models [4.435514696080208]
本稿では,拡散確率モデル(DDPM)を一般化した新しいエッジ保存拡散モデルを提案する。
特に、エッジ保存と等方性ガウスノイズの間で異なるエッジ対応ノイズスケジューラを導入する。
モデルの生成過程はより高速に収束し, 対象の分布とより密に一致していることを示す。
論文 参考訳(メタデータ) (2024-10-02T13:29:52Z) - QuEST: Low-bit Diffusion Model Quantization via Efficient Selective Finetuning [52.157939524815866]
本稿では,現行手法の有効性を損なう量子拡散モデルの3つの特性を実証的に明らかにする。
重要な時間的情報を保持する層と、ビット幅の低減に敏感な層という、2つの重要なタイプの量子化層を同定する。
提案手法は,3つの高分解能画像生成タスクに対して評価し,様々なビット幅設定で最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-02-06T03:39:44Z) - DeepCache: Accelerating Diffusion Models for Free [65.02607075556742]
DeepCacheは、モデルアーキテクチャの観点から拡散モデルを加速するトレーニング不要のパラダイムである。
DeepCacheは拡散モデルのシーケンシャルなデノナイジングステップで観測される時間的冗長性に乗じている。
同じスループットで、DeepCacheはDDIMやPLMSで、事実上同等または極端に改善された結果を達成する。
論文 参考訳(メタデータ) (2023-12-01T17:01:06Z) - Low-Light Image Enhancement with Wavelet-based Diffusion Models [50.632343822790006]
拡散モデルは画像復元作業において有望な結果を得たが、時間を要する、過剰な計算資源消費、不安定な復元に悩まされている。
本稿では,DiffLLと呼ばれる高能率かつ高能率な拡散型低光画像強調手法を提案する。
論文 参考訳(メタデータ) (2023-06-01T03:08:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。