Fugu-MT 論文翻訳(概要): Model Reveals What to Cache: Profiling-Based Feature Reuse for Video Diffusion Models

論文の概要: Model Reveals What to Cache: Profiling-Based Feature Reuse for Video Diffusion Models

arxiv url: http://arxiv.org/abs/2504.03140v1
Date: Fri, 04 Apr 2025 03:30:15 GMT
ステータス: 翻訳完了
システム内更新日: 2025-04-14 21:08:48.640124
Title: Model Reveals What to Cache: Profiling-Based Feature Reuse for Video Diffusion Models
Title（参考訳）: ビデオ拡散モデルのためのプロファイリングに基づく特徴再利用モデル
Authors: Xuran Ma, Yexin Liu, Yaofu Liu, Xianfeng Wu, Mingzhe Zheng, Zihao Wang, Ser-Nam Lim, Harry Yang,
Abstract要約: ProfilingDiTは、フォアグラウンドとバックグラウンドに焦点を当てたブロックを明示的にアンタングルする、新しいアダプティブキャッシュ戦略である。当社のフレームワークは,総合的な品質指標間の視覚的忠実度を維持しながら,大幅な加速を実現している。
参考スコア（独自算出の注目度）: 41.11005178050448
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent advances in diffusion models have demonstrated remarkable capabilities in video generation. However, the computational intensity remains a significant challenge for practical applications. While feature caching has been proposed to reduce the computational burden of diffusion models, existing methods typically overlook the heterogeneous significance of individual blocks, resulting in suboptimal reuse and degraded output quality. To this end, we address this gap by introducing ProfilingDiT, a novel adaptive caching strategy that explicitly disentangles foreground and background-focused blocks. Through a systematic analysis of attention distributions in diffusion models, we reveal a key observation: 1) Most layers exhibit a consistent preference for either foreground or background regions. 2) Predicted noise shows low inter-step similarity initially, which stabilizes as denoising progresses. This finding inspires us to formulate a selective caching strategy that preserves full computation for dynamic foreground elements while efficiently caching static background features. Our approach substantially reduces computational overhead while preserving visual fidelity. Extensive experiments demonstrate that our framework achieves significant acceleration (e.g., 2.01 times speedup for Wan2.1) while maintaining visual fidelity across comprehensive quality metrics, establishing a viable method for efficient video generation.
Abstract（参考訳）: 拡散モデルの最近の進歩は、ビデオ生成において顕著な能力を示している。しかし、計算強度は実用上重要な課題である。拡散モデルの計算負担を軽減するために特徴キャッシングが提案されているが、既存の手法は一般に個々のブロックの不均一な重要性を軽視し、準最適再利用と出力品質の低下をもたらす。この目的のために,前景および背景に焦点を絞ったブロックを明示的に切り離す適応型キャッシュ戦略であるProfilingDiTを導入することで,このギャップに対処する。拡散モデルにおける注意分布の系統的解析を通して、重要な観察を明らかにする。 1)ほとんどの層は前景または背景領域に対して一貫した嗜好を示す。 2) 予測ノイズは段階間類似度が低く, 進行が進行するにつれて安定化する。この発見は、動的前景要素の完全な計算を保存し、静的な背景特徴を効率的にキャッシュする選択的なキャッシュ戦略を定式化するきっかけとなった。本手法は,視覚的忠実度を維持しながら計算オーバーヘッドを大幅に削減する。広範にわたる実験により,Wan2.1の2.01倍の高速化を実現するとともに,総合的な品質指標の視覚的忠実度を維持し,効率的な映像生成のための有効な方法を確立した。

関連論文リスト

AB-Cache: Training-Free Acceleration of Diffusion Models via Adams-Bashforth Cached Feature Reuse [19.13826316844611]
拡散モデルは生成的タスクにおいて顕著に成功したが、反復的認知過程は推論を遅くする。本稿では,第2次Adams-Bashforth法を用いて認知過程を解析することにより理論的に理解する。キャッシュされた結果を直接再利用する代わりに,拡散モデルに対するキャッシングに基づく新しい高速化手法を提案する。
論文参考訳（メタデータ） (2025-04-13T08:29:58Z)
Exposure Bias Reduction for Enhancing Diffusion Transformer Feature Caching [7.393824353099595]
Diffusion Transformer (DiT) は優れた生成機能を備えているが、計算複雑性が高いため大きな課題に直面している。拡散過程のSNRに対するキャッシングの影響を解析する。非露出バイアスを整合させる共同キャッシュ戦略であるEBキャッシュを導入する。
論文参考訳（メタデータ） (2025-03-10T09:49:18Z)
One-Step Diffusion Model for Image Motion-Deblurring [85.76149042561507]
本稿では,脱臭過程を1段階に短縮する新しいフレームワークである脱臭拡散モデル(OSDD)を提案する。拡散モデルにおける忠実度損失に対処するために,構造復元を改善する改良された変分オートエンコーダ(eVAE)を導入する。提案手法は,実測値と非参照値の両方で高い性能を達成する。
論文参考訳（メタデータ） (2025-03-09T09:39:57Z)
Towards Scalable and Deep Graph Neural Networks via Noise Masking [59.058558158296265]
グラフニューラルネットワーク(GNN)は多くのグラフマイニングタスクで顕著に成功している。計算とストレージのコストが高いため、大きなグラフにスケールすることは困難です。既存のモデル単純化作業と互換性のあるプラグアンドプレイモジュールであるノイズマスキング(RMask)を用いたランダムウォークを提案する。
論文参考訳（メタデータ） (2024-12-19T07:48:14Z)
Timestep Embedding Tells: It's Time to Cache for Video Diffusion Model [55.64316746098431]
Timestep Embedding Aware Cache (TeaCache)は、タイムステップ間のモデルアウトプットの変動を推定し、活用する、トレーニング不要なキャッシュアプローチである。 TeaCacheはOpen-Sora-Plan上で最大4.41倍の高速化を実現している。
論文参考訳（メタデータ） (2024-11-28T12:50:05Z)
FasterCache: Training-Free Video Diffusion Model Acceleration with High Quality [58.80996741843102]
FasterCacheは、高品質な生成を伴うビデオ拡散モデルの推論を高速化するために設計された、トレーニング不要の戦略である。我々は、FasterCacheがビデオの質をベースラインと同等に保ちながら、ビデオ生成を著しく加速できることを示した。
論文参考訳（メタデータ） (2024-10-25T07:24:38Z)
Edge-preserving noise for diffusion models [4.435514696080208]
本稿では,拡散確率モデル(DDPM)を一般化した新しいエッジ保存拡散モデルを提案する。特に、エッジ保存と等方性ガウスノイズの間で異なるエッジ対応ノイズスケジューラを導入する。モデルの生成過程はより高速に収束し, 対象の分布とより密に一致していることを示す。
論文参考訳（メタデータ） (2024-10-02T13:29:52Z)
DeepCache: Accelerating Diffusion Models for Free [65.02607075556742]
DeepCacheは、モデルアーキテクチャの観点から拡散モデルを加速するトレーニング不要のパラダイムである。 DeepCacheは拡散モデルのシーケンシャルなデノナイジングステップで観測される時間的冗長性に乗じている。同じスループットで、DeepCacheはDDIMやPLMSで、事実上同等または極端に改善された結果を達成する。
論文参考訳（メタデータ） (2023-12-01T17:01:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。