論文の概要: FreqCa: Accelerating Diffusion Models via Frequency-Aware Caching
- arxiv url: http://arxiv.org/abs/2510.08669v1
- Date: Thu, 09 Oct 2025 17:22:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 00:38:47.31584
- Title: FreqCa: Accelerating Diffusion Models via Frequency-Aware Caching
- Title(参考訳): FreqCa: 周波数認識キャッシングによる拡散モデルの高速化
- Authors: Jiacheng Liu, Peiliang Cai, Qinming Zhou, Yuqi Lin, Deyang Kong, Benhao Huang, Yupei Pan, Haowen Xu, Chang Zou, Junshu Tang, Shikang Zheng, Linfeng Zhang,
- Abstract要約: 拡散モデルの特徴の異なる周波数帯域は、時間経過によって異なるダイナミクスを示すことを示す。
本稿では、周波数対応キャッシング(FreqCa)を提案し、その類似性に基づいて低周波成分の特徴を直接再利用する。
また、すべてのレイヤの機能の代わりにCRF(Cumulative Residual Feature)をキャッシュすることを提案し、この機能キャッシングのメモリフットプリントを99%削減する。
- 参考スコア(独自算出の注目度): 13.999620910665612
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The application of diffusion transformers is suffering from their significant inference costs. Recently, feature caching has been proposed to solve this problem by reusing features from previous timesteps, thereby skipping computation in future timesteps. However, previous feature caching assumes that features in adjacent timesteps are similar or continuous, which does not always hold in all settings. To investigate this, this paper begins with an analysis from the frequency domain, which reveal that different frequency bands in the features of diffusion models exhibit different dynamics across timesteps. Concretely, low-frequency components, which decide the structure of images, exhibit higher similarity but poor continuity. In contrast, the high-frequency bands, which decode the details of images, show significant continuity but poor similarity. These interesting observations motivate us to propose Frequency-aware Caching (FreqCa) which directly reuses features of low-frequency components based on their similarity, while using a second-order Hermite interpolator to predict the volatile high-frequency ones based on its continuity. Besides, we further propose to cache Cumulative Residual Feature (CRF) instead of the features in all the layers, which reduces the memory footprint of feature caching by 99%. Extensive experiments on FLUX.1-dev, FLUX.1-Kontext-dev, Qwen-Image, and Qwen-Image-Edit demonstrate its effectiveness in both generation and editing. Codes are available in the supplementary materials and will be released on GitHub.
- Abstract(参考訳): 拡散変圧器の応用は、そのかなりの推論コストに悩まされている。
近年,機能キャッシングが提案され,過去の特徴を再利用し,将来の時間ステップで計算をスキップする手法が提案されている。
しかし、以前のフィーチャーキャッシングでは、隣のタイムステップの機能は似ているか、連続的であると仮定しており、常にすべての設定で保持されるわけではない。
そこで本研究では,拡散モデルの特徴の異なる周波数帯域が,時間経過によって異なるダイナミクスを示すことを示す。
具体的には、画像の構造を決定する低周波成分は、より類似度が高いが連続性が低い。
対照的に、画像の詳細をデコードする高周波帯域は、顕著な連続性を示すが、類似性は低い。
これらの興味深い観察から,周波数対応キャッシング(FreqCa)を提案し,その類似性に基づいて低周波成分の特徴を直接再利用すると同時に,その連続性に基づいて揮発性高周波のキャッシングを予測するために2次ヘルミット補間器を用いた。
さらに,すべてのレイヤの機能の代わりにCRF(Cumulative Residual Feature)をキャッシュすることを提案し,機能キャッシュのメモリフットプリントを99%削減する。
FLUX.1-dev、FLUX.1-Kontext-dev、Qwen-Image、Qwen-Image-Editの大規模な実験は、生成と編集の両方においてその効果を示す。
コードは補足資料で入手でき、GitHubでリリースされる。
関連論文リスト
- Compute Only 16 Tokens in One Timestep: Accelerating Diffusion Transformers with Cluster-Driven Feature Caching [11.75972316736487]
本稿では,拡散変圧器の高速化を目的としたクラスタ駆動型特徴キャッシング(ClusCa)を提案する。
ClusCaは各タイムステップ内のトークンに空間的クラスタリングを行い、各クラスタ内のトークンを1つだけ計算し、その情報を他のすべてのトークンに伝達する。
DiT、FLUX、HunyuanVideoの実験は、テキスト・ツー・イメージとテキスト・ツー・ビデオの生成において、その効果を実証している。
論文 参考訳(メタデータ) (2025-09-12T14:53:45Z) - Lightning Fast Caching-based Parallel Denoising Prediction for Accelerating Talking Head Generation [50.04968365065964]
拡散に基づく音声ヘッドモデルは高品質でフォトリアリスティックなビデオを生成するが、推論が遅い。
我々はLightning-fast Caching-based Parallel Denoising Prediction (LightningCP)を紹介する。
また,より高速な注意計算を実現するために,DFA(Decoupled Foreground Attention)を提案する。
論文 参考訳(メタデータ) (2025-08-25T02:58:39Z) - DiCache: Let Diffusion Model Determine Its Own Cache [62.954717254728166]
DiCacheは、実行時に拡散モデルを加速するためのトレーニング不要のアダプティブキャッシュ戦略である。
Online Probe Profiling Schemeは浅層オンラインプローブを利用して,キャッシュエラーのオンザフライインジケータをリアルタイムで取得する。
Dynamic Cache Trajectory Alignmentは、マルチステップの履歴キャッシュから出力されるディープ層の特徴を近似する。
論文 参考訳(メタデータ) (2025-08-24T13:30:00Z) - Freqformer: Image-Demoiréing Transformer via Efficient Frequency Decomposition [83.40450475728792]
本稿では,Freqformerについて述べる。Freqformerは,ターゲット周波数分離による画像復号化に特化して設計されたトランスフォーマーベースのフレームワークである。
本手法は,モワールパターンを高周波数空間局在化テクスチャと低周波数スケールローバスト色歪みに明確に分割する有効な周波数分解を行う。
様々なデモアのベンチマーク実験により、Freqformerは、コンパクトなモデルサイズで最先端のパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2025-05-25T12:23:10Z) - Model Reveals What to Cache: Profiling-Based Feature Reuse for Video Diffusion Models [41.11005178050448]
ProfilingDiTは、フォアグラウンドとバックグラウンドに焦点を当てたブロックを明示的にアンタングルする、新しいアダプティブキャッシュ戦略である。
当社のフレームワークは,総合的な品質指標間の視覚的忠実度を維持しながら,大幅な加速を実現している。
論文 参考訳(メタデータ) (2025-04-04T03:30:15Z) - FEB-Cache: Frequency-Guided Exposure Bias Reduction for Enhancing Diffusion Transformer Caching [10.760030872557374]
Diffusion Transformer (DiT) は優れた生成機能を備えているが、計算複雑性が高いため大きな課題に直面している。
本稿では,キャッシュが露出バイアスを大幅に増幅し,生成品質が低下することを確認する。
我々は,非露出バイアス拡散プロセスと整合した共同キャッシュ戦略であるFEBキャッシュを導入する。
論文 参考訳(メタデータ) (2025-03-10T09:49:18Z) - Learning-to-Cache: Accelerating Diffusion Transformer via Layer Caching [56.286064975443026]
拡散変圧器内の多数の層をキャッシュ機構で計算することで、モデルパラメータを更新しなくても容易に除去できる。
本稿では,拡散変圧器の動的手法でキャッシングを学習するL2C(Learningto-Cache)を提案する。
実験の結果,L2C は DDIM や DPM-r など,キャッシュベースの従来の手法と同等の推論速度で性能を向上することがわかった。
論文 参考訳(メタデータ) (2024-06-03T18:49:57Z) - Cache Me if You Can: Accelerating Diffusion Models through Block Caching [67.54820800003375]
画像間の大規模なネットワークは、ランダムノイズから画像を反復的に洗練するために、何度も適用されなければならない。
ネットワーク内のレイヤの振る舞いを調査し,1) レイヤの出力が経時的にスムーズに変化すること,2) レイヤが異なる変更パターンを示すこと,3) ステップからステップへの変更が非常に小さいこと,などが分かる。
本稿では,各ブロックの時間経過変化に基づいて,キャッシュスケジュールを自動的に決定する手法を提案する。
論文 参考訳(メタデータ) (2023-12-06T00:51:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。