Fugu-MT 論文翻訳(概要): FastCache: Fast Caching for Diffusion Transformer Through Learnable Linear Approximation

論文の概要: FastCache: Fast Caching for Diffusion Transformer Through Learnable Linear Approximation

arxiv url: http://arxiv.org/abs/2505.20353v1
Date: Mon, 26 May 2025 05:58:49 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-28 17:05:58.200665
Title: FastCache: Fast Caching for Diffusion Transformer Through Learnable Linear Approximation
Title（参考訳）: FastCache: 学習可能な線形近似による拡散変換器の高速キャッシング
Authors: Dong Liu, Jiayi Zhang, Yifan Li, Yanxuan Yu, Ben Lengerich, Ying Nian Wu,
Abstract要約: DiT (Diffusion Transformer) は強力な生成モデルであるが、その反復構造と深部変圧器スタックのために計算集約性を維持している。 FastCacheは、DiT推論を高速化する隠れ状態レベルのキャッシュおよび圧縮フレームワークである。複数のDiT変種にまたがる実証的な評価は、レイテンシとメモリ使用量の大幅な削減を示している。
参考スコア（独自算出の注目度）: 46.57781555466333
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Diffusion Transformers (DiT) are powerful generative models but remain computationally intensive due to their iterative structure and deep transformer stacks. To alleviate this inefficiency, we propose FastCache, a hidden-state-level caching and compression framework that accelerates DiT inference by exploiting redundancy within the model's internal representations. FastCache introduces a dual strategy: (1) a spatial-aware token selection mechanism that adaptively filters redundant tokens based on hidden state saliency, and (2) a transformer-level cache that reuses latent activations across timesteps when changes are statistically insignificant. These modules work jointly to reduce unnecessary computation while preserving generation fidelity through learnable linear approximation. Theoretical analysis shows that FastCache maintains bounded approximation error under a hypothesis-testing-based decision rule. Empirical evaluations across multiple DiT variants demonstrate substantial reductions in latency and memory usage, with best generation output quality compared to other cache methods, as measured by FID and t-FID. Code implementation of FastCache is available on GitHub at https://github.com/NoakLiu/FastCache-xDiT.
Abstract（参考訳）: DiT (Diffusion Transformer) は強力な生成モデルであるが、その反復構造と深部変圧器スタックのために計算集約性を維持している。この非効率性を軽減するために,モデルの内部表現の冗長性を利用してDiT推論を高速化する,隠れ状態レベルのキャッシュおよび圧縮フレームワークであるFastCacheを提案する。 FastCacheは,(1)隠れ状態の正当性に基づいて冗長トークンを適応的にフィルタリングする空間認識トークン選択機構,(2)変化が統計的に重要でない場合にタイムステップ間で遅延アクティベーションを再利用するトランスフォーマーレベルのキャッシュ,という2つの戦略を導入している。これらのモジュールは、学習可能な線形近似を通じて生成忠実性を保ちながら、不要な計算を減らすために共同で動作する。理論的解析によると、FastCacheは仮説テストに基づく決定ルールの下で境界近似誤差を保っている。複数のDiT変種にまたがる実証的な評価は、FIDとt-FIDによって測定された他のキャッシュ手法と比較して、出力品質が最高の出力品質で、レイテンシとメモリ使用量の大幅な削減を示している。 FastCacheのコード実装はGitHubでhttps://github.com/NoakLiu/FastCache-xDiT.comで公開されている。

関連論文リスト

MagCache: Fast Video Generation with Magnitude-Aware Cache [91.51242917160373]
我々は、様々なモデルとプロンプトで観察される統一等級法則という、新しく頑健な発見を導入する。我々は、エラーモデリング機構と適応キャッシュ戦略を用いて、重要でないタイムステップを適応的にスキップするMagnitude-aware Cache(MagCache)を導入する。実験の結果、MagCacheはOpen-SoraとWan 2.1でそれぞれ2.1倍と2.68倍のスピードアップを達成した。
論文参考訳（メタデータ） (2025-06-10T17:59:02Z)
dKV-Cache: The Cache for Diffusion Language Models [53.85291644298835]
Diffusion Language Models (DLMs) は自己回帰型言語モデルにとって有望な競合と見なされている。本稿では,DLMの復調過程に対するKVキャッシュ機構,遅延KVキャッシュを提案する。我々のアプローチは、異なるトークンが拡散過程を通して異なる表現力学を持つという観察によって動機付けられている。
論文参考訳（メタデータ） (2025-05-21T17:32:10Z)
QuantCache: Adaptive Importance-Guided Quantization with Hierarchical Latent and Layer Caching for Video Generation [84.91431271257437]
Diffusion Transformers (DiTs) はビデオ生成において支配的なアーキテクチャとして登場した。 DiTには、計算コストやメモリコストの増大など、大きな欠点がある。我々は,新しいトレーニングフリー推論アクセラレーションフレームワークQuantCacheを提案する。
論文参考訳（メタデータ） (2025-03-09T10:31:51Z)
Accelerating Diffusion Transformers with Dual Feature Caching [25.36988865752475]
拡散変換器(DiT)は画像およびビデオ生成において支配的な手法となっているが、依然としてかなりの計算コストを被っている。 DiTアクセラレーションの効果的なアプローチとして、機能キャッシング手法は、以前のタイムステップでDiTの特徴をキャッシュするように設計されている。以前のタイムステップでキャッシュされたすべての機能を積極的に再利用することで、世代品質が大幅に低下する。
論文参考訳（メタデータ） (2024-12-25T14:00:14Z)
SmoothCache: A Universal Inference Acceleration Technique for Diffusion Transformers [4.7170474122879575]
Diffusion Transformer (DiT)は、画像、ビデオ、音声合成など、様々なタスクのための強力な生成モデルとして登場した。本稿では,DiTアーキテクチャのモデルに依存しない推論高速化手法であるSmoothCacheを紹介する。我々の実験は、SmoothCacheが71%のスピードアップを実現し、多様なモダリティをまたいだ生成品質の維持や改善を実現していることを示している。
論文参考訳（メタデータ） (2024-11-15T16:24:02Z)
Token Caching for Diffusion Transformer Acceleration [30.437462937127773]
TokenCacheは拡散変圧器の訓練後高速化手法である。推論ステップ間でトークン間の冗長な計算を削減します。 TokenCacheは,拡散変圧器における生成品質と推論速度のトレードオフを効果的に実現していることを示す。
論文参考訳（メタデータ） (2024-09-27T08:05:34Z)
Learning-to-Cache: Accelerating Diffusion Transformer via Layer Caching [56.286064975443026]
拡散変圧器内の多数の層をキャッシュ機構で計算することで、モデルパラメータを更新しなくても容易に除去できる。本稿では,拡散変圧器の動的手法でキャッシングを学習するL2C(Learningto-Cache)を提案する。実験の結果,L2C は DDIM や DPM-r など,キャッシュベースの従来の手法と同等の推論速度で性能を向上することがわかった。
論文参考訳（メタデータ） (2024-06-03T18:49:57Z)
DeepCache: Accelerating Diffusion Models for Free [65.02607075556742]
DeepCacheは、モデルアーキテクチャの観点から拡散モデルを加速するトレーニング不要のパラダイムである。 DeepCacheは拡散モデルのシーケンシャルなデノナイジングステップで観測される時間的冗長性に乗じている。同じスループットで、DeepCacheはDDIMやPLMSで、事実上同等または極端に改善された結果を達成する。
論文参考訳（メタデータ） (2023-12-01T17:01:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。