論文の概要: Learning-to-Cache: Accelerating Diffusion Transformer via Layer Caching
- arxiv url: http://arxiv.org/abs/2406.01733v2
- Date: Sat, 16 Nov 2024 07:43:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-19 14:30:29.045371
- Title: Learning-to-Cache: Accelerating Diffusion Transformer via Layer Caching
- Title(参考訳): ラーニング・トゥ・キャッシュ:層キャッシングによる拡散変換器の高速化
- Authors: Xinyin Ma, Gongfan Fang, Michael Bi Mi, Xinchao Wang,
- Abstract要約: 拡散変圧器内の多数の層をキャッシュ機構で計算することで、モデルパラメータを更新しなくても容易に除去できる。
本稿では,拡散変圧器の動的手法でキャッシングを学習するL2C(Learningto-Cache)を提案する。
実験の結果,L2C は DDIM や DPM-r など,キャッシュベースの従来の手法と同等の推論速度で性能を向上することがわかった。
- 参考スコア(独自算出の注目度): 56.286064975443026
- License:
- Abstract: Diffusion Transformers have recently demonstrated unprecedented generative capabilities for various tasks. The encouraging results, however, come with the cost of slow inference, since each denoising step requires inference on a transformer model with a large scale of parameters. In this study, we make an interesting and somehow surprising observation: the computation of a large proportion of layers in the diffusion transformer, through introducing a caching mechanism, can be readily removed even without updating the model parameters. In the case of U-ViT-H/2, for example, we may remove up to 93.68% of the computation in the cache steps (46.84% for all steps), with less than 0.01 drop in FID. To achieve this, we introduce a novel scheme, named Learning-to-Cache (L2C), that learns to conduct caching in a dynamic manner for diffusion transformers. Specifically, by leveraging the identical structure of layers in transformers and the sequential nature of diffusion, we explore redundant computations between timesteps by treating each layer as the fundamental unit for caching. To address the challenge of the exponential search space in deep models for identifying layers to cache and remove, we propose a novel differentiable optimization objective. An input-invariant yet timestep-variant router is then optimized, which can finally produce a static computation graph. Experimental results show that L2C largely outperforms samplers such as DDIM and DPM-Solver, alongside prior cache-based methods at the same inference speed. Code is available at https://github.com/horseee/learning-to-cache
- Abstract(参考訳): 拡散変換器は、最近、様々なタスクに対して前例のない生成能力を実証した。
しかしながら、奨励的な結果は、大きなパラメータを持つトランスフォーマーモデルに対する推論を必要とするため、遅延推論のコストが伴う。
本研究では,モデルパラメータを更新することなく,キャッシング機構を導入することで,拡散変圧器内の多数の層を計算し,容易に除去することができることを示す。
例えば、U-ViT-H/2の場合、最大93.68%のキャッシュステップ(全ステップで46.84%)を削除でき、FIDは0.01未満である。
そこで本研究では,拡散変圧器の動的手法でキャッシュを実行することを学習する,L2C(Learning-to-Cache)という新しい手法を提案する。
具体的には,変圧器の層構造と拡散の逐次的性質を利用して,各層をキャッシングの基本単位として扱うことで,時間ステップ間の冗長な計算を探索する。
層をキャッシュ・削除する層を特定するディープモデルにおける指数探索空間の課題に対処するため,新しい微分可能な最適化手法を提案する。
その後、入力不変かつタイムステップ可変なルータが最適化され、最終的に静的な計算グラフが生成される。
実験の結果,L2C は DDIM や DPM-Solver など,キャッシュベースの手法とほぼ同等の推論速度で,サンプリング性能を向上していることがわかった。
コードはhttps://github.com/horseee/learning-to-cacheで入手できる。
関連論文リスト
- Dynamic Diffusion Transformer [67.13876021157887]
Diffusion Transformer (DiT) は優れた性能を示したが、かなりの計算コストに悩まされている。
本研究では,動的拡散変換器 (DyDiT) を提案する。
3%の微調整により,DiT-XLのFLOPを51%削減し,生成を1.73高速化し,ImageNet上でのFIDスコア2.07を達成する。
論文 参考訳(メタデータ) (2024-10-04T14:14:28Z) - Token Caching for Diffusion Transformer Acceleration [30.437462937127773]
TokenCacheは拡散変圧器の訓練後高速化手法である。
推論ステップ間でトークン間の冗長な計算を削減します。
TokenCacheは,拡散変圧器における生成品質と推論速度のトレードオフを効果的に実現していることを示す。
論文 参考訳(メタデータ) (2024-09-27T08:05:34Z) - FORA: Fast-Forward Caching in Diffusion Transformer Acceleration [39.51519525071639]
拡散変換器(DiT)は、高品質な画像やビデオを生成するための事実上の選択肢となっている。
Fast-FORward Caching (FORA) は拡散過程の反復特性を利用してDiTを加速するように設計されている。
論文 参考訳(メタデータ) (2024-07-01T16:14:37Z) - Cache Me if You Can: Accelerating Diffusion Models through Block Caching [67.54820800003375]
画像間の大規模なネットワークは、ランダムノイズから画像を反復的に洗練するために、何度も適用されなければならない。
ネットワーク内のレイヤの振る舞いを調査し,1) レイヤの出力が経時的にスムーズに変化すること,2) レイヤが異なる変更パターンを示すこと,3) ステップからステップへの変更が非常に小さいこと,などが分かる。
本稿では,各ブロックの時間経過変化に基づいて,キャッシュスケジュールを自動的に決定する手法を提案する。
論文 参考訳(メタデータ) (2023-12-06T00:51:38Z) - DeepCache: Accelerating Diffusion Models for Free [65.02607075556742]
DeepCacheは、モデルアーキテクチャの観点から拡散モデルを加速するトレーニング不要のパラダイムである。
DeepCacheは拡散モデルのシーケンシャルなデノナイジングステップで観測される時間的冗長性に乗じている。
同じスループットで、DeepCacheはDDIMやPLMSで、事実上同等または極端に改善された結果を達成する。
論文 参考訳(メタデータ) (2023-12-01T17:01:06Z) - Winner-Take-All Column Row Sampling for Memory Efficient Adaptation of Language Model [89.8764435351222]
分散を低減した行列生成のために, WTA-CRS と呼ばれる新しい非バイアス推定系を提案する。
我々の研究は、チューニング変換器の文脈において、提案した推定器が既存のものよりも低い分散を示すという理論的および実験的証拠を提供する。
論文 参考訳(メタデータ) (2023-05-24T15:52:08Z) - Transform Once: Efficient Operator Learning in Frequency Domain [69.74509540521397]
本研究では、周波数領域の構造を利用して、空間や時間における長距離相関を効率的に学習するために設計されたディープニューラルネットワークについて検討する。
この研究は、単一変換による周波数領域学習のための青写真を導入している。
論文 参考訳(メタデータ) (2022-11-26T01:56:05Z) - Layer Reduction: Accelerating Conformer-Based Self-Supervised Model via
Layer Consistency [31.572652956170252]
トランスフォーマーをベースとした自己教師型モデルは特徴抽出器として訓練され、多くの下流音声タスクで最先端のパフォーマンスを実現している。
従来のBERT法と同等の性能を維持しつつ、7.8Xパラメータの削減、41.9%のトレーニングスピードアップ、37.7%の推論スピードアップを実験的に達成した。
論文 参考訳(メタデータ) (2021-04-08T08:21:59Z) - Accelerating Deep Learning Inference via Freezing [8.521443408415868]
本稿では,各中間層に近似キャッシュを導入するフリーズ推論を提案する。
これにより、ResNet-18上で実行されるCIFAR-10リクエストの91.58%に対して、有効レイヤの数を半分に削減できる可能性がある。
論文 参考訳(メタデータ) (2020-02-07T07:03:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。