Fugu-MT 論文翻訳(概要): Learning-to-Cache: Accelerating Diffusion Transformer via Layer Caching

論文の概要: Learning-to-Cache: Accelerating Diffusion Transformer via Layer Caching

arxiv url: http://arxiv.org/abs/2406.01733v1
Date: Mon, 3 Jun 2024 18:49:57 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-05 21:02:09.665559
Title: Learning-to-Cache: Accelerating Diffusion Transformer via Layer Caching
Title（参考訳）: ラーニング・トゥ・キャッシュ:層キャッシングによる拡散変換器の高速化
Authors: Xinyin Ma, Gongfan Fang, Michael Bi Mi, Xinchao Wang,
Abstract要約: 拡散変圧器内の多数の層をキャッシュ機構で計算することで、モデルパラメータを更新しなくても容易に除去できる。本稿では,拡散変圧器の動的手法でキャッシングを学習するL2C(Learningto-Cache)を提案する。実験の結果,L2C は DDIM や DPM-r など,キャッシュベースの従来の手法と同等の推論速度で性能を向上することがわかった。
参考スコア（独自算出の注目度）: 56.286064975443026
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Diffusion Transformers have recently demonstrated unprecedented generative capabilities for various tasks. The encouraging results, however, come with the cost of slow inference, since each denoising step requires inference on a transformer model with a large scale of parameters. In this study, we make an interesting and somehow surprising observation: the computation of a large proportion of layers in the diffusion transformer, through introducing a caching mechanism, can be readily removed even without updating the model parameters. In the case of U-ViT-H/2, for example, we may remove up to 93.68% of the computation in the cache steps (46.84% for all steps), with less than 0.01 drop in FID. To achieve this, we introduce a novel scheme, named Learning-to-Cache (L2C), that learns to conduct caching in a dynamic manner for diffusion transformers. Specifically, by leveraging the identical structure of layers in transformers and the sequential nature of diffusion, we explore redundant computations between timesteps by treating each layer as the fundamental unit for caching. To address the challenge of the exponential search space in deep models for identifying layers to cache and remove, we propose a novel differentiable optimization objective. An input-invariant yet timestep-variant router is then optimized, which can finally produce a static computation graph. Experimental results show that L2C largely outperforms samplers such as DDIM and DPM-Solver, alongside prior cache-based methods at the same inference speed.
Abstract（参考訳）: 拡散変換器は近年,様々なタスクに対して前例のない生成能力を実証している。しかしながら、奨励的な結果は、大きなパラメータを持つトランスフォーマーモデルに対する推論を必要とするため、遅延推論のコストが伴う。本研究では,モデルパラメータを更新することなく,キャッシング機構を導入することで,拡散変圧器内の多数の層を計算し,容易に除去することができることを示す。例えば、U-ViT-H/2の場合、最大93.68%のキャッシュステップ(全ステップで46.84%)を削除でき、FIDは0.01未満である。そこで本研究では,拡散変圧器の動的手法でキャッシュを実行することを学習する,L2C(Learning-to-Cache)という新しい手法を提案する。具体的には,変圧器の層構造と拡散の逐次的性質を利用して,各層をキャッシングの基本単位として扱うことで,時間ステップ間の冗長な計算を探索する。層をキャッシュ・削除する層を特定するディープモデルにおける指数探索空間の課題に対処するため,新しい微分可能な最適化手法を提案する。その後、入力不変かつタイムステップ可変なルータが最適化され、最終的に静的な計算グラフが生成される。実験の結果,L2C は DDIM や DPM-Solver など,キャッシュベースの手法とほぼ同等の推論速度で,サンプリング性能を向上していることがわかった。

関連論文リスト

FastCache: Fast Caching for Diffusion Transformer Through Learnable Linear Approximation [46.57781555466333]
DiT (Diffusion Transformer) は強力な生成モデルであるが、その反復構造と深部変圧器スタックのために計算集約性を維持している。 FastCacheは、DiT推論を高速化する隠れ状態レベルのキャッシュおよび圧縮フレームワークである。複数のDiT変種にまたがる実証的な評価は、レイテンシとメモリ使用量の大幅な削減を示している。
論文参考訳（メタデータ） (2025-05-26T05:58:49Z)
Accelerating Diffusion Transformer via Increment-Calibrated Caching with Channel-Aware Singular Value Decomposition [4.0594792247165]
拡散変換器(DiT)モデルは画像生成において顕著な成功を収めた。 Increment-calibrated cache, a training-free method for DiT accelerate。本手法は45%以上を除去し,0.06 FID増加のコストでISを12倍に改善する。
論文参考訳（メタデータ） (2025-05-09T06:56:17Z)
Exposure Bias Reduction for Enhancing Diffusion Transformer Feature Caching [7.393824353099595]
Diffusion Transformer (DiT) は優れた生成機能を備えているが、計算複雑性が高いため大きな課題に直面している。拡散過程のSNRに対するキャッシングの影響を解析する。非露出バイアスを整合させる共同キャッシュ戦略であるEBキャッシュを導入する。
論文参考訳（メタデータ） (2025-03-10T09:49:18Z)
Accelerating Diffusion Transformer via Gradient-Optimized Cache [18.32157920050325]
時間的特徴再利用を通じて拡散トランスフォーマー(DiT)サンプリングを高速化するための効果的な戦略として機能キャッシングが登場した。キャッシュされたブロックからのプログレッシブエラーの蓄積は生成品質を著しく低下させるため、これは難しい問題である。本稿では,2つの重要なイノベーションを生かしたGradient-Perturbationd Cache (GOC)を提案する。 GOCはIS 216.28 (26.3%上)とFID 3.907 (43%下)をベースラインのDiTと比較して達成し、計算コストは同じである。
論文参考訳（メタデータ） (2025-03-07T05:31:47Z)
CacheQuant: Comprehensively Accelerated Diffusion Models [3.78219736760145]
CacheQuantは、モデルキャッシングと量子化の技術を共同で最適化することで、拡散モデルを包括的に高速化する、新しいトレーニング不要のパラダイムである。実験の結果、CacheQuantはMS-COCO上の安定拡散のために5.18のスピードアップと4の圧縮を実現しており、CLIPスコアは0.02しか失われていない。
論文参考訳（メタデータ） (2025-03-03T09:04:51Z)
LazyDiT: Lazy Learning for the Acceleration of Diffusion Transformers [79.07412045476872]
拡散変換器は、様々な生成タスクの優越的なモデルとして登場してきた。各拡散段階におけるモデル全体の実行は不要であることを示し、いくつかの計算は以前のステップの結果を遅延的に再利用することでスキップできることを示した。遅延学習フレームワークを提案する。このフレームワークは,初期ステップからキャッシュされた結果を効率よく活用し,冗長な計算を省略する。
論文参考訳（メタデータ） (2024-12-17T01:12:35Z)
SmoothCache: A Universal Inference Acceleration Technique for Diffusion Transformers [4.7170474122879575]
Diffusion Transformer (DiT)は、画像、ビデオ、音声合成など、様々なタスクのための強力な生成モデルとして登場した。本稿では,DiTアーキテクチャのモデルに依存しない推論高速化手法であるSmoothCacheを紹介する。我々の実験は、SmoothCacheが71%のスピードアップを実現し、多様なモダリティをまたいだ生成品質の維持や改善を実現していることを示している。
論文参考訳（メタデータ） (2024-11-15T16:24:02Z)
Dynamic Diffusion Transformer [67.13876021157887]
Diffusion Transformer (DiT) は優れた性能を示したが、かなりの計算コストに悩まされている。本研究では,動的拡散変換器 (DyDiT) を提案する。 3%の微調整により,DiT-XLのFLOPを51%削減し,生成を1.73高速化し,ImageNet上でのFIDスコア2.07を達成する。
論文参考訳（メタデータ） (2024-10-04T14:14:28Z)
Token Caching for Diffusion Transformer Acceleration [30.437462937127773]
TokenCacheは拡散変圧器の訓練後高速化手法である。推論ステップ間でトークン間の冗長な計算を削減します。 TokenCacheは,拡散変圧器における生成品質と推論速度のトレードオフを効果的に実現していることを示す。
論文参考訳（メタデータ） (2024-09-27T08:05:34Z)
FORA: Fast-Forward Caching in Diffusion Transformer Acceleration [39.51519525071639]
拡散変換器(DiT)は、高品質な画像やビデオを生成するための事実上の選択肢となっている。 Fast-FORward Caching (FORA) は拡散過程の反復特性を利用してDiTを加速するように設計されている。
論文参考訳（メタデータ） (2024-07-01T16:14:37Z)
Cache Me if You Can: Accelerating Diffusion Models through Block Caching [67.54820800003375]
画像間の大規模なネットワークは、ランダムノイズから画像を反復的に洗練するために、何度も適用されなければならない。ネットワーク内のレイヤの振る舞いを調査し,1) レイヤの出力が経時的にスムーズに変化すること,2) レイヤが異なる変更パターンを示すこと,3) ステップからステップへの変更が非常に小さいこと,などが分かる。本稿では,各ブロックの時間経過変化に基づいて,キャッシュスケジュールを自動的に決定する手法を提案する。
論文参考訳（メタデータ） (2023-12-06T00:51:38Z)
DeepCache: Accelerating Diffusion Models for Free [65.02607075556742]
DeepCacheは、モデルアーキテクチャの観点から拡散モデルを加速するトレーニング不要のパラダイムである。 DeepCacheは拡散モデルのシーケンシャルなデノナイジングステップで観測される時間的冗長性に乗じている。同じスループットで、DeepCacheはDDIMやPLMSで、事実上同等または極端に改善された結果を達成する。
論文参考訳（メタデータ） (2023-12-01T17:01:06Z)
Winner-Take-All Column Row Sampling for Memory Efficient Adaptation of Language Model [89.8764435351222]
分散を低減した行列生成のために, WTA-CRS と呼ばれる新しい非バイアス推定系を提案する。我々の研究は、チューニング変換器の文脈において、提案した推定器が既存のものよりも低い分散を示すという理論的および実験的証拠を提供する。
論文参考訳（メタデータ） (2023-05-24T15:52:08Z)
Layer Pruning on Demand with Intermediate CTC [50.509073206630994]
我々はコネクショニスト時間分類(CTC)に基づくASRの訓練と刈り取り方法を提案する。本稿では,Transformer-CTCモデルをオンデマンドで様々な深さでプルーニングできることを示し,GPU上でのリアルタイム係数を0.005から0.002に改善した。
論文参考訳（メタデータ） (2021-06-17T02:40:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。