論文の概要: Accelerating Diffusion Transformer via Increment-Calibrated Caching with Channel-Aware Singular Value Decomposition
- arxiv url: http://arxiv.org/abs/2505.05829v1
- Date: Fri, 09 May 2025 06:56:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-12 20:40:10.179068
- Title: Accelerating Diffusion Transformer via Increment-Calibrated Caching with Channel-Aware Singular Value Decomposition
- Title(参考訳): チャネル対応特異値分解によるインクリメントキャリブレーションキャッシングによる拡散変圧器の高速化
- Authors: Zhiyuan Chen, Keyi Li, Yifan Jia, Le Ye, Yufei Ma,
- Abstract要約: 拡散変換器(DiT)モデルは画像生成において顕著な成功を収めた。
Increment-calibrated cache, a training-free method for DiT accelerate。
本手法は45%以上を除去し,0.06 FID増加のコストでISを12倍に改善する。
- 参考スコア(独自算出の注目度): 4.0594792247165
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion transformer (DiT) models have achieved remarkable success in image generation, thanks for their exceptional generative capabilities and scalability. Nonetheless, the iterative nature of diffusion models (DMs) results in high computation complexity, posing challenges for deployment. Although existing cache-based acceleration methods try to utilize the inherent temporal similarity to skip redundant computations of DiT, the lack of correction may induce potential quality degradation. In this paper, we propose increment-calibrated caching, a training-free method for DiT acceleration, where the calibration parameters are generated from the pre-trained model itself with low-rank approximation. To deal with the possible correction failure arising from outlier activations, we introduce channel-aware Singular Value Decomposition (SVD), which further strengthens the calibration effect. Experimental results show that our method always achieve better performance than existing naive caching methods with a similar computation resource budget. When compared with 35-step DDIM, our method eliminates more than 45% computation and improves IS by 12 at the cost of less than 0.06 FID increase. Code is available at https://github.com/ccccczzy/icc.
- Abstract(参考訳): 拡散変換器(DiT)モデルは、異常な生成能力とスケーラビリティのおかげで、画像生成において顕著な成功を収めている。
それでも、拡散モデル(DM)の反復的な性質は、高い計算複雑性をもたらし、デプロイメントの課題を提起する。
既存のキャッシュベースの加速度法は、DiTの冗長な計算を省略するために時間的類似性を生かそうとしているが、補正の欠如は潜在的な品質劣化を引き起こす可能性がある。
本稿では,低ランク近似を用いた事前学習モデルからキャリブレーションパラメータを生成する,DiTアクセラレーションのトレーニング不要なインクリメントキャリブレーションキャッシングを提案する。
キャリブレーション効果を高めるために, チャネル認識型特異値分解(SVD)を導入する。
実験の結果,提案手法は計算資源の予算に類似した従来の単純キャッシング手法よりも常に優れた性能を達成できることがわかった。
35ステップのDDIMと比較すると,提案手法は45%以上の計算を排除し,0.06 FID増加のコストでISを12倍に改善する。
コードはhttps://github.com/ccccczzy/icc.comで入手できる。
関連論文リスト
- Flow-GRPO: Training Flow Matching Models via Online RL [75.70017261794422]
本稿では,オンライン強化学習(RL)をフローマッチングモデルに統合する最初の方法であるFlow-GRPOを提案する。
提案手法では, 1 つの主要な戦略を用いる:(1) 決定論的正規方程式 (ODE) を, 1 つの時点における原モデルの限界分布に一致する等価な微分方程式 (SDE) に変換するODE-to-SDE 変換と、(2) 元の推論タイムステップ数を保ちながらトレーニングの段階を減らし,
論文 参考訳(メタデータ) (2025-05-08T17:58:45Z) - One-Step Diffusion Model for Image Motion-Deblurring [85.76149042561507]
本稿では,脱臭過程を1段階に短縮する新しいフレームワークである脱臭拡散モデル(OSDD)を提案する。
拡散モデルにおける忠実度損失に対処するために,構造復元を改善する改良された変分オートエンコーダ(eVAE)を導入する。
提案手法は,実測値と非参照値の両方で高い性能を達成する。
論文 参考訳(メタデータ) (2025-03-09T09:39:57Z) - Accelerating Diffusion Transformer via Gradient-Optimized Cache [18.32157920050325]
キャッシュされたブロックからのプログレッシブなエラー蓄積は、生成品質を著しく低下させる。
現在のエラー補償アプローチは、キャッシュプロセス中に動的パターンを無視し、最適以下のエラー訂正につながる。
本稿では,2つの重要なイノベーションを取り入れたGradient-lectiond Cache (GOC)を提案する。
GOCはIS 216.28 (26.3%上)とFID 3.907 (43%下)をベースラインのDiTと比較して達成し、計算コストは同じである。
論文 参考訳(メタデータ) (2025-03-07T05:31:47Z) - Q&C: When Quantization Meets Cache in Efficient Image Generation [24.783679431414686]
拡散変換器(DiT)の量子化とキャッシュ機構の組み合わせは簡単ではない。
本稿では,上記の課題に対処してハイブリッド加速法を提案する。
競合生成能力を保ちながら,DiTsを12.7倍高速化した。
論文 参考訳(メタデータ) (2025-03-04T11:19:02Z) - DiP-GO: A Diffusion Pruner via Few-step Gradient Optimization [22.546989373687655]
本稿では,よりインテリジェントで微分可能なプルーナーを用いて,効率的な拡散モデルを導出する新しいプルーニング法を提案する。
提案手法はSD-1.5の4.4倍の高速化を実現し,従来の最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2024-10-22T12:18:24Z) - Learning-to-Cache: Accelerating Diffusion Transformer via Layer Caching [56.286064975443026]
拡散変圧器内の多数の層をキャッシュ機構で計算することで、モデルパラメータを更新しなくても容易に除去できる。
本稿では,拡散変圧器の動的手法でキャッシングを学習するL2C(Learningto-Cache)を提案する。
実験の結果,L2C は DDIM や DPM-r など,キャッシュベースの従来の手法と同等の推論速度で性能を向上することがわかった。
論文 参考訳(メタデータ) (2024-06-03T18:49:57Z) - The Surprising Effectiveness of Skip-Tuning in Diffusion Sampling [78.6155095947769]
Skip-Tuningは、スキップ接続上でシンプルだが驚くほど効果的にトレーニング不要なチューニング方法である。
ImageNet 64 では 19 NFE (1.75) で事前訓練された EDM に対して100% FID の改善が可能である。
Skip-Tuningは画素空間におけるスコアマッチング損失を増加させる一方、特徴空間における損失は減少する。
論文 参考訳(メタデータ) (2024-02-23T08:05:23Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。