論文の概要: HarmoniCa: Harmonizing Training and Inference for Better Feature Cache in Diffusion Transformer Acceleration
- arxiv url: http://arxiv.org/abs/2410.01723v1
- Date: Fri, 4 Oct 2024 10:14:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-04 15:43:48.642973
- Title: HarmoniCa: Harmonizing Training and Inference for Better Feature Cache in Diffusion Transformer Acceleration
- Title(参考訳): HarmoniCa: 拡散トランスフォーマーアクセラレーションにおけるより良い機能キャッシュのためのトレーニングと推論の調和
- Authors: Yushi Huang, Zining Wang, Ruihao Gong, Jing Liu, Xinjie Zhang, Jinyang Guo, Xianglong Liu, Jun Zhang,
- Abstract要約: 本稿では,新しい学習ベースキャッシングフレームワークを用いて,学習と推論を調和させる新しい手法を提案する。
従来の訓練パラダイムと比較して、新たに提案されたSDTは、認知プロセスの継続性を維持している。
IEPOは効率的なプロキシメカニズムを統合して、キャッシュされた機能の再使用による最終的な画像エラーを近似する。
- 参考スコア(独自算出の注目度): 31.982294870690925
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion Transformers (DiTs) have gained prominence for outstanding scalability and extraordinary performance in generative tasks. However, their considerable inference costs impede practical deployment. The feature cache mechanism, which involves storing and retrieving redundant computations across timesteps, holds promise for reducing per-step inference time in diffusion models. Most existing caching methods for DiT are manually designed. Although the learning-based approach attempts to optimize strategies adaptively, it suffers from discrepancies between training and inference, which hampers both the performance and acceleration ratio. Upon detailed analysis, we pinpoint that these discrepancies primarily stem from two aspects: (1) Prior Timestep Disregard, where training ignores the effect of cache usage at earlier timesteps, and (2) Objective Mismatch, where the training target (align predicted noise in each timestep) deviates from the goal of inference (generate the high-quality image). To alleviate these discrepancies, we propose HarmoniCa, a novel method that Harmonizes training and inference with a novel learning-based Caching framework built upon Step-Wise Denoising Training (SDT) and Image Error Proxy-Guided Objective (IEPO). Compared to the traditional training paradigm, the newly proposed SDT maintains the continuity of the denoising process, enabling the model to leverage information from prior timesteps during training, similar to the way it operates during inference. Furthermore, we design IEPO, which integrates an efficient proxy mechanism to approximate the final image error caused by reusing the cached feature. Therefore, IEPO helps balance final image quality and cache utilization, resolving the issue of training that only considers the impact of cache usage on the predicted output at each timestep.
- Abstract(参考訳): Diffusion Transformer (DiTs) は、生成タスクにおける優れたスケーラビリティと優れたパフォーマンスで有名である。
しかし、そのかなりの推論コストは実践的な展開を妨げる。
タイムステップ間で冗長な計算を保存および検索する機能キャッシュメカニズムは、拡散モデルにおけるステップごとの推論時間を削減することを約束する。
DiTの既存のキャッシュメソッドは手動で設計されている。
学習ベースのアプローチは戦略を適応的に最適化しようとするが、トレーニングと推論の相違に悩まされ、パフォーマンスと加速度比の両方を損なう。
より詳細な分析では,(1)事前の時間差,(2)早期のキャッシュ使用の影響を無視する事前の時間差,(2)訓練対象(各時間差の予測ノイズ)が推論目標(高品質な画像の生成)から逸脱する客観的なミスマッチ,の2点が主な特徴である。
これらの相違を緩和するために,ステップワイズ・デノナイジング・トレーニング(SDT)とイメージエラー・プロキシ・ガイド・オブジェクト(IEPO)をベースとした新しい学習ベースキャッシング・フレームワークを用いて,トレーニングと推論を調和させる新しい手法であるHarmoniCaを提案する。
従来のトレーニングパラダイムと比較すると、新たに提案されたSDTは、推論時の動作と同じように、トレーニング中の前のタイムステップからの情報を活用することができるように、デノナイジングプロセスの継続性を維持している。
さらに,キャッシュされた特徴の再利用による最終的な画像誤差を近似するために,効率的なプロキシ機構を統合したIEPOを設計する。
したがって、IEPOは最終的な画像品質とキャッシュ利用のバランスを保ち、各タイムステップで予測される出力に対するキャッシュ使用の影響のみを考慮したトレーニングの問題を解消する。
関連論文リスト
- FreCaS: Efficient Higher-Resolution Image Generation via Frequency-aware Cascaded Sampling [13.275724439963188]
FreCaSはサンプリングプロセスをカスケードステージに分解し、分解能が徐々に増加し周波数帯域が拡大する。
FreCaSは、画像の品質と生成速度において最先端の手法を大幅に上回っている。
論文 参考訳(メタデータ) (2024-10-24T03:56:44Z) - Stretching Each Dollar: Diffusion Training from Scratch on a Micro-Budget [53.311109531586844]
大規模T2I拡散変圧器モデルの低コスト化を実証する。
我々は16億のパラメータスパーストランスをわずか1890ドルの経済的コストで訓練し、ゼロショット世代で12.7 FIDを達成する。
我々は、マイクロ予算での大規模拡散モデルのトレーニングをさらに民主化するために、エンドツーエンドのトレーニングパイプラインをリリースすることを目指している。
論文 参考訳(メタデータ) (2024-07-22T17:23:28Z) - Learning-to-Cache: Accelerating Diffusion Transformer via Layer Caching [56.286064975443026]
拡散変圧器内の多数の層をキャッシュ機構で計算することで、モデルパラメータを更新しなくても容易に除去できる。
本稿では,拡散変圧器の動的手法でキャッシングを学習するL2C(Learningto-Cache)を提案する。
実験の結果,L2C は DDIM や DPM-r など,キャッシュベースの従来の手法と同等の推論速度で性能を向上することがわかった。
論文 参考訳(メタデータ) (2024-06-03T18:49:57Z) - Implicit Image-to-Image Schrodinger Bridge for Image Restoration [13.138398298354113]
Image-to-Image Schr"odinger Bridge (I$2$SB)は、破損した画像から生成プロセスを開始することで、有望な代替手段を提供する。
我々は,Imlicit Image-to-Image Schr"odinger Bridge (I$3$SB)を導入し,I$2$SBの生成過程をさらに加速する。
論文 参考訳(メタデータ) (2024-03-10T03:22:57Z) - DeepCache: Accelerating Diffusion Models for Free [65.02607075556742]
DeepCacheは、モデルアーキテクチャの観点から拡散モデルを加速するトレーニング不要のパラダイムである。
DeepCacheは拡散モデルのシーケンシャルなデノナイジングステップで観測される時間的冗長性に乗じている。
同じスループットで、DeepCacheはDDIMやPLMSで、事実上同等または極端に改善された結果を達成する。
論文 参考訳(メタデータ) (2023-12-01T17:01:06Z) - ACT-Diffusion: Efficient Adversarial Consistency Training for One-step Diffusion Models [59.90959789767886]
整合性トレーニング損失の最適化は,目標分布と生成分布とのワッサーシュタイン距離を最小化することを示す。
CIFAR10 と ImageNet 64$times$64 と LSUN Cat 256$times$256 データセットの FID スコアを改善する。
論文 参考訳(メタデータ) (2023-11-23T16:49:06Z) - Efficient Diffusion Training via Min-SNR Weighting Strategy [78.5801305960993]
拡散学習をマルチタスク学習問題として扱い,Min-SNR-$gamma$と呼ばれるシンプルなアプローチを導入する。
本結果は,従来の重み付け手法よりも3.4$times$高速で収束速度が大幅に向上したことを示す。
さらに効果的で、ImageNetの256times256$ベンチマークで2.06の新たなFIDスコアを達成した。
論文 参考訳(メタデータ) (2023-03-16T17:59:56Z) - Online Convolutional Re-parameterization [51.97831675242173]
2段階のパイプラインであるオンライン畳み込み再パラメータ化(OREPA)は、複雑なトレーニング時間ブロックを単一の畳み込みに絞ることで、巨大なトレーニングオーバーヘッドを低減することを目的としている。
最先端のre-paramモデルと比較して、OREPAはトレーニング時間のメモリコストを約70%削減し、トレーニング速度を約2倍向上させることができる。
また、オブジェクト検出とセマンティックセグメンテーションの実験を行い、下流タスクに一貫した改善を示す。
論文 参考訳(メタデータ) (2022-04-02T09:50:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。