論文の概要: HarmoniCa: Harmonizing Training and Inference for Better Feature Caching in Diffusion Transformer Acceleration
- arxiv url: http://arxiv.org/abs/2410.01723v3
- Date: Fri, 31 Jan 2025 14:26:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-03 13:59:01.422726
- Title: HarmoniCa: Harmonizing Training and Inference for Better Feature Caching in Diffusion Transformer Acceleration
- Title(参考訳): HarmoniCa:拡散変圧器アクセラレーションにおけるより良い特徴キャッシングのための調和トレーニングと推論
- Authors: Yushi Huang, Zining Wang, Ruihao Gong, Jing Liu, Xinjie Zhang, Jinyang Guo, Xianglong Liu, Jun Zhang,
- Abstract要約: 本稿では,HarmoniCaと呼ばれる新しい学習ベースのキャッシュフレームワークを提案する。
SDT(Step-Wise Denoising Training)を取り入れて、Denoisingプロセスの継続性を保証する。
また、画像品質とキャッシュ利用のバランスをとるために、イメージエラープロキシガイドオブジェクト(IEPO)も組み込まれている。
- 参考スコア(独自算出の注目度): 31.982294870690925
- License:
- Abstract: Diffusion Transformers (DiTs) excel in generative tasks but face practical deployment challenges due to high inference costs. Feature caching, which stores and retrieves redundant computations, offers the potential for acceleration. Existing learning-based caching, though adaptive, overlooks the impact of the prior timestep. It also suffers from misaligned objectives--aligned predicted noise vs. high-quality images--between training and inference. These two discrepancies compromise both performance and efficiency. To this end, we harmonize training and inference with a novel learning-based caching framework dubbed HarmoniCa. It first incorporates Step-Wise Denoising Training (SDT) to ensure the continuity of the denoising process, where prior steps can be leveraged. In addition, an Image Error Proxy-Guided Objective (IEPO) is applied to balance image quality against cache utilization through an efficient proxy to approximate the image error. Extensive experiments across $8$ models, $4$ samplers, and resolutions from $256\times256$ to $2K$ demonstrate superior performance and speedup of our framework. For instance, it achieves over $40\%$ latency reduction (i.e., $2.07\times$ theoretical speedup) and improved performance on PixArt-$\alpha$. Remarkably, our image-free approach reduces training time by $25\%$ compared with the previous method.
- Abstract(参考訳): Diffusion Transformer (DiTs) は、生成タスクに優れるが、高い推論コストのために実践的なデプロイメント課題に直面している。
冗長な計算を格納し、取得するフィーチャーキャッシングは、アクセラレーションの可能性を秘めている。
既存の学習ベースのキャッシュは適応的ではあるが、以前のタイムステップの影響を見落としている。
また、トレーニングと推論の間には、予測されたノイズと高品質な画像とが一致していない。
これら2つの相違は、性能と効率の両方を損なう。
この目的のために、HarmoniCaと呼ばれる新しい学習ベースのキャッシュフレームワークでトレーニングと推論を調和させる。
最初にSDT(Step-Wise Denoising Training)を取り入れて、事前のステップを活用可能なDenoisingプロセスの継続性を保証する。
さらに、画像エラーを近似する効率的なプロキシにより、画像品質とキャッシュ利用のバランスをとるために、画像エラープロキシガイドオブジェクト(IEPO)を適用する。
8ドルのモデル、4ドルのサンプル、および256\times256ドルから2Kドルという大規模な実験は、私たちのフレームワークの性能とスピードアップを実証しています。
例えば、40\%以上のレイテンシ削減(理論的スピードアップ)を実現し、PixArt-$\alpha$のパフォーマンスを改善した。
注目すべきは、画像のないアプローチは、以前の方法と比較してトレーニング時間を25\%削減することです。
関連論文リスト
- FreCaS: Efficient Higher-Resolution Image Generation via Frequency-aware Cascaded Sampling [13.275724439963188]
FreCaSはサンプリングプロセスをカスケードステージに分解し、分解能が徐々に増加し周波数帯域が拡大する。
FreCaSは、画像の品質と生成速度において最先端の手法を大幅に上回っている。
論文 参考訳(メタデータ) (2024-10-24T03:56:44Z) - Stretching Each Dollar: Diffusion Training from Scratch on a Micro-Budget [53.311109531586844]
大規模T2I拡散変圧器モデルの低コスト化を実証する。
我々は16億のパラメータスパーストランスをわずか1890ドルの経済的コストで訓練し、ゼロショット世代で12.7 FIDを達成する。
我々は、マイクロ予算での大規模拡散モデルのトレーニングをさらに民主化するために、エンドツーエンドのトレーニングパイプラインをリリースすることを目指している。
論文 参考訳(メタデータ) (2024-07-22T17:23:28Z) - Learning-to-Cache: Accelerating Diffusion Transformer via Layer Caching [56.286064975443026]
拡散変圧器内の多数の層をキャッシュ機構で計算することで、モデルパラメータを更新しなくても容易に除去できる。
本稿では,拡散変圧器の動的手法でキャッシングを学習するL2C(Learningto-Cache)を提案する。
実験の結果,L2C は DDIM や DPM-r など,キャッシュベースの従来の手法と同等の推論速度で性能を向上することがわかった。
論文 参考訳(メタデータ) (2024-06-03T18:49:57Z) - Implicit Image-to-Image Schrodinger Bridge for Image Restoration [13.138398298354113]
Image-to-Image Schr"odinger Bridge (I$2$SB)は、破損した画像から生成プロセスを開始することで、有望な代替手段を提供する。
我々は,Imlicit Image-to-Image Schr"odinger Bridge (I$3$SB)を導入し,I$2$SBの生成過程をさらに加速する。
論文 参考訳(メタデータ) (2024-03-10T03:22:57Z) - DeepCache: Accelerating Diffusion Models for Free [65.02607075556742]
DeepCacheは、モデルアーキテクチャの観点から拡散モデルを加速するトレーニング不要のパラダイムである。
DeepCacheは拡散モデルのシーケンシャルなデノナイジングステップで観測される時間的冗長性に乗じている。
同じスループットで、DeepCacheはDDIMやPLMSで、事実上同等または極端に改善された結果を達成する。
論文 参考訳(メタデータ) (2023-12-01T17:01:06Z) - ACT-Diffusion: Efficient Adversarial Consistency Training for One-step Diffusion Models [59.90959789767886]
整合性トレーニング損失の最適化は,目標分布と生成分布とのワッサーシュタイン距離を最小化することを示す。
CIFAR10 と ImageNet 64$times$64 と LSUN Cat 256$times$256 データセットの FID スコアを改善する。
論文 参考訳(メタデータ) (2023-11-23T16:49:06Z) - Efficient Diffusion Training via Min-SNR Weighting Strategy [78.5801305960993]
拡散学習をマルチタスク学習問題として扱い,Min-SNR-$gamma$と呼ばれるシンプルなアプローチを導入する。
本結果は,従来の重み付け手法よりも3.4$times$高速で収束速度が大幅に向上したことを示す。
さらに効果的で、ImageNetの256times256$ベンチマークで2.06の新たなFIDスコアを達成した。
論文 参考訳(メタデータ) (2023-03-16T17:59:56Z) - Online Convolutional Re-parameterization [51.97831675242173]
2段階のパイプラインであるオンライン畳み込み再パラメータ化(OREPA)は、複雑なトレーニング時間ブロックを単一の畳み込みに絞ることで、巨大なトレーニングオーバーヘッドを低減することを目的としている。
最先端のre-paramモデルと比較して、OREPAはトレーニング時間のメモリコストを約70%削減し、トレーニング速度を約2倍向上させることができる。
また、オブジェクト検出とセマンティックセグメンテーションの実験を行い、下流タスクに一貫した改善を示す。
論文 参考訳(メタデータ) (2022-04-02T09:50:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。