論文の概要: HarmoniCa: Harmonizing Training and Inference for Better Feature Cache in Diffusion Transformer Acceleration
- arxiv url: http://arxiv.org/abs/2410.01723v2
- Date: Fri, 4 Oct 2024 10:14:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-04 15:43:48.640121
- Title: HarmoniCa: Harmonizing Training and Inference for Better Feature Cache in Diffusion Transformer Acceleration
- Title(参考訳): HarmoniCa: 拡散トランスフォーマーアクセラレーションにおけるより良い機能キャッシュのためのトレーニングと推論の調和
- Authors: Yushi Huang, Zining Wang, Ruihao Gong, Jing Liu, Xinjie Zhang, Jun Zhang,
- Abstract要約: 本稿では,新しい学習ベースキャッシングフレームワークを用いて,学習と推論を調和させる新しい手法を提案する。
従来の訓練パラダイムと比較して、新たに提案されたSDTは、認知プロセスの継続性を維持している。
IEPOは効率的なプロキシメカニズムを統合して、キャッシュされた機能の再使用による最終的な画像エラーを近似する。
- 参考スコア(独自算出の注目度): 18.170285241800798
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion Transformers (DiTs) have gained prominence for outstanding scalability and extraordinary performance in generative tasks. However, their considerable inference costs impede practical deployment. The feature cache mechanism, which involves storing and retrieving redundant computations across timesteps, holds promise for reducing per-step inference time in diffusion models. Most existing caching methods for DiT are manually designed. Although the learning-based approach attempts to optimize strategies adaptively, it suffers from discrepancies between training and inference, which hampers both the performance and acceleration ratio. Upon detailed analysis, we pinpoint that these discrepancies primarily stem from two aspects: (1) Prior Timestep Disregard, where training ignores the effect of cache usage at earlier timesteps, and (2) Objective Mismatch, where the training target (align predicted noise in each timestep) deviates from the goal of inference (generate the high-quality image). To alleviate these discrepancies, we propose HarmoniCa, a novel method that Harmonizes training and inference with a novel learning-based Caching framework built upon Step-Wise Denoising Training (SDT) and Image Error Proxy-Guided Objective (IEPO). Compared to the traditional training paradigm, the newly proposed SDT maintains the continuity of the denoising process, enabling the model to leverage information from prior timesteps during training, similar to the way it operates during inference. Furthermore, we design IEPO, which integrates an efficient proxy mechanism to approximate the final image error caused by reusing the cached feature. Therefore, IEPO helps balance final image quality and cache utilization, resolving the issue of training that only considers the impact of cache usage on the predicted output at each timestep.
- Abstract(参考訳): Diffusion Transformer (DiTs) は、生成タスクにおける優れたスケーラビリティと優れたパフォーマンスで有名である。
しかし、そのかなりの推論コストは実践的な展開を妨げる。
タイムステップ間で冗長な計算を保存および検索する機能キャッシュメカニズムは、拡散モデルにおけるステップごとの推論時間を削減することを約束する。
DiTの既存のキャッシュメソッドは手動で設計されている。
学習ベースのアプローチは戦略を適応的に最適化しようとするが、トレーニングと推論の相違に悩まされ、パフォーマンスと加速度比の両方を損なう。
より詳細な分析では,(1)事前の時間差,(2)早期のキャッシュ使用の影響を無視する事前の時間差,(2)訓練対象(各時間差の予測ノイズ)が推論目標(高品質な画像の生成)から逸脱する客観的なミスマッチ,の2点が主な特徴である。
これらの相違を緩和するために,ステップワイズ・デノナイジング・トレーニング(SDT)とイメージエラー・プロキシ・ガイド・オブジェクト(IEPO)をベースとした新しい学習ベースキャッシング・フレームワークを用いて,トレーニングと推論を調和させる新しい手法であるHarmoniCaを提案する。
従来のトレーニングパラダイムと比較すると、新たに提案されたSDTは、推論時の動作と同じように、トレーニング中の前のタイムステップからの情報を活用することができるように、デノナイジングプロセスの継続性を維持している。
さらに,キャッシュされた特徴の再利用による最終的な画像誤差を近似するために,効率的なプロキシ機構を統合したIEPOを設計する。
したがって、IEPOは最終的な画像品質とキャッシュ利用のバランスを保ち、各タイムステップで予測される出力に対するキャッシュ使用の影響のみを考慮したトレーニングの問題を解消する。
関連論文リスト
- ExpertFlow: Optimized Expert Activation and Token Allocation for Efficient Mixture-of-Experts Inference [41.41316718220569]
ExpertFlowは、柔軟なルーティングを調整し、CPUとGPU間の効率的な専門家スケジューリングを可能にすることで、推論効率を向上させるように設計されている。
実験により、ExpertFlowは最大93.72%のGPUメモリを節約し、ベースライン法に比べて推論速度を2~10倍に向上することを示した。
論文 参考訳(メタデータ) (2024-10-23T15:24:54Z) - Temporal Feature Matters: A Framework for Diffusion Model Quantization [105.3033493564844]
拡散モデルはマルチラウンド・デノナイジングの時間ステップに依存している。
3つの戦略を含む新しい量子化フレームワークを導入する。
このフレームワークは時間情報のほとんどを保存し、高品質なエンドツーエンド生成を保証する。
論文 参考訳(メタデータ) (2024-07-28T17:46:15Z) - Adaptive Rentention & Correction for Continual Learning [114.5656325514408]
連続学習における一般的な問題は、最新のタスクに対する分類層のバイアスである。
アダプティブ・リテンション・アンド・コレクション (ARC) のアプローチを例に挙げる。
ARCはCIFAR-100とImagenet-Rのデータセットで平均2.7%と2.6%のパフォーマンス向上を達成した。
論文 参考訳(メタデータ) (2024-05-23T08:43:09Z) - Retraining-free Model Quantization via One-Shot Weight-Coupling Learning [41.299675080384]
混合精度量子化(MPQ)は、層に不均一なビット幅を割り当てることで、モデルを効果的に圧縮することを提唱する。
MPQは典型的には、探索訓練された2段階のプロセスに編成される。
本稿では,混合精度モデル圧縮のためのワンショットトレーニング探索パラダイムを考案する。
論文 参考訳(メタデータ) (2024-01-03T05:26:57Z) - On the Effectiveness of LayerNorm Tuning for Continual Learning in
Vision Transformers [47.77328392236625]
最新のリハーサルなし連続学習手法は、視覚変換器の特異性を利用してタスク固有のプロンプトを学習する。
そこで、まずタスク固有のパラメータを最適化し、次に推論時間の同じ選択手順で分類器を訓練する。
提案手法は, 計算コストを抑えながら, より優れた結果が得られるか, あるいは, 技術水準に匹敵する結果が得られる。
論文 参考訳(メタデータ) (2023-08-18T15:11:16Z) - Adaptive Cross Batch Normalization for Metric Learning [75.91093210956116]
メトリクス学習はコンピュータビジョンの基本的な問題である。
蓄積した埋め込みが最新であることを保証することは、同様に重要であることを示す。
特に、蓄積した埋め込みと現在のトレーニングイテレーションにおける特徴埋め込みとの間の表現的ドリフトを回避する必要がある。
論文 参考訳(メタデータ) (2023-03-30T03:22:52Z) - Accelerating Deep Learning Classification with Error-controlled
Approximate-key Caching [72.50506500576746]
我々は、近似キーキャッシングと名付けた新しいキャッシングパラダイムを提案する。
近似キャッシュはDL推論の負荷を軽減し、システムのスループットを向上するが、近似誤差を導入する。
我々は古典的なLRUと理想的なキャッシュのキャッシュシステム性能を解析的にモデル化し、期待される性能のトレース駆動評価を行い、提案手法の利点を最先端の類似キャッシュと比較した。
論文 参考訳(メタデータ) (2021-12-13T13:49:11Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z) - BERT Loses Patience: Fast and Robust Inference with Early Exit [91.26199404912019]
本稿では,事前学習した言語モデルの効率性と堅牢性を向上させるためのプラグイン・アンド・プレイ手法として,Patience-based Early Exitを提案する。
提案手法では,モデルを少ないレイヤで予測できるため,推論効率が向上する。
論文 参考訳(メタデータ) (2020-06-07T13:38:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。