Fugu-MT 論文翻訳(概要): HarmoniCa: Harmonizing Training and Inference for Better Feature Caching in Diffusion Transformer Acceleration

論文の概要: HarmoniCa: Harmonizing Training and Inference for Better Feature Caching in Diffusion Transformer Acceleration

arxiv url: http://arxiv.org/abs/2410.01723v3
Date: Fri, 31 Jan 2025 14:26:05 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-03 22:46:12.726689
Title: HarmoniCa: Harmonizing Training and Inference for Better Feature Caching in Diffusion Transformer Acceleration
Title（参考訳）: HarmoniCa:拡散変圧器アクセラレーションにおけるより良い特徴キャッシングのための調和トレーニングと推論
Authors: Yushi Huang, Zining Wang, Ruihao Gong, Jing Liu, Xinjie Zhang, Jinyang Guo, Xianglong Liu, Jun Zhang,
Abstract要約: 本稿では,HarmoniCaと呼ばれる新しい学習ベースのキャッシュフレームワークを提案する。 SDT(Step-Wise Denoising Training)を取り入れて、Denoisingプロセスの継続性を保証する。また、画像品質とキャッシュ利用のバランスをとるために、イメージエラープロキシガイドオブジェクト(IEPO)も組み込まれている。
参考スコア（独自算出の注目度）: 31.982294870690925
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Diffusion Transformers (DiTs) excel in generative tasks but face practical deployment challenges due to high inference costs. Feature caching, which stores and retrieves redundant computations, offers the potential for acceleration. Existing learning-based caching, though adaptive, overlooks the impact of the prior timestep. It also suffers from misaligned objectives--aligned predicted noise vs. high-quality images--between training and inference. These two discrepancies compromise both performance and efficiency. To this end, we harmonize training and inference with a novel learning-based caching framework dubbed HarmoniCa. It first incorporates Step-Wise Denoising Training (SDT) to ensure the continuity of the denoising process, where prior steps can be leveraged. In addition, an Image Error Proxy-Guided Objective (IEPO) is applied to balance image quality against cache utilization through an efficient proxy to approximate the image error. Extensive experiments across $8$ models, $4$ samplers, and resolutions from $256\times256$ to $2K$ demonstrate superior performance and speedup of our framework. For instance, it achieves over $40\%$ latency reduction (i.e., $2.07\times$ theoretical speedup) and improved performance on PixArt-$\alpha$. Remarkably, our image-free approach reduces training time by $25\%$ compared with the previous method.
Abstract（参考訳）: Diffusion Transformer (DiTs) は、生成タスクに優れるが、高い推論コストのために実践的なデプロイメント課題に直面している。冗長な計算を格納し、取得するフィーチャーキャッシングは、アクセラレーションの可能性を秘めている。既存の学習ベースのキャッシュは適応的ではあるが、以前のタイムステップの影響を見落としている。また、トレーニングと推論の間には、予測されたノイズと高品質な画像とが一致していない。これら2つの相違は、性能と効率の両方を損なう。この目的のために、HarmoniCaと呼ばれる新しい学習ベースのキャッシュフレームワークでトレーニングと推論を調和させる。最初にSDT(Step-Wise Denoising Training)を取り入れて、事前のステップを活用可能なDenoisingプロセスの継続性を保証する。さらに、画像エラーを近似する効率的なプロキシにより、画像品質とキャッシュ利用のバランスをとるために、画像エラープロキシガイドオブジェクト(IEPO)を適用する。 8ドルのモデル、4ドルのサンプル、および256\times256ドルから2Kドルという大規模な実験は、私たちのフレームワークの性能とスピードアップを実証しています。例えば、40\%以上のレイテンシ削減(理論的スピードアップ)を実現し、PixArt-$\alpha$のパフォーマンスを改善した。注目すべきは、画像のないアプローチは、以前の方法と比較してトレーニング時間を25\%削減することです。

関連論文リスト

Steering One-Step Diffusion Model with Fidelity-Rich Decoder for Fast Image Compression [36.10674664089876]
SODECは単一ステップ拡散に基づく画像圧縮モデルである。遺伝子前駆体への過度な依存から生じる忠実性を改善する。既存の手法よりも優れており、より優れたレート・歪み・知覚性能を実現している。
論文参考訳（メタデータ） (2025-08-07T02:24:03Z)
Representation Entanglement for Generation:Training Diffusion Transformers Is Much Easier Than You Think [56.539823627694304]
REPAとその変種は、事前訓練されたモデルから外部の視覚表現を取り入れることで、拡散モデルのトレーニング課題を効果的に軽減する。偏見推論過程全体において欠落している外部アライメントは、識別的表現の可能性を完全に活用するに足らないと我々は主張する。本稿では,事前学習した基礎モデルから,低レベル画像ラテントを1つの高レベルクラストークンで絡み合わせるRepresentation Entanglement for Generation (REG)を提案する。
論文参考訳（メタデータ） (2025-07-02T08:29:18Z)
Step-level Reward for Free in RL-based T2I Diffusion Model Fine-tuning [23.02076024811612]
テキスト・ツー・イメージ(T2I)拡散モデルにおける微細調整による強化学習(RL)の最近の進歩により、生成された画像と学習可能な報酬関数の整合が図られている。既存のアプローチは、RL駆動最適化のマルコフ決定過程としてデノナイジングを再構成する。本稿では,denoisingのステップにまたがる高密度報酬を動的に分散する信用割当フレームワークを提案する。
論文参考訳（メタデータ） (2025-05-25T15:43:54Z)
AB-Cache: Training-Free Acceleration of Diffusion Models via Adams-Bashforth Cached Feature Reuse [19.13826316844611]
拡散モデルは生成的タスクにおいて顕著に成功したが、反復的認知過程は推論を遅くする。本稿では,第2次Adams-Bashforth法を用いて認知過程を解析することにより理論的に理解する。キャッシュされた結果を直接再利用する代わりに,拡散モデルに対するキャッシングに基づく新しい高速化手法を提案する。
論文参考訳（メタデータ） (2025-04-13T08:29:58Z)
Towards Better Alignment: Training Diffusion Models with Reinforcement Learning Against Sparse Rewards [52.90573877727541]
拡散モデル微調整では強化学習(RL)が検討されている。 RLの有効性はスパース報酬の挑戦によって制限される。 $textB2text-DiffuRL$は既存の最適化アルゴリズムと互換性がある。
論文参考訳（メタデータ） (2025-03-14T09:45:19Z)
Fast constrained sampling in pre-trained diffusion models [77.21486516041391]
任意の制約下で高速かつ高品質な生成を可能にするアルゴリズムを提案する。推測中、ノイズの多い画像上で計算された勾配更新と、最終的なクリーンな画像で計算されたアップデートとを交換できる。我々のアプローチは、最先端のトレーニングフリー推論アプローチに匹敵するか、超越した結果をもたらす。
論文参考訳（メタデータ） (2024-10-24T14:52:38Z)
FreCaS: Efficient Higher-Resolution Image Generation via Frequency-aware Cascaded Sampling [13.275724439963188]
FreCaSはサンプリングプロセスをカスケードステージに分解し、徐々に分解能が向上する。 FreCaSは、画像の品質と生成速度において最先端の手法を大幅に上回っている。
論文参考訳（メタデータ） (2024-10-24T03:56:44Z)
ExpertFlow: Optimized Expert Activation and Token Allocation for Efficient Mixture-of-Experts Inference [41.41316718220569]
ExpertFlowは、柔軟なルーティングを調整し、CPUとGPU間の効率的な専門家スケジューリングを可能にすることで、推論効率を向上させるように設計されている。実験により、ExpertFlowは最大93.72%のGPUメモリを節約し、ベースライン法に比べて推論速度を2～10倍に向上することを示した。
論文参考訳（メタデータ） (2024-10-23T15:24:54Z)
Temporal Feature Matters: A Framework for Diffusion Model Quantization [105.3033493564844]
拡散モデルはマルチラウンド・デノナイジングの時間ステップに依存している。 3つの戦略を含む新しい量子化フレームワークを導入する。このフレームワークは時間情報のほとんどを保存し、高品質なエンドツーエンド生成を保証する。
論文参考訳（メタデータ） (2024-07-28T17:46:15Z)
Learning-to-Cache: Accelerating Diffusion Transformer via Layer Caching [56.286064975443026]
拡散変圧器内の多数の層をキャッシュ機構で計算することで、モデルパラメータを更新しなくても容易に除去できる。本稿では,拡散変圧器の動的手法でキャッシングを学習するL2C(Learningto-Cache)を提案する。実験の結果,L2C は DDIM や DPM-r など,キャッシュベースの従来の手法と同等の推論速度で性能を向上することがわかった。
論文参考訳（メタデータ） (2024-06-03T18:49:57Z)
Adaptive Rentention & Correction for Continual Learning [114.5656325514408]
連続学習における一般的な問題は、最新のタスクに対する分類層のバイアスである。アダプティブ・リテンション・アンド・コレクション (ARC) のアプローチを例に挙げる。 ARCはCIFAR-100とImagenet-Rのデータセットで平均2.7%と2.6%のパフォーマンス向上を達成した。
論文参考訳（メタデータ） (2024-05-23T08:43:09Z)
Implicit Image-to-Image Schrodinger Bridge for Image Restoration [13.138398298354113]
我々は,Imlicit Image-to-Image Schr"odinger Bridge (I$3$SB)を導入し,I$2$SBの生成過程をさらに加速する。 I$3$SB は生成過程を生成過程に初期劣化した画像を各生成段階に組み込むことで非マルコフフレームワークに再構成する。 I$2$SBと比較すると、I$3$SBはより少ない生成ステップで同じ知覚品質を達成しつつ、根本真実への忠実さを維持したり改善したりすることができる。
論文参考訳（メタデータ） (2024-03-10T03:22:57Z)
Retraining-free Model Quantization via One-Shot Weight-Coupling Learning [41.299675080384]
混合精度量子化(MPQ)は、層に不均一なビット幅を割り当てることで、モデルを効果的に圧縮することを提唱する。 MPQは典型的には、探索訓練された2段階のプロセスに編成される。本稿では,混合精度モデル圧縮のためのワンショットトレーニング探索パラダイムを考案する。
論文参考訳（メタデータ） (2024-01-03T05:26:57Z)
DeepCache: Accelerating Diffusion Models for Free [65.02607075556742]
DeepCacheは、モデルアーキテクチャの観点から拡散モデルを加速するトレーニング不要のパラダイムである。 DeepCacheは拡散モデルのシーケンシャルなデノナイジングステップで観測される時間的冗長性に乗じている。同じスループットで、DeepCacheはDDIMやPLMSで、事実上同等または極端に改善された結果を達成する。
論文参考訳（メタデータ） (2023-12-01T17:01:06Z)
ACT-Diffusion: Efficient Adversarial Consistency Training for One-step Diffusion Models [59.90959789767886]
整合性トレーニング損失の最適化は,目標分布と生成分布とのワッサーシュタイン距離を最小化することを示す。 CIFAR10 と ImageNet 64$times$64 と LSUN Cat 256$times$256 データセットの FID スコアを改善する。
論文参考訳（メタデータ） (2023-11-23T16:49:06Z)
On the Effectiveness of LayerNorm Tuning for Continual Learning in Vision Transformers [47.77328392236625]
最新のリハーサルなし連続学習手法は、視覚変換器の特異性を利用してタスク固有のプロンプトを学習する。そこで、まずタスク固有のパラメータを最適化し、次に推論時間の同じ選択手順で分類器を訓練する。提案手法は, 計算コストを抑えながら, より優れた結果が得られるか, あるいは, 技術水準に匹敵する結果が得られる。
論文参考訳（メタデータ） (2023-08-18T15:11:16Z)
Adaptive Cross Batch Normalization for Metric Learning [75.91093210956116]
メトリクス学習はコンピュータビジョンの基本的な問題である。蓄積した埋め込みが最新であることを保証することは、同様に重要であることを示す。特に、蓄積した埋め込みと現在のトレーニングイテレーションにおける特徴埋め込みとの間の表現的ドリフトを回避する必要がある。
論文参考訳（メタデータ） (2023-03-30T03:22:52Z)
Efficient Diffusion Training via Min-SNR Weighting Strategy [78.5801305960993]
拡散学習をマルチタスク学習問題として扱い,Min-SNR-$gamma$と呼ばれるシンプルなアプローチを導入する。本結果は,従来の重み付け手法よりも3.4$times$高速で収束速度が大幅に向上したことを示す。さらに効果的で、ImageNetの256times256$ベンチマークで2.06の新たなFIDスコアを達成した。
論文参考訳（メタデータ） (2023-03-16T17:59:56Z)
Online Convolutional Re-parameterization [51.97831675242173]
2段階のパイプラインであるオンライン畳み込み再パラメータ化(OREPA)は、複雑なトレーニング時間ブロックを単一の畳み込みに絞ることで、巨大なトレーニングオーバーヘッドを低減することを目的としている。最先端のre-paramモデルと比較して、OREPAはトレーニング時間のメモリコストを約70%削減し、トレーニング速度を約2倍向上させることができる。また、オブジェクト検出とセマンティックセグメンテーションの実験を行い、下流タスクに一貫した改善を示す。
論文参考訳（メタデータ） (2022-04-02T09:50:19Z)
Accelerating Deep Learning Classification with Error-controlled Approximate-key Caching [72.50506500576746]
我々は、近似キーキャッシングと名付けた新しいキャッシングパラダイムを提案する。近似キャッシュはDL推論の負荷を軽減し、システムのスループットを向上するが、近似誤差を導入する。我々は古典的なLRUと理想的なキャッシュのキャッシュシステム性能を解析的にモデル化し、期待される性能のトレース駆動評価を行い、提案手法の利点を最先端の類似キャッシュと比較した。
論文参考訳（メタデータ） (2021-12-13T13:49:11Z)
Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文参考訳（メタデータ） (2020-06-10T08:22:41Z)
BERT Loses Patience: Fast and Robust Inference with Early Exit [91.26199404912019]
本稿では,事前学習した言語モデルの効率性と堅牢性を向上させるためのプラグイン・アンド・プレイ手法として,Patience-based Early Exitを提案する。提案手法では,モデルを少ないレイヤで予測できるため,推論効率が向上する。
論文参考訳（メタデータ） (2020-06-07T13:38:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。