論文の概要: DiffPro: Joint Timestep and Layer-Wise Precision Optimization for Efficient Diffusion Inference
- arxiv url: http://arxiv.org/abs/2511.11446v1
- Date: Fri, 14 Nov 2025 16:14:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-17 22:42:18.714276
- Title: DiffPro: Joint Timestep and Layer-Wise Precision Optimization for Efficient Diffusion Inference
- Title(参考訳): DiffPro:効率的な拡散推論のための共同時間ステップと層幅精度最適化
- Authors: Farhana Amin, Sabiha Afroz, Kanchon Gharami, Mona Moghadampanah, Dimitrios S. Nikolopoulos,
- Abstract要約: DiffProはデプロイに使用する正確な整数カーネルと連携し、Diffusion Transformer(DiT)のタイムステップと層ごとの精度を共同調整することで、トレーニングなしでレイテンシとメモリを削減できる。
実験では、DiffProは最大6.25倍のモデル圧縮、50%のタイムステップ、標準ベンチマークでDelta FID = 10の2.8倍高速な推論を実現している。
- 参考スコア(独自算出の注目度): 1.6112309942944745
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion models produce high quality images but inference is costly due to many denoising steps and heavy matrix operations. We present DiffPro, a post-training, hardware-faithful framework that works with the exact integer kernels used in deployment and jointly tunes timesteps and per-layer precision in Diffusion Transformers (DiTs) to reduce latency and memory without any training. DiffPro combines three parts: a manifold-aware sensitivity metric to allocate weight bits, dynamic activation quantization to stabilize activations across timesteps, and a budgeted timestep selector guided by teacher-student drift. In experiments DiffPro achieves up to 6.25x model compression, fifty percent fewer timesteps, and 2.8x faster inference with Delta FID <= 10 on standard benchmarks, demonstrating practical efficiency gains. DiffPro unifies step reduction and precision planning into a single budgeted deployable plan for real-time energy-aware diffusion inference.
- Abstract(参考訳): 拡散モデルは高品質な画像を生成するが、多くのデノナイジングステップと重い行列演算のために推論はコストがかかる。
DiffProは、Diffusion Transformer (DiT) のタイムステップと階層ごとの精度を共同で調整し、トレーニングなしでレイテンシとメモリを低減します。
DiffProは、ウェイトビットを割り当てるための多様体対応感度メートル法、タイムステップ間でのアクティベーションを安定化するための動的アクティベーション量子化、教師と学生のドリフトによってガイドされる予算付きタイムステップセレクタの3つの部分を組み合わせる。
実験では、DiffProは最大6.25倍のモデル圧縮、50%のタイムステップ、標準ベンチマークでのDelta FID <= 10の2.8倍の高速化を実現し、実用的な効率向上を実証している。
DiffProは、ステップの削減と精度の計画を、リアルタイムエネルギー認識拡散推論のための単一の予算で展開可能な計画に統合する。
関連論文リスト
- Sprint: Sparse-Dense Residual Fusion for Efficient Diffusion Transformers [91.02299679350834]
Diffusion Transformer (DiTs) は最先端の生成性能を提供するが、シークエンス長の2次トレーニングコストは大規模な事前訓練を不当に高価にする。
本稿では,高効率拡散変換器のためのスパース-デンス残差核融合法を提案する。
論文 参考訳(メタデータ) (2025-10-24T19:29:55Z) - Distilling Parallel Gradients for Fast ODE Solvers of Diffusion Models [53.087070073434845]
拡散モデル(DM)は、最先端の生成性能を達成したが、シーケンシャルなデノナイジング特性のため、高いサンプリング遅延に悩まされている。
既存のソルバベースの加速度法では、低レイテンシの予算で画像品質が劣化することが多い。
本稿では、各ODEステップに複数の並列勾配評価を組み込むことで、トランケーションエラーを軽減する新しいODEソルバであるEnsemble Parallel Direction Solutionrを提案する。
論文 参考訳(メタデータ) (2025-07-20T03:08:06Z) - Exploring Diffusion with Test-Time Training on Efficient Image Restoration [1.3830502387127932]
DiffRWKVIRは、効率的な拡散を伴うテスト時間トレーニング(TTT)を統合する新しいフレームワークである。
本手法は,ハードウェアの最適化による適応的,高効率な画像復元のための新しいパラダイムを確立する。
論文 参考訳(メタデータ) (2025-06-17T14:01:59Z) - One-Way Ticket:Time-Independent Unified Encoder for Distilling Text-to-Image Diffusion Models [65.96186414865747]
テキスト・ツー・イメージ(T2I)拡散モデルは、推論速度と画質のトレードオフに直面している。
学生モデルUNetアーキテクチャのための最初の時間非依存の統一TiUEを紹介する。
ワンパススキームを使用して、TiUEは複数のデコーダタイムステップにまたがるエンコーダ機能を共有し、並列サンプリングを可能にする。
論文 参考訳(メタデータ) (2025-05-28T04:23:22Z) - ALTER: All-in-One Layer Pruning and Temporal Expert Routing for Efficient Diffusion Generation [40.68265817413368]
ALTER: All-in-One Layer Pruning and Temporal Expert Routingを紹介する。
拡散モデルを効率的な時間的専門家の混合物に変換する統一されたフレームワーク。
トレーニング可能なハイパーネットワークを利用することで、レイヤープルーニング、エキスパートルーティング、モデル微調整を統一するシングルステージ最適化。
論文 参考訳(メタデータ) (2025-05-27T22:59:44Z) - Efficiency Meets Fidelity: A Novel Quantization Framework for Stable Diffusion [9.402892455344677]
安定拡散モデル(SDM)のための効率的な量子化フレームワークを提案する。
我々のフレームワークはトレーニングと推論の一貫性を同時に維持し、最適化の安定性を確保する。
本手法は,訓練時間を短縮した最先端手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2024-12-09T17:00:20Z) - Progressive Mixed-Precision Decoding for Efficient LLM Inference [49.05448842542558]
我々は,デコーディングのメモリバウンドネスに対処するために,プログレッシブ・ミックス・プレシジョン・デコーディング(PMPD)を導入する。
PMPDはfp16モデルの行列ベクトル乗算において1.4$-$12.2$times$ Speedupを達成する。
我々の手法は、fp16モデルよりも3.8$-$8.0$times$、均一量子化アプローチよりも1.54$times$のスループット向上をもたらす。
論文 参考訳(メタデータ) (2024-10-17T11:46:33Z) - Towards More Accurate Diffusion Model Acceleration with A Timestep Tuner [112.99126045081046]
数千のデノナイジングステップを用いて画像を生成するために定式化された拡散モデルは通常、遅い推論速度に悩まされる。
最小コストで特定の区間に対してより正確な積分方向を求めるのに役立つtextbftimestep tunerを提案する。
実験により,我々のプラグイン設計を効率的に訓練し,様々な最先端加速度法の推論性能を向上できることが示された。
論文 参考訳(メタデータ) (2023-10-14T02:19:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。