論文の概要: Predict to Skip: Linear Multistep Feature Forecasting for Efficient Diffusion Transformers
- arxiv url: http://arxiv.org/abs/2602.18093v1
- Date: Fri, 20 Feb 2026 09:33:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-23 18:01:41.280007
- Title: Predict to Skip: Linear Multistep Feature Forecasting for Efficient Diffusion Transformers
- Title(参考訳): 分岐予測:効率的な拡散変換器の線形多段階特徴予測
- Authors: Hanshuai Cui, Zhiqing Tang, Qianli Ma, Zhi Yao, Weijia Jia,
- Abstract要約: 拡散変換器(DiT)は高忠実度画像とビデオ生成のバックボーンとして広く採用されている。
線形多段階問題として特徴予測を定式化する,トレーニング不要なアクセラレーションフレームワークである textbfPrediT を提案する。
提案手法は,DiTベースの画像およびビデオ生成モデル間で最大5.54タイムのレイテンシ低減を実現し,品質劣化を生じさせる。
- 参考スコア(独自算出の注目度): 10.751183015853863
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion Transformers (DiT) have emerged as a widely adopted backbone for high-fidelity image and video generation, yet their iterative denoising process incurs high computational costs. Existing training-free acceleration methods rely on feature caching and reuse under the assumption of temporal stability. However, reusing features for multiple steps may lead to latent drift and visual degradation. We observe that model outputs evolve smoothly along much of the diffusion trajectory, enabling principled predictions rather than naive reuse. Based on this insight, we propose \textbf{PrediT}, a training-free acceleration framework that formulates feature prediction as a linear multistep problem. We employ classical linear multistep methods to forecast future model outputs from historical information, combined with a corrector that activates in high-dynamics regions to prevent error accumulation. A dynamic step modulation mechanism adaptively adjusts the prediction horizon by monitoring the feature change rate. Together, these components enable substantial acceleration while preserving generation fidelity. Extensive experiments validate that our method achieves up to $5.54\times$ latency reduction across various DiT-based image and video generation models, while incurring negligible quality degradation.
- Abstract(参考訳): Diffusion Transformers (DiT) は高忠実度画像とビデオ生成のバックボーンとして広く採用されているが、反復的復調処理は高い計算コストをもたらす。
既存のトレーニングフリー加速法は時間的安定性を前提とした機能キャッシングと再利用に依存している。
しかし、複数のステップで機能を再使用することは、遅延ドリフトと視覚的劣化を引き起こす可能性がある。
モデル出力は拡散軌道の多くに沿って円滑に進化し, 自然的再利用ではなく, 原理的な予測が可能となる。
この知見に基づいて,特徴予測を線形多段階問題として定式化する学習自由加速フレームワークである \textbf{PrediT} を提案する。
我々は,従来の線形多段階法を用いて,過去の情報から将来のモデル出力を予測するとともに,エラーの蓄積を防止するために,高力学領域で活性化する補正器を組み合わした。
動的ステップ変調機構は、特徴変化率を監視して予測地平線を適応的に調整する。
これらの成分は、生成忠実性を保ちながら、実質的な加速を可能にする。
拡張実験により,DiTベース画像およびビデオ生成モデル間の遅延低減を最大5.54倍に抑えつつ,無視できる品質劣化を生じさせることを確認した。
関連論文リスト
- Look-Ahead and Look-Back Flows: Training-Free Image Generation with Trajectory Smoothing [3.77130368225397]
流速場調整による画像生成を改善するため, 各種トレーニングフリーなフローマッチング手法が開発されている。
本研究では, 曲率ゲートウェイトを用いて, 電流および次ステップの潜伏を平均化するemphLook-Aheadと, 指数移動平均を用いて潜伏を滑らかにするemphLook-Backの2つの学習自由軌道平滑化手法を提案する。
論文 参考訳(メタデータ) (2026-02-10T06:34:47Z) - Forecast then Calibrate: Feature Caching as ODE for Efficient Diffusion Transformers [19.107716099809707]
拡散変換器(DiT)は高忠実度画像とビデオ生成において例外的な性能を示した。
現在の方法は、しばしば高い加速比で生成品質を維持するのに苦労する。
本稿では,機能キャッシングを機能-ODE問題として扱うFoCaを提案する。
論文 参考訳(メタデータ) (2025-08-22T08:34:03Z) - Sortblock: Similarity-Aware Feature Reuse for Diffusion Model [9.749736545966694]
Diffusion Transformer (DiTs) は顕著な生成能を示した。
DiTのシーケンシャルな denoising プロセスは、高い推論遅延をもたらす。
トレーニング不要な推論アクセラレーションフレームワークであるSoltblockを提案する。
論文 参考訳(メタデータ) (2025-08-01T08:10:54Z) - Self Forcing: Bridging the Train-Test Gap in Autoregressive Video Diffusion [67.94300151774085]
本稿では,自己回帰ビデオ拡散モデルのための新しい訓練パラダイムであるSelf Forcingを紹介する。
露光バイアスの長年の問題に対処し、地道的な文脈で訓練されたモデルは、自身の不完全な出力で条件付けられたシーケンスを生成する必要がある。
論文 参考訳(メタデータ) (2025-06-09T17:59:55Z) - Solving Inverse Problems with FLAIR [68.87167940623318]
本稿では,フローベース生成モデルを逆問題に先立って活用する学習自由変分フレームワークFLAIRを提案する。
標準画像ベンチマークの結果、FLAIRは再現性やサンプルの多様性の観点から、既存の拡散法や流れ法よりも一貫して優れていることが示された。
論文 参考訳(メタデータ) (2025-06-03T09:29:47Z) - Accelerating Diffusion Transformer via Increment-Calibrated Caching with Channel-Aware Singular Value Decomposition [4.0594792247165]
拡散変換器(DiT)モデルは画像生成において顕著な成功を収めた。
Increment-calibrated cache, a training-free method for DiT accelerate。
本手法は45%以上を除去し,0.06 FID増加のコストでISを12倍に改善する。
論文 参考訳(メタデータ) (2025-05-09T06:56:17Z) - One-Step Diffusion Model for Image Motion-Deblurring [85.76149042561507]
本稿では,脱臭過程を1段階に短縮する新しいフレームワークである脱臭拡散モデル(OSDD)を提案する。
拡散モデルにおける忠実度損失に対処するために,構造復元を改善する改良された変分オートエンコーダ(eVAE)を導入する。
提案手法は,実測値と非参照値の両方で高い性能を達成する。
論文 参考訳(メタデータ) (2025-03-09T09:39:57Z) - Towards Stabilized and Efficient Diffusion Transformers through Long-Skip-Connections with Spectral Constraints [51.83081671798784]
Diffusion Transformers (DiT) は、画像およびビデオ生成のための強力なアーキテクチャとして登場し、優れた品質とスケーラビリティを提供している。
DiTの実用アプリケーションは本質的に動的特徴不安定性に悩まされており、キャッシュされた推論中にエラーを増幅する。
我々は,Long-Skip-Connections (LSCs) で拡張された画像およびビデオ生成型DiTであるSkip-DiTを提案する。
論文 参考訳(メタデータ) (2024-11-26T17:28:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。