論文の概要: DDiT: Dynamic Patch Scheduling for Efficient Diffusion Transformers
- arxiv url: http://arxiv.org/abs/2602.16968v1
- Date: Thu, 19 Feb 2026 00:15:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-20 15:21:28.531319
- Title: DDiT: Dynamic Patch Scheduling for Efficient Diffusion Transformers
- Title(参考訳): DDiT:効率的な拡散変換器のための動的パッチスケジューリング
- Authors: Dahye Kim, Deepti Ghadiyaram, Raghudeep Gadde,
- Abstract要約: Diffusion Transformer (DiTs) は画像およびビデオ生成において最先端のパフォーマンスを達成したが、その成功は重い計算コストが伴う。
動的トークン化(Dynamic tokenization)は,コンテントの複雑さと遅延時間に基づいて,パッチサイズを変化させる効率的なテストタイム戦略である。
提案手法は,画像生成と映像生成の段階でパッチサイズを動的に再配置し,知覚的生成品質を保ちながらコストを大幅に削減する。
- 参考スコア(独自算出の注目度): 6.406853903837331
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion Transformers (DiTs) have achieved state-of-the-art performance in image and video generation, but their success comes at the cost of heavy computation. This inefficiency is largely due to the fixed tokenization process, which uses constant-sized patches throughout the entire denoising phase, regardless of the content's complexity. We propose dynamic tokenization, an efficient test-time strategy that varies patch sizes based on content complexity and the denoising timestep. Our key insight is that early timesteps only require coarser patches to model global structure, while later iterations demand finer (smaller-sized) patches to refine local details. During inference, our method dynamically reallocates patch sizes across denoising steps for image and video generation and substantially reduces cost while preserving perceptual generation quality. Extensive experiments demonstrate the effectiveness of our approach: it achieves up to $3.52\times$ and $3.2\times$ speedup on FLUX-1.Dev and Wan $2.1$, respectively, without compromising the generation quality and prompt adherence.
- Abstract(参考訳): Diffusion Transformer (DiTs) は画像およびビデオ生成において最先端のパフォーマンスを達成したが、その成功は重い計算コストが伴う。
この非効率性は主に、コンテンツの複雑さに関わらず、デノナイジングフェーズ全体を通して一定サイズのパッチを使用する固定トークン化プロセスによるものである。
動的トークン化(Dynamic tokenization)は,コンテントの複雑さと遅延時間に基づいて,パッチサイズを変化させる効率的なテストタイム戦略である。
私たちの重要な洞察は、初期のタイムステップはグローバルな構造をモデル化するために粗いパッチのみを必要とするのに対して、後のイテレーションでは局所的な詳細を洗練するためにより細かい(より小さな)パッチを必要とする、ということです。
提案手法は,画像生成と映像生成の段階でパッチサイズを動的に再配置し,知覚的生成品質を保ちながらコストを大幅に削減する。
FLUX-1.DevとWanでそれぞれ3.52\times$と3.2\times$のスピードアップを達成し、生成品質を損なうことなく、2.1$のスピードアップを実現している。
関連論文リスト
- Frequency-Aware Error-Bounded Caching for Accelerating Diffusion Transformers [11.772150619675527]
ディフュージョントランスフォーマー(DiT)は高品質な画像生成とビデオ生成の主要なアーキテクチャとして登場してきた。
既存のキャッシュ手法は、タイムステップ間で中間計算を再利用することで、DiTを加速するが、それらは共通の制限を共有している。
本稿では、時間認識動的スケジューリング(TADS)、累積誤差予算(CEB)、周波数分解キャッシング(FDC)からなる統合キャッシュフレームワークであるSpectralCacheを提案する。
論文 参考訳(メタデータ) (2026-03-05T15:58:06Z) - Denoising as Path Planning: Training-Free Acceleration of Diffusion Models with DPCache [8.614492355393578]
本研究では,グローバルパス計画問題として拡散加速を定式化する学習自由加速フレームワークDPCacheを提案する。
DPCacheは動的プログラミングを使用して、トラジェクティブの忠実さを維持しながら、全体のパスコストを最小限に抑える、キータイムステップの最適なシーケンスを選択する。
DiT、FLUX、HunyuanVideoの実験では、DPCacheは最小品質の損失で強力な加速を実現している。
論文 参考訳(メタデータ) (2026-02-26T06:13:33Z) - LiteAttention: A Temporal Sparse Attention for Diffusion Transformers [1.3471268811218626]
LiteAttentionは時間的コヒーレンスを利用して、デノナイジングシーケンスを横断する進化的計算スキップを可能にする。
我々はFlashAttention上に高度に最適化されたLiteAttentionカーネルを実装し、プロダクションビデオ拡散モデルにかなりのスピードアップを示す。
論文 参考訳(メタデータ) (2025-11-14T08:26:55Z) - PPMStereo: Pick-and-Play Memory Construction for Consistent Dynamic Stereo Matching [51.98089287914147]
textbfPick-and-textbflay textbfMemory (PM) construction module for dynamic bfStereo matching, called bftextPPMStereo。
bftextPPMStereo と呼ばれる動的 bfStereo マッチングのための textbfPick-and-textbflay textbfMemory (PM) 構築モジュールを提案する。
論文 参考訳(メタデータ) (2025-10-23T03:52:39Z) - Sliding Window Attention for Learned Video Compression [67.57073402826292]
本研究は3D Sliding Window Attention (SWA)を導入している。
Bjorntegaard Delta-rate saves to up 18.6% %。
論文 参考訳(メタデータ) (2025-10-04T20:11:43Z) - H$_{2}$OT: Hierarchical Hourglass Tokenizer for Efficient Video Pose Transformers [124.11648300910444]
Heerarchical Hourglass Tokenizer (H$_2$OT) と呼ばれる階層的なプラグアンドプレイプルーニング&ドル回復フレームワークを提案する。
提案手法は汎用的であり,Seq2seqおよびSeq2frameパイプラインの共通VPTモデルに容易に組み込むことができる。
論文 参考訳(メタデータ) (2025-09-08T17:59:59Z) - Foresight: Adaptive Layer Reuse for Accelerated and High-Quality Text-to-Video Generation [3.321460333625124]
Diffusion Transformer (DiTs) は、テキスト・トゥ・イメージ、テキスト・トゥ・ビデオ生成、編集といった最先端の成果を達成する。
静的キャッシュは、固定ステップにまたがって機能を再利用することでこれを緩和するが、ジェネレーションダイナミクスに適応できない。
ベースライン性能を保ちながらデノナイジングステップ間の計算冗長性を低減させる適応層再利用手法であるForesightを提案する。
論文 参考訳(メタデータ) (2025-05-31T00:52:17Z) - One-Step Diffusion Model for Image Motion-Deblurring [85.76149042561507]
本稿では,脱臭過程を1段階に短縮する新しいフレームワークである脱臭拡散モデル(OSDD)を提案する。
拡散モデルにおける忠実度損失に対処するために,構造復元を改善する改良された変分オートエンコーダ(eVAE)を導入する。
提案手法は,実測値と非参照値の両方で高い性能を達成する。
論文 参考訳(メタデータ) (2025-03-09T09:39:57Z) - Layer- and Timestep-Adaptive Differentiable Token Compression Ratios for Efficient Diffusion Transformers [55.87192133758051]
Diffusion Transformer (DiTs)は、最先端(SOTA)画像生成の品質を達成したが、レイテンシとメモリ非効率に悩まされている。
圧縮比の異なる動的DiT推論フレームワークであるDiffCRを提案する。
論文 参考訳(メタデータ) (2024-12-22T02:04:17Z) - HarmoniCa: Harmonizing Training and Inference for Better Feature Caching in Diffusion Transformer Acceleration [31.982294870690925]
我々はHarmoniCaと呼ばれる新しい学習ベースのキャッシュフレームワークを開発した。
SDT(Step-Wise Denoising Training)を取り入れて、Denoisingプロセスの継続性を保証する。
私たちのフレームワークは40%以上のレイテンシ削減(理論的スピードアップ)とPixArt-$alpha$のパフォーマンス向上を実現しています。
論文 参考訳(メタデータ) (2024-10-02T16:34:29Z) - Investigating Tradeoffs in Real-World Video Super-Resolution [90.81396836308085]
実世界のビデオ超解像(VSR)モデルは、一般化性を改善するために様々な劣化で訓練されることが多い。
最初のトレードオフを軽減するために,性能を犠牲にすることなく,最大40%のトレーニング時間を削減できる劣化手法を提案する。
そこで本研究では,多種多様な実世界の低品質映像系列を含むビデオLQデータセットを提案する。
論文 参考訳(メタデータ) (2021-11-24T18:58:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。