論文の概要: DDiT: Dynamic Patch Scheduling for Efficient Diffusion Transformers
- arxiv url: http://arxiv.org/abs/2602.16968v1
- Date: Thu, 19 Feb 2026 00:15:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-20 15:21:28.531319
- Title: DDiT: Dynamic Patch Scheduling for Efficient Diffusion Transformers
- Title(参考訳): DDiT:効率的な拡散変換器のための動的パッチスケジューリング
- Authors: Dahye Kim, Deepti Ghadiyaram, Raghudeep Gadde,
- Abstract要約: Diffusion Transformer (DiTs) は画像およびビデオ生成において最先端のパフォーマンスを達成したが、その成功は重い計算コストが伴う。
動的トークン化(Dynamic tokenization)は,コンテントの複雑さと遅延時間に基づいて,パッチサイズを変化させる効率的なテストタイム戦略である。
提案手法は,画像生成と映像生成の段階でパッチサイズを動的に再配置し,知覚的生成品質を保ちながらコストを大幅に削減する。
- 参考スコア(独自算出の注目度): 6.406853903837331
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion Transformers (DiTs) have achieved state-of-the-art performance in image and video generation, but their success comes at the cost of heavy computation. This inefficiency is largely due to the fixed tokenization process, which uses constant-sized patches throughout the entire denoising phase, regardless of the content's complexity. We propose dynamic tokenization, an efficient test-time strategy that varies patch sizes based on content complexity and the denoising timestep. Our key insight is that early timesteps only require coarser patches to model global structure, while later iterations demand finer (smaller-sized) patches to refine local details. During inference, our method dynamically reallocates patch sizes across denoising steps for image and video generation and substantially reduces cost while preserving perceptual generation quality. Extensive experiments demonstrate the effectiveness of our approach: it achieves up to $3.52\times$ and $3.2\times$ speedup on FLUX-1.Dev and Wan $2.1$, respectively, without compromising the generation quality and prompt adherence.
- Abstract(参考訳): Diffusion Transformer (DiTs) は画像およびビデオ生成において最先端のパフォーマンスを達成したが、その成功は重い計算コストが伴う。
この非効率性は主に、コンテンツの複雑さに関わらず、デノナイジングフェーズ全体を通して一定サイズのパッチを使用する固定トークン化プロセスによるものである。
動的トークン化(Dynamic tokenization)は,コンテントの複雑さと遅延時間に基づいて,パッチサイズを変化させる効率的なテストタイム戦略である。
私たちの重要な洞察は、初期のタイムステップはグローバルな構造をモデル化するために粗いパッチのみを必要とするのに対して、後のイテレーションでは局所的な詳細を洗練するためにより細かい(より小さな)パッチを必要とする、ということです。
提案手法は,画像生成と映像生成の段階でパッチサイズを動的に再配置し,知覚的生成品質を保ちながらコストを大幅に削減する。
FLUX-1.DevとWanでそれぞれ3.52\times$と3.2\times$のスピードアップを達成し、生成品質を損なうことなく、2.1$のスピードアップを実現している。
関連論文リスト
- LiteAttention: A Temporal Sparse Attention for Diffusion Transformers [1.3471268811218626]
LiteAttentionは時間的コヒーレンスを利用して、デノナイジングシーケンスを横断する進化的計算スキップを可能にする。
我々はFlashAttention上に高度に最適化されたLiteAttentionカーネルを実装し、プロダクションビデオ拡散モデルにかなりのスピードアップを示す。
論文 参考訳(メタデータ) (2025-11-14T08:26:55Z) - PPMStereo: Pick-and-Play Memory Construction for Consistent Dynamic Stereo Matching [51.98089287914147]
textbfPick-and-textbflay textbfMemory (PM) construction module for dynamic bfStereo matching, called bftextPPMStereo。
bftextPPMStereo と呼ばれる動的 bfStereo マッチングのための textbfPick-and-textbflay textbfMemory (PM) 構築モジュールを提案する。
論文 参考訳(メタデータ) (2025-10-23T03:52:39Z) - Sliding Window Attention for Learned Video Compression [67.57073402826292]
本研究は3D Sliding Window Attention (SWA)を導入している。
Bjorntegaard Delta-rate saves to up 18.6% %。
論文 参考訳(メタデータ) (2025-10-04T20:11:43Z) - H$_{2}$OT: Hierarchical Hourglass Tokenizer for Efficient Video Pose Transformers [124.11648300910444]
Heerarchical Hourglass Tokenizer (H$_2$OT) と呼ばれる階層的なプラグアンドプレイプルーニング&ドル回復フレームワークを提案する。
提案手法は汎用的であり,Seq2seqおよびSeq2frameパイプラインの共通VPTモデルに容易に組み込むことができる。
論文 参考訳(メタデータ) (2025-09-08T17:59:59Z) - Foresight: Adaptive Layer Reuse for Accelerated and High-Quality Text-to-Video Generation [3.321460333625124]
Diffusion Transformer (DiTs) は、テキスト・トゥ・イメージ、テキスト・トゥ・ビデオ生成、編集といった最先端の成果を達成する。
静的キャッシュは、固定ステップにまたがって機能を再利用することでこれを緩和するが、ジェネレーションダイナミクスに適応できない。
ベースライン性能を保ちながらデノナイジングステップ間の計算冗長性を低減させる適応層再利用手法であるForesightを提案する。
論文 参考訳(メタデータ) (2025-05-31T00:52:17Z) - One-Step Diffusion Model for Image Motion-Deblurring [85.76149042561507]
本稿では,脱臭過程を1段階に短縮する新しいフレームワークである脱臭拡散モデル(OSDD)を提案する。
拡散モデルにおける忠実度損失に対処するために,構造復元を改善する改良された変分オートエンコーダ(eVAE)を導入する。
提案手法は,実測値と非参照値の両方で高い性能を達成する。
論文 参考訳(メタデータ) (2025-03-09T09:39:57Z) - Layer- and Timestep-Adaptive Differentiable Token Compression Ratios for Efficient Diffusion Transformers [55.87192133758051]
Diffusion Transformer (DiTs)は、最先端(SOTA)画像生成の品質を達成したが、レイテンシとメモリ非効率に悩まされている。
圧縮比の異なる動的DiT推論フレームワークであるDiffCRを提案する。
論文 参考訳(メタデータ) (2024-12-22T02:04:17Z) - HarmoniCa: Harmonizing Training and Inference for Better Feature Caching in Diffusion Transformer Acceleration [31.982294870690925]
我々はHarmoniCaと呼ばれる新しい学習ベースのキャッシュフレームワークを開発した。
SDT(Step-Wise Denoising Training)を取り入れて、Denoisingプロセスの継続性を保証する。
私たちのフレームワークは40%以上のレイテンシ削減(理論的スピードアップ)とPixArt-$alpha$のパフォーマンス向上を実現しています。
論文 参考訳(メタデータ) (2024-10-02T16:34:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。