論文の概要: BlockDance: Reuse Structurally Similar Spatio-Temporal Features to Accelerate Diffusion Transformers
- arxiv url: http://arxiv.org/abs/2503.15927v1
- Date: Thu, 20 Mar 2025 08:07:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-21 16:34:01.714778
- Title: BlockDance: Reuse Structurally Similar Spatio-Temporal Features to Accelerate Diffusion Transformers
- Title(参考訳): BlockDance: 構造的に類似した時空間特徴を拡散変換器の高速化に利用する
- Authors: Hui Zhang, Tingwei Gao, Jie Shao, Zuxuan Wu,
- Abstract要約: DiT(Diffusion Transformer)は、低推論速度に関連する課題に直面し続けている。
我々は、DiTを加速するために、隣接する時間ステップにおける特徴的類似性を探求する、トレーニング不要のアプローチであるBlockDanceを提案する。
インスタンス固有のアクセラレーションに適した軽量な意思決定ネットワークであるBlockDance-Adaについても紹介する。
- 参考スコア(独自算出の注目度): 39.08730113749482
- License:
- Abstract: Diffusion models have demonstrated impressive generation capabilities, particularly with recent advancements leveraging transformer architectures to improve both visual and artistic quality. However, Diffusion Transformers (DiTs) continue to encounter challenges related to low inference speed, primarily due to the iterative denoising process. To address this issue, we propose BlockDance, a training-free approach that explores feature similarities at adjacent time steps to accelerate DiTs. Unlike previous feature-reuse methods that lack tailored reuse strategies for features at different scales, BlockDance prioritizes the identification of the most structurally similar features, referred to as Structurally Similar Spatio-Temporal (STSS) features. These features are primarily located within the structure-focused blocks of the transformer during the later stages of denoising. BlockDance caches and reuses these highly similar features to mitigate redundant computation, thereby accelerating DiTs while maximizing consistency with the generated results of the original model. Furthermore, considering the diversity of generated content and the varying distributions of redundant features, we introduce BlockDance-Ada, a lightweight decision-making network tailored for instance-specific acceleration. BlockDance-Ada dynamically allocates resources and provides superior content quality. Both BlockDance and BlockDance-Ada have proven effective across various generation tasks and models, achieving accelerations between 25% and 50% while maintaining generation quality.
- Abstract(参考訳): 拡散モデルは、特に、視覚的および芸術的品質を改善するためにトランスフォーマーアーキテクチャを活用する最近の進歩において、印象的な生成能力を示してきた。
しかし、拡散変換器(DiTs)は、主に反復的なデノナイジングプロセスのために、低推論速度に関連する課題に直面し続けている。
この問題に対処するため、我々は、DiTを加速するために、隣接する時間ステップにおける特徴の類似性を探求する、トレーニング不要のアプローチであるBlockDanceを提案する。
異なる規模の機能に対して、カスタマイズされた再利用戦略を欠いた以前の機能再利用メソッドとは異なり、BlockDanceは、構造的に類似した機能であるSTSS(Structurely similar Spatio-Temporal)機能を特定することを優先している。
これらの特徴は、主に復調後期の変圧器の構造に焦点を絞ったブロック内に位置している。
BlockDanceはこれらの非常に類似した機能をキャッシュして再利用し、冗長な計算を緩和し、結果としてDiTを加速し、オリジナルのモデルの生成結果との一貫性を最大化する。
さらに、生成されたコンテンツの多様性と冗長な特徴の様々な分布を考慮すると、インスタンス固有のアクセラレーションに適した軽量な意思決定ネットワークであるBlockDance-Adaを導入する。
BlockDance-Adaはリソースを動的に割り当て、優れたコンテンツ品質を提供する。
BlockDanceとBlockDance-Adaはいずれも、生成品質を維持しながら25%から50%の高速化を実現している。
関連論文リスト
- Ditto: Accelerating Diffusion Model via Temporal Value Similarity [4.5280087047319535]
量子化と時間的類似性を利用して拡散モデルの効率を向上させる差分処理アルゴリズムを提案する。
また、1.5倍のスピードアップと17.74%の省エネを実現する専用ハードウェアアクセラレータであるDittoハードウェアも設計しています。
論文 参考訳(メタデータ) (2025-01-20T01:03:50Z) - AsymRnR: Video Diffusion Transformers Acceleration with Asymmetric Reduction and Restoration [45.62669899834342]
拡散変換器(DiT)は高品質なビデオを生成するのに有効であることが証明されているが、高い計算コストによって妨げられている。
本稿では,ビデオDiTの高速化を目的としたトレーニングフリーでモデルに依存しない非対称リダクション・アンド・リカバリ法(AsymRnR)を提案する。
論文 参考訳(メタデータ) (2024-12-16T12:28:22Z) - Accelerating Vision Diffusion Transformers with Skip Branches [47.07564477125228]
Diffusion Transformers (DiT) は、新しい画像およびビデオ生成モデルアーキテクチャである。
DiTの実践的な展開は、シーケンシャルな denoising プロセスにおける計算複雑性と冗長性によって制約される。
我々は,Skip-DiTを導入し,Skip-DiTをスキップブランチでSkip-DiTに変換し,特徴のスムーズさを高める。
また、Skip-Cacheを導入します。これは、スキップブランチを使用して、推論時にタイムステップ毎にDiT機能をキャッシュします。
論文 参考訳(メタデータ) (2024-11-26T17:28:10Z) - Dynamic Diffusion Transformer [67.13876021157887]
Diffusion Transformer (DiT) は優れた性能を示したが、かなりの計算コストに悩まされている。
本研究では,動的拡散変換器 (DyDiT) を提案する。
3%の微調整により,DiT-XLのFLOPを51%削減し,生成を1.73高速化し,ImageNet上でのFIDスコア2.07を達成する。
論文 参考訳(メタデータ) (2024-10-04T14:14:28Z) - Robust Network Learning via Inverse Scale Variational Sparsification [55.64935887249435]
時間連続な逆スケール空間の定式化において、逆スケールの変動スペーサー化フレームワークを導入する。
周波数ベースの手法とは異なり、我々の手法は小さな特徴を滑らかにすることでノイズを除去するだけでなく、ノイズを除去する。
各種騒音に対する頑健性の向上によるアプローチの有効性を示す。
論文 参考訳(メタデータ) (2024-09-27T03:17:35Z) - $Δ$-DiT: A Training-Free Acceleration Method Tailored for Diffusion Transformers [13.433352602762511]
トレーニング不要な推論アクセラレーションフレームワークであるDelta$-DiTを提案する。
$Delta$-DiTは、設計されたキャッシュ機構を使用して、初期サンプリングステージの後方DiTブロックと後期ステージの前方DiTブロックを高速化する。
PIXART-$alpha$とDiT-XLの実験は、$Delta$-DiTが20ステップ世代で1.6倍のスピードアップを達成できることを示した。
論文 参考訳(メタデータ) (2024-06-03T09:10:44Z) - Lightweight Diffusion Models with Distillation-Based Block Neural
Architecture Search [55.41583104734349]
拡散蒸留に基づくブロックワイドニューラルネットワークサーチ(NAS)により拡散モデルの構造的冗長性を自動的に除去することを提案する。
事前訓練を受けた教師がより多い場合、DiffNASを利用して、教師よりもパフォーマンスが良い最小限のアーキテクチャを探索する。
従来のブロックワイズNAS法とは異なり、DiffNASはブロックワイズ局所探索戦略と、関節ダイナミックロスを伴う再訓練戦略を含んでいる。
論文 参考訳(メタデータ) (2023-11-08T12:56:59Z) - Distance Weighted Trans Network for Image Completion [52.318730994423106]
本稿では,DWT(Distance-based Weighted Transformer)を利用した画像コンポーネント間の関係をよりよく理解するためのアーキテクチャを提案する。
CNNは、粗い事前の局所的なテクスチャ情報を強化するために使用される。
DWTブロックは、特定の粗いテクスチャやコヒーレントな視覚構造を復元するために使用される。
論文 参考訳(メタデータ) (2023-10-11T12:46:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。