論文の概要: Dynamic Diffusion Transformer
- arxiv url: http://arxiv.org/abs/2410.03456v1
- Date: Wed, 9 Oct 2024 01:01:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-02 22:09:37.834615
- Title: Dynamic Diffusion Transformer
- Title(参考訳): 動的拡散変圧器
- Authors: Wangbo Zhao, Yizeng Han, Jiasheng Tang, Kai Wang, Yibing Song, Gao Huang, Fan Wang, Yang You,
- Abstract要約: Diffusion Transformer (DiT) は優れた性能を示したが、かなりの計算コストに悩まされている。
本研究では,動的拡散変換器 (DyDiT) を提案する。
3%の微調整により,DiT-XLのFLOPを51%削減し,生成を1.73高速化し,ImageNet上でのFIDスコア2.07を達成する。
- 参考スコア(独自算出の注目度): 67.13876021157887
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion Transformer (DiT), an emerging diffusion model for image generation, has demonstrated superior performance but suffers from substantial computational costs. Our investigations reveal that these costs stem from the static inference paradigm, which inevitably introduces redundant computation in certain diffusion timesteps and spatial regions. To address this inefficiency, we propose Dynamic Diffusion Transformer (DyDiT), an architecture that dynamically adjusts its computation along both timestep and spatial dimensions during generation. Specifically, we introduce a Timestep-wise Dynamic Width (TDW) approach that adapts model width conditioned on the generation timesteps. In addition, we design a Spatial-wise Dynamic Token (SDT) strategy to avoid redundant computation at unnecessary spatial locations. Extensive experiments on various datasets and different-sized models verify the superiority of DyDiT. Notably, with <3% additional fine-tuning iterations, our method reduces the FLOPs of DiT-XL by 51%, accelerates generation by 1.73, and achieves a competitive FID score of 2.07 on ImageNet. The code is publicly available at https://github.com/NUS-HPC-AI-Lab/ Dynamic-Diffusion-Transformer.
- Abstract(参考訳): 画像生成のための拡散モデルである拡散変換器(DiT)は、優れた性能を示したが、かなりの計算コストに悩まされている。
本研究により,これらのコストは,特定の拡散時間と空間領域に必然的に冗長な計算を導入する静的推論パラダイムに起因していることが明らかとなった。
この非効率性に対処するため,動的拡散変換器 (DyDiT) を提案する。
具体的には,TDW(Timestep-wise Dynamic Width)アプローチを導入する。
さらに,不必要な空間位置における冗長な計算を回避するため,SDT(Spatial-wise Dynamic Token)戦略を設計する。
様々なデータセットと異なるサイズのモデルに対する大規模な実験は、DyDiTの優位性を検証する。
特に,<3%の微調整繰り返しにより,DiT-XLのFLOPを51%削減し,生成を1.73高速化し,ImageNet上でのFIDスコア2.07を達成する。
コードはhttps://github.com/NUS-HPC-AI-Lab/Dynamic-Diffusion-Transformerで公開されている。
関連論文リスト
- EDT: An Efficient Diffusion Transformer Framework Inspired by Human-like Sketching [20.728136287477277]
トランスフォーマーベースの拡散確率モデル(DPM)は、CNNベースのDPMよりも可能性が高い。
本研究は, 変圧器を用いたDPMの計算予算を削減するために, 効率的な拡散変換器(EDT)フレームワークを提案する。
低FID, EDT-S, EDT-B, EDT-XLはそれぞれトレーニングフェーズで3.93x, 2.84x, 1.92x, 推論で2.29x, 2.29x, 2.22xのスピードアップを達成した。
論文 参考訳(メタデータ) (2024-10-31T10:13:05Z) - FORA: Fast-Forward Caching in Diffusion Transformer Acceleration [39.51519525071639]
拡散変換器(DiT)は、高品質な画像やビデオを生成するための事実上の選択肢となっている。
Fast-FORward Caching (FORA) は拡散過程の反復特性を利用してDiTを加速するように設計されている。
論文 参考訳(メタデータ) (2024-07-01T16:14:37Z) - Alleviating Distortion in Image Generation via Multi-Resolution Diffusion Models [26.926712014346432]
本稿では,新しいマルチレゾリューションネットワークと時間依存層正規化を統合することで,拡散モデルの革新的拡張を提案する。
提案手法の有効性は,ImageNet 256 x 256で1.70,ImageNet 512 x 512で2.89の新しい最先端FIDスコアを設定することで,クラス条件のImageNet生成ベンチマークで実証される。
論文 参考訳(メタデータ) (2024-06-13T17:59:58Z) - Learning-to-Cache: Accelerating Diffusion Transformer via Layer Caching [56.286064975443026]
拡散変圧器内の多数の層をキャッシュ機構で計算することで、モデルパラメータを更新しなくても容易に除去できる。
本稿では,拡散変圧器の動的手法でキャッシングを学習するL2C(Learningto-Cache)を提案する。
実験の結果,L2C は DDIM や DPM-r など,キャッシュベースの従来の手法と同等の推論速度で性能を向上することがわかった。
論文 参考訳(メタデータ) (2024-06-03T18:49:57Z) - A-SDM: Accelerating Stable Diffusion through Model Assembly and Feature Inheritance Strategies [51.7643024367548]
安定拡散モデルは、テキスト・ツー・イメージ(T2I)と画像・ツー・イメージ(I2I)生成のための一般的かつ効果的なモデルである。
本研究では、SDMにおける冗長計算の削減と、チューニング不要とチューニング不要の両方の手法によるモデルの最適化に焦点をあてる。
論文 参考訳(メタデータ) (2024-05-31T21:47:05Z) - DiG: Scalable and Efficient Diffusion Models with Gated Linear Attention [82.24166963631949]
Diffusion Gated Linear Attention Transformers (DiG) は、Diffusion Transformers (DiT) の設計に従って、最小限のパラメータオーバーヘッドを持つ単純で適用可能なソリューションである。
DiTよりも優れたパフォーマンスに加えて、DiG-S/2はDiT-S/2よりも2.5times$高いトレーニング速度を示し、メモリ解像度は75.7%$179times 1792$である。
同じモデルサイズで、DIG-XL/2は最近のMambaベースの拡散モデルより4.2倍、解像度は1024ドルで、FlashAttention-2でDiTより1.8倍速い。
論文 参考訳(メタデータ) (2024-05-28T17:59:33Z) - DenseFormer: Enhancing Information Flow in Transformers via Depth Weighted Averaging [34.643717080240584]
我々はDenseFormerを提案する。DenseFormerは、モデルのサイズを増大させることなく、モデルの難易度を向上する標準アーキテクチャの簡単な修正である。
提案手法は,現在および過去の表現の重み付き平均を計算する,各変圧器ブロックの後の加算平均ステップに依存する。
実験によると、DenseFormerはよりデータ効率が高く、より深いトランスフォーマーモデルと同じ難易度に達する。
論文 参考訳(メタデータ) (2024-02-04T21:44:09Z) - DiffiT: Diffusion Vision Transformers for Image Generation [88.08529836125399]
ViT(Vision Transformer)は、特に認識タスクにおいて、強力なモデリング機能とスケーラビリティを実証している。
拡散型生成学習におけるViTの有効性について検討し、拡散ビジョン変換器(DiffiT)と呼ばれる新しいモデルを提案する。
DiffiTはパラメータ効率が大幅に向上した高忠実度画像を生成するのに驚くほど効果的である。
論文 参考訳(メタデータ) (2023-12-04T18:57:01Z) - DS-Net++: Dynamic Weight Slicing for Efficient Inference in CNNs and
Transformers [105.74546828182834]
本稿では,様々な難易度を持つ入力に対して,ネットワークパラメータの一部を適応的にスライスする動的ウェイトスライシングという,ハードウェア効率のよい動的推論方式を示す。
我々は、CNNのフィルタ数とCNNと変換器の多重次元を入力依存的に調整することで、動的スライム可能なネットワーク(DS-Net)と動的スライス可能なネットワーク(DS-Net++)を提案する。
論文 参考訳(メタデータ) (2021-09-21T09:57:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。