論文の概要: EDT: An Efficient Diffusion Transformer Framework Inspired by Human-like Sketching
- arxiv url: http://arxiv.org/abs/2410.23788v1
- Date: Thu, 31 Oct 2024 10:13:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-01 17:03:09.543694
- Title: EDT: An Efficient Diffusion Transformer Framework Inspired by Human-like Sketching
- Title(参考訳): EDT:人間ライクなスケッチにインスパイアされた効率的な拡散変圧器フレームワーク
- Authors: Xinwang Chen, Ning Liu, Yichen Zhu, Feifei Feng, Jian Tang,
- Abstract要約: トランスフォーマーベースの拡散確率モデル(DPM)は、CNNベースのDPMよりも可能性が高い。
本研究は, 変圧器を用いたDPMの計算予算を削減するために, 効率的な拡散変換器(EDT)フレームワークを提案する。
低FID, EDT-S, EDT-B, EDT-XLはそれぞれトレーニングフェーズで3.93x, 2.84x, 1.92x, 推論で2.29x, 2.29x, 2.22xのスピードアップを達成した。
- 参考スコア(独自算出の注目度): 20.728136287477277
- License:
- Abstract: Transformer-based Diffusion Probabilistic Models (DPMs) have shown more potential than CNN-based DPMs, yet their extensive computational requirements hinder widespread practical applications. To reduce the computation budget of transformer-based DPMs, this work proposes the Efficient Diffusion Transformer (EDT) framework. The framework includes a lightweight-design diffusion model architecture, and a training-free Attention Modulation Matrix and its alternation arrangement in EDT inspired by human-like sketching. Additionally, we propose a token relation-enhanced masking training strategy tailored explicitly for EDT to augment its token relation learning capability. Our extensive experiments demonstrate the efficacy of EDT. The EDT framework reduces training and inference costs and surpasses existing transformer-based diffusion models in image synthesis performance, thereby achieving a significant overall enhancement. With lower FID, EDT-S, EDT-B, and EDT-XL attained speed-ups of 3.93x, 2.84x, and 1.92x respectively in the training phase, and 2.29x, 2.29x, and 2.22x respectively in inference, compared to the corresponding sizes of MDTv2. The source code is released at https://github.com/xinwangChen/EDT.
- Abstract(参考訳): トランスフォーマーベースの拡散確率モデル(DPM)は、CNNベースのDPMよりも高い可能性を示しているが、その広範な計算要求は、広範な実用化を妨げている。
変換器をベースとしたDPMの計算予算を削減するため,EDT(Efficient Diffusion Transformer)フレームワークを提案する。
このフレームワークは、軽量設計拡散モデルアーキテクチャと、トレーニング不要のアテンション変調マトリックスと、人間のようなスケッチにインスパイアされたEDTにおける変更アレンジメントを含む。
さらに,トークン関係強化型マスキング学習手法を提案する。
EDTの有効性を示す大規模な実験を行った。
EDTフレームワークは、トレーニングと推論のコストを削減し、画像合成性能において既存のトランスフォーマーベースの拡散モデルを上回ることにより、大幅な全体的な拡張を実現する。
低FID, EDT-S, EDT-B, EDT-XLはそれぞれトレーニングフェーズで3.93x, 2.84x, 1.92x, 推論で2.29x, 2.29x, 2.22xに達した。
ソースコードはhttps://github.com/xinwangChen/EDT.comで公開されている。
関連論文リスト
- Binary Event-Driven Spiking Transformer [36.815359983551986]
トランスフォーマーベースのスパイキングニューラルネットワーク(SNN)は、イベント駆動型自己注意パラダイムを導入している。
本稿では,2値イベント駆動型スパイキング変換器,BESTformerを提案する。
BESTformerは、バイナライゼーションの限られた表現能力のため、完全な精度で性能が低下する。
論文 参考訳(メタデータ) (2025-01-10T12:00:11Z) - EXION: Exploiting Inter- and Intra-Iteration Output Sparsity for Diffusion Models [12.931893842093718]
SW-HW共同設計型拡散加速器であるEXIONについて紹介する。
これは拡散モデルにおける特異な点間および点内出力の空間性を利用する。
サーバGPUと比較して3.2-379.3xと45.1-3067.6x、エッジGPUに比べて42.6-1090.9xと196.9-4668.2xの性能改善を実現している。
論文 参考訳(メタデータ) (2025-01-10T03:07:28Z) - Reconstruction vs. Generation: Taming Optimization Dilemma in Latent Diffusion Models [34.15905637499148]
本稿では,視覚トークン化器のトレーニングにおいて,潜在空間と事前学習された視覚基盤モデルとの整合性を提案する。
提案するVA-VAEは遅延拡散モデルの再構成世代フロンティアを著しく拡張する。
私たちは、LightningDiTと呼ばれるトレーニング戦略とアーキテクチャ設計を改善した拡張DiTベースラインを構築します。
論文 参考訳(メタデータ) (2025-01-02T18:59:40Z) - Shrinking the Giant : Quasi-Weightless Transformers for Low Energy Inference [0.30104001512119216]
高速でエネルギー効率のよい推論モデルの構築は、様々なトランスフォーマーベースのアプリケーションを実現するために不可欠である。
拡張有限差分法によりLUTネットワークを直接学習する手法を構築した。
これにより、トランスベースのモデルに対する計算的でエネルギー効率の良い推論ソリューションが実現される。
論文 参考訳(メタデータ) (2024-11-04T05:38:56Z) - Dynamic Diffusion Transformer [67.13876021157887]
Diffusion Transformer (DiT) は優れた性能を示したが、かなりの計算コストに悩まされている。
本研究では,動的拡散変換器 (DyDiT) を提案する。
3%の微調整により,DiT-XLのFLOPを51%削減し,生成を1.73高速化し,ImageNet上でのFIDスコア2.07を達成する。
論文 参考訳(メタデータ) (2024-10-04T14:14:28Z) - Binarized Diffusion Model for Image Super-Resolution [61.963833405167875]
超圧縮アルゴリズムであるバイナリ化は、高度な拡散モデル(DM)を効果的に加速する可能性を提供する
既存の二項化法では性能が著しく低下する。
画像SRのための新しいバイナライズ拡散モデルBI-DiffSRを提案する。
論文 参考訳(メタデータ) (2024-06-09T10:30:25Z) - TerDiT: Ternary Diffusion Models with Transformers [83.94829676057692]
TerDiTは変圧器を用いた3次拡散モデルのための量子化対応トレーニングスキームである。
我々は、DiTネットワークの3元化とスケールモデルサイズを600Mから4.2Bに焦点をあてる。
論文 参考訳(メタデータ) (2024-05-23T17:57:24Z) - SD-DiT: Unleashing the Power of Self-supervised Discrimination in Diffusion Transformer [102.39050180060913]
拡散変換器(DiT)は画像生成における生成拡散モデルの新たなトレンドとして登場した。
最近のブレークスルーは、画像内文脈学習を追加することで、DiTのトレーニング効率を大幅に改善するマスク戦略によって推進されている。
本研究は,DiTトレーニングを促進するための自己監督的識別知識を新たに開放することで,これらの制約に対処する。
論文 参考訳(メタデータ) (2024-03-25T17:59:35Z) - 2-D SSM: A General Spatial Layer for Visual Transformers [79.4957965474334]
コンピュータビジョンの中心的な目的は、適切な2次元帰納バイアスを持つモデルを設計することである。
多次元状態空間モデルの表現的変動を利用する。
本稿では,効率的なパラメータ化,高速化計算,適切な正規化方式を提案する。
論文 参考訳(メタデータ) (2023-06-11T09:41:37Z) - Learning Efficient GANs for Image Translation via Differentiable Masks
and co-Attention Distillation [130.30465659190773]
Generative Adversarial Networks (GAN) は画像翻訳において広く利用されているが、その高い計算とストレージコストがモバイルデバイスへの展開を妨げる。
DMADと呼ばれる新しいGAN圧縮手法を提案する。
実験の結果、DMADはCycleGANのMultiply Accumulate Operations (MAC)を13倍、Pix2Pixを4倍削減し、フルモデルに匹敵する性能を維持することができた。
論文 参考訳(メタデータ) (2020-11-17T02:39:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。