論文の概要: EDT: An Efficient Diffusion Transformer Framework Inspired by Human-like Sketching
- arxiv url: http://arxiv.org/abs/2410.23788v1
- Date: Thu, 31 Oct 2024 10:13:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-01 17:03:09.543694
- Title: EDT: An Efficient Diffusion Transformer Framework Inspired by Human-like Sketching
- Title(参考訳): EDT:人間ライクなスケッチにインスパイアされた効率的な拡散変圧器フレームワーク
- Authors: Xinwang Chen, Ning Liu, Yichen Zhu, Feifei Feng, Jian Tang,
- Abstract要約: トランスフォーマーベースの拡散確率モデル(DPM)は、CNNベースのDPMよりも可能性が高い。
本研究は, 変圧器を用いたDPMの計算予算を削減するために, 効率的な拡散変換器(EDT)フレームワークを提案する。
低FID, EDT-S, EDT-B, EDT-XLはそれぞれトレーニングフェーズで3.93x, 2.84x, 1.92x, 推論で2.29x, 2.29x, 2.22xのスピードアップを達成した。
- 参考スコア(独自算出の注目度): 20.728136287477277
- License:
- Abstract: Transformer-based Diffusion Probabilistic Models (DPMs) have shown more potential than CNN-based DPMs, yet their extensive computational requirements hinder widespread practical applications. To reduce the computation budget of transformer-based DPMs, this work proposes the Efficient Diffusion Transformer (EDT) framework. The framework includes a lightweight-design diffusion model architecture, and a training-free Attention Modulation Matrix and its alternation arrangement in EDT inspired by human-like sketching. Additionally, we propose a token relation-enhanced masking training strategy tailored explicitly for EDT to augment its token relation learning capability. Our extensive experiments demonstrate the efficacy of EDT. The EDT framework reduces training and inference costs and surpasses existing transformer-based diffusion models in image synthesis performance, thereby achieving a significant overall enhancement. With lower FID, EDT-S, EDT-B, and EDT-XL attained speed-ups of 3.93x, 2.84x, and 1.92x respectively in the training phase, and 2.29x, 2.29x, and 2.22x respectively in inference, compared to the corresponding sizes of MDTv2. The source code is released at https://github.com/xinwangChen/EDT.
- Abstract(参考訳): トランスフォーマーベースの拡散確率モデル(DPM)は、CNNベースのDPMよりも高い可能性を示しているが、その広範な計算要求は、広範な実用化を妨げている。
変換器をベースとしたDPMの計算予算を削減するため,EDT(Efficient Diffusion Transformer)フレームワークを提案する。
このフレームワークは、軽量設計拡散モデルアーキテクチャと、トレーニング不要のアテンション変調マトリックスと、人間のようなスケッチにインスパイアされたEDTにおける変更アレンジメントを含む。
さらに,トークン関係強化型マスキング学習手法を提案する。
EDTの有効性を示す大規模な実験を行った。
EDTフレームワークは、トレーニングと推論のコストを削減し、画像合成性能において既存のトランスフォーマーベースの拡散モデルを上回ることにより、大幅な全体的な拡張を実現する。
低FID, EDT-S, EDT-B, EDT-XLはそれぞれトレーニングフェーズで3.93x, 2.84x, 1.92x, 推論で2.29x, 2.29x, 2.22xに達した。
ソースコードはhttps://github.com/xinwangChen/EDT.comで公開されている。
関連論文リスト
- Shrinking the Giant : Quasi-Weightless Transformers for Low Energy Inference [0.30104001512119216]
高速でエネルギー効率のよい推論モデルの構築は、様々なトランスフォーマーベースのアプリケーションを実現するために不可欠である。
拡張有限差分法によりLUTネットワークを直接学習する手法を構築した。
これにより、トランスベースのモデルに対する計算的でエネルギー効率の良い推論ソリューションが実現される。
論文 参考訳(メタデータ) (2024-11-04T05:38:56Z) - Dynamic Diffusion Transformer [67.13876021157887]
Diffusion Transformer (DiT) は優れた性能を示したが、かなりの計算コストに悩まされている。
本研究では,動的拡散変換器 (DyDiT) を提案する。
3%の微調整により,DiT-XLのFLOPを51%削減し,生成を1.73高速化し,ImageNet上でのFIDスコア2.07を達成する。
論文 参考訳(メタデータ) (2024-10-04T14:14:28Z) - MDT-A2G: Exploring Masked Diffusion Transformers for Co-Speech Gesture Generation [44.74056930805525]
MDT-A2Gと呼ばれる音声合成のための新しいMasked Diffusion Transformerを提案する。
このモデルは、シーケンスジェスチャ間の時間的関係学習を強化するために特別に設計されたマスクモデリングスキームを用いる。
実験の結果,MDT-A2Gはジェスチャ生成に優れ,従来の拡散変圧器よりも6ドル以上高速な学習速度を有することがわかった。
論文 参考訳(メタデータ) (2024-08-06T17:29:01Z) - FORA: Fast-Forward Caching in Diffusion Transformer Acceleration [39.51519525071639]
拡散変換器(DiT)は、高品質な画像やビデオを生成するための事実上の選択肢となっている。
Fast-FORward Caching (FORA) は拡散過程の反復特性を利用してDiTを加速するように設計されている。
論文 参考訳(メタデータ) (2024-07-01T16:14:37Z) - Binarized Diffusion Model for Image Super-Resolution [61.963833405167875]
超圧縮アルゴリズムであるバイナリ化は、高度な拡散モデル(DM)を効果的に加速する可能性を提供する
既存の二項化法では性能が著しく低下する。
画像SRのための新しいバイナライズ拡散モデルBI-DiffSRを提案する。
論文 参考訳(メタデータ) (2024-06-09T10:30:25Z) - TerDiT: Ternary Diffusion Models with Transformers [83.94829676057692]
TerDiTは変圧器を用いた3次拡散モデルのための量子化対応トレーニングスキームである。
我々は、DiTネットワークの3元化とスケールモデルサイズを600Mから4.2Bに焦点をあてる。
論文 参考訳(メタデータ) (2024-05-23T17:57:24Z) - Beyond Scaling Laws: Understanding Transformer Performance with Associative Memory [11.3128832831327]
Transformerモデルのサイズが大きくなると、パフォーマンスが向上するとは限らない。
モデルがトレーニングサンプルを記憶するにつれて、一般化能力が向上する。
本稿では,変圧器に基づく言語モデルの記憶過程と性能動態に光を当てる理論的枠組みを提案する。
論文 参考訳(メタデータ) (2024-05-14T15:48:36Z) - SD-DiT: Unleashing the Power of Self-supervised Discrimination in Diffusion Transformer [102.39050180060913]
拡散変換器(DiT)は画像生成における生成拡散モデルの新たなトレンドとして登場した。
最近のブレークスルーは、画像内文脈学習を追加することで、DiTのトレーニング効率を大幅に改善するマスク戦略によって推進されている。
本研究は,DiTトレーニングを促進するための自己監督的識別知識を新たに開放することで,これらの制約に対処する。
論文 参考訳(メタデータ) (2024-03-25T17:59:35Z) - 2-D SSM: A General Spatial Layer for Visual Transformers [79.4957965474334]
コンピュータビジョンの中心的な目的は、適切な2次元帰納バイアスを持つモデルを設計することである。
多次元状態空間モデルの表現的変動を利用する。
本稿では,効率的なパラメータ化,高速化計算,適切な正規化方式を提案する。
論文 参考訳(メタデータ) (2023-06-11T09:41:37Z) - Learning Efficient GANs for Image Translation via Differentiable Masks
and co-Attention Distillation [130.30465659190773]
Generative Adversarial Networks (GAN) は画像翻訳において広く利用されているが、その高い計算とストレージコストがモバイルデバイスへの展開を妨げる。
DMADと呼ばれる新しいGAN圧縮手法を提案する。
実験の結果、DMADはCycleGANのMultiply Accumulate Operations (MAC)を13倍、Pix2Pixを4倍削減し、フルモデルに匹敵する性能を維持することができた。
論文 参考訳(メタデータ) (2020-11-17T02:39:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。