論文の概要: Scaling Diffusion Transformers to 16 Billion Parameters
- arxiv url: http://arxiv.org/abs/2407.11633v2
- Date: Fri, 6 Sep 2024 06:00:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-09 18:20:31.086163
- Title: Scaling Diffusion Transformers to 16 Billion Parameters
- Title(参考訳): 拡散変換器の16億パラメータへのスケーリング
- Authors: Zhengcong Fei, Mingyuan Fan, Changqian Yu, Debang Li, Junshi Huang,
- Abstract要約: 本稿では拡散変換器のスパースバージョンであるDiT-MoEについて述べる。
実験により,DiT-MoEは高密度ネットワークに匹敵する性能を実現するが,推論時の計算負荷ははるかに少ないことを示す。
- 参考スコア(独自算出の注目度): 33.372947082734946
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we present DiT-MoE, a sparse version of the diffusion Transformer, that is scalable and competitive with dense networks while exhibiting highly optimized inference. The DiT-MoE includes two simple designs: shared expert routing and expert-level balance loss, thereby capturing common knowledge and reducing redundancy among the different routed experts. When applied to conditional image generation, a deep analysis of experts specialization gains some interesting observations: (i) Expert selection shows preference with spatial position and denoising time step, while insensitive with different class-conditional information; (ii) As the MoE layers go deeper, the selection of experts gradually shifts from specific spacial position to dispersion and balance. (iii) Expert specialization tends to be more concentrated at the early time step and then gradually uniform after half. We attribute it to the diffusion process that first models the low-frequency spatial information and then high-frequency complex information. Based on the above guidance, a series of DiT-MoE experimentally achieves performance on par with dense networks yet requires much less computational load during inference. More encouragingly, we demonstrate the potential of DiT-MoE with synthesized image data, scaling diffusion model at a 16.5B parameter that attains a new SoTA FID-50K score of 1.80 in 512$\times$512 resolution settings. The project page: https://github.com/feizc/DiT-MoE.
- Abstract(参考訳): 本稿では,拡散変換器のスパースバージョンであるDiT-MoEについて述べる。
DiT-MoEには、共有専門家ルーティングと専門家レベルのバランス損失という2つのシンプルな設計が含まれている。
条件付き画像生成に適用した場合、専門家の専門化を深く分析すると、興味深い結果が得られます。
一 専門家の選択は、異なるクラス条件情報に敏感でありながら、空間的位置及び騒音の段階による嗜好を示す。
(二)MoE層が深くなるにつれて、専門家の選抜は徐々に、特定の空間的位置から分散とバランスへと変化していく。
三 専門家の専門化は、早い段階でより集中し、半後徐々に一様になる傾向にある。
本稿では、まず低周波空間情報をモデル化し、次に高周波複素情報をモデル化する拡散過程に起因する。
上記のガイダンスに基づき、一連のDiT-MoEは、高密度ネットワークと同等の性能を実験的に達成するが、推論時に計算負荷をはるかに少なくする。
さらに、合成画像データを用いてDiT-MoEの可能性を示し、新しいSoTA FID-50Kスコアが512$\times$512の解像度設定で1.80となる16.5Bパラメータで拡散モデルをスケーリングする。
プロジェクトページ:https://github.com/feizc/DiT-MoE。
関連論文リスト
- Dynamic Diffusion Transformer [67.13876021157887]
Diffusion Transformer (DiT) は優れた性能を示したが、かなりの計算コストに悩まされている。
本研究では,動的拡散変換器 (DyDiT) を提案する。
3%の微調整により,DiT-XLのFLOPを51%削減し,生成を1.73高速化し,ImageNet上でのFIDスコア2.07を達成する。
論文 参考訳(メタデータ) (2024-10-04T14:14:28Z) - Effective Diffusion Transformer Architecture for Image Super-Resolution [63.254644431016345]
画像超解像のための効果的な拡散変換器(DiT-SR)を設計する。
実際には、DiT-SRは全体のU字型アーキテクチャを活用し、すべての変圧器ブロックに対して均一な等方性設計を採用する。
我々は、広く使われているAdaLNの制限を分析し、周波数適応型時間-ステップ条件付けモジュールを提案する。
論文 参考訳(メタデータ) (2024-09-29T07:14:16Z) - Mixture of Efficient Diffusion Experts Through Automatic Interval and Sub-Network Selection [63.96018203905272]
本稿では, 事前学習した拡散モデルを用いて, 効率の良い専門家の混入を図り, サンプリングコストを削減することを提案する。
提案手法であるDiffPruningの有効性を,複数のデータセットで示す。
論文 参考訳(メタデータ) (2024-09-23T21:27:26Z) - DeepMpMRI: Tensor-decomposition Regularized Learning for Fast and High-Fidelity Multi-Parametric Microstructural MR Imaging [15.408939800451696]
本稿では,様々な拡散モデルから高速かつ高忠実なマルチパラメトリック推定を行うための統一フレームワークを提案する。
DeepMpMRIは、細部を効果的に捉えるために新しく設計されたテンソル分解ベースの正規化器を備えている。
論文 参考訳(メタデータ) (2024-05-06T04:36:02Z) - Analyzing and Improving the Training Dynamics of Diffusion Models [36.37845647984578]
一般的なADM拡散モデルアーキテクチャにおいて、不均一かつ非効率なトレーニングの原因をいくつか特定し、修正する。
この哲学の体系的な応用は、観測されたドリフトと不均衡を排除し、同じ計算複雑性でネットワークをかなり良くする。
論文 参考訳(メタデータ) (2023-12-05T11:55:47Z) - Q-Diffusion: Quantizing Diffusion Models [52.978047249670276]
ポストトレーニング量子化(PTQ)は、他のタスクに対するゴーツー圧縮法であると考えられている。
本稿では,一意なマルチステップパイプラインとモデルアーキテクチャに適した新しいPTQ手法を提案する。
提案手法は,完全精度の非条件拡散モデルを同等の性能を維持しつつ4ビットに定量化できることを示す。
論文 参考訳(メタデータ) (2023-02-08T19:38:59Z) - Diffusion Probabilistic Model Made Slim [128.2227518929644]
軽量画像合成のためのスリム拡散確率モデル(DPM)のカスタマイズ設計を提案する。
一連の条件および非条件画像生成タスクにおける遅延拡散モデルと比較して,計算複雑性を8-18倍に削減する。
論文 参考訳(メタデータ) (2022-11-27T16:27:28Z) - Inception Transformer [151.939077819196]
インセプショントランスフォーマー(iFormer)は、視覚データ中の高周波数情報と低周波情報の両方で包括的特徴を学習する。
我々は、iFormerを一連の視覚タスクでベンチマークし、画像分類、COCO検出、ADE20Kセグメンテーションにおいて優れた性能を発揮することを示した。
論文 参考訳(メタデータ) (2022-05-25T17:59:54Z) - Building a great multi-lingual teacher with sparsely-gated mixture of
experts for speech recognition [13.64861164899787]
Mixture of Experts (MoE) は、計算量が少ないネットワーク容量を拡大することができる。
本稿では,S2S-T(Sequence-to-Sequence Transformer)とT-T(Transformer Transducer)の2種類のネットワークに適用する。
論文 参考訳(メタデータ) (2021-12-10T20:37:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。