論文の概要: Scaling Diffusion Transformers Efficiently via $μ$P
- arxiv url: http://arxiv.org/abs/2505.15270v1
- Date: Wed, 21 May 2025 08:49:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-22 15:42:59.326305
- Title: Scaling Diffusion Transformers Efficiently via $μ$P
- Title(参考訳): μ$Pによる拡散変圧器のスケーリング
- Authors: Chenyu Zheng, Xinyu Zhang, Rongzhen Wang, Wei Huang, Zhi Tian, Weilin Huang, Jun Zhu, Chongxuan Li,
- Abstract要約: 最小更新パラメトリゼーション(mu$P)は、小さな言語モデルから大規模な言語モデルへの安定したHP転送を可能にするバニラトランスフォーマーに対して提案された。
拡散変換器に標準の$mu$Pを一般化し、大規模実験によりその有効性を検証する。
- 参考スコア(独自算出の注目度): 61.64043787316389
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion Transformers have emerged as the foundation for vision generative models, but their scalability is limited by the high cost of hyperparameter (HP) tuning at large scales. Recently, Maximal Update Parametrization ($\mu$P) was proposed for vanilla Transformers, which enables stable HP transfer from small to large language models, and dramatically reduces tuning costs. However, it remains unclear whether $\mu$P of vanilla Transformers extends to diffusion Transformers, which differ architecturally and objectively. In this work, we generalize standard $\mu$P to diffusion Transformers and validate its effectiveness through large-scale experiments. First, we rigorously prove that $\mu$P of mainstream diffusion Transformers, including DiT, U-ViT, PixArt-$\alpha$, and MMDiT, aligns with that of the vanilla Transformer, enabling the direct application of existing $\mu$P methodologies. Leveraging this result, we systematically demonstrate that DiT-$\mu$P enjoys robust HP transferability. Notably, DiT-XL-2-$\mu$P with transferred learning rate achieves 2.9 times faster convergence than the original DiT-XL-2. Finally, we validate the effectiveness of $\mu$P on text-to-image generation by scaling PixArt-$\alpha$ from 0.04B to 0.61B and MMDiT from 0.18B to 18B. In both cases, models under $\mu$P outperform their respective baselines while requiring small tuning cost, only 5.5% of one training run for PixArt-$\alpha$ and 3% of consumption by human experts for MMDiT-18B. These results establish $\mu$P as a principled and efficient framework for scaling diffusion Transformers.
- Abstract(参考訳): 拡散変換器は視覚生成モデルの基盤として登場したが、そのスケーラビリティは大規模なハイパーパラメータチューニング(HP)によって制限されている。
近年,バニラ変圧器の最大更新パラメトリゼーション($\mu$P)が提案されている。
しかしながら、バニラ変換器の$\mu$Pが、アーキテクチャ上、客観的に異なる拡散変換器に拡張されるかどうかは不明である。
本研究では,拡散変換器に標準$\mu$Pを一般化し,大規模実験によりその有効性を検証する。
まず、DiT、U-ViT、PixArt-$\alpha$、MMDiTを含む主流拡散変換器の$\mu$Pがバニラ変換器のそれと整合し、既存の$\mu$P方法論の直接適用を可能にすることを厳密に証明する。
この結果を利用して、Dit-$\mu$P が堅牢な HP 転送性を持っていることを系統的に示す。
特に、トランスファーラーニングレートのDiT-XL-2-$\mu$Pは、元のDiT-XL-2の2.9倍の収束を実現している。
最後に、PixArt-$\alpha$を0.04Bから0.61Bに、MMDiTを0.18Bから18Bに拡張することにより、テキスト・画像生成における$\mu$Pの有効性を検証する。
どちらの場合も、$\mu$P以下のモデルは、小さなチューニングコストを必要としながら、それぞれのベースラインを上回り、PixArt-$\alpha$で1回のトレーニングの5.5%、MMDiT-18Bで人間の専門家が消費する3%しかありません。
これらの結果は拡散変換器をスケーリングするための原理的かつ効率的なフレームワークとして$\mu$Pを確立する。
関連論文リスト
- Transformers without Normalization [58.778767721826206]
トランスフォーマーの正規化レイヤのドロップイン置換として、DyT($x$) = tanh(alpha $x$)$という要素演算式であるDynamic Tanh(DyT)を導入する。
我々は、認識から生成、教師付き学習、教師付き学習、コンピュータビジョンから言語モデルまで、様々な環境において、DyTを用いたトランスフォーマーの有効性を検証する。
論文 参考訳(メタデータ) (2025-03-13T17:59:06Z) - TinyFusion: Diffusion Transformers Learned Shallow [52.96232442322824]
拡散変換器は画像生成において顕著な機能を示すが、しばしば過度なパラメータ化を伴う。
本稿では,拡散変圧器の冗長層をエンド・ツー・エンド・ラーニングにより除去する深度切削法TinyFusionを提案する。
DiT-XLの実験では、TinyFusionはトレーニング前のコストの7%以下で浅い拡散変圧器を製造でき、FIDスコアが2.86で2$times$のスピードアップを達成した。
論文 参考訳(メタデータ) (2024-12-02T07:05:39Z) - On the Role of Depth and Looping for In-Context Learning with Task Diversity [69.4145579827826]
多様なタスクを伴う線形回帰のための文脈内学習について検討する。
We show that multilayer Transformer is not robust to even distributional shifts as $O(e-L)$ in Wasserstein distance。
論文 参考訳(メタデータ) (2024-10-29T03:27:56Z) - Stretching Each Dollar: Diffusion Training from Scratch on a Micro-Budget [53.311109531586844]
大規模T2I拡散変圧器モデルの低コスト化を実証する。
我々は16億のパラメータスパーストランスをわずか1890ドルの経済的コストで訓練し、ゼロショット世代で12.7 FIDを達成する。
我々は、マイクロ予算での大規模拡散モデルのトレーニングをさらに民主化するために、エンドツーエンドのトレーニングパイプラインをリリースすることを目指している。
論文 参考訳(メタデータ) (2024-07-22T17:23:28Z) - DiG: Scalable and Efficient Diffusion Models with Gated Linear Attention [82.24166963631949]
Diffusion Gated Linear Attention Transformers (DiG) は、最小限のパラメータオーバーヘッドを持つ単純で適用可能なソリューションである。
より優れた効率性と競争効率を示す、平易なU字型アーキテクチャの2つのバリエーションを提供する。
論文 参考訳(メタデータ) (2024-05-28T17:59:33Z) - Fourier or Wavelet bases as counterpart self-attention in spikformer for efficient visual classification [9.312432667108691]
生体可塑性スパイキングニューラルネットワーク(SNN)と人工トランスフォーマーを組み合わせたエネルギー効率の高いスパイクフォーマーが提案されている。
本稿では,バニラSSAをスパイク形式のフーリエ変換,ウェーブレット変換,およびそれらの組み合わせに置き換える。
FWformerは、同等またはそれ以上のアキュラシー(0.4%$-1.5%$)、より高いランニングスピード(9%$-51%$)、推論のために19%$-70%$を達成することができる。
論文 参考訳(メタデータ) (2024-03-27T03:31:16Z) - Cross-view Masked Diffusion Transformers for Person Image Synthesis [21.242398582282522]
ポーズ誘導画像生成のための新しい拡散モデルであるX-MDPTを提案する。
X-MDPTは、潜伏パッチで動作するマスク付き拡散トランスフォーマーを用いて、自分自身を区別する。
我々のモデルはDeepFashionデータセットにおける最先端のアプローチよりも優れています。
論文 参考訳(メタデータ) (2024-02-02T15:57:13Z) - p-Laplacian Transformer [7.2541371193810384]
グラフと画像信号処理をルーツとする$p$-Laplacian正規化は、これらのデータに対する正規化効果を制御するパラメータ$p$を導入している。
まず、自己注意機構が最小のラプラシアン正規化を得ることを示す。
次に、新しい変圧器のクラス、すなわち$p$-Laplacian Transformer (p-LaT)を提案する。
論文 参考訳(メタデータ) (2023-11-06T16:25:56Z) - Go Wider Instead of Deeper [11.4541055228727]
我々は、より深くではなく、より広い範囲でトレーニング可能なパラメータを効率的にデプロイするフレームワークを提案する。
私たちの最良のモデルはViT(Vision Transformer)を1.46%$、0.72倍のトレーニング可能なパラメータで上回ります。
私たちのフレームワークは、ViTとViT-MoEをそれぞれ0.83%$と2.08%$で上回ることができます。
論文 参考訳(メタデータ) (2021-07-25T14:44:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。