論文の概要: FasterDiT: Towards Faster Diffusion Transformers Training without Architecture Modification
- arxiv url: http://arxiv.org/abs/2410.10356v1
- Date: Mon, 14 Oct 2024 10:17:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-29 22:04:40.557308
- Title: FasterDiT: Towards Faster Diffusion Transformers Training without Architecture Modification
- Title(参考訳): FasterDiT: アーキテクチャを変更することなく、より高速な拡散変換器のトレーニングを目指す
- Authors: Jingfeng Yao, Wang Cheng, Wenyu Liu, Xinggang Wang,
- Abstract要約: 拡散変換器(DiT)は収束速度が遅い。
アーキテクチャの変更なしにDiTトレーニングを加速することを目指しています。
我々は極めてシンプルで実践可能な設計戦略であるFasterDiTを提案する。
- 参考スコア(独自算出の注目度): 35.105593013654
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Diffusion Transformers (DiT) have attracted significant attention in research. However, they suffer from a slow convergence rate. In this paper, we aim to accelerate DiT training without any architectural modification. We identify the following issues in the training process: firstly, certain training strategies do not consistently perform well across different data. Secondly, the effectiveness of supervision at specific timesteps is limited. In response, we propose the following contributions: (1) We introduce a new perspective for interpreting the failure of the strategies. Specifically, we slightly extend the definition of Signal-to-Noise Ratio (SNR) and suggest observing the Probability Density Function (PDF) of SNR to understand the essence of the data robustness of the strategy. (2) We conduct numerous experiments and report over one hundred experimental results to empirically summarize a unified accelerating strategy from the perspective of PDF. (3) We develop a new supervision method that further accelerates the training process of DiT. Based on them, we propose FasterDiT, an exceedingly simple and practicable design strategy. With few lines of code modifications, it achieves 2.30 FID on ImageNet 256 resolution at 1000k iterations, which is comparable to DiT (2.27 FID) but 7 times faster in training.
- Abstract(参考訳): 拡散変換器 (DiT) は研究において大きな注目を集めている。
しかし、彼らは緩やかな収束率に悩まされている。
本稿では,アーキテクチャの変更を伴わずにDiTトレーニングを高速化することを目的としている。
まず、特定のトレーニング戦略は、異なるデータに対して一貫してうまく機能しない。
第二に、特定の時点における監督の有効性は限られている。
そこで我々は,(1)戦略の失敗を解釈する新たな視点を導入する。
具体的には、SNR(Signal-to-Noise Ratio)の定義を少し拡張し、SNRの確率密度関数(PDF)を観察して、戦略のデータロバスト性の本質を理解することを提案する。
2)実験を多数実施し,実験結果を100以上報告し,PDFの観点から統一的な加速戦略を実証的に要約した。
(3)DiTのトレーニングプロセスをさらに促進する新たな監督手法を開発する。
そこで本研究では,極めてシンプルで実践可能な設計戦略であるFasterDiTを提案する。
数行のコード修正で、1000kの繰り返しでImageNet 256の2.30 FIDを達成し、DiT(2.27 FID)に匹敵するが、トレーニングでは7倍高速である。
関連論文リスト
- Accelerating Augmentation Invariance Pretraining [7.772780341646099]
我々は、特に視覚変換器(ViT)の事前学習において、対照的な学習手法の計算課題に取り組む。
様々なシーケンス長の入力をまたいで一般化するViTのユニークな能力を生かしたアクセラレーションフレームワークを提案する。
本手法では,ランダム化トークンドロップアウトやフレキシブルパッチスケーリングなどのシーケンス圧縮戦略を併用することにより,勾配推定のコストを低減し,収束を加速する。
論文 参考訳(メタデータ) (2024-10-27T21:53:33Z) - Efficient Stagewise Pretraining via Progressive Subnetworks [53.00045381931778]
一般的な見方では、レイヤのドロップのような段階的なドロップ戦略は、スタック方式のアプローチと比べて効果がない。
本稿では, 適切な設計で, 戦略の廃止は, 積み重ね手法よりも競争力があることを示すことによって, この概念に挑戦する。
本稿では,各ステップでランダムサブネットワークのみを選択し,訓練し,段階的に拡大するランダムパートトレーニング(RAPTR)を提案する。
論文 参考訳(メタデータ) (2024-02-08T18:49:09Z) - Efficient Diffusion Training via Min-SNR Weighting Strategy [78.5801305960993]
拡散学習をマルチタスク学習問題として扱い,Min-SNR-$gamma$と呼ばれるシンプルなアプローチを導入する。
本結果は,従来の重み付け手法よりも3.4$times$高速で収束速度が大幅に向上したことを示す。
さらに効果的で、ImageNetの256times256$ベンチマークで2.06の新たなFIDスコアを達成した。
論文 参考訳(メタデータ) (2023-03-16T17:59:56Z) - Peeling the Onion: Hierarchical Reduction of Data Redundancy for
Efficient Vision Transformer Training [110.79400526706081]
ビジョントランス (ViT) は近年多くのアプリケーションで成功を収めているが、その計算量とメモリ使用量によって一般化が制限されている。
従来の圧縮アルゴリズムは通常、事前訓練された高密度モデルから始まり、効率的な推論のみに焦点を当てる。
本稿では,3つのスパースの観点から,Tri-Level E-ViTと呼ばれるエンドツーエンドの効率的なトレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2022-11-19T21:15:47Z) - Efficient Few-Shot Object Detection via Knowledge Inheritance [62.36414544915032]
Few-shot Object Detection (FSOD) は、未確認のタスクに少ないトレーニングサンプルで適応できるジェネリック検出器を学習することを目的としている。
計算量の増加を伴わない効率的なプレトレイン・トランスファー・フレームワーク(PTF)のベースラインを提案する。
また,予測された新しいウェイトと事前訓練されたベースウェイトとのベクトル長の不整合を軽減するために,適応長再スケーリング(ALR)戦略を提案する。
論文 参考訳(メタデータ) (2022-03-23T06:24:31Z) - Faster Meta Update Strategy for Noise-Robust Deep Learning [62.08964100618873]
我々は,メタグラデーションの最も高価なステップをより高速なレイヤワイズ近似に置き換えるために,新しいファMUS(Faster Meta Update Strategy)を導入する。
本手法は,同等あるいはさらに優れた一般化性能を維持しつつ,トレーニング時間の3分の2を節約できることを示す。
論文 参考訳(メタデータ) (2021-04-30T16:19:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。