論文の概要: Early-Bird Diffusion: Investigating and Leveraging Timestep-Aware Early-Bird Tickets in Diffusion Models for Efficient Training
- arxiv url: http://arxiv.org/abs/2504.09606v1
- Date: Sun, 13 Apr 2025 14:53:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-15 16:51:59.203015
- Title: Early-Bird Diffusion: Investigating and Leveraging Timestep-Aware Early-Bird Tickets in Diffusion Models for Efficient Training
- Title(参考訳): 早期拡散 : 効率的な訓練のための早期拡散モデルにおける時間ステップ認識早期拡散パターンの探索と活用
- Authors: Lexington Whalen, Zhenbang Du, Haoran You, Chaojian Li, Sixu Li, Yingyan, Lin,
- Abstract要約: 訓練拡散モデル(DM)は、かなりの計算資源を必要とする。
本稿では,新しい効率的なDMトレーニング手法であるEB-Diff-Trainを提案する。
このアプローチは、空間的にも時間的にも、トレーニング時間を著しく短縮することができる。
- 参考スコア(独自算出の注目度): 9.680799617245194
- License:
- Abstract: Training diffusion models (DMs) requires substantial computational resources due to multiple forward and backward passes across numerous timesteps, motivating research into efficient training techniques. In this paper, we propose EB-Diff-Train, a new efficient DM training approach that is orthogonal to other methods of accelerating DM training, by investigating and leveraging Early-Bird (EB) tickets -- sparse subnetworks that manifest early in the training process and maintain high generation quality. We first investigate the existence of traditional EB tickets in DMs, enabling competitive generation quality without fully training a dense model. Then, we delve into the concept of diffusion-dedicated EB tickets, drawing on insights from varying importance of different timestep regions. These tickets adapt their sparsity levels according to the importance of corresponding timestep regions, allowing for aggressive sparsity during non-critical regions while conserving computational resources for crucial timestep regions. Building on this, we develop an efficient DM training technique that derives timestep-aware EB tickets, trains them in parallel, and combines them during inference for image generation. Extensive experiments validate the existence of both traditional and timestep-aware EB tickets, as well as the effectiveness of our proposed EB-Diff-Train method. This approach can significantly reduce training time both spatially and temporally -- achieving 2.9$\times$ to 5.8$\times$ speedups over training unpruned dense models, and up to 10.3$\times$ faster training compared to standard train-prune-finetune pipelines -- without compromising generative quality. Our code is available at https://github.com/GATECH-EIC/Early-Bird-Diffusion.
- Abstract(参考訳): 訓練拡散モデル(DM)は、複数の時間ステップをまたいだ複数の前方・後方通過のために、かなりの計算資源を必要とし、効率的な訓練技術の研究を動機付けている。
本稿では,他のDM訓練手法と直交する新しい効率的なDM訓練手法であるEB-Diff-Trainを提案する。
まず、DMにおける従来のEBチケットの存在を調査し、高密度モデルを完全に訓練することなく、競争力のある生成品質を実現する。
そして,異なる時間ステップ領域の異なる重要度から洞察を得て,拡散専用EBチケットの概念を掘り下げる。
これらのチケットは、対応するタイムステップ領域の重要性に応じてスパーシティレベルに適応し、重要なタイムステップ領域の計算資源を維持しながら、非クリティカル領域における積極的なスパーシティを実現する。
そこで,本研究では,タイムステップ対応のEBチケットを抽出し,並列に学習し,画像生成の推論中に組み合わせた効率的なDMトレーニング手法を開発した。
提案手法の有効性を検証し,従来のEBチケットとタイムステップ対応のEBチケットの存在を検証した。
このアプローチは、空間的にも時間的にも、トレーニング時間を2.9$\times$から5.8$\times$に短縮する。
私たちのコードはhttps://github.com/GATECH-EIC/Early-Bird-Diffusion.comで公開されています。
関連論文リスト
- Exploring the Benefit of Activation Sparsity in Pre-training [117.25661020250658]
プレトレーニング中に活性化特性がどう変化するかを検討した。
本稿では,Sparse-Dense Learning (SSD)を提案する。
SSDは同じモデルサイズで同等のパフォーマンスを実現し、事前トレーニングコストを削減する。
論文 参考訳(メタデータ) (2024-10-04T13:53:33Z) - Joint or Disjoint: Mixing Training Regimes for Early-Exit Models [3.052154851421859]
早期出口はディープニューラルネットワークに必要な計算量を大幅に削減する。
ほとんどの早期出口法では、バックボーンネットワークと出口ヘッドを同時に訓練するか、出口ヘッドを別々に訓練する訓練戦略を採用している。
本稿では,バックボーンを自力でトレーニングし,その後にバックボーンと出口ヘッドを併用したトレーニング手法を提案する。
論文 参考訳(メタデータ) (2024-07-19T13:56:57Z) - Efficient Stagewise Pretraining via Progressive Subnetworks [53.00045381931778]
一般的な見方では、レイヤのドロップのような段階的なドロップ戦略は、スタック方式のアプローチと比べて効果がない。
本稿では, 適切な設計で, 戦略の廃止は, 積み重ね手法よりも競争力があることを示すことによって, この概念に挑戦する。
本稿では,各ステップでランダムサブネットワークのみを選択し,訓練し,段階的に拡大するランダムパートトレーニング(RAPTR)を提案する。
論文 参考訳(メタデータ) (2024-02-08T18:49:09Z) - Always-Sparse Training by Growing Connections with Guided Stochastic
Exploration [46.4179239171213]
本研究では,より大規模かつスペーサーなモデルへのスケーリングに優れる,効率的な常時スパーストレーニングアルゴリズムを提案する。
我々は,VGGモデルとVTモデルを用いて,CIFAR-10/100 と ImageNet の手法を評価し,様々なスペーサー化手法と比較した。
論文 参考訳(メタデータ) (2024-01-12T21:32:04Z) - Efficient Adversarial Training with Robust Early-Bird Tickets [57.72115485770303]
パラメータが収束するずっと前に、初期のトレーニングフェーズに堅牢な接続パターンが現れることが分かりました。
この発見にインスパイアされた我々は、効率的な対人訓練方法を開発するために、堅牢な早期バードチケットを掘り下げる。
実験の結果,提案手法は最大7倍の高速化を達成できることがわかった。
論文 参考訳(メタデータ) (2022-11-14T10:44:25Z) - Online Convolutional Re-parameterization [51.97831675242173]
2段階のパイプラインであるオンライン畳み込み再パラメータ化(OREPA)は、複雑なトレーニング時間ブロックを単一の畳み込みに絞ることで、巨大なトレーニングオーバーヘッドを低減することを目的としている。
最先端のre-paramモデルと比較して、OREPAはトレーニング時間のメモリコストを約70%削減し、トレーニング速度を約2倍向上させることができる。
また、オブジェクト検出とセマンティックセグメンテーションの実験を行い、下流タスクに一貫した改善を示す。
論文 参考訳(メタデータ) (2022-04-02T09:50:19Z) - EarlyBERT: Efficient BERT Training via Early-bird Lottery Tickets [106.79387235014379]
EarlyBERTは、大規模言語モデルの事前学習と微調整の両方に適用できる一般的な計算効率のトレーニングアルゴリズムである。
BERTトレーニングの初期段階において、構造化された入賞チケットを最初に識別し、効率的なトレーニングに使用します。
EarlyBERTは、トレーニング時間を3545%短縮した標準BERTと同等のパフォーマンスを簡単に達成します。
論文 参考訳(メタデータ) (2020-12-31T20:38:20Z) - Fast is better than free: Revisiting adversarial training [86.11788847990783]
より弱く安価な敵を用いて、経験的に堅牢なモデルを訓練することが可能であることを示す。
我々は,FGSM逆行訓練を失敗に導く「破滅的オーバーフィッティング(catastrophic overfitting)」と呼ばれる障害モードを特定した。
論文 参考訳(メタデータ) (2020-01-12T20:30:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。