論文の概要: Sparse Upcycling: Training Mixture-of-Experts from Dense Checkpoints
- arxiv url: http://arxiv.org/abs/2212.05055v1
- Date: Fri, 9 Dec 2022 18:57:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-12 14:00:54.866715
- Title: Sparse Upcycling: Training Mixture-of-Experts from Dense Checkpoints
- Title(参考訳): Sparse Upcycling:Dense CheckpointsからのMixture-of-Expertsのトレーニング
- Authors: Aran Komatsuzaki, Joan Puigcerver, James Lee-Thorp, Carlos Riquelme
Ruiz, Basil Mustafa, Joshua Ainslie, Yi Tay, Mostafa Dehghani, Neil Houlsby
- Abstract要約: 密なチェックポイントから疎活性化されたMixture-of-Expertsモデルを初期化することにより、サンクトレーニングコストを再利用する簡単な方法であるスパースアップサイクリングを提案する。
我々は, 比較的高サイクルなT5 Base, Large, XL言語モデル, Vision Transformer Base と Large モデルが, SuperGLUE と ImageNet の高密度モデルよりも大幅に優れていることを示す。
- 参考スコア(独自算出の注目度): 59.39280540478479
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Training large, deep neural networks to convergence can be prohibitively
expensive. As a result, often only a small selection of popular, dense models
are reused across different contexts and tasks. Increasingly, sparsely
activated models, which seek to decouple model size from computation costs, are
becoming an attractive alternative to dense models. Although more efficient in
terms of quality and computation cost, sparse models remain data-hungry and
costly to train from scratch in the large scale regime. In this work, we
propose sparse upcycling -- a simple way to reuse sunk training costs by
initializing a sparsely activated Mixture-of-Experts model from a dense
checkpoint. We show that sparsely upcycled T5 Base, Large, and XL language
models and Vision Transformer Base and Large models, respectively,
significantly outperform their dense counterparts on SuperGLUE and ImageNet,
using only ~50% of the initial dense pretraining sunk cost. The upcycled models
also outperform sparse models trained from scratch on 100% of the initial dense
pretraining computation budget.
- Abstract(参考訳): 大規模深層ニューラルネットワークのコンバージェンスへのトレーニングは、非常に高価である。
結果として、しばしば人気で密度の高いモデルのごく一部しか、異なるコンテキストやタスクで再利用されない。
モデルサイズを計算コストから切り離そうとする疎活性化モデルが、高密度モデルに代わる魅力的な選択肢になりつつある。
品質と計算コストの面では効率が良いが、スパースモデルは大規模システムではスクラッチからトレーニングするためにデータ不足であり、コストがかかる。
本研究では,密なチェックポイントから疎活性化されたMixture-of-Expertsモデルを初期化することにより,サンクトレーニングコストを再利用するためのスパースアップサイクリングを提案する。
本研究は,Sparsely upcycled T5 Base, Large, and XL language model, and Vision Transformer Base, Large model が,初期密集事前学習費用の約50%しか使用せず,SuperGLUE と ImageNet の高密度モデルよりも大幅に優れていたことを示す。
アップサイクルモデルは、初期の高密度事前学習計算予算の100%をスクラッチからトレーニングしたスパースモデルよりも優れています。
関連論文リスト
- FINE: Factorizing Knowledge for Initialization of Variable-sized Diffusion Models [35.40065954148091]
FINEはLearngeneフレームワークに基づく、事前訓練されたモデルを利用した下流ネットワークの初期化手法である。
事前学習された知識を行列の積(例えば$U$, $Sigma$, $V$)に分解する。
これは、特により小さなモデルにおいて、直接事前訓練よりも一貫して優れており、可変モデルのサイズで最先端の結果が得られる。
論文 参考訳(メタデータ) (2024-09-28T08:57:17Z) - Pruning Large Language Models with Semi-Structural Adaptive Sparse Training [17.381160429641316]
適応スパーストレーナー(AST)と呼ばれるリトレーニングによる半構造化スパースモデルのプルーニングパイプラインを提案する。
ASTは、モデルがトレーニングプロセスを通して適応的にマスクを選択することを可能にし、マスキング重みに減衰を施すことにより、密度の高いモデルをスパースモデルに変換する。
本研究は,半構造化されたスパース言語モデルの実現可能性を示し,高度に圧縮されたモデルを実現するための新しい手法を提案する。
論文 参考訳(メタデータ) (2024-07-30T06:33:44Z) - Initializing Models with Larger Ones [76.41561758293055]
事前訓練された大モデルから重みのサブセットを選択することにより、より小さなモデルを初期化する手法である重み選択を導入する。
実験により, 重量選択は小型モデルの性能を著しく向上し, トレーニング時間を短縮できることが示された。
論文 参考訳(メタデータ) (2023-11-30T18:58:26Z) - LEMON: Lossless model expansion [43.40389747029802]
ディープニューラルネットワーク、特にトランスフォーマーのスケーリングは、その急増するパフォーマンスにとって重要なものだ。
私たちは、より小さいがトレーニング済みのモデルの重みを使ってスケールされたモデルを初期化するレシピである、textbfL$ossl$textbfE$ss $textbfMO$del Expansio$textbfN$ (LEMON)を提示します。
LEMONは,視覚変換器の計算コストを56.7%削減し,BERTの33.2%削減した。
論文 参考訳(メタデータ) (2023-10-12T03:02:41Z) - $\Delta$-Patching: A Framework for Rapid Adaptation of Pre-trained
Convolutional Networks without Base Performance Loss [71.46601663956521]
大規模なデータセットで事前トレーニングされたモデルはしばしば、時間とともにやってくる新しいタスクやデータセットをサポートするように微調整される。
モデルコピーを格納することなく、効率よく微調整ニューラルネットワークモデルに$Delta$-Patchingを提案する。
我々の実験によると、$Delta$-Networksは、トレーニングされるパラメータのごく一部しか必要とせず、初期のモデルパッチ作業より優れています。
論文 参考訳(メタデータ) (2023-03-26T16:39:44Z) - bert2BERT: Towards Reusable Pretrained Language Models [51.078081486422896]
本稿では,既存のより小さな事前学習モデルの知識を大規模モデルに効果的に伝達できるbert2BERTを提案する。
bert2BERTは、ほぼ半分の大きさのモデルを再利用することで、BERT_BASEとGPT_BASEの事前トレーニングに約45%と47%の計算コストを節約する。
論文 参考訳(メタデータ) (2021-10-14T04:05:25Z) - Effective Model Sparsification by Scheduled Grow-and-Prune Methods [73.03533268740605]
本稿では,高密度モデルの事前学習を伴わない新規なGrow-and-prune(GaP)手法を提案する。
実験により、そのようなモデルは様々なタスクにおいて80%の間隔で高度に最適化された高密度モデルの品質に適合または打ち勝つことができることが示された。
論文 参考訳(メタデータ) (2021-06-18T01:03:13Z) - Transfer training from smaller language model [6.982133308738434]
小型の訓練済みモデルを大規模モデルに変更することで、トレーニング時間とリソースコストを節約する方法を見つけます。
ターゲットモデルを複数のデータセットでテストし、ソースモデルといまだに同等であることを示す。
論文 参考訳(メタデータ) (2021-04-23T02:56:02Z) - Train Large, Then Compress: Rethinking Model Size for Efficient Training
and Inference of Transformers [94.43313684188819]
本研究では,計算によって制限されたNLPタスクのトランスフォーマーモデルに着目し,モデルサイズの影響について検討する。
まず最初に、より小さなTransformerモデルがイテレーション毎に高速に実行されているにもかかわらず、より広いモデルとより深いモデルがはるかに少ないステップで収束していることを示します。
これは、大きなTransformerモデルのトレーニング効率と小さなTransformerモデルの推論効率との間に明らかなトレードオフをもたらす。
論文 参考訳(メタデータ) (2020-02-26T21:17:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。