論文の概要: LEMON: Lossless model expansion
- arxiv url: http://arxiv.org/abs/2310.07999v1
- Date: Thu, 12 Oct 2023 03:02:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-14 13:01:21.886398
- Title: LEMON: Lossless model expansion
- Title(参考訳): レモン:損失のないモデル展開
- Authors: Yite Wang, Jiahao Su, Hanlin Lu, Cong Xie, Tianyi Liu, Jianbo Yuan,
Haibin Lin, Ruoyu Sun, Hongxia Yang
- Abstract要約: ディープニューラルネットワーク、特にトランスフォーマーのスケーリングは、その急増するパフォーマンスにとって重要なものだ。
私たちは、より小さいがトレーニング済みのモデルの重みを使ってスケールされたモデルを初期化するレシピである、textbfL$ossl$textbfE$ss $textbfMO$del Expansio$textbfN$ (LEMON)を提示します。
LEMONは,視覚変換器の計算コストを56.7%削減し,BERTの33.2%削減した。
- 参考スコア(独自算出の注目度): 43.40389747029802
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Scaling of deep neural networks, especially Transformers, is pivotal for
their surging performance and has further led to the emergence of sophisticated
reasoning capabilities in foundation models. Such scaling generally requires
training large models from scratch with random initialization, failing to
leverage the knowledge acquired by their smaller counterparts, which are
already resource-intensive to obtain. To tackle this inefficiency, we present
$\textbf{L}$ossl$\textbf{E}$ss $\textbf{MO}$del Expansio$\textbf{N}$ (LEMON), a
recipe to initialize scaled models using the weights of their smaller but
pre-trained counterparts. This is followed by model training with an optimized
learning rate scheduler tailored explicitly for the scaled models,
substantially reducing the training time compared to training from scratch.
Notably, LEMON is versatile, ensuring compatibility with various network
structures, including models like Vision Transformers and BERT. Our empirical
results demonstrate that LEMON reduces computational costs by 56.7% for Vision
Transformers and 33.2% for BERT when compared to training from scratch.
- Abstract(参考訳): 深層ニューラルネットワーク、特にトランスフォーマーのスケーリングは、その急速な性能向上にとって重要であり、基礎モデルにおける洗練された推論能力の出現につながった。
このようなスケーリングは、通常、ランダムな初期化でスクラッチから大規模なモデルをトレーニングする必要がある。
この非効率性に取り組むために、より小さいが事前訓練されたモデルの重みを使ってスケールしたモデルを初期化するレシピである$\textbf{L}$ossl$\textbf{E}$ss$\textbf{MO}$del Expansio$\textbf{N}$ (LEMON)を示す。
これに続き、最適化された学習率スケジューラによるモデルトレーニングがスケールしたモデル用に明示的に調整され、スクラッチからトレーニングする時間を大幅に削減する。
特にLEMONは汎用的で、ビジョントランスフォーマーやBERTなど、さまざまなネットワーク構造との互換性を確保する。
実験の結果、LEMONは視覚変換器の計算コストを56.7%削減し、BERTの33.2%をスクラッチからトレーニングした場合に削減した。
関連論文リスト
- FINE: Factorizing Knowledge for Initialization of Variable-sized Diffusion Models [35.40065954148091]
FINEはLearngeneフレームワークに基づく、事前訓練されたモデルを利用した下流ネットワークの初期化手法である。
事前学習された知識を行列の積(例えば$U$, $Sigma$, $V$)に分解する。
これは、特により小さなモデルにおいて、直接事前訓練よりも一貫して優れており、可変モデルのサイズで最先端の結果が得られる。
論文 参考訳(メタデータ) (2024-09-28T08:57:17Z) - Reusing Pretrained Models by Multi-linear Operators for Efficient
Training [65.64075958382034]
大規模なモデルをスクラッチからトレーニングすることは、通常、かなりの量のリソースを必要とする。
bert2BERT や LiGO といった最近の研究は、大規模なモデルを初期化するために、小さな事前訓練されたモデルを再利用している。
本稿では,対象モデルの各重みを事前学習モデルの全重みに線形に相関させる手法を提案する。
論文 参考訳(メタデータ) (2023-10-16T06:16:47Z) - Learning to Grow Pretrained Models for Efficient Transformer Training [72.20676008625641]
そこでは、より小さなモデルのパラメータを線形にマッピングして、より大きなモデルを初期化する。
言語と視覚のトランスフォーマーをまたいだ実験では、学習した線形成長演算子(LiGO)が、スクラッチから最大50%の計算コストを節約できることが示されています。
論文 参考訳(メタデータ) (2023-03-02T05:21:18Z) - Training Trajectories of Language Models Across Scales [99.38721327771208]
言語モデルのスケールアップは、前例のないパフォーマンス向上につながった。
異なるサイズの言語モデルは事前学習中にどのように学習するか?
より大きな言語モデルはなぜ望ましい振る舞いを示すのか?
論文 参考訳(メタデータ) (2022-12-19T19:16:29Z) - Sparse Upcycling: Training Mixture-of-Experts from Dense Checkpoints [59.39280540478479]
密なチェックポイントから疎活性化されたMixture-of-Expertsモデルを初期化することにより、サンクトレーニングコストを再利用する簡単な方法であるスパースアップサイクリングを提案する。
我々は, 比較的高サイクルなT5 Base, Large, XL言語モデル, Vision Transformer Base と Large モデルが, SuperGLUE と ImageNet の高密度モデルよりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2022-12-09T18:57:37Z) - Alternate Model Growth and Pruning for Efficient Training of
Recommendation Systems [7.415129876303651]
モデルプルーニングは、冗長なパラメータを取り除いてディープニューラルネットワークの計算オーバーヘッドを削減する効果的な手法である。
ビッグデータ処理の需要のため、現代のレコメンデーションシステムはモデルキャパシティにとってまだ渇望的です。
トレーニング中の重量を代替して構築し、調整するためのダイナミックなトレーニングスキーム、すなわち、モデルの成長と刈り取りを提案します。
論文 参考訳(メタデータ) (2021-05-04T03:14:30Z) - Performance of Transfer Learning Model vs. Traditional Neural Network in
Low System Resource Environment [0.0]
我々は,テキスト分類とNERモデルのNLP応用のための,軽量トランスファー学習モデルと目的に構築されたニューラルネットワークの性能とコストを比較する。
BERT、XLNet、GPTといった最先端モデルの台頭は、転送遅延のベースモデルとして正確さと利益を高める。
論文 参考訳(メタデータ) (2020-10-20T08:12:56Z) - Train Large, Then Compress: Rethinking Model Size for Efficient Training
and Inference of Transformers [94.43313684188819]
本研究では,計算によって制限されたNLPタスクのトランスフォーマーモデルに着目し,モデルサイズの影響について検討する。
まず最初に、より小さなTransformerモデルがイテレーション毎に高速に実行されているにもかかわらず、より広いモデルとより深いモデルがはるかに少ないステップで収束していることを示します。
これは、大きなTransformerモデルのトレーニング効率と小さなTransformerモデルの推論効率との間に明らかなトレードオフをもたらす。
論文 参考訳(メタデータ) (2020-02-26T21:17:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。