論文の概要: Preparing Lessons for Progressive Training on Language Models
- arxiv url: http://arxiv.org/abs/2401.09192v3
- Date: Sat, 10 Feb 2024 14:52:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-13 21:10:38.102124
- Title: Preparing Lessons for Progressive Training on Language Models
- Title(参考訳): 言語モデルによるプログレッシブトレーニングのための準備
- Authors: Yu Pan, Ye Yuan, Yichun Yin, Jiaxin Shi, Zenglin Xu, Ming Zhang,
Lifeng Shang, Xin Jiang, Qun Liu
- Abstract要約: 人工知能におけるトランスフォーマーの急速な進歩は、資源消費の増加と温室効果ガス排出のコストを犠牲にしている。
我々は,低層学習におけるtextbflayer functitextbfonality による extextbfpanding textbfoperation の授業をプレptextbfars で行うApolloを提案する。
実験では、アポロは最先端の加速比を達成し、事前訓練されたモデルを用いた手法にさえ対抗できることを示した。
- 参考スコア(独自算出の注目度): 75.88952808979087
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid progress of Transformers in artificial intelligence has come at the
cost of increased resource consumption and greenhouse gas emissions due to
growing model sizes. Prior work suggests using pretrained small models to
improve training efficiency, but this approach may not be suitable for new
model structures. On the other hand, training from scratch can be slow, and
progressively stacking layers often fails to achieve significant acceleration.
To address these challenges, we propose a novel method called Apollo, which
prep\textbf{a}res lessons for ex\textbf{p}anding \textbf{o}perations by
\textbf{l}earning high-\textbf{l}ayer functi\textbf{o}nality during training of
low layers. Our approach involves low-value-prioritized sampling (LVPS) to
train different depths and weight sharing to facilitate efficient expansion. We
also introduce an interpolation method for stable model depth extension.
Experiments demonstrate that Apollo achieves state-of-the-art acceleration
ratios, even rivaling methods using pretrained models, making it a universal
and efficient solution for training deep models while reducing time, financial,
and environmental costs.
- Abstract(参考訳): 人工知能におけるトランスフォーマーの急速な進歩は、モデルサイズの増加による資源消費の増大と温室効果ガス排出の増大によるコストを伴っている。
事前の作業は、トレーニング効率を改善するために事前訓練された小さなモデルを使うことを推奨するが、このアプローチは新しいモデル構造には適さないかもしれない。
一方、スクラッチからのトレーニングは遅くなり、層を段階的に積み重ねることはしばしば大きな加速を達成できない。
これらの課題に対処するために、我々は、低層トレーニング中の高テキストbf{l}ayer functi\textbf{o}nality によるex\textbf{p}anding \textbf{o}perationの授業をprep\textbf{a}resするapolloという新しい手法を提案する。
提案手法では,低値優先サンプリング (lvps) を用いて異なる深さと重み付けを訓練し,効率的な拡張を促進する。
また,安定なモデル深度拡張のための補間法を提案する。
実験の結果、アポロ計画が最先端の加速比を達成し、事前訓練されたモデルを使った方法に匹敵する結果となり、時間、財政、環境コストを削減しながら深層モデルのトレーニングを行うための普遍的で効率的なソリューションとなった。
関連論文リスト
- Single Parent Family: A Spectrum of Family Members from a Single Pre-Trained Foundation Model [20.054342930450055]
本稿では,大規模言語モデルの圧縮に適したプログレッシブ・ローランク分解法(PLRD)を提案する。
PLRDは計算オーバーヘッドとエネルギー消費を大幅に削減する。
この結果から,PLRD は LLM の効率的なスケーリングのための新しい標準となる可能性が示唆された。
論文 参考訳(メタデータ) (2024-06-28T15:27:57Z) - A Multi-Level Framework for Accelerating Training Transformer Models [5.268960238774481]
大規模ディープラーニングモデルの訓練は、コンピューティングパワーに対する前例のない需要をもたらしている。
本稿では,Coalescing, De-Coalescing, Interpolation に基づく,加速度のトレーニングのためのマルチレベルフレームワークを提案する。
提案手法は,BERT/GPT-Baseモデルのトレーニングにおいて約20%,BERT-Largeモデルのトレーニングにおいて最大51.6%のコスト削減を実現する。
論文 参考訳(メタデータ) (2024-04-07T03:04:34Z) - Efficient Stagewise Pretraining via Progressive Subnetworks [55.65819977062729]
我々は、トレーニング全体を通して完全なモデルを維持できる代替フレームワークであるプログレッシブサブネットワークトレーニングを提案し、各ステップでモデル内でのみトレインワークを行う。
RaPTr は BERT と UL2 言語モデルの事前トレーニング損失が向上すると同時に,標準的なトレーニングに比べて 20-33% のFLOP の削減が要求される。
論文 参考訳(メタデータ) (2024-02-08T18:49:09Z) - Progressive Gradient Flow for Robust N:M Sparsity Training in
Transformers [15.27677493050638]
N:Mの構造的疎水性は、比較的穏やかなオーバーヘッドと効率の向上の結果、大きな関心を集めている。
N:Mの構造的疎性のためのトレーニングレシピの開発は、主に低疎性領域に焦点を当てている。
しかし、これらの手法を用いて訓練されたモデルの性能は、高分離領域に直面すると低下する傾向にある。
論文 参考訳(メタデータ) (2024-02-07T10:55:59Z) - Fast Propagation is Better: Accelerating Single-Step Adversarial
Training via Sampling Subnetworks [69.54774045493227]
逆行訓練の欠点は、逆行例の生成によって引き起こされる計算オーバーヘッドである。
モデルの内部構造ブロックを利用して効率を向上させることを提案する。
従来の手法と比較して,本手法はトレーニングコストを削減できるだけでなく,モデルの堅牢性も向上する。
論文 参考訳(メタデータ) (2023-10-24T01:36:20Z) - Fast-ELECTRA for Efficient Pre-training [83.29484808667532]
ELECTRAは補助モデルに置き換えられたシーケンス内のトークンを検出して、言語モデルを事前訓練する。
本稿では,既存の言語モデルを補助モデルとして活用したFast-ELECTRAを提案する。
提案手法は,最先端のELECTRA型事前学習手法の性能に匹敵するが,補助モデルの連成学習による計算とメモリコストは著しく削減される。
論文 参考訳(メタデータ) (2023-10-11T09:55:46Z) - GrowLength: Accelerating LLMs Pretraining by Progressively Growing
Training Length [65.24730341801468]
本稿では,大規模言語モデルの事前学習プロセスを促進するために,Growlength'という,新しい,シンプルで効果的な手法を提案する。
本手法は,事前学習期間を通じてトレーニング期間を段階的に延長し,計算コストを軽減し,効率を向上する。
論文 参考訳(メタデータ) (2023-10-01T05:25:24Z) - COST-EFF: Collaborative Optimization of Spatial and Temporal Efficiency
with Slenderized Multi-exit Language Models [16.586312156966635]
トランスフォーマーベースの事前訓練言語モデル(PLM)は、高い能力にもかかわらず過度のオーバーヘッドに悩まされている。
既存の静的圧縮モデルは、入力インスタンス間の様々な複雑さに気づいていない。
静的モデル圧縮と動的推論アクセラレーションを統合したPLMの協調最適化を提案する。
論文 参考訳(メタデータ) (2022-10-27T15:06:40Z) - Online Convolutional Re-parameterization [51.97831675242173]
2段階のパイプラインであるオンライン畳み込み再パラメータ化(OREPA)は、複雑なトレーニング時間ブロックを単一の畳み込みに絞ることで、巨大なトレーニングオーバーヘッドを低減することを目的としている。
最先端のre-paramモデルと比較して、OREPAはトレーニング時間のメモリコストを約70%削減し、トレーニング速度を約2倍向上させることができる。
また、オブジェクト検出とセマンティックセグメンテーションの実験を行い、下流タスクに一貫した改善を示す。
論文 参考訳(メタデータ) (2022-04-02T09:50:19Z) - Accelerating Training of Transformer-Based Language Models with
Progressive Layer Dropping [24.547833264405355]
提案手法は, サンプルあたり平均24%の時間短縮を実現し, プレトレーニングをベースラインの2.5倍の速度で行うことができる。
トレーニング済みのモデルでは,より高速ながら,強力な知識伝達能力を備え,ベースラインよりも高いGLUEスコアを達成できる。
論文 参考訳(メタデータ) (2020-10-26T06:50:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。