論文の概要: 2x Faster Language Model Pre-training via Masked Structural Growth
- arxiv url: http://arxiv.org/abs/2305.02869v1
- Date: Thu, 4 May 2023 14:28:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-05 15:14:07.082018
- Title: 2x Faster Language Model Pre-training via Masked Structural Growth
- Title(参考訳): マスク構造成長による2倍高速言語モデル事前学習
- Authors: Yiqun Yao, Zheng Zhang, Jing Li, and Yequan Wang
- Abstract要約: 大規模言語モデルの事前学習の加速は、現在のNLP研究において重要な問題である。
本稿では,小さなトランスフォーマー構造から大規模構造へと徐々に成長し,事前学習の高速化に着目する。
- 参考スコア(独自算出の注目度): 10.369603261844595
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Acceleration of large language model pre-training is a critical issue in
present NLP research. In this paper, we focus on speeding up pre-training by
progressively growing from a small Transformer structure to a large one. There
are two main research problems related to progressive growth: growth schedule
and growth operator. For growth schedule, existing work has explored
multi-stage expansion of depth and feedforward layers. However, the impact of
each dimension on the schedule's efficiency is still an open question. For
growth operator, existing work relies on the initialization of new weights to
inherit knowledge, and achieve only non-strict function preservation, limiting
further optimization of training dynamics. To address these issues, we propose
Masked Structural Growth (MSG), including growth schedules involving all
possible dimensions and strictly function-preserving growth operators that is
independent of the initialization of new weights. Experiments show that MSG is
significantly faster than related work: we achieve a speed-up of 80% for
Bert-base and 120% for Bert-large pre-training. Moreover, MSG is able to
improve fine-tuning performances at the same time.
- Abstract(参考訳): 大規模言語モデルの事前学習の加速は、現在のNLP研究において重要な問題である。
本稿では,小さなトランスフォーマー構造から大規模構造へと徐々に成長し,事前学習の高速化に着目する。
プログレッシブ成長に関連する主な研究課題は、成長スケジュールと成長オペレーターの2つである。
成長スケジュールのために、既存の研究は深さ層とフィードフォワード層の多段階拡張を探求している。
しかし、各次元がスケジュールの効率に与える影響はまだ未解決の問題である。
成長操作者にとって、既存の作業は知識を継承するために新しい重み付けを初期化し、非制限的な関数保存のみを達成し、トレーニングダイナミクスのさらなる最適化を制限している。
これらの問題に対処するため,我々は,すべての可能な次元を含む成長スケジュールや,新たな重み付けの初期化に依存しない厳密な機能保存型成長演算子を含むマスキング構造成長 (msg) を提案する。
実験の結果,MSGはBert-baseで80%,Bert-largeプレトレーニングで120%の高速化を実現した。
さらに、MSGは微調整性能を同時に向上させることができる。
関連論文リスト
- On the Scalability of GNNs for Molecular Graphs [7.402389334892391]
グラフニューラルネットワーク(GNN)は、スパース演算の効率の低下、大規模なデータ要求、さまざまなアーキテクチャの有効性の明確さの欠如など、スケールのメリットをまだ示していない。
我々は,2次元分子グラフの公開コレクションにおいて,メッセージパッシングネットワーク,グラフトランスフォーマー,ハイブリッドアーキテクチャを解析する。
初めて、GNNは、深度、幅、分子数、ラベルの数、事前訓練データセットの多様性の増大によって、非常に恩恵を受けることを観察した。
論文 参考訳(メタデータ) (2024-04-17T17:11:31Z) - Causality is all you need [63.10680366545293]
因果グラフルーティング(Causal Graph Routing, CGR)は、データに隠された原因影響力を明らかにするための介入機構を完全に依存した統合因果スキームである。
CGRは、Visual Question AnswerとLong Document Classificationタスクの両方において、最先端のメソッドを超越することができる。
論文 参考訳(メタデータ) (2023-11-21T02:53:40Z) - GrowCLIP: Data-aware Automatic Model Growing for Large-scale Contrastive
Language-Image Pre-training [78.63699436330165]
クロスモーダルな事前トレーニングは、幅広い下流タスクで顕著なパフォーマンスを示している。
オンラインデータは絶えず成長しており、継続的に成長しているデータから学習する事前訓練されたモデルの重要性を強調している。
我々は,連続した画像とテキストのペアを入力として,コントラスト言語画像の事前学習のための,データ駆動型自動モデル生成アルゴリズムであるGrowCLIPを提案する。
論文 参考訳(メタデータ) (2023-08-22T10:07:49Z) - Scaling Pre-trained Language Models to Deeper via Parameter-efficient
Architecture [68.13678918660872]
行列積演算子(MPO)に基づくより有能なパラメータ共有アーキテクチャを設計する。
MPO分解はパラメータ行列の情報を再編成し、2つの部分に分解することができる。
私たちのアーキテクチャは、モデルのサイズを減らすために、すべてのレイヤで中央テンソルを共有しています。
論文 参考訳(メタデータ) (2023-03-27T02:34:09Z) - Learning to Grow Pretrained Models for Efficient Transformer Training [72.20676008625641]
そこでは、より小さなモデルのパラメータを線形にマッピングして、より大きなモデルを初期化する。
言語と視覚のトランスフォーマーをまたいだ実験では、学習した線形成長演算子(LiGO)が、スクラッチから最大50%の計算コストを節約できることが示されています。
論文 参考訳(メタデータ) (2023-03-02T05:21:18Z) - Confident Adaptive Language Modeling [95.45272377648773]
CALMは、入力と生成時間ごとに異なる量の計算を動的に割り当てるフレームワークである。
ハイパフォーマンスを確実に維持しつつ、計算能力、潜在的スピードアップを最大3ドルまで削減する上で、我々のフレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2022-07-14T17:00:19Z) - Staged Training for Transformer Language Models [47.99321376123886]
私たちは、小さなモデルから始まり、トレーニングに使用する計算量を漸進的に増加させる、段階的なトレーニング設定を考えます。
トレーニングプロセスは、各ステージを前のステージの出力で初期化することにより、計算を効果的に再利用する。
成長オペレーターを実証的に検証し、自己回帰言語モデルのトレーニングを行い、最大22%の計算貯蓄量を示した。
論文 参考訳(メタデータ) (2022-03-11T19:05:42Z) - GROWN: GRow Only When Necessary for Continual Learning [39.56829374809613]
ディープニューラルネットワーク(Deep Neural Networks, DNN)は、新しいタスクを学ぶ際に、以前のタスクに関する知識を忘れてしまう。
この問題に対処するために、新しいタスクを逐次学習し、忘れずに古いタスクから新しいタスクへの知識伝達を行う連続学習が開発された。
GROWNは、必要な時にのみモデルを動的に成長させる、新しいエンドツーエンドの継続的学習フレームワークである。
論文 参考訳(メタデータ) (2021-10-03T02:31:04Z) - On the Transformer Growth for Progressive BERT Training [37.57617077192438]
ネットワークアーキテクチャ検索と同様、Transformerの成長も複合スケーリングを好んでいる。
提案手法では, ベースモデルと大型モデルでそれぞれ73.6%, 82.2%の事前学習を高速化する。
論文 参考訳(メタデータ) (2020-10-23T17:44:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。