論文の概要: Masked Structural Growth for 2x Faster Language Model Pre-training
- arxiv url: http://arxiv.org/abs/2305.02869v3
- Date: Sat, 6 Apr 2024 06:18:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-10 05:27:02.496282
- Title: Masked Structural Growth for 2x Faster Language Model Pre-training
- Title(参考訳): 2倍高速言語モデル事前学習のためのマスク構造成長
- Authors: Yiqun Yao, Zheng Zhang, Jing Li, Yequan Wang,
- Abstract要約: 我々は、小さなトランスフォーマー構造から大きな構造へと徐々に成長することで、事前学習のスピードアップに重点を置いている。
成長スケジュールの観点では、個々の次元がスケジュールの効率に与える影響は、既存の作業によって過小評価される。
本稿では, (i) 可能なすべての次元を含む成長スケジュールと, (ii) 厳密な機能保存型成長演算子を含む, マスケッド構造成長(MSG)を提案する。
- 参考スコア(独自算出の注目度): 18.276784451675603
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Accelerating large language model pre-training is a critical issue in present research. In this paper, we focus on speeding up pre-training by progressively growing from a small Transformer structure to a large one. There are two main research problems associated with progressive growth: determining the optimal growth schedule, and designing efficient growth operators. In terms of growth schedule, the impact of each single dimension on a schedule's efficiency is under-explored by existing work. Regarding the growth operators, existing methods rely on the initialization of new weights to inherit knowledge, and achieve only non-strict function preservation, limiting further improvements on training dynamics. To address these issues, we propose Masked Structural Growth (MSG), including (i) growth schedules involving all possible dimensions and (ii) strictly function-preserving growth operators that is independent of the initialization of new weights. Experiments show that MSG is significantly faster than related work: we achieve up to 2.2x speedup in pre-training different types of language models while maintaining comparable or better downstream performances. Code is publicly available at https://github.com/cofe-ai/MSG.
- Abstract(参考訳): 大規模言語モデルの事前学習を加速することは,本研究において重要な課題である。
本稿では,小さなトランスフォーマー構造から大規模構造へと徐々に成長し,事前学習の高速化に着目する。
進行成長に関連する2つの主要な研究課題は、最適な成長スケジュールを決定することと、効率的な成長オペレーターを設計することである。
成長スケジュールの観点では、個々の次元がスケジュールの効率に与える影響は、既存の作業によって過小評価される。
成長演算子に関して、既存の手法は知識を継承し、非制限機能のみを達成するために新しい重み付けの初期化に依存しており、訓練力学のさらなる改善を制限している。
これらの課題に対処するため、我々はマスケッド構造成長(MSG)を提案する。
一 すべての可能な次元及び成長スケジュール
(ii) 新しい重みの初期化とは無関係な厳密な関数保存型成長作用素。
実験により、MSGは関連する作業よりも大幅に高速であることが示され、異なるタイプの言語モデルの事前学習において最大2.2倍のスピードアップを達成すると同時に、同等またはより優れたダウンストリーム性能を維持している。
コードはhttps://github.com/cofe-ai/MSG.comで公開されている。
関連論文リスト
- Overcoming Growth-Induced Forgetting in Task-Agnostic Continual Learning [9.91929539637026]
連続学習(CL)では、モデルの成長は新しいデータに対する適応性を高め、より多くのタスクに対する知識保持を改善する。
しかし、不適切なモデルの成長は、特にタスクに依存しないCLにおいて、推論のために成長したモデル全体を用いて、事前学習した知識を著しく劣化させる可能性がある。
本稿では,新しいデータに対する適応性を向上しつつ,GIFtの問題を克服する新しいSparseGrow手法を提案する。
論文 参考訳(メタデータ) (2024-08-20T06:05:52Z) - Landscape-Aware Growing: The Power of a Little LAG [49.897766925371485]
成長戦略のプールから最適な成長戦略をどのように選択するかという課題について検討する。
ランドスケープ・アウェア・グロース(LAG)と呼ぶ早期学習力学に基づく代替視点を提案する。
論文 参考訳(メタデータ) (2024-06-04T16:38:57Z) - On the Scalability of GNNs for Molecular Graphs [7.402389334892391]
グラフニューラルネットワーク(GNN)は、スパース演算の効率の低下、大規模なデータ要求、さまざまなアーキテクチャの有効性の明確さの欠如など、スケールのメリットをまだ示していない。
我々は,2次元分子グラフの公開コレクションにおいて,メッセージパッシングネットワーク,グラフトランスフォーマー,ハイブリッドアーキテクチャを解析する。
初めて、GNNは、深度、幅、分子数、ラベルの数、事前訓練データセットの多様性の増大によって、非常に恩恵を受けることを観察した。
論文 参考訳(メタデータ) (2024-04-17T17:11:31Z) - TaE: Task-aware Expandable Representation for Long Tail Class Incremental Learning [42.630413950957795]
本稿では,各タスクから多様な表現を学習するための新しいタスク対応拡張(TaE)フレームワークを提案する。
TaEは最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-02-08T16:37:04Z) - GrowCLIP: Data-aware Automatic Model Growing for Large-scale Contrastive
Language-Image Pre-training [78.63699436330165]
クロスモーダルな事前トレーニングは、幅広い下流タスクで顕著なパフォーマンスを示している。
オンラインデータは絶えず成長しており、継続的に成長しているデータから学習する事前訓練されたモデルの重要性を強調している。
我々は,連続した画像とテキストのペアを入力として,コントラスト言語画像の事前学習のための,データ駆動型自動モデル生成アルゴリズムであるGrowCLIPを提案する。
論文 参考訳(メタデータ) (2023-08-22T10:07:49Z) - Scaling Pre-trained Language Models to Deeper via Parameter-efficient
Architecture [68.13678918660872]
行列積演算子(MPO)に基づくより有能なパラメータ共有アーキテクチャを設計する。
MPO分解はパラメータ行列の情報を再編成し、2つの部分に分解することができる。
私たちのアーキテクチャは、モデルのサイズを減らすために、すべてのレイヤで中央テンソルを共有しています。
論文 参考訳(メタデータ) (2023-03-27T02:34:09Z) - Learning to Grow Pretrained Models for Efficient Transformer Training [72.20676008625641]
そこでは、より小さなモデルのパラメータを線形にマッピングして、より大きなモデルを初期化する。
言語と視覚のトランスフォーマーをまたいだ実験では、学習した線形成長演算子(LiGO)が、スクラッチから最大50%の計算コストを節約できることが示されています。
論文 参考訳(メタデータ) (2023-03-02T05:21:18Z) - Confident Adaptive Language Modeling [95.45272377648773]
CALMは、入力と生成時間ごとに異なる量の計算を動的に割り当てるフレームワークである。
ハイパフォーマンスを確実に維持しつつ、計算能力、潜在的スピードアップを最大3ドルまで削減する上で、我々のフレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2022-07-14T17:00:19Z) - Staged Training for Transformer Language Models [47.99321376123886]
私たちは、小さなモデルから始まり、トレーニングに使用する計算量を漸進的に増加させる、段階的なトレーニング設定を考えます。
トレーニングプロセスは、各ステージを前のステージの出力で初期化することにより、計算を効果的に再利用する。
成長オペレーターを実証的に検証し、自己回帰言語モデルのトレーニングを行い、最大22%の計算貯蓄量を示した。
論文 参考訳(メタデータ) (2022-03-11T19:05:42Z) - On the Transformer Growth for Progressive BERT Training [37.57617077192438]
ネットワークアーキテクチャ検索と同様、Transformerの成長も複合スケーリングを好んでいる。
提案手法では, ベースモデルと大型モデルでそれぞれ73.6%, 82.2%の事前学習を高速化する。
論文 参考訳(メタデータ) (2020-10-23T17:44:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。