論文の概要: Stacking Your Transformers: A Closer Look at Model Growth for Efficient LLM Pre-Training
- arxiv url: http://arxiv.org/abs/2405.15319v1
- Date: Fri, 24 May 2024 08:00:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-27 15:31:04.192878
- Title: Stacking Your Transformers: A Closer Look at Model Growth for Efficient LLM Pre-Training
- Title(参考訳): トランスフォーマーを積み重ねる - 効率的なLLM事前トレーニングのためのモデル成長のクローズアップ
- Authors: Wenyu Du, Tongxu Luo, Zihan Qiu, Zeyu Huang, Yikang Shen, Reynold Cheng, Yike Guo, Jie Fu,
- Abstract要約: G_textstack$と呼ばれる深い積み重ね演算子は、トレーニングにおいて顕著な加速を示し、損失が減少し、全体的な性能が向上することを示した。
たとえば、$textitO$2(未使用のスケーラビリティ)については、$G_textstack$はスケーラブルで、一貫してパフォーマンスが良いことを示す。
さらに、$G_textstack$に対する成長タイミングと成長係数を決定するガイドラインを定式化することで、$textitO$3(経験的ガイドラインの欠如)に対処する。
- 参考スコア(独自算出の注目度): 42.89066583603415
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LLMs are computationally expensive to pre-train due to their large scale. Model growth emerges as a promising approach by leveraging smaller models to accelerate the training of larger ones. However, the viability of these model growth methods in efficient LLM pre-training remains underexplored. This work identifies three critical $\underline{\textit{O}}$bstacles: ($\textit{O}$1) lack of comprehensive evaluation, ($\textit{O}$2) untested viability for scaling, and ($\textit{O}$3) lack of empirical guidelines. To tackle $\textit{O}$1, we summarize existing approaches into four atomic growth operators and systematically evaluate them in a standardized LLM pre-training setting. Our findings reveal that a depthwise stacking operator, called $G_{\text{stack}}$, exhibits remarkable acceleration in training, leading to decreased loss and improved overall performance on eight standard NLP benchmarks compared to strong baselines. Motivated by these promising results, we conduct extensive experiments to delve deeper into $G_{\text{stack}}$ to address $\textit{O}$2 and $\textit{O}$3. For $\textit{O}$2 (untested scalability), our study shows that $G_{\text{stack}}$ is scalable and consistently performs well, with experiments up to 7B LLMs after growth and pre-training LLMs with 750B tokens. For example, compared to a conventionally trained 7B model using 300B tokens, our $G_{\text{stack}}$ model converges to the same loss with 194B tokens, resulting in a 54.6\% speedup. We further address $\textit{O}$3 (lack of empirical guidelines) by formalizing guidelines to determine growth timing and growth factor for $G_{\text{stack}}$, making it practical in general LLM pre-training. We also provide in-depth discussions and comprehensive ablation studies of $G_{\text{stack}}$. Our code and pre-trained model are available at $\href{https://llm-stacking.github.io/}{https://llm-stacking.github.io/}$.
- Abstract(参考訳): LLMは大規模であるため、事前訓練には計算コストがかかる。
モデルの成長は、より大きなモデルのトレーニングを加速するために小さなモデルを活用することによって、有望なアプローチとして現れます。
しかし,LLM事前学習におけるこれらのモデル成長法の有効性は未解明のままである。
この研究は、3つの重要な$\underline{\textit{O}}$bstaclesを識別する:$\textit{O}$1) 包括的な評価の欠如、$\textit{O}$2) スケーリングのためのテストされていない生存性、$\textit{O}$3) 経験的ガイドラインの欠如。
既存のアプローチを4つの原子成長演算子にまとめ、標準LLM事前学習環境で体系的に評価する。
G_{\text{stack}}$と呼ばれる深い積み重ね演算子は、トレーニングにおいて顕著な加速を示し、損失が減少し、8つの標準NLPベンチマークの全体的な性能は、強いベースラインと比較して改善した。
これらの有望な結果に触発された私たちは、$G_{\text{stack}}$を深く掘り下げて、$\textit{O}$2と$\textit{O}$3に対処する広範な実験を行います。
G_{\text{stack}}$は、成長後の7B LLM、750Bトークンによる事前トレーニング後の7B LLMで、スケーラブルで一貫してパフォーマンスが向上していることを示す。
例えば、従来の300Bトークンを使用した7Bモデルと比較して、G_{\text{stack}}$モデルは194Bトークンと同じ損失に収束し、54.6\%のスピードアップとなる。
さらに、$\textit{O}$3(経験的ガイドラインの欠如)に対処し、$G_{\text{stack}}$の成長タイミングと成長要因を決定するガイドラインを定式化し、一般のLCM事前学習を実践する。
我々はまた、$G_{\text{stack}}$の詳細な議論と包括的なアブレーション研究も提供する。
私たちのコードと事前トレーニングされたモデルは、$\href{https://llm-stacking.github.io/}{https://llm-stacking.github.io/}$で利用可能です。
関連論文リスト
- Evaluating $n$-Gram Novelty of Language Models Using Rusty-DAWG [57.14250086701313]
本研究では,現代のLMがトレーニングデータから$n$-gramを生成できる範囲について検討する。
我々は,ゲノムデータのインデックス化にインスパイアされた新しい検索ツールであるRusty-DAWGを開発した。
論文 参考訳(メタデータ) (2024-06-18T21:31:19Z) - Never Miss A Beat: An Efficient Recipe for Context Window Extension of Large Language Models with Consistent "Middle" Enhancement [25.20222970947923]
位置インデクスを操作することで位置エンコーディングを補間する、$textbfC$ontinuity-$textbfR$elativity ind$textbfE$xing with g$textbfA$ussian $textbfM$iddle (CREAM)を提案する。
実験の結果、CREAM は Base 版と Chat 版の $textttLlama2-7B$ with Never Miss A Beat' で LLM をターゲット長まで拡張することができた。
論文 参考訳(メタデータ) (2024-06-11T10:35:49Z) - Weak-to-Strong Search: Align Large Language Models via Searching over Small Language Models [22.425339110551743]
我々は,テストタイムの欲求検索として,大規模言語モデルのアライメントをフレーミングする,$textitweak-to-strong検索を導入する。
市販の小型モデルペアの再利用により,ホワイトボックスモデルとブラックボックスモデルの両方の長制御勝利率を大幅に向上させることができることを示す。
論文 参考訳(メタデータ) (2024-05-29T16:55:32Z) - Comparing Plausibility Estimates in Base and Instruction-Tuned Large Language Models [50.15455336684986]
本研究では,英語文の可読性タスクにおいて,暗黙的プロンプトと暗黙的推定を用いて,ベースおよび命令調整型LLMの性能を比較した。
実験1では、モデルアーキテクチャと可視性データセットを通して、ログ可能性(textitLL$)スコアが文の可視性を示す最も信頼性の高い指標であることが示されている。
実験2では、モデル間の$textitLL$スコアが、期待される方法でコンテキストによって変調されることを示し、コンテキストに敏感な3つのメトリクスで高いパフォーマンスを示す。
論文 参考訳(メタデータ) (2024-03-21T22:08:44Z) - Can Large Language Models Play Games? A Case Study of A Self-Play
Approach [61.15761840203145]
LLM(Large Language Models)は、インターネットからの広範なデータを利用して、幅広い事前知識を格納する。
Monte-Carlo Tree Search (MCTS)は、信頼性の高い意思決定ソリューションを提供する検索アルゴリズムである。
この研究は、ターンベースのゼロサムゲームを効率的に解決するために、MCTSセルフプレイでLLMを活性化させる革新的なアプローチを導入している。
論文 参考訳(メタデータ) (2024-03-08T19:16:29Z) - Learning Thresholds with Latent Values and Censored Feedback [18.129896050051432]
未知の報酬$g(gamma, v)$が提案されたしきい値$gamma$と潜伏値$v$に依存する問題を示し、そのしきい値が未知の潜伏値よりも低い場合のみ$$を達成できる。
この問題は、オンラインオークションにおける予約価格の最適化、クラウドソーシングにおけるオンラインタスクの割り当て、雇用におけるリクルートバーの設定など、現実的なシナリオにおける幅広い応用がある。
論文 参考訳(メタデータ) (2023-12-07T19:30:08Z) - Towards Understanding Clean Generalization and Robust Overfitting in
Adversarial Training [45.42044569913022]
対人訓練におけるtextitClean Generalization と Robust Overfitting 現象について検討した。
学習プロセス中に3段階の位相遷移が起こり,ネットワークは頑健な記憶体制に収束することを示す。
また,実画像認識実験による理論的解析を実証的に検証した。
論文 参考訳(メタデータ) (2023-06-02T05:07:42Z) - Deep Learning Meets Projective Clustering [66.726500395069]
NLPネットワークを圧縮するための一般的なアプローチは、埋め込み層を行列 $AinmathbbRntimes d$ としてエンコードすることである。
計算幾何学から遠射的クラスタリングに着想を得て、この部分空間を$k$部分空間の集合で置き換えることを提案する。
論文 参考訳(メタデータ) (2020-10-08T22:47:48Z) - Sample Efficient Reinforcement Learning via Low-Rank Matrix Estimation [30.137884459159107]
連続状態と行動空間を用いた強化学習において,Q$関数を効率よく学習する方法を考える。
我々は、$epsilon$-Schmidt $Q$-functionと$widetildeO(frac1epsilonmax(d1, d_2)+2)$のサンプル複雑性を求める単純な反復学習アルゴリズムを開発する。
論文 参考訳(メタデータ) (2020-06-11T00:55:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。