論文の概要: Stacking Your Transformers: A Closer Look at Model Growth for Efficient LLM Pre-Training
- arxiv url: http://arxiv.org/abs/2405.15319v1
- Date: Fri, 24 May 2024 08:00:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-27 15:31:04.192878
- Title: Stacking Your Transformers: A Closer Look at Model Growth for Efficient LLM Pre-Training
- Title(参考訳): トランスフォーマーを積み重ねる - 効率的なLLM事前トレーニングのためのモデル成長のクローズアップ
- Authors: Wenyu Du, Tongxu Luo, Zihan Qiu, Zeyu Huang, Yikang Shen, Reynold Cheng, Yike Guo, Jie Fu,
- Abstract要約: G_textstack$と呼ばれる深い積み重ね演算子は、トレーニングにおいて顕著な加速を示し、損失が減少し、全体的な性能が向上することを示した。
たとえば、$textitO$2(未使用のスケーラビリティ)については、$G_textstack$はスケーラブルで、一貫してパフォーマンスが良いことを示す。
さらに、$G_textstack$に対する成長タイミングと成長係数を決定するガイドラインを定式化することで、$textitO$3(経験的ガイドラインの欠如)に対処する。
- 参考スコア(独自算出の注目度): 42.89066583603415
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LLMs are computationally expensive to pre-train due to their large scale. Model growth emerges as a promising approach by leveraging smaller models to accelerate the training of larger ones. However, the viability of these model growth methods in efficient LLM pre-training remains underexplored. This work identifies three critical $\underline{\textit{O}}$bstacles: ($\textit{O}$1) lack of comprehensive evaluation, ($\textit{O}$2) untested viability for scaling, and ($\textit{O}$3) lack of empirical guidelines. To tackle $\textit{O}$1, we summarize existing approaches into four atomic growth operators and systematically evaluate them in a standardized LLM pre-training setting. Our findings reveal that a depthwise stacking operator, called $G_{\text{stack}}$, exhibits remarkable acceleration in training, leading to decreased loss and improved overall performance on eight standard NLP benchmarks compared to strong baselines. Motivated by these promising results, we conduct extensive experiments to delve deeper into $G_{\text{stack}}$ to address $\textit{O}$2 and $\textit{O}$3. For $\textit{O}$2 (untested scalability), our study shows that $G_{\text{stack}}$ is scalable and consistently performs well, with experiments up to 7B LLMs after growth and pre-training LLMs with 750B tokens. For example, compared to a conventionally trained 7B model using 300B tokens, our $G_{\text{stack}}$ model converges to the same loss with 194B tokens, resulting in a 54.6\% speedup. We further address $\textit{O}$3 (lack of empirical guidelines) by formalizing guidelines to determine growth timing and growth factor for $G_{\text{stack}}$, making it practical in general LLM pre-training. We also provide in-depth discussions and comprehensive ablation studies of $G_{\text{stack}}$. Our code and pre-trained model are available at $\href{https://llm-stacking.github.io/}{https://llm-stacking.github.io/}$.
- Abstract(参考訳): LLMは大規模であるため、事前訓練には計算コストがかかる。
モデルの成長は、より大きなモデルのトレーニングを加速するために小さなモデルを活用することによって、有望なアプローチとして現れます。
しかし,LLM事前学習におけるこれらのモデル成長法の有効性は未解明のままである。
この研究は、3つの重要な$\underline{\textit{O}}$bstaclesを識別する:$\textit{O}$1) 包括的な評価の欠如、$\textit{O}$2) スケーリングのためのテストされていない生存性、$\textit{O}$3) 経験的ガイドラインの欠如。
既存のアプローチを4つの原子成長演算子にまとめ、標準LLM事前学習環境で体系的に評価する。
G_{\text{stack}}$と呼ばれる深い積み重ね演算子は、トレーニングにおいて顕著な加速を示し、損失が減少し、8つの標準NLPベンチマークの全体的な性能は、強いベースラインと比較して改善した。
これらの有望な結果に触発された私たちは、$G_{\text{stack}}$を深く掘り下げて、$\textit{O}$2と$\textit{O}$3に対処する広範な実験を行います。
G_{\text{stack}}$は、成長後の7B LLM、750Bトークンによる事前トレーニング後の7B LLMで、スケーラブルで一貫してパフォーマンスが向上していることを示す。
例えば、従来の300Bトークンを使用した7Bモデルと比較して、G_{\text{stack}}$モデルは194Bトークンと同じ損失に収束し、54.6\%のスピードアップとなる。
さらに、$\textit{O}$3(経験的ガイドラインの欠如)に対処し、$G_{\text{stack}}$の成長タイミングと成長要因を決定するガイドラインを定式化し、一般のLCM事前学習を実践する。
我々はまた、$G_{\text{stack}}$の詳細な議論と包括的なアブレーション研究も提供する。
私たちのコードと事前トレーニングされたモデルは、$\href{https://llm-stacking.github.io/}{https://llm-stacking.github.io/}$で利用可能です。
関連論文リスト
- Large Language Models Are Overparameterized Text Encoders [17.608805125623803]
大規模言語モデル(LLM)は、教師付きコントラスト訓練で微調整されたテキスト埋め込みモデルとして高い性能を示す。
我々は,LLMの最後の$p%のレイヤーを1000ステップの指導訓練前に刈り取ることで,メモリと推論時間の比例的に削減できることを示す。
論文 参考訳(メタデータ) (2024-10-18T16:26:45Z) - FLARE: Faithful Logic-Aided Reasoning and Exploration [50.9814063216852]
タスク分解を用いて問題空間をトラバースする新しい手法を提案する。
我々はLarge Language Modelsを使ってソリューションを計画し、クエリを事実に軟式化し、論理プログラミングコードを使って述語する。
提案手法は,生成したコードに対する推論プロセスの忠実度を計算し,外部の解法に頼らずにマルチホップ探索のステップを解析する。
論文 参考訳(メタデータ) (2024-10-14T19:39:11Z) - Evaluating $n$-Gram Novelty of Language Models Using Rusty-DAWG [57.14250086701313]
本研究では,現代のLMがトレーニングデータから$n$-gramを生成できる範囲について検討する。
我々は,ゲノムデータのインデックス化にインスパイアされた新しい検索ツールであるRusty-DAWGを開発した。
論文 参考訳(メタデータ) (2024-06-18T21:31:19Z) - An Efficient Recipe for Long Context Extension via Middle-Focused Positional Encoding [25.20222970947923]
本稿では,事前学習された大規模言語モデル(LLM)の文脈長を拡張する手法を提案する。
$textttCREAM$ 位置インデックスを操作することで位置エンコーディングを補間する。
実験によると、$textttCREAM$ は "Never Miss A Beat" 付き $texttLlama2-7B$ の Base 版と Chat 版の両方で LLM をターゲット長まで拡張することができた。
論文 参考訳(メタデータ) (2024-06-11T10:35:49Z) - Weak-to-Strong Search: Align Large Language Models via Searching over Small Language Models [22.425339110551743]
我々は,テストタイムの欲求検索として,大規模言語モデルのアライメントをフレーミングする,$textitweak-to-strong検索を導入する。
制御された知覚生成と要約では、チューニングされていない$textttgpt2$sを使用して、追加のトレーニングなしで大規模モデルのアライメントを改善する。
より難しい命令追従ベンチマークでは、市販の小型モデルの再利用により、ホワイトボックスモデルとブラックボックスモデルの両方の長制御された勝利率を改善することが示されている。
論文 参考訳(メタデータ) (2024-05-29T16:55:32Z) - Can Large Language Models Play Games? A Case Study of A Self-Play
Approach [61.15761840203145]
LLM(Large Language Models)は、インターネットからの広範なデータを利用して、幅広い事前知識を格納する。
Monte-Carlo Tree Search (MCTS)は、信頼性の高い意思決定ソリューションを提供する検索アルゴリズムである。
この研究は、ターンベースのゼロサムゲームを効率的に解決するために、MCTSセルフプレイでLLMを活性化させる革新的なアプローチを導入している。
論文 参考訳(メタデータ) (2024-03-08T19:16:29Z) - Intention Analysis Makes LLMs A Good Jailbreak Defender [79.4014719271075]
本研究では,シンプルかつ高効率な防衛戦略,すなわち意図分析(mathbbIA$)を提案する。
この背景にある原則は、LSM固有の自己修正をトリガーし、2段階のプロセスを通じて能力を改善することである。
$mathbbIA$は推論のみのメソッドであり、その有用性を損なうことなくLLMの安全性を高めることができる。
論文 参考訳(メタデータ) (2024-01-12T13:15:05Z) - Local Convergence of Approximate Newton Method for Two Layer Nonlinear
Regression [21.849997443967705]
2層回帰問題は先行研究でよく研究されている。
第1の層はReLUユニットで活性化され、第2の層はソフトマックスユニットで活性化される。
ヘッセン行列の損失関数は正定値であり、ある仮定の下でリプシッツが連続であることを証明する。
論文 参考訳(メタデータ) (2023-11-26T19:19:02Z) - Towards Understanding Clean Generalization and Robust Overfitting in Adversarial Training [38.44734564565478]
対人訓練におけるtextitClean Generalization と Robust Overfitting 現象について検討した。
学習プロセス中に3段階の位相遷移が起こり,ネットワークは頑健な記憶体制に収束することを示す。
また,実画像認識実験による理論的解析を実証的に検証した。
論文 参考訳(メタデータ) (2023-06-02T05:07:42Z) - Model-Based Multi-Agent RL in Zero-Sum Markov Games with Near-Optimal
Sample Complexity [67.02490430380415]
モデルに基づくMARLは、Nash平衡値(NE)を求めるために$tilde O(|S||B|(gamma)-3epsilon-2)$のサンプル複雑性を実現する。
また、アルゴリズムが報酬に依存しない場合、そのようなサンプル境界は最小値(対数因子まで)であり、アルゴリズムは報酬知識のない遷移サンプルを問合せする。
論文 参考訳(メタデータ) (2020-07-15T03:25:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。