Fugu-MT 論文翻訳(概要): On the Effectiveness of Incremental Training of Large Language Models

論文の概要: On the Effectiveness of Incremental Training of Large Language Models

arxiv url: http://arxiv.org/abs/2411.18700v1
Date: Wed, 27 Nov 2024 19:11:49 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-02 20:28:07.616897
Title: On the Effectiveness of Incremental Training of Large Language Models
Title（参考訳）: 大規模言語モデルのインクリメンタルトレーニングの有効性について
Authors: Miles Q. Li, Benjamin C. M. Fung, Shih-Chia Huang,
Abstract要約: 大規模言語モデルにおけるインクリメンタルトレーニングの有効性について検討する。インクリメンタルなレイヤワイドトレーニングは、大規模な言語モデルのトレーニングに有効な代替にはなり得ないことに気付きました。
参考スコア（独自算出の注目度）: 10.39475177812483
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Training large language models is a computationally intensive process that often requires substantial resources to achieve state-of-the-art results. Incremental layer-wise training has been proposed as a potential strategy to optimize the training process by progressively introducing layers, with the expectation that this approach would lead to faster convergence and more efficient use of computational resources. In this paper, we investigate the effectiveness of incremental training for LLMs, dividing the training process into multiple stages where layers are added progressively. Our experimental results indicate that while the incremental approach initially demonstrates some computational efficiency, it ultimately requires greater overall computational costs to reach comparable performance to traditional full-scale training. Although the incremental training process can eventually close the performance gap with the baseline, it does so only after significantly extended continual training. These findings suggest that incremental layer-wise training may not be a viable alternative for training large language models, highlighting its limitations and providing valuable insights into the inefficiencies of this approach.
Abstract（参考訳）: 大規模言語モデルの訓練は計算集約的なプロセスであり、しばしば最先端の結果を得るためにかなりのリソースを必要とする。層を段階的に導入することで、計算資源のより高速な収束とより効率的な利用につながることを期待して、トレーニングプロセスを最適化するための潜在的な戦略として、増分的な層ワイドトレーニングが提案されている。本稿では,LLMの漸進的学習の有効性について検討し,段階的にレイヤーを付加する複数の段階に分けた。実験結果から,インクリメンタルアプローチは当初は計算効率を向上するが,従来のフルスケールトレーニングに匹敵する性能に達するためには,究極的には計算コストが大きくなることが示唆された。漸進的なトレーニングプロセスは、最終的にベースラインのパフォーマンスギャップを埋めることができますが、それは、大幅に拡張された継続的なトレーニングの後に限られます。これらの結果は,大規模な言語モデルをトレーニングする上で,段階的なレイヤワイドトレーニングが有効な選択肢ではないことを示唆し,その限界を強調し,このアプローチの非効率性に関する貴重な洞察を提供する。

関連論文リスト

Efficient Continual Pre-training by Mitigating the Stability Gap [68.49269649759005]
本研究では,Large Language Models (LLM) の継続事前学習における挙動について検討する。固定された計算予算内でのLLM性能を向上させるための3つの効果的な戦略を提案する。当社の戦略は,OpenLlama-3Bモデルの平均医療タスク性能を36.2%から40.7%に改善し,当初のトレーニング予算の40%に過ぎなかった。
論文参考訳（メタデータ） (2024-06-21T02:28:37Z)
Efficient Stagewise Pretraining via Progressive Subnetworks [53.00045381931778]
一般的な見方では、レイヤのドロップのような段階的なドロップ戦略は、スタック方式のアプローチと比べて効果がない。本稿では, 適切な設計で, 戦略の廃止は, 積み重ね手法よりも競争力があることを示すことによって, この概念に挑戦する。本稿では,各ステップでランダムサブネットワークのみを選択し,訓練し,段階的に拡大するランダムパートトレーニング(RAPTR)を提案する。
論文参考訳（メタデータ） (2024-02-08T18:49:09Z)
Preparing Lessons for Progressive Training on Language Models [75.88952808979087]
人工知能におけるトランスフォーマーの急速な進歩は、資源消費の増加と温室効果ガス排出のコストを犠牲にしている。我々は,低層学習におけるtextbflayer functitextbfonality による extextbfpanding textbfoperation の授業をプレptextbfars で行うApolloを提案する。実験では、アポロは最先端の加速比を達成し、事前訓練されたモデルを用いた手法にさえ対抗できることを示した。
論文参考訳（メタデータ） (2024-01-17T13:04:14Z)
Accelerating Neural Network Training: A Brief Review [0.5825410941577593]
本研究では,ディープニューラルネットワーク(DNN)の学習過程を高速化するための革新的なアプローチについて検討する。この研究は、グラディエント累積(GA)、自動混合精度(AMP)、ピンメモリ(PM)などの高度な手法を利用する。
論文参考訳（メタデータ） (2023-12-15T18:43:45Z)
GrowLength: Accelerating LLMs Pretraining by Progressively Growing Training Length [65.24730341801468]
本稿では,大規模言語モデルの事前学習プロセスを促進するために,Growlength'という,新しい,シンプルで効果的な手法を提案する。本手法は,事前学習期間を通じてトレーニング期間を段階的に延長し,計算コストを軽減し,効率を向上する。
論文参考訳（メタデータ） (2023-10-01T05:25:24Z)
Deep Fusion: Efficient Network Training via Pre-trained Initializations [3.9146761527401424]
我々は、より小さなネットワークの初期化を事前訓練したネットワークトレーニングの効率的なアプローチであるDeep Fusionを提案する。我々の実験は、Deep Fusionが訓練プロセスを加速するだけでなく、計算要求を減少させる実用的で効果的なアプローチであることを示す。我々は,Deep Fusionの最適利用を導く理論的枠組みを検証し,トレーニング時間と資源消費の両方を著しく削減することを示した。
論文参考訳（メタデータ） (2023-06-20T21:30:54Z)
Towards Compute-Optimal Transfer Learning [82.88829463290041]
我々は、事前訓練されたモデルのゼロショット構造化プルーニングにより、性能を最小限に抑えて計算効率を向上させることができると主張している。その結果,事前訓練されたモデルの畳み込み畳み込みフィルタは,低計算条件下で20%以上の性能向上をもたらす可能性が示唆された。
論文参考訳（メタデータ） (2023-04-25T21:49:09Z)
Optimization-Derived Learning with Essential Convergence Analysis of Training and Hyper-training [52.39882976848064]
固定点反復に基づく一般化クラスノセルスキーマンスキースキーム(GKM)を基本ODLモジュールとして設計する。 GKMスキームでは、最適トレーニングとハイパートレーニング変数を同時に解くために、バイレベルメタ最適化(BMO)アルゴリズムフレームワークを構築している。
論文参考訳（メタデータ） (2022-06-16T01:50:25Z)
Dynamic Sparse Training for Deep Reinforcement Learning [36.66889208433228]
我々は,ニューラルネットワークをスクラッチから切り離した深層強化学習エージェントを動的に訓練する試みを初めて提案する。私たちのアプローチは、既存の深層強化学習アルゴリズムに簡単に統合できます。我々は,オープンAI体育連続制御タスクに対するアプローチを評価した。
論文参考訳（メタデータ） (2021-06-08T09:57:20Z)
Accelerating Training of Transformer-Based Language Models with Progressive Layer Dropping [24.547833264405355]
提案手法は, サンプルあたり平均24%の時間短縮を実現し, プレトレーニングをベースラインの2.5倍の速度で行うことができる。トレーニング済みのモデルでは,より高速ながら,強力な知識伝達能力を備え,ベースラインよりも高いGLUEスコアを達成できる。
論文参考訳（メタデータ） (2020-10-26T06:50:07Z)
Large Batch Training Does Not Need Warmup [111.07680619360528]
大きなバッチサイズを使用してディープニューラルネットワークをトレーニングすることは、有望な結果を示し、多くの現実世界のアプリケーションに利益をもたらしている。本稿では,大規模バッチ学習のための全層適応レートスケーリング(CLARS)アルゴリズムを提案する。分析に基づいて,このギャップを埋め,3つの一般的な大規模バッチトレーニング手法の理論的洞察を提示する。
論文参考訳（メタデータ） (2020-02-04T23:03:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。