論文の概要: Exploring Scaling Laws for Local SGD in Large Language Model Training
- arxiv url: http://arxiv.org/abs/2409.13198v1
- Date: Fri, 20 Sep 2024 04:02:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-07 11:29:51.764240
- Title: Exploring Scaling Laws for Local SGD in Large Language Model Training
- Title(参考訳): 大規模言語モデル学習における局所SGDのスケーリング法則の探索
- Authors: Qiaozhi He, Xiaomin Zhuang, Zhihua Wu,
- Abstract要約: モデルパラメータ,データセット,計算資源が与えられた従来の手法と比較して,局所的なSGDは競争力のある結果が得られることを示す。
これは、単一の大規模クラスタトレーニングの代替として、その生存性を示すものだ。
- 参考スコア(独自算出の注目度): 4.125418728284004
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper investigates scaling laws for local SGD in LLM training, a distributed optimization algorithm that facilitates training on loosely connected devices. Through extensive experiments, we show that local SGD achieves competitive results compared to conventional methods, given equivalent model parameters, datasets, and computational resources. Furthermore, we explore the application of local SGD in various practical scenarios, including multi-cluster setups and edge computing environments. Our findings elucidate the necessary conditions for effective multi-cluster LLM training and examine the potential and limitations of leveraging edge computing resources in the LLM training process. This demonstrates its viability as an alternative to single large-cluster training.
- Abstract(参考訳): 本稿では,ゆるく接続されたデバイスでのトレーニングを容易にする分散最適化アルゴリズムであるLLMトレーニングにおける局所SGDのスケーリング法について検討する。
実験により, モデルパラメータ, データセット, 計算資源など, 従来の手法と比較して, 局所的なSGDが競合する結果が得られることを示す。
さらに,マルチクラスタセットアップやエッジコンピューティング環境など,様々な実践シナリオにおけるローカルSGDの適用について検討する。
本研究は, 実効マルチクラスタLLMトレーニングに必要な条件を明らかにし, LLMトレーニングプロセスにおけるエッジコンピューティングリソースの活用の可能性と限界について検討した。
これは、単一の大規模クラスタトレーニングの代替として、その生存性を示すものだ。
関連論文リスト
- eFedLLM: Efficient LLM Inference Based on Federated Learning [1.6179784294541053]
大言語モデル(LLMs)は人工知能(AI)の転換期を告げる
本稿では, LLM推論の運用効率と費用対効果を高める効果的な手法を提案する。
論文 参考訳(メタデータ) (2024-11-24T22:50:02Z) - SoupLM: Model Integration in Large Language and Multi-Modal Models [51.12227693121004]
大規模言語モデル(LLM)の訓練には、かなりの計算資源が必要である。
既存の公開LLMは通常、さまざまなタスクにまたがる、多種多様なプライベートにキュレートされたデータセットで事前トレーニングされる。
論文 参考訳(メタデータ) (2024-07-11T05:38:15Z) - Efficient Prompting for LLM-based Generative Internet of Things [88.84327500311464]
大規模言語モデル(LLM)は、様々なタスクにおいて顕著な能力を示しており、最近、IoT(Internet of Things)アプリケーションにLLMの能力を統合することが研究の注目を集めている。
セキュリティ上の懸念から、多くの機関は最先端の商用LLMサービスへのアクセスを避け、ローカルネットワーク環境でのオープンソースLLMのデプロイと利用を必要としている。
本研究では,LLMを用いた生成IoT(Generative IoT)システムを提案する。
論文 参考訳(メタデータ) (2024-06-14T19:24:00Z) - Adaptive Layer Splitting for Wireless LLM Inference in Edge Computing: A Model-Based Reinforcement Learning Approach [18.153641696306707]
本研究では、モデルベース強化学習(MBRL)からインスピレーションを得て、エッジとユーザ機器(UE)間の最適分割点を決定するフレームワークを提案する。
報酬代理モデルを導入することで、頻繁な性能評価の計算コストを大幅に削減できる。
論文 参考訳(メタデータ) (2024-06-03T09:41:42Z) - LLS: Local Learning Rule for Deep Neural Networks Inspired by Neural Activity Synchronization [6.738409533239947]
従来のバックプロパゲーション(BP)を用いたディープニューラルネットワーク(DNN)のトレーニングは、計算複雑性とエネルギー消費の観点からの課題を提示している。
脳内で観察される神経活動同期現象(LLS)にインスパイアされた新しい局所学習規則を提案する。
LLSは、最大300倍の乗算累積(MAC)演算を減らし、BPのメモリ要求の半分で同等のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-05-24T18:24:24Z) - Checkpoint Merging via Bayesian Optimization in LLM Pretraining [10.743581503931523]
大規模言語モデル(LLM)の事前学習におけるチェックポイントマージを提案する。
提案手法はプレトレーニングの強化能力を示し,最小限のコストで実質的な利益を得る機会を提示する。
論文 参考訳(メタデータ) (2024-03-28T13:01:18Z) - Characterization of Large Language Model Development in the Datacenter [55.9909258342639]
大きな言語モデル(LLM)は、いくつかの変換タスクにまたがって素晴らしいパフォーマンスを示している。
しかし,大規模クラスタ資源を効率よく利用してLCMを開発することは容易ではない。
我々は,GPUデータセンタAcmeから収集した6ヶ月のLDM開発ワークロードの詳細な評価を行った。
論文 参考訳(メタデータ) (2024-03-12T13:31:14Z) - vTrain: A Simulation Framework for Evaluating Cost-effective and Compute-optimal Large Language Model Training [3.0051215935332505]
本稿では, プロファイリング駆動型シミュレータvTrainについて, 効率的かつ費用対効果の高いトレーニングシステム構成を決定する。
いくつかのケーススタディ、例えば最適な訓練並列化戦略を効果的に評価することで、vTrainの実用性を実証する。
論文 参考訳(メタデータ) (2023-11-27T13:35:15Z) - FederatedScope-LLM: A Comprehensive Package for Fine-tuning Large
Language Models in Federated Learning [70.38817963253034]
本稿では, ファインチューニング LLM のこれらの課題について論じ, 本パッケージ FS-LLM を主な貢献として紹介する。
我々は、FLシナリオにおける将来の拡張のために、包括的フェデレーションパラメータ効率の良い微調整アルゴリズムの実装と汎用プログラミングインタフェースを提供する。
本研究では, FS-LLM の有効性を検証し, FL 設定におけるパラメータ効率の高いパラメータ調整アルゴリズムを用いて, 高度な LLM のベンチマークを行う。
論文 参考訳(メタデータ) (2023-09-01T09:40:36Z) - Unifying Synergies between Self-supervised Learning and Dynamic
Computation [53.66628188936682]
SSLとDCのパラダイム間の相互作用に関する新しい視点を提示する。
SSL設定において、スクラッチから高密度かつゲートされたサブネットワークを同時に学習することは可能であることを示す。
密集エンコーダとゲートエンコーダの事前学習における共進化は、良好な精度と効率のトレードオフをもたらす。
論文 参考訳(メタデータ) (2023-01-22T17:12:58Z) - Dif-MAML: Decentralized Multi-Agent Meta-Learning [54.39661018886268]
我々は,MAML や Dif-MAML と呼ばれる協調型マルチエージェントメタ学習アルゴリズムを提案する。
提案手法により, エージェントの集合が線形速度で合意に達し, 集約MAMLの定常点に収束できることを示す。
シミュレーションの結果は従来の非協調的な環境と比較して理論的な結果と優れた性能を示している。
論文 参考訳(メタデータ) (2020-10-06T16:51:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。