論文の概要: Photon: Federated LLM Pre-Training
- arxiv url: http://arxiv.org/abs/2411.02908v1
- Date: Tue, 05 Nov 2024 08:48:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-06 14:58:27.690263
- Title: Photon: Federated LLM Pre-Training
- Title(参考訳): Photon: フェデレーションLLM事前試験
- Authors: Lorenzo Sani, Alex Iacob, Zeyu Cao, Royson Lee, Bill Marino, Yan Gao, Dongqi Cai, Zexi Li, Wanru Zhao, Xinchi Qiu, Nicholas D. Lane,
- Abstract要約: 我々は、フェデレーション・エンド・ツー・エンドLLMトレーニングのための最初の完全システムであるPhotonを紹介する。
我々は、Photonが7Bまでのモデルサイズをフェデレートでトレーニングできる一方で、集中的な事前トレーニングよりもさらに複雑であることを示す。
- 参考スコア(独自算出の注目度): 17.368070785118654
- License:
- Abstract: Scaling large language models (LLMs) demands extensive data and computing resources, which are traditionally constrained to data centers by the high-bandwidth requirements of distributed training. Low-bandwidth methods like federated learning (FL) could enable collaborative training of larger models across weakly-connected GPUs if they can effectively be used for pre-training. To achieve this, we introduce Photon, the first complete system for federated end-to-end LLM training, leveraging cross-silo FL for global-scale training with minimal communication overheads. Using Photon, we train the first federated family of decoder-only LLMs from scratch. We show that: (1) Photon can train model sizes up to 7B in a federated fashion while reaching an even better perplexity than centralized pre-training; (2) Photon model training time decreases with available compute, achieving a similar compute-time trade-off to centralized; and (3) Photon outperforms the wall-time of baseline distributed training methods by 35% via communicating 64x-512xless. Our proposal is robust to data heterogeneity and converges twice as fast as previous methods like DiLoCo. This surprising data efficiency stems from a unique approach combining small client batch sizes with extremely high learning rates, enabled by federated averaging's robustness to hyperparameters. Photon thus represents the first economical system for global internet-wide LLM pre-training.
- Abstract(参考訳): 大規模言語モデル(LLM)のスケーリングには広範なデータとコンピューティングリソースが必要である。
フェデレートラーニング(FL)のような低帯域幅の手法は、事前トレーニングに効果的に使用できる場合、弱い接続のGPU間で大きなモデルの協調トレーニングを可能にする。
これを実現するために,フェデレートされたエンドツーエンドLLMトレーニングのための最初の完全システムであるPhotonを導入し,通信オーバーヘッドを最小限に抑えたグローバルスケールトレーニングにクロスサイロFLを活用する。
私たちはPhotonを使って、デコーダのみのLLMの最初のフェデレーションファミリーをゼロからトレーニングします。
我々は,(1)フォトンは,集中型事前学習よりもさらに複雑度を達成しながら,最大7Bのモデルサイズを訓練することができること,(2)利用可能な計算量によって,同様の計算時間トレードオフを達成できること,(3)フォトンは,64x-512xless通信によるベースライン分散トレーニング手法のウォールタイムを35%上回ることを示す。
我々の提案はデータの不均一性に対して堅牢であり、DiLoCoのような従来の手法の2倍の速度で収束する。
この驚くべきデータ効率は、小さなクライアントバッチサイズと極めて高い学習率を組み合わせたユニークなアプローチに起因しています。
したがって、フォトンは世界規模のLLM事前トレーニングのための最初の経済システムである。
関連論文リスト
- CELLM: An Efficient Communication in Large Language Models Training for Federated Learning [0.0]
本論文は,フェデレートラーニング(FL)における大規模言語モデル(LLM)の効率的な学習手法の開発を目的とする。
まず,ローランク適応(LoRA)を用いて局所モデルトレーニングの計算負荷を削減する。
第2に、コミュニケーションコストを大幅に削減するために、トレーニング全体を通してスパース更新を通信します。
論文 参考訳(メタデータ) (2024-07-30T05:24:08Z) - A Single Transformer for Scalable Vision-Language Modeling [74.05173379908703]
我々はvisiOn-Language mOdelingのための単一変換器SOLOを提案する。
SOLOのような統一された単一トランスフォーマーアーキテクチャは、LVLMにおけるこれらのスケーラビリティ上の懸念に効果的に対処する。
本稿では,オープンソースの7B LVLMであるSOLOの開発のための,最初のオープンソーストレーニングレシピを紹介する。
論文 参考訳(メタデータ) (2024-07-08T22:40:15Z) - The Future of Large Language Model Pre-training is Federated [15.237418036900582]
我々は,LLM事前学習のための新しいトレーニングパラダイムの調査と開発を可能にする,Photonと呼ばれるスケーラブルなデプロイメントシステムを提案する。
数十億のパラメータを持つLCMを事前学習するために、プライベートデータソースと計算資源とのコラボレーションに関心のある組織がPhotonを利用できることを示す。
さらに,モデルサイズによるフェデレーショントレーニング尺度の有効性を示すとともに,限られた資源を用いて数十億規模のフェデレーションLLMをトレーニングするためのアプローチを提案する。
論文 参考訳(メタデータ) (2024-05-17T15:27:52Z) - FedMS: Federated Learning with Mixture of Sparsely Activated Foundations
Models [11.362085734837217]
我々はFedMSと呼ばれる新しい2段階のフェデレーション学習アルゴリズムを提案する。
グローバルエキスパートは第一段階で訓練され、ローカルエキスパートは第二段階で訓練され、より良いパーソナライズを提供する。
我々はFedMSの有効性を検証するために広範囲な実験を行い、その結果、FedMSは他のSOTAベースラインを55.25%まで上回る結果となった。
論文 参考訳(メタデータ) (2023-12-26T07:40:26Z) - Federated Fine-Tuning of LLMs on the Very Edge: The Good, the Bad, the Ugly [62.473245910234304]
本稿では,最新のエッジコンピューティングシステムにおいて,Large Language Modelsをどのように導入できるかを,ハードウェア中心のアプローチで検討する。
マイクロレベルのハードウェアベンチマークを行い、FLOPモデルと最先端のデータセンターGPUを比較し、現実的な条件下でのネットワーク利用について検討する。
論文 参考訳(メタデータ) (2023-10-04T20:27:20Z) - Semi-Federated Learning: Convergence Analysis and Optimization of A
Hybrid Learning Framework [70.83511997272457]
本稿では,ベースステーション(BS)とデバイスの両方を活用するセミフェデレーション学習(SemiFL)パラダイムを提案し,中央集権学習(CL)とFLのハイブリッド実装を提案する。
我々はこの難解な問題を解くための2段階のアルゴリズムを提案し、ビームフォーマに閉形式解を提供する。
論文 参考訳(メタデータ) (2023-10-04T03:32:39Z) - FedLALR: Client-Specific Adaptive Learning Rates Achieve Linear Speedup
for Non-IID Data [54.81695390763957]
フェデレートラーニング(Federated Learning)は、分散機械学習の手法である。
我々は,AMSGradの異種局所変種であるFedLALRを提案し,各クライアントが学習率を調整する。
クライアントが指定した自動調整型学習率スケジューリングが,クライアント数に対して収束し,線形高速化を実現することを示す。
論文 参考訳(メタデータ) (2023-09-18T12:35:05Z) - FedDBL: Communication and Data Efficient Federated Deep-Broad Learning
for Histopathological Tissue Classification [65.7405397206767]
本稿では,FedDBL(Federated Deep-Broad Learning)を提案する。
FedDBLは1ラウンドの通信と限られたトレーニングサンプルで競合相手をはるかに上回り、マルチラウンドの通信で同等のパフォーマンスを達成している。
異なるクライアント間でのデータやディープモデルを共有しないため、プライバシ問題は十分に解決されており、モデルのセキュリティはモデル反転攻撃のリスクなしに保証される。
論文 参考訳(メタデータ) (2023-02-24T14:27:41Z) - Conquering the Communication Constraints to Enable Large Pre-Trained Models in Federated Learning [18.12162136918301]
フェデレートラーニング(FL)は、ローカルデバイス上の生データに一元的にアクセスすることなく、モデルの協調的なトレーニングを可能にするための、有望なパラダイムとして登場した。
最近の最先端の事前訓練モデルでは、より能力が高くなっているが、パラメータも増えている。
FLにおけるこれらの強力で容易に利用できる事前学習モデルが、通信負荷を同時に軽減しつつ優れた性能を達成するためのソリューションを見つけることができるだろうか?
具体的には,FedPEFTの性能を,クライアントの安定性,データ分散,プライバシ設定の違いによって体系的に評価する。
論文 参考訳(メタデータ) (2022-10-04T16:08:54Z) - Decentralized Training of Foundation Models in Heterogeneous
Environments [77.47261769795992]
GPT-3 や PaLM のようなトレーニング基盤モデルは、非常に高価である。
ヘテロジニアスネットワーク上での分散型システムにおけるモデル並列化を用いた大規模基盤モデルのトレーニングに関する最初の研究について述べる。
論文 参考訳(メタデータ) (2022-06-02T20:19:51Z) - Communication-Efficient Federated Learning with Dual-Side Low-Rank
Compression [8.353152693578151]
Federated Learning(FL)は、クライアントの生データを共有せずにディープラーニングモデルをトレーニングするための有望で強力なアプローチです。
両サイドローランク圧縮(FedDLR)を用いたフェデレーションラーニングと呼ばれる新しいトレーニング手法を提案する。
我々は,FedDLRがコミュニケーションと効率の両面で最先端のソリューションより優れていることを示す。
論文 参考訳(メタデータ) (2021-04-26T09:13:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。