論文の概要: Go With The Flow: Churn-Tolerant Decentralized Training of Large Language Models
- arxiv url: http://arxiv.org/abs/2509.21221v1
- Date: Thu, 25 Sep 2025 14:27:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-26 20:58:12.97825
- Title: Go With The Flow: Churn-Tolerant Decentralized Training of Large Language Models
- Title(参考訳): Go with the Flow: 大規模言語モデルのチャーントレラントな分散トレーニング
- Authors: Nikolay Blagoev, Bart Cox, Jérémie Decouchant, Lydia Y. Chen,
- Abstract要約: GWTFは、大規模な言語モデル(LLM)のための、クラッシュ耐性のある実用的な分散トレーニングフレームワークである。
リソースをボランティアする異種クライアント上でのLLMの効率的な協調トレーニングを可能にする。
GWTFはノードチャーン、すなわちクライアントがいつでもシステムに参加または離脱し、ネットワークの不安定さに対処する。
- 参考スコア(独自算出の注目度): 6.274600973464076
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Motivated by the emergence of large language models (LLMs) and the importance of democratizing their training, we propose GWTF, the first crash tolerant practical decentralized training framework for LLMs. Differently from existing distributed and federated training frameworks, GWTF enables the efficient collaborative training of a LLM on heterogeneous clients that volunteer their resources. In addition, GWTF addresses node churn, i.e., clients joining or leaving the system at any time, and network instabilities, i.e., network links becoming unstable or unreliable. The core of GWTF is a novel decentralized flow algorithm that finds the most effective routing that maximizes the number of microbatches trained with the lowest possible delay. We extensively evaluate GWTF on GPT-like and LLaMa-like models and compare it against the prior art. Our results indicate that GWTF reduces the training time by up to 45% in realistic and challenging scenarios that involve heterogeneous client nodes distributed over 10 different geographic locations with a high node churn rate.
- Abstract(参考訳): 大規模言語モデル(LLM)の出現と,そのトレーニングの民主化の重要性に動機づけられたGWTFを提案する。
既存の分散およびフェデレートされたトレーニングフレームワークとは異なり、GWTFはリソースをボランティアする異種クライアント上でLLMの効率的な協調トレーニングを可能にします。
さらにGWTFはノードのチャーン、すなわちクライアントがいつでもシステムに参加または離脱し、ネットワークの不安定さ、すなわちネットワークリンクが不安定になる、あるいは信頼性が低下する、といった問題に対処する。
GWTFの中核は、最小限の遅延でトレーニングされたマイクロバッチの数を最大化する最も効果的なルーティングを見つける、新しい分散フローアルゴリズムである。
GPTやLLaMaのようなモデル上でGWTFを広範囲に評価し,先行技術と比較した。
この結果から,GWTF は,多種多様なクライアントノードが 10 つの異なるロケーションに分散し,高いノードチャーンレートで分散する,現実的で困難なシナリオにおいて,最大 45% のトレーニング時間を短縮できることが示唆された。
関連論文リスト
- Scheduling and Communication Schemes for Decentralized Federated
Learning [0.31410859223862103]
勾配降下(SGD)アルゴリズムを用いた分散連合学習(DFL)モデルが導入された。
DFLの3つのスケジューリングポリシーがクライアントと並列サーバ間の通信のために提案されている。
その結果,提案した計画警察は,収束速度と最終グローバルモデルの両方に影響を及ぼすことがわかった。
論文 参考訳(メタデータ) (2023-11-27T17:35:28Z) - Sparse Decentralized Federated Learning [35.32297764027417]
分散フェデレートラーニング(DFL)は、中央サーバーなしで協調的なモデルトレーニングを可能にするが、効率、安定性、信頼性の課題に直面している。
Sparse DFL (SDFL) に繋がる共有モデルに空間制約を導入し,新しいアルゴリズムCEPSを提案する。
数値実験により,高い信頼性を維持しつつ,コミュニケーションと効率を向上させるための提案アルゴリズムの有効性が検証された。
論文 参考訳(メタデータ) (2023-08-31T12:22:40Z) - Towards Instance-adaptive Inference for Federated Learning [80.38701896056828]
Federated Learning(FL)は、複数のクライアントがローカルトレーニングを集約することで、強力なグローバルモデルを学ぶことができる分散学習パラダイムである。
本稿では,FedInsという新しいFLアルゴリズムを提案する。
我々のFedInsは、Tiny-ImageNet上での通信コストが15%未満で、トップパフォーマンスの手法に対して6.64%の改善など、最先端のFLアルゴリズムよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-08-11T09:58:47Z) - When Computing Power Network Meets Distributed Machine Learning: An
Efficient Federated Split Learning Framework [6.871107511111629]
CPN-FedSLはComputer Power Network (CPN)上のFederated Split Learning (FedSL)フレームワークである。
私たちは、基本的な設定と学習特性(例えば、レイテンシ、フロー、収束)をキャプチャする専用のモデルを構築します。
論文 参考訳(メタデータ) (2023-05-22T12:36:52Z) - Aergia: Leveraging Heterogeneity in Federated Learning Systems [5.0650178943079]
フェデレートラーニング(FL)は、クライアントを頼りに、ローカルデータセットを使用してグローバルモデルを更新する。
Aergiaは、遅いクライアントがトレーニングで最も計算集約的なモデルの一部を凍結する、新しいアプローチである。
AergiaはFedAvgとTiFLと比較して、異種条件下でのトレーニング時間を最大27%と53%と大幅に短縮する。
論文 参考訳(メタデータ) (2022-10-12T12:59:18Z) - Acceleration of Federated Learning with Alleviated Forgetting in Local
Training [61.231021417674235]
フェデレートラーニング(FL)は、プライバシを保護しながら機械学習モデルの分散最適化を可能にする。
我々は,FedRegを提案する。FedRegは,局所的な訓練段階において,知識を忘れることなくFLを加速するアルゴリズムである。
我々の実験は、FedRegはFLの収束率を著しく改善するだけでなく、特にニューラルネットワークアーキテクチャが深い場合にも改善することを示した。
論文 参考訳(メタデータ) (2022-03-05T02:31:32Z) - A Bayesian Federated Learning Framework with Online Laplace
Approximation [144.7345013348257]
フェデレートラーニングは、複数のクライアントが協力してグローバルに共有されたモデルを学ぶことを可能にする。
クライアント側とサーバ側の両方の後方部を近似するために,オンラインラプラス近似を用いた新しいFLフレームワークを提案する。
提案手法の利点を実証し,いくつかのベンチマークで最新の結果を得た。
論文 参考訳(メタデータ) (2021-02-03T08:36:58Z) - Blockchain Assisted Decentralized Federated Learning (BLADE-FL):
Performance Analysis and Resource Allocation [119.19061102064497]
ブロックチェーンをFL、すなわちブロックチェーン支援分散学習(BLADE-FL)に統合することで、分散FLフレームワークを提案する。
提案されたBLADE-FLのラウンドでは、各クライアントはトレーニング済みモデルを他のクライアントにブロードキャストし、受信したモデルに基づいてブロックを生成し、次のラウンドのローカルトレーニングの前に生成されたブロックからモデルを集約します。
遅延クライアントがblade-flの学習性能に与える影響を調査し,最適なk,学習パラメータ,遅延クライアントの割合の関係を特徴付ける。
論文 参考訳(メタデータ) (2021-01-18T07:19:08Z) - Decentralized Federated Learning via Mutual Knowledge Transfer [37.5341683644709]
分散型連合学習(DFL)は、モノのインターネット(IoT)システムにおける問題です。
現地のクライアントが学習した知識を相互に転送することでモデルを融合させる相互知識伝達(Def-KT)アルゴリズムを提案します。
MNIST, Fashion-MNIST, CIFAR10データセットに対する実験により,提案アルゴリズムがベースラインDFL法を著しく上回るデータセットを明らかにした。
論文 参考訳(メタデータ) (2020-12-24T01:43:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。