論文の概要: On Harnessing Idle Compute at the Edge for Foundation Model Training
- arxiv url: http://arxiv.org/abs/2512.22142v1
- Date: Sat, 13 Dec 2025 20:57:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-04 08:45:17.063942
- Title: On Harnessing Idle Compute at the Edge for Foundation Model Training
- Title(参考訳): 基礎モデルトレーニングのためのエッジにおけるアイドル計算のハーネスについて
- Authors: Leyang Xue, Meghana Madhyastha, Myungjin Lee, Amos Storkey, Randal Burns, Mahesh K. Marina,
- Abstract要約: 我々はCleaveを紹介し、新しい選択型ハイブリッドテンソル並列化法により、トレーニング操作を微妙に分割する。
Cleaveは、大規模なモデルや数千のデバイスに効率的にスケーリングすることで、クラウドベースのGPUトレーニングにマッチし、ベースラインのエッジトレーニングアプローチよりも最大8倍のデバイスをサポートする。
最先端のエッジトレーニング手法を、バッチ毎のトレーニング時間で最大10倍に向上し、デバイス障害を効率的に処理し、従来の方法よりも少なくとも100倍高速なリカバリを実現している。
- 参考スコア(独自算出の注目度): 7.228241542082645
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: The ecosystem behind foundation model development today is highly centralized and limited to large-scale cloud data center operators: training foundation models is costly, needing immense compute resources. Decentralized foundation model training across edge devices, leveraging their spare compute, promises a democratized alternative. However, existing edge-training approaches fall short: they struggle to match cloud-based training performance, exhibit limited scalability with model size, exceed device memory capacity, and have prohibitive communication overhead. They also fail to satisfactorily handle device heterogeneity and dynamism. We introduce a new paradigm, Cleave, which finely partitions training operations through a novel selective hybrid tensor parallelism method. Together with a parameter server centric training framework, Cleave copes with device memory limits and avoids communication bottlenecks, thereby enabling efficient training of large models on par with the cloud. Further, with a cost optimization model to guide device selection and training workload distribution, Cleave effectively accounts for device heterogeneity and churn. Our evaluations show that Cleave matches cloud-based GPU training by scaling efficiently to larger models and thousands of devices, supporting up to 8x more devices than baseline edge-training approaches. It outperforms state-of-the-art edge training methods by up to a factor of 10 in per-batch training time and efficiently handles device failures, achieving at least 100x faster recovery than prior methods.
- Abstract(参考訳): 現在のファンデーションモデル開発の背景にあるエコシステムは、高度に集中し、大規模なデータセンターオペレータに限られています。
エッジデバイスをまたいだ分散ファンデーションモデルトレーニングは、余分な計算を活用し、民主化された代替手段を約束する。
しかし、既存のエッジトレーニングアプローチは不足している。クラウドベースのトレーニングパフォーマンスの整合性、モデルサイズによるスケーラビリティの制限、デバイスメモリ容量の超過、通信オーバーヘッドの禁止などだ。
また、デバイスの不均一性とダイナミズムを十分に扱えない。
新しいパラダイムであるCleaveを導入し、新しい選択型ハイブリッドテンソル並列化法により、トレーニング操作を微妙に分割する。
パラメータサーバ中心のトレーニングフレームワークとともに、Cleaveはデバイスのメモリ制限に対処し、通信ボトルネックを回避することにより、クラウドと同等の大規模モデルの効率的なトレーニングを可能にする。
さらに、デバイス選択とトレーニングワークロードの分散を導くためのコスト最適化モデルにより、Cleaveはデバイスの不均一性とチャーンを効果的に説明できる。
我々の評価では、CleaveはクラウドベースのGPUトレーニングと一致し、大規模なモデルや数千台のデバイスに効率的にスケールし、ベースラインのエッジトレーニングアプローチよりも最大8倍のデバイスをサポートする。
最先端のエッジトレーニング手法を、バッチ毎のトレーニング時間で最大10倍に向上し、デバイス障害を効率的に処理し、従来の方法よりも少なくとも100倍高速なリカバリを実現している。
関連論文リスト
- AutoHete: An Automatic and Efficient Heterogeneous Training System for LLMs [68.99086112477565]
トランスフォーマーベースの大規模言語モデル(LLM)は、シーケンスモデリングやテキスト生成において例外的な機能を示した。
既存の異種トレーニング手法は、トレーニング可能なモデルの規模を大幅に拡大するが、かなりの通信オーバーヘッドとCPUワークロードを導入している。
本稿では,シングルGPU環境とマルチGPU環境の両方に互換性のある,自動的で効率的なヘテロジニアストレーニングシステムであるAutoHeteを提案する。
論文 参考訳(メタデータ) (2025-02-27T14:46:22Z) - Enhancing Stability for Large Language Models Training in Constrained Bandwidth Networks [8.049237611207113]
我々は、階層分割(hpZ)方式における競合状態が、数十億のパラメータを持つモデルのトレーニング時に不安定を引き起こす可能性を示す。
次に、これらの収束問題に対処し、競争力のあるトレーニング効率を維持しながら、分割アルゴリズムの変更を提案する。
このアルゴリズムは、98%のスループットを持つ大型モデルの堅牢なトレーニングを可能にし、収束の質を犠牲にすることなく、モデルのトレーニング速度を向上する。
論文 参考訳(メタデータ) (2024-06-28T01:46:10Z) - Efficient Asynchronous Federated Learning with Sparsification and
Quantization [55.6801207905772]
フェデレートラーニング(FL)は、生データを転送することなく、機械学習モデルを協調的にトレーニングするために、ますます注目を集めている。
FLは一般的に、モデルトレーニングの全プロセス中にパラメータサーバーと多数のエッジデバイスを利用する。
TEASQ-Fedは、エッジデバイスを利用して、タスクに積極的に適用することで、トレーニングプロセスに非同期に参加する。
論文 参考訳(メタデータ) (2023-12-23T07:47:07Z) - ProgFed: Effective, Communication, and Computation Efficient Federated Learning by Progressive Training [65.68511423300812]
本稿では,効率的なフェデレート学習のためのプログレッシブトレーニングフレームワークであるProgFedを提案する。
ProgFedは計算と双方向通信のコストを本質的に低減し、最終モデルの強力な性能を維持している。
以上の結果から, ProgFed はフルモデルの標準トレーニングと同等の速度で収束することがわかった。
論文 参考訳(メタデータ) (2021-10-11T14:45:00Z) - FTPipeHD: A Fault-Tolerant Pipeline-Parallel Distributed Training
Framework for Heterogeneous Edge Devices [21.513786638743234]
FTPipeHDは、異種デバイス間でディープラーニングモデルをトレーニングする新しいフレームワークである。
FTPipeHDは、最高のデバイスの計算能力が最悪のものより10倍大きい場合、アートメソッドの状態よりもトレーニングで6.8倍高速であることが示されている。
論文 参考訳(メタデータ) (2021-10-06T14:00:22Z) - Joint Parameter-and-Bandwidth Allocation for Improving the Efficiency of
Partitioned Edge Learning [73.82875010696849]
機械学習アルゴリズムは、人工知能(AI)モデルをトレーニングするために、ネットワークエッジにデプロイされる。
本稿では,パラメータ(計算負荷)割り当てと帯域幅割り当ての新しい共同設計に焦点を当てる。
論文 参考訳(メタデータ) (2020-03-10T05:52:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。