論文の概要: MP-SL: Multihop Parallel Split Learning
- arxiv url: http://arxiv.org/abs/2402.00208v1
- Date: Wed, 31 Jan 2024 22:09:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-02 17:13:07.045850
- Title: MP-SL: Multihop Parallel Split Learning
- Title(参考訳): MP-SL: マルチホップ並列スプリット学習
- Authors: Joana Tirana, Spyros Lalis, Dimitris Chatzopoulos
- Abstract要約: Multihop Parallel SL (MP-SL) は、リソース制約されたデバイスの関与を促進するために設計された、モジュール式かつ機械学習・アズ・ア・サービス(ML)フレームワークである。
MP-SLはマルチホップParallel SLベースのトレーニングをサポートする。複数のパーツに分割し、パイプライン方式で複数の計算ノードを使用する。
- 参考スコア(独自算出の注目度): 2.7716102039510564
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Federated Learning (FL) stands out as a widely adopted protocol facilitating
the training of Machine Learning (ML) models while maintaining decentralized
data. However, challenges arise when dealing with a heterogeneous set of
participating devices, causing delays in the training process, particularly
among devices with limited resources. Moreover, the task of training ML models
with a vast number of parameters demands computing and memory resources beyond
the capabilities of small devices, such as mobile and Internet of Things (IoT)
devices. To address these issues, techniques like Parallel Split Learning (SL)
have been introduced, allowing multiple resource-constrained devices to
actively participate in collaborative training processes with assistance from
resourceful compute nodes. Nonetheless, a drawback of Parallel SL is the
substantial memory allocation required at the compute nodes, for instance
training VGG-19 with 100 participants needs 80 GB. In this paper, we introduce
Multihop Parallel SL (MP-SL), a modular and extensible ML as a Service (MLaaS)
framework designed to facilitate the involvement of resource-constrained
devices in collaborative and distributed ML model training. Notably, to
alleviate memory demands per compute node, MP-SL supports multihop Parallel
SL-based training. This involves splitting the model into multiple parts and
utilizing multiple compute nodes in a pipelined manner. Extensive
experimentation validates MP-SL's capability to handle system heterogeneity,
demonstrating that the multihop configuration proves more efficient than
horizontally scaled one-hop Parallel SL setups, especially in scenarios
involving more cost-effective compute nodes.
- Abstract(参考訳): フェデレートラーニング(FL)は、分散データを維持しながら機械学習(ML)モデルのトレーニングを容易にする広く採用されているプロトコルである。
しかし、異種なデバイス群を扱う場合、特にリソースの少ないデバイス間でトレーニングプロセスに遅延が生じるという課題が発生する。
さらに、膨大な数のパラメータでMLモデルをトレーニングするタスクは、モバイルやIoT(Internet of Things)デバイスのような小さなデバイスの能力を超えた、コンピューティングとメモリリソースを必要とする。
これらの問題に対処するために、パラレル分割学習(SL)のような技術が導入され、複数のリソース制約されたデバイスがリソース豊富な計算ノードの助けを借りて協調的なトレーニングプロセスに積極的に参加できるようにする。
それでも、Parallel SLの欠点は計算ノードに必要なメモリ割り当てであり、例えば、100人の参加者が80GBを必要とするVGG-19をトレーニングするなどである。
本稿では,Multihop Parallel SL(MP-SL)について紹介する。Multihop Parallel SL(Multihop Parallel SL)は,Multihop Parallel SL(ML-SL)フレームワークである。
特に、計算ノード当たりのメモリ要求を軽減するために、MP-SLはマルチホップ並列SLベースのトレーニングをサポートする。
これには、モデルを複数の部分に分割し、パイプライン化された方法で複数の計算ノードを活用することが含まれる。
大規模な実験により、MP-SLのシステム不均一性を扱う能力が検証され、特にコスト効率の高い計算ノードを含むシナリオにおいて、マルチホップ構成が水平スケールのワンホップ・パラレルSLセットアップよりも効率的であることが証明された。
関連論文リスト
- One QuantLLM for ALL: Fine-tuning Quantized LLMs Once for Efficient Deployments [43.107261545706415]
大規模言語モデル(LLM)は急速に進歩しているが、かなりのメモリ需要に直面している。
現在の方法では、量子化損失によるパフォーマンス劣化を軽減するために、通常、長いトレーニングが必要です。
我々は、一度限りのフレームワークを大規模言語モデルに拡張する最初の試みを行っている。
論文 参考訳(メタデータ) (2024-05-30T16:05:15Z) - ATOM: Asynchronous Training of Massive Models for Deep Learning in a Decentralized Environment [7.916080032572087]
Atomは、分散化された環境で巨大なモデルの非同期トレーニング用に設計された、レジリエントな分散トレーニングフレームワークである。
atomは、スワップをシームレスにモデルし、トレーニングスループットを最適化するために複数のコピーを同時にトレーニングすることで、1つのホスト(ピア)に完全なLLMを適合させることを目的としている。
異なるGPT-3モデル構成を用いて実験したところ、最適ネットワーク接続のシナリオでは、原子は最先端の分散パイプライン並列化アプローチを組み込んだ場合、トレーニング効率を最大20倍に向上させることができることがわかった。
論文 参考訳(メタデータ) (2024-03-15T17:43:43Z) - Distributed Inference and Fine-tuning of Large Language Models Over The
Internet [91.00270820533272]
大規模言語モデル(LLM)は、多くのNLPタスクで有用であり、サイズが向上する。
これらのモデルはハイエンドのハードウェアを必要とするため、ほとんどの研究者にはアクセスできない。
本研究では,システムスループットの最大化のためにデバイスを自動的に割り当てるフォールトトレラント推論アルゴリズムとロードバランシングプロトコルを開発する。
論文 参考訳(メタデータ) (2023-12-13T18:52:49Z) - Holmes: Towards Distributed Training Across Clusters with Heterogeneous NIC Environment [8.30319294116657]
GPT-3、OPT、LLaMAのような大規模言語モデル(LLM)は、幅広いタスクにおいて顕著な精度を示している。
これらのモデルのトレーニングには多大な費用がかかり、数ヶ月間の連続運用には数万のGPUが必要になります。
このフレームワークは、不均一なNIC環境上で、慎重に構築されたデータとモデル並列化戦略を利用する。
論文 参考訳(メタデータ) (2023-12-06T15:27:26Z) - In Situ Framework for Coupling Simulation and Machine Learning with
Application to CFD [51.04126395480625]
近年、流体力学計算を容易にする機械学習(ML)の多くの成功例が報告されている。
シミュレーションが大きくなるにつれて、従来のオフライン学習のための新しいトレーニングデータセットの生成は、I/Oとストレージのボトルネックを生み出します。
この作業は、この結合を単純化し、異種クラスタでのその場トレーニングと推論を可能にするソリューションを提供する。
論文 参考訳(メタデータ) (2023-06-22T14:07:54Z) - Partitioning Distributed Compute Jobs with Reinforcement Learning and
Graph Neural Networks [58.720142291102135]
大規模な機械学習モデルは、幅広い分野に進歩をもたらしている。
これらのモデルの多くは、単一のマシンでトレーニングするには大きすぎるため、複数のデバイスに分散する必要がある。
スループットやブロッキングレートといったユーザクリティカルな指標に対して,並列化の最大化が準最適であることを示す。
論文 参考訳(メタデータ) (2023-01-31T17:41:07Z) - SWARM Parallelism: Training Large Models Can Be Surprisingly
Communication-Efficient [69.61083127540776]
ディープラーニングアプリケーションは、数十億のパラメータを持つ大きなモデルを使用することの恩恵を受ける。
これらのモデルのトレーニングは、特殊なHPCクラスタを必要とするため、非常に高価である。
安価な"プリエンプティブル"インスタンスを使用するか、あるいは複数のリージョンから既存のリソースをプールする。
論文 参考訳(メタデータ) (2023-01-27T18:55:19Z) - PiPar: Pipeline Parallelism for Collaborative Machine Learning [16.131285496487678]
協調機械学習(CML)技術は、複数のモバイルデバイスとサーバにまたがるディープラーニングモデルをトレーニングするために提案されている。
CML技術は、デバイスからの生データをサーバと共有するのではなく、各デバイスでトレーニングされたローカルモデルとしてプライバシ保存される。
低資源利用の主要因として,シーケンシャルな計算と通信により,サーバやデバイス上でのアイドリングリソースを同定する。
論文 参考訳(メタデータ) (2022-12-01T20:51:47Z) - Multi-Job Intelligent Scheduling with Cross-Device Federated Learning [65.69079337653994]
フェデレートラーニング(FL)は、センシティブな生データを共有せずに、協調的なグローバル機械学習モデルのトレーニングを可能にする。
本稿では,複数のジョブを並列にトレーニングできる新しいマルチジョブFLフレームワークを提案する。
本稿では,元来の強化学習に基づくスケジューリング手法と元来のベイズ最適化に基づくスケジューリング手法を含む,複数のスケジューリング手法に基づく新しいインテリジェントスケジューリング手法を提案する。
論文 参考訳(メタデータ) (2022-11-24T06:17:40Z) - Asynchronous Parallel Incremental Block-Coordinate Descent for
Decentralized Machine Learning [55.198301429316125]
機械学習(ML)は、巨大なIoT(Internet of Things)ベースのインテリジェントでユビキタスなコンピューティングのビッグデータ駆動モデリングと分析のための重要なテクニックである。
急成長するアプリケーションやデータ量にとって、分散学習は有望な新興パラダイムである。
本稿では,多くのユーザデバイスに分散した分散システム上でMLモデルをトレーニングする問題について検討する。
論文 参考訳(メタデータ) (2022-02-07T15:04:15Z) - IPLS : A Framework for Decentralized Federated Learning [6.6271520914941435]
IPLSは、惑星間ファイルシステム(IPFS)を部分的にベースとする完全分散型のフェデレーション学習フレームワークです。
IPLSは、参加者数に応じてスケールし、断続接続や動的入場/到着に対して堅牢であり、最小限のリソースを必要とし、トレーニングされたモデルの精度が1000分の1の精度低下を伴う集中FLフレームワークの精度に迅速に収束することを保証する。
論文 参考訳(メタデータ) (2021-01-06T07:44:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。