Fugu-MT 論文翻訳(概要): MP-SL: Multihop Parallel Split Learning

論文の概要: MP-SL: Multihop Parallel Split Learning

arxiv url: http://arxiv.org/abs/2402.00208v1
Date: Wed, 31 Jan 2024 22:09:40 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-02 17:13:07.045850
Title: MP-SL: Multihop Parallel Split Learning
Title（参考訳）: MP-SL: マルチホップ並列スプリット学習
Authors: Joana Tirana, Spyros Lalis, Dimitris Chatzopoulos
Abstract要約: Multihop Parallel SL (MP-SL) は、リソース制約されたデバイスの関与を促進するために設計された、モジュール式かつ機械学習・アズ・ア・サービス(ML)フレームワークである。 MP-SLはマルチホップParallel SLベースのトレーニングをサポートする。複数のパーツに分割し、パイプライン方式で複数の計算ノードを使用する。
参考スコア（独自算出の注目度）: 2.7716102039510564
License: http://creativecommons.org/publicdomain/zero/1.0/
Abstract: Federated Learning (FL) stands out as a widely adopted protocol facilitating the training of Machine Learning (ML) models while maintaining decentralized data. However, challenges arise when dealing with a heterogeneous set of participating devices, causing delays in the training process, particularly among devices with limited resources. Moreover, the task of training ML models with a vast number of parameters demands computing and memory resources beyond the capabilities of small devices, such as mobile and Internet of Things (IoT) devices. To address these issues, techniques like Parallel Split Learning (SL) have been introduced, allowing multiple resource-constrained devices to actively participate in collaborative training processes with assistance from resourceful compute nodes. Nonetheless, a drawback of Parallel SL is the substantial memory allocation required at the compute nodes, for instance training VGG-19 with 100 participants needs 80 GB. In this paper, we introduce Multihop Parallel SL (MP-SL), a modular and extensible ML as a Service (MLaaS) framework designed to facilitate the involvement of resource-constrained devices in collaborative and distributed ML model training. Notably, to alleviate memory demands per compute node, MP-SL supports multihop Parallel SL-based training. This involves splitting the model into multiple parts and utilizing multiple compute nodes in a pipelined manner. Extensive experimentation validates MP-SL's capability to handle system heterogeneity, demonstrating that the multihop configuration proves more efficient than horizontally scaled one-hop Parallel SL setups, especially in scenarios involving more cost-effective compute nodes.
Abstract（参考訳）: フェデレートラーニング(FL)は、分散データを維持しながら機械学習(ML)モデルのトレーニングを容易にする広く採用されているプロトコルである。しかし、異種なデバイス群を扱う場合、特にリソースの少ないデバイス間でトレーニングプロセスに遅延が生じるという課題が発生する。さらに、膨大な数のパラメータでMLモデルをトレーニングするタスクは、モバイルやIoT(Internet of Things)デバイスのような小さなデバイスの能力を超えた、コンピューティングとメモリリソースを必要とする。これらの問題に対処するために、パラレル分割学習(SL)のような技術が導入され、複数のリソース制約されたデバイスがリソース豊富な計算ノードの助けを借りて協調的なトレーニングプロセスに積極的に参加できるようにする。それでも、Parallel SLの欠点は計算ノードに必要なメモリ割り当てであり、例えば、100人の参加者が80GBを必要とするVGG-19をトレーニングするなどである。本稿では,Multihop Parallel SL(MP-SL)について紹介する。Multihop Parallel SL(Multihop Parallel SL)は,Multihop Parallel SL(ML-SL)フレームワークである。特に、計算ノード当たりのメモリ要求を軽減するために、MP-SLはマルチホップ並列SLベースのトレーニングをサポートする。これには、モデルを複数の部分に分割し、パイプライン化された方法で複数の計算ノードを活用することが含まれる。大規模な実験により、MP-SLのシステム不均一性を扱う能力が検証され、特にコスト効率の高い計算ノードを含むシナリオにおいて、マルチホップ構成が水平スケールのワンホップ・パラレルSLセットアップよりも効率的であることが証明された。

関連論文リスト

PLM: Efficient Peripheral Language Models Hardware-Co-Designed for Ubiquitous Computing [48.30406812516552]
我々は、モデルアーキテクチャとエッジシステムの制約を協調的に最適化する共同設計プロセスを通じて開発された、周辺言語モデルであるPLMを紹介する。 PLMはMulti-head Latent Attentionメカニズムを採用し、正方形ReLUアクティベーション機能を採用してスパーシティを促進し、ピークメモリフットプリントを減少させる。評価の結果, PLMは, 公開されているデータに基づいて訓練された既存の小言語モデルよりも優れていた。
論文参考訳（メタデータ） (2025-03-15T15:11:17Z)
ByteScale: Efficient Scaling of LLM Training with a 2048K Context Length on More Than 12,000 GPUs [22.542224045868117]
ByteScaleは、長いシーケンスと短いシーケンスの大規模な混合トレーニングのための効率的なフレームワークである。 ByteScaleはHybrid Data Parallelism(HDP)をベースにしている。実験の結果,ByteScaleは最先端のトレーニングシステムよりも最大7.89倍優れていた。
論文参考訳（メタデータ） (2025-02-28T17:01:03Z)
AutoHete: An Automatic and Efficient Heterogeneous Training System for LLMs [68.99086112477565]
トランスフォーマーベースの大規模言語モデル(LLM)は、シーケンスモデリングやテキスト生成において例外的な機能を示した。既存の異種トレーニング手法は、トレーニング可能なモデルの規模を大幅に拡大するが、かなりの通信オーバーヘッドとCPUワークロードを導入している。本稿では,シングルGPU環境とマルチGPU環境の両方に互換性のある,自動的で効率的なヘテロジニアストレーニングシステムであるAutoHeteを提案する。
論文参考訳（メタデータ） (2025-02-27T14:46:22Z)
Fine-tuning Multimodal Transformers on Edge: A Parallel Split Learning Approach [1.297210402524609]
Split Learningは、指定されたカット層でモデルをパーティションして、計算集約的な操作をサーバにオフロードする。本稿では,マルチモーダル変圧器を分散的に微調整する並列SL手法MPSLを提案する。 MPSLは軽量なクライアント側トークンライザと統一されたモダリティ非依存エンコーダを採用しており、タスク固有のニーズへの柔軟な適応を可能にしている。
論文参考訳（メタデータ） (2025-02-10T11:10:41Z)
One QuantLLM for ALL: Fine-tuning Quantized LLMs Once for Efficient Deployments [43.107261545706415]
大規模言語モデル(LLM)は急速に進歩しているが、かなりのメモリ需要に直面している。現在の方法では、量子化損失によるパフォーマンス劣化を軽減するために、通常、長いトレーニングが必要です。我々は、一度限りのフレームワークを大規模言語モデルに拡張する最初の試みを行っている。
論文参考訳（メタデータ） (2024-05-30T16:05:15Z)
ATOM: Asynchronous Training of Massive Models for Deep Learning in a Decentralized Environment [7.916080032572087]
Atomは、分散化された環境で巨大なモデルの非同期トレーニング用に設計された、レジリエントな分散トレーニングフレームワークである。 atomは、スワップをシームレスにモデルし、トレーニングスループットを最適化するために複数のコピーを同時にトレーニングすることで、1つのホスト(ピア)に完全なLLMを適合させることを目的としている。異なるGPT-3モデル構成を用いて実験したところ、最適ネットワーク接続のシナリオでは、原子は最先端の分散パイプライン並列化アプローチを組み込んだ場合、トレーニング効率を最大20倍に向上させることができることがわかった。
論文参考訳（メタデータ） (2024-03-15T17:43:43Z)
Distributed Inference and Fine-tuning of Large Language Models Over The Internet [91.00270820533272]
大規模言語モデル(LLM)は、多くのNLPタスクで有用であり、サイズが向上する。これらのモデルはハイエンドのハードウェアを必要とするため、ほとんどの研究者にはアクセスできない。本研究では,システムスループットの最大化のためにデバイスを自動的に割り当てるフォールトトレラント推論アルゴリズムとロードバランシングプロトコルを開発する。
論文参考訳（メタデータ） (2023-12-13T18:52:49Z)
Holmes: Towards Distributed Training Across Clusters with Heterogeneous NIC Environment [8.30319294116657]
GPT-3、OPT、LLaMAのような大規模言語モデル(LLM)は、幅広いタスクにおいて顕著な精度を示している。これらのモデルのトレーニングには多大な費用がかかり、数ヶ月間の連続運用には数万のGPUが必要になります。このフレームワークは、不均一なNIC環境上で、慎重に構築されたデータとモデル並列化戦略を利用する。
論文参考訳（メタデータ） (2023-12-06T15:27:26Z)
In Situ Framework for Coupling Simulation and Machine Learning with Application to CFD [51.04126395480625]
近年、流体力学計算を容易にする機械学習(ML)の多くの成功例が報告されている。シミュレーションが大きくなるにつれて、従来のオフライン学習のための新しいトレーニングデータセットの生成は、I/Oとストレージのボトルネックを生み出します。この作業は、この結合を単純化し、異種クラスタでのその場トレーニングと推論を可能にするソリューションを提供する。
論文参考訳（メタデータ） (2023-06-22T14:07:54Z)
Partitioning Distributed Compute Jobs with Reinforcement Learning and Graph Neural Networks [58.720142291102135]
大規模な機械学習モデルは、幅広い分野に進歩をもたらしている。これらのモデルの多くは、単一のマシンでトレーニングするには大きすぎるため、複数のデバイスに分散する必要がある。スループットやブロッキングレートといったユーザクリティカルな指標に対して,並列化の最大化が準最適であることを示す。
論文参考訳（メタデータ） (2023-01-31T17:41:07Z)
SWARM Parallelism: Training Large Models Can Be Surprisingly Communication-Efficient [69.61083127540776]
ディープラーニングアプリケーションは、数十億のパラメータを持つ大きなモデルを使用することの恩恵を受ける。これらのモデルのトレーニングは、特殊なHPCクラスタを必要とするため、非常に高価である。安価な"プリエンプティブル"インスタンスを使用するか、あるいは複数のリージョンから既存のリソースをプールする。
論文参考訳（メタデータ） (2023-01-27T18:55:19Z)
PiPar: Pipeline Parallelism for Collaborative Machine Learning [16.131285496487678]
協調機械学習(CML)技術は、複数のモバイルデバイスとサーバにまたがるディープラーニングモデルをトレーニングするために提案されている。 CML技術は、デバイスからの生データをサーバと共有するのではなく、各デバイスでトレーニングされたローカルモデルとしてプライバシ保存される。低資源利用の主要因として,シーケンシャルな計算と通信により,サーバやデバイス上でのアイドリングリソースを同定する。
論文参考訳（メタデータ） (2022-12-01T20:51:47Z)
Multi-Job Intelligent Scheduling with Cross-Device Federated Learning [65.69079337653994]
フェデレートラーニング(FL)は、センシティブな生データを共有せずに、協調的なグローバル機械学習モデルのトレーニングを可能にする。本稿では,複数のジョブを並列にトレーニングできる新しいマルチジョブFLフレームワークを提案する。本稿では,元来の強化学習に基づくスケジューリング手法と元来のベイズ最適化に基づくスケジューリング手法を含む,複数のスケジューリング手法に基づく新しいインテリジェントスケジューリング手法を提案する。
論文参考訳（メタデータ） (2022-11-24T06:17:40Z)
Asynchronous Parallel Incremental Block-Coordinate Descent for Decentralized Machine Learning [55.198301429316125]
機械学習(ML)は、巨大なIoT(Internet of Things)ベースのインテリジェントでユビキタスなコンピューティングのビッグデータ駆動モデリングと分析のための重要なテクニックである。急成長するアプリケーションやデータ量にとって、分散学習は有望な新興パラダイムである。本稿では,多くのユーザデバイスに分散した分散システム上でMLモデルをトレーニングする問題について検討する。
論文参考訳（メタデータ） (2022-02-07T15:04:15Z)
IPLS : A Framework for Decentralized Federated Learning [6.6271520914941435]
IPLSは、惑星間ファイルシステム(IPFS)を部分的にベースとする完全分散型のフェデレーション学習フレームワークです。 IPLSは、参加者数に応じてスケールし、断続接続や動的入場/到着に対して堅牢であり、最小限のリソースを必要とし、トレーニングされたモデルの精度が1000分の1の精度低下を伴う集中FLフレームワークの精度に迅速に収束することを保証する。
論文参考訳（メタデータ） (2021-01-06T07:44:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。