論文の概要: Architecting Peer-to-Peer Serverless Distributed Machine Learning
Training for Improved Fault Tolerance
- arxiv url: http://arxiv.org/abs/2302.13995v1
- Date: Mon, 27 Feb 2023 17:38:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-28 14:32:04.707541
- Title: Architecting Peer-to-Peer Serverless Distributed Machine Learning
Training for Improved Fault Tolerance
- Title(参考訳): フォールトトレランス向上のためのピアツーピアサーバレス分散機械学習トレーニングの構築
- Authors: Amine Barrak, Fabio Petrillo, Fehmi Jaafar
- Abstract要約: サーバレスコンピューティングは、計算単位として関数を使用するクラウドコンピューティングの新しいパラダイムである。
ワークロードを分散することにより、分散機械学習はトレーニングプロセスを高速化し、より複雑なモデルをトレーニングできるようにする。
本稿では、分散機械学習トレーニングにおけるサーバーレスコンピューティングの利用について検討し、P2Pアーキテクチャの性能とパラメータサーバアーキテクチャを比較した。
- 参考スコア(独自算出の注目度): 1.495380389108477
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Distributed Machine Learning refers to the practice of training a model on
multiple computers or devices that can be called nodes. Additionally,
serverless computing is a new paradigm for cloud computing that uses functions
as a computational unit. Serverless computing can be effective for distributed
learning systems by enabling automated resource scaling, less manual
intervention, and cost reduction. By distributing the workload, distributed
machine learning can speed up the training process and allow more complex
models to be trained. Several topologies of distributed machine learning have
been established (centralized, parameter server, peer-to-peer). However, the
parameter server architecture may have limitations in terms of fault tolerance,
including a single point of failure and complex recovery processes. Moreover,
training machine learning in a peer-to-peer (P2P) architecture can offer
benefits in terms of fault tolerance by eliminating the single point of
failure. In a P2P architecture, each node or worker can act as both a server
and a client, which allows for more decentralized decision making and
eliminates the need for a central coordinator. In this position paper, we
propose exploring the use of serverless computing in distributed machine
learning training and comparing the performance of P2P architecture with the
parameter server architecture, focusing on cost reduction and fault tolerance.
- Abstract(参考訳): 分散機械学習(distributed machine learning)は、ノードと呼ばれる複数のコンピュータやデバイス上でモデルをトレーニングするプラクティスである。
さらに、サーバレスコンピューティングは、関数を計算単位として使用するクラウドコンピューティングの新しいパラダイムである。
サーバレスコンピューティングは、自動リソーススケーリング、手作業による介入の低減、コスト削減を可能にして、分散学習システムに有効である。
ワークロードを分散することにより、分散機械学習はトレーニングプロセスを高速化し、より複雑なモデルをトレーニングできるようにする。
分散機械学習のいくつかのトポロジ(集中型、パラメータサーバ、ピアツーピア)が確立されている。
しかし、パラメータサーバアーキテクチャは、単一障害点と複雑な回復プロセスを含む、フォールトトレランスの点で制限があるかもしれない。
さらに、ピアツーピア(P2P)アーキテクチャで機械学習をトレーニングすることで、単一障害点を排除してフォールトトレランスの面でのメリットを提供することができる。
P2Pアーキテクチャでは、各ノードまたはワーカがサーバとクライアントの両方として動作し、より分散化された意思決定を可能にし、中央コーディネータの必要性を排除できる。
本稿では,分散機械学習トレーニングにおけるサーバレスコンピューティングの利用を検討するとともに,P2Pアーキテクチャとパラメータサーバアーキテクチャの性能を比較し,コスト削減と耐障害性に着目した。
関連論文リスト
- Communication Efficient ConFederated Learning: An Event-Triggered SAGA
Approach [67.27031215756121]
Federated Learning(FL)は、さまざまなデータソース上のローカルデータを収集することなく、モデルトレーニングをターゲットとする機械学習パラダイムである。
単一のサーバを使用するStandard FLは、限られた数のユーザしかサポートできないため、学習能力の低下につながる。
本研究では,多数のユーザに対応するために,emphConfederated Learning(CFL)と呼ばれるマルチサーバFLフレームワークを検討する。
論文 参考訳(メタデータ) (2024-02-28T03:27:10Z) - Scalable Federated Unlearning via Isolated and Coded Sharding [76.12847512410767]
フェデレートされたアンラーニングは、クライアントレベルのデータエフェクトを削除するための有望なパラダイムとして登場した。
本稿では,分散シャーディングと符号化コンピューティングに基づく,スケーラブルなフェデレーション・アンラーニング・フレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-29T08:41:45Z) - SPIRT: A Fault-Tolerant and Reliable Peer-to-Peer Serverless ML Training
Architecture [0.61497722627646]
SPIRTはフォールトトレラントで信頼性があり、セキュアなサーバレスP2P MLトレーニングアーキテクチャである。
本稿では,フォールトトレラントで信頼性が高く,セキュアなサーバレスP2P MLトレーニングアーキテクチャであるSPIRTを紹介する。
論文 参考訳(メタデータ) (2023-09-25T14:01:35Z) - Exploring the Impact of Serverless Computing on Peer To Peer Training
Machine Learning [0.3441021278275805]
分散トレーニングのためのサーバーレスコンピューティングとP2Pネットワークを組み合わせた新しいアーキテクチャを導入する。
その結果,従来のP2P分散学習法と比較して97.34%の改善がみられた。
コストタイムのトレードオフにもかかわらず、サーバーレスのアプローチは依然として有望である。
論文 参考訳(メタデータ) (2023-09-25T13:51:07Z) - Scalable Collaborative Learning via Representation Sharing [53.047460465980144]
フェデレートラーニング(FL)とスプリットラーニング(SL)は、データを(デバイス上で)プライベートにしながら協調学習を可能にする2つのフレームワークである。
FLでは、各データ保持者がモデルをローカルにトレーニングし、集約のために中央サーバにリリースする。
SLでは、クライアントは個々のカット層アクティベーション(スマッシュされたデータ)をサーバにリリースし、そのレスポンス(推論とバックの伝搬の両方)を待つ必要があります。
本研究では, クライアントがオンライン知識蒸留を通じて, 対照的な損失を生かして協調する, プライバシ保護機械学習の新しいアプローチを提案する。
論文 参考訳(メタデータ) (2022-11-20T10:49:22Z) - MLProxy: SLA-Aware Reverse Proxy for Machine Learning Inference Serving
on Serverless Computing Platforms [5.089110111757978]
クラウド上で機械学習の推論ワークロードを実行することは、運用レベルではまだ難しい作業です。
近年,ほとんどのインフラストラクチャ管理タスクを自動化するために,サーバレスコンピューティングが登場している。
本稿では、サーバレスコンピューティングシステム上で効率的な機械学習サービスワークロードをサポートするリバースプロキシであるML Proxyを紹介する。
論文 参考訳(メタデータ) (2022-02-23T00:27:49Z) - Federated Learning with Unreliable Clients: Performance Analysis and
Mechanism Design [76.29738151117583]
Federated Learning(FL)は、分散クライアント間で効果的な機械学習モデルをトレーニングするための有望なツールとなっている。
しかし、低品質のモデルは信頼性の低いクライアントによってアグリゲータサーバにアップロードすることができ、劣化やトレーニングの崩壊につながる。
クライアントの信頼できない振る舞いをモデル化し、このようなセキュリティリスクを軽減するための防御メカニズムを提案する。
論文 参考訳(メタデータ) (2021-05-10T08:02:27Z) - Distributed Double Machine Learning with a Serverless Architecture [0.0]
本稿では、ダブル機械学習のためのサーバーレスクラウドコンピューティングについて検討する。
ダブル機械学習は、サーバーレスコンピューティングで実現可能な高いレベルの並列性を利用するのに特に適している。
論文 参考訳(メタデータ) (2021-01-11T16:58:30Z) - Joint Parameter-and-Bandwidth Allocation for Improving the Efficiency of
Partitioned Edge Learning [73.82875010696849]
機械学習アルゴリズムは、人工知能(AI)モデルをトレーニングするために、ネットワークエッジにデプロイされる。
本稿では,パラメータ(計算負荷)割り当てと帯域幅割り当ての新しい共同設計に焦点を当てる。
論文 参考訳(メタデータ) (2020-03-10T05:52:15Z) - Coded Federated Learning [5.375775284252717]
フェデレートラーニング(Federated Learning)とは、クライアントデバイスに分散した分散データからグローバルモデルをトレーニングする手法である。
この結果から,CFLでは,符号化されていない手法に比べて,大域的モデルを約4倍の速度で収束させることができることがわかった。
論文 参考訳(メタデータ) (2020-02-21T23:06:20Z) - Dynamic Parameter Allocation in Parameter Servers [74.250687861348]
本稿では,パラメータサーバに動的パラメータ割り当てを組み込んで,Lapse と呼ばれるパラメータサーバの効率的な実装を提案する。
Lapseはニアリニアなスケーリングを提供しており、既存のパラメータサーバよりも桁違いに高速であることがわかった。
論文 参考訳(メタデータ) (2020-02-03T11:37:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。