Fugu-MT 論文翻訳(概要): Architecting Peer-to-Peer Serverless Distributed Machine Learning Training for Improved Fault Tolerance

論文の概要: Architecting Peer-to-Peer Serverless Distributed Machine Learning Training for Improved Fault Tolerance

arxiv url: http://arxiv.org/abs/2302.13995v1
Date: Mon, 27 Feb 2023 17:38:47 GMT
ステータス: 翻訳完了
システム内更新日: 2023-02-28 14:32:04.707541
Title: Architecting Peer-to-Peer Serverless Distributed Machine Learning Training for Improved Fault Tolerance
Title（参考訳）: フォールトトレランス向上のためのピアツーピアサーバレス分散機械学習トレーニングの構築
Authors: Amine Barrak, Fabio Petrillo, Fehmi Jaafar
Abstract要約: サーバレスコンピューティングは、計算単位として関数を使用するクラウドコンピューティングの新しいパラダイムである。ワークロードを分散することにより、分散機械学習はトレーニングプロセスを高速化し、より複雑なモデルをトレーニングできるようにする。本稿では、分散機械学習トレーニングにおけるサーバーレスコンピューティングの利用について検討し、P2Pアーキテクチャの性能とパラメータサーバアーキテクチャを比較した。
参考スコア（独自算出の注目度）: 1.495380389108477
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Distributed Machine Learning refers to the practice of training a model on multiple computers or devices that can be called nodes. Additionally, serverless computing is a new paradigm for cloud computing that uses functions as a computational unit. Serverless computing can be effective for distributed learning systems by enabling automated resource scaling, less manual intervention, and cost reduction. By distributing the workload, distributed machine learning can speed up the training process and allow more complex models to be trained. Several topologies of distributed machine learning have been established (centralized, parameter server, peer-to-peer). However, the parameter server architecture may have limitations in terms of fault tolerance, including a single point of failure and complex recovery processes. Moreover, training machine learning in a peer-to-peer (P2P) architecture can offer benefits in terms of fault tolerance by eliminating the single point of failure. In a P2P architecture, each node or worker can act as both a server and a client, which allows for more decentralized decision making and eliminates the need for a central coordinator. In this position paper, we propose exploring the use of serverless computing in distributed machine learning training and comparing the performance of P2P architecture with the parameter server architecture, focusing on cost reduction and fault tolerance.
Abstract（参考訳）: 分散機械学習(distributed machine learning)は、ノードと呼ばれる複数のコンピュータやデバイス上でモデルをトレーニングするプラクティスである。さらに、サーバレスコンピューティングは、関数を計算単位として使用するクラウドコンピューティングの新しいパラダイムである。サーバレスコンピューティングは、自動リソーススケーリング、手作業による介入の低減、コスト削減を可能にして、分散学習システムに有効である。ワークロードを分散することにより、分散機械学習はトレーニングプロセスを高速化し、より複雑なモデルをトレーニングできるようにする。分散機械学習のいくつかのトポロジ(集中型、パラメータサーバ、ピアツーピア)が確立されている。しかし、パラメータサーバアーキテクチャは、単一障害点と複雑な回復プロセスを含む、フォールトトレランスの点で制限があるかもしれない。さらに、ピアツーピア(P2P)アーキテクチャで機械学習をトレーニングすることで、単一障害点を排除してフォールトトレランスの面でのメリットを提供することができる。 P2Pアーキテクチャでは、各ノードまたはワーカがサーバとクライアントの両方として動作し、より分散化された意思決定を可能にし、中央コーディネータの必要性を排除できる。本稿では,分散機械学習トレーニングにおけるサーバレスコンピューティングの利用を検討するとともに,P2Pアーキテクチャとパラメータサーバアーキテクチャの性能を比較し,コスト削減と耐障害性に着目した。

関連論文リスト

Learning to Help in Multi-Class Settings [11.972877486351987]
ローカルモデルをサーバサイドモデルで拡張することにより、ハイブリッドシステムを確立することができる。提案されたLearning to Help(L2H)モデルは、固定ローカル(クライアント)モデルが与えられたサーバモデルをトレーニングする。 L2DとL2Hの両方のトレーニングでは、クライアントでリジェクタを学習して、サーバに問い合わせるタイミングを決定する。
論文参考訳（メタデータ） (2025-01-23T16:32:01Z)
Communication Efficient ConFederated Learning: An Event-Triggered SAGA Approach [67.27031215756121]
Federated Learning(FL)は、さまざまなデータソース上のローカルデータを収集することなく、モデルトレーニングをターゲットとする機械学習パラダイムである。単一のサーバを使用するStandard FLは、限られた数のユーザしかサポートできないため、学習能力の低下につながる。本研究では,多数のユーザに対応するために,emphConfederated Learning(CFL)と呼ばれるマルチサーバFLフレームワークを検討する。
論文参考訳（メタデータ） (2024-02-28T03:27:10Z)
Scalable Federated Unlearning via Isolated and Coded Sharding [76.12847512410767]
フェデレートされたアンラーニングは、クライアントレベルのデータエフェクトを削除するための有望なパラダイムとして登場した。本稿では,分散シャーディングと符号化コンピューティングに基づく,スケーラブルなフェデレーション・アンラーニング・フレームワークを提案する。
論文参考訳（メタデータ） (2024-01-29T08:41:45Z)
SPIRT: A Fault-Tolerant and Reliable Peer-to-Peer Serverless ML Training Architecture [0.61497722627646]
SPIRTはフォールトトレラントで信頼性があり、セキュアなサーバレスP2P MLトレーニングアーキテクチャである。本稿では,フォールトトレラントで信頼性が高く,セキュアなサーバレスP2P MLトレーニングアーキテクチャであるSPIRTを紹介する。
論文参考訳（メタデータ） (2023-09-25T14:01:35Z)
Exploring the Impact of Serverless Computing on Peer To Peer Training Machine Learning [0.3441021278275805]
分散トレーニングのためのサーバーレスコンピューティングとP2Pネットワークを組み合わせた新しいアーキテクチャを導入する。その結果,従来のP2P分散学習法と比較して97.34%の改善がみられた。コストタイムのトレードオフにもかかわらず、サーバーレスのアプローチは依然として有望である。
論文参考訳（メタデータ） (2023-09-25T13:51:07Z)
Scalable Collaborative Learning via Representation Sharing [53.047460465980144]
フェデレートラーニング(FL)とスプリットラーニング(SL)は、データを(デバイス上で)プライベートにしながら協調学習を可能にする2つのフレームワークである。 FLでは、各データ保持者がモデルをローカルにトレーニングし、集約のために中央サーバにリリースする。 SLでは、クライアントは個々のカット層アクティベーション(スマッシュされたデータ)をサーバにリリースし、そのレスポンス(推論とバックの伝搬の両方)を待つ必要があります。本研究では, クライアントがオンライン知識蒸留を通じて, 対照的な損失を生かして協調する, プライバシ保護機械学習の新しいアプローチを提案する。
論文参考訳（メタデータ） (2022-11-20T10:49:22Z)
MLProxy: SLA-Aware Reverse Proxy for Machine Learning Inference Serving on Serverless Computing Platforms [5.089110111757978]
クラウド上で機械学習の推論ワークロードを実行することは、運用レベルではまだ難しい作業です。近年,ほとんどのインフラストラクチャ管理タスクを自動化するために,サーバレスコンピューティングが登場している。本稿では、サーバレスコンピューティングシステム上で効率的な機械学習サービスワークロードをサポートするリバースプロキシであるML Proxyを紹介する。
論文参考訳（メタデータ） (2022-02-23T00:27:49Z)
Federated Learning with Unreliable Clients: Performance Analysis and Mechanism Design [76.29738151117583]
Federated Learning(FL)は、分散クライアント間で効果的な機械学習モデルをトレーニングするための有望なツールとなっている。しかし、低品質のモデルは信頼性の低いクライアントによってアグリゲータサーバにアップロードすることができ、劣化やトレーニングの崩壊につながる。クライアントの信頼できない振る舞いをモデル化し、このようなセキュリティリスクを軽減するための防御メカニズムを提案する。
論文参考訳（メタデータ） (2021-05-10T08:02:27Z)
Distributed Double Machine Learning with a Serverless Architecture [0.0]
本稿では、ダブル機械学習のためのサーバーレスクラウドコンピューティングについて検討する。ダブル機械学習は、サーバーレスコンピューティングで実現可能な高いレベルの並列性を利用するのに特に適している。
論文参考訳（メタデータ） (2021-01-11T16:58:30Z)
Joint Parameter-and-Bandwidth Allocation for Improving the Efficiency of Partitioned Edge Learning [73.82875010696849]
機械学習アルゴリズムは、人工知能(AI)モデルをトレーニングするために、ネットワークエッジにデプロイされる。本稿では,パラメータ(計算負荷)割り当てと帯域幅割り当ての新しい共同設計に焦点を当てる。
論文参考訳（メタデータ） (2020-03-10T05:52:15Z)
Coded Federated Learning [5.375775284252717]
フェデレートラーニング(Federated Learning)とは、クライアントデバイスに分散した分散データからグローバルモデルをトレーニングする手法である。この結果から,CFLでは,符号化されていない手法に比べて,大域的モデルを約4倍の速度で収束させることができることがわかった。
論文参考訳（メタデータ） (2020-02-21T23:06:20Z)
Dynamic Parameter Allocation in Parameter Servers [74.250687861348]
本稿では,パラメータサーバに動的パラメータ割り当てを組み込んで,Lapse と呼ばれるパラメータサーバの効率的な実装を提案する。 Lapseはニアリニアなスケーリングを提供しており、既存のパラメータサーバよりも桁違いに高速であることがわかった。
論文参考訳（メタデータ） (2020-02-03T11:37:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。