論文の概要: OmniLearn: A Framework for Distributed Deep Learning over Heterogeneous Clusters
- arxiv url: http://arxiv.org/abs/2503.17469v1
- Date: Fri, 21 Mar 2025 18:26:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-25 14:34:56.027497
- Title: OmniLearn: A Framework for Distributed Deep Learning over Heterogeneous Clusters
- Title(参考訳): OmniLearn: 異種クラスタ上での分散ディープラーニングフレームワーク
- Authors: Sahil Tyagi, Prateek Sharma,
- Abstract要約: 異種資源の影響を軽減するため,OmniLearnという適応型バッチスケーリングフレームワークを開発した。
当社のアプローチは、異種サーバ間のバランスをとるための比例的なコントローラにインスパイアされ、さまざまなリソースの可用性の下で動作します。
- 参考スコア(独自算出の注目度): 1.4131700241686853
- License:
- Abstract: Deep learning systems are optimized for clusters with homogeneous resources. However, heterogeneity is prevalent in computing infrastructure across edge, cloud and HPC. When training neural networks using stochastic gradient descent techniques on heterogeneous resources, performance degrades due to stragglers and stale updates. In this work, we develop an adaptive batch-scaling framework called OmniLearn to mitigate the effects of heterogeneity in distributed training. Our approach is inspired by proportional controllers to balance computation across heterogeneous servers, and works under varying resource availability. By dynamically adjusting worker mini-batches at runtime, OmniLearn reduces training time by 14-85%. We also investigate asynchronous training, where our techniques improve accuracy by up to 6.9%.
- Abstract(参考訳): ディープラーニングシステムは、均質なリソースを持つクラスタに最適化されている。
しかし、エッジ、クラウド、HPCにわたるコンピューティングインフラストラクチャでは不均一性が一般的である。
不均一なリソース上で確率勾配降下法を用いてニューラルネットワークをトレーニングする場合、ストラグラーと古い更新による性能低下が生じる。
本研究では,分散学習における不均一性の影響を軽減するため,OmniLearnという適応型バッチスケーリングフレームワークを開発した。
我々のアプローチは、異種サーバ間の計算のバランスをとるための比例的なコントローラにインスパイアされ、様々なリソースの可用性の下で機能する。
実行時にワーカーのミニバッチを動的に調整することで、OmniLearnはトレーニング時間を14~85%短縮する。
また非同期トレーニングについても検討し,その精度を最大6.9%向上させた。
関連論文リスト
- Learn2Mix: Training Neural Networks Using Adaptive Data Integration [24.082008483056462]
learn2mixは、バッチ内のクラス比率を適応的に調整し、エラー率の高いクラスに焦点を当てる、新しいトレーニング戦略である。
ベンチマークデータセット上で実施された実証的な評価は、学習2mixでトレーニングされたニューラルネットワークが、既存のアプローチでトレーニングされたニューラルネットワークよりも早く収束していることを示している。
論文 参考訳(メタデータ) (2024-12-21T04:40:07Z) - Split Federated Learning Over Heterogeneous Edge Devices: Algorithm and Optimization [7.013344179232109]
Split Learning(SL)は、リソース制約のあるデバイスが生データを共有せずにモデルをトレーニングできるようにする、有望なコラボレーティブ機械学習アプローチである。
現在のSLアルゴリズムは、トレーニング効率の限界に直面し、長時間のレイテンシに悩まされている。
本稿では、リソース制約のあるクライアントが、パーソナライズされたクライアントサイドモデルを並列にトレーニングできる、異種分散フェデレーションラーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-21T07:46:01Z) - NTK-DFL: Enhancing Decentralized Federated Learning in Heterogeneous Settings via Neural Tangent Kernel [27.92271597111756]
Decentralized Federated Learning (DFL) は、中央サーバや生のデータ交換なしで参加者間でモデルをトレーニングするための、協調的な機械学習フレームワークである。
近年の研究では、集中型フレームワークにおけるフェデレーション学習に適用されたニューラルタンジェントカーネル(NTK)アプローチが、パフォーマンスの向上につながることが示されている。
本稿では,NTKベースの進化とモデル平均化の相乗効果を導入しながら,分散環境でクライアントモデルを訓練するためにNTKを活用するアプローチを提案する。
論文 参考訳(メタデータ) (2024-10-02T18:19:28Z) - FedLALR: Client-Specific Adaptive Learning Rates Achieve Linear Speedup
for Non-IID Data [54.81695390763957]
フェデレートラーニング(Federated Learning)は、分散機械学習の手法である。
我々は,AMSGradの異種局所変種であるFedLALRを提案し,各クライアントが学習率を調整する。
クライアントが指定した自動調整型学習率スケジューリングが,クライアント数に対して収束し,線形高速化を実現することを示す。
論文 参考訳(メタデータ) (2023-09-18T12:35:05Z) - Robust Learning with Progressive Data Expansion Against Spurious
Correlation [65.83104529677234]
本研究では,2層非線形畳み込みニューラルネットワークの学習過程について検討した。
分析の結果,不均衡なデータ群と学習容易なスプリアス特徴が学習過程におけるスプリアス特徴の優位性に繋がる可能性が示唆された。
本稿では,PDEと呼ばれる新たなトレーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-06-08T05:44:06Z) - Taming Resource Heterogeneity In Distributed ML Training With Dynamic
Batching [1.047192732651018]
分散モデルトレーニングの現在の技術は、クラスタが一定のリソース可用性を持つサーバで構成されていることを主に前提としている。
本研究では、分散データ並列学習のための動的手法を開発し、各作業者のミニバッチサイズを可用性とスループットに基づいて調整する。
論文 参考訳(メタデータ) (2023-05-20T15:33:06Z) - DISTREAL: Distributed Resource-Aware Learning in Heterogeneous Systems [2.1506382989223782]
計算資源の不均一性,制限,時間変化のあるデバイス上でのニューラルネットワーク(NN)の分散トレーニングの問題について検討する。
本稿では,適応型,リソース対応,オンデバイス学習機構であるDISTREALを提案する。
論文 参考訳(メタデータ) (2021-12-16T10:15:31Z) - LCS: Learning Compressible Subspaces for Adaptive Network Compression at
Inference Time [57.52251547365967]
本稿では,ニューラルネットワークの「圧縮可能な部分空間」を訓練する手法を提案する。
構造的・非構造的空間に対する推定時間における微粒な精度・効率のトレードオフを任意に達成するための結果を示す。
我々のアルゴリズムは、可変ビット幅での量子化にまで拡張し、個別に訓練されたネットワークと同等の精度を実現する。
論文 参考訳(メタデータ) (2021-10-08T17:03:34Z) - Quasi-Global Momentum: Accelerating Decentralized Deep Learning on
Heterogeneous Data [77.88594632644347]
ディープラーニングモデルの分散トレーニングは、ネットワーク上でデータプライバシとデバイス上での学習を可能にする重要な要素である。
現実的な学習シナリオでは、異なるクライアントのローカルデータセットに異質性が存在することが最適化の課題となる。
本稿では,この分散学習の難しさを軽減するために,運動量に基づく新しい手法を提案する。
論文 参考訳(メタデータ) (2021-02-09T11:27:14Z) - A Low Complexity Decentralized Neural Net with Centralized Equivalence
using Layer-wise Learning [49.15799302636519]
我々は、分散処理ノード(労働者)で最近提案された大規模ニューラルネットワークをトレーニングするために、低複雑性分散学習アルゴリズムを設計する。
我々の設定では、トレーニングデータは作業者間で分散されるが、プライバシやセキュリティ上の懸念からトレーニングプロセスでは共有されない。
本研究では,データが一箇所で利用可能であるかのように,等価な学習性能が得られることを示す。
論文 参考訳(メタデータ) (2020-09-29T13:08:12Z) - Joint Parameter-and-Bandwidth Allocation for Improving the Efficiency of
Partitioned Edge Learning [73.82875010696849]
機械学習アルゴリズムは、人工知能(AI)モデルをトレーニングするために、ネットワークエッジにデプロイされる。
本稿では,パラメータ(計算負荷)割り当てと帯域幅割り当ての新しい共同設計に焦点を当てる。
論文 参考訳(メタデータ) (2020-03-10T05:52:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。