論文の概要: Asteroid: Resource-Efficient Hybrid Pipeline Parallelism for Collaborative DNN Training on Heterogeneous Edge Devices
- arxiv url: http://arxiv.org/abs/2408.08015v1
- Date: Thu, 15 Aug 2024 08:25:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-08-16 14:36:26.628177
- Title: Asteroid: Resource-Efficient Hybrid Pipeline Parallelism for Collaborative DNN Training on Heterogeneous Edge Devices
- Title(参考訳): Asteroid: 異種エッジデバイスを用いた協調DNNトレーニングのための資源効率の良いハイブリッドパイプライン並列性
- Authors: Shengyuan Ye, Liekang Zeng, Xiaowen Chu, Guoliang Xing, Xu Chen,
- Abstract要約: デバイス上でのディープニューラルネットワーク(DNN)トレーニングは、エッジでのプライバシ保護機械学習において不可欠であると認識されている。
Asteroidは異種エッジデバイスにまたがる資源壁を破り、効率的なモデルトレーニングアクセラレーションを実現する分散エッジトレーニングシステムである。
- 参考スコア(独自算出の注目度): 13.24437638911459
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: On-device Deep Neural Network (DNN) training has been recognized as crucial for privacy-preserving machine learning at the edge. However, the intensive training workload and limited onboard computing resources pose significant challenges to the availability and efficiency of model training. While existing works address these challenges through native resource management optimization, we instead leverage our observation that edge environments usually comprise a rich set of accompanying trusted edge devices with idle resources beyond a single terminal. We propose Asteroid, a distributed edge training system that breaks the resource walls across heterogeneous edge devices for efficient model training acceleration. Asteroid adopts a hybrid pipeline parallelism to orchestrate distributed training, along with a judicious parallelism planning for maximizing throughput under certain resource constraints. Furthermore, a fault-tolerant yet lightweight pipeline replay mechanism is developed to tame the device-level dynamics for training robustness and performance stability. We implement Asteroid on heterogeneous edge devices with both vision and language models, demonstrating up to 12.2x faster training than conventional parallelism methods and 2.1x faster than state-of-the-art hybrid parallelism methods through evaluations. Furthermore, Asteroid can recover training pipeline 14x faster than baseline methods while preserving comparable throughput despite unexpected device exiting and failure.
- Abstract(参考訳): デバイス上でのディープニューラルネットワーク(DNN)トレーニングは、エッジでのプライバシ保護機械学習において不可欠であると認識されている。
しかし、集中的なトレーニングワークロードと限られたオンボードコンピューティングリソースは、モデルトレーニングの可用性と効率に重大な課題をもたらす。
既存の作業では、ネイティブリソース管理の最適化を通じてこれらの課題に対処していますが、エッジ環境は通常、単一の端末を超えたアイドルリソースを備えた信頼できるエッジデバイスのリッチなセットで構成されています。
Asteroidは異種エッジデバイスにまたがる資源壁を破り、効率的なモデルトレーニングアクセラレーションを実現する分散エッジトレーニングシステムである。
Asteroidは、分散トレーニングをオーケストレーションするためにハイブリッドパイプライン並列性を採用し、特定のリソース制約下でスループットを最大化するための司法並列性を計画している。
さらに、耐障害性がありながら軽量なパイプライン再生機構が開発され、堅牢性と性能安定性をトレーニングするためのデバイスレベルのダイナミクスが実現された。
我々は、視覚モデルと言語モデルの両方で異種エッジデバイスにAsteroidを実装し、従来の並列化法よりも最大12.2倍、最先端のハイブリッド並列化法より2.1倍の高速なトレーニングを評価を通して実施した。
さらに、Asteroidは、予想外のデバイス離脱と障害にもかかわらず、同等のスループットを維持しながら、ベースラインメソッドよりも14倍早くトレーニングパイプラインを回復することができる。
関連論文リスト
- On Harnessing Idle Compute at the Edge for Foundation Model Training [7.228241542082645]
我々はCleaveを紹介し、新しい選択型ハイブリッドテンソル並列化法により、トレーニング操作を微妙に分割する。
Cleaveは、大規模なモデルや数千のデバイスに効率的にスケーリングすることで、クラウドベースのGPUトレーニングにマッチし、ベースラインのエッジトレーニングアプローチよりも最大8倍のデバイスをサポートする。
最先端のエッジトレーニング手法を、バッチ毎のトレーニング時間で最大10倍に向上し、デバイス障害を効率的に処理し、従来の方法よりも少なくとも100倍高速なリカバリを実現している。
論文 参考訳(メタデータ) (2025-12-13T20:57:43Z) - Human-in-the-loop Online Rejection Sampling for Robotic Manipulation [55.99788088622936]
Hi-ORSは、オンライン微調整中に負の報酬を得たサンプルをフィルタリングすることで、値推定を安定化する。
Hi-ORSは、わずか1.5時間でコンタクトリッチな操作をマスターするためのpiベースのポリシーを微調整する。
論文 参考訳(メタデータ) (2025-10-30T11:53:08Z) - CollaPipe: Adaptive Segment-Optimized Pipeline Parallelism for Collaborative LLM Training in Heterogeneous Edge Networks [57.95170323315603]
CollaPipeは、コラボレーティブパイプライン並列性とフェデレーションアグリゲーションを統合し、自己進化型ネットワークをサポートする分散学習フレームワークである。
CollaPipeでは、エンコーダ部分は可変サイズのセグメントに適応的に分割され、パイプライン並列トレーニングのためにモバイルデバイスにデプロイされ、デコーダは生成タスクを処理するためにエッジサーバにデプロイされる。
トレーニング効率を向上させるために,モデルセグメント,マイクロバッチ,帯域幅,送信電力を適応的に割り当てる共同最適化問題を定式化する。
論文 参考訳(メタデータ) (2025-09-24T07:54:01Z) - UI-S1: Advancing GUI Automation via Semi-online Reinforcement Learning [78.86567400365392]
オフライン軌道上でオンラインRLをシミュレートする新しいパラダイムであるセミオンライン強化学習を提案する。
長期トレーニング信号をキャプチャするために、Semi-online RLは報酬計算に割引先を返す。
実験の結果,Semi-online RLは4つの動的ベンチマークで7Bモデル間でSOTA性能を実現することがわかった。
論文 参考訳(メタデータ) (2025-09-15T03:24:08Z) - StreamRL: Scalable, Heterogeneous, and Elastic RL for LLMs with Disaggregated Stream Generation [55.75008325187133]
強化学習(RL)は,大規模言語モデル(LLM)の学習後のコアとなる。
StreamRLは、最初の原則から分離して、2種類のパフォーマンスボトルネックに対処するように設計されている。
実験により、StreamRLは既存の最先端システムと比較してスループットを最大2.66倍改善することが示された。
論文 参考訳(メタデータ) (2025-04-22T14:19:06Z) - FusionLLM: A Decentralized LLM Training System on Geo-distributed GPUs with Adaptive Compression [55.992528247880685]
分散トレーニングは、システム設計と効率に関する重要な課題に直面します。
大規模深層ニューラルネットワーク(DNN)のトレーニング用に設計・実装された分散トレーニングシステムFusionLLMを提案する。
本システムと手法は,収束性を確保しつつ,ベースライン法と比較して1.45~9.39倍の高速化を実現可能であることを示す。
論文 参考訳(メタデータ) (2024-10-16T16:13:19Z) - Heterogeneity-Aware Resource Allocation and Topology Design for Hierarchical Federated Edge Learning [9.900317349372383]
Federated Learning (FL)は、モバイルデバイス上で機械学習モデルをトレーニングするためのプライバシー保護フレームワークを提供する。
従来のFLアルゴリズム、例えばFedAvgはこれらのデバイスに重い通信負荷を課す。
エッジデバイスをエッジサーバに接続し,エッジサーバをピアツーピア(P2P)エッジバックホールを介して相互接続する2層HFELシステムを提案する。
我々の目標は、戦略的資源配分とトポロジ設計により、HFELシステムの訓練効率を向上させることである。
論文 参考訳(メタデータ) (2024-09-29T01:48:04Z) - Online Pseudo-Zeroth-Order Training of Neuromorphic Spiking Neural Networks [69.2642802272367]
スパイクニューラルネットワーク(SNN)を用いた脳誘発ニューロモルフィックコンピューティングは、有望なエネルギー効率の計算手法である。
最近の手法では、空間的および時間的バックプロパゲーション(BP)を利用しており、ニューロモルフィックの性質に固執していない。
オンライン擬似ゼロオーダートレーニング(OPZO)を提案する。
論文 参考訳(メタデータ) (2024-07-17T12:09:00Z) - Galaxy: A Resource-Efficient Collaborative Edge AI System for In-situ Transformer Inference [19.60655813679882]
トランスフォーマーベースのモデルは、エッジに多数の強力なインテリジェントなアプリケーションをアンロックした。
従来のデプロイメントアプローチでは、推論ワークロードをリモートクラウドサーバにオフロードする。
我々は、異種エッジデバイスにまたがるリソース壁を壊す、協調的なエッジAIシステムであるGalaxyを提案する。
論文 参考訳(メタデータ) (2024-05-27T15:01:04Z) - Implementation of Big AI Models for Wireless Networks with Collaborative Edge Computing [10.524645516703643]
大きなAIモデルのトレーニングは、エッジデバイスに重大な課題をもたらす。
従来のアプローチでは、トレーニングデータを集約して、集中的なトレーニングのためにリモートクラウドに送信するのが一般的だった。
我々は、信頼されたエッジデバイス群をリソースプールとしてオーケストレーションする新しいトレーニングメカニズムである協調エッジトレーニングを提案する。
論文 参考訳(メタデータ) (2024-04-27T03:09:39Z) - Efficient Asynchronous Federated Learning with Sparsification and
Quantization [55.6801207905772]
フェデレートラーニング(FL)は、生データを転送することなく、機械学習モデルを協調的にトレーニングするために、ますます注目を集めている。
FLは一般的に、モデルトレーニングの全プロセス中にパラメータサーバーと多数のエッジデバイスを利用する。
TEASQ-Fedは、エッジデバイスを利用して、タスクに積極的に適用することで、トレーニングプロセスに非同期に参加する。
論文 参考訳(メタデータ) (2023-12-23T07:47:07Z) - Decentralized Training of Foundation Models in Heterogeneous
Environments [77.47261769795992]
GPT-3 や PaLM のようなトレーニング基盤モデルは、非常に高価である。
ヘテロジニアスネットワーク上での分散型システムにおけるモデル並列化を用いた大規模基盤モデルのトレーニングに関する最初の研究について述べる。
論文 参考訳(メタデータ) (2022-06-02T20:19:51Z) - Online Convolutional Re-parameterization [51.97831675242173]
2段階のパイプラインであるオンライン畳み込み再パラメータ化(OREPA)は、複雑なトレーニング時間ブロックを単一の畳み込みに絞ることで、巨大なトレーニングオーバーヘッドを低減することを目的としている。
最先端のre-paramモデルと比較して、OREPAはトレーニング時間のメモリコストを約70%削減し、トレーニング速度を約2倍向上させることができる。
また、オブジェクト検出とセマンティックセグメンテーションの実験を行い、下流タスクに一貫した改善を示す。
論文 参考訳(メタデータ) (2022-04-02T09:50:19Z) - Colossal-AI: A Unified Deep Learning System For Large-Scale Parallel
Training [23.633810934134065]
Colossal-AIは、大規模モデルで最大2.76回のトレーニングスピードアップを達成することができる。
システムは、データ、パイプライン、テンソル、シーケンス並列化などの並列トレーニングメソッドをサポートする。
論文 参考訳(メタデータ) (2021-10-28T04:45:55Z) - FTPipeHD: A Fault-Tolerant Pipeline-Parallel Distributed Training
Framework for Heterogeneous Edge Devices [21.513786638743234]
FTPipeHDは、異種デバイス間でディープラーニングモデルをトレーニングする新しいフレームワークである。
FTPipeHDは、最高のデバイスの計算能力が最悪のものより10倍大きい場合、アートメソッドの状態よりもトレーニングで6.8倍高速であることが示されている。
論文 参考訳(メタデータ) (2021-10-06T14:00:22Z) - Joint Parameter-and-Bandwidth Allocation for Improving the Efficiency of
Partitioned Edge Learning [73.82875010696849]
機械学習アルゴリズムは、人工知能(AI)モデルをトレーニングするために、ネットワークエッジにデプロイされる。
本稿では,パラメータ(計算負荷)割り当てと帯域幅割り当ての新しい共同設計に焦点を当てる。
論文 参考訳(メタデータ) (2020-03-10T05:52:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。