論文の概要: AntDT: A Self-Adaptive Distributed Training Framework for Leader and Straggler Nodes
- arxiv url: http://arxiv.org/abs/2404.09679v1
- Date: Mon, 15 Apr 2024 11:20:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-16 12:20:54.972265
- Title: AntDT: A Self-Adaptive Distributed Training Framework for Leader and Straggler Nodes
- Title(参考訳): AntDT: リーダとストラグラーノードのための自己適応型分散トレーニングフレームワーク
- Authors: Youshao Xiao, Lin Ju, Zhenglei Zhou, Siyuan Li, Zhaoxin Huan, Dalong Zhang, Rujie Jiang, Lin Wang, Xiaolu Zhang, Lei Liang, Jun Zhou,
- Abstract要約: 本稿では,トラグラー問題を適応的に解くための分散学習フレームワークAntDTを提案する。
フレームワークは、Stateful Dynamic Data Sharding Service、Monitor、Controller、Agentの4つのコンポーネントで構成されている。
総合的な実験と産業展開統計によって正当化されたAntDTは、訓練効率の点で、他のSOTAメソッドよりも3倍以上に優れています。
- 参考スコア(独自算出の注目度): 27.423573962403367
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many distributed training techniques like Parameter Server and AllReduce have been proposed to take advantage of the increasingly large data and rich features. However, stragglers frequently occur in distributed training due to resource contention and hardware heterogeneity, which significantly hampers the training efficiency. Previous works only address part of the stragglers and could not adaptively solve various stragglers in practice. Additionally, it is challenging to use a systematic framework to address all stragglers because different stragglers require diverse data allocation and fault-tolerance mechanisms. Therefore, this paper proposes a unified distributed training framework called AntDT (Ant Distributed Training Framework) to adaptively solve the straggler problems. Firstly, the framework consists of four components, including the Stateful Dynamic Data Sharding service, Monitor, Controller, and Agent. These components work collaboratively to efficiently distribute workloads and provide a range of pre-defined straggler mitigation methods with fault tolerance, thereby hiding messy details of data allocation and fault handling. Secondly, the framework provides a high degree of flexibility, allowing for the customization of straggler mitigation solutions based on the specific circumstances of the cluster. Leveraging this flexibility, we introduce two straggler mitigation solutions, namely AntDT-ND for non-dedicated clusters and AntDT-DD for dedicated clusters, as practical examples to resolve various types of stragglers at Ant Group. Justified by our comprehensive experiments and industrial deployment statistics, AntDT outperforms other SOTA methods more than 3x in terms of training efficiency. Additionally, in Alipay's homepage recommendation scenario, using AntDT reduces the training duration of the ranking model from 27.8 hours to just 5.4 hours.
- Abstract(参考訳): パラメータサーバやAllReduceのような多くの分散トレーニング技術は、ますます大きなデータとリッチな機能を活用するために提案されている。
しかし、ストラグラーはリソースの競合やハードウェアの不均一性により分散トレーニングで頻繁に発生し、トレーニング効率を著しく損なう。
それまでの作業はストラグラーの一部にしか対応せず、実際には様々なストラグラーを適応的に解決できなかった。
さらに、データアロケーションやフォールトトレランスのメカニズムが多様であるため、すべてのストラグラーに対処するための体系的なフレームワークを使用することも困難である。
そこで本稿では,ストラグラー問題を適応的に解くために,AntDT(Ant Distributed Training Framework)と呼ばれる分散トレーニングフレームワークを提案する。
まず、このフレームワークはStateful Dynamic Data Sharding Service、Monitor、Controller、Agentの4つのコンポーネントで構成されている。
これらのコンポーネントは協調して、ワークロードを効率的に分散し、フォールトトレランスを備えた事前定義されたトラグラー緩和方法を提供し、データアロケーションとフォールトハンドリングの混乱した詳細を隠蔽する。
第二に、このフレームワークは高い柔軟性を提供し、クラスタの特定の状況に基づいたストラグラー緩和ソリューションのカスタマイズを可能にする。
この柔軟性を生かした2つのストラグラー緩和ソリューション、すなわち、非述語クラスタのAntDT-NDと専用クラスタのAntDT-DDを、Ant Groupにおける様々なタイプのストラグラーを解決するための実用的な例として導入する。
総合的な実験と産業展開統計によって正当化されたAntDTは、訓練効率の点で、他のSOTAメソッドよりも3倍以上に優れています。
さらに、Alipayのホームページレコメンデーションシナリオでは、AntDTを使用してランキングモデルのトレーニング期間を27.8時間から5.4時間に短縮する。
関連論文リスト
- Asymmetric Co-Training for Source-Free Few-Shot Domain Adaptation [5.611768906855499]
SFFSDAシナリオに特化して設計された非対称コトレーニング(ACT)手法を提案する。
ターゲットモデルをトレーニングするために、2段階の最適化プロセスを使用します。
本研究は,少数のラベル付き対象データのみを用いた事前学習モデルの適用により,実用的で信頼性の高い解が得られることを示唆する。
論文 参考訳(メタデータ) (2025-02-20T02:58:45Z) - Ensembles of Low-Rank Expert Adapters [9.599957499802446]
本稿では,多種多様なタスクを扱うモデルの能力を向上させるために,低ランクエキスパートアダプタ(ELREA)フレームワークの組み立てを提案する。
ELREAは、トレーニング指示をその勾配方向に基づいてクラスタ化し、さまざまな専門分野を表現している。
推論中、ELREAは、入力データの勾配とトレーニングクラスタとの類似性に基づいて、最も関連する専門家アダプタからの予測を組み合わせる。
論文 参考訳(メタデータ) (2025-01-31T18:07:21Z) - Efficient Bias Mitigation Without Privileged Information [14.21628601482357]
経験的リスク最小化を通じてトレーニングされたディープニューラルネットワークは、グループ間での大きなパフォーマンス格差を示すことが多い。
この問題に対処しようとする既存のバイアス軽減手法は、トレーニングや検証のためにグループラベルに依存していることが多い。
本稿では,支援者モデルのトレーニング履歴全体を活用するフレームワークであるTAB(Targeted Augmentations for Bias Mitigation)を提案する。
また,TABはグループ情報やモデル選択を使わずにグループ性能を向上し,全体の精度を維持しながら既存手法よりも優れていたことを示す。
論文 参考訳(メタデータ) (2024-09-26T09:56:13Z) - Solving Continual Offline Reinforcement Learning with Decision Transformer [78.59473797783673]
連続的オフライン強化学習(CORL)は、連続的およびオフライン的な強化学習を組み合わせたものである。
Actor-Critic構造とエクスペリエンス・リプレイ(ER)を取り入れた既存の手法は、分散シフト、低効率、知識共有の弱さに悩まされている。
我々は,マルチヘッドDT (MH-DT) とローランク適応DT (LoRA-DT) を導入し,DTの無視問題を緩和する。
論文 参考訳(メタデータ) (2024-01-16T16:28:32Z) - Task-Distributionally Robust Data-Free Meta-Learning [99.56612787882334]
Data-Free Meta-Learning (DFML)は、複数の事前学習モデルを活用することで、独自のトレーニングデータを必要とせずに、新しいタスクを効率的に学習することを目的としている。
TDS(Task-Distribution Shift)とTDC(Task-Distribution Corruption)の2つの大きな課題を初めて明らかにした。
論文 参考訳(メタデータ) (2023-11-23T15:46:54Z) - Distributed Adversarial Training to Robustify Deep Neural Networks at
Scale [100.19539096465101]
現在のディープニューラルネットワーク(DNN)は、入力に対する敵の摂動が分類を変更したり操作したりする敵の攻撃に対して脆弱である。
このような攻撃を防御するために、敵の訓練(AT)として知られる効果的なアプローチが、堅牢な訓練を緩和するために示されている。
複数のマシンにまたがって実装された大規模バッチ対逆トレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-13T15:39:43Z) - Bilateral Dependency Optimization: Defending Against Model-inversion
Attacks [61.78426165008083]
本稿では,モデル反転攻撃に対する二元的依存性最適化(BiDO)戦略を提案する。
BiDOは、さまざまなデータセット、分類器、MI攻撃に対する最先端の防御性能を達成する。
論文 参考訳(メタデータ) (2022-06-11T10:07:03Z) - Semi-supervised Domain Adaptive Structure Learning [72.01544419893628]
半教師付きドメイン適応 (SSDA) は,1) アノテーションの低いデータに過度に適合する手法と,2) ドメイン間の分散シフトの両方を克服しなければならない課題である。
SSLとDAの協調を正規化するための適応型構造学習手法を提案する。
論文 参考訳(メタデータ) (2021-12-12T06:11:16Z) - Joint Parameter-and-Bandwidth Allocation for Improving the Efficiency of
Partitioned Edge Learning [73.82875010696849]
機械学習アルゴリズムは、人工知能(AI)モデルをトレーニングするために、ネットワークエッジにデプロイされる。
本稿では,パラメータ(計算負荷)割り当てと帯域幅割り当ての新しい共同設計に焦点を当てる。
論文 参考訳(メタデータ) (2020-03-10T05:52:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。