論文の概要: Rina: Enhancing Ring-AllReduce with In-network Aggregation in Distributed Model Training
- arxiv url: http://arxiv.org/abs/2407.19721v1
- Date: Mon, 29 Jul 2024 06:06:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-30 14:56:26.224133
- Title: Rina: Enhancing Ring-AllReduce with In-network Aggregation in Distributed Model Training
- Title(参考訳): Rina: 分散モデルトレーニングにおけるネットワーク内のアグリゲーションによるRing-All Reduceの強化
- Authors: Zixuan Chen, Xuandong Liu, Minglin Li, Yinfan Hu, Hao Mei, Huifeng Xing, Hao Wang, Wanxin Shi, Sen Liu, Yang Xu,
- Abstract要約: インネットワークアグリゲーション(INA)は統合するために提案されている。
PSはインキャスト問題を緩和する。
Rinaは同じハードウェアコストで50%以上のスループットを達成することができる。
- 参考スコア(独自算出の注目度): 13.78168536612951
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Parameter Server (PS) and Ring-AllReduce (RAR) are two widely utilized synchronization architectures in multi-worker Deep Learning (DL), also referred to as Distributed Deep Learning (DDL). However, PS encounters challenges with the ``incast'' issue, while RAR struggles with problems caused by the long dependency chain. The emerging In-network Aggregation (INA) has been proposed to integrate with PS to mitigate its incast issue. However, such PS-based INA has poor incremental deployment abilities as it requires replacing all the switches to show significant performance improvement, which is not cost-effective. In this study, we present the incorporation of INA capabilities into RAR, called RAR with In-Network Aggregation (Rina), to tackle both the problems above. Rina features its agent-worker mechanism. When an INA-capable ToR switch is deployed, all workers in this rack run as one abstracted worker with the help of the agent, resulting in both excellent incremental deployment capabilities and better throughput. We conducted extensive testbed and simulation evaluations to substantiate the throughput advantages of Rina over existing DDL training synchronization structures. Compared with the state-of-the-art PS-based INA methods ATP, Rina can achieve more than 50\% throughput with the same hardware cost.
- Abstract(参考訳): パラメータサーバ (PS) と Ring-AllReduce (RAR) は、分散ディープラーニング (DDL) とも呼ばれる多人数のDeep Learning (DL) において広く使われている同期アーキテクチャである。
しかし、PSは 'incast' 問題で問題に遭遇し、RARは長い依存関係チェーンによって引き起こされる問題に苦労する。
新たなIn-network Aggregation (INA) は、PSと統合してインキャスト問題を緩和するために提案されている。
しかし、PSベースのINAは、コスト効率の悪い大幅なパフォーマンス向上を示すためにすべてのスイッチを交換する必要があるため、インクリメンタルなデプロイメント能力が劣っている。
本研究では、上記2つの問題に対処するため、RAR with In-Network Aggregation (Rina) と呼ばれる INA 機能を RAR に組み込むことを提案する。
リナはエージェント・ワーカー・メカニズムを特徴としている。
INA対応のToRスイッチがデプロイされると、このラック内のすべてのワーカーはエージェントの助けを借りてひとつの抽象化されたワーカーとして実行される。
我々は,既存のDDL学習同期構造よりもRinaのスループットの利点を実証するために,広範囲なテストベッドおよびシミュレーション評価を行った。
最先端のPSベースのINAメソッドATPと比較して、Rinaは同じハードウェアコストで50\%以上のスループットを達成することができる。
関連論文リスト
- CoRe-Net: Co-Operational Regressor Network with Progressive Transfer Learning for Blind Radar Signal Restoration [15.913517836391357]
本研究では、ブラインドレーダ信号復元のためのCo-Operational Regressor Network(CoRe-Net)と呼ばれる新しいモデルを提案する。
CoRe-Netは、対人訓練を新しい協調学習戦略に置き換え、Apprentice Regressor(AR)とMaster Regressor(MR)の相補的な役割を活用する
公平な実験環境下では,CoRe-Netは1dB以上のSNR改善率でOp-GANを上回っている。
論文 参考訳(メタデータ) (2025-01-28T18:15:27Z) - LoRA-IR: Taming Low-Rank Experts for Efficient All-in-One Image Restoration [62.3751291442432]
高速なオールインワン画像復元を実現するために,コンパクトな低ランクの専門家を動的に活用する,フレキシブルなフレームワークであるLoRA-IRを提案する。
LoRA-IRは、劣化誘導前訓練とパラメータ効率の良い微調整の2つの訓練段階で構成されている。
実験により、LoRA-IRは計算効率を維持しつつ、14のIRタスクと29のベンチマークでSOTA性能を達成することが示された。
論文 参考訳(メタデータ) (2024-10-20T13:00:24Z) - Solving Continual Offline Reinforcement Learning with Decision Transformer [78.59473797783673]
連続的オフライン強化学習(CORL)は、連続的およびオフライン的な強化学習を組み合わせたものである。
Actor-Critic構造とエクスペリエンス・リプレイ(ER)を取り入れた既存の手法は、分散シフト、低効率、知識共有の弱さに悩まされている。
我々は,マルチヘッドDT (MH-DT) とローランク適応DT (LoRA-DT) を導入し,DTの無視問題を緩和する。
論文 参考訳(メタデータ) (2024-01-16T16:28:32Z) - Provable Benefits of Multi-task RL under Non-Markovian Decision Making
Processes [56.714690083118406]
マルコフ決定過程 (MDP) 下でのマルチタスク強化学習 (RL) において, 共有潜在構造の存在は, シングルタスクRLと比較して, サンプル効率に有意な利益をもたらすことが示されている。
このような利点が、部分的に観測可能なMDP(POMDP)やより一般的な予測状態表現(PSR)といった、より一般的なシーケンシャルな意思決定問題にまで拡張できるかどうかを検討する。
提案手法は,全てのPSRに対してほぼ最適ポリシーを求めるための,証明可能なアルゴリズム UMT-PSR を提案し,PSR の合同モデルクラスが有するマルチタスク学習の利点が示されることを示す。
論文 参考訳(メタデータ) (2023-10-20T14:50:28Z) - How Does Forecasting Affect the Convergence of DRL Techniques in O-RAN
Slicing? [20.344810727033327]
本稿では,DRLの収束性を高めるため,新しい予測支援型DRL手法とそのO-RAN実運用ワークフローを提案する。
提案手法では, 平均初期報酬値, 収束率, 収束シナリオ数において最大22.8%, 86.3%, 300%の改善が見られた。
論文 参考訳(メタデータ) (2023-09-01T14:30:04Z) - Inter-Cell Network Slicing With Transfer Learning Empowered Multi-Agent
Deep Reinforcement Learning [6.523367518762879]
ネットワークスライシングにより、オペレータは共通の物理インフラ上で多様なアプリケーションを効率的にサポートできる。
ネットワーク展開の恒常的に増大する密度化は、複雑で非自明な細胞間干渉を引き起こす。
複数の深層強化学習(DRL)エージェントを用いたDIRPアルゴリズムを開発し,各セルの資源分配を協調的に最適化する。
論文 参考訳(メタデータ) (2023-06-20T14:14:59Z) - RAPID-RL: A Reconfigurable Architecture with Preemptive-Exits for
Efficient Deep-Reinforcement Learning [7.990007201671364]
効率的な深部RL(RAPID-RL)のためのプリエンプティブ出口を持つ再構成可能なアーキテクチャを提案する。
RAPID-RLは入力の難易度に基づいてプリエンプティブ層の条件付き活性化を可能にする。
RAPID-RL は Atari (Drone Navigation) タスクにおいて 0.88x (0.91x) 以上の性能を維持しながら, 演算数 0.34x (0.25x) を発生させることを示す。
論文 参考訳(メタデータ) (2021-09-16T21:30:40Z) - Multi-task Over-the-Air Federated Learning: A Non-Orthogonal
Transmission Approach [52.85647632037537]
複数の学習タスクがエッジサーバ(ES)の協調の下でデータ収集および学習モデルのためのエッジデバイスを共有するマルチタスク・オーバーテア・フェデレーション・ラーニング(MOAFL)フレームワークを提案する。
収束解析と数値計算の両方の結果から,MOAFLフレームワークは学習性能を著しく低下させることなく,複数のタスクのアップリンク帯域幅の消費を大幅に削減できることが示された。
論文 参考訳(メタデータ) (2021-06-27T13:09:32Z) - Ensemble-in-One: Learning Ensemble within Random Gated Networks for
Enhanced Adversarial Robustness [18.514706498043214]
敵の攻撃は現代のディープラーニングシステムに高いセキュリティリスクをもたらしている。
ランダムゲートネットワーク(RGN)内でアンサンブルを訓練するためのアンサンブル・イン・ワン(EIO)を提案する。
EIOは、従来のアンサンブルトレーニング手法を一貫して上回り、計算オーバーヘッドがさらに少なくなります。
論文 参考訳(メタデータ) (2021-03-27T03:13:03Z) - Combining Pessimism with Optimism for Robust and Efficient Model-Based
Deep Reinforcement Learning [56.17667147101263]
実世界のタスクでは、強化学習エージェントはトレーニング中に存在しない状況に遭遇する。
信頼性を確保するため、RLエージェントは最悪の状況に対して堅牢性を示す必要がある。
本稿では,Robust Hallucinated Upper-Confidence RL (RH-UCRL)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-18T16:50:17Z) - Return-Based Contrastive Representation Learning for Reinforcement
Learning [126.7440353288838]
そこで本研究では,学習表現に異なる戻り値を持つ状態-動作ペアを判別させる新しい補助タスクを提案する。
アルゴリズムはatariゲームやdeepmindコントロールスイートの複雑なタスクのベースラインを上回っています。
論文 参考訳(メタデータ) (2021-02-22T13:04:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。