論文の概要: Load Balancing for AI Training Workloads
- arxiv url: http://arxiv.org/abs/2507.21372v1
- Date: Mon, 28 Jul 2025 22:34:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-30 17:08:55.36617
- Title: Load Balancing for AI Training Workloads
- Title(参考訳): AIトレーニングワークロードのためのロードバランシング
- Authors: Sarah McClure, Sylvia Ratnasamy, Scott Shenker,
- Abstract要約: 専用インフラストラクチャ上で動作している大規模AIトレーニングワークロードに対して,さまざまなロードバランシングアルゴリズムの性能について検討する。
負荷分散性能は, 渋滞制御と損失回復アルゴリズムの両方に依存している。
- 参考スコア(独自算出の注目度): 4.6874900353446325
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We investigate the performance of various load balancing algorithms for large-scale AI training workloads that are running on dedicated infrastructure. The performance of load balancing depends on both the congestion control and loss recovery algorithms, so our evaluation also sheds light on the appropriate choices for those designs as well.
- Abstract(参考訳): 専用インフラストラクチャ上で動作している大規模AIトレーニングワークロードに対して,さまざまなロードバランシングアルゴリズムの性能について検討する。
負荷分散性能は, 渋滞制御と損失回復アルゴリズムの両方に依存している。
関連論文リスト
- Reinforcement Learning-Based Adaptive Load Balancing for Dynamic Cloud Environments [0.0]
これらの課題に対処するために,Reinforcement Learning (RL) を用いた適応型ロードバランシングフレームワークを提案する。
我々のフレームワークは、タスクを動的に再配置し、レイテンシを最小化し、サーバ間のリソース利用のバランスを確保するように設計されています。
実験の結果,提案したRLベースのロードバランサは,応答時間,資源利用量,ワークロードの変化に対する適応性などの観点から,従来のアルゴリズムよりも優れていた。
論文 参考訳(メタデータ) (2024-09-07T19:40:48Z) - Auxiliary-Loss-Free Load Balancing Strategy for Mixture-of-Experts [13.413587367600444]
不均衡な専門家の負荷は、ルーティングの崩壊や計算オーバーヘッドの増加につながる。
本稿では,ロバストな負荷分散戦略を特徴とするロスフリーバランシングを提案する。
最大200Bトークンでトレーニングされた最大3Bパラメータを持つMoEモデル上でのロスフリーバランシングの性能を検証する。
論文 参考訳(メタデータ) (2024-08-28T09:31:09Z) - Scaling Laws and Compute-Optimal Training Beyond Fixed Training Durations [62.132347451049455]
スケールは強力な機械学習モデルを得る上で重要な要素となっている。
本研究では,コサインのスケジュールに依存するため,スケールとトレーニングの研究は必然的に複雑である,と論じる。
その結果,重量平均化はトレーニングの軌道に沿って,異なるスケールでのトレーニングコストを伴わずに向上することがわかった。
論文 参考訳(メタデータ) (2024-05-28T17:33:54Z) - Switchable Decision: Dynamic Neural Generation Networks [98.61113699324429]
本稿では,各データインスタンスのリソースを動的に割り当てることで,推論を高速化するスイッチブルな決定を提案する。
提案手法は, 同一の精度を維持しながら, 推論時のコスト低減に有効である。
論文 参考訳(メタデータ) (2024-05-07T17:44:54Z) - Overcoming Recency Bias of Normalization Statistics in Continual
Learning: Balance and Adaptation [67.77048565738728]
継続的な学習には、一連のタスクを学習し、彼らの知識を適切にバランスさせることが含まれる。
本稿では,タスク・ワイド・コントリビューションに適応するためのベイズ的戦略を適切に取り入れた BN の適応バランス (AdaB$2$N) を提案する。
提案手法は,幅広いベンチマークにおいて,大幅な性能向上を実現している。
論文 参考訳(メタデータ) (2023-10-13T04:50:40Z) - Communication Load Balancing via Efficient Inverse Reinforcement
Learning [13.052338083552863]
本研究では、逆強化学習(IRL)アプローチによる通信負荷分散問題に取り組む。
我々は,一連の実演から報酬関数を推定し,推論された報酬関数を用いて強化学習負荷バランスポリシーを学習する。
古典的なRLベースのソリューションと比較して、提案されたソリューションはより汎用的で現実のシナリオに適している。
論文 参考訳(メタデータ) (2023-03-22T22:23:23Z) - DL-DRL: A double-level deep reinforcement learning approach for
large-scale task scheduling of multi-UAV [65.07776277630228]
分割・征服フレームワーク(DCF)に基づく二重レベル深層強化学習(DL-DRL)手法を提案する。
特に,上層部DRLモデルにおけるエンコーダ・デコーダ構成ポリシネットワークを設計し,タスクを異なるUAVに割り当てる。
また、低レベルDRLモデルにおける別の注意に基づくポリシーネットワークを利用して、各UAVの経路を構築し、実行されたタスク数を最大化する。
論文 参考訳(メタデータ) (2022-08-04T04:35:53Z) - Multi-Agent Reinforcement Learning for Network Load Balancing in Data
Center [4.141301293112916]
本稿では,強化学習における実世界の課題であるネットワーク負荷分散問題を提案する。
協調的ネットワーク負荷分散タスクはDec-POMDP問題として定式化され、MARL法を自然に誘導する。
学習に基づく手法を適用するための現実的ギャップを埋めるために、エミュレーションシステム上で、すべての手法を直接訓練し評価する。
論文 参考訳(メタデータ) (2022-01-27T18:47:59Z) - Reinforced Workload Distribution Fairness [3.7384509727711923]
本稿では,アクティブロードバランサ状態監視とネットワーク観測の制限を伴わない分散強化学習機構を提案し,負荷バランサが達成したワークロード分布の公平性を向上する。
予備的な結果は、RLベースのロードバランシングアルゴリズムの有望性を示し、さらなる課題と今後の研究方向性を特定する。
論文 参考訳(メタデータ) (2021-10-29T07:51:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。