論文の概要: ANDREAS: Artificial intelligence traiNing scheDuler foR accElerAted
resource clusterS
- arxiv url: http://arxiv.org/abs/2105.05080v1
- Date: Tue, 11 May 2021 14:36:19 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-12 13:50:10.179706
- Title: ANDREAS: Artificial intelligence traiNing scheDuler foR accElerAted
resource clusterS
- Title(参考訳): AndREAS: AI traininging scheDuler foR accElerAted Resource Clusters
- Authors: Federica Filippini, Danilo Ardagna, Marco Lattuada, Edoardo Amaldi,
Michele Ciavotta, Maciek Riedl, Katarzyna Materka, Pawe{\l} Skrzypek,
Fabrizio Magugliani, Marco Cicala
- Abstract要約: パフォーマンスを最大化し、データセンターの運用コストを最小限に抑える高度なスケジューリングソリューションであるANDREASを提案します。
実験の結果,第一原理法では平均で30~62%のコスト削減が可能であった。
- 参考スコア(独自算出の注目度): 1.798617052102518
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Artificial Intelligence (AI) and Deep Learning (DL) algorithms are currently
applied to a wide range of products and solutions. DL training jobs are highly
resource demanding and they experience great benefits when exploiting AI
accelerators (e.g., GPUs). However, the effective management of GPU-powered
clusters comes with great challenges. Among these, efficient scheduling and
resource allocation solutions are crucial to maximize performance and minimize
Data Centers operational costs. In this paper we propose ANDREAS, an advanced
scheduling solution that tackles these problems jointly, aiming at optimizing
DL training runtime workloads and their energy consumption in accelerated
clusters. Experiments based on simulation demostrate that we can achieve a cost
reduction between 30 and 62% on average with respect to first-principle methods
while the validation on a real cluster shows a worst case deviation below 13%
between actual and predicted costs, proving the effectiveness of ANDREAS
solution in practical scenarios.
- Abstract(参考訳): 人工知能(AI)とディープラーニング(DL)アルゴリズムは現在、幅広い製品やソリューションに適用されている。
DLトレーニングジョブはリソースの要求が高く、AIアクセラレータ(GPUなど)を利用する場合には大きなメリットがあります。
しかし、GPUによるクラスタの効率的な管理には大きな課題があります。
これらのうち、効率的なスケジューリングとリソース割り当てソリューションは、パフォーマンスを最大化し、データセンターの運用コストを最小化するために不可欠である。
本稿では,これらの課題に共同で対処する高度なスケジューリングソリューションである ANDREAS を提案する。
シミュレーションに基づく実験では,実際のクラスタ上での検証では,実際のコストと予測されたコストとの間に13%未満のずれが生じ,実際のシナリオにおけるANDREASソリューションの有効性が証明された。
関連論文リスト
- DNN Partitioning, Task Offloading, and Resource Allocation in Dynamic Vehicular Networks: A Lyapunov-Guided Diffusion-Based Reinforcement Learning Approach [49.56404236394601]
本稿では,Vehicular Edge Computingにおける共同DNNパーティショニング,タスクオフロード,リソース割り当ての問題を定式化する。
我々の目標は、時間とともにシステムの安定性を保証しながら、DNNベースのタスク完了時間を最小化することである。
拡散モデルの革新的利用を取り入れたマルチエージェント拡散に基づく深層強化学習(MAD2RL)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-06-11T06:31:03Z) - Game-Theoretic Deep Reinforcement Learning to Minimize Carbon Emissions and Energy Costs for AI Inference Workloads in Geo-Distributed Data Centers [3.3379026542599934]
この研究は、地理分散データセンターにおけるAI推論ワークロードの分散を最適化するために、ゲーム理論(GT)と深層強化学習(DRL)を組み合わせたユニークなアプローチを導入する。
提案手法は,非協調型ゲーム理論の原理をDRLフレームワークに統合し,データセンターが作業負荷配分に関するインテリジェントな決定を行えるようにする。
論文 参考訳(メタデータ) (2024-04-01T20:13:28Z) - Snapshot Reinforcement Learning: Leveraging Prior Trajectories for
Efficiency [6.267119107674013]
深部強化学習(DRL)アルゴリズムは、高い性能を達成するために、かなりのサンプルと計算資源を必要とする。
本稿では,環境変更によるサンプル効率の向上を目的としたSnapshot Reinforcement Learningフレームワークを提案する。
本稿では,既存のDRLアルゴリズムとよく統合された,シンプルで効果的なSnapshotRLベースラインアルゴリズムS3RLを提案する。
論文 参考訳(メタデータ) (2024-03-01T17:05:22Z) - Hybrid Reinforcement Learning for Optimizing Pump Sustainability in
Real-World Water Distribution Networks [55.591662978280894]
本稿では,実世界の配水ネットワーク(WDN)のリアルタイム制御を強化するために,ポンプスケジューリング最適化問題に対処する。
我々の主な目的は、エネルギー消費と運用コストを削減しつつ、物理的な運用上の制約を遵守することである。
進化に基づくアルゴリズムや遺伝的アルゴリズムのような伝統的な最適化手法は、収束保証の欠如によってしばしば不足する。
論文 参考訳(メタデータ) (2023-10-13T21:26:16Z) - A Multi-Head Ensemble Multi-Task Learning Approach for Dynamical
Computation Offloading [62.34538208323411]
共有バックボーンと複数の予測ヘッド(PH)を組み合わせたマルチヘッドマルチタスク学習(MEMTL)手法を提案する。
MEMTLは、追加のトレーニングデータを必要とせず、推測精度と平均平方誤差の両方でベンチマーク手法より優れている。
論文 参考訳(メタデータ) (2023-09-02T11:01:16Z) - Sustainable AIGC Workload Scheduling of Geo-Distributed Data Centers: A
Multi-Agent Reinforcement Learning Approach [48.18355658448509]
生成的人工知能の最近の進歩は、機械学習トレーニングの需要が急増し、エネルギー消費の大幅な増加によるコスト負担と環境問題を引き起こしている。
地理的に分散したクラウドデータセンタ間でのトレーニングジョブのスケジューリングは、安価で低炭素エネルギーのコンピューティング能力の使用を最適化する機会を浮き彫りにする。
本研究では,実生活におけるワークロードパターン,エネルギー価格,炭素強度を組み込んだクラウドシステムと対話することで,マルチエージェント強化学習とアクタクリティカルな手法に基づく最適協調スケジューリング戦略の学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-04-17T02:12:30Z) - Actively Learning Costly Reward Functions for Reinforcement Learning [56.34005280792013]
複雑な実世界の環境でエージェントを訓練することは、桁違いに高速であることを示す。
強化学習の手法を新しい領域に適用することにより、興味深く非自明な解を見つけることができることを示す。
論文 参考訳(メタデータ) (2022-11-23T19:17:20Z) - Job Scheduling in Datacenters using Constraint Controlled RL [0.0]
本研究では,グリーンデータセンター環境におけるジョブスケジューリング問題に対して,PID(Proportional-Integral-Derivative)ラグランジアン法を適用した。
実験では、PIDラグランジアン法を使わずにスケジューリングポリシーよりも性能が向上した。
論文 参考訳(メタデータ) (2022-11-10T04:43:14Z) - A Distributed Deep Reinforcement Learning Technique for Application
Placement in Edge and Fog Computing Environments [31.326505188936746]
フォグ/エッジコンピューティング環境において, DRL(Deep Reinforcement Learning)に基づく配置技術が提案されている。
IMPortance weighted Actor-Learner Architectures (IMPALA) に基づくアクタ批判に基づく分散アプリケーション配置手法を提案する。
論文 参考訳(メタデータ) (2021-10-24T11:25:03Z) - Combining Deep Learning and Optimization for Security-Constrained
Optimal Power Flow [94.24763814458686]
セキュリティに制約のある最適電力フロー(SCOPF)は、電力システムの基本である。
SCOPF問題におけるAPRのモデル化は、複雑な大規模混合整数プログラムをもたらす。
本稿では,ディープラーニングとロバスト最適化を組み合わせた新しい手法を提案する。
論文 参考訳(メタデータ) (2020-07-14T12:38:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。