論文の概要: GOGH: Correlation-Guided Orchestration of GPUs in Heterogeneous Clusters
- arxiv url: http://arxiv.org/abs/2510.15652v1
- Date: Fri, 17 Oct 2025 13:44:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-20 20:17:34.63944
- Title: GOGH: Correlation-Guided Orchestration of GPUs in Heterogeneous Clusters
- Title(参考訳): GOGH:不均一クラスタにおけるGPUの相関誘導オーケストレーション
- Authors: Ahmad Raeisi, Mahdi Dolati, Sina Darabi, Sadegh Talebi, Patrick Eugster, Ahmad Khonsari,
- Abstract要約: 異種クラスタにおける機械学習ワークロードを管理するための学習ベースアーキテクチャを提案する。
システムはオンラインで運用され、エネルギー消費を最小化しながら、入ってくるトレーニングや推論要求にリソースを割り当てる。
- 参考スコア(独自算出の注目度): 4.241410532880399
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The growing demand for computational resources in machine learning has made efficient resource allocation a critical challenge, especially in heterogeneous hardware clusters where devices vary in capability, age, and energy efficiency. Upgrading to the latest hardware is often infeasible, making sustainable use of existing, mixed-generation resources essential. In this paper, we propose a learning-based architecture for managing machine learning workloads in heterogeneous clusters. The system operates online, allocating resources to incoming training or inference requests while minimizing energy consumption and meeting performance requirements. It uses two neural networks: the first provides initial estimates of how well a new model will utilize different hardware types and how it will affect co-located models. An optimizer then allocates resources based on these estimates. After deployment, the system monitors real performance and uses this data to refine its predictions via a second neural network. This updated model improves estimates not only for the current hardware but also for hardware not initially allocated and for co-location scenarios not yet observed. The result is an adaptive, iterative approach that learns over time to make more effective resource allocation decisions in heterogeneous deep learning clusters.
- Abstract(参考訳): 機械学習における計算資源の需要の増大は、特にデバイスが能力、年齢、エネルギー効率に異なる異種ハードウェアクラスタにおいて、効率的なリソース割り当てが重要な課題となっている。
最新のハードウェアへのアップグレードは、しばしば実現不可能であり、既存の混成世代リソースを持続可能な利用が不可欠である。
本論文では、異種クラスタにおける機械学習ワークロードを管理するための学習ベースアーキテクチャを提案する。
システムはオンラインで運用され、エネルギー消費を最小化し、性能要件を満たすとともに、入ってくるトレーニングや推論要求にリソースを割り当てる。
最初は、新しいモデルが異なるハードウェアタイプをどのように活用するか、そしてそれがコロケーションモデルにどのように影響するかの最初の見積もりを提供する。
次に、オプティマイザは、これらの見積に基づいてリソースを割り当てる。
デプロイ後、システムは実際のパフォーマンスを監視し、このデータを使用して第2のニューラルネットワークを介して予測を洗練する。
この更新されたモデルでは、現在のハードウェアだけでなく、初期割り当てられていないハードウェアや、まだ観測されていないコロケーションシナリオの見積も改善されている。
その結果は適応的で反復的なアプローチであり、不均一なディープラーニングクラスタにおいて、より効果的なリソース割り当て決定を行うために時間とともに学習する。
関連論文リスト
- REDS: Resource-Efficient Deep Subnetworks for Dynamic Resource Constraints [2.9209462960232235]
最先端の機械学習パイプラインは、実行時に適応できないリソースに依存しないモデルを生成する。
本稿では,資源効率の高いDeep Subnetworks (REDS) を導入し,変動資源へのモデル適応に取り組む。
論文 参考訳(メタデータ) (2023-11-22T12:34:51Z) - Tackling Computational Heterogeneity in FL: A Few Theoretical Insights [68.8204255655161]
我々は、計算異種データの形式化と処理を可能にする新しい集約フレームワークを導入し、分析する。
提案するアグリゲーションアルゴリズムは理論的および実験的予測から広範囲に解析される。
論文 参考訳(メタデータ) (2023-07-12T16:28:21Z) - A New Clustering-Based Technique for the Acceleration of Deep
Convolutional Networks [2.7393821783237184]
MCA(Model Compression and Acceleration)技術は、大規模な事前学習ネットワークをより小さなモデルに変換するために用いられる。
本稿では,採用したセントロイド/表現量を増やすクラスタリングに基づく手法を提案する。
これは、被雇用者に対して特別な構造を課すことによって達成され、これは、目の前の問題の特異性によって実現される。
論文 参考訳(メタデータ) (2021-07-19T18:22:07Z) - Learning to Continuously Optimize Wireless Resource in a Dynamic
Environment: A Bilevel Optimization Perspective [52.497514255040514]
この研究は、データ駆動メソッドが動的環境でリソース割り当て戦略を継続的に学び、最適化することを可能にする新しいアプローチを開発しています。
学習モデルが新たなエピソードに段階的に適応できるように、連続学習の概念を無線システム設計に組み込むことを提案する。
我々の設計は、異なるデータサンプルにまたがる公平性を保証する、新しい二段階最適化定式化に基づいている。
論文 参考訳(メタデータ) (2021-05-03T07:23:39Z) - Phase Retrieval using Expectation Consistent Signal Recovery Algorithm
based on Hypernetwork [73.94896986868146]
位相検索は現代の計算イメージングシステムにおいて重要な要素である。
近年のディープラーニングの進歩は、堅牢で高速なPRの新たな可能性を開いた。
我々は、既存の制限を克服するために、深層展開のための新しいフレームワークを開発する。
論文 参考訳(メタデータ) (2021-01-12T08:36:23Z) - Solving Mixed Integer Programs Using Neural Networks [57.683491412480635]
本稿では,mipソルバの2つのキーサブタスクに学習を適用し,高品質なジョイント変数割当を生成し,その割当と最適課題との客観的値の差を限定する。
提案手法は,ニューラルネットワークに基づく2つのコンポーネントであるニューラルダイバーディングとニューラルブランチを構築し,SCIPなどのベースMIPソルバで使用する。
2つのGoogle生産データセットとMIPLIBを含む6つの現実世界データセットに対するアプローチを評価し、それぞれに別々のニューラルネットワークをトレーニングする。
論文 参考訳(メタデータ) (2020-12-23T09:33:11Z) - Learning Centric Wireless Resource Allocation for Edge Computing:
Algorithm and Experiment [15.577056429740951]
Edge Intelligenceは、センサー、通信、コンピューティングコンポーネントを統合し、さまざまな機械学習アプリケーションをサポートする、新興ネットワークアーキテクチャである。
既存の方法は2つの重要な事実を無視している: 1) 異なるモデルがトレーニングデータに不均一な要求を持っている; 2) シミュレーション環境と実環境との間にはミスマッチがある。
本稿では,複数のタスクの最悪の学習性能を最大化する学習中心の無線リソース割り当て方式を提案する。
論文 参考訳(メタデータ) (2020-10-29T06:20:40Z) - Spiking Neural Networks Hardware Implementations and Challenges: a
Survey [53.429871539789445]
スパイキングニューラルネットワークは、ニューロンとシナプスの操作原理を模倣する認知アルゴリズムである。
スパイキングニューラルネットワークのハードウェア実装の現状について述べる。
本稿では,これらのイベント駆動アルゴリズムの特性をハードウェアレベルで活用するための戦略について論じる。
論文 参考訳(メタデータ) (2020-05-04T13:24:00Z) - Large-Scale Gradient-Free Deep Learning with Recursive Local
Representation Alignment [84.57874289554839]
大規模データセット上でディープニューラルネットワークをトレーニングするには、重要なハードウェアリソースが必要である。
これらのネットワークをトレーニングするためのワークホースであるバックプロパゲーションは、本質的に並列化が難しいシーケンシャルなプロセスである。
本稿では、深層ネットワークのトレーニングに使用できるバックプロップに代わる、神経生物学的に有望な代替手段を提案する。
論文 参考訳(メタデータ) (2020-02-10T16:20:02Z) - Resource-Efficient Neural Networks for Embedded Systems [23.532396005466627]
本稿では,機械学習技術の現状について概説する。
私たちは、過去10年で主要な機械学習モデルであるディープニューラルネットワーク(DNN)に基づく、リソース効率の高い推論に焦点を当てています。
我々は、圧縮技術を用いて、よく知られたベンチマークデータセットの実験で議論を裏付ける。
論文 参考訳(メタデータ) (2020-01-07T14:17:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。