論文の概要: Astra: Efficient and Money-saving Automatic Parallel Strategies Search on Heterogeneous GPUs
- arxiv url: http://arxiv.org/abs/2502.13480v1
- Date: Wed, 19 Feb 2025 07:08:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-20 13:59:16.847664
- Title: Astra: Efficient and Money-saving Automatic Parallel Strategies Search on Heterogeneous GPUs
- Title(参考訳): Astra: ヘテロジニアスGPUによる効率的かつ省エネな並列戦略検索
- Authors: Peiran Wang, Haibing Li, Fu Haohan, Shiyong Li, Yanpeng Wang, Dou Shen,
- Abstract要約: ヘテロジニアスGPU上での自動並列戦略探索フレームワークAstraを導入する。
Astraは、両方のGPU構成検索空間における効率-最適並列戦略を探索する。
ついにAstraは、貯金に関する自動並行戦略検索を最初に提案した。
- 参考スコア(独自算出の注目度): 2.442376160115842
- License:
- Abstract: In this paper, we introduce an efficient and money-saving automatic parallel strategies search framework on heterogeneous GPUs: Astra. First, Astra searches for the efficiency-optimal parallel strategy in both GPU configurations search space (GPU types and GPU numbers) and parallel parameters search space. Then, Astra also provides the solution on heterogeneous GPUs by mathematically modeling the time consumption of heterogeneous training. At last, Astra is the first to propose the automatic parallel strategy search on money-saving. The experiment results demonstrate that Astra can achieve better throughput than expert-designed strategies. The search time cost for Astra can also be limited to 1.27 seconds in a single-GPU setting and less than 1.35 minutes in a heterogeneous-GPU setting on average with an accuracy of over 95%.
- Abstract(参考訳): 本稿では,ヘテロジニアスGPU上での自動並列戦略探索フレームワークであるAstraについて紹介する。
まず、AstraはGPU設定検索空間(GPUタイプとGPU番号)と並列パラメータ検索空間の両方において効率-最適並列戦略を探索する。
次に、Astraは異種GPUの時間消費を数学的にモデル化することで、異種GPUのソリューションも提供する。
ついにAstraは、貯金に関する自動並行戦略検索を最初に提案した。
実験の結果、Astraは専門家が設計した戦略よりも優れたスループットを達成できることが示された。
Astraの検索時間は1つのGPU設定で1.27秒、平均95%以上の精度で1.35分未満に制限できる。
関連論文リスト
- Advanced Techniques for High-Performance Fock Matrix Construction on GPU Clusters [0.0]
opt-UM と opt-Brc は、Hartree-Fock のケーキュレーションを$f$型角運動量関数に拡張した。
Opt-Brc はより小さな系と高度に収縮された三価ゼータの基底集合に対して優れ、オプト-UM は大きな分子系に対して有利である。
論文 参考訳(メタデータ) (2024-07-31T08:49:06Z) - HETHUB: A Distributed Training System with Heterogeneous Cluster for Large-Scale Models [17.08669201975141]
大規模モデルのトレーニングは、膨大な数のコンピューティングリソースに依存している。
ひとつのタイプのGPUアクセラレータを備えた大規模クラスタを構築するのは、非常に難しい。
本稿では,大規模モデルを対象としたハイブリッド並列処理を用いた分散トレーニングシステムHETHUBを提案する。
論文 参考訳(メタデータ) (2024-05-25T14:36:35Z) - Hierarchical Resource Partitioning on Modern GPUs: A Reinforcement Learning Approach [1.076745840431781]
本稿では,階層的分割のセットアップと,与えられたジョブ集合からの協調スケジューリンググループの選択を包括的に協調する手法を提案する。
これにより、時間共有スケジューリングに比べて最大スループットが1.87倍向上する。
論文 参考訳(メタデータ) (2024-05-14T16:40:06Z) - ArchGym: An Open-Source Gymnasium for Machine Learning Assisted
Architecture Design [52.57999109204569]
ArchGymは、さまざまな検索アルゴリズムをアーキテクチャシミュレータに接続するオープンソースのフレームワークである。
我々は、カスタムメモリコントローラ、ディープニューラルネットワークアクセラレータ、AR/VRワークロード用のカスタムSOCを設計する際に、複数のバニラおよびドメイン固有の検索アルゴリズムにわたってArchGymを評価する。
論文 参考訳(メタデータ) (2023-06-15T06:41:23Z) - Speed-Oblivious Online Scheduling: Knowing (Precise) Speeds is not
Necessary [71.46673478666631]
我々は、無関係な(異種な)マシン上でのオンラインスケジューリングを、高速な環境で検討する。
透かしアルゴリズムと非透かしアルゴリズムでは,強い可視性を示す。
論文 参考訳(メタデータ) (2023-02-02T10:09:23Z) - Accelerating Training and Inference of Graph Neural Networks with Fast
Sampling and Pipelining [58.10436813430554]
グラフニューラルネットワーク(GNN)のミニバッチトレーニングには、多くの計算とデータ移動が必要である。
我々は,分散マルチGPU環境において,近傍サンプリングを用いたミニバッチトレーニングを行うことを支持する。
本稿では,これらのボトルネックを緩和する一連の改良点について述べる。
また,サンプリングによる推論を支援する実験分析を行い,試験精度が実質的に損なわれていないことを示す。
論文 参考訳(メタデータ) (2021-10-16T02:41:35Z) - GPU Accelerated Exhaustive Search for Optimal Ensemble of Black-Box
Optimization Algorithms [1.246150324257064]
ブラックボックス最適化アルゴリズムの単純なアンサンブルは,どのアルゴリズムよりも優れていることを示す。
本稿では,最適アンサンブルのブラト力探索を高速化するマルチGPU最適化フレームワークを提案する。
我々は、270万のモデルをトレーニングし、541,440の最適化を実行することで15を評価した。
論文 参考訳(メタデータ) (2020-12-08T04:10:35Z) - Resource Allocation in Multi-armed Bandit Exploration: Overcoming
Sublinear Scaling with Adaptive Parallelism [107.48538091418412]
腕の引っ張りに様々な量の資源を割り当てることができる分割可能な資源にアクセス可能な場合,マルチアームの帯状地における探索について検討する。
特に、分散コンピューティングリソースの割り当てに重点を置いており、プル毎により多くのリソースを割り当てることで、結果をより早く得ることができます。
論文 参考訳(メタデータ) (2020-10-31T18:19:29Z) - On Effective Parallelization of Monte Carlo Tree Search [51.15940034629022]
モンテカルロ木探索(MCTS)は、探索木を構築するためにかなりの数のロールアウトを必要とするため、計算コストがかかる。
効果的な並列MCTSアルゴリズムを設計する方法は、体系的に研究されておらず、まだよく分かっていない。
我々は,より効率的な並列MCTSアルゴリズムの設計に,提案する必要条件をどのように適用できるかを実証する。
論文 参考訳(メタデータ) (2020-06-15T21:36:00Z) - Real-Time Semantic Segmentation via Auto Depth, Downsampling Joint
Decision and Feature Aggregation [54.28963233377946]
本稿では,セグメンテーション戦略の自動化を目的として,AutoRTNetという共同検索フレームワークを提案する。
具体的には,ネットワーク深度とダウンサンプリング戦略を協調的に決定するハイパーセルと,自動マルチスケール機能アグリゲーションを実現するアグリゲーションセルを提案する。
論文 参考訳(メタデータ) (2020-03-31T14:02:25Z) - Optimizing Streaming Parallelism on Heterogeneous Many-Core
Architectures: A Machine Learning Based Approach [16.702537371391053]
本稿では、異種多コアアーキテクチャ上のタスクベース並列アプリケーションにおいて、ハードウェアリソース分割とタスク粒度に関する優れたソリューションを導出する自動手法を提案する。
提案手法では,与えられたリソース分割とタスクの粒度設定に基づいて,対象アプリケーションの結果のパフォーマンスを推定するために,性能モデルを用いる。
シングルストリームバージョンと比較すると,XeonPhiとGPUプラットフォームでそれぞれ1.6倍,1.1倍の高速化を実現している。
論文 参考訳(メタデータ) (2020-03-05T21:18:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。