論文の概要: A Vertex Cut based Framework for Load Balancing and Parallelism
Optimization in Multi-core Systems
- arxiv url: http://arxiv.org/abs/2010.04414v1
- Date: Fri, 9 Oct 2020 07:54:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-09 06:25:19.897277
- Title: A Vertex Cut based Framework for Load Balancing and Parallelism
Optimization in Multi-core Systems
- Title(参考訳): マルチコアシステムにおける負荷分散と並列性最適化のための頂点カットベースフレームワーク
- Authors: Guixiang Ma, Yao Xiao, Theodore L. Willke, Nesreen K. Ahmed, Shahin
Nazarian, Paul Bogdan
- Abstract要約: 機械学習のような高レベルのアプリケーションは、単純な画像認識のための多層パーセプトロンに基づく単純なモデルから、自動運転車制御システムのためのより深くより複雑なニューラルネットワークへと進化している。
高性能コンピュータ上で動作する並列プログラムは、データ通信のボトルネック、メモリ帯域幅の制限、不規則なクリティカルセクションによる同期オーバーヘッドに悩まされることが多い。
マルチコアシステムにおけるデータ通信の削減と,これらのアプリケーションのスケーラビリティと性能向上のためのフレームワークを提案する。
- 参考スコア(独自算出の注目度): 15.913119724815733
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: High-level applications, such as machine learning, are evolving from simple
models based on multilayer perceptrons for simple image recognition to much
deeper and more complex neural networks for self-driving vehicle control
systems.The rapid increase in the consumption of memory and computational
resources by these models demands the use of multi-core parallel systems to
scale the execution of the complex emerging applications that depend on them.
However, parallel programs running on high-performance computers often suffer
from data communication bottlenecks, limited memory bandwidth, and
synchronization overhead due to irregular critical sections. In this paper, we
propose a framework to reduce the data communication and improve the
scalability and performance of these applications in multi-core systems. We
design a vertex cut framework for partitioning LLVM IR graphs into clusters
while taking into consideration the data communication and workload balance
among clusters. First, we construct LLVM graphs by compiling high-level
programs into LLVM IR, instrumenting code to obtain the execution order of
basic blocks and the execution time for each memory operation, and analyze data
dependencies in dynamic LLVM traces. Next, we formulate the problem as Weight
Balanced $p$-way Vertex Cut, and propose a generic and flexible framework,
wherein four different greedy algorithms are proposed for solving this problem.
Lastly, we propose a memory-centric run-time mapping of the linear time
complexity to map clusters generated from the vertex cut algorithms onto a
multi-core platform. We conclude that our best algorithm, WB-Libra, provides
performance improvements of 1.56x and 1.86x over existing state-of-the-art
approaches for 8 and 1024 clusters running on a multi-core platform,
respectively.
- Abstract(参考訳): 機械学習のような高レベルのアプリケーションは、単純な画像認識のための多層パーセプトロンに基づく単純なモデルから、自動運転車制御システムのためのより深くより複雑なニューラルネットワークへと進化している。これらのモデルによるメモリと計算資源の消費の急速な増加は、それらに依存する複雑な新興アプリケーションの実行をスケールするために、マルチコア並列システムの使用を要求する。
しかしながら、高性能コンピュータ上で動作する並列プログラムは、データ通信のボトルネック、メモリ帯域幅の制限、不規則なクリティカルセクションによる同期オーバーヘッドに苦しむことが多い。
本稿では,マルチコアシステムにおけるデータ通信を削減し,アプリケーションのスケーラビリティと性能を向上させるフレームワークを提案する。
我々は,クラスタ間のデータ通信とワークロードバランスを考慮して,LLVM IRグラフをクラスタに分割するための頂点カットフレームワークを設計する。
まず,上位プログラムをLLVM IRにコンパイルしてLLVMグラフを構築し,基本ブロックの実行順序と各メモリ操作の実行時間を求め,動的LLVMトレースにおけるデータ依存性を分析する。
次に, 重みのバランスの取れた頂点カットとして問題を定式化し, この問題を解決するために4つの異なる欲望アルゴリズムが提案されている, 汎用的で柔軟な枠組みを提案する。
最後に,頂点カットアルゴリズムから生成されたクラスタをマルチコアプラットフォームにマップするために,線形時間複雑性のメモリ中心のランタイムマッピングを提案する。
当社の最高のアルゴリズムであるwb-libraは,マルチコアプラットフォーム上で動作する8クラスタと1024クラスタに対して,既存の最先端アプローチよりも1.56xと1.86xのパフォーマンス向上を実現しています。
関連論文リスト
- Stochastic Communication Avoidance for Recommendation Systems [27.616664288148232]
本稿では,ルックアップテーブルを用いた任意の分散システムの通信コストを解析する理論的枠組みを提案する。
本稿では,メモリ,計算,通信制約を考慮したスループットを最大化するアルゴリズムを提案する。
フレームワークとアルゴリズムをPyTorchで実装し、ベースラインを越えたGPUシステムのトレーニングスループットを最大6倍に向上します。
論文 参考訳(メタデータ) (2024-11-03T15:37:37Z) - FusionLLM: A Decentralized LLM Training System on Geo-distributed GPUs with Adaptive Compression [55.992528247880685]
分散トレーニングは、システム設計と効率に関する重要な課題に直面します。
大規模深層ニューラルネットワーク(DNN)のトレーニング用に設計・実装された分散トレーニングシステムFusionLLMを提案する。
本システムと手法は,収束性を確保しつつ,ベースライン法と比較して1.45~9.39倍の高速化を実現可能であることを示す。
論文 参考訳(メタデータ) (2024-10-16T16:13:19Z) - Support Vector Machine Implementation on MPI-CUDA and Tensorflow
Framework [0.0]
Support Vector Machine (SVM)アルゴリズムは、複雑な二次プログラミング(QP)最適化問題を解決するために高い計算コストを必要とする。
並列マルチアーキテクチャは、マルチコアCPUと高度にスケーラブルなGPUの両方で利用できる。
本稿では,異なる並列アーキテクチャフレームワーク上でSVMアルゴリズムを実装した比較研究を行う。
論文 参考訳(メタデータ) (2023-11-25T02:52:37Z) - Memory-aware Scheduling for Complex Wired Networks with Iterative Graph
Optimization [4.614780125575351]
本稿では,反復グラフ最適化に基づく効率的なメモリ認識スケジューリングフレームワークを提案する。
我々のフレームワークは、スケジューリングの最適性を保ちながらグラフを単純化する反復グラフ融合アルゴリズムを備えている。
論文 参考訳(メタデータ) (2023-08-26T14:52:02Z) - In Situ Framework for Coupling Simulation and Machine Learning with
Application to CFD [51.04126395480625]
近年、流体力学計算を容易にする機械学習(ML)の多くの成功例が報告されている。
シミュレーションが大きくなるにつれて、従来のオフライン学習のための新しいトレーニングデータセットの生成は、I/Oとストレージのボトルネックを生み出します。
この作業は、この結合を単純化し、異種クラスタでのその場トレーニングと推論を可能にするソリューションを提供する。
論文 参考訳(メタデータ) (2023-06-22T14:07:54Z) - Scalable Graph Convolutional Network Training on Distributed-Memory
Systems [5.169989177779801]
グラフ畳み込みネットワーク(GCN)はグラフの深層学習に広く利用されている。
グラフ上の畳み込み操作は不規則なメモリアクセスパターンを誘導するので、GCNトレーニングのためのメモリと通信効率の並列アルゴリズムを設計することはユニークな課題である。
本稿では,大規模プロセッサ数にスケールする並列トレーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-12-09T17:51:13Z) - Late Fusion Multi-view Clustering via Global and Local Alignment
Maximization [61.89218392703043]
マルチビュークラスタリング(MVC)は、異なるビューからの補完情報を最適に統合し、クラスタリング性能を改善する。
既存のアプローチの多くは、クラスタリングに最適な類似性行列を学ぶために、複数の事前定義された類似性を直接融合する。
これらの問題に対処するために、アライメントを通してレイトフュージョンMVCを提案する。
論文 参考訳(メタデータ) (2022-08-02T01:49:31Z) - NumS: Scalable Array Programming for the Cloud [82.827921577004]
タスクベース分散システム上でNumPyのような表現を最適化する配列プログラミングライブラリであるNumSを提案する。
これはLoad Simulated Hierarchical Scheduling (LSHS)と呼ばれる新しいスケジューラによって実現される。
LSHSは、ネットワーク負荷を2倍減らし、メモリを4倍減らし、ロジスティック回帰問題において実行時間を10倍減らし、Rayの性能を向上させる。
論文 参考訳(メタデータ) (2022-06-28T20:13:40Z) - Asynchronous Parallel Incremental Block-Coordinate Descent for
Decentralized Machine Learning [55.198301429316125]
機械学習(ML)は、巨大なIoT(Internet of Things)ベースのインテリジェントでユビキタスなコンピューティングのビッグデータ駆動モデリングと分析のための重要なテクニックである。
急成長するアプリケーションやデータ量にとって、分散学習は有望な新興パラダイムである。
本稿では,多くのユーザデバイスに分散した分散システム上でMLモデルをトレーニングする問題について検討する。
論文 参考訳(メタデータ) (2022-02-07T15:04:15Z) - Scaling Distributed Deep Learning Workloads beyond the Memory Capacity
with KARMA [58.040931661693925]
冗長な再計算とアウト・オブ・コアの手法を組み合わせた戦略を提案する。
最先端のアウト・オブ・コア手法を用いて,6種類のモデルで平均1.22倍の高速化を実現した。
我々のデータ並列化ソリューションは,Megatron-LMやTurning-NLGといった大規模モデルのトレーニングにおいて,複雑なハイブリッドモデル並列性よりも優れる。
論文 参考訳(メタデータ) (2020-08-26T07:24:34Z) - Dataflow Aware Mapping of Convolutional Neural Networks Onto Many-Core
Platforms With Network-on-Chip Interconnect [0.0764671395172401]
マシンインテリジェンス、特に畳み込みニューラルネットワーク(CNN)は、ここ数年で大きな研究領域となっている。
複数の同質なコアで構成される多コアプラットフォームは、データフローマッピングの労力の増大を犠牲にして、物理実装に関する制限を緩和することができる。
この作業は、最小限のランタイムと最小限のオフチップメモリアクセスに対して、最適化目標の異なるシングルコアレベルから始まる自動マッピング戦略を示す。
この戦略は、適切なマルチコアマッピング方式に拡張され、ネットワークオンチップ相互接続によるスケーラブルなシステムレベルシミュレーションを用いて評価される。
論文 参考訳(メタデータ) (2020-06-18T17:13:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。