Fugu-MT 論文翻訳(概要): A Vertex Cut based Framework for Load Balancing and Parallelism Optimization in Multi-core Systems

論文の概要: A Vertex Cut based Framework for Load Balancing and Parallelism Optimization in Multi-core Systems

arxiv url: http://arxiv.org/abs/2010.04414v1
Date: Fri, 9 Oct 2020 07:54:28 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-09 06:25:19.897277
Title: A Vertex Cut based Framework for Load Balancing and Parallelism Optimization in Multi-core Systems
Title（参考訳）: マルチコアシステムにおける負荷分散と並列性最適化のための頂点カットベースフレームワーク
Authors: Guixiang Ma, Yao Xiao, Theodore L. Willke, Nesreen K. Ahmed, Shahin Nazarian, Paul Bogdan
Abstract要約: 機械学習のような高レベルのアプリケーションは、単純な画像認識のための多層パーセプトロンに基づく単純なモデルから、自動運転車制御システムのためのより深くより複雑なニューラルネットワークへと進化している。高性能コンピュータ上で動作する並列プログラムは、データ通信のボトルネック、メモリ帯域幅の制限、不規則なクリティカルセクションによる同期オーバーヘッドに悩まされることが多い。マルチコアシステムにおけるデータ通信の削減と,これらのアプリケーションのスケーラビリティと性能向上のためのフレームワークを提案する。
参考スコア（独自算出の注目度）: 15.913119724815733
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: High-level applications, such as machine learning, are evolving from simple models based on multilayer perceptrons for simple image recognition to much deeper and more complex neural networks for self-driving vehicle control systems.The rapid increase in the consumption of memory and computational resources by these models demands the use of multi-core parallel systems to scale the execution of the complex emerging applications that depend on them. However, parallel programs running on high-performance computers often suffer from data communication bottlenecks, limited memory bandwidth, and synchronization overhead due to irregular critical sections. In this paper, we propose a framework to reduce the data communication and improve the scalability and performance of these applications in multi-core systems. We design a vertex cut framework for partitioning LLVM IR graphs into clusters while taking into consideration the data communication and workload balance among clusters. First, we construct LLVM graphs by compiling high-level programs into LLVM IR, instrumenting code to obtain the execution order of basic blocks and the execution time for each memory operation, and analyze data dependencies in dynamic LLVM traces. Next, we formulate the problem as Weight Balanced $p$-way Vertex Cut, and propose a generic and flexible framework, wherein four different greedy algorithms are proposed for solving this problem. Lastly, we propose a memory-centric run-time mapping of the linear time complexity to map clusters generated from the vertex cut algorithms onto a multi-core platform. We conclude that our best algorithm, WB-Libra, provides performance improvements of 1.56x and 1.86x over existing state-of-the-art approaches for 8 and 1024 clusters running on a multi-core platform, respectively.
Abstract（参考訳）: 機械学習のような高レベルのアプリケーションは、単純な画像認識のための多層パーセプトロンに基づく単純なモデルから、自動運転車制御システムのためのより深くより複雑なニューラルネットワークへと進化している。これらのモデルによるメモリと計算資源の消費の急速な増加は、それらに依存する複雑な新興アプリケーションの実行をスケールするために、マルチコア並列システムの使用を要求する。しかしながら、高性能コンピュータ上で動作する並列プログラムは、データ通信のボトルネック、メモリ帯域幅の制限、不規則なクリティカルセクションによる同期オーバーヘッドに苦しむことが多い。本稿では,マルチコアシステムにおけるデータ通信を削減し,アプリケーションのスケーラビリティと性能を向上させるフレームワークを提案する。我々は,クラスタ間のデータ通信とワークロードバランスを考慮して,LLVM IRグラフをクラスタに分割するための頂点カットフレームワークを設計する。まず,上位プログラムをLLVM IRにコンパイルしてLLVMグラフを構築し,基本ブロックの実行順序と各メモリ操作の実行時間を求め,動的LLVMトレースにおけるデータ依存性を分析する。次に, 重みのバランスの取れた頂点カットとして問題を定式化し, この問題を解決するために4つの異なる欲望アルゴリズムが提案されている, 汎用的で柔軟な枠組みを提案する。最後に,頂点カットアルゴリズムから生成されたクラスタをマルチコアプラットフォームにマップするために,線形時間複雑性のメモリ中心のランタイムマッピングを提案する。当社の最高のアルゴリズムであるwb-libraは,マルチコアプラットフォーム上で動作する8クラスタと1024クラスタに対して,既存の最先端アプローチよりも1.56xと1.86xのパフォーマンス向上を実現しています。

関連論文リスト

Pangu Embedded: An Efficient Dual-system LLM Reasoner with Metacognition [95.54406667705999]
Pangu Embeddedは、Ascend Neural Processing Units (NPU) 上で開発された効率的なLarge Language Model (LLM) 推論器である。既存の推論最適化 LLM でよく見られる計算コストと推論遅延の問題に対処する。単一の統一モデルアーキテクチャ内で、迅速な応答と最先端の推論品質を提供する。
論文参考訳（メタデータ） (2025-05-28T14:03:02Z)
Understanding and Optimizing Multi-Stage AI Inference Pipelines [11.254219071373319]
HERMESは不均一な多段LPM推論実行シミュレータである。 HERMESは、以前のフレームワークとは異なり、複数のモデルを同時に実行する異種クライアントをサポートする。我々は、推論ステージがエンドツーエンドのレイテンシ、ハイブリッドパイプラインの最適戦略、リモートKVキャッシュ検索のアーキテクチャ的影響について検討する。
論文参考訳（メタデータ） (2025-04-14T00:29:49Z)
Stochastic Communication Avoidance for Recommendation Systems [27.616664288148232]
本稿では,ルックアップテーブルを用いた任意の分散システムの通信コストを解析する理論的枠組みを提案する。本稿では,メモリ,計算,通信制約を考慮したスループットを最大化するアルゴリズムを提案する。フレームワークとアルゴリズムをPyTorchで実装し、ベースラインを越えたGPUシステムのトレーニングスループットを最大6倍に向上します。
論文参考訳（メタデータ） (2024-11-03T15:37:37Z)
FusionLLM: A Decentralized LLM Training System on Geo-distributed GPUs with Adaptive Compression [55.992528247880685]
分散トレーニングは、システム設計と効率に関する重要な課題に直面します。大規模深層ニューラルネットワーク(DNN)のトレーニング用に設計・実装された分散トレーニングシステムFusionLLMを提案する。本システムと手法は,収束性を確保しつつ,ベースライン法と比較して1.45～9.39倍の高速化を実現可能であることを示す。
論文参考訳（メタデータ） (2024-10-16T16:13:19Z)
Support Vector Machine Implementation on MPI-CUDA and Tensorflow Framework [0.0]
Support Vector Machine (SVM)アルゴリズムは、複雑な二次プログラミング(QP)最適化問題を解決するために高い計算コストを必要とする。並列マルチアーキテクチャは、マルチコアCPUと高度にスケーラブルなGPUの両方で利用できる。本稿では,異なる並列アーキテクチャフレームワーク上でSVMアルゴリズムを実装した比較研究を行う。
論文参考訳（メタデータ） (2023-11-25T02:52:37Z)
Memory-aware Scheduling for Complex Wired Networks with Iterative Graph Optimization [4.614780125575351]
本稿では,反復グラフ最適化に基づく効率的なメモリ認識スケジューリングフレームワークを提案する。我々のフレームワークは、スケジューリングの最適性を保ちながらグラフを単純化する反復グラフ融合アルゴリズムを備えている。
論文参考訳（メタデータ） (2023-08-26T14:52:02Z)
In Situ Framework for Coupling Simulation and Machine Learning with Application to CFD [51.04126395480625]
近年、流体力学計算を容易にする機械学習(ML)の多くの成功例が報告されている。シミュレーションが大きくなるにつれて、従来のオフライン学習のための新しいトレーニングデータセットの生成は、I/Oとストレージのボトルネックを生み出します。この作業は、この結合を単純化し、異種クラスタでのその場トレーニングと推論を可能にするソリューションを提供する。
論文参考訳（メタデータ） (2023-06-22T14:07:54Z)
Scalable Graph Convolutional Network Training on Distributed-Memory Systems [5.169989177779801]
グラフ畳み込みネットワーク(GCN)はグラフの深層学習に広く利用されている。グラフ上の畳み込み操作は不規則なメモリアクセスパターンを誘導するので、GCNトレーニングのためのメモリと通信効率の並列アルゴリズムを設計することはユニークな課題である。本稿では,大規模プロセッサ数にスケールする並列トレーニングアルゴリズムを提案する。
論文参考訳（メタデータ） (2022-12-09T17:51:13Z)
Late Fusion Multi-view Clustering via Global and Local Alignment Maximization [61.89218392703043]
マルチビュークラスタリング(MVC)は、異なるビューからの補完情報を最適に統合し、クラスタリング性能を改善する。既存のアプローチの多くは、クラスタリングに最適な類似性行列を学ぶために、複数の事前定義された類似性を直接融合する。これらの問題に対処するために、アライメントを通してレイトフュージョンMVCを提案する。
論文参考訳（メタデータ） (2022-08-02T01:49:31Z)
NumS: Scalable Array Programming for the Cloud [82.827921577004]
タスクベース分散システム上でNumPyのような表現を最適化する配列プログラミングライブラリであるNumSを提案する。これはLoad Simulated Hierarchical Scheduling (LSHS)と呼ばれる新しいスケジューラによって実現される。 LSHSは、ネットワーク負荷を2倍減らし、メモリを4倍減らし、ロジスティック回帰問題において実行時間を10倍減らし、Rayの性能を向上させる。
論文参考訳（メタデータ） (2022-06-28T20:13:40Z)
Asynchronous Parallel Incremental Block-Coordinate Descent for Decentralized Machine Learning [55.198301429316125]
機械学習(ML)は、巨大なIoT(Internet of Things)ベースのインテリジェントでユビキタスなコンピューティングのビッグデータ駆動モデリングと分析のための重要なテクニックである。急成長するアプリケーションやデータ量にとって、分散学習は有望な新興パラダイムである。本稿では,多くのユーザデバイスに分散した分散システム上でMLモデルをトレーニングする問題について検討する。
論文参考訳（メタデータ） (2022-02-07T15:04:15Z)
Scaling Distributed Deep Learning Workloads beyond the Memory Capacity with KARMA [58.040931661693925]
冗長な再計算とアウト・オブ・コアの手法を組み合わせた戦略を提案する。最先端のアウト・オブ・コア手法を用いて,6種類のモデルで平均1.22倍の高速化を実現した。我々のデータ並列化ソリューションは,Megatron-LMやTurning-NLGといった大規模モデルのトレーニングにおいて,複雑なハイブリッドモデル並列性よりも優れる。
論文参考訳（メタデータ） (2020-08-26T07:24:34Z)
Dataflow Aware Mapping of Convolutional Neural Networks Onto Many-Core Platforms With Network-on-Chip Interconnect [0.0764671395172401]
マシンインテリジェンス、特に畳み込みニューラルネットワーク(CNN)は、ここ数年で大きな研究領域となっている。複数の同質なコアで構成される多コアプラットフォームは、データフローマッピングの労力の増大を犠牲にして、物理実装に関する制限を緩和することができる。この作業は、最小限のランタイムと最小限のオフチップメモリアクセスに対して、最適化目標の異なるシングルコアレベルから始まる自動マッピング戦略を示す。この戦略は、適切なマルチコアマッピング方式に拡張され、ネットワークオンチップ相互接続によるスケーラブルなシステムレベルシミュレーションを用いて評価される。
論文参考訳（メタデータ） (2020-06-18T17:13:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。