論文の概要: Optimizing Streaming Parallelism on Heterogeneous Many-Core
Architectures: A Machine Learning Based Approach
- arxiv url: http://arxiv.org/abs/2003.04294v1
- Date: Thu, 5 Mar 2020 21:18:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-26 07:49:14.017288
- Title: Optimizing Streaming Parallelism on Heterogeneous Many-Core
Architectures: A Machine Learning Based Approach
- Title(参考訳): 不均一多コアアーキテクチャによるストリーミング並列処理の最適化:機械学習に基づくアプローチ
- Authors: Peng Zhang, Jianbin Fang, Canqun Yang, Chun Huang, Tao Tang, Zheng
Wang
- Abstract要約: 本稿では、異種多コアアーキテクチャ上のタスクベース並列アプリケーションにおいて、ハードウェアリソース分割とタスク粒度に関する優れたソリューションを導出する自動手法を提案する。
提案手法では,与えられたリソース分割とタスクの粒度設定に基づいて,対象アプリケーションの結果のパフォーマンスを推定するために,性能モデルを用いる。
シングルストリームバージョンと比較すると,XeonPhiとGPUプラットフォームでそれぞれ1.6倍,1.1倍の高速化を実現している。
- 参考スコア(独自算出の注目度): 16.702537371391053
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This article presents an automatic approach to quickly derive a good solution
for hardware resource partition and task granularity for task-based parallel
applications on heterogeneous many-core architectures. Our approach employs a
performance model to estimate the resulting performance of the target
application under a given resource partition and task granularity
configuration. The model is used as a utility to quickly search for a good
configuration at runtime. Instead of hand-crafting an analytical model that
requires expert insights into low-level hardware details, we employ machine
learning techniques to automatically learn it. We achieve this by first
learning a predictive model offline using training programs. The learnt model
can then be used to predict the performance of any unseen program at runtime.
We apply our approach to 39 representative parallel applications and evaluate
it on two representative heterogeneous many-core platforms: a CPU-XeonPhi
platform and a CPU-GPU platform. Compared to the single-stream version, our
approach achieves, on average, a 1.6x and 1.1x speedup on the XeonPhi and the
GPU platform, respectively. These results translate to over 93% of the
performance delivered by a theoretically perfect predictor.
- Abstract(参考訳): 本稿では、異種多コアアーキテクチャ上のタスクベース並列アプリケーションにおいて、ハードウェアリソース分割とタスク粒度に関する優れたソリューションを迅速に導き出すための自動アプローチを提案する。
提案手法では,与えられたリソース分割とタスクの粒度設定に基づいて,対象アプリケーションの性能を推定するために性能モデルを用いる。
このモデルは実行時に優れた設定を素早く検索するためのユーティリティとして使用される。
低レベルのハードウェアの詳細に関する専門家の洞察を必要とする分析モデルを手作りする代わりに、機械学習技術を使ってそれを自動学習します。
まず、トレーニングプログラムを用いて予測モデルをオフラインで学習する。
学習したモデルは実行時に見えないプログラムのパフォーマンスを予測するために使用できる。
我々は39の並列アプリケーションに適用し、CPU-XeonPhiプラットフォームとCPU-GPUプラットフォームという2つの代表的異種多コアプラットフォーム上で評価する。
シングルストリームバージョンと比較すると,XeonPhiとGPUプラットフォームでは,平均1.6倍,1.1倍のスピードアップを実現しています。
これらの結果は、理論上完璧な予測器による性能の93%以上に相当する。
関連論文リスト
- Towards Universal Performance Modeling for Machine Learning Training on Multi-GPU Platforms [4.959530958049395]
我々は,コンピュータシステム上での機械学習(ML)ワークロードのトレーニングパフォーマンスを特徴付けるパイプラインを開発し,予測する。
私たちのパイプラインは、TransformerベースのNLPモデルなど、他のタイプのMLワークロードに一般化されています。
最速の埋め込みテーブルシャーディング構成を素早く選択するような洞察を生成することができる。
論文 参考訳(メタデータ) (2024-04-19T07:20:33Z) - Performance Tuning for GPU-Embedded Systems: Machine-Learning-based and
Analytical Model-driven Tuning Methodologies [0.0]
本研究は,分析モデル駆動型チューニング手法と機械学習(ML)に基づくチューニング手法を紹介する。
NVIDIA JetsonシステムにおけるBPLGライブラリの異なる並列プレフィックス実装のための2つのチューニング手法の性能評価を行った。
論文 参考訳(メタデータ) (2023-10-24T22:09:03Z) - Harnessing Deep Learning and HPC Kernels via High-Level Loop and Tensor Abstractions on CPU Architectures [67.47328776279204]
この研究は、効率的でポータブルなDeep LearningとHigh Performance Computingカーネルを開発するためのフレームワークを導入している。
1)プロセッシングプリミティブ(TPP)を用いた計算コアの表現と,2)高レベルな宣言的手法でTPPのまわりの論理ループの表現の2つのステップでカーネルの開発を分解する。
我々は、スタンドアロンカーネルと、さまざまなCPUプラットフォームにおける最先端実装よりも優れたエンドツーエンドワークロードを使用して、このアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-04-25T05:04:44Z) - ParaGraph: Weighted Graph Representation for Performance Optimization of
HPC Kernels [1.304892050913381]
抽象構文木を拡張した並列アプリケーションのためのグラフベースの新しいプログラム表現を提案する。
提案した表現は,OpenMPコード領域のランタイムを予測するために,グラフニューラルネットワーク(GNN)をトレーニングすることで評価する。
その結果,本手法は実効性があり,実行時予測では 0.004 から 0.01 に RMSE を正規化していることがわかった。
論文 参考訳(メタデータ) (2023-04-07T05:52:59Z) - Partitioning Distributed Compute Jobs with Reinforcement Learning and
Graph Neural Networks [58.720142291102135]
大規模な機械学習モデルは、幅広い分野に進歩をもたらしている。
これらのモデルの多くは、単一のマシンでトレーニングするには大きすぎるため、複数のデバイスに分散する必要がある。
スループットやブロッキングレートといったユーザクリティカルな指標に対して,並列化の最大化が準最適であることを示す。
論文 参考訳(メタデータ) (2023-01-31T17:41:07Z) - Does compressing activations help model parallel training? [64.59298055364336]
モデル並列性に対する圧縮法の有効性に関する実験的検討を行った。
圧縮アルゴリズムの3つの共通クラスを実装し,評価する。
我々は160以上の設定と8つの一般的なデータセットでこれらの手法を評価した。
論文 参考訳(メタデータ) (2023-01-06T18:58:09Z) - Accelerating Deep Learning Model Inference on Arm CPUs with Ultra-Low
Bit Quantization and Runtime [57.5143536744084]
ディープラーニングモデルの高性能化は、高い計算、ストレージ、電力要求を犠牲にしている。
我々はDeplite Neutrinoを導入し、DepliteはArmベースのプラットフォームに超低ビット量子化モデルを展開する。
論文 参考訳(メタデータ) (2022-07-18T15:05:17Z) - SOLIS -- The MLOps journey from data acquisition to actionable insights [62.997667081978825]
本稿では,基本的なクロスプラットフォームテンソルフレームワークとスクリプト言語エンジンを使用しながら,すべての要件をサポートする統合デプロイメントパイプラインとフリー・ツー・オペレートアプローチを提案する。
しかし、このアプローチは、実際のプロダクショングレードシステムに機械学習機能を実際にデプロイするために必要な手順やパイプラインを提供していない。
論文 参考訳(メタデータ) (2021-12-22T14:45:37Z) - Taskflow: A Lightweight Parallel and Heterogeneous Task Graph Computing
System [12.813275501138193]
Taskflowは、軽量なタスクグラフベースのアプローチを使用して、並列および異種アプリケーションの構築を合理化することを目的としている。
我々のプログラミングモデルは、グラフ内制御フローを伴うタスクグラフ並列性の非常に一般的なクラスとして、自分自身を区別する。
我々は実世界のアプリケーションでTaskflowの有望な性能を実証した。
論文 参考訳(メタデータ) (2020-04-23T00:21:05Z) - Heterogeneous CPU+GPU Stochastic Gradient Descent Algorithms [1.3249453757295084]
ヘテロジニアスCPU+GPUアーキテクチャの深層学習のためのトレーニングアルゴリズムについて検討する。
私たちの2倍の目標 -- 収束率と資源利用を同時に最大化する -- は、この問題を難しくします。
これらのアルゴリズムの実装は,複数の実データセットよりも高速な収束と資源利用の両立を実現していることを示す。
論文 参考訳(メタデータ) (2020-04-19T05:21:20Z) - MPLP++: Fast, Parallel Dual Block-Coordinate Ascent for Dense Graphical
Models [96.1052289276254]
この研究は、人気のあるDual Block-Coordinate Ascent原則に基づく新しいMAP-solverを導入している。
驚いたことに、性能の低い解法に小さな変更を加えることで、既存の解法を大きなマージンで大幅に上回る新しい解法MPLP++を導出します。
論文 参考訳(メタデータ) (2020-04-16T16:20:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。