論文の概要: Performance Tuning for GPU-Embedded Systems: Machine-Learning-based and
Analytical Model-driven Tuning Methodologies
- arxiv url: http://arxiv.org/abs/2310.16214v1
- Date: Tue, 24 Oct 2023 22:09:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-26 18:00:26.333736
- Title: Performance Tuning for GPU-Embedded Systems: Machine-Learning-based and
Analytical Model-driven Tuning Methodologies
- Title(参考訳): GPU組み込みシステムのパフォーマンスチューニング:マシンラーニングと解析モデル駆動チューニング手法
- Authors: Adrian Perez Dieguez, Margarita Amor Lopez
- Abstract要約: 本研究は,分析モデル駆動型チューニング手法と機械学習(ML)に基づくチューニング手法を紹介する。
NVIDIA JetsonシステムにおけるBPLGライブラリの異なる並列プレフィックス実装のための2つのチューニング手法の性能評価を行った。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: GPU-embedded systems have gained popularity across various domains due to
their efficient power consumption. However, in order to meet the demands of
real-time or time-consuming applications running on these systems, it is
crucial for them to be tuned to exhibit high performance. This paper addresses
the issue by developing and comparing two tuning methodologies on GPU-embedded
systems, and also provides performance insights for developers and researchers
seeking to optimize applications running on these architectures. We focus on
parallel prefix operations, such as FFT, scan primitives, and tridiagonal
system solvers, which are performance-critical components in many applications.
The study introduces an analytical model-driven tuning methodology and a
Machine Learning (ML)-based tuning methodology. We evaluate the performance of
the two tuning methodologies for different parallel prefix implementations of
the BPLG library in an NVIDIA Jetson system, and compare their performance to
the ones achieved through an exhaustive search. The findings shed light on the
best strategies for handling the open challenge of performance portability for
major computational patterns among server and embedded devices, providing
practical guidance for offline and online tuning. We also address the existing
gap in performance studies for parallel computational patterns in GPU-embedded
systems by comparing the BPLG performance against other state-of-the-art
libraries, including CUSPARSE, CUB, and CUFFT.
- Abstract(参考訳): GPU組み込みシステムは、効率的な電力消費のために、様々な領域で人気を集めている。
しかし、これらのシステム上で動作するリアルタイムまたは時間を要するアプリケーションの要求を満たすためには、高いパフォーマンスを示すように調整することが不可欠である。
本稿では,GPU組み込みシステム上での2つのチューニング手法の開発と比較による課題に対処するとともに,これらのアーキテクチャ上で動作するアプリケーションの最適化を目指す開発者や研究者に対して,パフォーマンス上の洞察を提供する。
我々は、FFT、スキャンプリミティブ、および多くのアプリケーションにおいて性能クリティカルなコンポーネントである三角形システムソルバなどの並列プレフィックス演算に焦点を当てる。
本研究は,分析モデル駆動型チューニング手法と機械学習(ML)に基づくチューニング手法を紹介する。
NVIDIA JetsonシステムにおけるBPLGライブラリの異なる並列プレフィックス実装のための2つのチューニング手法の性能評価を行い、その性能を網羅的な探索によって達成されたものと比較した。
この発見は、サーバと組み込みデバイス間の主要な計算パターンのパフォーマンスポータビリティに関するオープンな課題に対処するための最良の戦略を明らかにし、オフラインおよびオンラインチューニングの実践的なガイダンスを提供した。
また,CUSPARSE,CUB,CUFFTなどの最先端ライブラリとBPLGの性能を比較し,GPU組み込みシステムにおける並列計算パターンに関する既存の研究のギャップにも対処する。
関連論文リスト
- EPS-MoE: Expert Pipeline Scheduler for Cost-Efficient MoE Inference [49.94169109038806]
本稿では,新しいパイプラインスケジューラであるEPS-MoEを紹介する。
その結果,既存の並列推論手法に比べて,プリフィルスループットが平均21%向上していることが判明した。
論文 参考訳(メタデータ) (2024-10-16T05:17:49Z) - Performance Modeling and Workload Analysis of Distributed Large Language Model Training and Inference [2.2231908139555734]
本稿では,分散LLMトレーニングと推論の一般的な性能モデリング手法とワークロード解析を提案する。
文献や関連業界ベンダ(NVIDIAなど)の公開データによるパフォーマンス予測を検証する。
論文 参考訳(メタデータ) (2024-07-19T19:49:05Z) - Cheaply Evaluating Inference Efficiency Metrics for Autoregressive
Transformer APIs [66.30706841821123]
大規模言語モデル(LLM)は、自然言語処理において多くの最先端システムに電力を供給する。
LLMは、推論時でさえ非常に計算コストが高い。
モデル間での推論効率を比較するための新しい指標を提案する。
論文 参考訳(メタデータ) (2023-05-03T21:51:42Z) - Harnessing Deep Learning and HPC Kernels via High-Level Loop and Tensor Abstractions on CPU Architectures [67.47328776279204]
この研究は、効率的でポータブルなDeep LearningとHigh Performance Computingカーネルを開発するためのフレームワークを導入している。
1)プロセッシングプリミティブ(TPP)を用いた計算コアの表現と,2)高レベルな宣言的手法でTPPのまわりの論理ループの表現の2つのステップでカーネルの開発を分解する。
我々は、スタンドアロンカーネルと、さまざまなCPUプラットフォームにおける最先端実装よりも優れたエンドツーエンドワークロードを使用して、このアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-04-25T05:04:44Z) - ParaGraph: Weighted Graph Representation for Performance Optimization of
HPC Kernels [1.304892050913381]
抽象構文木を拡張した並列アプリケーションのためのグラフベースの新しいプログラム表現を提案する。
提案した表現は,OpenMPコード領域のランタイムを予測するために,グラフニューラルネットワーク(GNN)をトレーニングすることで評価する。
その結果,本手法は実効性があり,実行時予測では 0.004 から 0.01 に RMSE を正規化していることがわかった。
論文 参考訳(メタデータ) (2023-04-07T05:52:59Z) - Energy-efficient Task Adaptation for NLP Edge Inference Leveraging
Heterogeneous Memory Architectures [68.91874045918112]
Adapter-ALBERTは、様々なタスクにわたる最大データ再利用のための効率的なモデル最適化である。
検証されたNLPエッジアクセラレータ上でシミュレーションを行うことにより、モデルを不均一なオンチップメモリアーキテクチャにマッピングする利点を実証する。
論文 参考訳(メタデータ) (2023-03-25T14:40:59Z) - Performance Embeddings: A Similarity-based Approach to Automatic
Performance Optimization [71.69092462147292]
パフォーマンス埋め込みは、アプリケーション間でパフォーマンスチューニングの知識伝達を可能にする。
本研究では, 深層ニューラルネットワーク, 密度およびスパース線形代数合成, および数値風速予測ステンシルのケーススタディにおいて, この伝達チューニング手法を実証する。
論文 参考訳(メタデータ) (2023-03-14T15:51:35Z) - SOLIS -- The MLOps journey from data acquisition to actionable insights [62.997667081978825]
本稿では,基本的なクロスプラットフォームテンソルフレームワークとスクリプト言語エンジンを使用しながら,すべての要件をサポートする統合デプロイメントパイプラインとフリー・ツー・オペレートアプローチを提案する。
しかし、このアプローチは、実際のプロダクショングレードシステムに機械学習機能を実際にデプロイするために必要な手順やパイプラインを提供していない。
論文 参考訳(メタデータ) (2021-12-22T14:45:37Z) - Hierarchical Roofline Performance Analysis for Deep Learning
Applications [0.06999740786886534]
本稿では、NVIDIA GPU上で階層的なロホライン解析を行うために必要な性能データを収集する実用的な手法を提案する。
実験的なRoofline Toolkitの拡張について論じ、さまざまなデータ精度の幅広いサポートとコアサポートについて論じ、アプリケーションパフォーマンス情報を正確に収集するNsight Computeベースの方法を紹介した。
論文 参考訳(メタデータ) (2020-09-11T07:16:55Z) - Optimizing Streaming Parallelism on Heterogeneous Many-Core
Architectures: A Machine Learning Based Approach [16.702537371391053]
本稿では、異種多コアアーキテクチャ上のタスクベース並列アプリケーションにおいて、ハードウェアリソース分割とタスク粒度に関する優れたソリューションを導出する自動手法を提案する。
提案手法では,与えられたリソース分割とタスクの粒度設定に基づいて,対象アプリケーションの結果のパフォーマンスを推定するために,性能モデルを用いる。
シングルストリームバージョンと比較すると,XeonPhiとGPUプラットフォームでそれぞれ1.6倍,1.1倍の高速化を実現している。
論文 参考訳(メタデータ) (2020-03-05T21:18:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。