論文の概要: Performance Optimization using Multimodal Modeling and Heterogeneous GNN
- arxiv url: http://arxiv.org/abs/2304.12568v2
- Date: Thu, 27 Apr 2023 15:34:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-28 16:01:35.647861
- Title: Performance Optimization using Multimodal Modeling and Heterogeneous GNN
- Title(参考訳): マルチモーダルモデリングと異種GNNを用いた性能最適化
- Authors: Akash Dutta, Jordi Alcaraz, Ali TehraniJamsaz, Eduardo Cesar, Anna
Sikora, Ali Jannesari
- Abstract要約: 本稿では,複数のタスクに適応可能な並列コード領域のチューニング手法を提案する。
本稿では、IRに基づくプログラミングモデルを分析し、タスク固有の性能最適化を行う。
実験の結果,このマルチモーダル学習に基づくアプローチは,すべての実験において最先端の手法よりも優れていることがわかった。
- 参考スコア(独自算出の注目度): 1.304892050913381
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Growing heterogeneity and configurability in HPC architectures has made
auto-tuning applications and runtime parameters on these systems very complex.
Users are presented with a multitude of options to configure parameters. In
addition to application specific solutions, a common approach is to use general
purpose search strategies, which often might not identify the best
configurations or their time to convergence is a significant barrier. There is,
thus, a need for a general purpose and efficient tuning approach that can be
easily scaled and adapted to various tuning tasks. We propose a technique for
tuning parallel code regions that is general enough to be adapted to multiple
tasks. In this paper, we analyze IR-based programming models to make
task-specific performance optimizations. To this end, we propose the Multimodal
Graph Neural Network and Autoencoder (MGA) tuner, a multimodal deep learning
based approach that adapts Heterogeneous Graph Neural Networks and Denoizing
Autoencoders for modeling IR-based code representations that serve as separate
modalities. This approach is used as part of our pipeline to model a syntax,
semantics, and structure-aware IR-based code representation for tuning parallel
code regions/kernels. We extensively experiment on OpenMP and OpenCL code
regions/kernels obtained from PolyBench, Rodinia, STREAM, DataRaceBench, AMD
SDK, NPB, NVIDIA SDK, Parboil, SHOC, and LULESH benchmarks. We apply our
multimodal learning techniques to the tasks of i) optimizing the number of
threads, scheduling policy and chunk size in OpenMP loops and, ii) identifying
the best device for heterogeneous device mapping of OpenCL kernels. Our
experiments show that this multimodal learning based approach outperforms the
state-of-the-art in all experiments.
- Abstract(参考訳): HPCアーキテクチャにおける不均一性と構成性の向上は、これらのシステムにおける自動チューニングアプリケーションとランタイムパラメータを非常に複雑にしている。
ユーザはパラメータを設定するためのオプションを多数提示する。
アプリケーション固有のソリューションに加えて、汎用的な検索戦略を使用することも一般的なアプローチであり、最良の構成や収束までの時間を特定することが大きな障壁となることが多い。
したがって、様々なチューニングタスクに容易にスケールして適応できる汎用的で効率的なチューニングアプローチが必要となる。
本稿では,複数のタスクに適応できるほど汎用的な並列コード領域のチューニング手法を提案する。
本稿では、IRに基づくプログラミングモデルを分析し、タスク固有の性能最適化を行う。
この目的のために,多モードグラフニューラルネットワークとオートエンコーダ(MGA)チューナを提案する。これは,異種グラフニューラルネットワークに適応したマルチモーダル深層学習に基づくアプローチであり,別個のモダリティとして機能するIRベースのコード表現をモデル化するための自動エンコーダをデノライズする。
このアプローチは、並列コード領域/カーネルをチューニングするための構文、セマンティクス、構造対応irベースのコード表現をモデル化するパイプラインの一部として使用します。
我々はPolyBench, Rodinia, STREAM, DataRaceBench, AMD SDK, NPB, NVIDIA SDK, Parboil, SHOC, LULESHベンチマークから得られたOpenMPおよびOpenCLコード領域/カーネルを広範囲に実験した。
タスクにマルチモーダル学習技術を適用する。
i)openmpループにおけるスレッド数、スケジューリングポリシー、チャンクサイズを最適化すること。
ii)openclカーネルの異種デバイスマッピングのための最善のデバイスを特定すること。
実験の結果,このマルチモーダル学習に基づくアプローチは,すべての実験で最先端技術を上回ることがわかった。
関連論文リスト
- EPS-MoE: Expert Pipeline Scheduler for Cost-Efficient MoE Inference [49.94169109038806]
本稿では,新しいパイプラインスケジューラであるEPS-MoEを紹介する。
その結果,既存の並列推論手法に比べて,プリフィルスループットが平均21%向上していることが判明した。
論文 参考訳(メタデータ) (2024-10-16T05:17:49Z) - Real-Time Image Segmentation via Hybrid Convolutional-Transformer Architecture Search [49.81353382211113]
マルチヘッド自己認識を高分解能表現CNNに効率的に組み込むという課題に対処する。
本稿では,高解像度機能の利点をフル活用したマルチターゲットマルチブランチ・スーパーネット手法を提案する。
本稿では,Hybrid Convolutional-Transformer Architecture Search (HyCTAS)法を用いて,軽量畳み込み層とメモリ効率のよい自己保持層を最適に組み合わせたモデルを提案する。
論文 参考訳(メタデータ) (2024-03-15T15:47:54Z) - Stochastic Configuration Machines: FPGA Implementation [4.57421617811378]
コンフィグレーションネットワーク(SCN)は、データモデリングのメリットと実現可能性から、産業アプリケーションにおいて主要な選択肢である。
本稿では、フィールドプログラマブルゲートアレイ(FPGA)にSCMモデルを実装し、学習性能を向上させるためにバイナリコード入力を導入することを目的とする。
論文 参考訳(メタデータ) (2023-10-30T02:04:20Z) - ParaGraph: Weighted Graph Representation for Performance Optimization of
HPC Kernels [1.304892050913381]
抽象構文木を拡張した並列アプリケーションのためのグラフベースの新しいプログラム表現を提案する。
提案した表現は,OpenMPコード領域のランタイムを予測するために,グラフニューラルネットワーク(GNN)をトレーニングすることで評価する。
その結果,本手法は実効性があり,実行時予測では 0.004 から 0.01 に RMSE を正規化していることがわかった。
論文 参考訳(メタデータ) (2023-04-07T05:52:59Z) - Energy-efficient Task Adaptation for NLP Edge Inference Leveraging
Heterogeneous Memory Architectures [68.91874045918112]
Adapter-ALBERTは、様々なタスクにわたる最大データ再利用のための効率的なモデル最適化である。
検証されたNLPエッジアクセラレータ上でシミュレーションを行うことにより、モデルを不均一なオンチップメモリアーキテクチャにマッピングする利点を実証する。
論文 参考訳(メタデータ) (2023-03-25T14:40:59Z) - Machine Learning-Driven Adaptive OpenMP For Portable Performance on
Heterogeneous Systems [1.885335997132172]
プログラムを新しい異種プラットフォームに適応させるのは面倒で、開発者は手動で実行パラメータの広大なスペースを探索する必要がある。
本稿では,機械学習による自律的適応のためのOpenMPの拡張を提案する。
私たちのソリューションには、新しい言語構成、コンパイラ変換、ランタイムサポートのセットが含まれています。
論文 参考訳(メタデータ) (2023-03-15T18:37:18Z) - Towards making the most of NLP-based device mapping optimization for
OpenCL kernels [5.6596607119831575]
我々は、加速されたOpenCLカーネルのための最適なデバイス選択(CPUまたはGPU)の問題に取り組むCummins et al.、すなわちDeeptuneの開発を拡張した。
ソースコードの文脈情報を拡張した4つの異なるモデルを提案する。
実験の結果,提案手法はCumminsらの手法を上回り,予測精度を最大4%向上させることがわかった。
論文 参考訳(メタデータ) (2022-08-30T10:20:55Z) - Neighbor Correspondence Matching for Flow-based Video Frame Synthesis [90.14161060260012]
フローベースフレーム合成のための近傍対応マッチング(NCM)アルゴリズムを提案する。
NCMは現在のフレームに依存しない方法で実行され、各ピクセルの時空間近傍でマルチスケールの対応を確立する。
粗いスケールのモジュールは、近隣の対応を利用して大きな動きを捉えるように設計されている。
論文 参考訳(メタデータ) (2022-07-14T09:17:00Z) - Local Sample-weighted Multiple Kernel Clustering with Consensus
Discriminative Graph [73.68184322526338]
マルチカーネルクラスタリング(MKC)は、ベースカーネルの集合から最適な情報融合を実現するためにコミットされる。
本稿では,新しい局所サンプル重み付きマルチカーネルクラスタリングモデルを提案する。
実験により, LSWMKCはより優れた局所多様体表現を有し, 既存のカーネルやグラフベースのクラスタリングアルゴリズムよりも優れていた。
論文 参考訳(メタデータ) (2022-07-05T05:00:38Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z) - A Framework for Interdomain and Multioutput Gaussian Processes [22.62911488724047]
GPにおける拡張的近似推論のための数学的およびソフトウェアフレームワークを提案する。
GPflowで実装された当社のフレームワークは,既存のマルチアウトプットモデルに統一されたインターフェースを提供する。
論文 参考訳(メタデータ) (2020-03-02T16:24:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。