Fugu-MT 論文翻訳(概要): Machine Learning-Driven Adaptive OpenMP For Portable Performance on Heterogeneous Systems

論文の概要: Machine Learning-Driven Adaptive OpenMP For Portable Performance on Heterogeneous Systems

arxiv url: http://arxiv.org/abs/2303.08873v1
Date: Wed, 15 Mar 2023 18:37:18 GMT
ステータス: 翻訳完了
システム内更新日: 2023-03-17 18:17:32.045344
Title: Machine Learning-Driven Adaptive OpenMP For Portable Performance on Heterogeneous Systems
Title（参考訳）: 不均一システムにおける可搬性向上のための機械学習駆動型適応OpenMP
Authors: Giorgis Georgakoudis, Konstantinos Parasyris, Chunhua Liao, David Beckingsale, Todd Gamblin, Bronis de Supinski
Abstract要約: プログラムを新しい異種プラットフォームに適応させるのは面倒で、開発者は手動で実行パラメータの広大なスペースを探索する必要がある。本稿では,機械学習による自律的適応のためのOpenMPの拡張を提案する。私たちのソリューションには、新しい言語構成、コンパイラ変換、ランタイムサポートのセットが含まれています。
参考スコア（独自算出の注目度）: 1.885335997132172
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Heterogeneity has become a mainstream architecture design choice for building High Performance Computing systems. However, heterogeneity poses significant challenges for achieving performance portability of execution. Adapting a program to a new heterogeneous platform is laborious and requires developers to manually explore a vast space of execution parameters. To address those challenges, this paper proposes new extensions to OpenMP for autonomous, machine learning-driven adaptation. Our solution includes a set of novel language constructs, compiler transformations, and runtime support. We propose a producer-consumer pattern to flexibly define multiple, different variants of OpenMP code regions to enable adaptation. Those regions are transparently profiled at runtime to autonomously learn optimizing machine learning models that dynamically select the fastest variant. Our approach significantly reduces users' efforts of programming adaptive applications on heterogeneous architectures by leveraging machine learning techniques and code generation capabilities of OpenMP compilation. Using a complete reference implementation in Clang/LLVM we evaluate three use-cases of adaptive CPU-GPU execution. Experiments with HPC proxy applications and benchmarks demonstrate that the proposed adaptive OpenMP extensions automatically choose the best performing code variants for various adaptation possibilities, in several different heterogeneous platforms of CPUs and GPUs.
Abstract（参考訳）: ハイパフォーマンスコンピューティングシステムを構築する上で、異種性は主要なアーキテクチャ設計の選択肢となっている。しかし、異質性は実行時のパフォーマンスのポータビリティを実現する上で大きな課題となる。プログラムを新しい異種プラットフォームに適応させるのは面倒で、開発者は手動で実行パラメータの広大なスペースを探索する必要がある。これらの課題に対処するために,機械学習による自律的適応のためのOpenMPの新たな拡張を提案する。私たちのソリューションには、新しい言語構成、コンパイラ変換、ランタイムサポートのセットが含まれています。本稿では,OpenMPコード領域の複数の異なる変種を柔軟に定義し,適応を可能にするプロデューサ・コンシューマ・パターンを提案する。これらのリージョンは実行時に透過的にプロファイルされ、最も高速なバリエーションを動的に選択する機械学習モデルの最適化を自律的に学習する。提案手法は,OpenMPコンパイルの機械学習技術とコード生成機能を活用することで,異種アーキテクチャ上での適応アプリケーションをプログラムするユーザの労力を大幅に削減する。 Clang/LLVMの完全なリファレンス実装を使用して、適応CPU-GPU実行の3つのユースケースを評価する。 HPCプロキシアプリケーションとベンチマークによる実験により、提案された適応OpenMP拡張は、CPUとGPUの様々な異種プラットフォームにおいて、様々な適応可能性のための最適なコード変種を自動的に選択することを示した。

関連論文リスト

High-Performance Parallel Optimization of the Fish School Behaviour on the Setonix Platform Using OpenMP [1.1533029170925908]
本稿では,Setonix Supercomputing Platform上でのFish School Behaviour (FSB)アルゴリズムの並列最適化について詳細に検討する。 FSBアルゴリズムは自然の社会的行動パターンにインスパイアされ、反復的で計算集約的な性質のために並列化のための理想的なプラットフォームを提供する。
論文参考訳（メタデータ） (2025-07-27T08:25:08Z)
EPS-MoE: Expert Pipeline Scheduler for Cost-Efficient MoE Inference [49.94169109038806]
本稿では,新しいパイプラインスケジューラであるEPS-MoEを紹介する。その結果,既存の並列推論手法に比べて,プリフィルスループットが平均21%向上していることが判明した。
論文参考訳（メタデータ） (2024-10-16T05:17:49Z)
A Method for Efficient Heterogeneous Parallel Compilation: A Cryptography Case Study [8.06660833012594]
本稿では,多様なハードウェアアーキテクチャにまたがるデータ管理と並列計算を最適化するために,ハイパーという新しいMLIRベースの方言を提案する。 HETOCompilerは,複数のハッシュアルゴリズムを実装し,不均一なシステム上での実行を可能にする,暗号に着目したコンパイラのプロトタイプである。
論文参考訳（メタデータ） (2024-07-12T15:12:51Z)
PolyTOPS: Reconfigurable and Flexible Polyhedral Scheduler [1.6673953344957533]
本稿では,多面体スケジューラであるPolyTOPSを導入する。 PolyTOPSはIllとCLooGをコードジェネレータとして使用しており、MindSporeのディープラーニングコンパイラに統合されている。
論文参考訳（メタデータ） (2024-01-12T16:11:27Z)
Extreme Compression of Large Language Models via Additive Quantization [59.3122859349777]
我々のアルゴリズムは、AQLMと呼ばれ、情報検索のための古典的な加算量子化(AQ)アプローチを一般化する。トークン生成のためのAQLMの高速GPUおよびCPU実装を提供しており、最適化されたFP16実装を高速にマッチングまたは性能良くすることができる。
論文参考訳（メタデータ） (2024-01-11T18:54:44Z)
Harnessing Deep Learning and HPC Kernels via High-Level Loop and Tensor Abstractions on CPU Architectures [67.47328776279204]
この研究は、効率的でポータブルなDeep LearningとHigh Performance Computingカーネルを開発するためのフレームワークを導入している。 1)プロセッシングプリミティブ(TPP)を用いた計算コアの表現と,2)高レベルな宣言的手法でTPPのまわりの論理ループの表現の2つのステップでカーネルの開発を分解する。我々は、スタンドアロンカーネルと、さまざまなCPUプラットフォームにおける最先端実装よりも優れたエンドツーエンドワークロードを使用して、このアプローチの有効性を実証する。
論文参考訳（メタデータ） (2023-04-25T05:04:44Z)
Performance Optimization using Multimodal Modeling and Heterogeneous GNN [1.304892050913381]
本稿では,複数のタスクに適応可能な並列コード領域のチューニング手法を提案する。本稿では、IRに基づくプログラミングモデルを分析し、タスク固有の性能最適化を行う。実験の結果,このマルチモーダル学習に基づくアプローチは,すべての実験において最先端の手法よりも優れていることがわかった。
論文参考訳（メタデータ） (2023-04-25T04:27:43Z)
ParaGraph: Weighted Graph Representation for Performance Optimization of HPC Kernels [1.304892050913381]
抽象構文木を拡張した並列アプリケーションのためのグラフベースの新しいプログラム表現を提案する。提案した表現は,OpenMPコード領域のランタイムを予測するために,グラフニューラルネットワーク(GNN)をトレーニングすることで評価する。その結果,本手法は実効性があり,実行時予測では 0.004 から 0.01 に RMSE を正規化していることがわかった。
論文参考訳（メタデータ） (2023-04-07T05:52:59Z)
Energy-efficient Task Adaptation for NLP Edge Inference Leveraging Heterogeneous Memory Architectures [68.91874045918112]
Adapter-ALBERTは、様々なタスクにわたる最大データ再利用のための効率的なモデル最適化である。検証されたNLPエッジアクセラレータ上でシミュレーションを行うことにより、モデルを不均一なオンチップメモリアーキテクチャにマッピングする利点を実証する。
論文参考訳（メタデータ） (2023-03-25T14:40:59Z)
Towards making the most of NLP-based device mapping optimization for OpenCL kernels [5.6596607119831575]
我々は、加速されたOpenCLカーネルのための最適なデバイス選択(CPUまたはGPU)の問題に取り組むCummins et al.、すなわちDeeptuneの開発を拡張した。ソースコードの文脈情報を拡張した4つの異なるモデルを提案する。実験の結果,提案手法はCumminsらの手法を上回り,予測精度を最大4%向上させることがわかった。
論文参考訳（メタデータ） (2022-08-30T10:20:55Z)
Learning to Superoptimize Real-world Programs [79.4140991035247]
本稿では,ニューラルシークエンス・ツー・シーケンス・モデルを用いて,実世界のプログラムを最適化するフレームワークを提案する。我々は、x86-64アセンブリでオープンソースプロジェクトから抽出された25万以上の実世界の関数からなるデータセットであるBig Assemblyベンチマークを紹介した。
論文参考訳（メタデータ） (2021-09-28T05:33:21Z)
Enabling Retargetable Optimizing Compilers for Quantum Accelerators via a Multi-Level Intermediate Representation [78.8942067357231]
我々は、最適化され、再ターゲット可能で、事前コンパイルが可能なマルチレベル量子古典中間表現(IR)を提案する。ゲートベースのOpenQASM 3言語全体をサポートし、共通量子プログラミングパターンのカスタム拡張と構文の改善を提供します。私たちの研究は、通常のPythonのアプローチよりも1000倍高速で、スタンドアロンの量子言語コンパイラよりも5～10倍高速なコンパイル時間を実現しています。
論文参考訳（メタデータ） (2021-09-01T17:29:47Z)
A Reinforcement Learning Environment for Polyhedral Optimizations [68.8204255655161]
マルコフ決定過程(MDP)として多面体モデルにおける法的変換空間の形状に依存しない定式化を提案する。変換を使う代わりに、定式化は可能なスケジュールの抽象空間に基づいている。我々の総合的MDP定式化は、強化学習を用いて幅広いループで最適化ポリシーを学習することを可能にする。
論文参考訳（メタデータ） (2021-04-28T12:41:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。