論文の概要: Towards making the most of NLP-based device mapping optimization for
OpenCL kernels
- arxiv url: http://arxiv.org/abs/2208.14124v1
- Date: Tue, 30 Aug 2022 10:20:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-31 13:37:03.555077
- Title: Towards making the most of NLP-based device mapping optimization for
OpenCL kernels
- Title(参考訳): OpenCLカーネルにおけるNLPに基づくデバイスマッピング最適化の活用に向けて
- Authors: Petros Vavaroutsos, Ioannis Oroutzoglou, Dimosthenis Masouros,
Dimitrios Soudris
- Abstract要約: 我々は、加速されたOpenCLカーネルのための最適なデバイス選択(CPUまたはGPU)の問題に取り組むCummins et al.、すなわちDeeptuneの開発を拡張した。
ソースコードの文脈情報を拡張した4つの異なるモデルを提案する。
実験の結果,提案手法はCumminsらの手法を上回り,予測精度を最大4%向上させることがわかった。
- 参考スコア(独自算出の注目度): 5.6596607119831575
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Nowadays, we are living in an era of extreme device heterogeneity. Despite
the high variety of conventional CPU architectures, accelerator devices, such
as GPUs and FPGAs, also appear in the foreground exploding the pool of
available solutions to execute applications. However, choosing the appropriate
device per application needs is an extremely challenging task due to the
abstract relationship between hardware and software. Automatic optimization
algorithms that are accurate are required to cope with the complexity and
variety of current hardware and software. Optimal execution has always relied
on time-consuming trial and error approaches. Machine learning (ML) and Natural
Language Processing (NLP) has flourished over the last decade with research
focusing on deep architectures. In this context, the use of natural language
processing techniques to source code in order to conduct autotuning tasks is an
emerging field of study. In this paper, we extend the work of Cummins et al.,
namely Deeptune, that tackles the problem of optimal device selection (CPU or
GPU) for accelerated OpenCL kernels. We identify three major limitations of
Deeptune and, based on these, we propose four different DNN models that provide
enhanced contextual information of source codes. Experimental results show that
our proposed methodology surpasses that of Cummins et al. work, providing up to
4\% improvement in prediction accuracy.
- Abstract(参考訳): 現在我々は、極端なデバイスの不均質な時代に生きている。
従来のCPUアーキテクチャの多様さにもかかわらず、GPUやFPGAのようなアクセラレータデバイスも、アプリケーションを実行するための利用可能なソリューションのプールを爆発させる前景に現れている。
しかし、アプリケーションごとに適切なデバイスを選択するのは、ハードウェアとソフトウェアの抽象的な関係のため、非常に難しい作業です。
精度の高い自動最適化アルゴリズムは、現在のハードウェアやソフトウェアの複雑さや多様性に対処するために必要である。
最適な実行は常に時間を要するトライアルとエラーアプローチに依存しています。
機械学習(ml)と自然言語処理(nlp)は、深層アーキテクチャに焦点を当てた研究によって、過去10年間にわたって繁栄してきた。
この文脈では、自動チューニングタスクを実行するために自然言語処理技術がソースコードに使われていることが研究の新たな分野である。
本稿では,OpenCLカーネルの高速化に最適なデバイス選択(CPUやGPU)の問題に対処する,Cummins et al.(Deeptune)の取り組みを拡張する。
我々は、Deeptuneの3つの大きな制限を特定し、これに基づいてソースコードの文脈情報を提供する4つの異なるDNNモデルを提案する。
実験の結果,提案手法はCumminsらの手法を上回り,予測精度を最大4倍に向上させることがわかった。
関連論文リスト
- HAPM -- Hardware Aware Pruning Method for CNN hardware accelerators in resource constrained devices [44.99833362998488]
本研究はFPGAデバイスに実装可能な汎用ハードウェアアーキテクチャを提案する。
設計の推論速度は、リソース制約の異なるFPGAデバイス上で評価される。
ハードウェア対応プルーニングアルゴリズムは,標準アルゴリズムを用いたネットワークプルーニングに比べて,推論時間45%の顕著な改善を実現していることを示す。
論文 参考訳(メタデータ) (2024-08-26T07:27:12Z) - Optimal Kernel Tuning Parameter Prediction using Deep Sequence Models [0.44998333629984877]
本稿では,深部列列列モデルを用いて,計算カーネルを管理する最適チューニングパラメータを予測する手法を提案する。
提案アルゴリズムは、AMD機械学習プリミティブライブラリであるMIOpenにおいて、様々な畳み込みカーネル上で90%以上の精度を達成することができる。
論文 参考訳(メタデータ) (2024-04-15T22:25:54Z) - INR-Arch: A Dataflow Architecture and Compiler for Arbitrary-Order
Gradient Computations in Implicit Neural Representation Processing [66.00729477511219]
計算グラフとして表される関数を考えると、従来のアーキテクチャはn階勾配を効率的に計算する上で困難に直面している。
InR-Archは,n階勾配の計算グラフをハードウェア最適化データフローアーキテクチャに変換するフレームワークである。
1.8-4.8x と 1.5-3.6x の高速化を CPU と GPU のベースラインと比較した結果を示す。
論文 参考訳(メタデータ) (2023-08-11T04:24:39Z) - Harnessing Deep Learning and HPC Kernels via High-Level Loop and Tensor Abstractions on CPU Architectures [67.47328776279204]
この研究は、効率的でポータブルなDeep LearningとHigh Performance Computingカーネルを開発するためのフレームワークを導入している。
1)プロセッシングプリミティブ(TPP)を用いた計算コアの表現と,2)高レベルな宣言的手法でTPPのまわりの論理ループの表現の2つのステップでカーネルの開発を分解する。
我々は、スタンドアロンカーネルと、さまざまなCPUプラットフォームにおける最先端実装よりも優れたエンドツーエンドワークロードを使用して、このアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-04-25T05:04:44Z) - Performance Optimization using Multimodal Modeling and Heterogeneous GNN [1.304892050913381]
本稿では,複数のタスクに適応可能な並列コード領域のチューニング手法を提案する。
本稿では、IRに基づくプログラミングモデルを分析し、タスク固有の性能最適化を行う。
実験の結果,このマルチモーダル学習に基づくアプローチは,すべての実験において最先端の手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-04-25T04:27:43Z) - FPGA-optimized Hardware acceleration for Spiking Neural Networks [69.49429223251178]
本研究は,画像認識タスクに適用したオフライントレーニングによるSNN用ハードウェアアクセラレータの開発について述べる。
この設計はXilinx Artix-7 FPGAをターゲットにしており、利用可能なハードウェアリソースの40%を合計で使用している。
分類時間を3桁に短縮し、ソフトウェアと比較すると精度にわずか4.5%の影響を与えている。
論文 参考訳(メタデータ) (2022-01-18T13:59:22Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z) - Kernel methods through the roof: handling billions of points efficiently [94.31450736250918]
カーネル法は、非パラメトリック学習に対するエレガントで原則化されたアプローチを提供するが、今のところ大規模な問題ではほとんど利用できない。
最近の進歩は、最適化、数値線形代数、ランダム射影など、多くのアルゴリズム的アイデアの利点を示している。
ここでは、これらの取り組みをさらに進めて、GPUハードウェアを最大限に活用する解決器を開発し、テストする。
論文 参考訳(メタデータ) (2020-06-18T08:16:25Z) - PolyDL: Polyhedral Optimizations for Creation of High Performance DL
primitives [55.79741270235602]
本稿では,Deep Learningプリミティブの高性能実装を自動的に生成するコンパイラアルゴリズムを提案する。
我々は多面体モデルを用いた新しいデータ再利用分析アルゴリズムを開発した。
また、このようなハイブリッドコンパイラとライブラリ使用の最小限のアプローチが、最先端のパフォーマンスをもたらすことを示す。
論文 参考訳(メタデータ) (2020-06-02T06:44:09Z) - Heterogeneous CPU+GPU Stochastic Gradient Descent Algorithms [1.3249453757295084]
ヘテロジニアスCPU+GPUアーキテクチャの深層学習のためのトレーニングアルゴリズムについて検討する。
私たちの2倍の目標 -- 収束率と資源利用を同時に最大化する -- は、この問題を難しくします。
これらのアルゴリズムの実装は,複数の実データセットよりも高速な収束と資源利用の両立を実現していることを示す。
論文 参考訳(メタデータ) (2020-04-19T05:21:20Z) - Towards High Performance Java-based Deep Learning Frameworks [0.22940141855172028]
現代のクラウドサービスは、高速で効率的なデータ処理の需要を定めている。
この需要は、ディープラーニング、データマイニング、コンピュータビジョンなど、多くのアプリケーション領域に共通している。
本稿では、JavaベースのディープラーニングフレームワークであるDeep Nettsを透過的に高速化する最先端のプログラミングフレームワークであるTornadoVMを採用しました。
論文 参考訳(メタデータ) (2020-01-13T13:03:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。