論文の概要: Generating GPU Compiler Heuristics using Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2111.12055v1
- Date: Tue, 23 Nov 2021 18:15:34 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-24 14:05:09.354436
- Title: Generating GPU Compiler Heuristics using Reinforcement Learning
- Title(参考訳): 強化学習を用いたgpuコンパイラヒューリスティック生成
- Authors: Ian Colbert, Jake Daly, Norm Rubin
- Abstract要約: 我々は,グラフィックスアプリケーションのフレームレートを改善するコンパイラを生成するために,外部の強化学習を利用するGPU自動チューニングフレームワークを開発した。
機械学習ベースのコンパイラ自動チューニングフレームワークは、グラフィックスベンチマークの98%のフレームレートと一致しているか、あるいは上回ったかを示し、平均的なアップリフトは1.6%から15.8%に向上した。
- 参考スコア(独自算出の注目度): 0.12891210250935145
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: GPU compilers are complex software programs with many optimizations specific
to target hardware. These optimizations are often controlled by heuristics
hand-designed by compiler experts using time- and resource-intensive processes.
In this paper, we developed a GPU compiler autotuning framework that uses
off-policy deep reinforcement learning to generate heuristics that improve the
frame rates of graphics applications. Furthermore, we demonstrate the
resilience of these learned heuristics to frequent compiler updates by
analyzing their stability across a year of code check-ins without retraining.
We show that our machine learning-based compiler autotuning framework matches
or surpasses the frame rates for 98% of graphics benchmarks with an average
uplift of 1.6% up to 15.8%.
- Abstract(参考訳): GPUコンパイラは複雑なソフトウェアプログラムであり、ターゲットハードウェアに特化した最適化が多数ある。
これらの最適化はしばしば、時間とリソース集約プロセスを使用してコンパイラの専門家が手作業で設計したヒューリスティックによって制御される。
本稿では,オフポリシック深層強化学習を用いて,グラフィックスアプリケーションのフレームレートを改善するヒューリスティックを生成するgpuコンパイラ自動チューニングフレームワークを開発した。
さらに,再トレーニングを行わずに1年間のコードチェックインの安定性を解析することにより,コンパイラ更新の頻繁化に対する学習ヒューリスティックのレジリエンスを実証する。
機械学習ベースのコンパイラの自動チューニングフレームワークは、グラフィックスベンチマークの98%のフレームレートと一致または超えており、平均で1.6%のアップリフトが15.8%となっている。
関連論文リスト
- LoopTune: Optimizing Tensor Computations with Reinforcement Learning [43.82827359317833]
LoopTuneは、CPUのディープラーニングモデルにおけるテンソル計算を最適化するコンパイラである。
グラフベースの新しい表現とアクション空間により、LoopTuneはLoopNestを3.2倍高速化し、TVMより桁違いに高速なコードを生成し、MetaScheduleより2.8倍速く、AutoTVMより1.08倍高速なコードを生成する。
論文 参考訳(メタデータ) (2023-09-04T21:30:15Z) - Harnessing Deep Learning and HPC Kernels via High-Level Loop and Tensor
Abstractions on CPU Architectures [101.36990944099105]
この研究は、効率的でポータブルなDeep LearningとHigh Performance Computingカーネルを開発するためのフレームワークを導入している。
1)プロセッシングプリミティブ(TPP)を用いた計算コアの表現と,2)高レベルな宣言的手法でTPPのまわりの論理ループの表現の2つのステップでカーネルの開発を分解する。
我々は、スタンドアロンカーネルと、さまざまなCPUプラットフォームにおける最先端実装よりも優れたエンドツーエンドワークロードを使用して、このアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-04-25T05:04:44Z) - GPU-accelerated SIFT-aided source identification of stabilized videos [63.084540168532065]
我々は、安定化フレームインバージョンフレームワークにおけるグラフィクス処理ユニット(GPU)の並列化機能を利用する。
我々はSIFT機能を活用することを提案する。
カメラのモーメントを推定し 1%の確率で 時間セグメントを識別します
実験により,提案手法の有効性を確認し,必要な計算時間を短縮し,情報源の同定精度を向上させる。
論文 参考訳(メタデータ) (2022-07-29T07:01:31Z) - TensorIR: An Abstraction for Automatic Tensorized Program Optimization [22.812702519665617]
本稿では,テンソル計算プリミティブでプログラムを最適化するコンパイラIRを提案する。
コンパイルの上にエンドツーエンドのフレームワークを構築し、与えられたテンソル計算プリミティブに対してディープラーニングモデルを自動的に最適化します。
論文 参考訳(メタデータ) (2022-07-09T16:28:57Z) - Profile Guided Optimization without Profiles: A Machine Learning
Approach [0.0]
プロファイルガイド最適化は動的挙動に基づくコンパイラの最適化能力を改善する効果的な手法である。
本稿では,プロファイルを導出せずにコンパイルされるプログラムの性能を向上させる分岐確率推定のための新しい統計的アプローチを提案する。
論文 参考訳(メタデータ) (2021-12-24T22:49:21Z) - Learning to Superoptimize Real-world Programs [79.4140991035247]
本稿では,ニューラルシークエンス・ツー・シーケンス・モデルを用いて,実世界のプログラムを最適化するフレームワークを提案する。
我々は、x86-64アセンブリでオープンソースプロジェクトから抽出された25万以上の実世界の関数からなるデータセットであるBig Assemblyベンチマークを紹介した。
論文 参考訳(メタデータ) (2021-09-28T05:33:21Z) - Enabling Retargetable Optimizing Compilers for Quantum Accelerators via
a Multi-Level Intermediate Representation [78.8942067357231]
我々は、最適化され、再ターゲット可能で、事前コンパイルが可能なマルチレベル量子古典中間表現(IR)を提案する。
ゲートベースのOpenQASM 3言語全体をサポートし、共通量子プログラミングパターンのカスタム拡張と構文の改善を提供します。
私たちの研究は、通常のPythonのアプローチよりも1000倍高速で、スタンドアロンの量子言語コンパイラよりも5~10倍高速なコンパイル時間を実現しています。
論文 参考訳(メタデータ) (2021-09-01T17:29:47Z) - Systolic Computing on GPUs for Productive Performance [2.8064596842326575]
我々は,GPU上で動作する高性能なシストリックアレイを生産的に構築する言語とコンパイラを提案する。
プログラマは、データフローのプロジェクションを線形シストリック配列に指定し、プロジェクションの詳細な実装はコンパイラに任せる。
コンパイラは指定されたプロジェクションを実装し、リニアシストリックアレイをGPUのSIMD実行ユニットとベクトルレジスタにマッピングする。
論文 参考訳(メタデータ) (2020-10-29T18:49:54Z) - A Learned Performance Model for Tensor Processing Units [5.733911161090224]
本稿では,処理ユニット(TPU)インスタンス用のグラフプログラムのコーパスから,パフォーマンスモデルを学習する方法を示す。
学習したモデルでは,2つのタスクにおいて,高度に最適化された分析性能モデルよりも優れていることを示す。
オートチューニングは、TPUへのアクセスが制限されたり、高価な設定で、より高速なプログラムを見つけるのに役立つ。
論文 参考訳(メタデータ) (2020-08-03T17:24:52Z) - Kernel methods through the roof: handling billions of points efficiently [94.31450736250918]
カーネル法は、非パラメトリック学習に対するエレガントで原則化されたアプローチを提供するが、今のところ大規模な問題ではほとんど利用できない。
最近の進歩は、最適化、数値線形代数、ランダム射影など、多くのアルゴリズム的アイデアの利点を示している。
ここでは、これらの取り組みをさらに進めて、GPUハードウェアを最大限に活用する解決器を開発し、テストする。
論文 参考訳(メタデータ) (2020-06-18T08:16:25Z) - PolyDL: Polyhedral Optimizations for Creation of High Performance DL
primitives [55.79741270235602]
本稿では,Deep Learningプリミティブの高性能実装を自動的に生成するコンパイラアルゴリズムを提案する。
我々は多面体モデルを用いた新しいデータ再利用分析アルゴリズムを開発した。
また、このようなハイブリッドコンパイラとライブラリ使用の最小限のアプローチが、最先端のパフォーマンスをもたらすことを示す。
論文 参考訳(メタデータ) (2020-06-02T06:44:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。