論文の概要: Generating GPU Compiler Heuristics using Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2111.12055v1
- Date: Tue, 23 Nov 2021 18:15:34 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-24 14:05:09.354436
- Title: Generating GPU Compiler Heuristics using Reinforcement Learning
- Title(参考訳): 強化学習を用いたgpuコンパイラヒューリスティック生成
- Authors: Ian Colbert, Jake Daly, Norm Rubin
- Abstract要約: 我々は,グラフィックスアプリケーションのフレームレートを改善するコンパイラを生成するために,外部の強化学習を利用するGPU自動チューニングフレームワークを開発した。
機械学習ベースのコンパイラ自動チューニングフレームワークは、グラフィックスベンチマークの98%のフレームレートと一致しているか、あるいは上回ったかを示し、平均的なアップリフトは1.6%から15.8%に向上した。
- 参考スコア(独自算出の注目度): 0.12891210250935145
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: GPU compilers are complex software programs with many optimizations specific
to target hardware. These optimizations are often controlled by heuristics
hand-designed by compiler experts using time- and resource-intensive processes.
In this paper, we developed a GPU compiler autotuning framework that uses
off-policy deep reinforcement learning to generate heuristics that improve the
frame rates of graphics applications. Furthermore, we demonstrate the
resilience of these learned heuristics to frequent compiler updates by
analyzing their stability across a year of code check-ins without retraining.
We show that our machine learning-based compiler autotuning framework matches
or surpasses the frame rates for 98% of graphics benchmarks with an average
uplift of 1.6% up to 15.8%.
- Abstract(参考訳): GPUコンパイラは複雑なソフトウェアプログラムであり、ターゲットハードウェアに特化した最適化が多数ある。
これらの最適化はしばしば、時間とリソース集約プロセスを使用してコンパイラの専門家が手作業で設計したヒューリスティックによって制御される。
本稿では,オフポリシック深層強化学習を用いて,グラフィックスアプリケーションのフレームレートを改善するヒューリスティックを生成するgpuコンパイラ自動チューニングフレームワークを開発した。
さらに,再トレーニングを行わずに1年間のコードチェックインの安定性を解析することにより,コンパイラ更新の頻繁化に対する学習ヒューリスティックのレジリエンスを実証する。
機械学習ベースのコンパイラの自動チューニングフレームワークは、グラフィックスベンチマークの98%のフレームレートと一致または超えており、平均で1.6%のアップリフトが15.8%となっている。
関連論文リスト
- CompilerDream: Learning a Compiler World Model for General Code Optimization [58.87557583347996]
汎用コード最適化のためのモデルベース強化学習手法であるCompilerDreamを紹介する。
最適化パスの固有の特性を正確にシミュレートするコンパイラの世界モデルと、このモデルで訓練されたエージェントから、効率的な最適化戦略を生成する。
さまざまなデータセットを網羅し、LLVMのビルトイン最適化や、値予測とエンドツーエンドコード最適化の両方の設定における最先端メソッドを超越している。
論文 参考訳(メタデータ) (2024-04-24T09:20:33Z) - SIP: Autotuning GPU Native Schedules via Stochastic Instruction Perturbation [0.0]
大型言語モデル(LLM)はその出現以来、重要なワークロードとなっている。
また、数十億のパラメータを持ち、大量のデータで訓練されているため、計算コストも高い。
近年、LLMのトレーニングと推論のための専用カーネルが開発されているため、ハードウェアリソースは可能な限り十分に活用されている。
論文 参考訳(メタデータ) (2024-03-25T15:26:50Z) - LoopTune: Optimizing Tensor Computations with Reinforcement Learning [43.82827359317833]
LoopTuneは、CPUのディープラーニングモデルにおけるテンソル計算を最適化するコンパイラである。
グラフベースの新しい表現とアクション空間により、LoopTuneはLoopNestを3.2倍高速化し、TVMより桁違いに高速なコードを生成し、MetaScheduleより2.8倍速く、AutoTVMより1.08倍高速なコードを生成する。
論文 参考訳(メタデータ) (2023-09-04T21:30:15Z) - Harnessing Deep Learning and HPC Kernels via High-Level Loop and Tensor Abstractions on CPU Architectures [67.47328776279204]
この研究は、効率的でポータブルなDeep LearningとHigh Performance Computingカーネルを開発するためのフレームワークを導入している。
1)プロセッシングプリミティブ(TPP)を用いた計算コアの表現と,2)高レベルな宣言的手法でTPPのまわりの論理ループの表現の2つのステップでカーネルの開発を分解する。
我々は、スタンドアロンカーネルと、さまざまなCPUプラットフォームにおける最先端実装よりも優れたエンドツーエンドワークロードを使用して、このアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-04-25T05:04:44Z) - Learning Performance-Improving Code Edits [107.21538852090208]
本稿では,大規模言語モデル(LLM)を高レベルプログラム最適化に適用するためのフレームワークを提案する。
まず、競争力のある77,000以上のC++プログラミングサブミッションペアによる、人間のプログラマによるパフォーマンス改善編集のデータセットをキュレートする。
提案手法は,検索をベースとした少数ショットプロンプトとチェーン・オブ・シンクレットを提案し,その微調整には,自己再生に基づく性能条件付き生成と合成データ拡張が含まれる。
論文 参考訳(メタデータ) (2023-02-15T18:59:21Z) - TensorIR: An Abstraction for Automatic Tensorized Program Optimization [22.812702519665617]
本稿では,テンソル計算プリミティブでプログラムを最適化するコンパイラIRを提案する。
コンパイルの上にエンドツーエンドのフレームワークを構築し、与えられたテンソル計算プリミティブに対してディープラーニングモデルを自動的に最適化します。
論文 参考訳(メタデータ) (2022-07-09T16:28:57Z) - Learning to Superoptimize Real-world Programs [79.4140991035247]
本稿では,ニューラルシークエンス・ツー・シーケンス・モデルを用いて,実世界のプログラムを最適化するフレームワークを提案する。
我々は、x86-64アセンブリでオープンソースプロジェクトから抽出された25万以上の実世界の関数からなるデータセットであるBig Assemblyベンチマークを紹介した。
論文 参考訳(メタデータ) (2021-09-28T05:33:21Z) - Systolic Computing on GPUs for Productive Performance [2.8064596842326575]
我々は,GPU上で動作する高性能なシストリックアレイを生産的に構築する言語とコンパイラを提案する。
プログラマは、データフローのプロジェクションを線形シストリック配列に指定し、プロジェクションの詳細な実装はコンパイラに任せる。
コンパイラは指定されたプロジェクションを実装し、リニアシストリックアレイをGPUのSIMD実行ユニットとベクトルレジスタにマッピングする。
論文 参考訳(メタデータ) (2020-10-29T18:49:54Z) - A Learned Performance Model for Tensor Processing Units [5.733911161090224]
本稿では,処理ユニット(TPU)インスタンス用のグラフプログラムのコーパスから,パフォーマンスモデルを学習する方法を示す。
学習したモデルでは,2つのタスクにおいて,高度に最適化された分析性能モデルよりも優れていることを示す。
オートチューニングは、TPUへのアクセスが制限されたり、高価な設定で、より高速なプログラムを見つけるのに役立つ。
論文 参考訳(メタデータ) (2020-08-03T17:24:52Z) - Kernel methods through the roof: handling billions of points efficiently [94.31450736250918]
カーネル法は、非パラメトリック学習に対するエレガントで原則化されたアプローチを提供するが、今のところ大規模な問題ではほとんど利用できない。
最近の進歩は、最適化、数値線形代数、ランダム射影など、多くのアルゴリズム的アイデアの利点を示している。
ここでは、これらの取り組みをさらに進めて、GPUハードウェアを最大限に活用する解決器を開発し、テストする。
論文 参考訳(メタデータ) (2020-06-18T08:16:25Z) - PolyDL: Polyhedral Optimizations for Creation of High Performance DL
primitives [55.79741270235602]
本稿では,Deep Learningプリミティブの高性能実装を自動的に生成するコンパイラアルゴリズムを提案する。
我々は多面体モデルを用いた新しいデータ再利用分析アルゴリズムを開発した。
また、このようなハイブリッドコンパイラとライブラリ使用の最小限のアプローチが、最先端のパフォーマンスをもたらすことを示す。
論文 参考訳(メタデータ) (2020-06-02T06:44:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。