論文の概要: CuAsmRL: Optimizing GPU SASS Schedules via Deep Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2501.08071v1
- Date: Tue, 14 Jan 2025 12:36:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-15 13:28:16.797285
- Title: CuAsmRL: Optimizing GPU SASS Schedules via Deep Reinforcement Learning
- Title(参考訳): CuAsmRL: 深層強化学習によるGPU SASSスケジューリングの最適化
- Authors: Guoliang He, Eiko Yoneki,
- Abstract要約: 本研究では,GPU SASSスケジュールの最適化に自動アプローチを採用する。
自動最適化の鍵となるのは、RLエージェントを訓練して、人間の専門家がどのように手動でスケジューリングを行うかを模倣することだ。
実験の結果、CuAsmRLは既存のカーネルのパフォーマンスをさらに26%以上向上し、平均で9%以上向上できることがわかった。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Large language models (LLMs) are remarked by their substantial computational requirements. To mitigate the cost, researchers develop specialized CUDA kernels, which often fuse several tensor operations to maximize the utilization of GPUs as much as possible. However, those specialized kernels may still leave performance on the table as CUDA assembly experts show that manual optimization of GPU SASS schedules can lead to better performance, and trial-and-error is largely employed to manually find the best GPU SASS schedules. In this work, we employ an automatic approach to optimize GPU SASS schedules, which thus can be integrated into existing compiler frameworks. The key to automatic optimization is training an RL agent to mimic how human experts perform manual scheduling. To this end, we formulate an assembly game, where RL agents can play to find the best GPU SASS schedules. The assembly game starts from a \textit{-O3} optimized SASS schedule, and the RL agents can iteratively apply actions to mutate the current schedules. Positive rewards are generated if the mutated schedules get higher throughput by executing on GPUs. Experiments show that CuAsmRL can further improve the performance of existing specialized CUDA kernels transparently by up to $26\%$, and on average $9\%$. Moreover, it is used as a tool to reveal potential optimization moves learned automatically.
- Abstract(参考訳): 大規模言語モデル(LLM)は、その相当な計算要求によって言及される。
コストを軽減するため、研究者は特別なCUDAカーネルを開発し、GPUの利用を可能な限り最大限にするために、いくつかのテンソル操作を融合させることが多い。
しかし、CUDAアセンブリの専門家は、GPU SASSスケジュールを手動で最適化することでパフォーマンスが向上し、トライ・アンド・エラーは、最も優れたGPU SASSスケジュールを手動で見つけるために主に使用されていることを示しています。
本研究では,GPU SASSスケジュールの最適化に自動アプローチを採用し,既存のコンパイラフレームワークに統合する。
自動最適化の鍵となるのは、RLエージェントを訓練して、人間の専門家がどのように手動でスケジューリングを行うかを模倣することだ。
この目的のために、RLエージェントが最高のGPU SASSスケジュールを見つけるためにプレイできるアセンブリゲームを定式化する。
アセンブリゲームは \textit{-O3} 最適化された SASS スケジュールから始まり、RL エージェントはアクションを反復的に適用して現在のスケジュールを変更できる。
変更スケジュールがGPU上で実行することでスループットが向上すれば、肯定的な報酬が生成される。
実験の結果、CuAsmRLは既存の特殊CUDAカーネルの性能を最大26\%$、平均9\%$で透過的に改善できることがわかった。
さらに、自動で学習した潜在的な最適化の動きを明らかにするツールとしても使用されている。
関連論文リスト
- 3DGS-LM: Faster Gaussian-Splatting Optimization with Levenberg-Marquardt [65.25603275491544]
3DGS-LM, 3D Gaussian Splatting(3DGS)の再構築を高速化する新しい手法を提案する。
提案手法は元の3DGSよりも30%高速で, 再現品質の最適化が可能である。
論文 参考訳(メタデータ) (2024-09-19T16:31:44Z) - SIP: Autotuning GPU Native Schedules via Stochastic Instruction Perturbation [0.0]
大型言語モデル(LLM)はその出現以来、重要なワークロードとなっている。
また、数十億のパラメータを持ち、大量のデータで訓練されているため、計算コストも高い。
近年、LLMのトレーニングと推論のための専用カーネルが開発されているため、ハードウェアリソースは可能な限り十分に活用されている。
論文 参考訳(メタデータ) (2024-03-25T15:26:50Z) - Harnessing Deep Learning and HPC Kernels via High-Level Loop and Tensor Abstractions on CPU Architectures [67.47328776279204]
この研究は、効率的でポータブルなDeep LearningとHigh Performance Computingカーネルを開発するためのフレームワークを導入している。
1)プロセッシングプリミティブ(TPP)を用いた計算コアの表現と,2)高レベルな宣言的手法でTPPのまわりの論理ループの表現の2つのステップでカーネルの開発を分解する。
我々は、スタンドアロンカーネルと、さまざまなCPUプラットフォームにおける最先端実装よりも優れたエンドツーエンドワークロードを使用して、このアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-04-25T05:04:44Z) - Slapo: A Schedule Language for Progressive Optimization of Large Deep
Learning Model Training [17.556432199389615]
Slapoは、テンソルレベルの演算子の実行をその算術的定義から切り離すスケジュール言語である。
SlapoはNVIDIA V100 GPUを8台搭載した1台のマシンで最大2.92倍のトレーニングスループットを向上できることを示す。
論文 参考訳(メタデータ) (2023-02-16T00:34:53Z) - Hidet: Task Mapping Programming Paradigm for Deep Learning Tensor
Programs [11.338285393619042]
本稿では,スケジューリングプロセスをテンソルプログラムに組込み,タスクマッピングと呼ばれる専用マッピングを用いて計算の割り当てと順序付けを定義することを提案する。
提案するパラダイムでは、深層学習コンパイラであるHietを実装しています。
論文 参考訳(メタデータ) (2022-10-18T05:32:13Z) - Deep Learning Models on CPUs: A Methodology for Efficient Training [1.7150798380270715]
本稿では,CPUを用いた深層学習モデルの学習にいくつかの貢献をする。
これは、Intel CPU上でディープラーニングモデルのトレーニングを最適化する手法と、ProfileDNNと呼ばれるツールキットを提供する。
論文 参考訳(メタデータ) (2022-06-20T22:42:14Z) - Adaptive Elastic Training for Sparse Deep Learning on Heterogeneous
Multi-GPU Servers [65.60007071024629]
本稿では,Adaptive SGDが4つの最先端ソリューションよりも精度が高いことを示す。
本稿では,Adaptive SGDが時間と精度で4つの最先端ソリューションより優れていることを示す。
論文 参考訳(メタデータ) (2021-10-13T20:58:15Z) - Online Evolutionary Batch Size Orchestration for Scheduling Deep
Learning Workloads in GPU Clusters [10.395955671683245]
弾力性のあるバッチサイズオーケストレーションのためのオンラインスケジューリングシステムであるONESを提案する。
ONESは、トレーニングバッチサイズに基づいて、各ジョブの弾力性を自動的に管理する。
我々は、ONESが従来のディープラーニングスケジューラよりもはるかに短い平均ジョブ完了時間で優れていることを示す。
論文 参考訳(メタデータ) (2021-08-08T14:20:05Z) - Kernel methods through the roof: handling billions of points efficiently [94.31450736250918]
カーネル法は、非パラメトリック学習に対するエレガントで原則化されたアプローチを提供するが、今のところ大規模な問題ではほとんど利用できない。
最近の進歩は、最適化、数値線形代数、ランダム射影など、多くのアルゴリズム的アイデアの利点を示している。
ここでは、これらの取り組みをさらに進めて、GPUハードウェアを最大限に活用する解決器を開発し、テストする。
論文 参考訳(メタデータ) (2020-06-18T08:16:25Z) - PolyDL: Polyhedral Optimizations for Creation of High Performance DL
primitives [55.79741270235602]
本稿では,Deep Learningプリミティブの高性能実装を自動的に生成するコンパイラアルゴリズムを提案する。
我々は多面体モデルを用いた新しいデータ再利用分析アルゴリズムを開発した。
また、このようなハイブリッドコンパイラとライブラリ使用の最小限のアプローチが、最先端のパフォーマンスをもたらすことを示す。
論文 参考訳(メタデータ) (2020-06-02T06:44:09Z) - Global Optimization of Gaussian processes [52.77024349608834]
少数のデータポイントで学習したガウス過程を訓練した空間定式化を提案する。
このアプローチはまた、より小さく、計算的にもより安価なサブソルバを低いバウンディングに導く。
提案手法の順序の順序による時間収束を,総じて低減する。
論文 参考訳(メタデータ) (2020-05-21T20:59:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。