Fugu-MT 論文翻訳(概要): CUDA-L2: Surpassing cuBLAS Performance for Matrix Multiplication through Reinforcement Learning

論文の概要: CUDA-L2: Surpassing cuBLAS Performance for Matrix Multiplication through Reinforcement Learning

arxiv url: http://arxiv.org/abs/2512.02551v1
Date: Tue, 02 Dec 2025 09:20:15 GMT
ステータス: 翻訳完了
システム内更新日: 2025-12-03 21:04:45.800773
Title: CUDA-L2: Surpassing cuBLAS Performance for Matrix Multiplication through Reinforcement Learning
Title（参考訳）: CUDA-L2:強化学習による行列乗算のためのcuBLASの超越性能
Authors: Songqiao Su, Xiaofei Sun, Xiaoya Li, Albert Wang, Jiwei Li, Chris Shum,
Abstract要約: 本稿では,大規模言語モデル(LLM)と強化学習(RL)を組み合わせて,半精度一般行列乗算(HM)カーネルを自動的に最適化するシステムを提案する。 cuBLASL-L2は、現在までに主要なmamulベースラインを体系的に上回る。
参考スコア（独自算出の注目度）: 13.346988666418518
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In this paper, we propose CUDA-L2, a system that combines large language models (LLMs) and reinforcement learning (RL) to automatically optimize Half-precision General Matrix Multiply (HGEMM) CUDA kernels. Using CUDA execution speed as the RL reward, CUDA-L2 automatically optimizes HGEMM kernels across 1,000 configurations. CUDA-L2 systematically outperforms major matmul baselines to date, from the widely-used {\it torch.matmul} to state-of-the-art Nvidia's closed-source libraries, i.e., {\it cuBLAS}, {\it cuBLASLt}. In offline mode, where kernels are executed consecutively without time intervals, CUDA-L2 yields +22.0\% over {\it torch.matmul} on average; +19.2\% over {\it cuBLAS} using the optimal layout configuration (normal-normal NN and transposed-normal TN); +16.8\% over {\it cuBLASLt-heuristic}, which queries {\it cuBLASLt} library and selects the algorithm based on the heuristic's suggestion; and +11.4\% over the most competitive {\it cuBLASLt-AutoTuning} model, which selects the fastest algorithm from up to 100 candidates from {\it cuBLASLt}'s suggestions. In server mode, where kernels are executed at random intervals simulating real-time inference, the speedups further increase to +28.7\%, +26.0\%, +22.4\%, and +15.9\% for {\it torch.matmul}, {\it cuBLAS}, {\it cuBLASLt-heuristic}, and {\it cuBLASLt-AutoTuning} respectively. CUDA-L2 shows that even the most performance-critical, heavily-optimized kernels like HGEMM can be improved through LLM-guided RL automation by systematically exploring configuration spaces at scales impractical for humans. Project and code can be found at github.com/deepreinforce-ai/CUDA-L2
Abstract（参考訳）: 本稿では,大規模言語モデル(LLM)と強化学習(RL)を組み合わせたCUDA-L2を提案する。 CUDA実行速度をRL報酬として使用することにより、CUDA-L2は1000の構成でHGEMMカーネルを自動的に最適化する。 CUDA-L2 は、広く使われている {\it torch.matmul} から最先端の Nvidia のクローズドソースライブラリ、すなわち {\it cuBLAS}, {\it cuBLASLt} まで、マトゥルベースラインを体系的に上回っている。オフラインモードでは、カーネルが時間間隔なしで連続的に実行される場合、CUDA-L2 は平均で +22.0\% over {\it torch.matmul} を出力し、+19.2\% over {\it cuBLAS} を最適レイアウト設定(正規の NN とtransposed-normal TN)を用いて、+16.8\% over {\it cuBLASLt-heuristic} を出力する。サーバモードでは、カーネルがリアルタイムの推論をシミュレートするランダムな間隔で実行される場合、スピードアップはさらに+28.7\%、+26.0\%、+22.4\%、+15.9\%に増加し、 {\it cuBLAS}、 {\it cuBLASLt-heuristic}、および {\it cuBLASLt-AutoTuning}となる。 CUDA-L2は、HGEMMのような最もパフォーマンスクリティカルで最適化されたカーネルでさえ、LLM誘導RL自動化により、人間にとって非現実的なスケールで構成空間を体系的に探索することで改善できることを示した。プロジェクトとコードはgithub.com/deepreinforce-ai/CUDA-L2で見ることができる。

関連論文リスト

AutoSAGE: Input-Aware CUDA Scheduling for Sparse GNN Aggregation (SpMM/SDDMM) and CSR Attention [52.20940151628735]
AutoSAGEは入力ごとにタイリングとマッピングを選択するインプット対応スケジューラである。 Reddit OGBN-Productsでは、カーネルレベルの最大4.7倍のスピードアップを実現している。
論文参考訳（メタデータ） (2025-11-17T18:25:51Z)
CudaForge: An Agent Framework with Hardware Feedback for CUDA Kernel Optimization [36.794824560677064]
CudaForgeは、カーネル生成と最適化のためのトレーニング不要なマルチエージェントワークフローである。 OpenAI-o3のようなベースモデルを活用することで、CudaForgeは97.6%の正しさと平均1.68$times$スピードアップを達成した。
論文参考訳（メタデータ） (2025-10-23T22:52:00Z)
CUDA-L1: Improving CUDA Optimization via Contrastive Reinforcement Learning [14.142680357918328]
本稿では,新しい対照的なRLアルゴリズムを用いた最適化のための自動学習フレームワークを提案する。 --L1は最適化タスクで大幅なパフォーマンス改善を実現します。
論文参考訳（メタデータ） (2025-07-18T17:43:56Z)
Libra: Synergizing CUDA and Tensor Cores for High-Performance Sparse Matrix Multiplication [6.557224606759151]
現代の加速器は一般にスパース演算子を加速するコアとコアを備えている。資源を1つだけ利用すれば,それぞれの制限のため,スパース行列乗算の性能が劣ることを示す。本稿では,2.9コアの高性能とコアの低冗長性を両立させて,タスクマッピング演算子のスイートポイントを求める2D対応のワークロード計算戦略を提案する。
論文参考訳（メタデータ） (2025-06-28T01:50:13Z)
Enabling High-Sparsity Foundational Llama Models with Efficient Pretraining and Deployment [56.44025052765861]
大規模言語モデル(LLM)は自然言語処理(NLP)に革命をもたらしたが、そのサイズは計算のボトルネックを生み出している。そこで本研究では,高性能LLMの高精度かつ疎結合な基本バージョンを作成するための新しいアプローチを提案する。スパース量子化LLaMAの最大8.6倍のCPU上での総高速化を示す。
論文参考訳（メタデータ） (2024-05-06T16:03:32Z)
SIP: Autotuning GPU Native Schedules via Stochastic Instruction Perturbation [0.0]
大型言語モデル(LLM)はその出現以来、重要なワークロードとなっている。また、数十億のパラメータを持ち、大量のデータで訓練されているため、計算コストも高い。近年、LLMのトレーニングと推論のための専用カーネルが開発されているため、ハードウェアリソースは可能な限り十分に活用されている。
論文参考訳（メタデータ） (2024-03-25T15:26:50Z)
ReSQueing Parallel and Private Stochastic Convex Optimization [59.53297063174519]
本稿では,BFG凸最適化(SCO: Reweighted Query (ReSQue) 推定ツールを提案する。我々はSCOの並列およびプライベート設定における最先端の複雑さを実現するアルゴリズムを開発した。
論文参考訳（メタデータ） (2023-01-01T18:51:29Z)
PLSSVM: A (multi-)GPGPU-accelerated Least Squares Support Vector Machine [68.8204255655161]
Support Vector Machines (SVM) は機械学習で広く使われている。しかし、現代的で最適化された実装でさえ、最先端ハードウェア上の大きな非自明な高密度データセットにはうまくスケールしない。 PLSSVMはLVMのドロップイン代替として使用できる。
論文参考訳（メタデータ） (2022-02-25T13:24:23Z)
VersaGNN: a Versatile accelerator for Graph neural networks [81.1667080640009]
我々は,超効率的なサイストリックアレイベースの多用途ハードウェアアクセラレータである textitVersaGNN を提案する。 textitVersaGNNは平均3712$times$ speedup with 1301.25$times$ energy reduction on CPU、35.4$times$ speedup with 17.66$times$ energy reduction on GPUを達成している。
論文参考訳（メタデータ） (2021-05-04T04:10:48Z)
Kernel Operations on the GPU, with Autodiff, without Memory Overflows [5.669790037378094]
KeOpsライブラリは、数学的公式によってエントリが与えられるテンソルに対して、高速でメモリ効率のよいGPUサポートを提供する。 KeOpsは、カーネルおよび幾何学的アプリケーションのためのテンソル中心ライブラリの大きなボトルネックであるメモリ消費を緩和する。 KeOpsは、最適化されたC++/CUDAスキームと、Python(NumpyとPyTorch)、Matlab、Rのバインダーを組み合わせる。
論文参考訳（メタデータ） (2020-03-27T08:54:10Z)
PolyScientist: Automatic Loop Transformations Combined with Microkernels for Optimization of Deep Learning Primitives [55.79741270235602]
深層学習カーネル開発のためのハイブリッドソリューションを開発する。我々は、高度な多面体技術を用いて、パフォーマンスのために外部ループを自動的に調整する。
論文参考訳（メタデータ） (2020-02-06T08:02:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。