論文の概要: CUDABench: Benchmarking LLMs for Text-to-CUDA Generation
- arxiv url: http://arxiv.org/abs/2603.02236v1
- Date: Fri, 13 Feb 2026 09:46:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-09 01:20:08.102351
- Title: CUDABench: Benchmarking LLMs for Text-to-CUDA Generation
- Title(参考訳): CUDABench: テキスト・ツー・キューダ生成のためのLLMのベンチマーク
- Authors: Jiace Zhu, Wentao Chen, Qi Fan, Zhixing Ren, Junying Wu, Xing Zhe Chai, Chotiwit Rungrueangwutthinon, Yehan Ma, An Zou,
- Abstract要約: 近年の研究では、GPU生成におけるLarge Language Models(LLM)の可能性が実証されている。
ハードウェア固有の性能クリティカルなプログラミング機能を考えると、LLM生成したGPUプログラムの性能を正確に評価するのは簡単ではない。
LLMのテキスト・ツー・キューダ機能を評価するために設計された総合ベンチマークであるGPUBenchを紹介する。
- 参考スコア(独自算出の注目度): 11.395567633975878
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent studies have demonstrated the potential of Large Language Models (LLMs) in generating GPU Kernels. Current benchmarks focus on the translation of high-level languages into CUDA, overlooking the more general and challenging task of text-to-CUDA generation. Furthermore, given the hardware-specific and performance-critical features of GPU programming, accurately assessing the performance of LLM-generated GPU programs is nontrivial. In this work, we introduce CUDABench, a comprehensive benchmark designed to evaluate the text-to-CUDA capabilities of LLMs. First, we construct CUDABench-Set, which covers Breadth-Depth-Difficulty evaluation space in diverse application domains, including artificial intelligence, scientific computing, and data analytics, etc. Furthermore, we propose CUDABench-Score and Generative Verification Pipeline that assess (1) compilation correctness, (2) functional consistency through execution-based verification, and (3) a novel roofline-based metric, Performance-Score. Benchmarking state-of-the-art LLMs reveals insightful findings and challenges of text-to-CUDA, such as a notable mismatch between high compilation success rates and low functional correctness, a lack of domain-specific algorithmic knowledge, and suboptimal utilization of GPU hardware resources. Our benchmark is available at https://github.com/CUDA-Bench/CUDABench.
- Abstract(参考訳): 最近の研究は、GPUカーネルの生成において、LLM(Large Language Models)の可能性を示している。
現在のベンチマークでは、より汎用的で挑戦的なテキスト・トゥ・キューダ生成のタスクを見越して、高レベルの言語をCUDAに翻訳することに重点を置いている。
さらに、GPUプログラミングのハードウェア固有の性能クリティカルな特徴を考えると、LLM生成したGPUプログラムの性能を正確に評価するのは簡単ではない。
本研究では,LLMのテキスト・ツー・キューダ機能を評価するための総合的なベンチマークであるCUDABenchを紹介する。
まず、人工知能、科学計算、データ分析など、さまざまなアプリケーション領域におけるBreadth-Depth-Difficulty評価領域をカバーするCUDABench-Setを構築する。
さらに, CUDABench-Score and Generative Verification Pipelineを提案し, (1) コンパイルの正確性, (2) 実行ベース検証による機能整合性, (3) 新たな屋根面基準であるPerformance-Scoreを提案する。
最先端のLCMのベンチマークでは、高いコンパイル成功率と低い機能的正しさの顕著なミスマッチ、ドメイン固有のアルゴリズム知識の欠如、GPUハードウェアリソースの亜最適利用など、テキストからCUDAへの洞察力のある発見と課題が明らかにされている。
ベンチマークはhttps://github.com/CUDA-Bench/CUDABench.comで公開しています。
関連論文リスト
- CUDA Agent: Large-Scale Agentic RL for High-Performance CUDA Kernel Generation [51.72529978689561]
Agentは、カーネルの専門知識を3つのコンポーネントで開発する大規模なエージェント強化学習システムである。
AgentはKernelBench上で、トーチコンパイルよりも100%、100%、92%高速なレートを提供する。
論文 参考訳(メタデータ) (2026-02-27T18:58:05Z) - KernelBlaster: Continual Cross-Task CUDA Optimization via Memory-Augmented In-Context Reinforcement Learning [3.4998382481249286]
我々は、テストハーネス、検証コンポーネント、再現可能な評価を伴って、オープンソースのエージェントフレームワークとしてKernelBlasterをリリースした。
提案手法は, KernelBench Levels 1, 2, 3 の平均速度をそれぞれ 1.43x, 2.50x, 1.50x とする。
論文 参考訳(メタデータ) (2026-02-15T19:48:43Z) - From Large to Small: Transferring CUDA Optimization Expertise via Reasoning Graph [12.73098983668479]
大規模言語モデル(LLM)は、シーケンシャルコードから最適化されたコードを生成する強力な可能性を示している。
クラウドベースのAPIはコード漏洩のリスクを生じさせ、ローカルデプロイメントは計算コストが高く非効率であることが多い。
これらの欠点は、より軽量でプライバシーに優しい小言語モデル(SLM)への関心を喚起している。
論文 参考訳(メタデータ) (2025-10-22T08:33:44Z) - HPCTransCompile: An AI Compiler Generated Dataset for High-Performance CUDA Transpilation and LLM Preliminary Exploration [13.53425131505526]
ディープラーニングは、モデルパラメータと計算要求の指数関数的な増加を促した。
NVIDIA GPUとそのソフトウェアエコシステムは、並列コンピューティングの堅牢なサポートを提供する。
エコシステムは並列ソフトウェア分野において支配的な地位を確立してきた。
並列プログラミングのパラダイムとハードウェアの違いにより、コードを他のプラットフォームに翻訳することは大きな課題となる。
論文 参考訳(メタデータ) (2025-06-12T06:48:33Z) - CUDA-LLM: LLMs Can Write Efficient CUDA Kernels [9.287036563375617]
大規模言語モデル(LLM)は汎用コード生成において強力な機能を示している。
我々は,textbfFeature SearchReinforcement (FSR) FSRという新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-10T10:51:03Z) - NGPU-LM: GPU-Accelerated N-Gram Language Model for Context-Biasing in Greedy ASR Decoding [54.88765757043535]
この研究は、統計的なn-gram言語モデルのデータ構造を再考し、GPU最適化推論の高速かつ並列な操作を可能にする。
我々のアプローチは NGPU-LM と呼ばれ、7% 未満の計算オーバーヘッドを持つ全ての主要な ASR モデルに対して、カスタマイズ可能なgreedy decoding を導入している。
提案手法は,ビーム探索による顕著な遅延を回避しつつ,greedy と beam search の精度ギャップの50%以上を排除できる。
論文 参考訳(メタデータ) (2025-05-28T20:43:10Z) - The CLRS-Text Algorithmic Reasoning Language Benchmark [48.45201665463275]
CLRS-TextはCLRSベンチマークのテキストバージョンである。
CLRS-Textは、30の多様な、挑戦的なアルゴリズムタスクのためのトレースデータを手続き的に生成することができる。
このベンチマークでは、様々なLMをジェネラリストエグゼクタとして微調整し評価する。
論文 参考訳(メタデータ) (2024-06-06T16:29:25Z) - LeTI: Learning to Generate from Textual Interactions [60.425769582343506]
本稿では,テキストインタラクション(LETI)から学習するLMの可能性を,バイナリラベルによる正当性をチェックするだけでなく,テキストフィードバックを通じて出力中のエラーをピンポイントし,説明する。
私たちの焦点はコード生成タスクであり、そこではモデルが自然言語命令に基づいてコードを生成する。
LETIは、目的のLMを用いて、自然言語命令、LM生成プログラム、テキストフィードバックの結合に基づいて、モデルを反復的に微調整する。
論文 参考訳(メタデータ) (2023-05-17T15:53:31Z) - Harnessing Deep Learning and HPC Kernels via High-Level Loop and Tensor Abstractions on CPU Architectures [67.47328776279204]
この研究は、効率的でポータブルなDeep LearningとHigh Performance Computingカーネルを開発するためのフレームワークを導入している。
1)プロセッシングプリミティブ(TPP)を用いた計算コアの表現と,2)高レベルな宣言的手法でTPPのまわりの論理ループの表現の2つのステップでカーネルの開発を分解する。
我々は、スタンドアロンカーネルと、さまざまなCPUプラットフォームにおける最先端実装よりも優れたエンドツーエンドワークロードを使用して、このアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-04-25T05:04:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。