論文の概要: CUDAHercules: Benchmarking Hardware-Aware Expert-level CUDA Optimization for LLMs
- arxiv url: http://arxiv.org/abs/2605.08467v1
- Date: Fri, 08 May 2026 20:35:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:49.670017
- Title: CUDAHercules: Benchmarking Hardware-Aware Expert-level CUDA Optimization for LLMs
- Title(参考訳): CUDAHercules: LLMのハードウェア対応エキスパートレベルCUDA最適化のベンチマーク
- Authors: Shiyang Li, Zijian Zhang, Guangyan Sun, Yuebo Luo, Winson Chen, Yanzhi Wang, Mingyi Hong, Caiwen Ding,
- Abstract要約: 我々は、エンドツーエンドの人間-専門家SOTAシステムに対して生成されたベンチマークであるHerculesを紹介する。
自動化プログラミングは完全な解決には程遠いものであり、より強力なハードウェア推論、より良いツール使用、トレーニング目標が必要です。
- 参考スコア(独自算出の注目度): 45.52512820646709
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large language models show promise for automated CUDA programming, however even the strongest coding models (e.g., Claude-Opus-4.6) may still fall short of expert-level, architecture-aware optimization. We introduce CUDAHercules, a benchmark that evaluates generated CUDA against end-to-end human-expert SOTA systems. It spans single kernels, module-level operators, full applications, and unsolved challenge tasks across Ampere, Hopper, and Blackwell GPUs, with end-to-end tasks gated by domain-specific semantic validators. Evaluating models such as Claude-Opus-4.6 and GPT-5.4 shows a large gap between runnable CUDA and expert CUDA engineering: models often compile and pass tests, but rarely recover the optimization strategies needed to match expert performance. Application semantics further reduce success, and iterative or tool-augmented feedback can improve correctness while drifting toward slow fallback implementations. These results show that automated CUDA programming remains far from fully solved and requires stronger hardware reasoning, better tool use, and training objectives that connect code understanding to hardware architecture-grounded intelligence.
- Abstract(参考訳): 大規模言語モデルはCUDAプログラミングの自動化を約束するが、最も強力なコーディングモデル(例えばClaude-Opus-4.6)でさえも、専門家レベルのアーキテクチャを意識した最適化に欠ける可能性がある。
CUDAHerculesは、エンドツーエンドの人間-専門家SOTAシステムに対して生成されたCUDAを評価するベンチマークである。
単一のカーネル、モジュールレベルの演算子、フルアプリケーション、Ampere、Hopper、Blackwell GPUにわたる未解決の課題タスクにまたがる。
Claude-Opus-4.6 や GPT-5.4 のようなモデルを評価すると、実行可能 CUDA とエキスパート CUDA エンジニアリングの間に大きなギャップがある。
アプリケーションのセマンティクスは、さらなる成功を減らし、反復的あるいはツール拡張されたフィードバックは、フォールバックの遅い実装に向かってドリフトしながら、正確性を改善することができる。
これらの結果は、自動CUDAプログラミングは完全な解決には程遠いままであり、より強力なハードウェア推論、より良いツールの使用、そしてコード理解とハードウェアアーキテクチャの基盤となるインテリジェンスを結びつける訓練目的が必要であることを示している。
関連論文リスト
- CUDABeaver: Benchmarking LLM-Based Automated CUDA Debugging [18.460942231908376]
私たちは、実際の失敗するワークスペースで生成されたプログラムを評価するベンチマークであるBEAVERを紹介します。
各タスクは、壊れた候補、ネイティブビルド/テストコマンド、生エラーエビデンス、単一のファイルを提供する。
プロトコルを意識した評価は、パフォーマンスロストレランスをより忠実に評価できることを示す。
論文 参考訳(メタデータ) (2026-05-08T20:24:32Z) - Beyond Test-Time Training: Learning to Reason via Hardware-Efficient Optimal Control [86.63490309209378]
我々は、最適制御として推論を定式化し、推論時に潜在状態に対して有限水平LQR計画を行うテスト時間制御層を導入する。
アーキテクチャ層として最適制御を組み込むことは、テスト時間トレーニングを超えた推論のための効果的でスケーラブルなメカニズムを提供することを実証する。
論文 参考訳(メタデータ) (2026-03-10T05:42:13Z) - CUDA Agent: Large-Scale Agentic RL for High-Performance CUDA Kernel Generation [51.72529978689561]
Agentは、カーネルの専門知識を3つのコンポーネントで開発する大規模なエージェント強化学習システムである。
AgentはKernelBench上で、トーチコンパイルよりも100%、100%、92%高速なレートを提供する。
論文 参考訳(メタデータ) (2026-02-27T18:58:05Z) - KernelBlaster: Continual Cross-Task CUDA Optimization via Memory-Augmented In-Context Reinforcement Learning [3.4998382481249286]
我々は、テストハーネス、検証コンポーネント、再現可能な評価を伴って、オープンソースのエージェントフレームワークとしてKernelBlasterをリリースした。
提案手法は, KernelBench Levels 1, 2, 3 の平均速度をそれぞれ 1.43x, 2.50x, 1.50x とする。
論文 参考訳(メタデータ) (2026-02-15T19:48:43Z) - HPCTransCompile: An AI Compiler Generated Dataset for High-Performance CUDA Transpilation and LLM Preliminary Exploration [13.53425131505526]
ディープラーニングは、モデルパラメータと計算要求の指数関数的な増加を促した。
NVIDIA GPUとそのソフトウェアエコシステムは、並列コンピューティングの堅牢なサポートを提供する。
エコシステムは並列ソフトウェア分野において支配的な地位を確立してきた。
並列プログラミングのパラダイムとハードウェアの違いにより、コードを他のプラットフォームに翻訳することは大きな課題となる。
論文 参考訳(メタデータ) (2025-06-12T06:48:33Z) - CUDA-LLM: LLMs Can Write Efficient CUDA Kernels [9.287036563375617]
大規模言語モデル(LLM)は汎用コード生成において強力な機能を示している。
我々は,textbfFeature SearchReinforcement (FSR) FSRという新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-10T10:51:03Z) - QuartDepth: Post-Training Quantization for Real-Time Depth Estimation on the Edge [55.75103034526652]
ASIC のハードウェアアクセラレーションによる MDE モデルの定量化を後学習量子化に応用した QuartDepth を提案する。
提案手法では,重みとアクティベーションの両方を4ビット精度で定量化し,モデルサイズと計算コストを削減する。
我々は、カーネル融合とカスタマイズされた命令プログラム性をサポートすることにより、フレキシブルでプログラム可能なハードウェアアクセラレータを設計する。
論文 参考訳(メタデータ) (2025-03-20T21:03:10Z) - Harnessing Deep Learning and HPC Kernels via High-Level Loop and Tensor Abstractions on CPU Architectures [67.47328776279204]
この研究は、効率的でポータブルなDeep LearningとHigh Performance Computingカーネルを開発するためのフレームワークを導入している。
1)プロセッシングプリミティブ(TPP)を用いた計算コアの表現と,2)高レベルな宣言的手法でTPPのまわりの論理ループの表現の2つのステップでカーネルの開発を分解する。
我々は、スタンドアロンカーネルと、さまざまなCPUプラットフォームにおける最先端実装よりも優れたエンドツーエンドワークロードを使用して、このアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-04-25T05:04:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。