論文の概要: Improving Efficiency of GPU Kernel Optimization Agents using a Domain-Specific Language and Speed-of-Light Guidance
- arxiv url: http://arxiv.org/abs/2603.29010v1
- Date: Mon, 30 Mar 2026 21:16:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-01 15:25:02.868402
- Title: Improving Efficiency of GPU Kernel Optimization Agents using a Domain-Specific Language and Speed-of-Light Guidance
- Title(参考訳): ドメイン特化言語と光速誘導を用いたGPUカーネル最適化エージェントの効率向上
- Authors: Siva Kumar Sastry Hari, Vignesh Balaji, Sana Damani, Qijing Huang, Christos Kozyrakis,
- Abstract要約: エージェントが操作する抽象化レベルについて、2つの重要な観察を行う。
CUTLASSが支援するGPUカーネル用のコンパイラを備えたDSLであるCUTLASSでこれらの原則を実装します。
我々は、SOLガイダンスを使用して、ヘッドルームを推定し、最適化試験をガイドし、SOLに近い問題を優先順位付けし、ベンチマークをゲームするカーネルにフラグを付ける。
- 参考スコア(独自算出の注目度): 2.6106833542109693
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Optimizing GPU kernels with LLM agents is an iterative process over a large design space. Every candidate must be generated, compiled, validated, and profiled, so fewer trials will save both runtime and cost. We make two key observations. First, the abstraction level that agents operate at is important. If it is too low, the LLM wastes reasoning on low-impact details. If it is too high, it may miss important optimization choices. Second, agents cannot easily tell when they reach the point of diminishing returns, wasting resources as they continue searching. These observations motivate two design principles to improve efficiency: (1) a compact domain-specific language (DSL) that can be learned in context and lets the model reason at a higher level while preserving important optimization levers, and (2) Speed-of-Light (SOL) guidance that uses first-principles performance bounds to steer and budget search. We implement these principles in $μ$CUTLASS, a DSL with a compiler for CUTLASS-backed GPU kernels that covers kernel configuration, epilogue fusion, and multi-stage pipelines. We use SOL guidance to estimate headroom and guide optimization trials, deprioritize problems that are near SOL, and flag kernels that game the benchmark. On 59 KernelBench problems with the same iteration budgets, switching from generating low-level code to DSL code using GPT-5-mini turns a 0.40x geomean regression into a 1.27x speedup over PyTorch. Adding SOL-guided steering raises this to 1.56x. Across model tiers, $μ$CUTLASS + SOL-guidance lets weaker models outperform stronger baseline agents at lower token cost. SOL-guided budgeting saves 19-43% of tokens while retaining at least 95% of geomean speedup, with the best policy reaching a 1.68x efficiency gain. Lastly, SOL analysis helps detect benchmark-gaming cases, where kernels may appear fast while failing to perform the intended computation.
- Abstract(参考訳): LLMエージェントによるGPUカーネルの最適化は、大規模な設計空間における反復的なプロセスである。
すべての候補は生成、コンパイル、検証、プロファイルされなければならないため、実行時とコストの両方を節約できるトライアルは少なくなります。
私たちは2つの重要な観察をします。
まず、エージェントが操作する抽象化レベルが重要です。
もしそれが低すぎると、LLMは影響の少ない詳細を理由として無駄になる。
もしそれが高すぎると、重要な最適化選択を見逃してしまうかもしれない。
第二に、エージェントはリターンを減らし、検索を続けるとリソースを浪費する。
これらの観察は、効率を改善するための2つの設計原則を動機付けている。(1) コンテキストで学習でき、重要な最適化レバーを保持しながらモデル理性を高めることができるコンパクトなドメイン固有言語(DSL)、(2) 第一原理のパフォーマンスバウンダリと予算探索を使用するスピード・オブ・ライト(SOL)ガイダンス。
我々はこれらの原則を,CUTLASSが支援するGPUカーネル用のコンパイラを備えたDSLである$μ$CUTLASSで実装する。
我々は、SOLガイダンスを使用して、ヘッドルームを推定し、最適化試験をガイドし、SOLに近い問題を優先順位付けし、ベンチマークをゲームするカーネルにフラグを付ける。
同じイテレーション予算で59のKernelBenchでは、GPT-5-miniを使って低レベルのコードからDSLコードに切り替えると、0.40倍のジオ平均回帰がPyTorch上の1.27倍のスピードアップになる。
SOL誘導ステアリングの追加は、これを1.56倍に引き上げる。
モデル層全体の$μ$CUTLASS + SOL-guidanceにより、より弱いモデルはより低いトークンコストでより強力なベースラインエージェントより優れている。
SOL誘導型予算は、少なくとも95%のジオ平均速度を維持しながら19-43%のトークンを節約し、最良の政策は1.68倍の効率向上を達成した。
最後に、SOL分析は、カーネルが意図した計算の実行に失敗しながら高速に現れるベンチマークゲーミングケースを検出するのに役立つ。
関連論文リスト
- Agent Factories for High Level Synthesis: How Far Can General-Purpose Coding Agents Go in Hardware Optimization? [8.899459735174174]
本稿では,汎用符号化エージェントが高レベルのアルゴリズム仕様からハードウェア設計をいかに最適化できるかを実証研究する。
複数の自律的最適化エージェントの構築と調整を行う2段階パイプラインであるエージェントファクトリを導入する。
AMD Vitis HLS を用いた Claude Code (Opus4.5/4.6) を用いた HLS-Eval と Rodinia-HLS の 12 個のカーネルに対するアプローチの評価を行った。
論文 参考訳(メタデータ) (2026-03-26T17:57:50Z) - Resource-Efficient Iterative LLM-Based NAS with Feedback Memory [49.44875022114861]
ニューラルアーキテクチャサーチ(NAS)はネットワーク設計を自動化するが、従来の手法ではかなりの計算資源を必要とする。
本稿では,大規模言語モデル(LLM)を活用して,畳み込みニューラルネットワークアーキテクチャを反復的に生成し,評価し,洗練するクローズドループパイプラインを提案する。
論文 参考訳(メタデータ) (2026-03-12T16:00:22Z) - KernelSkill: A Multi-Agent Framework for GPU Kernel Optimization [37.008713142905336]
本稿では,デュアルレベルメモリアーキテクチャを備えたマルチエージェントフレームワークであるKernelSkillを紹介する。
Kernel Levels 1-3では、KernelSkillはTorch Eagerよりも100%の成功率と平均速度5.44xBench、2.82x、1.92xを達成した。
論文 参考訳(メタデータ) (2026-03-10T13:43:38Z) - $\nabla$-Reasoner: LLM Reasoning via Test-Time Gradient Descent in Latent Space [71.23672814629448]
$nabla$-Reasonerは、トークンログに対する差別化可能な最適化をデコードループに統合する反復生成フレームワークである。
$nabla$-Reasonerは、挑戦的な数学的推論ベンチマークで20%以上の精度の向上を実現している。
論文 参考訳(メタデータ) (2026-03-05T08:42:54Z) - A Two-Stage GPU Kernel Tuner Combining Semantic Refactoring and Search-Based Optimization [9.49293344824955]
本稿では,エージェント駆動反復ループ上にテンプレートベースの書き換え層を導入する。
提案手法は,実運用負荷に対する自動性能最適化を実現するために拡張することができる。
論文 参考訳(メタデータ) (2026-01-19T03:40:12Z) - AccelOpt: A Self-Improving LLM Agentic System for AI Accelerator Kernel Optimization [12.269456144158783]
本稿では,自己改善型大規模言語モデル(LLM)エージェントシステムであるAccelOptを紹介する。
NKIBenchは、AWS Trainiumアクセラレータカーネルの新しいベンチマークスイートで、現実世界のワークロードから抽出される複雑さがさまざまです。
評価の結果,AccelOptの能力は時間とともに向上し,ピークスループットの平均値はTranium 1で49%から61%,NKIBenchカーネルで45%から59%へと向上した。
論文 参考訳(メタデータ) (2025-11-19T22:49:37Z) - Controlling Thinking Speed in Reasoning Models [57.14541748751654]
人間の認知は、高速で直感的なシステム1思考と遅いシステム2思考の2つのモードで動作する。
本研究では,LRMが動的思考速度調整によって人間の知能を近似することを可能にする。
提案手法は, LRMにおける思考速度の制御方法と, 最適性能をいつ調整するかという2つの重要な問題に対処する。
論文 参考訳(メタデータ) (2025-07-04T16:41:06Z) - Second-order Optimization of Gaussian Splats with Importance Sampling [51.95046424364725]
3D Gaussian Splatting (3DGS) は、高品質で高速な推論時間のため、新しいビューレンダリングに広く用いられている。
本稿では,Levenberg-Marquardt (LM) と Conjugate Gradient (CG) に基づく新しい2階最適化手法を提案する。
提案手法は標準LMよりも3倍の高速化を実現し,ガウス数が少ない場合のAdamを6倍の6倍の速さで上回る。
論文 参考訳(メタデータ) (2025-04-17T12:52:08Z) - Thinking Before Running! Efficient Code Generation with Thorough Exploration and Optimal Refinement [47.89758553708932]
textbfThinkCoderは、徹底的な探索と最適な精錬を組み合わせたフレームワークです。
探索フェーズは、潜在的な解を探すことによって解空間を多様化し、続いて精度を高める精製フェーズが続く。
テスト時間計算のオーバーヘッドを最小化するために、Reinforced Self-Training (ReST) を用いた優先駆動最適化を導入する。
論文 参考訳(メタデータ) (2024-12-30T07:02:15Z) - Bypass Back-propagation: Optimization-based Structural Pruning for Large Language Models via Policy Gradient [57.9629676017527]
本研究では,プルーンドモデルの損失を最適化することにより,確率空間におけるプルーニングマスクを直接学習する最適化に基づく構造的プルーニングを提案する。
我々は、基底となるベルヌーイ分布をサンプルのバイナリ・プルーニングマスクに学習することでこれを実現する。
LLaMA, LLaMA-2, LLaMA-3, Vicuna, Mistral モデルによる実験により, 本手法の有効性と有効性を示すことができた。
論文 参考訳(メタデータ) (2024-06-15T09:31:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。