論文の概要: Learning When to Optimize: Verified Optimization Skills from Expert GPU-Kernel Lineages
- arxiv url: http://arxiv.org/abs/2605.28213v1
- Date: Wed, 27 May 2026 09:32:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:55.932839
- Title: Learning When to Optimize: Verified Optimization Skills from Expert GPU-Kernel Lineages
- Title(参考訳): 最適化のタイミングを学ぶ - 専門家GPUカーネルラインナジによる最適化スキルの検証
- Authors: Shuoming Zhang, Qiuchu Yu, Yangyu Zhang, Ruiyuan Xu, Xiyu Shi, Guangli Li, Xiaobing Feng, Huimin Cui, Jiacheng Zhao,
- Abstract要約: LLMベースのエージェントはGPUカーネルの生成にますます利用されている。
彼らはしばしば、最適化がいつ正しいかを知らずに、どの最適化を試すべきかを知っています。
KLineageを紹介します。これは、専門家のカーネルから欠落している"When"の知識を学習します。
- 参考スコア(独自算出の注目度): 4.0702755941542925
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LLM-based agents are increasingly used to generate GPU kernels, but they often know what optimizations to try without knowing when those optimizations are sound. We introduce KLineage, which learns this missing "when" knowledge from expert kernels: instead of relying on forward rollouts, KLineage walks expert implementations backward through validation-gated simplifications and reverses each accepted step into a reusable optimization skill. Each skill records not only the optimization intent, but also where it applies in code, what conditions made it valid, what effect it had, and what failures its assumptions avoid. A downstream LLM materializes these skills on new code surfaces under the same compile/correctness/profile gate. On five expert workloads across two NVIDIA architectures, these lineage-derived skills serve as an effective optimization curriculum, exceeding recent memory-based LLM-kernel baselines in both final kernel quality and optimization efficiency under the same fixed budget. We additionally use a separate 22-instance held-out check as a sanity test against source-case memorization.
- Abstract(参考訳): LLMベースのエージェントはGPUカーネルの生成にますます使用されているが、それらの最適化がいつ正しいかを知ることなく、どんな最適化を試すべきかをよく知っている。
我々はKLineageを紹介する。KLineageは前回ロールアウトに頼る代わりに、バリデーション付きの単純化を通じて専門家実装を後方に歩き、受け入れた各ステップを再利用可能な最適化スキルに戻す。
それぞれのスキルは、最適化の意図だけでなく、コードに適用される場所、どのような条件が有効なのか、どのような効果があるのか、その仮定の失敗は避けられるのかを記録します。
下流のLLMは、これらのスキルを同じコンパイル/修正/注目ゲートの下で新しいコードサーフェスで実現します。
2つのNVIDIAアーキテクチャにまたがる5つの専門的ワークロードにおいて、これらの系統由来のスキルは、同じ固定予算下での最終的なカーネル品質と最適化効率の両方において、最近のメモリベースのLLMカーネルベースラインを超え、効果的な最適化カリキュラムとして機能する。
また,22項目のホールトアウトチェックを,ソースケースの記憶に対する正当性テストとして使用した。
関連論文リスト
- Prior Knowledge or Search? A Study of LLM Agents in Hardware-Aware Code Optimization [20.018878620048344]
純粋なブラックボックス最適化では、LLMは欲張りとして機能する。
ゼロショットカーネル生成では、明示的な入力サイズ情報を提供するが、測定可能な効果はない。
カーネルサイズが一般的でない場合、使用する言語に関係なく、パフォーマンスは大幅に低下する。
論文 参考訳(メタデータ) (2026-05-19T12:48:48Z) - PerfCodeBench: Benchmarking LLMs for System-Level High-Performance Code Optimization [43.72919370258115]
PerfCodeBenchは、大規模言語モデル(LLM)を高速コード最適化で評価するための実行可能なベンチマークである。
このタスクには、システムレベルの実装選択、ハードウェア対応の最適化、パフォーマンスボトルネックの慎重に処理する必要がある。
我々の評価は、モデル生成コードと専門家最適化実装の間に明確なギャップがあることを示します。
論文 参考訳(メタデータ) (2026-05-13T08:10:26Z) - KernelSkill: A Multi-Agent Framework for GPU Kernel Optimization [37.008713142905336]
本稿では,デュアルレベルメモリアーキテクチャを備えたマルチエージェントフレームワークであるKernelSkillを紹介する。
Kernel Levels 1-3では、KernelSkillはTorch Eagerよりも100%の成功率と平均速度5.44xBench、2.82x、1.92xを達成した。
論文 参考訳(メタデータ) (2026-03-10T13:43:38Z) - Making LLMs Optimize Multi-Scenario CUDA Kernels Like Experts [25.264078143000045]
現在の自動カーネル最適化手法は、科学計算におけるスパースマトリクス操作のようなより広い領域を見渡しながら、機械学習アプリケーションに焦点を当てている。
本稿では,MSBenchを導入したマルチシナリオ設定の体系的評価の欠如に対処する。
このベンチマークに基づいて、GPUプロファイリング情報を活用し、完全なコンパイルおよび実行ツールチェーンを自動構築する、カーネル最適化のためのハードウェア対応システムであるMSMasterを紹介する。
論文 参考訳(メタデータ) (2026-03-07T12:22:43Z) - LLM as a Complementary Optimizer to Gradient Descent: A Case Study in Prompt Tuning [69.95292905263393]
グラデーションベースとハイレベルなLLMは、協調最適化フレームワークを効果的に組み合わせることができることを示す。
本稿では,これらを相互に補完し,組み合わせた最適化フレームワークを効果的に連携させることができることを示す。
論文 参考訳(メタデータ) (2024-05-30T06:24:14Z) - VeLO: Training Versatile Learned Optimizers by Scaling Up [67.90237498659397]
私たちは、ディープラーニングの成功の背後にある同じスケーリングアプローチを活用して、汎用性を学びます。
私たちは、パラメータの更新を取り込み出力する小さなニューラルネットワークであるディープラーニングのためのインジェクションをトレーニングします。
学習したメタトレーニングコード、関連するトレインテストデータ、およびvelo-code.ioのベースラインを備えた広範なベンチマークスイートをオープンソースとして公開しています。
論文 参考訳(メタデータ) (2022-11-17T18:39:07Z) - Learning to Optimize: A Primer and A Benchmark [94.29436694770953]
最適化への学習(L2O)は、機械学習を活用して最適化方法を開発する新しいアプローチです。
この記事では、継続的最適化のためのL2Oの総合的な調査とベンチマークを行う。
論文 参考訳(メタデータ) (2021-03-23T20:46:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。