論文の概要: A Two-Stage GPU Kernel Tuner Combining Semantic Refactoring and Search-Based Optimization
- arxiv url: http://arxiv.org/abs/2601.12698v1
- Date: Mon, 19 Jan 2026 03:40:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:22.746218
- Title: A Two-Stage GPU Kernel Tuner Combining Semantic Refactoring and Search-Based Optimization
- Title(参考訳): セマンティックリファクタリングと探索に基づく最適化を組み合わせた2段階GPUカーネルチューニング
- Authors: Qiuyi Qu, Yicheng Sui, Yufei Sun, Rui Chen, Xiaofei Zhang, Yuzhi Zhang, Haofeng Wang, Ge Lan, Ning Zhang,
- Abstract要約: 本稿では,エージェント駆動反復ループ上にテンプレートベースの書き換え層を導入する。
提案手法は,実運用負荷に対する自動性能最適化を実現するために拡張することができる。
- 参考スコア(独自算出の注目度): 15.104877787433749
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: GPU code optimization is a key performance bottleneck for HPC workloads as well as large-model training and inference. Although compiler optimizations and hand-written kernels can partially alleviate this issue, achieving near-hardware-limit performance still relies heavily on manual code refactoring and parameter tuning. Recent progress in LLM-agent-based kernel generation and optimization has been reported, yet many approaches primarily focus on direct code rewriting, where parameter choices are often implicit and hard to control, or require human intervention, leading to unstable performance gains. This paper introduces a template-based rewriting layer on top of an agent-driven iterative loop: kernels are semantically refactored into explicitly parameterizable templates, and template parameters are then optimized via search-based autotuning, yielding more stable and higher-quality speedups. Experiments on a set of real-world kernels demonstrate speedups exceeding 3x in the best case. We extract representative CUDA kernels from SGLang as evaluation targets; the proposed agentic tuner iteratively performs templating, testing, analysis, and planning, and leverages profiling feedback to execute constrained parameter search under hardware resource limits. Compared to agent-only direct rewriting, the template-plus-search design significantly reduces the randomness of iterative optimization, making the process more interpretable and enabling a more systematic approach toward high-performance configurations. The proposed method can be further extended to OpenCL, HIP, and other backends to deliver automated performance optimization for real production workloads.
- Abstract(参考訳): GPUコードの最適化は、大規模なモデルトレーニングと推論だけでなく、HPCワークロードにおける重要なパフォーマンスボトルネックである。
コンパイラの最適化と手書きのカーネルはこの問題を部分的に軽減できるが、ほぼハードウエアの限界性能を達成するには、手動のコードリファクタリングとパラメータチューニングに大きく依存している。
LLMベースのカーネル生成と最適化の最近の進歩は報告されているが、多くのアプローチは直接コード書き換えに重点を置いている。
本稿では, エージェント駆動反復ループ上にテンプレートベースの書き換えレイヤを導入し, カーネルを意味的にパラメータ化可能なテンプレートにリファクタリングし, テンプレートパラメータを検索ベースオートチューニングにより最適化することで, より安定かつ高品質な高速化を実現する。
実世界のカーネルの実験では、最良の場合、スピードアップが3倍を超えることが示されている。
提案するエージェントチューナはテンプレート,テスト,解析,計画を反復的に実行し,プロファイリングフィードバックを利用してハードウェアリソース制限下で制約パラメータ探索を行う。
エージェントのみの直接書き換えと比較して、テンプレート+検索の設計は反復最適化のランダム性を著しく低減し、プロセスをより解釈可能とし、高性能な構成へのより体系的なアプローチを可能にする。
提案手法はOpenCLやHIP,その他のバックエンドにも拡張可能で,実運用ワークロードの自動パフォーマンス最適化を実現する。
関連論文リスト
- PRAGMA: A Profiling-Reasoned Multi-Agent Framework for Automatic Kernel Optimization [12.24680414520151]
PRAGMAはプロファイル誘導型AIカーネル生成フレームワークである。
実行フィードバックとハードウェアの詳細なプロファイリングを推論ループに統合する。
我々は、GPUとCPUバックエンドをカバーするKernelBench上でPRAGMAを評価する。
論文 参考訳(メタデータ) (2025-11-09T12:01:43Z) - STARK: Strategic Team of Agents for Refining Kernels [23.717055490630596]
我々は,GPUカーネル最適化のためのエージェントフレームワークを導入し,マルチエージェント協調による設計空間を探索する。
このフレームワークはエキスパートエンジニアのワークフローを模倣し、LCMがハードウェアトレードオフを推論し、プロファイリングフィードバックを取り入れ、カーネルを反復的に洗練することを可能にする。
我々は,LLMに基づくカーネル最適化のベンチマークであるKernelBenchに対するアプローチを評価し,ベースラインエージェントよりも大幅に改善したことを示す。
論文 参考訳(メタデータ) (2025-10-19T20:41:46Z) - Towards Robust Agentic CUDA Kernel Benchmarking, Verification, and Optimization [25.135006275638172]
本稿では,カーネル性能の厳密な評価と,さまざまなシナリオにおける正当性評価のための新しいベンチマークである,ロバスト・クベンチを紹介する。
また、トーチコードをカーネルに変換し、ランタイム設定を反復的に改善する包括的なエージェントフレームワークを提案する。
提案手法は,フォワードパスやバックパスを含む,実用アプリケーションのためのトーチ実装よりも優れたカーネルを生成する。
論文 参考訳(メタデータ) (2025-09-16T11:08:30Z) - COrAL: Order-Agnostic Language Modeling for Efficient Iterative Refinement [80.18490952057125]
反復改良は、複雑なタスクにおける大規模言語モデル(LLM)の能力を高める効果的なパラダイムとして登場した。
我々はこれらの課題を克服するために、コンテキストワイズ順序非依存言語モデリング(COrAL)を提案する。
当社のアプローチでは、管理可能なコンテキストウィンドウ内で複数のトークン依存関係をモデル化しています。
論文 参考訳(メタデータ) (2024-10-12T23:56:19Z) - RTLRewriter: Methodologies for Large Models aided RTL Code Optimization [21.61206887869307]
本稿では,RTLコードの最適化に大規模なモデルを活用する革新的なフレームワークであるRTLRewriterを紹介する。
回路分割パイプラインを高速な合成と効率的な書き換えに利用する。
特別な検索エンジンは、有用な最適化ガイド、アルゴリズム、コードスニペットを特定するように設計されている。
論文 参考訳(メタデータ) (2024-09-04T09:59:37Z) - Harnessing Deep Learning and HPC Kernels via High-Level Loop and Tensor Abstractions on CPU Architectures [67.47328776279204]
この研究は、効率的でポータブルなDeep LearningとHigh Performance Computingカーネルを開発するためのフレームワークを導入している。
1)プロセッシングプリミティブ(TPP)を用いた計算コアの表現と,2)高レベルな宣言的手法でTPPのまわりの論理ループの表現の2つのステップでカーネルの開発を分解する。
我々は、スタンドアロンカーネルと、さまざまなCPUプラットフォームにおける最先端実装よりも優れたエンドツーエンドワークロードを使用して、このアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-04-25T05:04:44Z) - Performance Embeddings: A Similarity-based Approach to Automatic
Performance Optimization [71.69092462147292]
パフォーマンス埋め込みは、アプリケーション間でパフォーマンスチューニングの知識伝達を可能にする。
本研究では, 深層ニューラルネットワーク, 密度およびスパース線形代数合成, および数値風速予測ステンシルのケーススタディにおいて, この伝達チューニング手法を実証する。
論文 参考訳(メタデータ) (2023-03-14T15:51:35Z) - Reducing the Variance of Gaussian Process Hyperparameter Optimization
with Preconditioning [54.01682318834995]
プレコンディショニングは、行列ベクトル乗算を含む反復的な方法にとって非常に効果的なステップである。
プレコンディショニングには、これまで検討されていなかった付加的なメリットがあることを実証する。
基本的に無視可能なコストで、同時に分散を低減することができる。
論文 参考訳(メタデータ) (2021-07-01T06:43:11Z) - Static Neural Compiler Optimization via Deep Reinforcement Learning [1.458855293397494]
本稿では,位相整合問題に対する深層強化学習手法を用いる。
LLVMのO3シークエンスを構成するサブシーケンスを用いて、エージェントはトレーニングに使用するソースコードのセット上でO3シークエンスより優れていることを学習する。
我々は、我々のアプローチを用いて訓練されたモデルは、ニューラル最適化エージェントとして現代のコンパイラに統合できると考えている。
論文 参考訳(メタデータ) (2020-08-20T13:16:29Z) - Global Optimization of Gaussian processes [52.77024349608834]
少数のデータポイントで学習したガウス過程を訓練した空間定式化を提案する。
このアプローチはまた、より小さく、計算的にもより安価なサブソルバを低いバウンディングに導く。
提案手法の順序の順序による時間収束を,総じて低減する。
論文 参考訳(メタデータ) (2020-05-21T20:59:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。