論文の概要: KernelSkill: A Multi-Agent Framework for GPU Kernel Optimization
- arxiv url: http://arxiv.org/abs/2603.10085v1
- Date: Tue, 10 Mar 2026 13:43:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-12 16:22:32.625912
- Title: KernelSkill: A Multi-Agent Framework for GPU Kernel Optimization
- Title(参考訳): KernelSkill:GPUカーネル最適化のためのマルチエージェントフレームワーク
- Authors: Qitong Sun, Jun Han, Tianlin Li, Zhe Tang, Sheng Chen, Fei Yang, Aishan Liu, Xianglong Liu, Yang Liu,
- Abstract要約: 本稿では,デュアルレベルメモリアーキテクチャを備えたマルチエージェントフレームワークであるKernelSkillを紹介する。
Kernel Levels 1-3では、KernelSkillはTorch Eagerよりも100%の成功率と平均速度5.44xBench、2.82x、1.92xを達成した。
- 参考スコア(独自算出の注目度): 37.008713142905336
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Improving GPU kernel efficiency is crucial for advancing AI systems. Recent work has explored leveraging large language models (LLMs) for GPU kernel generation and optimization. However, existing LLM-based kernel optimization pipelines typically rely on opaque, implicitly learned heuristics within the LLMs to determine optimization strategies. This leads to inefficient trial-and-error and weakly interpretable optimizations. Our key insight is to replace implicit heuristics with expert optimization skills that are knowledge-driven and aware of task trajectories. Specifically, we present KernelSkill, a multi-agent framework with a dual-level memory architecture. KernelSkill operates by coordinating agents with long-term memory of reusable expert skills and short-term memory to prevent repetitive backtracking. On KernelBench Levels 1-3, KernelSkill achieves a 100% success rate and average speedups of 5.44x, 2.82x, and 1.92x over Torch Eager on Levels 1, 2, and 3, respectively, outperforming prior baselines. Code is available at https://github.com/0satan0/KernelMem/.
- Abstract(参考訳): AIシステムの進歩には、GPUカーネルの効率性の向上が不可欠だ。
最近の研究は、GPUカーネルの生成と最適化に大規模言語モデル(LLM)を活用することを検討している。
しかし、既存のLLMベースのカーネル最適化パイプラインは通常、最適化戦略を決定するためにLLM内の暗黙的に学習されたヒューリスティックに依存している。
これは非効率な試行錯誤と弱い解釈可能な最適化をもたらす。
私たちの重要な洞察は、暗黙のヒューリスティックを、知識駆動でタスク軌跡を認識する専門家の最適化スキルに置き換えることです。
具体的には、デュアルレベルメモリアーキテクチャを備えたマルチエージェントフレームワークであるKernelSkillを紹介する。
KernelSkillは、再利用可能な専門家スキルと短期記憶の長期記憶を持つエージェントをコーディネートすることで、反復的なバックトラッキングを防ぐ。
KernelBench Levels 1-3では、KernelSkillはTorch Eagerよりも100%の成功率と平均速度を5.44x、2.82x、1.92xを達成する。
コードはhttps://github.com/0satan0/KernelMem/で入手できる。
関連論文リスト
- Making LLMs Optimize Multi-Scenario CUDA Kernels Like Experts [25.264078143000045]
現在の自動カーネル最適化手法は、科学計算におけるスパースマトリクス操作のようなより広い領域を見渡しながら、機械学習アプリケーションに焦点を当てている。
本稿では,MSBenchを導入したマルチシナリオ設定の体系的評価の欠如に対処する。
このベンチマークに基づいて、GPUプロファイリング情報を活用し、完全なコンパイルおよび実行ツールチェーンを自動構築する、カーネル最適化のためのハードウェア対応システムであるMSMasterを紹介する。
論文 参考訳(メタデータ) (2026-03-07T12:22:43Z) - CUDA Agent: Large-Scale Agentic RL for High-Performance CUDA Kernel Generation [51.72529978689561]
Agentは、カーネルの専門知識を3つのコンポーネントで開発する大規模なエージェント強化学習システムである。
AgentはKernelBench上で、トーチコンパイルよりも100%、100%、92%高速なレートを提供する。
論文 参考訳(メタデータ) (2026-02-27T18:58:05Z) - KernelBlaster: Continual Cross-Task CUDA Optimization via Memory-Augmented In-Context Reinforcement Learning [3.4998382481249286]
我々は、テストハーネス、検証コンポーネント、再現可能な評価を伴って、オープンソースのエージェントフレームワークとしてKernelBlasterをリリースした。
提案手法は, KernelBench Levels 1, 2, 3 の平均速度をそれぞれ 1.43x, 2.50x, 1.50x とする。
論文 参考訳(メタデータ) (2026-02-15T19:48:43Z) - Optimizing PyTorch Inference with LLM-Based Multi-Agent Systems [1.2289544895833646]
マルチエージェントPyTorch最適化システムを比較するためのフレームワークを提案する。
エラー修正エージェントと組み合わせた場合,エクスプロイトヘビー戦略が最善であることを示す。
最も優れた実装は、H100 GPU上で平均2.88倍のスピードアップを達成する。
論文 参考訳(メタデータ) (2025-11-21T05:37:38Z) - STARK: Strategic Team of Agents for Refining Kernels [23.717055490630596]
我々は,GPUカーネル最適化のためのエージェントフレームワークを導入し,マルチエージェント協調による設計空間を探索する。
このフレームワークはエキスパートエンジニアのワークフローを模倣し、LCMがハードウェアトレードオフを推論し、プロファイリングフィードバックを取り入れ、カーネルを反復的に洗練することを可能にする。
我々は,LLMに基づくカーネル最適化のベンチマークであるKernelBenchに対するアプローチを評価し,ベースラインエージェントよりも大幅に改善したことを示す。
論文 参考訳(メタデータ) (2025-10-19T20:41:46Z) - SwizzlePerf: Hardware-Aware LLMs for GPU Kernel Performance Optimization [4.043444100380313]
SwizzlePerfは、分散アーキテクチャ上でGPUカーネルの空間最適化を自動的に生成する。
SwizzlePerfは10種類のMLカーネルとScienceカーネルのスイートで、最大2.06倍のスピードアップとL2ヒットレートの70%の改善を実現する9つのカーネルのスワズリングパターンを生成することができる。
論文 参考訳(メタデータ) (2025-08-27T20:30:43Z) - vTensor: Flexible Virtual Tensor Management for Efficient LLM Serving [53.972175896814505]
大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。
大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。
論文 参考訳(メタデータ) (2024-07-22T14:37:58Z) - Harnessing Deep Learning and HPC Kernels via High-Level Loop and Tensor Abstractions on CPU Architectures [67.47328776279204]
この研究は、効率的でポータブルなDeep LearningとHigh Performance Computingカーネルを開発するためのフレームワークを導入している。
1)プロセッシングプリミティブ(TPP)を用いた計算コアの表現と,2)高レベルな宣言的手法でTPPのまわりの論理ループの表現の2つのステップでカーネルの開発を分解する。
我々は、スタンドアロンカーネルと、さまざまなCPUプラットフォームにおける最先端実装よりも優れたエンドツーエンドワークロードを使用して、このアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-04-25T05:04:44Z) - Kernel methods through the roof: handling billions of points efficiently [94.31450736250918]
カーネル法は、非パラメトリック学習に対するエレガントで原則化されたアプローチを提供するが、今のところ大規模な問題ではほとんど利用できない。
最近の進歩は、最適化、数値線形代数、ランダム射影など、多くのアルゴリズム的アイデアの利点を示している。
ここでは、これらの取り組みをさらに進めて、GPUハードウェアを最大限に活用する解決器を開発し、テストする。
論文 参考訳(メタデータ) (2020-06-18T08:16:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。