論文の概要: STARK: Strategic Team of Agents for Refining Kernels
- arxiv url: http://arxiv.org/abs/2510.16996v1
- Date: Sun, 19 Oct 2025 20:41:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 00:56:39.24003
- Title: STARK: Strategic Team of Agents for Refining Kernels
- Title(参考訳): STARK:カーネル精製のためのエージェントの戦略的チーム
- Authors: Juncheng Dong, Yang Yang, Tao Liu, Yang Wang, Feng Qi, Vahid Tarokh, Kaushik Rangadurai, Shuang Yang,
- Abstract要約: 我々は,GPUカーネル最適化のためのエージェントフレームワークを導入し,マルチエージェント協調による設計空間を探索する。
このフレームワークはエキスパートエンジニアのワークフローを模倣し、LCMがハードウェアトレードオフを推論し、プロファイリングフィードバックを取り入れ、カーネルを反復的に洗練することを可能にする。
我々は,LLMに基づくカーネル最適化のベンチマークであるKernelBenchに対するアプローチを評価し,ベースラインエージェントよりも大幅に改善したことを示す。
- 参考スコア(独自算出の注目度): 23.717055490630596
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The efficiency of GPU kernels is central to the progress of modern AI, yet optimizing them remains a difficult and labor-intensive task due to complex interactions between memory hierarchies, thread scheduling, and hardware-specific characteristics. While recent advances in large language models (LLMs) provide new opportunities for automated code generation, existing approaches largely treat LLMs as single-shot generators or naive refinement tools, limiting their effectiveness in navigating the irregular kernel optimization landscape. We introduce an LLM agentic framework for GPU kernel optimization that systematically explores the design space through multi-agent collaboration, grounded instruction, dynamic context management, and strategic search. This framework mimics the workflow of expert engineers, enabling LLMs to reason about hardware trade-offs, incorporate profiling feedback, and refine kernels iteratively. We evaluate our approach on KernelBench, a benchmark for LLM-based kernel optimization, and demonstrate substantial improvements over baseline agents: our system produces correct solutions where baselines often fail, and achieves kernels with up to 16x faster runtime performance. These results highlight the potential of agentic LLM frameworks to advance fully automated, scalable GPU kernel optimization.
- Abstract(参考訳): GPUカーネルの効率性は、現代のAIの進歩の中心であるが、メモリ階層、スレッドスケジューリング、ハードウェア固有の特性の間の複雑な相互作用のため、それらを最適化することは難しく、労働集約的な課題である。
大規模言語モデル(LLM)の最近の進歩は、自動化されたコード生成の新しい機会を提供する一方で、既存のアプローチは、LLMをシングルショットジェネレータや単純かつ洗練されたツールとして扱い、不規則なカーネル最適化の展望をナビゲートする効果を制限している。
我々は,GPUカーネル最適化のためのLLMエージェントフレームワークを導入し,マルチエージェントコラボレーション,接地命令,動的コンテキスト管理,戦略的検索を通じて設計空間を体系的に探索する。
このフレームワークはエキスパートエンジニアのワークフローを模倣し、LCMがハードウェアトレードオフを推論し、プロファイリングフィードバックを取り入れ、カーネルを反復的に洗練することを可能にする。
我々は、LLMベースのカーネル最適化のベンチマークであるKernelBenchに対するアプローチを評価し、ベースラインエージェントよりも大幅に改善した。
これらの結果は、完全に自動化されスケーラブルなGPUカーネル最適化を進めるためのエージェントLLMフレームワークの可能性を強調している。
関連論文リスト
- xLLM Technical Report [57.13120905321185]
我々は,知的かつ効率的なLarge Language Model (LLM)推論フレームワークであるxLLMを紹介する。
xLLMは、新しい分離されたサービスエンジンアーキテクチャを構築する。
xLLM-Engineは、システムとアルゴリズムの設計を最適化し、コンピュータリソースを完全に飽和させる。
論文 参考訳(メタデータ) (2025-10-16T13:53:47Z) - Evolution of Kernels: Automated RISC-V Kernel Optimization with Large Language Models [26.985412258634256]
大規模言語モデル(LLM)は、自動化されたカーネル最適化の約束を示し、包括的な技術ドキュメントと成熟した不足を伴うドメインの成功を示している。
本稿では,LLMベースの進化的プログラム検索フレームワークであるEvolution of Kernels(EoK)について紹介する。
EoKは中央値1.27倍のスピードアップを達成した。
論文 参考訳(メタデータ) (2025-09-14T08:11:06Z) - Astra: A Multi-Agent System for GPU Kernel Performance Optimization [10.715861478214961]
我々はGPUカーネル最適化のための最初のマルチエージェントシステムであるAstraを紹介する。
Astra内では、コード生成、プロファイリング、そして正確かつ高性能なカーネルの生成計画を通じて、特殊なエージェントが協力する。
論文 参考訳(メタデータ) (2025-09-09T08:39:50Z) - GPU Kernel Scientist: An LLM-Driven Framework for Iterative Kernel Optimization [0.0]
本稿では,アクセルカーネルを反復精製する自動化手法を提案する。
本手法は多段階進化過程においてLLMを用いる。
このアプローチがAMD MI300ターゲットアーキテクチャの課題をどのようにナビゲートするかを詳述する。
論文 参考訳(メタデータ) (2025-06-25T19:59:34Z) - CUDA-LLM: LLMs Can Write Efficient CUDA Kernels [9.287036563375617]
大規模言語モデル(LLM)は汎用コード生成において強力な機能を示している。
我々は,textbfFeature SearchReinforcement (FSR) FSRという新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-10T10:51:03Z) - Training of Scaffolded Language Models with Language Supervision: A Survey [62.59629932720519]
本調査は,戦後のLM周辺における新規構造物の設計と最適化に関する文献を整理した。
本稿では,この階層構造を足場型LMと呼び,ツールを用いた多段階プロセスに統合されたLMに焦点を当てる。
論文 参考訳(メタデータ) (2024-10-21T18:06:25Z) - LLM as a Complementary Optimizer to Gradient Descent: A Case Study in Prompt Tuning [69.95292905263393]
グラデーションベースとハイレベルなLLMは、協調最適化フレームワークを効果的に組み合わせることができることを示す。
本稿では,これらを相互に補完し,組み合わせた最適化フレームワークを効果的に連携させることができることを示す。
論文 参考訳(メタデータ) (2024-05-30T06:24:14Z) - Harnessing Deep Learning and HPC Kernels via High-Level Loop and Tensor Abstractions on CPU Architectures [67.47328776279204]
この研究は、効率的でポータブルなDeep LearningとHigh Performance Computingカーネルを開発するためのフレームワークを導入している。
1)プロセッシングプリミティブ(TPP)を用いた計算コアの表現と,2)高レベルな宣言的手法でTPPのまわりの論理ループの表現の2つのステップでカーネルの開発を分解する。
我々は、スタンドアロンカーネルと、さまざまなCPUプラットフォームにおける最先端実装よりも優れたエンドツーエンドワークロードを使用して、このアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-04-25T05:04:44Z) - PolyScientist: Automatic Loop Transformations Combined with Microkernels
for Optimization of Deep Learning Primitives [55.79741270235602]
深層学習カーネル開発のためのハイブリッドソリューションを開発する。
我々は、高度な多面体技術を用いて、パフォーマンスのために外部ループを自動的に調整する。
論文 参考訳(メタデータ) (2020-02-06T08:02:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。