Fugu-MT 論文翻訳(概要): cuPilot: A Strategy-Coordinated Multi-agent Framework for CUDA Kernel Evolution

論文の概要: cuPilot: A Strategy-Coordinated Multi-agent Framework for CUDA Kernel Evolution

arxiv url: http://arxiv.org/abs/2512.16465v1
Date: Thu, 18 Dec 2025 12:34:00 GMT
ステータス: 翻訳完了
システム内更新日: 2025-12-19 18:10:32.052931
Title: cuPilot: A Strategy-Coordinated Multi-agent Framework for CUDA Kernel Evolution
Title（参考訳）: cuPilot:CUDAカーネル進化のための戦略協調型マルチエージェントフレームワーク
Authors: Jinwu Chen, Qidie Wu, Bin Li, Lin Ma, Xin Si, Yang Hu, Shouyi Yin, Jun Yang,
Abstract要約: cuPilotは戦略協調型マルチエージェントフレームワークで、カーネル進化の中間的な意味表現として戦略を導入する。 GEMMタスクでは、cuPilotは高度な最適化を示し、重要なハードウェアユニットの高利用を実現する。
参考スコア（独自算出の注目度）: 15.701861287574296
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Optimizing CUDA kernels is a challenging and labor-intensive task, given the need for hardware-software co-design expertise and the proprietary nature of high-performance kernel libraries. While recent large language models (LLMs) combined with evolutionary algorithms show promise in automatic kernel optimization, existing approaches often fall short in performance due to their suboptimal agent designs and mismatched evolution representations. This work identifies these mismatches and proposes cuPilot, a strategy-coordinated multi-agent framework that introduces strategy as an intermediate semantic representation for kernel evolution. Key contributions include a strategy-coordinated evolution algorithm, roofline-guided prompting, and strategy-level population initialization. Experimental results show that the generated kernels by cuPilot achieve an average speed up of 3.09$\times$ over PyTorch on a benchmark of 100 kernels. On the GEMM tasks, cuPilot showcases sophisticated optimizations and achieves high utilization of critical hardware units. The generated kernels are open-sourced at https://github.com/champloo2878/cuPilot-Kernels.git.
Abstract（参考訳）: ハードウェアとソフトウェアの共同設計の専門知識と高性能カーネルライブラリの独自性を必要とすることを考えると、CUDAカーネルの最適化は困難で労働集約的な作業である。近年の大規模言語モデル (LLM) と進化的アルゴリズムが組み合わさって、カーネルの自動最適化が期待できる一方で、既存のアプローチは、最適なエージェント設計とミスマッチした進化表現のために、しばしば性能が低下する。本研究はこれらのミスマッチを特定し,カーネル進化の中間的意味表現として戦略を導入する戦略協調型マルチエージェントフレームワークであるcuPilotを提案する。主な貢献は、戦略協調進化アルゴリズム、屋上誘導プロンプト、戦略レベルの人口初期化である。実験結果から、cuPilotが生成したカーネルは100カーネルのベンチマークで平均速度3.09$\times$ over PyTorchを達成した。 GEMMタスクでは、cuPilotは高度な最適化を示し、重要なハードウェアユニットの高利用を実現する。生成されたカーネルはhttps://github.com/champloo2878/cuPilot-Kernels.gitでオープンソース化されている。

関連論文リスト

CUDA Agent: Large-Scale Agentic RL for High-Performance CUDA Kernel Generation [51.72529978689561]
Agentは、カーネルの専門知識を3つのコンポーネントで開発する大規模なエージェント強化学習システムである。 AgentはKernelBench上で、トーチコンパイルよりも100%、100%、92%高速なレートを提供する。
論文参考訳（メタデータ） (2026-02-27T18:58:05Z)
K-Search: LLM Kernel Generation via Co-Evolving Intrinsic World Model [57.440609834690385]
既存のアプローチでは、進化ループ内の高速コードジェネレータとして、LLM(Large Language Models)を扱います。我々は,共進化的世界モデルによる検索を提案し,この手法に基づいてK-Searchを構築する。 GQA, MLA, MoE カーネルを含む多種多様な複雑なカーネル上で K-Search を評価する。
論文参考訳（メタデータ） (2026-02-22T11:06:22Z)
AKG kernel Agent: A Multi-Agent Framework for Cross-Platform Kernel Synthesis [13.239454996851771]
現代のAIモデルは高性能な計算カーネルを必要とする。 Akgカーネルエージェント(AI駆動のカーネルジェネレータ)は複数のドメイン固有言語をサポートするように設計されている。システムのモジュール設計により、バックエンドDSLとハードウェアターゲットの迅速な統合が可能になる。システムはPyTorch Eagerベースライン上で平均1.46ドルのスピードアップを達成する。
論文参考訳（メタデータ） (2025-12-29T12:42:05Z)
KernelEvolve: Scaling Agentic Kernel Coding for Heterogeneous AI Accelerators at Meta [8.852510847427164]
本稿では,深層学習レコメンデーションモデル(DLRM)のためのヘテロジニアス・スケールに対処するカーネル・カーネル・プログラミング・フレームワークKernelEvolveを提案する。 KernelEvolveは、カーネル仕様を入力とし、異種ハードウェアアーキテクチャにおける推奨モデルのためのカーネル生成と最適化のプロセスを自動化するように設計されている。我々は、KernelEvolveが開発時間を数週間から数時間に短縮し、PyTorchベースラインに対する大幅なパフォーマンス改善を、さまざまなプロダクションユースケースと、大規模な異種AIシステムに対して示す。
論文参考訳（メタデータ） (2025-12-29T06:31:55Z)
Optimizing PyTorch Inference with LLM-Based Multi-Agent Systems [1.2289544895833646]
マルチエージェントPyTorch最適化システムを比較するためのフレームワークを提案する。エラー修正エージェントと組み合わせた場合,エクスプロイトヘビー戦略が最善であることを示す。最も優れた実装は、H100 GPU上で平均2.88倍のスピードアップを達成する。
論文参考訳（メタデータ） (2025-11-21T05:37:38Z)
CudaForge: An Agent Framework with Hardware Feedback for CUDA Kernel Optimization [36.794824560677064]
CudaForgeは、カーネル生成と最適化のためのトレーニング不要なマルチエージェントワークフローである。 OpenAI-o3のようなベースモデルを活用することで、CudaForgeは97.6%の正しさと平均1.68$times$スピードアップを達成した。
論文参考訳（メタデータ） (2025-10-23T22:52:00Z)
Towards Robust Agentic CUDA Kernel Benchmarking, Verification, and Optimization [25.135006275638172]
本稿では,カーネル性能の厳密な評価と,さまざまなシナリオにおける正当性評価のための新しいベンチマークである,ロバスト・クベンチを紹介する。また、トーチコードをカーネルに変換し、ランタイム設定を反復的に改善する包括的なエージェントフレームワークを提案する。提案手法は,フォワードパスやバックパスを含む,実用アプリケーションのためのトーチ実装よりも優れたカーネルを生成する。
論文参考訳（メタデータ） (2025-09-16T11:08:30Z)
Astra: A Multi-Agent System for GPU Kernel Performance Optimization [10.715861478214961]
我々はGPUカーネル最適化のための最初のマルチエージェントシステムであるAstraを紹介する。 Astra内では、コード生成、プロファイリング、そして正確かつ高性能なカーネルの生成計画を通じて、特殊なエージェントが協力する。
論文参考訳（メタデータ） (2025-09-09T08:39:50Z)
Explore as a Storm, Exploit as a Raindrop: On the Benefit of Fine-Tuning Kernel Schedulers with Coordinate Descent [48.791943145735]
カーネルの品質を向上しながら,Ansorの検索時間を短縮する可能性を示す。このアプローチを、Ansorが生成した最初の300のカーネルに適用する。この結果は20の有名なディープラーニングモデルで再現されている。
論文参考訳（メタデータ） (2024-06-28T16:34:22Z)
Harnessing Deep Learning and HPC Kernels via High-Level Loop and Tensor Abstractions on CPU Architectures [67.47328776279204]
この研究は、効率的でポータブルなDeep LearningとHigh Performance Computingカーネルを開発するためのフレームワークを導入している。 1)プロセッシングプリミティブ(TPP)を用いた計算コアの表現と,2)高レベルな宣言的手法でTPPのまわりの論理ループの表現の2つのステップでカーネルの開発を分解する。我々は、スタンドアロンカーネルと、さまざまなCPUプラットフォームにおける最先端実装よりも優れたエンドツーエンドワークロードを使用して、このアプローチの有効性を実証する。
論文参考訳（メタデータ） (2023-04-25T05:04:44Z)
Structural Kernel Search via Bayesian Optimization and Symbolical Optimal Transport [5.1672267755831705]
ガウスのプロセスでは、カーネルの選択は重要なタスクであり、しばしば専門家が手動で行う。本稿では,カーネル空間を包含する新しい効率的な探索法を提案する。
論文参考訳（メタデータ） (2022-10-21T09:30:21Z)
Kernel Identification Through Transformers [54.3795894579111]
カーネル選択はガウス過程(GP)モデルの性能決定において中心的な役割を果たす。この研究は、高次元GP回帰モデルのためのカスタムカーネル関数を構築するという課題に対処する。 KITT: Kernel Identification through Transformersを提案する。
論文参考訳（メタデータ） (2021-06-15T14:32:38Z)
PolyScientist: Automatic Loop Transformations Combined with Microkernels for Optimization of Deep Learning Primitives [55.79741270235602]
深層学習カーネル開発のためのハイブリッドソリューションを開発する。我々は、高度な多面体技術を用いて、パフォーマンスのために外部ループを自動的に調整する。
論文参考訳（メタデータ） (2020-02-06T08:02:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。