Fugu-MT 論文翻訳(概要): AKG kernel Agent: A Multi-Agent Framework for Cross-Platform Kernel Synthesis

論文の概要: AKG kernel Agent: A Multi-Agent Framework for Cross-Platform Kernel Synthesis

arxiv url: http://arxiv.org/abs/2512.23424v1
Date: Mon, 29 Dec 2025 12:42:05 GMT
ステータス: 翻訳完了
システム内更新日: 2025-12-30 22:37:30.494793
Title: AKG kernel Agent: A Multi-Agent Framework for Cross-Platform Kernel Synthesis
Title（参考訳）: AKGカーネルエージェント:クロスプラットフォームカーネル合成のためのマルチエージェントフレームワーク
Authors: Jinye Du, Quan Yuan, Zuyao Zhang, Yanzhi Yi, Jiahui Hu, Wangyi Chen, Yiyang Zhu, Qishui Zheng, Wenxiang Zou, Xiangyu Chang, Zuohe Zheng, Zichun Ye, Chao Liu, Shanni Li, Renwei Zhang, Yiping Deng, Xinwei Hu, Xuefeng Jin, Jie Zhao,
Abstract要約: 現代のAIモデルは高性能な計算カーネルを必要とする。 Akgカーネルエージェント(AI駆動のカーネルジェネレータ)は複数のドメイン固有言語をサポートするように設計されている。システムのモジュール設計により、バックエンドDSLとハードウェアターゲットの迅速な統合が可能になる。システムはPyTorch Eagerベースライン上で平均1.46ドルのスピードアップを達成する。
参考スコア（独自算出の注目度）: 13.239454996851771
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Modern AI models demand high-performance computation kernels. The growing complexity of LLMs, multimodal architectures, and recommendation systems, combined with techniques like sparsity and quantization, creates significant computational challenges. Moreover, frequent hardware updates and diverse chip architectures further complicate this landscape, requiring tailored kernel implementations for each platform. However, manual optimization cannot keep pace with these demands, creating a critical bottleneck in AI system development. Recent advances in LLM code generation capabilities have opened new possibilities for automating kernel development. In this work, we propose AKG kernel agent (AI-driven Kernel Generator), a multi-agent system that automates kernel generation, migration, and performance tuning. AKG kernel agent is designed to support multiple domain-specific languages (DSLs), including Triton, TileLang, CPP, and CUDA-C, enabling it to target different hardware backends while maintaining correctness and portability. The system's modular design allows rapid integration of new DSLs and hardware targets. When evaluated on KernelBench using Triton DSL across GPU and NPU backends, AKG kernel agent achieves an average speedup of 1.46$\times$ over PyTorch Eager baselines implementations, demonstrating its effectiveness in accelerating kernel development for modern AI workloads.
Abstract（参考訳）: 現代のAIモデルは高性能な計算カーネルを必要とする。 LLM、マルチモーダルアーキテクチャ、レコメンデーションシステムの複雑さが増大し、空間性や量子化といった技術が組み合わさって、計算上の大きな課題を生み出している。さらに、頻繁なハードウェアアップデートと多様なチップアーキテクチャは、この状況をさらに複雑にし、各プラットフォーム用に適切なカーネル実装を必要としている。しかし、手動の最適化はこれらの要求に間に合わないため、AIシステム開発において重要なボトルネックを生み出す。 LLMコード生成能力の最近の進歩は、カーネル開発を自動化する新しい可能性を開いた。本研究では,カーネル生成,マイグレーション,パフォーマンスチューニングを自動化するマルチエージェントシステムであるAKGカーネルエージェント(AI駆動カーネルジェネレータ)を提案する。 AKGカーネルエージェントは、Triton、TileLang、CPP、CUDA-Cを含む複数のドメイン固有言語(DSL)をサポートするように設計されている。このシステムのモジュラー設計は、新しいDSLとハードウェアターゲットの迅速な統合を可能にする。 GPUとNPUバックエンドでTriton DSLを使用してKernelBench上で評価されると、AKGカーネルエージェントはPyTorch Eagerベースライン実装よりも平均1.46$\times$のスピードアップを達成する。

関連論文リスト

CUDA Agent: Large-Scale Agentic RL for High-Performance CUDA Kernel Generation [51.72529978689561]
Agentは、カーネルの専門知識を3つのコンポーネントで開発する大規模なエージェント強化学習システムである。 AgentはKernelBench上で、トーチコンパイルよりも100%、100%、92%高速なレートを提供する。
論文参考訳（メタデータ） (2026-02-27T18:58:05Z)
Hexagon-MLIR: An AI Compilation Stack For Qualcomm's Neural Processing Units (NPUs) [3.8043062351078585]
Hexagon-MLIRは、Qualcomm Hexagon Neural Processing Unit (NPU)をターゲットにしたオープンソースのコンパイルスタックである。トリトンカーネルとPyTorchモデルを下げるための統一的なサポートを提供する。
論文参考訳（メタデータ） (2026-02-23T12:12:39Z)
K-Search: LLM Kernel Generation via Co-Evolving Intrinsic World Model [57.440609834690385]
既存のアプローチでは、進化ループ内の高速コードジェネレータとして、LLM(Large Language Models)を扱います。我々は,共進化的世界モデルによる検索を提案し,この手法に基づいてK-Searchを構築する。 GQA, MLA, MoE カーネルを含む多種多様な複雑なカーネル上で K-Search を評価する。
論文参考訳（メタデータ） (2026-02-22T11:06:22Z)
KernelEvolve: Scaling Agentic Kernel Coding for Heterogeneous AI Accelerators at Meta [8.852510847427164]
本稿では,深層学習レコメンデーションモデル(DLRM)のためのヘテロジニアス・スケールに対処するカーネル・カーネル・プログラミング・フレームワークKernelEvolveを提案する。 KernelEvolveは、カーネル仕様を入力とし、異種ハードウェアアーキテクチャにおける推奨モデルのためのカーネル生成と最適化のプロセスを自動化するように設計されている。我々は、KernelEvolveが開発時間を数週間から数時間に短縮し、PyTorchベースラインに対する大幅なパフォーマンス改善を、さまざまなプロダクションユースケースと、大規模な異種AIシステムに対して示す。
論文参考訳（メタデータ） (2025-12-29T06:31:55Z)
cuPilot: A Strategy-Coordinated Multi-agent Framework for CUDA Kernel Evolution [15.701861287574296]
cuPilotは戦略協調型マルチエージェントフレームワークで、カーネル進化の中間的な意味表現として戦略を導入する。 GEMMタスクでは、cuPilotは高度な最適化を示し、重要なハードウェアユニットの高利用を実現する。
論文参考訳（メタデータ） (2025-12-18T12:34:00Z)
Optimizing PyTorch Inference with LLM-Based Multi-Agent Systems [1.2289544895833646]
マルチエージェントPyTorch最適化システムを比較するためのフレームワークを提案する。エラー修正エージェントと組み合わせた場合,エクスプロイトヘビー戦略が最善であることを示す。最も優れた実装は、H100 GPU上で平均2.88倍のスピードアップを達成する。
論文参考訳（メタデータ） (2025-11-21T05:37:38Z)
Eliminating Multi-GPU Performance Taxes: A Systems Approach to Efficient Distributed LLMs [61.953548065938385]
分析フレームワークとして'3つの税'(バルク同期、カーネル間データローカリティ、カーネルローンチオーバーヘッド)を紹介した。我々は、分散GPU実行におけるキー非効率に対処するために、厳密なBSPモデルを超えて移動することを提案する。 BSPベースのアプローチによるエンドツーエンドのレイテンシの10-20%の高速化を観察する。
論文参考訳（メタデータ） (2025-11-04T01:15:44Z)
STARK: Strategic Team of Agents for Refining Kernels [23.717055490630596]
我々は,GPUカーネル最適化のためのエージェントフレームワークを導入し,マルチエージェント協調による設計空間を探索する。このフレームワークはエキスパートエンジニアのワークフローを模倣し、LCMがハードウェアトレードオフを推論し、プロファイリングフィードバックを取り入れ、カーネルを反復的に洗練することを可能にする。我々は,LLMに基づくカーネル最適化のベンチマークであるKernelBenchに対するアプローチを評価し,ベースラインエージェントよりも大幅に改善したことを示す。
論文参考訳（メタデータ） (2025-10-19T20:41:46Z)
xLLM Technical Report [57.13120905321185]
我々は,知的かつ効率的なLarge Language Model (LLM)推論フレームワークであるxLLMを紹介する。 xLLMは、新しい分離されたサービスエンジンアーキテクチャを構築する。 xLLM-Engineは、システムとアルゴリズムの設計を最適化し、コンピュータリソースを完全に飽和させる。
論文参考訳（メタデータ） (2025-10-16T13:53:47Z)
Harnessing Deep Learning and HPC Kernels via High-Level Loop and Tensor Abstractions on CPU Architectures [67.47328776279204]
この研究は、効率的でポータブルなDeep LearningとHigh Performance Computingカーネルを開発するためのフレームワークを導入している。 1)プロセッシングプリミティブ(TPP)を用いた計算コアの表現と,2)高レベルな宣言的手法でTPPのまわりの論理ループの表現の2つのステップでカーネルの開発を分解する。我々は、スタンドアロンカーネルと、さまざまなCPUプラットフォームにおける最先端実装よりも優れたエンドツーエンドワークロードを使用して、このアプローチの有効性を実証する。
論文参考訳（メタデータ） (2023-04-25T05:04:44Z)
An Adaptive Device-Edge Co-Inference Framework Based on Soft Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文参考訳（メタデータ） (2022-01-09T09:31:50Z)
PolyScientist: Automatic Loop Transformations Combined with Microkernels for Optimization of Deep Learning Primitives [55.79741270235602]
深層学習カーネル開発のためのハイブリッドソリューションを開発する。我々は、高度な多面体技術を用いて、パフォーマンスのために外部ループを自動的に調整する。
論文参考訳（メタデータ） (2020-02-06T08:02:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。