論文の概要: AccelOpt: A Self-Improving LLM Agentic System for AI Accelerator Kernel Optimization
- arxiv url: http://arxiv.org/abs/2511.15915v1
- Date: Wed, 19 Nov 2025 22:49:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-21 17:08:52.391721
- Title: AccelOpt: A Self-Improving LLM Agentic System for AI Accelerator Kernel Optimization
- Title(参考訳): AccelOpt: AIアクセラレータカーネル最適化のための自己改善型LLMエージェントシステム
- Authors: Genghan Zhang, Shaowei Zhu, Anjiang Wei, Zhenyu Song, Allen Nie, Zhen Jia, Nandita Vijaykumar, Yida Wang, Kunle Olukotun,
- Abstract要約: 本稿では,自己改善型大規模言語モデル(LLM)エージェントシステムであるAccelOptを紹介する。
NKIBenchは、AWS Trainiumアクセラレータカーネルの新しいベンチマークスイートで、現実世界のワークロードから抽出される複雑さがさまざまです。
評価の結果,AccelOptの能力は時間とともに向上し,ピークスループットの平均値はTranium 1で49%から61%,NKIBenchカーネルで45%から59%へと向上した。
- 参考スコア(独自算出の注目度): 12.269456144158783
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present AccelOpt, a self-improving large language model (LLM) agentic system that autonomously optimizes kernels for emerging AI acclerators, eliminating the need for expert-provided hardware-specific optimization knowledge. AccelOpt explores the kernel optimization space through iterative generation, informed by an optimization memory that curates experiences and insights from previously encountered slow-fast kernel pairs. We build NKIBench, a new benchmark suite of AWS Trainium accelerator kernels with varying complexity extracted from real-world LLM workloads to evaluate the effectiveness of AccelOpt. Our evaluation confirms that AccelOpt's capability improves over time, boosting the average percentage of peak throughput from $49\%$ to $61\%$ on Trainium 1 and from $45\%$ to $59\%$ on Trainium 2 for NKIBench kernels. Moreover, AccelOpt is highly cost-effective: using open-source models, it matches the kernel improvements of Claude Sonnet 4 while being $26\times$ cheaper.
- Abstract(参考訳): 我々は,自己改善型大規模言語モデル(LLM)エージェントシステムであるAccelOptを紹介した。
AccelOptは、以前遭遇した遅いカーネルペアからの経験と洞察をキュレートする最適化メモリによって、反復生成を通じてカーネル最適化空間を探索する。
NKIBenchは、AWS Trainiumアクセラレータカーネルの新しいベンチマークスイートで、実際のLLMワークロードから抽出されたさまざまな複雑さで、AccelOptの有効性を評価する。
評価の結果,AccelOptの能力は時間とともに向上し,ピークスループットの平均値はTranium 1では4,9\%から6,11\%,NKIBenchカーネルでは4,5,9\%に向上した。
さらに、AccelOptは非常に費用対効果が高く、オープンソースモデルを使用することで、Claude Sonnet 4のカーネル改善に匹敵するが、26\times$2,6\times$である。
関連論文リスト
- CudaForge: An Agent Framework with Hardware Feedback for CUDA Kernel Optimization [36.794824560677064]
CudaForgeは、カーネル生成と最適化のためのトレーニング不要なマルチエージェントワークフローである。
OpenAI-o3のようなベースモデルを活用することで、CudaForgeは97.6%の正しさと平均1.68$times$スピードアップを達成した。
論文 参考訳(メタデータ) (2025-10-23T22:52:00Z) - STARK: Strategic Team of Agents for Refining Kernels [23.717055490630596]
我々は,GPUカーネル最適化のためのエージェントフレームワークを導入し,マルチエージェント協調による設計空間を探索する。
このフレームワークはエキスパートエンジニアのワークフローを模倣し、LCMがハードウェアトレードオフを推論し、プロファイリングフィードバックを取り入れ、カーネルを反復的に洗練することを可能にする。
我々は,LLMに基づくカーネル最適化のベンチマークであるKernelBenchに対するアプローチを評価し,ベースラインエージェントよりも大幅に改善したことを示す。
論文 参考訳(メタデータ) (2025-10-19T20:41:46Z) - EvoEngineer: Mastering Automated CUDA Kernel Code Evolution with Large Language Models [27.430839306140157]
カーネル最適化を自動化するLarge Language Models (LLMs) が約束する。
汎用LLMコード進化法は、カーネル最適化の厳密な正当性要件を満たすことができない。
EvoEngineerは、パフォーマンスと正確性のバランスを達成するために最適化戦略を設計し、適応するためのガイダンスを提供する。
提案手法は,PyTorchカーネル上のすべての操作のうち,最大速度のtextbf36.75$times を実現し,textbf28 (textbf56.0%) で最大速度の textbf2times$Acceleration を実現する。
論文 参考訳(メタデータ) (2025-10-04T10:00:25Z) - Spotlight Attention: Towards Efficient LLM Generation via Non-linear Hashing-based KV Cache Retrieval [67.21678698740267]
本研究では,クエリやキーの埋め込み分布を最適化するために,非線形ハッシュ関数を利用する新しい手法であるSpotlight Attentionを紹介する。
また、Bradley-Terryランキングに基づく損失を利用して、軽量で安定したトレーニングフレームワークを開発する。
論文 参考訳(メタデータ) (2025-08-27T10:11:27Z) - Liger Kernel: Efficient Triton Kernels for LLM Training [6.373771349397682]
大規模言語モデル(LLM)を大規模に効果的に訓練することは、ますます増大する計算要求によって引き起こされる、恐ろしい挑戦となる。
LLMトレーニング用に開発されたTritonカーネルのオープンソースセットであるLiger- Kernelを紹介する。
カーネル操作の融合や入力チャンキングといったカーネル最適化技術により、カーネルはトレーニングのスループットが平均20%向上し、GPUメモリ使用量が60%削減された。
論文 参考訳(メタデータ) (2024-10-14T18:17:01Z) - Hardware-Aware Parallel Prompt Decoding for Memory-Efficient Acceleration of LLM Inference [23.633481089469836]
LLM(Large Language Models)の自動回帰デコーディングは、ハードウェアの性能に大きなオーバーヘッドをもたらす。
トレーニング可能なパラメータを0.0002$%しか必要とせず,A100-40GBのGPUをたった16時間で効率的にトレーニングできる並列プロンプトデコーディングを提案する。
我々のアプローチでは、最大2.49$times$ スピードアップを示し、最小のメモリオーバーヘッドは0.0004$%である。
論文 参考訳(メタデータ) (2024-05-28T22:19:30Z) - PolyScientist: Automatic Loop Transformations Combined with Microkernels
for Optimization of Deep Learning Primitives [55.79741270235602]
深層学習カーネル開発のためのハイブリッドソリューションを開発する。
我々は、高度な多面体技術を用いて、パフォーマンスのために外部ループを自動的に調整する。
論文 参考訳(メタデータ) (2020-02-06T08:02:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。