論文の概要: Optimizing PyTorch Inference with LLM-Based Multi-Agent Systems
- arxiv url: http://arxiv.org/abs/2511.16964v1
- Date: Fri, 21 Nov 2025 05:37:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-24 18:08:18.896114
- Title: Optimizing PyTorch Inference with LLM-Based Multi-Agent Systems
- Title(参考訳): LLMに基づくマルチエージェントシステムによるPyTorch推論の最適化
- Authors: Kirill Nagaitsev, Luka Grbcic, Samuel Williams, Costin Iancu,
- Abstract要約: マルチエージェントPyTorch最適化システムを比較するためのフレームワークを提案する。
エラー修正エージェントと組み合わせた場合,エクスプロイトヘビー戦略が最善であることを示す。
最も優れた実装は、H100 GPU上で平均2.88倍のスピードアップを達成する。
- 参考スコア(独自算出の注目度): 1.2289544895833646
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Maximizing performance on available GPU hardware is an ongoing challenge for modern AI inference systems. Traditional approaches include writing custom GPU kernels and using specialized model compilers to tune high-level code for specific GPU targets. Recent work shows that LLM-based multi-agent systems can effectively perform such tuning, often outperforming existing compilers and eliminating the need for manual kernel development. However, the dynamics of multi-agent systems for this task remain unexplored. In this work, we present a logical framework for comparing multi-agent PyTorch optimization systems. Our evaluation shows that exploit-heavy strategies perform best when paired with error-fixing agents, and that performance correlates with the granularity of optimization steps. The best implementation achieves an average 2.88x speedup on an H100 GPU across diverse tasks in KernelBench, a benchmark suite covering a range of machine learning architectures in PyTorch.
- Abstract(参考訳): 利用可能なGPUハードウェアのパフォーマンスを最大化することは、現代のAI推論システムにおいて、現在進行中の課題である。
従来のアプローチには、カスタムGPUカーネルの記述や、特定のGPUターゲットの高レベルコードをチューニングするための特別なモデルコンパイラの使用が含まれる。
最近の研究によると、LLMベースのマルチエージェントシステムは、そのようなチューニングを効果的に行うことができ、しばしば既存のコンパイラよりも優れ、手動のカーネル開発の必要性を排除できる。
しかし、この課題に対するマルチエージェントシステムの力学は未解明のままである。
本研究では,マルチエージェントPyTorch最適化システムを比較するための論理的フレームワークを提案する。
評価の結果,エラー修正エージェントと組み合わせた場合のエクスプロイト・ヘビー戦略は最適であり,性能は最適化手順の粒度と相関することがわかった。
最も優れた実装は、PyTorchのさまざまな機械学習アーキテクチャをカバーするベンチマークスイートであるKernelBenchのさまざまなタスクにわたるH100 GPUにおける平均2.88倍のスピードアップを実現する。
関連論文リスト
- PRAGMA: A Profiling-Reasoned Multi-Agent Framework for Automatic Kernel Optimization [12.24680414520151]
PRAGMAはプロファイル誘導型AIカーネル生成フレームワークである。
実行フィードバックとハードウェアの詳細なプロファイリングを推論ループに統合する。
我々は、GPUとCPUバックエンドをカバーするKernelBench上でPRAGMAを評価する。
論文 参考訳(メタデータ) (2025-11-09T12:01:43Z) - STARK: Strategic Team of Agents for Refining Kernels [23.717055490630596]
我々は,GPUカーネル最適化のためのエージェントフレームワークを導入し,マルチエージェント協調による設計空間を探索する。
このフレームワークはエキスパートエンジニアのワークフローを模倣し、LCMがハードウェアトレードオフを推論し、プロファイリングフィードバックを取り入れ、カーネルを反復的に洗練することを可能にする。
我々は,LLMに基づくカーネル最適化のベンチマークであるKernelBenchに対するアプローチを評価し,ベースラインエージェントよりも大幅に改善したことを示す。
論文 参考訳(メタデータ) (2025-10-19T20:41:46Z) - Astra: A Multi-Agent System for GPU Kernel Performance Optimization [10.715861478214961]
我々はGPUカーネル最適化のための最初のマルチエージェントシステムであるAstraを紹介する。
Astra内では、コード生成、プロファイリング、そして正確かつ高性能なカーネルの生成計画を通じて、特殊なエージェントが協力する。
論文 参考訳(メタデータ) (2025-09-09T08:39:50Z) - Hardware-Aware Parallel Prompt Decoding for Memory-Efficient Acceleration of LLM Inference [23.633481089469836]
LLM(Large Language Models)の自動回帰デコーディングは、ハードウェアの性能に大きなオーバーヘッドをもたらす。
トレーニング可能なパラメータを0.0002$%しか必要とせず,A100-40GBのGPUをたった16時間で効率的にトレーニングできる並列プロンプトデコーディングを提案する。
我々のアプローチでは、最大2.49$times$ スピードアップを示し、最小のメモリオーバーヘッドは0.0004$%である。
論文 参考訳(メタデータ) (2024-05-28T22:19:30Z) - Harnessing Deep Learning and HPC Kernels via High-Level Loop and Tensor Abstractions on CPU Architectures [67.47328776279204]
この研究は、効率的でポータブルなDeep LearningとHigh Performance Computingカーネルを開発するためのフレームワークを導入している。
1)プロセッシングプリミティブ(TPP)を用いた計算コアの表現と,2)高レベルな宣言的手法でTPPのまわりの論理ループの表現の2つのステップでカーネルの開発を分解する。
我々は、スタンドアロンカーネルと、さまざまなCPUプラットフォームにおける最先端実装よりも優れたエンドツーエンドワークロードを使用して、このアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-04-25T05:04:44Z) - Kernel methods through the roof: handling billions of points efficiently [94.31450736250918]
カーネル法は、非パラメトリック学習に対するエレガントで原則化されたアプローチを提供するが、今のところ大規模な問題ではほとんど利用できない。
最近の進歩は、最適化、数値線形代数、ランダム射影など、多くのアルゴリズム的アイデアの利点を示している。
ここでは、これらの取り組みをさらに進めて、GPUハードウェアを最大限に活用する解決器を開発し、テストする。
論文 参考訳(メタデータ) (2020-06-18T08:16:25Z) - MPLP++: Fast, Parallel Dual Block-Coordinate Ascent for Dense Graphical
Models [96.1052289276254]
この研究は、人気のあるDual Block-Coordinate Ascent原則に基づく新しいMAP-solverを導入している。
驚いたことに、性能の低い解法に小さな変更を加えることで、既存の解法を大きなマージンで大幅に上回る新しい解法MPLP++を導出します。
論文 参考訳(メタデータ) (2020-04-16T16:20:53Z) - PolyScientist: Automatic Loop Transformations Combined with Microkernels
for Optimization of Deep Learning Primitives [55.79741270235602]
深層学習カーネル開発のためのハイブリッドソリューションを開発する。
我々は、高度な多面体技術を用いて、パフォーマンスのために外部ループを自動的に調整する。
論文 参考訳(メタデータ) (2020-02-06T08:02:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。