論文の概要: ARGUS: Agentic GPU Optimization Guided by Data-Flow Invariants
- arxiv url: http://arxiv.org/abs/2604.18616v1
- Date: Thu, 16 Apr 2026 15:49:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-22 22:41:49.361911
- Title: ARGUS: Agentic GPU Optimization Guided by Data-Flow Invariants
- Title(参考訳): ARGUS: データフロー不変量でガイドされたエージェントGPU最適化
- Authors: Haohui Mai, Xiaoyan Guo, Xiangyun Ding, Daifeng Li, Qiuchu Yu, Chenzhun Guo, Cong Wang, Jiacheng Zhao, Christos Kozyrakis, Binhang Yuan,
- Abstract要約: LLMベースのコーディングエージェントは、機能的に正しいGPUカーネルを生成することができるが、その性能は、重要な計算に関する手動最適化ライブラリよりもはるかに低いままである。
データフロー不変量を通じてこの問題に対処するエージェントフレームワークであるArgusを紹介します。
我々は、GEMM、フラッシュアテンション、MoEカーネルにわたるAMD MI300X GPU上でArgusを評価する。
- 参考スコア(独自算出の注目度): 12.49256588033198
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LLM-based coding agents can generate functionally correct GPU kernels, yet their performance remains far below hand-optimized libraries on critical computations such as matrix multiplication, attention, and Mixture-of-Experts (MoE). Peak GPU performance requires coordinated reasoning over tightly coupled optimizations, including tiling, shared-memory staging, software pipelining, and instruction scheduling, while existing agents rely on sparse pass/fail feedback, leaving them unable to diagnose global constraint violations. We present Argus, an agentic framework that addresses this through data-flow invariants: compile-time specifications encoding how data must be choreographed throughout kernel execution. Argus introduces a tile-based, Pythonic DSL exposing hardware instructions and compiler policies while hiding low-level representations. The DSL provides tag functions to propagate symbolic annotations through data and control flow, and tag assertions to enforce relational constraints at use sites. When violations occur, the compiler returns concrete counterexamples identifying the thread, data element, and program point, enabling dense, structured feedback for targeted fixes. Invariants are verified at compile time via abstract interpretation over a layout algebra and SMT solving, with zero runtime overhead. An in-context reinforcement learning planner learns to select optimizations and synthesize effective invariants, supported by a curated knowledge base of GPU optimization techniques. We evaluate Argus on the AMD MI300X GPU across GEMM, flash attention, and MoE kernels accounting for over 90% of GPU time in LLM inference. Generated kernels achieve 99-104% of state-of-the-art hand-optimized assembly throughput and are 2-1543x faster than existing agentic systems. Argus further generalizes to 200 KernelBench tasks, solving 100% of Level 1 and 90% of Level 2 problems.
- Abstract(参考訳): LLMベースのコーディングエージェントは、機能的に正しいGPUカーネルを生成することができるが、その性能は、行列乗算、注意、Mixture-of-Experts (MoE)のような重要な計算において、手動で最適化されたライブラリよりもはるかに低いままである。
ピークGPUのパフォーマンスは、タイリング、共有メモリのステージング、ソフトウェアパイプライン、命令スケジューリングなど、密結合された最適化よりも協調的な推論を必要とするが、既存のエージェントはスパースパス/フェイルフィードバックに依存しており、グローバルな制約違反を診断できない。
データフロー不変量を通じてこの問題に対処するエージェントフレームワークであるArgusを紹介します。
Argusは、低レベルの表現を隠蔽しながら、ハードウェア命令とコンパイラポリシーを公開するタイルベースのPython的なDSLを導入した。
DSLは、データと制御フローを通じてシンボリックアノテーションを伝達するためのタグ機能を提供し、そして、使用現場でリレーショナル制約を強制するためのタグアサーションを提供します。
違反が発生した場合、コンパイラはスレッド、データ要素、プログラムポイントを識別する具体的な反例を返す。
不変性は、レイアウト代数とSMT解決に関する抽象的な解釈を通じてコンパイル時に検証され、ランタイムオーバーヘッドはゼロである。
コンテキスト内強化学習プランナーは、GPU最適化技法のキュレートされた知識ベースによってサポートされている、最適化を選択し、効果的な不変量を合成することを学ぶ。
我々は、GEMM、フラッシュアテンション、MoEカーネルをまたいだAMD MI300X GPU上でArgusを評価し、LLM推論におけるGPU時間の90%以上を占めた。
生成されたカーネルは、最先端の手動最適化アセンブリスループットの99-104%を達成し、既存のエージェントシステムよりも2-1543倍高速である。
Argusはさらに200のKernelBenchタスクに一般化し、レベル1の100%とレベル2の90%を解決している。
関連論文リスト
- Making LLMs Optimize Multi-Scenario CUDA Kernels Like Experts [25.264078143000045]
現在の自動カーネル最適化手法は、科学計算におけるスパースマトリクス操作のようなより広い領域を見渡しながら、機械学習アプリケーションに焦点を当てている。
本稿では,MSBenchを導入したマルチシナリオ設定の体系的評価の欠如に対処する。
このベンチマークに基づいて、GPUプロファイリング情報を活用し、完全なコンパイルおよび実行ツールチェーンを自動構築する、カーネル最適化のためのハードウェア対応システムであるMSMasterを紹介する。
論文 参考訳(メタデータ) (2026-03-07T12:22:43Z) - Optimizing PyTorch Inference with LLM-Based Multi-Agent Systems [1.2289544895833646]
マルチエージェントPyTorch最適化システムを比較するためのフレームワークを提案する。
エラー修正エージェントと組み合わせた場合,エクスプロイトヘビー戦略が最善であることを示す。
最も優れた実装は、H100 GPU上で平均2.88倍のスピードアップを達成する。
論文 参考訳(メタデータ) (2025-11-21T05:37:38Z) - Semantic-Aware Scheduling for GPU Clusters with Large Language Models [60.14838697778884]
我々は、スケジューラと管理するジョブ間のセマンティックギャップを橋渡しするフレームワークであるSchedMateを提案する。
SchedMateは見過ごされ、構造化されていないデータソース(ソースコード、ランタイムログ、履歴ジョブ)から深い洞察を抽出する。
我々は、SchedMateが平均ジョブ完了時間を最大1.91倍に短縮し、スケジューリング性能を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2025-10-02T02:01:02Z) - CUDA-LLM: LLMs Can Write Efficient CUDA Kernels [9.287036563375617]
大規模言語モデル(LLM)は汎用コード生成において強力な機能を示している。
我々は,textbfFeature SearchReinforcement (FSR) FSRという新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-10T10:51:03Z) - NGPU-LM: GPU-Accelerated N-Gram Language Model for Context-Biasing in Greedy ASR Decoding [54.88765757043535]
この研究は、統計的なn-gram言語モデルのデータ構造を再考し、GPU最適化推論の高速かつ並列な操作を可能にする。
我々のアプローチは NGPU-LM と呼ばれ、7% 未満の計算オーバーヘッドを持つ全ての主要な ASR モデルに対して、カスタマイズ可能なgreedy decoding を導入している。
提案手法は,ビーム探索による顕著な遅延を回避しつつ,greedy と beam search の精度ギャップの50%以上を排除できる。
論文 参考訳(メタデータ) (2025-05-28T20:43:10Z) - Can Large Language Models Predict Parallel Code Performance? [1.5221392705893568]
本稿では,Large Language Models (LLM) がハードウェアに依存しないGPU性能予測に代替的なアプローチを提供するかどうかを考察する。
LLMはRooflineモデルについて強く理解しており、明示的なプロファイリングデータを備えた場合、100%の分類精度を達成する。
以上の結果から,より優れたデータセットと迅速な戦略により,LLMはHPCルーフライン解析および性能ポータビリティのための実用的なツールとなる可能性が示唆された。
論文 参考訳(メタデータ) (2025-05-06T21:41:20Z) - Hardware-Aware Parallel Prompt Decoding for Memory-Efficient Acceleration of LLM Inference [23.633481089469836]
LLM(Large Language Models)の自動回帰デコーディングは、ハードウェアの性能に大きなオーバーヘッドをもたらす。
トレーニング可能なパラメータを0.0002$%しか必要とせず,A100-40GBのGPUをたった16時間で効率的にトレーニングできる並列プロンプトデコーディングを提案する。
我々のアプローチでは、最大2.49$times$ スピードアップを示し、最小のメモリオーバーヘッドは0.0004$%である。
論文 参考訳(メタデータ) (2024-05-28T22:19:30Z) - PowerFusion: A Tensor Compiler with Explicit Data Movement Description
and Instruction-level Graph IR [10.059491353103526]
本稿では,メモリ集約演算子のための高性能コードを生成するテンソルコンパイラであるIntelliGenを提案する。
IntelliGenは計算とデータ移動の最適化の両方を考慮する。
NVIDIA GPU、AMD GPU、Cambricon MLU上でIntelliGenを評価し、平均で1.97x、2.93x、16.91x(1.28x、1.23x、2.31x)までスピードアップした。
論文 参考訳(メタデータ) (2023-07-11T03:17:40Z) - Harnessing Deep Learning and HPC Kernels via High-Level Loop and Tensor Abstractions on CPU Architectures [67.47328776279204]
この研究は、効率的でポータブルなDeep LearningとHigh Performance Computingカーネルを開発するためのフレームワークを導入している。
1)プロセッシングプリミティブ(TPP)を用いた計算コアの表現と,2)高レベルな宣言的手法でTPPのまわりの論理ループの表現の2つのステップでカーネルの開発を分解する。
我々は、スタンドアロンカーネルと、さまざまなCPUプラットフォームにおける最先端実装よりも優れたエンドツーエンドワークロードを使用して、このアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-04-25T05:04:44Z) - Providing Meaningful Data Summarizations Using Examplar-based Clustering
in Industry 4.0 [67.80123919697971]
我々は,従来のCPUアルゴリズムと比較して,一精度で最大72倍,半精度で最大452倍の高速化を実現していることを示す。
提案アルゴリズムは射出成形プロセスから得られた実世界のデータに適用し, 得られたサマリーが, コスト削減と不良部品製造の削減のために, この特定のプロセスのステアリングにどのように役立つかについて議論する。
論文 参考訳(メタデータ) (2021-05-25T15:55:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。