論文の概要: TritonForge: Profiling-Guided Framework for Automated Triton Kernel Optimization
- arxiv url: http://arxiv.org/abs/2512.09196v2
- Date: Sun, 14 Dec 2025 22:43:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-16 15:10:29.150641
- Title: TritonForge: Profiling-Guided Framework for Automated Triton Kernel Optimization
- Title(参考訳): TritonForge: 自動トリトンカーネル最適化のためのプロファイリングガイドフレームワーク
- Authors: Haonan Li, Keyu Man, Partha Kanuparthy, Hanning Chen, Wei Sun, Sreen Tallam, Chenguang Zhu, Kevin Zhu, Zhiyun Qian,
- Abstract要約: TritonForgeは、GPUカーネルの自動最適化のためのプロファイリング誘導フレームワークである。
カーネル分析、ランタイムプロファイリング、反復的なコード変換を統合し、プロセスを合理化します。
ベースライン実装よりも最大5倍のパフォーマンス向上を実現し、ケースの1.76倍が成功している。
- 参考スコア(独自算出の注目度): 24.065109818256605
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: High-performance GPU kernel optimization remains a critical yet labor-intensive task in modern machine learning workloads. Although Triton, a domain-specific language for GPU programming, enables developers to write efficient kernels with concise code, achieving expert-level performance still requires deep understanding of GPU architectures and low-level performance trade-offs. We present TritonForge, a profiling-guided framework for automated Triton kernel optimization. TritonForge integrates kernel analysis, runtime profiling, and iterative code transformation to streamline the optimization process. By incorporating feedback from profiling results, the system identifies performance bottlenecks, proposes targeted code modifications, and evaluates their impact automatically. Across diverse kernel types, TritonForge achieves up to 5x performance improvement over baseline implementations and on average 1.76x of the cases are successful, providing a foundation for future research in automated GPU performance optimization.
- Abstract(参考訳): 高性能GPUカーネル最適化は、現代の機械学習ワークロードにおいて、依然として重要ながら労働集約的なタスクである。
ドメイン固有のGPUプログラミング言語であるTritonは、開発者は簡潔なコードで効率的なカーネルを書くことができるが、専門家レベルのパフォーマンスを達成するには、GPUアーキテクチャの深い理解と低レベルのパフォーマンストレードオフが必要である。
本稿では,自動トリトンカーネル最適化のためのプロファイリング誘導フレームワークであるTritonForgeを紹介する。
TritonForgeはカーネル分析、ランタイムプロファイリング、反復的なコード変換を統合して最適化プロセスを合理化している。
プロファイリングの結果からのフィードバックを取り入れることで、システムはパフォーマンスボトルネックを特定し、ターゲットとなるコード修正を提案し、その影響を自動的に評価する。
さまざまなカーネルタイプにわたって、TritonForgeはベースライン実装よりも最大5倍のパフォーマンス向上を実現しており、ケースの1.76倍が成功している。
関連論文リスト
- STARK: Strategic Team of Agents for Refining Kernels [23.717055490630596]
我々は,GPUカーネル最適化のためのエージェントフレームワークを導入し,マルチエージェント協調による設計空間を探索する。
このフレームワークはエキスパートエンジニアのワークフローを模倣し、LCMがハードウェアトレードオフを推論し、プロファイリングフィードバックを取り入れ、カーネルを反復的に洗練することを可能にする。
我々は,LLMに基づくカーネル最適化のベンチマークであるKernelBenchに対するアプローチを評価し,ベースラインエージェントよりも大幅に改善したことを示す。
論文 参考訳(メタデータ) (2025-10-19T20:41:46Z) - Geak: Introducing Triton Kernel AI Agent & Evaluation Benchmarks [11.253534066141668]
パフォーマンスと生産性の要求を満たすため、低レベルのカーネル開発を自動化することが不可欠である。
主要なクラウドプロバイダ、半導体企業、研究機関は現在、GPUのためのAI駆動コード生成に多大な投資をしている。
本稿では,TritonベースのGPUカーネルとGAAK(効率的なAI中心GPUカーネルの生成)の評価スイートを提案する。
論文 参考訳(メタデータ) (2025-07-31T02:26:58Z) - AutoTriton: Automatic Triton Programming with Reinforcement Learning in LLMs [87.8306870967343]
我々は、強化学習(RL)を利用したトリトンプログラミングのための最初のモデルであるAutoTritonを紹介する。
AutoTritonは、高品質なデータ収集パイプラインを使用して、本質的なTritonプログラミング専門知識を備えた教師付き微調整(SFT)を実行する。
TritonBenchとKernelBenchの5つの評価チャネルでの実験は、我々の8BモデルAutoTritonがメインストリームの大規模モデルに匹敵するパフォーマンスを実現していることを示している。
論文 参考訳(メタデータ) (2025-07-08T05:38:24Z) - GPU Performance Portability needs Autotuning [0.0]
LLMは複雑さが増し、最先端のパフォーマンスを達成するには、アルゴリズム、ソフトウェア、ハードウェア間の密な共同設計が必要である。
JIT(Just-in-time)コンパイルと包括的カーネルパラメータの自動チューニングを併用する。
我々の結果は、GPUベンダー間のモデルポータビリティをアンロックするための有望なパスとして、オートチューニングを強調しています。
論文 参考訳(メタデータ) (2025-04-30T12:57:21Z) - TritonBench: Benchmarking Large Language Model Capabilities for Generating Triton Operators [59.625889531331815]
Tritonは、効率的なGPUカーネルを構築するために設計されたハイレベルなPythonライクな言語である。
従来のコード生成のための大規模言語モデル(LLM)の進歩にもかかわらず、これらのモデルは正確でパフォーマンスに最適化されたトリトンコードを生成するのに苦労している。
本稿では,Triton演算子生成のための総合ベンチマークであるTritonBenchを紹介する。
論文 参考訳(メタデータ) (2025-02-20T17:21:27Z) - Harnessing Deep Learning and HPC Kernels via High-Level Loop and Tensor Abstractions on CPU Architectures [67.47328776279204]
この研究は、効率的でポータブルなDeep LearningとHigh Performance Computingカーネルを開発するためのフレームワークを導入している。
1)プロセッシングプリミティブ(TPP)を用いた計算コアの表現と,2)高レベルな宣言的手法でTPPのまわりの論理ループの表現の2つのステップでカーネルの開発を分解する。
我々は、スタンドアロンカーネルと、さまざまなCPUプラットフォームにおける最先端実装よりも優れたエンドツーエンドワークロードを使用して、このアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-04-25T05:04:44Z) - Learning Performance-Improving Code Edits [107.21538852090208]
本稿では,大規模言語モデル(LLM)を高レベルプログラム最適化に適用するためのフレームワークを提案する。
まず、競争力のある77,000以上のC++プログラミングサブミッションペアによる、人間のプログラマによるパフォーマンス改善編集のデータセットをキュレートする。
提案手法は,検索をベースとした少数ショットプロンプトとチェーン・オブ・シンクレットを提案し,その微調整には,自己再生に基づく性能条件付き生成と合成データ拡張が含まれる。
論文 参考訳(メタデータ) (2023-02-15T18:59:21Z) - Kernel methods through the roof: handling billions of points efficiently [94.31450736250918]
カーネル法は、非パラメトリック学習に対するエレガントで原則化されたアプローチを提供するが、今のところ大規模な問題ではほとんど利用できない。
最近の進歩は、最適化、数値線形代数、ランダム射影など、多くのアルゴリズム的アイデアの利点を示している。
ここでは、これらの取り組みをさらに進めて、GPUハードウェアを最大限に活用する解決器を開発し、テストする。
論文 参考訳(メタデータ) (2020-06-18T08:16:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。