論文の概要: The Anatomy of a Triton Attention Kernel
- arxiv url: http://arxiv.org/abs/2511.11581v1
- Date: Tue, 07 Oct 2025 13:34:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-07 19:06:32.172884
- Title: The Anatomy of a Triton Attention Kernel
- Title(参考訳): Triton Attention Kernel の解剖
- Authors: Burkhard Ringlein, Jan van Lunteren, Radu Stoica, Thomas Parnell,
- Abstract要約: 業界と学界の両面での長年の目標は、ハードウェアアーキテクチャ間でポータブルなLLM推論プラットフォームを開発することだ。
我々は,ドメイン固有のジャストインタイムコンパイル言語であるTritonをベースとした,最先端の注目カーネルを開発した。
我々は、我々の高レベルのアプローチ、アルゴリズムとシステムレベルの重要な改善、効率の解放に必要なパラメータの自動チューニング、一般的な推論サーバへの統合について説明する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A long-standing goal in both industry and academia is to develop an LLM inference platform that is portable across hardware architectures, eliminates the need for low-level hand-tuning, and still delivers best-in-class efficiency. In this work, we demonstrate that portable, efficient cross-platform LLM inference is indeed possible and share our experience. We develop a state-of-the-art paged attention kernel, the core performance-critical component of many LLM deployments, that builds exclusively on the domain-specific just-in-time compiled language Triton to achieve state-of-the-art performance on both NVIDIA and AMD GPUs. We describe our high-level approach, the key algorithmic and system-level improvements, the parameter auto-tuning required to unlock efficiency, and the integrations into a popular inference server that are necessary to bring the performance of a generic Triton attention kernel from 19.7% of the state-of-the-art to 105.9%. Our results highlight how open-source domain-specific languages can be leveraged to unlock model portability across different GPU vendors.
- Abstract(参考訳): 業界と学界の両面での長年の目標は、ハードウェアアーキテクチャにまたがるポータブルなLLM推論プラットフォームを開発することであり、低レベルのハンドチューニングの必要性を排除し、クラス内で最高の効率を提供する。
本研究では、ポータブルで効率的なクロスプラットフォームのLLM推論が実際に可能であることを実証し、我々の経験を共有する。
我々は、NVIDIAとAMDの両方のGPU上で最先端のパフォーマンスを達成するために、ドメイン固有のジャストインタイムコンパイル言語であるTritonにのみ構築された、多くのLCMデプロイメントのコアパフォーマンスクリティカルコンポーネントである最先端の注目カーネルを開発した。
我々は、我々の高レベルのアプローチ、アルゴリズムとシステムレベルの重要な改善、効率の解放に必要なパラメータの自動チューニング、一般的なTritonアテンションカーネルのパフォーマンスを19.7%から105.9%に向上させるのに必要な一般的な推論サーバへの統合について説明する。
我々の結果は、異なるGPUベンダー間のモデルポータビリティをアンロックするために、オープンソースドメイン固有言語をどのように活用できるかを強調しています。
関連論文リスト
- Eliminating Multi-GPU Performance Taxes: A Systems Approach to Efficient Distributed LLMs [61.953548065938385]
分析フレームワークとして'3つの税'(バルク同期、カーネル間データローカリティ、カーネルローンチオーバーヘッド)を紹介した。
我々は、分散GPU実行におけるキー非効率に対処するために、厳密なBSPモデルを超えて移動することを提案する。
BSPベースのアプローチによるエンドツーエンドのレイテンシの10-20%の高速化を観察する。
論文 参考訳(メタデータ) (2025-11-04T01:15:44Z) - STARK: Strategic Team of Agents for Refining Kernels [23.717055490630596]
我々は,GPUカーネル最適化のためのエージェントフレームワークを導入し,マルチエージェント協調による設計空間を探索する。
このフレームワークはエキスパートエンジニアのワークフローを模倣し、LCMがハードウェアトレードオフを推論し、プロファイリングフィードバックを取り入れ、カーネルを反復的に洗練することを可能にする。
我々は,LLMに基づくカーネル最適化のベンチマークであるKernelBenchに対するアプローチを評価し,ベースラインエージェントよりも大幅に改善したことを示す。
論文 参考訳(メタデータ) (2025-10-19T20:41:46Z) - MultiKernelBench: A Multi-Platform Benchmark for Kernel Generation [17.461533973039064]
MultiKernelBenchは、大規模言語モデル(LLM)を用いたディープラーニングカーネル生成のためのベンチマークである。
14の明確に定義されたカーネルカテゴリにまたがる285のタスクにまたがっており、3つの主要なハードウェアプラットフォームをサポートしている。
課題の難易度, トレーニング露出の少ないプラットフォームへの一般化の低さ, ターゲット型プロンプト戦略の有効性について検討した。
論文 参考訳(メタデータ) (2025-07-20T00:58:33Z) - GPU Performance Portability needs Autotuning [0.0]
LLMは複雑さが増し、最先端のパフォーマンスを達成するには、アルゴリズム、ソフトウェア、ハードウェア間の密な共同設計が必要である。
JIT(Just-in-time)コンパイルと包括的カーネルパラメータの自動チューニングを併用する。
我々の結果は、GPUベンダー間のモデルポータビリティをアンロックするための有望なパスとして、オートチューニングを強調しています。
論文 参考訳(メタデータ) (2025-04-30T12:57:21Z) - NVLM: Open Frontier-Class Multimodal LLMs [64.00053046838225]
NVLM 1.0は、フロンティアクラスのマルチモーダル言語モデル(LLM)のファミリーであり、視覚言語タスクの最先端結果を実現する。
トレーニング効率とマルチモーダル推論能力を両立させる新しいアーキテクチャを提案する。
我々は、NVLM-1.0モデルのための生産級マルチモーダリティを開発し、視覚言語タスクに優れる。
論文 参考訳(メタデータ) (2024-09-17T17:59:06Z) - FusionAI: Decentralized Training and Deploying LLMs with Massive
Consumer-Level GPUs [57.12856172329322]
我々は、巨大な未使用のコンシューマレベルのGPUをアンロックする分散システムを構想する。
このシステムは、CPUとGPUメモリの制限、ネットワーク帯域幅の低さ、ピアとデバイスの多様性など、重要な課題に直面している。
論文 参考訳(メタデータ) (2023-09-03T13:27:56Z) - Harnessing Deep Learning and HPC Kernels via High-Level Loop and Tensor Abstractions on CPU Architectures [67.47328776279204]
この研究は、効率的でポータブルなDeep LearningとHigh Performance Computingカーネルを開発するためのフレームワークを導入している。
1)プロセッシングプリミティブ(TPP)を用いた計算コアの表現と,2)高レベルな宣言的手法でTPPのまわりの論理ループの表現の2つのステップでカーネルの開発を分解する。
我々は、スタンドアロンカーネルと、さまざまなCPUプラットフォームにおける最先端実装よりも優れたエンドツーエンドワークロードを使用して、このアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-04-25T05:04:44Z) - EfficientViT: Multi-Scale Linear Attention for High-Resolution Dense
Prediction [67.11722682878722]
この研究は、新しいマルチスケール線形注意を持つ高解像度ビジョンモデルのファミリーであるEfficientViTを提示する。
マルチスケール線形注意は,グローバルな受容場とマルチスケール学習を実現する。
EfficientViTは従来の最先端モデルよりも優れたパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2022-05-29T20:07:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。