論文の概要: TritonBench: Benchmarking Large Language Model Capabilities for Generating Triton Operators
- arxiv url: http://arxiv.org/abs/2502.14752v1
- Date: Thu, 20 Feb 2025 17:21:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-21 14:29:25.590788
- Title: TritonBench: Benchmarking Large Language Model Capabilities for Generating Triton Operators
- Title(参考訳): TritonBench: トリトン演算子を生成するための大規模言語モデル機能のベンチマーク
- Authors: Jianling Li, Shangzhan Li, Zhenye Gao, Qi Shi, Yuxuan Li, Zefan Wang, Jiacheng Huang, Haojie Wang, Jianrong Wang, Xu Han, Zhiyuan Liu, Maosong Sun,
- Abstract要約: Tritonは、効率的なGPUカーネルを構築するために設計されたハイレベルなPythonライクな言語である。
従来のコード生成のための大規模言語モデル(LLM)の進歩にもかかわらず、これらのモデルは正確でパフォーマンスに最適化されたトリトンコードを生成するのに苦労している。
本稿では,Triton演算子生成のための総合ベンチマークであるTritonBenchを紹介する。
- 参考スコア(独自算出の注目度): 59.625889531331815
- License:
- Abstract: Triton, a high-level Python-like language designed for building efficient GPU kernels, is widely adopted in deep learning frameworks due to its portability, flexibility, and accessibility. However, programming and parallel optimization still require considerable trial and error from Triton developers. Despite advances in large language models (LLMs) for conventional code generation, these models struggle to generate accurate, performance-optimized Triton code, as they lack awareness of its specifications and the complexities of GPU programming. More critically, there is an urgent need for systematic evaluations tailored to Triton. In this work, we introduce TritonBench, the first comprehensive benchmark for Triton operator generation. TritonBench features two evaluation channels: a curated set of 184 real-world operators from GitHub and a collection of operators aligned with PyTorch interfaces. Unlike conventional code benchmarks prioritizing functional correctness, TritonBench also profiles efficiency performance on widely deployed GPUs aligned with industry applications. Our study reveals that current state-of-the-art code LLMs struggle to generate efficient Triton operators, highlighting a significant gap in high-performance code generation. TritonBench will be available at https://github.com/thunlp/TritonBench.
- Abstract(参考訳): 効率的なGPUカーネルを構築するために設計されたハイレベルなPythonライクな言語であるTritonは、移植性、柔軟性、アクセシビリティのため、ディープラーニングフレームワークで広く採用されている。
しかし、プログラミングと並列最適化は依然としてトライトン開発者によるかなりの試行錯誤を必要としている。
従来のコード生成のための大規模言語モデル(LLM)の進歩にもかかわらず、これらのモデルは、仕様やGPUプログラミングの複雑さを認識していないため、正確でパフォーマンスに最適化されたトリトンコードを生成するのに苦労している。
さらに重要なことに、トリトンに合わせた体系的な評価が緊急に必要である。
本稿では,Triton演算子生成のための総合ベンチマークであるTritonBenchを紹介する。
TritonBenchには2つの評価チャネルがある。GitHubから184の現実世界オペレータのキュレートされたセットと、PyTorchインターフェースに準拠したオペレータのコレクションだ。
機能的正しさを優先する従来のコードベンチマークとは異なり、TritonBenchでは、業界アプリケーションに沿った広くデプロイされたGPU上での効率パフォーマンスもプロファイルしている。
我々の研究は、現在の最先端のLLMが効率的なTriton演算子を生成するのに苦労していることを明らかにし、高性能なコード生成における大きなギャップを浮き彫りにしている。
TritonBenchはhttps://github.com/thunlp/TritonBench.comから入手できる。
関連論文リスト
- UnitCoder: Scalable Iterative Code Synthesis with Unit Test Guidance [65.01483640267885]
大きな言語モデル(LLM)は、様々なタスクにおいて顕著な能力を示してきたが、コード生成は依然として大きな課題である。
私たちは、モデル生成ユニットテストを活用してコード生成プロセスのガイドと検証を行う、システマティックパイプラインであるUnitCoderを紹介します。
我々の研究は、モデル生成単体テストを利用して、事前学習コーパスから高品質なコードデータの合成を誘導するスケーラブルなアプローチを提案する。
論文 参考訳(メタデータ) (2025-02-17T05:37:02Z) - ThunderKittens: Simple, Fast, and Adorable AI Kernels [43.32681787348603]
We present ThunderKittens (TK), a framework for write performanceant AI kernels while rest to use and maintain。
我々は、さまざまなAI操作に対して、以前のカーネルと一致するか、より優れているカーネルを提供することで、TKの価値を示す。
論文 参考訳(メタデータ) (2024-10-27T10:07:16Z) - Liger Kernel: Efficient Triton Kernels for LLM Training [6.373771349397682]
大規模言語モデル(LLM)を大規模に効果的に訓練することは、ますます増大する計算要求によって引き起こされる、恐ろしい挑戦となる。
LLMトレーニング用に開発されたTritonカーネルのオープンソースセットであるLiger- Kernelを紹介する。
カーネル操作の融合や入力チャンキングといったカーネル最適化技術により、カーネルはトレーニングのスループットが平均20%向上し、GPUメモリ使用量が60%削減された。
論文 参考訳(メタデータ) (2024-10-14T18:17:01Z) - Kraken: Inherently Parallel Transformers For Efficient Multi-Device Inference [8.527031391688283]
Krakenは、マルチデバイスシステムの効率的な推論のための標準的なTransformerアーキテクチャの進化である。
OpenWebTextでトレーニングすると、Krakenモデルは標準のTransformerと同じような難易度に達する。
SuperGLUEベンチマークでテストすると、Krakenはモデルサイズで平均35.6%のタイム・トゥ・ファースト・トークンをスピードアップする。
論文 参考訳(メタデータ) (2024-08-14T20:24:03Z) - Stable Code Technical Report [7.303784606231683]
安定コード(Stable Code)は、コード補完、推論、数学、その他のソフトウェア工学ベースのタスクをターゲットにした汎用のベースコード言語モデルである。
安定的なコードインストラクションは、質問応答と命令ベースのタスクを実行するために、自然なチャットインターフェースでモデルと会話することを可能にする。
論文 参考訳(メタデータ) (2024-04-01T16:39:36Z) - Retentive Network: A Successor to Transformer for Large Language Models [91.6652200825638]
大規模言語モデルの基盤アーキテクチャとしてRetentive Network(RetNet)を提案する。
理論的には、再発と注意の関係を導出する。
言語モデリングの実験結果から、RetNetは優れたスケーリング結果、並列トレーニング、低コストなデプロイメント、効率的な推論を実現している。
論文 参考訳(メタデータ) (2023-07-17T16:40:01Z) - Exploring Continual Learning for Code Generation Models [80.78036093054855]
継続的学習(CL)は、コードドメインの中でまだ過小評価されていない重要な側面である。
コード生成,翻訳,要約,改良など,幅広いタスクをカバーするCodeTask-CLというベンチマークを導入する。
即時選択機構の不安定な訓練により,プロンプトプール (PP) などの有効手法が破滅的な忘れ込みに悩まされることが判明した。
論文 参考訳(メタデータ) (2023-07-05T16:58:39Z) - BenchDirect: A Directed Language Model for Compiler Benchmarks [7.194212461947882]
ソースコードの特徴表現内で指向できる最初のMLコンパイラベンチマークジェネレータであるBenchPressを開発した。
アクティブラーニングを使用して、Grewe氏らによるCPU対GPUのデータセットに目に見えない機能を備えた新しいベンチマークを導入し、取得したパフォーマンスを50%改善しました。
3つの特徴空間では、Rodiniaベンチマークの機能をターゲットにして、GitHub、CLgen、CLSmith、SRCIROR mutatorからの人書きコードよりも優れています。
論文 参考訳(メタデータ) (2023-03-02T20:17:24Z) - Measuring Coding Challenge Competence With APPS [54.22600767666257]
コード生成のベンチマークであるAPPSを紹介する。
私たちのベンチマークには1万の問題が含まれています。
GPT-Neoのような最近のモデルでは、導入問題のテストケースの約15%をパスできる。
論文 参考訳(メタデータ) (2021-05-20T17:58:42Z) - MPLP++: Fast, Parallel Dual Block-Coordinate Ascent for Dense Graphical
Models [96.1052289276254]
この研究は、人気のあるDual Block-Coordinate Ascent原則に基づく新しいMAP-solverを導入している。
驚いたことに、性能の低い解法に小さな変更を加えることで、既存の解法を大きなマージンで大幅に上回る新しい解法MPLP++を導出します。
論文 参考訳(メタデータ) (2020-04-16T16:20:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。