Fugu-MT 論文翻訳(概要): TritonBench: Benchmarking Large Language Model Capabilities for Generating Triton Operators

論文の概要: TritonBench: Benchmarking Large Language Model Capabilities for Generating Triton Operators

arxiv url: http://arxiv.org/abs/2502.14752v1
Date: Thu, 20 Feb 2025 17:21:27 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-21 22:18:11.769487
Title: TritonBench: Benchmarking Large Language Model Capabilities for Generating Triton Operators
Title（参考訳）: TritonBench: トリトン演算子を生成するための大規模言語モデル機能のベンチマーク
Authors: Jianling Li, Shangzhan Li, Zhenye Gao, Qi Shi, Yuxuan Li, Zefan Wang, Jiacheng Huang, Haojie Wang, Jianrong Wang, Xu Han, Zhiyuan Liu, Maosong Sun,
Abstract要約: Tritonは、効率的なGPUカーネルを構築するために設計されたハイレベルなPythonライクな言語である。従来のコード生成のための大規模言語モデル(LLM)の進歩にもかかわらず、これらのモデルは正確でパフォーマンスに最適化されたトリトンコードを生成するのに苦労している。本稿では,Triton演算子生成のための総合ベンチマークであるTritonBenchを紹介する。
参考スコア（独自算出の注目度）: 59.625889531331815
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Triton, a high-level Python-like language designed for building efficient GPU kernels, is widely adopted in deep learning frameworks due to its portability, flexibility, and accessibility. However, programming and parallel optimization still require considerable trial and error from Triton developers. Despite advances in large language models (LLMs) for conventional code generation, these models struggle to generate accurate, performance-optimized Triton code, as they lack awareness of its specifications and the complexities of GPU programming. More critically, there is an urgent need for systematic evaluations tailored to Triton. In this work, we introduce TritonBench, the first comprehensive benchmark for Triton operator generation. TritonBench features two evaluation channels: a curated set of 184 real-world operators from GitHub and a collection of operators aligned with PyTorch interfaces. Unlike conventional code benchmarks prioritizing functional correctness, TritonBench also profiles efficiency performance on widely deployed GPUs aligned with industry applications. Our study reveals that current state-of-the-art code LLMs struggle to generate efficient Triton operators, highlighting a significant gap in high-performance code generation. TritonBench will be available at https://github.com/thunlp/TritonBench.
Abstract（参考訳）: 効率的なGPUカーネルを構築するために設計されたハイレベルなPythonライクな言語であるTritonは、移植性、柔軟性、アクセシビリティのため、ディープラーニングフレームワークで広く採用されている。しかし、プログラミングと並列最適化は依然としてトライトン開発者によるかなりの試行錯誤を必要としている。従来のコード生成のための大規模言語モデル(LLM)の進歩にもかかわらず、これらのモデルは、仕様やGPUプログラミングの複雑さを認識していないため、正確でパフォーマンスに最適化されたトリトンコードを生成するのに苦労している。さらに重要なことに、トリトンに合わせた体系的な評価が緊急に必要である。本稿では,Triton演算子生成のための総合ベンチマークであるTritonBenchを紹介する。 TritonBenchには2つの評価チャネルがある。GitHubから184の現実世界オペレータのキュレートされたセットと、PyTorchインターフェースに準拠したオペレータのコレクションだ。機能的正しさを優先する従来のコードベンチマークとは異なり、TritonBenchでは、業界アプリケーションに沿った広くデプロイされたGPU上での効率パフォーマンスもプロファイルしている。我々の研究は、現在の最先端のLLMが効率的なTriton演算子を生成するのに苦労していることを明らかにし、高性能なコード生成における大きなギャップを浮き彫りにしている。 TritonBenchはhttps://github.com/thunlp/TritonBench.comから入手できる。

関連論文リスト

Geak: Introducing Triton Kernel AI Agent & Evaluation Benchmarks [11.253534066141668]
パフォーマンスと生産性の要求を満たすため、低レベルのカーネル開発を自動化することが不可欠である。主要なクラウドプロバイダ、半導体企業、研究機関は現在、GPUのためのAI駆動コード生成に多大な投資をしている。本稿では,TritonベースのGPUカーネルとGAAK(効率的なAI中心GPUカーネルの生成)の評価スイートを提案する。
論文参考訳（メタデータ） (2025-07-31T02:26:58Z)
OpenCodeReasoning-II: A Simple Test Time Scaling Approach via Self-Critique [59.18475981916166]
OpenCodeReasoning-IIは、250万の質問解決批判三部作からなるデータセットである(約35万のユニークなプログラミング質問)。本研究では,2段階の教師付き微調整戦略を採用する。第1段階はコード生成のための微調整に焦点を当て,第2段階はコード生成と批判の両方のためのモデルの共同トレーニングを行う。特に,コード生成と批判モデルの統合は,競争力のある符号化性能を大幅に向上させる。
論文参考訳（メタデータ） (2025-07-11T23:35:54Z)
AutoTriton: Automatic Triton Programming with Reinforcement Learning in LLMs [87.8306870967343]
我々は、強化学習(RL)を利用したトリトンプログラミングのための最初のモデルであるAutoTritonを紹介する。 AutoTritonは、高品質なデータ収集パイプラインを使用して、本質的なTritonプログラミング専門知識を備えた教師付き微調整(SFT)を実行する。 TritonBenchとKernelBenchの5つの評価チャネルでの実験は、我々の8BモデルAutoTritonがメインストリームの大規模モデルに匹敵するパフォーマンスを実現していることを示している。
論文参考訳（メタデータ） (2025-07-08T05:38:24Z)
SwingArena: Competitive Programming Arena for Long-context GitHub Issue Solving [90.32201622392137]
We present SwingArena, a competitive evaluation framework for Large Language Models (LLMs)。従来の静的ベンチマークとは異なり、SwingArenaはLLMをイテレーションとして組み合わせて、テストケースを作成し、継続的インテグレーション(CI)パイプラインを通じてパッチを検証するパッチとレビュアーを生成することで、ソフトウェアのコラボレーションプロセスをモデル化する。
論文参考訳（メタデータ） (2025-05-29T18:28:02Z)
ML-Triton, A Multi-Level Compilation and Language Extension to Triton GPU Programming [2.4665562732779773]
Tritonは、より高いレベルでプログラミングによって、よりユーザフレンドリでポータブルな代替手段を提供するDSLです。マルチレベルのコンパイルフローとプログラミングインタフェースを備えたML-Tritonを提案する。提案手法は,Intel GPU上でのエキスパート記述カーネルの95%以上の性能を実現する。
論文参考訳（メタデータ） (2025-03-19T08:31:39Z)
UnitCoder: Scalable Iterative Code Synthesis with Unit Test Guidance [65.01483640267885]
大きな言語モデル(LLM)は、様々なタスクにおいて顕著な能力を示してきたが、コード生成は依然として大きな課題である。私たちは、モデル生成ユニットテストを活用してコード生成プロセスのガイドと検証を行う、システマティックパイプラインであるUnitCoderを紹介します。我々の研究は、モデル生成単体テストを利用して、事前学習コーパスから高品質なコードデータの合成を誘導するスケーラブルなアプローチを提案する。
論文参考訳（メタデータ） (2025-02-17T05:37:02Z)
Liger Kernel: Efficient Triton Kernels for LLM Training [6.373771349397682]
大規模言語モデル(LLM)を大規模に効果的に訓練することは、ますます増大する計算要求によって引き起こされる、恐ろしい挑戦となる。 LLMトレーニング用に開発されたTritonカーネルのオープンソースセットであるLiger- Kernelを紹介する。カーネル操作の融合や入力チャンキングといったカーネル最適化技術により、カーネルはトレーニングのスループットが平均20%向上し、GPUメモリ使用量が60%削減された。
論文参考訳（メタデータ） (2024-10-14T18:17:01Z)
Kraken: Inherently Parallel Transformers For Efficient Multi-Device Inference [8.527031391688283]
Krakenは、マルチデバイスシステムの効率的な推論のための標準的なTransformerアーキテクチャの進化である。 OpenWebTextでトレーニングすると、Krakenモデルは標準のTransformerと同じような難易度に達する。 SuperGLUEベンチマークでテストすると、Krakenはモデルサイズで平均35.6%のタイム・トゥ・ファースト・トークンをスピードアップする。
論文参考訳（メタデータ） (2024-08-14T20:24:03Z)
Stable Code Technical Report [7.303784606231683]
安定コード(Stable Code)は、コード補完、推論、数学、その他のソフトウェア工学ベースのタスクをターゲットにした汎用のベースコード言語モデルである。安定的なコードインストラクションは、質問応答と命令ベースのタスクを実行するために、自然なチャットインターフェースでモデルと会話することを可能にする。
論文参考訳（メタデータ） (2024-04-01T16:39:36Z)
Retentive Network: A Successor to Transformer for Large Language Models [91.6652200825638]
大規模言語モデルの基盤アーキテクチャとしてRetentive Network(RetNet)を提案する。理論的には、再発と注意の関係を導出する。言語モデリングの実験結果から、RetNetは優れたスケーリング結果、並列トレーニング、低コストなデプロイメント、効率的な推論を実現している。
論文参考訳（メタデータ） (2023-07-17T16:40:01Z)
Exploring Continual Learning for Code Generation Models [80.78036093054855]
継続的学習(CL)は、コードドメインの中でまだ過小評価されていない重要な側面である。コード生成,翻訳,要約,改良など,幅広いタスクをカバーするCodeTask-CLというベンチマークを導入する。即時選択機構の不安定な訓練により,プロンプトプール (PP) などの有効手法が破滅的な忘れ込みに悩まされることが判明した。
論文参考訳（メタデータ） (2023-07-05T16:58:39Z)
BenchDirect: A Directed Language Model for Compiler Benchmarks [7.194212461947882]
ソースコードの特徴表現内で指向できる最初のMLコンパイラベンチマークジェネレータであるBenchPressを開発した。アクティブラーニングを使用して、Grewe氏らによるCPU対GPUのデータセットに目に見えない機能を備えた新しいベンチマークを導入し、取得したパフォーマンスを50%改善しました。 3つの特徴空間では、Rodiniaベンチマークの機能をターゲットにして、GitHub、CLgen、CLSmith、SRCIROR mutatorからの人書きコードよりも優れています。
論文参考訳（メタデータ） (2023-03-02T20:17:24Z)
Measuring Coding Challenge Competence With APPS [54.22600767666257]
コード生成のベンチマークであるAPPSを紹介する。私たちのベンチマークには1万の問題が含まれています。 GPT-Neoのような最近のモデルでは、導入問題のテストケースの約15%をパスできる。
論文参考訳（メタデータ） (2021-05-20T17:58:42Z)
MPLP++: Fast, Parallel Dual Block-Coordinate Ascent for Dense Graphical Models [96.1052289276254]
この研究は、人気のあるDual Block-Coordinate Ascent原則に基づく新しいMAP-solverを導入している。驚いたことに、性能の低い解法に小さな変更を加えることで、既存の解法を大きなマージンで大幅に上回る新しい解法MPLP++を導出します。
論文参考訳（メタデータ） (2020-04-16T16:20:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。