Fugu-MT 論文翻訳(概要): PEAK: A Performance Engineering AI-Assistant for GPU Kernels Powered by Natural Language Transformations

論文の概要: PEAK: A Performance Engineering AI-Assistant for GPU Kernels Powered by Natural Language Transformations

arxiv url: http://arxiv.org/abs/2512.19018v1
Date: Mon, 22 Dec 2025 04:15:24 GMT
ステータス: 翻訳完了
システム内更新日: 2025-12-23 18:54:32.613299
Title: PEAK: A Performance Engineering AI-Assistant for GPU Kernels Powered by Natural Language Transformations
Title（参考訳）: PEAK: 自然言語変換によるGPUカーネルのパフォーマンスエンジニアリングAIアシスト
Authors: Muhammad Usman Tariq, Abhinav Jangda, Angelica Moreira, Madan Musuvathi, Tyler Sorensen,
Abstract要約: 我々は、自然言語変換を利用したカーネルのためのパフォーマンスエンジニアリングAIアシストであるPEAKを紹介する。実装が利用可能な場合、ベンダーライブラリと競合し、(ライブラリなしで)HLSLについては、ドキュメント化されたFLOPSです。
参考スコア（独自算出の注目度）: 0.8699280339422538
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Advancements in large language models (LLMs) are showing promising impact in software development and programming assistance. However, these models struggle when operating on low-level backend code. This challenge is exacerbated in the domain of GPU kernels, where performance-critical details are coupled to rapidly evolving hardware characteristics and available code examples are sparse. In this work, we introduce PEAK, a Performance Engineering AI-Assistant for GPU Kernels powered by natural language transformations. PEAK utilizes the key insight that iterative code transformations (optimizations) can straightforwardly be written in natural language, and then carried out by LLMs. Thus, these transformations can be rapidly developed, encoding general portable optimizations, but also easily specialized to specific GPU devices and even kernels. These natural transformations are supported by a modular and extensible infrastructure that additionally performs validation and performance evaluation. We demonstrate the flexibility of PEAK by instantiating it for three backends, CUDA, HIP, and HLSL, and create 16 natural transformations for optimizing matrix multiplication kernels. We show that our resulting implementations are competitive with vendor libraries when available, and for HLSL (without a library) our implementations match the hardware documented FLOPS. PEAK allows the fine-grained exploration of several research questions around how LLMs behave in this domain, including characterizing transformations and their errors; and how performance evolves along optimization sequences. PEAK provides an interface that can either be utilized by performance engineers to improve productivity, or driven completely autonomously (e.g., by an AI agent), providing a forward-compatible design that can continue to improve with advances in AI capabilities.
Abstract（参考訳）: 大規模言語モデル(LLM)の進歩は、ソフトウェア開発とプログラミング支援に有望な影響を示している。しかし、これらのモデルは低レベルのバックエンドコードで操作する際に苦労する。この課題はGPUカーネルの領域で悪化しており、パフォーマンスクリティカルな詳細は急速に進化するハードウェア特性と結合され、利用可能なコード例は少ない。本稿では、自然言語変換を利用したGPUカーネルのためのパフォーマンスエンジニアリングAI-AssistantであるPEAKを紹介する。 PEAKは、反復的なコード変換(最適化)が自然言語で直接記述され、LLMによって実行されるという重要な洞察を利用する。したがって、これらの変換は急速に開発され、一般的なポータブルな最適化を符号化するだけでなく、特定のGPUデバイスやカーネルにも容易に対応できる。これらの自然な変換は、モジュール的で拡張可能なインフラストラクチャによってサポートされ、さらに検証とパフォーマンス評価が実行されます。我々は、CUDA、HIP、HLSLの3つのバックエンドに対してPEAKをインスタンス化することで、PEAKの柔軟性を実証し、行列乗算カーネルを最適化するための16の自然な変換を作成する。実装結果がベンダーライブラリと競合していることを示し、HLSLでは(ライブラリなしで)実装がハードウェアドキュメントのFLOPSと一致していることを示します。 PEAKは、変換とそのエラーを特徴付けることや、最適化シーケンスに沿ってパフォーマンスがどのように進化するかなど、LLMがこの領域でどのように振る舞うかに関するいくつかの研究課題を詳細に調査することを可能にする。 PEAKは、パフォーマンスエンジニアが生産性を向上させるために利用したり、完全に自律的に(例えばAIエージェントによって)駆動したりできるインターフェースを提供する。

関連論文リスト

PerfDojo: Automated ML Library Generation for Heterogeneous Architectures [28.513777562827485]
大規模言語モデル(LLM)と強化学習(RL)を活用した新しい自動最適化手法PerfLLMを紹介する。 PerfDojoは、ヒューマン可読で数学的にインスパイアされたコード表現を使用して、変換による意味論的妥当性を保証するRLゲームとして、環境フレーミングの最適化である。 PerfLLMの様々なCPU(x86、Arm、RISC-V)とGPUアーキテクチャ間で大きなパフォーマンス向上を実現する能力を示す。
論文参考訳（メタデータ） (2025-11-05T16:05:26Z)
HPCTransCompile: An AI Compiler Generated Dataset for High-Performance CUDA Transpilation and LLM Preliminary Exploration [13.53425131505526]
ディープラーニングは、モデルパラメータと計算要求の指数関数的な増加を促した。 NVIDIA GPUとそのソフトウェアエコシステムは、並列コンピューティングの堅牢なサポートを提供する。エコシステムは並列ソフトウェア分野において支配的な地位を確立してきた。並列プログラミングのパラダイムとハードウェアの違いにより、コードを他のプラットフォームに翻訳することは大きな課題となる。
論文参考訳（メタデータ） (2025-06-12T06:48:33Z)
CUDA-LLM: LLMs Can Write Efficient CUDA Kernels [9.287036563375617]
大規模言語モデル(LLM)は汎用コード生成において強力な機能を示している。我々は,textbfFeature SearchReinforcement (FSR) FSRという新しいフレームワークを提案する。
論文参考訳（メタデータ） (2025-06-10T10:51:03Z)
REASONING COMPILER: LLM-Guided Optimizations for Efficient Model Serving [6.19179006129561]
本稿では,逐次的かつコンテキスト対応な意思決定プロセスとして最適化を定式化する,新しいコンパイルフレームワーク(Dubbed Reasoning)を提案する。提案手法は,LLM誘導推論がコンパイラ最適化のランドスケープを変革する可能性を示す。
論文参考訳（メタデータ） (2025-06-02T07:02:46Z)
Using the Abstract Computer Architecture Description Language to Model AI Hardware Accelerators [77.89070422157178]
AI統合製品の製造者は、製品のパフォーマンス要件に適合するアクセラレータを選択するという、重大な課題に直面します。抽象コンピュータアーキテクチャ記述言語(ACADL)は、コンピュータアーキテクチャブロック図の簡潔な形式化である。本稿では,AIハードウェアアクセラレーションのモデル化にACADLを用いること,DNNのマッピングにACADL記述を使用し,タイミングシミュレーションのセマンティクスを解説し,性能評価結果の収集を行う。
論文参考訳（メタデータ） (2024-01-30T19:27:16Z)
Harnessing Deep Learning and HPC Kernels via High-Level Loop and Tensor Abstractions on CPU Architectures [67.47328776279204]
この研究は、効率的でポータブルなDeep LearningとHigh Performance Computingカーネルを開発するためのフレームワークを導入している。 1)プロセッシングプリミティブ(TPP)を用いた計算コアの表現と,2)高レベルな宣言的手法でTPPのまわりの論理ループの表現の2つのステップでカーネルの開発を分解する。我々は、スタンドアロンカーネルと、さまざまなCPUプラットフォームにおける最先端実装よりも優れたエンドツーエンドワークロードを使用して、このアプローチの有効性を実証する。
論文参考訳（メタデータ） (2023-04-25T05:04:44Z)
Energy-efficient Task Adaptation for NLP Edge Inference Leveraging Heterogeneous Memory Architectures [68.91874045918112]
Adapter-ALBERTは、様々なタスクにわたる最大データ再利用のための効率的なモデル最適化である。検証されたNLPエッジアクセラレータ上でシミュレーションを行うことにより、モデルを不均一なオンチップメモリアーキテクチャにマッピングする利点を実証する。
論文参考訳（メタデータ） (2023-03-25T14:40:59Z)
Learning Performance-Improving Code Edits [107.21538852090208]
本稿では,大規模言語モデル(LLM)を高レベルプログラム最適化に適用するためのフレームワークを提案する。まず、競争力のある77,000以上のC++プログラミングサブミッションペアによる、人間のプログラマによるパフォーマンス改善編集のデータセットをキュレートする。提案手法は,検索をベースとした少数ショットプロンプトとチェーン・オブ・シンクレットを提案し,その微調整には,自己再生に基づく性能条件付き生成と合成データ拡張が含まれる。
論文参考訳（メタデータ） (2023-02-15T18:59:21Z)
evosax: JAX-based Evolution Strategies [0.0]
evosaxは進化最適化アルゴリズムのJAXベースのライブラリです。 evosaxは30の進化最適化アルゴリズムを実装している。モジュラー方式で設計されており、シンプルなRequest-evaluate-tell APIを通じてフレキシブルな使用を可能にする。
論文参考訳（メタデータ） (2022-12-08T10:34:42Z)
GroupBERT: Enhanced Transformer Architecture with Efficient Grouped Structures [57.46093180685175]
トランスフォーマー層の構造を改良し,より効率的なアーキテクチャを実現する。自己認識モジュールを補完する畳み込みモジュールを追加し、局所的およびグローバルな相互作用の学習を分離する。得られたアーキテクチャを言語表現学習に適用し、異なるスケールのBERTモデルと比較して優れた性能を示す。
論文参考訳（メタデータ） (2021-06-10T15:41:53Z)
PolyDL: Polyhedral Optimizations for Creation of High Performance DL primitives [55.79741270235602]
本稿では,Deep Learningプリミティブの高性能実装を自動的に生成するコンパイラアルゴリズムを提案する。我々は多面体モデルを用いた新しいデータ再利用分析アルゴリズムを開発した。また、このようなハイブリッドコンパイラとライブラリ使用の最小限のアプローチが、最先端のパフォーマンスをもたらすことを示す。
論文参考訳（メタデータ） (2020-06-02T06:44:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。