Fugu-MT 論文翻訳(概要): Autocomp: LLM-Driven Code Optimization for Tensor Accelerators

論文の概要: Autocomp: LLM-Driven Code Optimization for Tensor Accelerators

arxiv url: http://arxiv.org/abs/2505.18574v1
Date: Sat, 24 May 2025 07:35:34 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-27 16:58:42.515963
Title: Autocomp: LLM-Driven Code Optimization for Tensor Accelerators
Title（参考訳）: Autocomp: テンソルアクセラレータのためのLLM駆動コード最適化
Authors: Charles Hong, Sahil Bhatia, Alvin Cheung, Yakun Sophia Shao,
Abstract要約: Autocompは、アクセラレータープログラマがドメイン知識とハードウェアフィードバックを利用してコードを最適化することを可能にするアプローチである。我々はAutocomp最適化コードがベンダーが提供するライブラリよりも高速に5.6倍(GEMM)と2.7倍(畳み込み)を実行することを示した。
参考スコア（独自算出の注目度）: 7.384883165968798
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Hardware accelerators, especially those designed for tensor processing, have become ubiquitous in today's computing landscape. However, even with significant efforts in building compilers, programming these tensor accelerators remains challenging, leaving much of their potential underutilized. Recently, large language models (LLMs), trained on large amounts of code, have shown significant promise in code generation and optimization tasks, but generating low-resource languages like specialized tensor accelerator code still poses a significant challenge. We tackle this challenge with Autocomp, an approach that empowers accelerator programmers to leverage domain knowledge and hardware feedback to optimize code via an automated LLM-driven search. We accomplish this by: 1) formulating each optimization pass as a structured two-phase prompt, divided into planning and code generation phases, 2) inserting domain knowledge during planning via a concise and adaptable optimization menu, and 3) integrating correctness and performance metrics from hardware as feedback at each search iteration. Across three categories of representative workloads and two different accelerators, we demonstrate that Autocomp-optimized code runs 5.6x (GEMM) and 2.7x (convolution) faster than the vendor-provided library, and outperforms expert-level hand-tuned code by 1.4x (GEMM), 1.1x (convolution), and 1.3x (fine-grained linear algebra). Additionally, we demonstrate that optimization schedules generated from Autocomp can be reused across similar tensor operations, improving speedups by up to 24% under a fixed sample budget.
Abstract（参考訳）: ハードウェアアクセラレーター、特にテンソル処理用に設計されたアクセラレーターは、今日のコンピューティングの世界に広く普及している。しかし、コンパイラの構築に多大な努力を払っても、これらのテンソルアクセラレーターのプログラミングは難しいままであり、その可能性の多くは未利用のままである。近年、大量のコードに基づいて訓練された大規模言語モデル(LLM)は、コード生成と最適化タスクにおいて大きな可能性を示しているが、特別なテンソルアクセルコードのような低リソース言語を生成することは、依然として大きな課題である。これは、アクセラレータープログラマがドメイン知識とハードウェアフィードバックを活用して、自動LLM駆動の検索を通じてコードを最適化することを可能にするアプローチである。私たちは次のように達成します。 1)各最適化パスを構造化された2段階のプロンプトとして定式化し、計画とコード生成フェーズに分割する。 2 簡潔かつ適応可能な最適化メニューを介して計画中にドメイン知識を挿入し、 3) ハードウェアからの正確さとパフォーマンスのメトリクスを各検索イテレーションでフィードバックとして統合する。代表的ワークロードと2つの異なるアクセラレーターの3つのカテゴリにおいて、自動コンパイル最適化コードはベンダーが提供するライブラリよりも5.6x(GEMM)と2.7x(コンボリューション)速く動作し、エキスパートレベルの手動チューニングコードを1.4x(GEMM)、1.1x(畳み込み)、1.3x(きめ細かい線形代数)で上回っている。さらに,Autocompから生成された最適化スケジュールを同様のテンソル操作で再利用できることを示し,固定サンプル予算で最大24%の高速化を実現した。

関連論文リスト

Optimizing Code Runtime Performance through Context-Aware Retrieval-Augmented Generation [8.574686422653345]
AutoはGPT-4oよりも実行効率が7.3%向上した。本研究では、LLMが最適化されたコードを自動的に生成できるようにすることにより、そのギャップを埋めるためのコンテキスト内学習手法を提案する。
論文参考訳（メタデータ） (2025-01-28T04:00:35Z)
LLM-Aided Compilation for Tensor Accelerators [6.709490736813537]
我々は,大規模言語モデル(LLM)を用いてハードウェアアクセラレーター用のコンパイラを構築する方法について論じる。具体的には,GPT-4がGemminiアクセラレータへのコード変換において高いパスレートを達成する能力を示す。また,LLMを利用してハードウェア最適化コードを生成するための2フェーズワークフローを提案する。
論文参考訳（メタデータ） (2024-08-06T19:10:25Z)
Should AI Optimize Your Code? A Comparative Study of Classical Optimizing Compilers Versus Current Large Language Models [0.0]
大規模言語モデル(LLM)は、コード最適化に革命をもたらすAIアプローチの可能性に関する興味深い疑問を提起する。この作業は、コンパイラコミュニティにとって重要な質問に答えることを目的としている。本稿では3つの古典最適化コンパイラと2つの最近の大規模言語モデルの比較分析を行う。
論文参考訳（メタデータ） (2024-06-17T23:26:41Z)
Hardware-Aware Parallel Prompt Decoding for Memory-Efficient Acceleration of LLM Inference [19.167604927651073]
LLM(Large Language Models)の自動回帰デコーディングは、ハードウェアの性能に大きなオーバーヘッドをもたらす。トレーニング可能なパラメータを0.0002$%しか必要とせず,A100-40GBのGPUをたった16時間で効率的にトレーニングできる並列プロンプトデコーディングを提案する。我々のアプローチでは、最大2.49$times$ スピードアップを示し、最小のメモリオーバーヘッドは0.0004$%である。
論文参考訳（メタデータ） (2024-05-28T22:19:30Z)
Performance-Aligned LLMs for Generating Fast Code [2.180216161965907]
コードLLMの出力と性能を一致させる強化学習に基づく手法を提案する。我々は,一連のベンチマークタスクのベースモデル上でのコード生成の高速化を,微調整モデルにより改善できることを実証した。
論文参考訳（メタデータ） (2024-04-29T16:52:38Z)
CompilerDream: Learning a Compiler World Model for General Code Optimization [58.87557583347996]
汎用コード最適化のためのモデルベース強化学習手法であるCompilerDreamを紹介する。最適化パスの固有の特性を正確にシミュレートするコンパイラの世界モデルと、このモデルで訓練されたエージェントから、効率的な最適化戦略を生成する。さまざまなデータセットを網羅し、LLVMのビルトイン最適化や、値予測とエンドツーエンドコード最適化の両方の設定における最先端メソッドを超越している。
論文参考訳（メタデータ） (2024-04-24T09:20:33Z)
StepCoder: Improve Code Generation with Reinforcement Learning from Compiler Feedback [58.20547418182074]
2つの主要コンポーネントからなるコード生成の新しいフレームワークであるStepCoderを紹介します。 CCCSは、長いシーケンスのコード生成タスクをCurriculum of Code Completion Subtaskに分割することで、探索課題に対処する。 FGOは、未実行のコードセグメントをマスクすることでのみモデルを最適化し、Fine-Grained Optimizationを提供する。提案手法は,出力空間を探索し,対応するベンチマークにおいて最先端の手法より優れた性能を発揮する。
論文参考訳（メタデータ） (2024-02-02T13:14:31Z)
Extreme Compression of Large Language Models via Additive Quantization [59.3122859349777]
我々のアルゴリズムは、AQLMと呼ばれ、情報検索のための古典的な加算量子化(AQ)アプローチを一般化する。トークン生成のためのAQLMの高速GPUおよびCPU実装を提供しており、最適化されたFP16実装を高速にマッチングまたは性能良くすることができる。
論文参考訳（メタデータ） (2024-01-11T18:54:44Z)
Harnessing Deep Learning and HPC Kernels via High-Level Loop and Tensor Abstractions on CPU Architectures [67.47328776279204]
この研究は、効率的でポータブルなDeep LearningとHigh Performance Computingカーネルを開発するためのフレームワークを導入している。 1)プロセッシングプリミティブ(TPP)を用いた計算コアの表現と,2)高レベルな宣言的手法でTPPのまわりの論理ループの表現の2つのステップでカーネルの開発を分解する。我々は、スタンドアロンカーネルと、さまざまなCPUプラットフォームにおける最先端実装よりも優れたエンドツーエンドワークロードを使用して、このアプローチの有効性を実証する。
論文参考訳（メタデータ） (2023-04-25T05:04:44Z)
Performance Embeddings: A Similarity-based Approach to Automatic Performance Optimization [71.69092462147292]
パフォーマンス埋め込みは、アプリケーション間でパフォーマンスチューニングの知識伝達を可能にする。本研究では, 深層ニューラルネットワーク, 密度およびスパース線形代数合成, および数値風速予測ステンシルのケーススタディにおいて, この伝達チューニング手法を実証する。
論文参考訳（メタデータ） (2023-03-14T15:51:35Z)
M-L2O: Towards Generalizable Learning-to-Optimize by Test-Time Fast Self-Adaptation [145.7321032755538]
L2O(Learning to Optimize)は、複雑なタスクの最適化手順を著しく加速させるため、注目を集めている。本稿では, アウト・オブ・ディストリビューションタスクへの高速なテスト時間自己適応を実現するL2Oをメタトレーニングすることで, このオープンな課題に対する潜在的な解決策を検討する。
論文参考訳（メタデータ） (2023-02-28T19:23:20Z)
Learning Performance-Improving Code Edits [107.21538852090208]
本稿では,大規模言語モデル(LLM)を高レベルプログラム最適化に適用するためのフレームワークを提案する。まず、競争力のある77,000以上のC++プログラミングサブミッションペアによる、人間のプログラマによるパフォーマンス改善編集のデータセットをキュレートする。提案手法は,検索をベースとした少数ショットプロンプトとチェーン・オブ・シンクレットを提案し,その微調整には,自己再生に基づく性能条件付き生成と合成データ拡張が含まれる。
論文参考訳（メタデータ） (2023-02-15T18:59:21Z)
Woodpecker-DL: Accelerating Deep Neural Networks via Hardware-Aware Multifaceted Optimizations [15.659251804042748]
Woodpecker-DL (WPK) はハードウェア対応のディープラーニングフレームワークである。 WPKは、グラフ最適化、自動検索、ドメイン固有言語(DSL)、システムレベルの探索を使って推論を高速化する。最大P100 GPUでは、cuDNNが5.40、TVMが1.63、エンドツーエンドモデル推論がTeslaRTより1.18倍高速であることを示す。
論文参考訳（メタデータ） (2020-08-11T07:50:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。