論文の概要: VeriLocc: End-to-End Cross-Architecture Register Allocation via LLM
- arxiv url: http://arxiv.org/abs/2506.17506v1
- Date: Fri, 20 Jun 2025 23:08:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 19:06:36.449637
- Title: VeriLocc: End-to-End Cross-Architecture Register Allocation via LLM
- Title(参考訳): VeriLocc: LLMによるエンドツーエンドのクロスアーキテクチャ登録アロケーション
- Authors: Lesheng Jin, Zhenyuan Ruan, Haohui Mai, Jingbo Shang,
- Abstract要約: 大規模言語モデル(LLM)とフォーマルコンパイラ技術を組み合わせたフレームワークであるVeriLoccを導入し,GPUアーキテクチャ全体にわたる汎用性と検証可能なレジスタ割り当てを実現する。
行列乗算 (M) とマルチヘッドアテンション (MHA) に基づいて, VeriLocc は 85-99% のシングルショット精度と約100% パス@100 を達成する。
ケーススタディでは、VeriLoccは専門家がチューニングしたライブラリよりもパフォーマンスの高い割り当てを発見し、実行時に RocBLASを10%以上上回っている。
- 参考スコア(独自算出の注目度): 39.27052626057448
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern GPUs evolve rapidly, yet production compilers still rely on hand-crafted register allocation heuristics that require substantial re-tuning for each hardware generation. We introduce VeriLocc, a framework that combines large language models (LLMs) with formal compiler techniques to enable generalizable and verifiable register allocation across GPU architectures. VeriLocc fine-tunes an LLM to translate intermediate representations (MIRs) into target-specific register assignments, aided by static analysis for cross-architecture normalization and generalization and a verifier-guided regeneration loop to ensure correctness. Evaluated on matrix multiplication (GEMM) and multi-head attention (MHA), VeriLocc achieves 85-99% single-shot accuracy and near-100% pass@100. Case study shows that VeriLocc discovers more performant assignments than expert-tuned libraries, outperforming rocBLAS by over 10% in runtime.
- Abstract(参考訳): 現代のGPUは急速に進化しているが、本番のコンパイラは手作りのレジスタ割り当てヒューリスティックに依存している。
大規模言語モデル(LLM)とフォーマルコンパイラ技術を組み合わせたフレームワークであるVeriLoccを導入し,GPUアーキテクチャ全体にわたる汎用性と検証可能なレジスタ割り当てを実現する。
VeriLoccファインチューン(VeriLocc fine-tunes)は、中間表現(MIR)をターゲット固有のレジスタ代入に変換することで、クロスアーキテクチャ正規化と一般化のための静的解析と、正当性を保証する検証器誘導再生ループによって支援される。
VeriLoccは,行列乗算(GEMM)とマルチヘッドアテンション(MHA)に基づいて,85~99%のシングルショット精度とほぼ100%パス@100を達成する。
ケーススタディでは、VeriLoccは専門家がチューニングしたライブラリよりもパフォーマンスの高い割り当てを発見し、実行時に RocBLASを10%以上上回っている。
関連論文リスト
- CUDA-LLM: LLMs Can Write Efficient CUDA Kernels [9.287036563375617]
大規模言語モデル(LLM)は汎用コード生成において強力な機能を示している。
我々は,textbfFeature SearchReinforcement (FSR) FSRという新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-10T10:51:03Z) - AEQUAM: Accelerating Quantum Algorithm Validation through FPGA-Based Emulation [0.46873264197900916]
AEQUAMは、より高速でアクセスしやすい量子回路検証を可能にするツールチェーンである。
OpenQASM 2.0をRISCライクな命令に変換するコンパイラと、数値表現とシミュレート回路を選択するCythonソフトウェアモデルと、FPGAベースのハードウェアエミュレータ用のRTL記述を生成するVHDLジェネレータで構成される。
論文 参考訳(メタデータ) (2025-06-01T14:17:23Z) - VecTrans: Enhancing Compiler Auto-Vectorization through LLM-Assisted Code Transformations [17.974013479973774]
VecTransは、コンパイラベースのコードベクトル化を強化するために、大きな言語モデルを活用するフレームワークである。
VecTransは1.77倍のGeomeanスピードアップを実現し、51のテストケースのうち24をベクトル化することに成功した。
論文 参考訳(メタデータ) (2025-03-25T08:39:35Z) - LLM-Vectorizer: LLM-based Verified Loop Vectorizer [12.048697450464935]
大規模言語モデル(LLM)は、個々の配列要素を処理するスカラープログラムからベクトル化されたコードを生成することができる。
LLMは1.1xから9.4xまでのランタイムスピードアップで高性能なベクトルコードを生成することができる。
我々のアプローチでは、TSVCベンチマークデータセットで正しいベクター化の38.2%を検証できる。
論文 参考訳(メタデータ) (2024-06-07T07:04:26Z) - Universal In-Context Approximation By Prompting Fully Recurrent Models [86.61942787684272]
RNN,LSTM,GRU,Linear RNN,Linear RNN,Line gated Architecturesは,汎用のインコンテキスト近似器として機能することを示す。
完全反復アーキテクチャにコンパイルするLSRLというプログラミング言語を導入する。
論文 参考訳(メタデータ) (2024-06-03T15:25:13Z) - ML-Bench: Evaluating Large Language Models and Agents for Machine Learning Tasks on Repository-Level Code [76.84199699772903]
ML-Benchは、既存のコードリポジトリを利用してタスクを実行する現実世界のプログラミングアプリケーションに根ざしたベンチマークである。
LLM(Large Language Model)とAIエージェントの両方を評価するために、事前に定義されたデプロイメント環境でLLMのテキスト-コード変換を評価するML-LLM-Benchと、Linuxサンドボックス環境でエンドツーエンドのタスク実行で自律エージェントをテストするML-Agent-Benchの2つの設定が採用されている。
論文 参考訳(メタデータ) (2023-11-16T12:03:21Z) - Enabling Retargetable Optimizing Compilers for Quantum Accelerators via
a Multi-Level Intermediate Representation [78.8942067357231]
我々は、最適化され、再ターゲット可能で、事前コンパイルが可能なマルチレベル量子古典中間表現(IR)を提案する。
ゲートベースのOpenQASM 3言語全体をサポートし、共通量子プログラミングパターンのカスタム拡張と構文の改善を提供します。
私たちの研究は、通常のPythonのアプローチよりも1000倍高速で、スタンドアロンの量子言語コンパイラよりも5~10倍高速なコンパイル時間を実現しています。
論文 参考訳(メタデータ) (2021-09-01T17:29:47Z) - PolyDL: Polyhedral Optimizations for Creation of High Performance DL
primitives [55.79741270235602]
本稿では,Deep Learningプリミティブの高性能実装を自動的に生成するコンパイラアルゴリズムを提案する。
我々は多面体モデルを用いた新しいデータ再利用分析アルゴリズムを開発した。
また、このようなハイブリッドコンパイラとライブラリ使用の最小限のアプローチが、最先端のパフォーマンスをもたらすことを示す。
論文 参考訳(メタデータ) (2020-06-02T06:44:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。