Fugu-MT 論文翻訳(概要): VeriLocc: End-to-End Cross-Architecture Register Allocation via LLM

論文の概要: VeriLocc: End-to-End Cross-Architecture Register Allocation via LLM

arxiv url: http://arxiv.org/abs/2506.17506v1
Date: Fri, 20 Jun 2025 23:08:09 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-24 19:06:36.449637
Title: VeriLocc: End-to-End Cross-Architecture Register Allocation via LLM
Title（参考訳）: VeriLocc: LLMによるエンドツーエンドのクロスアーキテクチャ登録アロケーション
Authors: Lesheng Jin, Zhenyuan Ruan, Haohui Mai, Jingbo Shang,
Abstract要約: 大規模言語モデル(LLM)とフォーマルコンパイラ技術を組み合わせたフレームワークであるVeriLoccを導入し,GPUアーキテクチャ全体にわたる汎用性と検証可能なレジスタ割り当てを実現する。行列乗算 (M) とマルチヘッドアテンション (MHA) に基づいて, VeriLocc は 85-99% のシングルショット精度と約100% パス@100 を達成する。ケーススタディでは、VeriLoccは専門家がチューニングしたライブラリよりもパフォーマンスの高い割り当てを発見し、実行時に RocBLASを10%以上上回っている。
参考スコア（独自算出の注目度）: 39.27052626057448
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Modern GPUs evolve rapidly, yet production compilers still rely on hand-crafted register allocation heuristics that require substantial re-tuning for each hardware generation. We introduce VeriLocc, a framework that combines large language models (LLMs) with formal compiler techniques to enable generalizable and verifiable register allocation across GPU architectures. VeriLocc fine-tunes an LLM to translate intermediate representations (MIRs) into target-specific register assignments, aided by static analysis for cross-architecture normalization and generalization and a verifier-guided regeneration loop to ensure correctness. Evaluated on matrix multiplication (GEMM) and multi-head attention (MHA), VeriLocc achieves 85-99% single-shot accuracy and near-100% pass@100. Case study shows that VeriLocc discovers more performant assignments than expert-tuned libraries, outperforming rocBLAS by over 10% in runtime.
Abstract（参考訳）: 現代のGPUは急速に進化しているが、本番のコンパイラは手作りのレジスタ割り当てヒューリスティックに依存している。大規模言語モデル(LLM)とフォーマルコンパイラ技術を組み合わせたフレームワークであるVeriLoccを導入し,GPUアーキテクチャ全体にわたる汎用性と検証可能なレジスタ割り当てを実現する。 VeriLoccファインチューン(VeriLocc fine-tunes)は、中間表現(MIR)をターゲット固有のレジスタ代入に変換することで、クロスアーキテクチャ正規化と一般化のための静的解析と、正当性を保証する検証器誘導再生ループによって支援される。 VeriLoccは,行列乗算(GEMM)とマルチヘッドアテンション(MHA)に基づいて,85～99%のシングルショット精度とほぼ100%パス@100を達成する。ケーススタディでは、VeriLoccは専門家がチューニングしたライブラリよりもパフォーマンスの高い割り当てを発見し、実行時に RocBLASを10%以上上回っている。

関連論文リスト

CUDA-LLM: LLMs Can Write Efficient CUDA Kernels [9.287036563375617]
大規模言語モデル(LLM)は汎用コード生成において強力な機能を示している。我々は,textbfFeature SearchReinforcement (FSR) FSRという新しいフレームワークを提案する。
論文参考訳（メタデータ） (2025-06-10T10:51:03Z)
AEQUAM: Accelerating Quantum Algorithm Validation through FPGA-Based Emulation [0.46873264197900916]
AEQUAMは、より高速でアクセスしやすい量子回路検証を可能にするツールチェーンである。 OpenQASM 2.0をRISCライクな命令に変換するコンパイラと、数値表現とシミュレート回路を選択するCythonソフトウェアモデルと、FPGAベースのハードウェアエミュレータ用のRTL記述を生成するVHDLジェネレータで構成される。
論文参考訳（メタデータ） (2025-06-01T14:17:23Z)
NGPU-LM: GPU-Accelerated N-Gram Language Model for Context-Biasing in Greedy ASR Decoding [54.88765757043535]
この研究は、統計的なn-gram言語モデルのデータ構造を再考し、GPU最適化推論の高速かつ並列な操作を可能にする。我々のアプローチは NGPU-LM と呼ばれ、7% 未満の計算オーバーヘッドを持つ全ての主要な ASR モデルに対して、カスタマイズ可能なgreedy decoding を導入している。提案手法は,ビーム探索による顕著な遅延を回避しつつ,greedy と beam search の精度ギャップの50%以上を排除できる。
論文参考訳（メタデータ） (2025-05-28T20:43:10Z)
VecTrans: Enhancing Compiler Auto-Vectorization through LLM-Assisted Code Transformations [17.974013479973774]
VecTransは、コンパイラベースのコードベクトル化を強化するために、大きな言語モデルを活用するフレームワークである。 VecTransは1.77倍のGeomeanスピードアップを実現し、51のテストケースのうち24をベクトル化することに成功した。
論文参考訳（メタデータ） (2025-03-25T08:39:35Z)
LLM-Vectorizer: LLM-based Verified Loop Vectorizer [12.048697450464935]
大規模言語モデル(LLM)は、個々の配列要素を処理するスカラープログラムからベクトル化されたコードを生成することができる。 LLMは1.1xから9.4xまでのランタイムスピードアップで高性能なベクトルコードを生成することができる。我々のアプローチでは、TSVCベンチマークデータセットで正しいベクター化の38.2%を検証できる。
論文参考訳（メタデータ） (2024-06-07T07:04:26Z)
Universal In-Context Approximation By Prompting Fully Recurrent Models [86.61942787684272]
RNN,LSTM,GRU,Linear RNN,Linear RNN,Line gated Architecturesは,汎用のインコンテキスト近似器として機能することを示す。完全反復アーキテクチャにコンパイルするLSRLというプログラミング言語を導入する。
論文参考訳（メタデータ） (2024-06-03T15:25:13Z)
ML-Bench: Evaluating Large Language Models and Agents for Machine Learning Tasks on Repository-Level Code [76.84199699772903]
ML-Benchは、既存のコードリポジトリを利用してタスクを実行する現実世界のプログラミングアプリケーションに根ざしたベンチマークである。 LLM(Large Language Model)とAIエージェントの両方を評価するために、事前に定義されたデプロイメント環境でLLMのテキスト-コード変換を評価するML-LLM-Benchと、Linuxサンドボックス環境でエンドツーエンドのタスク実行で自律エージェントをテストするML-Agent-Benchの2つの設定が採用されている。
論文参考訳（メタデータ） (2023-11-16T12:03:21Z)
Fast Chain-of-Thought: A Glance of Future from Parallel Decoding Leads to Answers Faster [61.83949316226113]
FastCoTは並列デコーディングに基づくモデルに依存しないフレームワークである。我々は、FastCoTが通常のアプローチと比較して、無視できる性能低下だけで、推論時間を20%近く削減できることを示します。
論文参考訳（メタデータ） (2023-11-14T15:56:18Z)
Enabling Retargetable Optimizing Compilers for Quantum Accelerators via a Multi-Level Intermediate Representation [78.8942067357231]
我々は、最適化され、再ターゲット可能で、事前コンパイルが可能なマルチレベル量子古典中間表現(IR)を提案する。ゲートベースのOpenQASM 3言語全体をサポートし、共通量子プログラミングパターンのカスタム拡張と構文の改善を提供します。私たちの研究は、通常のPythonのアプローチよりも1000倍高速で、スタンドアロンの量子言語コンパイラよりも5～10倍高速なコンパイル時間を実現しています。
論文参考訳（メタデータ） (2021-09-01T17:29:47Z)
A Case Study of LLVM-Based Analysis for Optimizing SIMD Code Generation [0.0]
本稿では,新しいARM A64FXプロセッサをターゲットとした DCA++ アプリケーションをチューニングするために,LLVM ベースのツールを使用する手法を提案する。これらのコード変更を適用することで、コードスピードは1.98X増加し、A64FXプロセッサ上で78GFlopsを達成した。
論文参考訳（メタデータ） (2021-06-27T22:38:16Z)
PolyDL: Polyhedral Optimizations for Creation of High Performance DL primitives [55.79741270235602]
本稿では,Deep Learningプリミティブの高性能実装を自動的に生成するコンパイラアルゴリズムを提案する。我々は多面体モデルを用いた新しいデータ再利用分析アルゴリズムを開発した。また、このようなハイブリッドコンパイラとライブラリ使用の最小限のアプローチが、最先端のパフォーマンスをもたらすことを示す。
論文参考訳（メタデータ） (2020-06-02T06:44:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。