Fugu-MT 論文翻訳(概要): VecTrans: LLM Transformation Framework for Better Auto-vectorization on High-performance CPU

論文の概要: VecTrans: LLM Transformation Framework for Better Auto-vectorization on High-performance CPU

arxiv url: http://arxiv.org/abs/2503.19449v1
Date: Tue, 25 Mar 2025 08:39:35 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-26 19:42:58.746103
Title: VecTrans: LLM Transformation Framework for Better Auto-vectorization on High-performance CPU
Title（参考訳）: VecTrans:高性能CPU上での自動ベクトル化を実現するLLM変換フレームワーク
Authors: Zhongchun Zheng, Long Cheng, Lu Li, Rodrigo C. O. Rocha, Tianyi Liu, Wei Wei, Xianwei Zhang, Yaoqing Gao,
Abstract要約: VecTransは、コンパイラベースのコードベクトル化を強化するために、大きな言語モデルを活用するフレームワークである。 VecTransは23ケース(46%)のベクター化に成功し、平均速度は2.02倍に達する。
参考スコア（独自算出の注目度）: 17.263612093919885
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large language models (LLMs) have demonstrated great capabilities in code generation, yet their effective application in compiler optimizations remains an open challenge due to issues such as hallucinations and a lack of domain-specific reasoning. Vectorization, a crucial optimization for enhancing code performance, often fails because of the compiler's inability to recognize complex code patterns, which commonly require extensive empirical expertise. LLMs, with their ability to capture intricate patterns, thus providing a promising solution to this challenge. This paper presents VecTrans, a novel framework that leverages LLMs to enhance compiler-based code vectorization. VecTrans first employs compiler analysis to identify potentially vectorizable code regions. It then utilizes an LLM to refactor these regions into patterns that are more amenable to the compiler's auto-vectorization. To ensure semantic correctness, VecTrans further integrates a hybrid validation mechanism at the intermediate representation (IR) level. With the above efforts, VecTrans combines the adaptability of LLMs with the precision of compiler vectorization, thereby effectively opening up the vectorization opportunities. Experimental results show that among all 50 TSVC functions unvectorizable by Clang, GCC, and BiShengCompiler, VecTrans successfully vectorizes 23 cases (46%) and achieves an average speedup of 2.02x, greatly surpassing state-of-the-art performance.
Abstract（参考訳）: 大規模言語モデル(LLM)はコード生成において優れた機能を示しているが、そのコンパイラ最適化における効果的な応用は、幻覚やドメイン固有の推論の欠如といった問題のために、依然としてオープンな課題である。コードパフォーマンスを向上させるための重要な最適化であるベクタライゼーションは、一般的に広範な経験的な専門知識を必要とする複雑なコードパターンを認識できないため、しばしば失敗する。 LLMは複雑なパターンをキャプチャする機能を備えており、この課題に対する有望な解決策を提供する。本稿では,コンパイラベースのコードベクトル化を強化するためにLLMを利用した新しいフレームワークであるVecTransを提案する。 VecTransは、まずコンパイラ分析を使用して、潜在的にベクトル化可能なコード領域を特定する。次に、LLMを使用して、これらの領域をコンパイラのオートベクタ化に適したパターンにリファクタリングする。セマンティックな正確性を保証するため、VecTransはさらに、中間表現(IR)レベルでハイブリッド検証機構を統合する。上記の取り組みにより、VecTransはLLMの適応性とコンパイラベクター化の精度を組み合わせ、ベクター化の機会を効果的に開放する。実験結果から, Clang, GCC, BiShengCompilerで検証できない50個のTSVC関数のうち, VecTransは23ケース (46%) のベクトル化に成功し, 平均速度は2.02倍となり, 最先端性能を大きく上回った。

関連論文リスト

Compiler Optimization via LLM Reasoning for Efficient Model Serving [7.257845254223727]
本稿では,コンパイルフレームワーク(REASONING COMPILER)を導入し,最適化を逐次的かつコンテキスト対応な意思決定プロセスとして定式化する。主要なニューラルネットワークよりもはるかに少ないサンプルで、相当なスピードアップを実現しています。
論文参考訳（メタデータ） (2025-06-02T07:02:46Z)
SymRTLO: Enhancing RTL Code Optimization with LLMs and Neuron-Inspired Symbolic Reasoning [18.40402135952776]
本稿では,新しいニューロン-シンボリックRTL最適化フレームワークであるSymRTLOを提案する。有限状態機械(FSM)論理の解析と最適化のための記号モジュールを提案する。 Synopsys Design Compiler と Yosys による RTL-Rewriter ベンチマークの実験では、SymRTLO は 43.9% と 62.5% と 51.1% に向上している。
論文参考訳（メタデータ） (2025-04-14T16:15:55Z)
Highly Optimized Kernels and Fine-Grained Codebooks for LLM Inference on Arm CPUs [0.8217552831952]
大きな言語モデル(LLM)は、言語理解と生成に関する考え方を変えました。 LLM量子化によく使われるグループ量子化形式は、計算上のオーバーヘッドとリソース集約型量子化プロセスを持つ。本稿では,LLMの超低精度量子化のためのグループワイド非一様符号ブックに基づく量子化手法を提案する。
論文参考訳（メタデータ） (2024-12-23T03:44:29Z)
A Walsh Hadamard Derived Linear Vector Symbolic Architecture [83.27945465029167]
シンボリックベクトルアーキテクチャ(VSAs)は、ニューロシンボリックAIを開発するためのアプローチである。 HLBは計算効率が良く、従来のVSAタスクで有効であるように設計されている。
論文参考訳（メタデータ） (2024-10-30T03:42:59Z)
Vector-ICL: In-context Learning with Continuous Vector Representations [75.96920867382859]
大規模言語モデル (LLM) はテキストデータに顕著なコンテキスト内学習能力を示す。ブラックボックス事前学習エンコーダから得られる様々な領域から連続ベクトルに拡張できるかどうかを検討する。特に,汎用言語モデリング目的のプロジェクタを事前学習することで,Vector-ICLの実現が期待できる。
論文参考訳（メタデータ） (2024-10-08T02:25:38Z)
LLM-Aided Compilation for Tensor Accelerators [6.709490736813537]
我々は,大規模言語モデル(LLM)を用いてハードウェアアクセラレーター用のコンパイラを構築する方法について論じる。具体的には,GPT-4がGemminiアクセラレータへのコード変換において高いパスレートを達成する能力を示す。また,LLMを利用してハードウェア最適化コードを生成するための2フェーズワークフローを提案する。
論文参考訳（メタデータ） (2024-08-06T19:10:25Z)
Should AI Optimize Your Code? A Comparative Study of Classical Optimizing Compilers Versus Current Large Language Models [0.0]
大規模言語モデル(LLM)は、コード最適化に革命をもたらすAIアプローチの可能性に関する興味深い疑問を提起する。この作業は、コンパイラコミュニティにとって重要な質問に答えることを目的としている。本稿では3つの古典最適化コンパイラと2つの最近の大規模言語モデルの比較分析を行う。
論文参考訳（メタデータ） (2024-06-17T23:26:41Z)
LLM-Vectorizer: LLM-based Verified Loop Vectorizer [12.048697450464935]
大規模言語モデル(LLM)は、個々の配列要素を処理するスカラープログラムからベクトル化されたコードを生成することができる。 LLMは1.1xから9.4xまでのランタイムスピードアップで高性能なベクトルコードを生成することができる。我々のアプローチでは、TSVCベンチマークデータセットで正しいベクター化の38.2%を検証できる。
論文参考訳（メタデータ） (2024-06-07T07:04:26Z)
In-Context Learning State Vector with Inner and Momentum Optimization [23.33921300777915]
大規模言語モデル(LLM)は、わずか数例からICL(In-Context Learning)を実行する素晴らしい能力を示した。近年の研究では、ICLが学習した関数は変換器から得られる圧縮ベクトルで表現できることが示されている。本稿では,これらの圧縮ベクトルの包括的解析,勾配降下法で訓練されたパラメータの並列化,状態ベクトルの概念について述べる。
論文参考訳（メタデータ） (2024-04-17T10:19:15Z)
Make Every Move Count: LLM-based High-Quality RTL Code Generation Using MCTS [20.135906487081453]
本稿では,モンテカルロ木探索をベースとした自動トランスフォーマー復号アルゴリズムを提案する。最先端のLLM(16ビット加算器)が生成する最大の設計のために,本技術は面積遅延生成物において31.8%の改善を達成できる。
論文参考訳（メタデータ） (2024-02-05T18:47:04Z)
StepCoder: Improve Code Generation with Reinforcement Learning from Compiler Feedback [58.20547418182074]
2つの主要コンポーネントからなるコード生成の新しいフレームワークであるStepCoderを紹介します。 CCCSは、長いシーケンスのコード生成タスクをCurriculum of Code Completion Subtaskに分割することで、探索課題に対処する。 FGOは、未実行のコードセグメントをマスクすることでのみモデルを最適化し、Fine-Grained Optimizationを提供する。提案手法は,出力空間を探索し,対応するベンチマークにおいて最先端の手法より優れた性能を発揮する。
論文参考訳（メタデータ） (2024-02-02T13:14:31Z)
Fast Chain-of-Thought: A Glance of Future from Parallel Decoding Leads to Answers Faster [61.83949316226113]
FastCoTは並列デコーディングに基づくモデルに依存しないフレームワークである。我々は、FastCoTが通常のアプローチと比較して、無視できる性能低下だけで、推論時間を20%近く削減できることを示します。
論文参考訳（メタデータ） (2023-11-14T15:56:18Z)
Transpiling RTL Pseudo-code of the POWER Instruction Set Architecture to C for Real-time Performance Analysis on Cavatools Simulator [0.0]
本稿では,POWER命令セットアーキテクチャ(ISA)のRTL擬似コードをCコードに変換するためのトランスパイラフレームワークを提案する。トランスパイラは、要件に準拠したCコードを生成することで、Cavatoolsシミュレータとの互換性を保証する。提案するフレームワークは,RTL擬似コードをCavatoolsエコシステムにシームレスに統合し,総合的なパフォーマンス解析とPower ISAベースのコードの最適化を可能にする。
論文参考訳（メタデータ） (2023-06-14T18:53:14Z)
Adapting Language Models to Compress Contexts [71.98287002918941]
トランスフォーマーベースの言語モデル(LM)は強力で広く適用可能なツールであるが、その有用性は有限コンテキストウィンドウによって制限される。本稿では,事前学習したLMを,長いコンテキストをコンパクトな要約ベクトルに圧縮可能なAutoCompressorに適応させることを提案する。最大30,720個のトークンのシーケンスでOPTとLlama-2モデルを微調整し、AutoCompressorが長いコンテキストを使ってパープレキシティを向上できることを示す。
論文参考訳（メタデータ） (2023-05-24T06:42:44Z)
Inference with Reference: Lossless Acceleration of Large Language Models [97.04200102556551]
LLMAは、参照によるLarge Language Model (LLM)推論を高速化するアクセラレータである。 LLMによる復号結果と実世界の多くのシナリオで利用できる参照との間には、多くの同一のテキストが存在していることが観察の動機となっている。
論文参考訳（メタデータ） (2023-04-10T09:55:14Z)
Factorizers for Distributed Sparse Block Codes [45.29870215671697]
分散ブロック符号(SBC)を高速かつ高精度に分解する手法を提案する。我々の反復分解器は、しきい値に基づく非線形活性化、条件付きランダムサンプリング、および $ell_infty$-based similarity metricを導入している。 CIFAR-100, ImageNet-1K, RAVENデータセット上での4つの深層CNNアーキテクチャの実現可能性を示す。
論文参考訳（メタデータ） (2023-03-24T12:31:48Z)
Performance Embeddings: A Similarity-based Approach to Automatic Performance Optimization [71.69092462147292]
パフォーマンス埋め込みは、アプリケーション間でパフォーマンスチューニングの知識伝達を可能にする。本研究では, 深層ニューラルネットワーク, 密度およびスパース線形代数合成, および数値風速予測ステンシルのケーススタディにおいて, この伝達チューニング手法を実証する。
論文参考訳（メタデータ） (2023-03-14T15:51:35Z)
Enabling Retargetable Optimizing Compilers for Quantum Accelerators via a Multi-Level Intermediate Representation [78.8942067357231]
我々は、最適化され、再ターゲット可能で、事前コンパイルが可能なマルチレベル量子古典中間表現(IR)を提案する。ゲートベースのOpenQASM 3言語全体をサポートし、共通量子プログラミングパターンのカスタム拡張と構文の改善を提供します。私たちの研究は、通常のPythonのアプローチよりも1000倍高速で、スタンドアロンの量子言語コンパイラよりも5～10倍高速なコンパイル時間を実現しています。
論文参考訳（メタデータ） (2021-09-01T17:29:47Z)
QTRAN++: Improved Value Transformation for Cooperative Multi-Agent Reinforcement Learning [70.382101956278]
QTRANは、最大級の共同作用値関数を学習できる強化学習アルゴリズムである。理論的な保証は強いが、複雑な環境での実証的な性能は劣っている。そこで我々はQTRAN++という改良版を提案する。
論文参考訳（メタデータ） (2020-06-22T05:08:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。