Fugu-MT 論文翻訳(概要): A Case Study of LLVM-Based Analysis for Optimizing SIMD Code Generation

論文の概要: A Case Study of LLVM-Based Analysis for Optimizing SIMD Code Generation

arxiv url: http://arxiv.org/abs/2106.14332v1
Date: Sun, 27 Jun 2021 22:38:16 GMT
ステータス: 翻訳完了
システム内更新日: 2021-06-29 17:47:33.492013
Title: A Case Study of LLVM-Based Analysis for Optimizing SIMD Code Generation
Title（参考訳）: simdコード生成最適化のためのllvm解析のケーススタディ
Authors: Joseph Huber, Weile Wei, Giorgis Georgakoudis, Johannes Doerfert, Oscar Hernandez
Abstract要約: 本稿では,新しいARM A64FXプロセッサをターゲットとした DCA++ アプリケーションをチューニングするために,LLVM ベースのツールを使用する手法を提案する。これらのコード変更を適用することで、コードスピードは1.98X増加し、A64FXプロセッサ上で78GFlopsを達成した。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: This paper presents a methodology for using LLVM-based tools to tune the DCA++ (dynamical clusterapproximation) application that targets the new ARM A64FX processor. The goal is to describethe changes required for the new architecture and generate efficient single instruction/multiple data(SIMD) instructions that target the new Scalable Vector Extension instruction set. During manualtuning, the authors used the LLVM tools to improve code parallelization by using OpenMP SIMD,refactored the code and applied transformation that enabled SIMD optimizations, and ensured thatthe correct libraries were used to achieve optimal performance. By applying these code changes, codespeed was increased by 1.98X and 78 GFlops were achieved on the A64FX processor. The authorsaim to automatize parts of the efforts in the OpenMP Advisor tool, which is built on top of existingand newly introduced LLVM tooling.
Abstract（参考訳）: 本稿では,新しいARM A64FXプロセッサをターゲットとした DCA++ (dynamical clusterapproximation) アプリケーションのチューニングにLLVMベースのツールを使用する手法を提案する。目標は、新しいアーキテクチャに必要な変更を記述し、新しいScalable Vector Extension命令セットをターゲットにした効率的な単一命令/複数データ(SIMD)命令を生成することである。手動チューニングの間、著者らはLLVMツールを使用して、OpenMP SIMDを使用してコードの並列化を改善し、SIMD最適化を可能にするコードと適用した変換をリファクタリングし、正しいライブラリを使用して最適なパフォーマンスを実現する。これらのコード変更を適用することで、a64fxプロセッサでcodespeedが1.9倍、78gflopsが達成された。 OpenMP Advisorツールは、既存の新しく導入されたLLVMツールの上に構築されている。

関連論文リスト

SimdBench: Benchmarking Large Language Models for SIMD-Intrinsic Code Generation [7.839161849517216]
大きな言語モデルは、SIMD固有のプログラミングの課題でプログラマを支援することを約束している。既存のコード生成ベンチマークではスカラーコードのみに焦点が当てられており、SIMDイントロニクスを用いたベクトル化コードの生成においてLLMがどのように機能するかは定かではない。我々はSIMD固有のコード生成用に特別に設計された最初のコードベンチマークであるSimdBenchを提案する。
論文参考訳（メタデータ） (2025-07-21T03:55:41Z)
VecTrans: Enhancing Compiler Auto-Vectorization through LLM-Assisted Code Transformations [17.974013479973774]
VecTransは、コンパイラベースのコードベクトル化を強化するために、大きな言語モデルを活用するフレームワークである。 VecTransは1.77倍のGeomeanスピードアップを実現し、51のテストケースのうち24をベクトル化することに成功した。
論文参考訳（メタデータ） (2025-03-25T08:39:35Z)
PerfCodeGen: Improving Performance of LLM Generated Code with Execution Feedback [78.89596149768458]
大規模言語モデル(LLM)は、ソフトウェア開発タスクを支援するために広く採用されている。 LLM生成コードの性能を向上させるトレーニングフリーフレームワークPerfCodeGenを提案する。
論文参考訳（メタデータ） (2024-11-18T06:22:38Z)
Reference Trustable Decoding: A Training-Free Augmentation Paradigm for Large Language Models [79.41139393080736]
大規模言語モデル(LLM)は急速に進歩し、印象的な機能を示している。 In-Context Learning (ICL) など。効率的なファインチューニング(PEFT)は、現在2つの主要な拡張方法である。下流タスクへのLLM。我々は、モデルが微調整なしで新しいタスクに迅速に適応できるパラダイムである参照信頼復号(RTD)を提案する。
論文参考訳（メタデータ） (2024-09-30T10:48:20Z)
A Reinforcement Learning Environment for Automatic Code Optimization in the MLIR Compiler [0.10923877073891444]
本稿では,MLIRコンパイラ研究の促進を目的とした,MLIRコンパイラの最初のRL環境について紹介する。また、より単純なアクション部分空間の積として作用空間の新たな定式化を提案し、より効率的かつ効率的な最適化を可能にした。
論文参考訳（メタデータ） (2024-09-17T10:49:45Z)
Meta Large Language Model Compiler: Foundation Models of Compiler Optimization [21.161784011956126]
大規模言語モデル(LLM)は、様々なソフトウェア工学やコーディングタスクにまたがる顕著な機能を示している。しかしながら、コード領域におけるそれらのアプリケーションとコンパイラの最適化については、まだ未検討である。 Meta Large Language Model Compiler (LLM Compiler)は、コード最適化タスクのための、堅牢で、オープンに利用可能な、事前訓練されたモデルのスイートである。
論文参考訳（メタデータ） (2024-06-27T21:47:48Z)
Should AI Optimize Your Code? A Comparative Study of Classical Optimizing Compilers Versus Current Large Language Models [0.0]
大規模言語モデル(LLM)は、コード最適化に革命をもたらすAIアプローチの可能性に関する興味深い疑問を提起する。この作業は、コンパイラコミュニティにとって重要な質問に答えることを目的としている。本稿では3つの古典最適化コンパイラと2つの最近の大規模言語モデルの比較分析を行う。
論文参考訳（メタデータ） (2024-06-17T23:26:41Z)
LLM-Vectorizer: LLM-based Verified Loop Vectorizer [12.048697450464935]
大規模言語モデル(LLM)は、個々の配列要素を処理するスカラープログラムからベクトル化されたコードを生成することができる。 LLMは1.1xから9.4xまでのランタイムスピードアップで高性能なベクトルコードを生成することができる。我々のアプローチでは、TSVCベンチマークデータセットで正しいベクター化の38.2%を検証できる。
論文参考訳（メタデータ） (2024-06-07T07:04:26Z)
Compiler generated feedback for Large Language Models [3.86901256759401]
我々は,LLVMアセンブリのコードサイズを最適化するために,コンパイラフィードバックを備えたLarge Language Modelを用いたコンパイラ最適化において,新しいパラダイムを導入する。このモデルは、最適化されていないLLVM IRを入力として取り、最適化されたIR、最適な最適化パス、最適化されていないIRと最適化されたIRの両方の命令数を生成する。
論文参考訳（メタデータ） (2024-03-18T23:25:13Z)
Unleashing the Potential of Large Language Models as Prompt Optimizers: Analogical Analysis with Gradient-based Model Optimizers [108.72225067368592]
本稿では,大規模言語モデル(LLM)に基づくプロンプトの設計について検討する。モデルパラメータ学習における2つの重要な要素を同定する。グラディエントにインスパイアされた Prompt ベースの GPO を開発した。
論文参考訳（メタデータ） (2024-02-27T15:05:32Z)
Extreme Compression of Large Language Models via Additive Quantization [59.3122859349777]
我々のアルゴリズムは、AQLMと呼ばれ、情報検索のための古典的な加算量子化(AQ)アプローチを一般化する。トークン生成のためのAQLMの高速GPUおよびCPU実装を提供しており、最適化されたFP16実装を高速にマッチングまたは性能良くすることができる。
論文参考訳（メタデータ） (2024-01-11T18:54:44Z)
Tackling the Matrix Multiplication Micro-kernel Generation with Exo [0.5517652814152908]
新しいハードウェアごとに専用のマイクロカーネルを生成するためのステップバイステップの手順を提案する。ハードウェアターゲットは、その命令の簡潔なライブラリベースの記述によって完全に指定されるため、生成したコードの移植性も向上する。
論文参考訳（メタデータ） (2023-10-26T14:09:57Z)
Learning Performance-Improving Code Edits [107.21538852090208]
本稿では,大規模言語モデル(LLM)を高レベルプログラム最適化に適用するためのフレームワークを提案する。まず、競争力のある77,000以上のC++プログラミングサブミッションペアによる、人間のプログラマによるパフォーマンス改善編集のデータセットをキュレートする。提案手法は,検索をベースとした少数ショットプロンプトとチェーン・オブ・シンクレットを提案し,その微調整には,自己再生に基づく性能条件付き生成と合成データ拡張が含まれる。
論文参考訳（メタデータ） (2023-02-15T18:59:21Z)
Learning to Superoptimize Real-world Programs [79.4140991035247]
本稿では,ニューラルシークエンス・ツー・シーケンス・モデルを用いて,実世界のプログラムを最適化するフレームワークを提案する。我々は、x86-64アセンブリでオープンソースプロジェクトから抽出された25万以上の実世界の関数からなるデータセットであるBig Assemblyベンチマークを紹介した。
論文参考訳（メタデータ） (2021-09-28T05:33:21Z)
Enabling Retargetable Optimizing Compilers for Quantum Accelerators via a Multi-Level Intermediate Representation [78.8942067357231]
我々は、最適化され、再ターゲット可能で、事前コンパイルが可能なマルチレベル量子古典中間表現(IR)を提案する。ゲートベースのOpenQASM 3言語全体をサポートし、共通量子プログラミングパターンのカスタム拡張と構文の改善を提供します。私たちの研究は、通常のPythonのアプローチよりも1000倍高速で、スタンドアロンの量子言語コンパイラよりも5～10倍高速なコンパイル時間を実現しています。
論文参考訳（メタデータ） (2021-09-01T17:29:47Z)
PolyDL: Polyhedral Optimizations for Creation of High Performance DL primitives [55.79741270235602]
本稿では,Deep Learningプリミティブの高性能実装を自動的に生成するコンパイラアルゴリズムを提案する。我々は多面体モデルを用いた新しいデータ再利用分析アルゴリズムを開発した。また、このようなハイブリッドコンパイラとライブラリ使用の最小限のアプローチが、最先端のパフォーマンスをもたらすことを示す。
論文参考訳（メタデータ） (2020-06-02T06:44:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。