論文の概要: A Case Study of LLVM-Based Analysis for Optimizing SIMD Code Generation
- arxiv url: http://arxiv.org/abs/2106.14332v1
- Date: Sun, 27 Jun 2021 22:38:16 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-29 17:47:33.492013
- Title: A Case Study of LLVM-Based Analysis for Optimizing SIMD Code Generation
- Title(参考訳): simdコード生成最適化のためのllvm解析のケーススタディ
- Authors: Joseph Huber, Weile Wei, Giorgis Georgakoudis, Johannes Doerfert,
Oscar Hernandez
- Abstract要約: 本稿では,新しいARM A64FXプロセッサをターゲットとした DCA++ アプリケーションをチューニングするために,LLVM ベースのツールを使用する手法を提案する。
これらのコード変更を適用することで、コードスピードは1.98X増加し、A64FXプロセッサ上で78GFlopsを達成した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: This paper presents a methodology for using LLVM-based tools to tune the
DCA++ (dynamical clusterapproximation) application that targets the new ARM
A64FX processor. The goal is to describethe changes required for the new
architecture and generate efficient single instruction/multiple data(SIMD)
instructions that target the new Scalable Vector Extension instruction set.
During manualtuning, the authors used the LLVM tools to improve code
parallelization by using OpenMP SIMD,refactored the code and applied
transformation that enabled SIMD optimizations, and ensured thatthe correct
libraries were used to achieve optimal performance. By applying these code
changes, codespeed was increased by 1.98X and 78 GFlops were achieved on the
A64FX processor. The authorsaim to automatize parts of the efforts in the
OpenMP Advisor tool, which is built on top of existingand newly introduced LLVM
tooling.
- Abstract(参考訳): 本稿では,新しいARM A64FXプロセッサをターゲットとした DCA++ (dynamical clusterapproximation) アプリケーションのチューニングにLLVMベースのツールを使用する手法を提案する。
目標は、新しいアーキテクチャに必要な変更を記述し、新しいScalable Vector Extension命令セットをターゲットにした効率的な単一命令/複数データ(SIMD)命令を生成することである。
手動チューニングの間、著者らはLLVMツールを使用して、OpenMP SIMDを使用してコードの並列化を改善し、SIMD最適化を可能にするコードと適用した変換をリファクタリングし、正しいライブラリを使用して最適なパフォーマンスを実現する。
これらのコード変更を適用することで、a64fxプロセッサでcodespeedが1.9倍、78gflopsが達成された。
OpenMP Advisorツールは、既存の新しく導入されたLLVMツールの上に構築されている。
関連論文リスト
- Unleashing the Potential of Large Language Models as Prompt Optimizers:
An Analogical Analysis with Gradient-based Model Optimizers [115.2038169433773]
本稿では,大規模言語モデル(LLM)に基づくプロンプトの設計について検討する。
モデルパラメータ学習における2つの重要な要素を同定する。
特に、勾配に基づく最適化から理論的な枠組みや学習手法を借用し、改良された戦略を設計する。
論文 参考訳(メタデータ) (2024-02-27T15:05:32Z) - ACPO: AI-Enabled Compiler-Driven Program Optimization [1.879008610342411]
ACPOは、さまざまな最適化パスにMLモデルを使用することの恩恵を受けるために、LLVMにシンプルで包括的なツールを提供するフレームワークである。
LLVM の O3 最適化と比較して,Loop Unroll の ACPO モデルでは,Polybench にデプロイすると平均 4% の値が得られることを示す。
論文 参考訳(メタデータ) (2023-12-15T17:49:24Z) - ML-Bench: Large Language Models Leverage Open-source Libraries for
Machine Learning Tasks [75.12666425091702]
大規模な言語モデルは、コード生成ベンチマークで有望なパフォーマンスを示している。
この研究は、LLMがオープンソースのライブラリを使用して機械学習タスクを終了する、新たな評価設定を提案することを目的としている。
論文 参考訳(メタデータ) (2023-11-16T12:03:21Z) - Tackling the Matrix Multiplication Micro-kernel Generation with Exo [0.5517652814152908]
新しいハードウェアごとに専用のマイクロカーネルを生成するためのステップバイステップの手順を提案する。
ハードウェアターゲットは、その命令の簡潔なライブラリベースの記述によって完全に指定されるため、生成したコードの移植性も向上する。
論文 参考訳(メタデータ) (2023-10-26T14:09:57Z) - Use Your INSTINCT: INSTruction optimization usIng Neural bandits Coupled
with Transformers [69.70169378788411]
大規模言語モデル (LLM) は命令追従能力に優れ、様々なアプリケーションで優れた性能を発揮している。
最近の研究は、ブラックボックスLLMに与えられる命令を自動的に最適化するために、クエリ効率のよいベイズ最適化(BO)アルゴリズムを用いている。
NNサロゲートによりBOのGPを置換し,ブラックボックスLLMの命令を最適化するニューラルバンディットアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-02T02:01:16Z) - MLGOPerf: An ML Guided Inliner to Optimize Performance [7.314201117946244]
本稿では,LLVMのML-Inlinerを用いて,パフォーマンスを最適化する初のエンドツーエンドフレームワークを提案する。
セカンダリMLモデルを使用して、リターゲット強化学習エージェントのトレーニングに使用する報酬を生成する。
分析中の関数のインライン後のスピードアップを予測し、プライマリモデルのための高速なトレーニングフレームワークを可能にする。
論文 参考訳(メタデータ) (2022-07-18T05:47:29Z) - Learning to Combine Instructions in LLVM Compiler [1.2987894327817158]
我々は、従来の命令コンバータ(IC)に関連する課題を軽減するために、NIC(Neural Instruction Combiner)を実装している。
従来のICとニューラルマシンの翻訳基準であるBleuの精度スコア(0.94)と比較すると,NICの正確な一致率は72%であった。
論文 参考訳(メタデータ) (2022-02-22T06:20:51Z) - Learning to Superoptimize Real-world Programs [79.4140991035247]
本稿では,ニューラルシークエンス・ツー・シーケンス・モデルを用いて,実世界のプログラムを最適化するフレームワークを提案する。
我々は、x86-64アセンブリでオープンソースプロジェクトから抽出された25万以上の実世界の関数からなるデータセットであるBig Assemblyベンチマークを紹介した。
論文 参考訳(メタデータ) (2021-09-28T05:33:21Z) - Enabling Retargetable Optimizing Compilers for Quantum Accelerators via
a Multi-Level Intermediate Representation [78.8942067357231]
我々は、最適化され、再ターゲット可能で、事前コンパイルが可能なマルチレベル量子古典中間表現(IR)を提案する。
ゲートベースのOpenQASM 3言語全体をサポートし、共通量子プログラミングパターンのカスタム拡張と構文の改善を提供します。
私たちの研究は、通常のPythonのアプローチよりも1000倍高速で、スタンドアロンの量子言語コンパイラよりも5~10倍高速なコンパイル時間を実現しています。
論文 参考訳(メタデータ) (2021-09-01T17:29:47Z) - MLGO: a Machine Learning Guided Compiler Optimizations Framework [0.0]
この作業は、実際の設定で複雑なコンパイラパスで機械学習を初めて完全に統合した作業です。
インライン・フォー・サイズモデルのトレーニングには2つの異なるMLアルゴリズムを使用し、最大7%の削減を実現している。
同じモデルは、実世界のターゲットの多様性、そして数ヶ月のアクティブな開発の後、同じターゲットセットにうまく一般化します。
論文 参考訳(メタデータ) (2021-01-13T00:02:49Z) - PolyDL: Polyhedral Optimizations for Creation of High Performance DL
primitives [55.79741270235602]
本稿では,Deep Learningプリミティブの高性能実装を自動的に生成するコンパイラアルゴリズムを提案する。
我々は多面体モデルを用いた新しいデータ再利用分析アルゴリズムを開発した。
また、このようなハイブリッドコンパイラとライブラリ使用の最小限のアプローチが、最先端のパフォーマンスをもたらすことを示す。
論文 参考訳(メタデータ) (2020-06-02T06:44:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。