論文の概要: MLGOPerf: An ML Guided Inliner to Optimize Performance
- arxiv url: http://arxiv.org/abs/2207.08389v2
- Date: Tue, 19 Jul 2022 15:07:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-20 11:14:52.113901
- Title: MLGOPerf: An ML Guided Inliner to Optimize Performance
- Title(参考訳): MLGOPerf:パフォーマンスを最適化するMLガイドインライナー
- Authors: Amir H. Ashouri, Mostafa Elhoushi, Yuzhe Hua, Xiang Wang, Muhammad
Asif Manzoor, Bryan Chan and Yaoqing Gao
- Abstract要約: 本稿では,LLVMのML-Inlinerを用いて,パフォーマンスを最適化する初のエンドツーエンドフレームワークを提案する。
セカンダリMLモデルを使用して、リターゲット強化学習エージェントのトレーニングに使用する報酬を生成する。
分析中の関数のインライン後のスピードアップを予測し、プライマリモデルのための高速なトレーニングフレームワークを可能にする。
- 参考スコア(独自算出の注目度): 7.314201117946244
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: For the past 25 years, we have witnessed an extensive application of Machine
Learning to the Compiler space; the selection and the phase-ordering problem.
However, limited works have been upstreamed into the state-of-the-art
compilers, i.e., LLVM, to seamlessly integrate the former into the optimization
pipeline of a compiler to be readily deployed by the user. MLGO was among the
first of such projects and it only strives to reduce the code size of a binary
with an ML-based Inliner using Reinforcement Learning.
This paper presents MLGOPerf; the first end-to-end framework capable of
optimizing performance using LLVM's ML-Inliner. It employs a secondary ML model
to generate rewards used for training a retargeted Reinforcement learning
agent, previously used as the primary model by MLGO. It does so by predicting
the post-inlining speedup of a function under analysis and it enables a fast
training framework for the primary model which otherwise wouldn't be practical.
The experimental results show MLGOPerf is able to gain up to 1.8% and 2.2% with
respect to LLVM's optimization at O3 when trained for performance on SPEC
CPU2006 and Cbench benchmarks, respectively. Furthermore, the proposed approach
provides up to 26% increased opportunities to autotune code regions for our
benchmarks which can be translated into an additional 3.7% speedup value.
- Abstract(参考訳): 過去25年間、我々はコンパイラ空間への機械学習の広範な応用、選択と位相順序付けの問題を見てきた。
しかし、制限された作業は最先端のコンパイラ、すなわちllvmにアップストリームされ、ユーザが容易にデプロイできるコンパイラの最適化パイプラインに前者をシームレスに統合している。
MLGOは最初のプロジェクトのひとつであり、Reinforcement Learningを使用したMLベースのInlinerを使ってバイナリのコードサイズを削減しようとしているだけだ。
本稿では,LLVM の ML-Inliner を用いて性能を最適化できる初のエンドツーエンドフレームワークである MLGOPerf について述べる。
MLGOのプライマリモデルとして使用されていた再ターゲット強化学習エージェントのトレーニングに使用する報酬を生成するために、セカンダリMLモデルを使用している。
分析中の関数のインライン後のスピードアップを予測し、そうでなければ実用的でないプライマリモデルのための高速なトレーニングフレームワークを可能にする。
実験の結果、MLGOPerfは、SPEC CPU2006とCbenchベンチマークのパフォーマンスのトレーニングにおいて、O3におけるLLVMの最適化に関して、最大1.8%と2.2%を得ることができた。
さらに、提案手法は、ベンチマークのコード領域を自動調整する機会を最大26%増加させ、さらに3.7%のスピードアップ値に変換します。
関連論文リスト
- CubicML: Automated ML for Large ML Systems Co-design with ML Prediction of Performance [7.425372356516303]
ディープラーニングモデルのスケールアップは、機械学習モデル(ML)のインテリジェンスを改善するために有効であることが証明されている。
本稿では,大規模分散MLシステムのトレーニング性能を自動最適化するCuicMLを提案する。
我々は,CubicMLがメタ広告において,73億のパラメータと最大4050億のパラメータを持つ社内推薦モデルのトレーニング速度を効果的に最適化できることを証明した。
論文 参考訳(メタデータ) (2024-09-06T19:55:21Z) - Bypass Back-propagation: Optimization-based Structural Pruning for Large Language Models via Policy Gradient [57.9629676017527]
大規模言語モデルを用いた最適化に基づく構造解析手法を提案する。
我々は,プルーニングモデルの損失を最適化することにより,確率空間におけるプルーニングマスクを直接学習する。
A100 GPUで13Bモデルに対して約35GBのメモリで2.7時間動作させる。
論文 参考訳(メタデータ) (2024-06-15T09:31:03Z) - Enabling High-Sparsity Foundational Llama Models with Efficient Pretraining and Deployment [56.44025052765861]
大規模言語モデル(LLM)は自然言語処理(NLP)に革命をもたらしたが、そのサイズは計算のボトルネックを生み出している。
そこで本研究では,高性能LLMの高精度かつ疎結合な基本バージョンを作成するための新しいアプローチを提案する。
スパース量子化LLaMAの最大8.6倍のCPU上での総高速化を示す。
論文 参考訳(メタデータ) (2024-05-06T16:03:32Z) - Not All Experts are Equal: Efficient Expert Pruning and Skipping for Mixture-of-Experts Large Language Models [90.14693869269519]
MoE LLMはより少ないパラメータで高いパフォーマンスを実現することができるが、パラメータサイズが大きいためデプロイは困難である。
本稿では主に,プラグ・アンド・プレイ・エキスパートレベルのスペーシフィケーション技術を導入することで,MoE LLMの展開効率を向上させることを目的としている。
論文 参考訳(メタデータ) (2024-02-22T18:56:07Z) - Revisiting Zeroth-Order Optimization for Memory-Efficient LLM Fine-Tuning: A Benchmark [166.40879020706151]
本稿では、微調整時のメモリコスト低減のためのソリューションとして、BPフリーゼロオーダー最適化(ZO)への移行を提案する。
従来のZO-SGD法とは異なり、我々の研究はより広い範囲のZO最適化手法に探索を広げる。
本研究は,タスクアライメントの重要性,前方勾配法の役割,アルゴリズムの複雑さと微調整性能のバランスについて,これまで見過ごされてきた最適化原理を明らかにした。
論文 参考訳(メタデータ) (2024-02-18T14:08:48Z) - BiLLM: Pushing the Limit of Post-Training Quantization for LLMs [53.31402059062365]
BiLLMは、事前訓練された大規模言語モデルに適した1ビット後のトレーニング後の量子化スキームである。
LLaMA2-70Bの8.41パープレキシティは、様々なLLMファミリーで1.08ビットの重みしか持たない。
論文 参考訳(メタデータ) (2024-02-06T09:26:34Z) - ACPO: AI-Enabled Compiler-Driven Program Optimization [1.879008610342411]
ACPOは、さまざまな最適化パスにMLモデルを使用することの恩恵を受けるために、LLVMにシンプルで包括的なツールを提供するフレームワークである。
LLVM の O3 最適化と比較して,Loop Unroll の ACPO モデルでは,Polybench にデプロイすると平均 4% の値が得られることを示す。
論文 参考訳(メタデータ) (2023-12-15T17:49:24Z) - GEVO-ML: Optimizing Machine Learning Code with Evolutionary Computation [6.525197444717069]
GEVO-MLは、最適化の機会を発見し、機械学習カーネルのパフォーマンスをチューニングするためのツールである。
モデルトレーニングと予測の両方のために、GEVO-MLを2つの異なるMLワークロードでデモする。
GEVO-MLはこれらのモデルに大きな改善を加え、モデル精度が2%の緩和で90.43%の性能向上を達成した。
論文 参考訳(メタデータ) (2023-10-16T09:24:20Z) - Fine-Tuning Language Models with Just Forward Passes [92.04219196752007]
微調整言語モデル(LM)は、様々な下流タスクで成功したが、LMのサイズが大きくなるにつれて、バックプロパゲーションは大量のメモリを必要とする。
本稿では,メモリ効率の高いゼロソーダ(MeZO)を提案する。
論文 参考訳(メタデータ) (2023-05-27T02:28:10Z) - MLGO: a Machine Learning Guided Compiler Optimizations Framework [0.0]
この作業は、実際の設定で複雑なコンパイラパスで機械学習を初めて完全に統合した作業です。
インライン・フォー・サイズモデルのトレーニングには2つの異なるMLアルゴリズムを使用し、最大7%の削減を実現している。
同じモデルは、実世界のターゲットの多様性、そして数ヶ月のアクティブな開発の後、同じターゲットセットにうまく一般化します。
論文 参考訳(メタデータ) (2021-01-13T00:02:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。