論文の概要: ALT: Breaking the Wall between Graph and Operator Level Optimizations
for Deep Learning Compilation
- arxiv url: http://arxiv.org/abs/2210.12415v2
- Date: Tue, 25 Oct 2022 05:28:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-26 10:40:32.883698
- Title: ALT: Breaking the Wall between Graph and Operator Level Optimizations
for Deep Learning Compilation
- Title(参考訳): alt: ディープラーニングコンパイルのためのグラフとオペレータレベルの最適化の壁を破る
- Authors: Zhiying Xu, Jiafan Xu, Hongding Peng, Wei Wang, Xiaoliang Wang, Haoran
Wan, Haipeng Dai, Yixu Xu, Hao Cheng, Kun Wang, Guihai Chen
- Abstract要約: ALTはディープモデルのためのグラフと演算子レベルの共同最適化を行うコンパイラである。
JOGは、単一の演算子の性能とエンドツーエンドの推論性能の両方の観点から、最先端のコンパイラ(例えばAnsor)よりも大幅に優れている。
- 参考スコア(独自算出の注目度): 38.8918502461244
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep learning models rely on highly optimized tensor libraries for efficient
inference on heterogeneous hardware. Current deep compilers typically
predetermine layouts of tensors and then optimize loops of operators. However,
such unidirectional and one-off workflow strictly separates graph-level
optimization and operator-level optimization into different system layers,
missing opportunities for unified tuning. This paper proposes ALT, a compiler
that performs joint graph- and operator-level optimizations for deep models.
JOG provides a generic transformation module to manipulate layouts and loops
with easy-to-use primitive functions. JOG further integrates an auto-tuning
module that jointly optimizes graph-level data layouts and operator-level loops
while guaranteeing efficiency. Experimental results show that JOG significantly
outperforms state-of-the-art compilers (e.g., Ansor) in terms of both single
operator performance (e.g., 1.5x speedup on average) and end-to-end inference
performance (e.g., 1.4x speedup on average).
- Abstract(参考訳): ディープラーニングモデルは、異種ハードウェアの効率的な推論のために高度に最適化されたテンソルライブラリに依存している。
現在のディープコンパイラは通常テンソルのレイアウトを定め、オペレータのループを最適化する。
しかし、このような一方向のワンオフワークフローは、グラフレベルの最適化と演算子レベルの最適化を異なるシステム層に厳密に分離する。
本稿では,深層モデルに対するグラフ最適化と演算子レベルの最適化を行うコンパイラaltを提案する。
JOGは、レイアウトやループを簡単に使えるプリミティブ関数で操作するための汎用的な変換モジュールを提供する。
JOGはさらに、グラフレベルのデータレイアウトとオペレータレベルのループを共同で最適化し、効率性を保証する自動チューニングモジュールを統合する。
実験の結果、jogは、シングルオペレータのパフォーマンス(平均1.5倍のスピードアップ)とエンドツーエンド推論パフォーマンス(平均1.4倍のスピードアップ)の両方において、最先端のコンパイラ(例えばansor)を大きく上回っていることがわかった。
関連論文リスト
- Two Optimizers Are Better Than One: LLM Catalyst Empowers Gradient-Based Optimization for Prompt Tuning [69.95292905263393]
我々は,勾配に基づく最適化と大規模言語モデル(MsLL)が相互補完的であることを示し,協調的な最適化手法を提案する。
私たちのコードはhttps://www.guozix.com/guozix/LLM-catalystでリリースされています。
論文 参考訳(メタデータ) (2024-05-30T06:24:14Z) - Use Your INSTINCT: INSTruction optimization for LLMs usIng Neural bandits Coupled with Transformers [66.823588073584]
大規模言語モデル (LLM) は命令追従能力に優れ、様々なアプリケーションで優れた性能を発揮している。
最近の研究は、ブラックボックスLLMに与えられる命令を自動的に最適化するために、クエリ効率のよいベイズ最適化(BO)アルゴリズムを用いている。
NNサロゲートによりBOのGPを置換し,ブラックボックスLLMの命令を最適化するニューラルバンディットアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-02T02:01:16Z) - Performance Embeddings: A Similarity-based Approach to Automatic
Performance Optimization [71.69092462147292]
パフォーマンス埋め込みは、アプリケーション間でパフォーマンスチューニングの知識伝達を可能にする。
本研究では, 深層ニューラルネットワーク, 密度およびスパース線形代数合成, および数値風速予測ステンシルのケーススタディにおいて, この伝達チューニング手法を実証する。
論文 参考訳(メタデータ) (2023-03-14T15:51:35Z) - Learning to Generalize Provably in Learning to Optimize [185.71326306329678]
最適化学習(L2O)は、データ駆動アプローチによる最適化設計を自動化することで、人気が高まっている。
現在のL2O法は、少なくとも2回は一般化性能の低下に悩まされることが多い。
我々はこの2つのメトリクスを平坦性を考慮した正規化器としてL2Oフレームワークに組み込むことを提案する。
論文 参考訳(メタデータ) (2023-02-22T01:17:31Z) - Slapo: A Schedule Language for Progressive Optimization of Large Deep
Learning Model Training [17.556432199389615]
Slapoは、テンソルレベルの演算子の実行をその算術的定義から切り離すスケジュール言語である。
SlapoはNVIDIA V100 GPUを8台搭載した1台のマシンで最大2.92倍のトレーニングスループットを向上できることを示す。
論文 参考訳(メタデータ) (2023-02-16T00:34:53Z) - oneDNN Graph Compiler: A Hybrid Approach for High-Performance Deep
Learning Compilation [8.64220475114214]
oneDNN Graph Compilerは、コンパイラ最適化とエキスパートチューニングされたカーネルの両方のテクニックをハイパフォーマンスコード生成に使用するためのハイブリッドアプローチを採用している。
実験結果から,既存のテンソルコンパイラやプリミティブライブラリよりも高い性能を示した。
論文 参考訳(メタデータ) (2023-01-03T19:52:17Z) - AGO: Boosting Mobile AI Inference Performance by Removing Constraints on
Graph Optimization [6.4284258345779435]
AGOは、ディープモデルの推論性能を高めるために任意の構造を持つグラフ最適化のためのフレームワークである。
本稿では,複数の複雑な演算子を縫合し,より高性能な演算子融合を提案する。
本研究では,最先端のディープコンパイラと比較して,推論性能を最大3.3倍向上させることができることを示す。
論文 参考訳(メタデータ) (2022-12-02T07:16:49Z) - VeLO: Training Versatile Learned Optimizers by Scaling Up [67.90237498659397]
私たちは、ディープラーニングの成功の背後にある同じスケーリングアプローチを活用して、汎用性を学びます。
私たちは、パラメータの更新を取り込み出力する小さなニューラルネットワークであるディープラーニングのためのインジェクションをトレーニングします。
学習したメタトレーニングコード、関連するトレインテストデータ、およびvelo-code.ioのベースラインを備えた広範なベンチマークスイートをオープンソースとして公開しています。
論文 参考訳(メタデータ) (2022-11-17T18:39:07Z) - Static Neural Compiler Optimization via Deep Reinforcement Learning [1.458855293397494]
本稿では,位相整合問題に対する深層強化学習手法を用いる。
LLVMのO3シークエンスを構成するサブシーケンスを用いて、エージェントはトレーニングに使用するソースコードのセット上でO3シークエンスより優れていることを学習する。
我々は、我々のアプローチを用いて訓練されたモデルは、ニューラル最適化エージェントとして現代のコンパイラに統合できると考えている。
論文 参考訳(メタデータ) (2020-08-20T13:16:29Z) - Woodpecker-DL: Accelerating Deep Neural Networks via Hardware-Aware
Multifaceted Optimizations [15.659251804042748]
Woodpecker-DL (WPK) はハードウェア対応のディープラーニングフレームワークである。
WPKは、グラフ最適化、自動検索、ドメイン固有言語(DSL)、システムレベルの探索を使って推論を高速化する。
最大P100 GPUでは、cuDNNが5.40、TVMが1.63、エンドツーエンドモデル推論がTeslaRTより1.18倍高速であることを示す。
論文 参考訳(メタデータ) (2020-08-11T07:50:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。