論文の概要: PolyDL: Polyhedral Optimizations for Creation of High Performance DL
primitives
- arxiv url: http://arxiv.org/abs/2006.02230v2
- Date: Tue, 17 Nov 2020 15:43:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-26 01:05:17.093553
- Title: PolyDL: Polyhedral Optimizations for Creation of High Performance DL
primitives
- Title(参考訳): PolyDL: 高性能DLプリミティブの作成のための多面的最適化
- Authors: Sanket Tavarageri, Alexander Heinecke, Sasikanth Avancha, Gagandeep
Goyal, Ramakrishna Upadrasta, Bharat Kaul
- Abstract要約: 本稿では,Deep Learningプリミティブの高性能実装を自動的に生成するコンパイラアルゴリズムを提案する。
我々は多面体モデルを用いた新しいデータ再利用分析アルゴリズムを開発した。
また、このようなハイブリッドコンパイラとライブラリ使用の最小限のアプローチが、最先端のパフォーマンスをもたらすことを示す。
- 参考スコア(独自算出の注目度): 55.79741270235602
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep Neural Networks (DNNs) have revolutionized many aspects of our lives.
The use of DNNs is becoming ubiquitous including in softwares for image
recognition, speech recognition, speech synthesis, language translation, to
name a few. he training of DNN architectures however is computationally
expensive. Once the model is created, its use in the intended application - the
inference task, is computationally heavy too and the inference needs to be fast
for real time use. For obtaining high performance today, the code of Deep
Learning (DL) primitives optimized for specific architectures by expert
programmers exposed via libraries is the norm. However, given the constant
emergence of new DNN architectures, creating hand optimized code is expensive,
slow and is not scalable.
To address this performance-productivity challenge, in this paper we present
compiler algorithms to automatically generate high performance implementations
of DL primitives that closely match the performance of hand optimized
libraries. We develop novel data reuse analysis algorithms using the polyhedral
model to derive efficient execution schedules automatically. In addition,
because most DL primitives use some variant of matrix multiplication at their
core, we develop a flexible framework where it is possible to plug in library
implementations of the same in lieu of a subset of the loops. We show that such
a hybrid compiler plus a minimal library-use approach results in
state-of-the-art performance. We develop compiler algorithms to also perform
operator fusions that reduce data movement through the memory hierarchy of the
computer system.
- Abstract(参考訳): ディープニューラルネットワーク(DNN)は、私たちの生活の多くの側面に革命をもたらした。
DNNの使用は、画像認識、音声認識、音声合成、言語翻訳などのソフトウェアを含む、ユビキタスになってきている。
しかし、DNNアーキテクチャのトレーニングは計算コストがかかる。
モデルが作成されると、意図されたアプリケーション(推論タスク)での使用も計算的に重くなり、リアルタイムの使用には推論が高速でなければならない。
今日、ハイパフォーマンスを得るためには、ライブラリ経由で公開するエキスパートプログラマによる特定のアーキテクチャに最適化されたディープラーニング(dl)プリミティブのコードが標準となっている。
しかし、新しいDNNアーキテクチャが常に出現していることを考えると、手動最適化コードの作成は高価で、遅く、スケーラブルではない。
本稿では,手動最適化ライブラリの性能によく適合するDLプリミティブの高性能実装を自動的に生成するコンパイラアルゴリズムを提案する。
本研究では,多面体モデルを用いた新しいデータ再利用解析アルゴリズムを開発し,効率的な実行スケジュールを自動的に導出する。
加えて、ほとんどのdlプリミティブは、コアでいくつかのマトリックス乗算の変種を使っているので、ループのサブセットの代わりに同じライブラリ実装をプラグインできる柔軟なフレームワークを開発します。
このようなハイブリッドコンパイラと最小限のライブラリ利用アプローチが最先端のパフォーマンスをもたらすことを示す。
我々は,コンピュータシステムのメモリ階層によるデータ移動を低減する演算子融合も行うコンパイラアルゴリズムを開発した。
関連論文リスト
- Spyx: A Library for Just-In-Time Compiled Optimization of Spiking Neural
Networks [0.08965418284317034]
Spiking Neural Networks(SNN)は、小さくて低消費電力なハードウェアフットプリントによるエネルギー効率の向上を提供する。
本稿では、JAXで設計された新しい軽量SNNシミュレーションおよび最適化ライブラリSpyxを紹介する。
論文 参考訳(メタデータ) (2024-02-29T09:46:44Z) - Use Your INSTINCT: INSTruction optimization for LLMs usIng Neural bandits Coupled with Transformers [66.823588073584]
大規模言語モデル (LLM) は命令追従能力に優れ、様々なアプリケーションで優れた性能を発揮している。
最近の研究は、ブラックボックスLLMに与えられる命令を自動的に最適化するために、クエリ効率のよいベイズ最適化(BO)アルゴリズムを用いている。
NNサロゲートによりBOのGPを置換し,ブラックボックスLLMの命令を最適化するニューラルバンディットアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-02T02:01:16Z) - Harnessing Deep Learning and HPC Kernels via High-Level Loop and Tensor Abstractions on CPU Architectures [67.47328776279204]
この研究は、効率的でポータブルなDeep LearningとHigh Performance Computingカーネルを開発するためのフレームワークを導入している。
1)プロセッシングプリミティブ(TPP)を用いた計算コアの表現と,2)高レベルな宣言的手法でTPPのまわりの論理ループの表現の2つのステップでカーネルの開発を分解する。
我々は、スタンドアロンカーネルと、さまざまなCPUプラットフォームにおける最先端実装よりも優れたエンドツーエンドワークロードを使用して、このアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-04-25T05:04:44Z) - oneDNN Graph Compiler: A Hybrid Approach for High-Performance Deep
Learning Compilation [8.64220475114214]
oneDNN Graph Compilerは、コンパイラ最適化とエキスパートチューニングされたカーネルの両方のテクニックをハイパフォーマンスコード生成に使用するためのハイブリッドアプローチを採用している。
実験結果から,既存のテンソルコンパイラやプリミティブライブラリよりも高い性能を示した。
論文 参考訳(メタデータ) (2023-01-03T19:52:17Z) - Boosting Neural Networks to Decompile Optimized Binaries [13.255618541522436]
Decompilation は低レベルプログラム言語 (LPL) を機能的に等価な高レベルプログラム言語 (HPL) に変換することを目的としている。
本稿では,コンパイラ最適化バイナリをターゲットとしたNeurDPという新しい学習手法を提案する。
論文 参考訳(メタデータ) (2023-01-03T06:45:54Z) - Intelligence Processing Units Accelerate Neuromorphic Learning [52.952192990802345]
スパイキングニューラルネットワーク(SNN)は、エネルギー消費と遅延の観点から、桁違いに改善されている。
我々は、カスタムSNN PythonパッケージsnnTorchのIPU最適化リリースを提示する。
論文 参考訳(メタデータ) (2022-11-19T15:44:08Z) - Benchmark Assessment for DeepSpeed Optimization Library [1.7839986996686321]
ディープラーニング(DL)モデルは、そのパフォーマンスと大規模なデータセットを扱う能力のために、機械学習で広く使用されている。
このようなデータセットのサイズとDLモデルの複雑さは、そのようなモデルが複雑になり、大量のリソースとトレーニング時間を消費する。
最近のライブラリやアプリケーションは、DLの複雑さと効率の問題に対処するために導入されている。
論文 参考訳(メタデータ) (2022-02-12T04:52:28Z) - PolyScientist: Automatic Loop Transformations Combined with Microkernels
for Optimization of Deep Learning Primitives [55.79741270235602]
深層学習カーネル開発のためのハイブリッドソリューションを開発する。
我々は、高度な多面体技術を用いて、パフォーマンスのために外部ループを自動的に調整する。
論文 参考訳(メタデータ) (2020-02-06T08:02:34Z) - PatDNN: Achieving Real-Time DNN Execution on Mobile Devices with
Pattern-based Weight Pruning [57.20262984116752]
粗粒構造の内部に新しい次元、きめ細かなプルーニングパターンを導入し、これまで知られていなかった設計空間の点を明らかにした。
きめ細かいプルーニングパターンによって高い精度が実現されているため、コンパイラを使ってハードウェア効率を向上し、保証することがユニークな洞察である。
論文 参考訳(メタデータ) (2020-01-01T04:52:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。