論文の概要: oneDNN Graph Compiler: A Hybrid Approach for High-Performance Deep
Learning Compilation
- arxiv url: http://arxiv.org/abs/2301.01333v1
- Date: Tue, 3 Jan 2023 19:52:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-05 16:07:12.062125
- Title: oneDNN Graph Compiler: A Hybrid Approach for High-Performance Deep
Learning Compilation
- Title(参考訳): OneDNN Graph Compiler: 高性能ディープラーニングコンパイルのためのハイブリッドアプローチ
- Authors: Jianhui Li, Zhennan Qin, Yijie Mei, Jingze Cui, Yunfei Song, Ciyong
Chen, Yifei Zhang, Longsheng Du, Xianhang Cheng, Baihui Jin, Jason Ye, Eric
Lin, Dan Lavery
- Abstract要約: oneDNN Graph Compilerは、コンパイラ最適化とエキスパートチューニングされたカーネルの両方のテクニックをハイパフォーマンスコード生成に使用するためのハイブリッドアプローチを採用している。
性能クリティカルな計算グラフパターンに対するプリミティブに基づく最適化よりも2倍の性能向上を示す実験結果が得られた。
- 参考スコア(独自算出の注目度): 5.582337563657849
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the rapid development of deep learning models and hardware support for
dense computing, the deep learning (DL) workload characteristics changed
significantly from a few hot spots on compute-intensive operations to a broad
range of operations scattered across the models. Accelerating a few
compute-intensive operations using the expert-tuned implementation of
primitives does not fully exploit the performance potential of AI hardware.
Various efforts are made to compile a full deep neural network (DNN) graph. One
of the biggest challenges is to achieve end-to-end compilation by generating
expert-level performance code for the dense compute-intensive operations and
applying compilation optimization at the scope of DNN computation graph across
multiple compute-intensive operations. We present oneDNN Graph Compiler, a
tensor compiler that employs a hybrid approach of using techniques from both
compiler optimization and expert-tuned kernels for high-performance code
generation of the deep neural network graph. oneDNN Graph Compiler addresses
unique optimization challenges in the deep learning domain, such as
low-precision computation, aggressive fusion, optimization for static tensor
shapes and memory layout, constant weight optimization, and memory buffer
reuse. Experimental results demonstrate up to 2x performance gains over
primitives-based optimization for performance-critical DNN computation graph
patterns on Intel Xeon Scalable Processors.
- Abstract(参考訳): ディープラーニングモデルの急速な発展と高密度コンピューティングのハードウェアサポートにより、ディープラーニング(dl)のワークロード特性は、計算集約型オペレーションのいくつかのホットスポットから、モデル全体に散在する幅広いオペレーションへと大きく変化した。
プリミティブのエキスパートチューニングによる実装を使用して、いくつかの計算集約的な操作を加速することは、aiハードウェアのパフォーマンスポテンシャルを完全には活用しない。
完全なディープニューラルネットワーク(DNN)グラフをコンパイルするために、さまざまな取り組みが行われている。
最大の課題の1つは、密集した計算集約操作のためのエキスパートレベルのパフォーマンスコードを生成し、複数の計算集約操作にまたがるdnn計算グラフの範囲でコンパイル最適化を適用することで、エンドツーエンドのコンパイルを実現することである。
我々は,ディープニューラルネットワークグラフの高パフォーマンスコード生成のために,コンパイラ最適化とエキスパートチューニングカーネルからのテクニックを併用した,ハイブリッドアプローチを用いたテンソルコンパイラであるonednn graph compilerを提案する。
onednnグラフコンパイラは、低精度計算、積極的な融合、静的テンソル形状とメモリレイアウトの最適化、定数重みの最適化、メモリバッファの再利用など、ディープラーニング領域におけるユニークな最適化課題に対処する。
実験の結果,Intel Xeon Scalable Processors上のDNN計算グラフパターンのプリミティブに基づく最適化よりも最大2倍の性能向上を示す。
関連論文リスト
- RESPECT: Reinforcement Learning based Edge Scheduling on Pipelined Coral
Edge TPUs [12.952987240366781]
本研究は、最適化アルゴリズムの挙動を学習する強化学習(RL)に基づくスケジューリングフレームワークを提案する。
RLは、実行時のオーバーヘッドを短くすることで、ほぼ最適のスケジューリング結果を生成する。
我々のフレームワークは、商用コンパイラ上での実世界のオンチップランタイム推論速度アップを最大$sim2.5times$で実証しています。
論文 参考訳(メタデータ) (2023-04-10T17:22:12Z) - Graph Neural Network-Inspired Kernels for Gaussian Processes in
Semi-Supervised Learning [4.644263115284322]
グラフニューラルネットワーク(GNN)は、半教師付き学習において、グラフ構造化データのモデルとして期待できるクラスとして最近登場した。
この帰納バイアスをGPに導入して,グラフ構造化データの予測性能を向上させる。
これらのグラフベースのカーネルは、各GNNと比較して、競合する分類と回帰性能、および時間の長所をもたらすことを示す。
論文 参考訳(メタデータ) (2023-02-12T01:07:56Z) - Intelligence Processing Units Accelerate Neuromorphic Learning [52.952192990802345]
スパイキングニューラルネットワーク(SNN)は、エネルギー消費と遅延の観点から、桁違いに改善されている。
我々は、カスタムSNN PythonパッケージsnnTorchのIPU最適化リリースを提示する。
論文 参考訳(メタデータ) (2022-11-19T15:44:08Z) - Efficient Dataset Distillation Using Random Feature Approximation [109.07737733329019]
本稿では,ニューラルネットワークガウス過程(NNGP)カーネルのランダム特徴近似(RFA)を用いた新しいアルゴリズムを提案する。
我々のアルゴリズムは、KIP上で少なくとも100倍のスピードアップを提供し、1つのGPUで実行できる。
RFA蒸留 (RFAD) と呼ばれる本手法は, 大規模データセットの精度において, KIP や他のデータセット凝縮アルゴリズムと競合して動作する。
論文 参考訳(メタデータ) (2022-10-21T15:56:13Z) - Towards Optimal VPU Compiler Cost Modeling by using Neural Networks to
Infer Hardware Performances [58.720142291102135]
VPUNN"は低レベルのタスクプロファイリングに基づいてトレーニングされたニューラルネットワークベースのコストモデルである。
これは、IntelのVPUプロセッサのラインにおける最先端のコストモデリングよりも一貫して優れている。
論文 参考訳(メタデータ) (2022-05-09T22:48:39Z) - Optimising AI Training Deployments using Graph Compilers and Containers [0.0]
ディープニューラルネットワーク(DNN)やディープラーニング(DL)に基づくAIアプリケーションは、分析や音声認識といった問題の解決に成功したことで人気を集めている。
我々はMODAKを導入し、コンテナ技術とAI用のグラフコンパイラをレビューする。
論文 参考訳(メタデータ) (2020-08-26T16:58:32Z) - Kernel methods through the roof: handling billions of points efficiently [94.31450736250918]
カーネル法は、非パラメトリック学習に対するエレガントで原則化されたアプローチを提供するが、今のところ大規模な問題ではほとんど利用できない。
最近の進歩は、最適化、数値線形代数、ランダム射影など、多くのアルゴリズム的アイデアの利点を示している。
ここでは、これらの取り組みをさらに進めて、GPUハードウェアを最大限に活用する解決器を開発し、テストする。
論文 参考訳(メタデータ) (2020-06-18T08:16:25Z) - PolyDL: Polyhedral Optimizations for Creation of High Performance DL
primitives [55.79741270235602]
本稿では,Deep Learningプリミティブの高性能実装を自動的に生成するコンパイラアルゴリズムを提案する。
我々は多面体モデルを用いた新しいデータ再利用分析アルゴリズムを開発した。
また、このようなハイブリッドコンパイラとライブラリ使用の最小限のアプローチが、最先端のパフォーマンスをもたらすことを示す。
論文 参考訳(メタデータ) (2020-06-02T06:44:09Z) - Towards High Performance, Portability, and Productivity: Lightweight
Augmented Neural Networks for Performance Prediction [0.0]
カーネル変種ハードウェアの任意の組み合わせのための軽量な拡張ニューラルネットワークを提案する。
従来のフィードフォワードニューラルネットワークよりもはるかに優れた、3%の低いMAPEが得られるのです。
私たちの変分選択アプローチは、Halideの実装で、Halideの自動スケジューリングよりも最大1.7倍のスピードアップを得るために使用できます。
論文 参考訳(メタデータ) (2020-03-17T02:19:54Z) - PolyScientist: Automatic Loop Transformations Combined with Microkernels
for Optimization of Deep Learning Primitives [55.79741270235602]
深層学習カーネル開発のためのハイブリッドソリューションを開発する。
我々は、高度な多面体技術を用いて、パフォーマンスのために外部ループを自動的に調整する。
論文 参考訳(メタデータ) (2020-02-06T08:02:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。