Fugu-MT 論文翻訳(概要): oneDNN Graph Compiler: A Hybrid Approach for High-Performance Deep Learning Compilation

論文の概要: oneDNN Graph Compiler: A Hybrid Approach for High-Performance Deep Learning Compilation

arxiv url: http://arxiv.org/abs/2301.01333v1
Date: Tue, 3 Jan 2023 19:52:17 GMT
ステータス: 翻訳完了
システム内更新日: 2023-01-05 16:07:12.062125
Title: oneDNN Graph Compiler: A Hybrid Approach for High-Performance Deep Learning Compilation
Title（参考訳）: OneDNN Graph Compiler: 高性能ディープラーニングコンパイルのためのハイブリッドアプローチ
Authors: Jianhui Li, Zhennan Qin, Yijie Mei, Jingze Cui, Yunfei Song, Ciyong Chen, Yifei Zhang, Longsheng Du, Xianhang Cheng, Baihui Jin, Jason Ye, Eric Lin, Dan Lavery
Abstract要約: oneDNN Graph Compilerは、コンパイラ最適化とエキスパートチューニングされたカーネルの両方のテクニックをハイパフォーマンスコード生成に使用するためのハイブリッドアプローチを採用している。性能クリティカルな計算グラフパターンに対するプリミティブに基づく最適化よりも2倍の性能向上を示す実験結果が得られた。
参考スコア（独自算出の注目度）: 5.582337563657849
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: With the rapid development of deep learning models and hardware support for dense computing, the deep learning (DL) workload characteristics changed significantly from a few hot spots on compute-intensive operations to a broad range of operations scattered across the models. Accelerating a few compute-intensive operations using the expert-tuned implementation of primitives does not fully exploit the performance potential of AI hardware. Various efforts are made to compile a full deep neural network (DNN) graph. One of the biggest challenges is to achieve end-to-end compilation by generating expert-level performance code for the dense compute-intensive operations and applying compilation optimization at the scope of DNN computation graph across multiple compute-intensive operations. We present oneDNN Graph Compiler, a tensor compiler that employs a hybrid approach of using techniques from both compiler optimization and expert-tuned kernels for high-performance code generation of the deep neural network graph. oneDNN Graph Compiler addresses unique optimization challenges in the deep learning domain, such as low-precision computation, aggressive fusion, optimization for static tensor shapes and memory layout, constant weight optimization, and memory buffer reuse. Experimental results demonstrate up to 2x performance gains over primitives-based optimization for performance-critical DNN computation graph patterns on Intel Xeon Scalable Processors.
Abstract（参考訳）: ディープラーニングモデルの急速な発展と高密度コンピューティングのハードウェアサポートにより、ディープラーニング(dl)のワークロード特性は、計算集約型オペレーションのいくつかのホットスポットから、モデル全体に散在する幅広いオペレーションへと大きく変化した。プリミティブのエキスパートチューニングによる実装を使用して、いくつかの計算集約的な操作を加速することは、aiハードウェアのパフォーマンスポテンシャルを完全には活用しない。完全なディープニューラルネットワーク(DNN)グラフをコンパイルするために、さまざまな取り組みが行われている。最大の課題の1つは、密集した計算集約操作のためのエキスパートレベルのパフォーマンスコードを生成し、複数の計算集約操作にまたがるdnn計算グラフの範囲でコンパイル最適化を適用することで、エンドツーエンドのコンパイルを実現することである。我々は,ディープニューラルネットワークグラフの高パフォーマンスコード生成のために,コンパイラ最適化とエキスパートチューニングカーネルからのテクニックを併用した,ハイブリッドアプローチを用いたテンソルコンパイラであるonednn graph compilerを提案する。 onednnグラフコンパイラは、低精度計算、積極的な融合、静的テンソル形状とメモリレイアウトの最適化、定数重みの最適化、メモリバッファの再利用など、ディープラーニング領域におけるユニークな最適化課題に対処する。実験の結果,Intel Xeon Scalable Processors上のDNN計算グラフパターンのプリミティブに基づく最適化よりも最大2倍の性能向上を示す。

関連論文リスト

RESPECT: Reinforcement Learning based Edge Scheduling on Pipelined Coral Edge TPUs [12.952987240366781]
本研究は、最適化アルゴリズムの挙動を学習する強化学習(RL)に基づくスケジューリングフレームワークを提案する。 RLは、実行時のオーバーヘッドを短くすることで、ほぼ最適のスケジューリング結果を生成する。我々のフレームワークは、商用コンパイラ上での実世界のオンチップランタイム推論速度アップを最大$sim2.5times$で実証しています。
論文参考訳（メタデータ） (2023-04-10T17:22:12Z)
Graph Neural Network-Inspired Kernels for Gaussian Processes in Semi-Supervised Learning [4.644263115284322]
グラフニューラルネットワーク(GNN)は、半教師付き学習において、グラフ構造化データのモデルとして期待できるクラスとして最近登場した。この帰納バイアスをGPに導入して,グラフ構造化データの予測性能を向上させる。これらのグラフベースのカーネルは、各GNNと比較して、競合する分類と回帰性能、および時間の長所をもたらすことを示す。
論文参考訳（メタデータ） (2023-02-12T01:07:56Z)
Intelligence Processing Units Accelerate Neuromorphic Learning [52.952192990802345]
スパイキングニューラルネットワーク(SNN)は、エネルギー消費と遅延の観点から、桁違いに改善されている。我々は、カスタムSNN PythonパッケージsnnTorchのIPU最適化リリースを提示する。
論文参考訳（メタデータ） (2022-11-19T15:44:08Z)
Efficient Dataset Distillation Using Random Feature Approximation [109.07737733329019]
本稿では,ニューラルネットワークガウス過程(NNGP)カーネルのランダム特徴近似(RFA)を用いた新しいアルゴリズムを提案する。我々のアルゴリズムは、KIP上で少なくとも100倍のスピードアップを提供し、1つのGPUで実行できる。 RFA蒸留 (RFAD) と呼ばれる本手法は, 大規模データセットの精度において, KIP や他のデータセット凝縮アルゴリズムと競合して動作する。
論文参考訳（メタデータ） (2022-10-21T15:56:13Z)
Towards Optimal VPU Compiler Cost Modeling by using Neural Networks to Infer Hardware Performances [58.720142291102135]
VPUNN"は低レベルのタスクプロファイリングに基づいてトレーニングされたニューラルネットワークベースのコストモデルである。これは、IntelのVPUプロセッサのラインにおける最先端のコストモデリングよりも一貫して優れている。
論文参考訳（メタデータ） (2022-05-09T22:48:39Z)
Optimising AI Training Deployments using Graph Compilers and Containers [0.0]
ディープニューラルネットワーク(DNN)やディープラーニング(DL)に基づくAIアプリケーションは、分析や音声認識といった問題の解決に成功したことで人気を集めている。我々はMODAKを導入し、コンテナ技術とAI用のグラフコンパイラをレビューする。
論文参考訳（メタデータ） (2020-08-26T16:58:32Z)
Kernel methods through the roof: handling billions of points efficiently [94.31450736250918]
カーネル法は、非パラメトリック学習に対するエレガントで原則化されたアプローチを提供するが、今のところ大規模な問題ではほとんど利用できない。最近の進歩は、最適化、数値線形代数、ランダム射影など、多くのアルゴリズム的アイデアの利点を示している。ここでは、これらの取り組みをさらに進めて、GPUハードウェアを最大限に活用する解決器を開発し、テストする。
論文参考訳（メタデータ） (2020-06-18T08:16:25Z)
PolyDL: Polyhedral Optimizations for Creation of High Performance DL primitives [55.79741270235602]
本稿では,Deep Learningプリミティブの高性能実装を自動的に生成するコンパイラアルゴリズムを提案する。我々は多面体モデルを用いた新しいデータ再利用分析アルゴリズムを開発した。また、このようなハイブリッドコンパイラとライブラリ使用の最小限のアプローチが、最先端のパフォーマンスをもたらすことを示す。
論文参考訳（メタデータ） (2020-06-02T06:44:09Z)
Towards High Performance, Portability, and Productivity: Lightweight Augmented Neural Networks for Performance Prediction [0.0]
カーネル変種ハードウェアの任意の組み合わせのための軽量な拡張ニューラルネットワークを提案する。従来のフィードフォワードニューラルネットワークよりもはるかに優れた、3%の低いMAPEが得られるのです。私たちの変分選択アプローチは、Halideの実装で、Halideの自動スケジューリングよりも最大1.7倍のスピードアップを得るために使用できます。
論文参考訳（メタデータ） (2020-03-17T02:19:54Z)
PolyScientist: Automatic Loop Transformations Combined with Microkernels for Optimization of Deep Learning Primitives [55.79741270235602]
深層学習カーネル開発のためのハイブリッドソリューションを開発する。我々は、高度な多面体技術を用いて、パフォーマンスのために外部ループを自動的に調整する。
論文参考訳（メタデータ） (2020-02-06T08:02:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。