Fugu-MT 論文翻訳(概要): PolyScientist: Automatic Loop Transformations Combined with Microkernels for Optimization of Deep Learning Primitives

論文の概要: PolyScientist: Automatic Loop Transformations Combined with Microkernels for Optimization of Deep Learning Primitives

arxiv url: http://arxiv.org/abs/2002.02145v1
Date: Thu, 6 Feb 2020 08:02:34 GMT
ステータス: 翻訳完了
システム内更新日: 2023-01-03 13:14:33.851629
Title: PolyScientist: Automatic Loop Transformations Combined with Microkernels for Optimization of Deep Learning Primitives
Title（参考訳）: PolyScientist: ディープラーニングプリミティブ最適化のためのマイクロカーネルと組み合わせたループ自動変換
Authors: Sanket Tavarageri, Alexander Heinecke, Sasikanth Avancha, Gagandeep Goyal, Ramakrishna Upadrasta, Bharat Kaul
Abstract要約: 深層学習カーネル開発のためのハイブリッドソリューションを開発する。我々は、高度な多面体技術を用いて、パフォーマンスのために外部ループを自動的に調整する。
参考スコア（独自算出の注目度）: 55.79741270235602
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: At the heart of deep learning training and inferencing are computationally intensive primitives such as convolutions which form the building blocks of deep neural networks. Researchers have taken two distinct approaches to creating high performance implementations of deep learning kernels, namely, 1) library development exemplified by Intel MKL-DNN for CPUs, 2) automatic compilation represented by the TensorFlow XLA compiler. The two approaches have their drawbacks: even though a custom built library can deliver very good performance, the cost and time of development of the library can be high. Automatic compilation of kernels is attractive but in practice, till date, automatically generated implementations lag expert coded kernels in performance by orders of magnitude. In this paper, we develop a hybrid solution to the development of deep learning kernels that achieves the best of both worlds: the expert coded microkernels are utilized for the innermost loops of kernels and we use the advanced polyhedral technology to automatically tune the outer loops for performance. We design a novel polyhedral model based data reuse algorithm to optimize the outer loops of the kernel. Through experimental evaluation on an important class of deep learning primitives namely convolutions, we demonstrate that the approach we develop attains the same levels of performance as Intel MKL-DNN, a hand coded deep learning library.
Abstract（参考訳）: ディープラーニングのトレーニングと推論の中心は、ディープニューラルネットワークの構成要素を形成する畳み込みのような計算集約的なプリミティブである。ディープラーニングカーネルの高性能実装,すなわち,2つの異なるアプローチが採用されている。 1. Intel MKL-DNNによるCPU用ライブラリ開発 2) TensorFlow XLAコンパイラで表現される自動コンパイル。カスタムビルドされたライブラリは、非常に優れたパフォーマンスを提供することができるが、ライブラリの開発コストと時間が高い可能性がある。カーネルの自動コンパイルは魅力的だが、実際には、これまでは、パフォーマンスに熟練したコード化されたカーネルを桁違いの性能で自動生成していた。本稿では,カーネルの最内側のループに対して,エキスパートコード化されたマイクロカーネルを活用し,高性能の多面体技術を用いて,外部ループを自動チューニングし,その性能向上を実現する,ディープラーニングカーネルの開発のためのハイブリッドソリューションを開発した。我々は、カーネルの外ループを最適化するために、新しい多面体モデルに基づくデータ再利用アルゴリズムを設計する。深層学習プリミティブの重要クラスである畳み込みを実験的に評価することにより,手書きの深層学習ライブラリであるIntel MKL-DNNと同じレベルの性能が得られることを示す。

関連論文リスト

TileLang: A Composable Tiled Programming Model for AI Systems [17.240134151647187]
我々は、より効率的なAIプログラミングのための一般化タイルプログラミングモデルであるTileLangを紹介する。 TileLangはスケジューリングスペース(スレッドバインディング、レイアウト、テンソル化、パイプライン)をデータフローから切り離し、カスタマイズアノテーションとプリミティブのセットとしてカプセル化した。我々は、多くの実験において、一般的なデバイス上で包括的な実験を行い、キーカーネルでTileLangが最先端のパフォーマンスを達成できることを実証した。
論文参考訳（メタデータ） (2025-04-24T14:08:49Z)
Accelerating Machine Learning Primitives on Commodity Hardware [0.0]
本稿では,Deep Neural Networks (DNN) における一般行列乗算 (GEMM) に基づく畳み込みよりも効率的な代替手段として,スライディングウィンドウ畳み込み手法について広範な研究を行う。この結果から,Sliding Window 計算カーネルは CPU 上でも専用ハードウェアアクセラレータ上でも GEMM ベースの畳み込みよりも優れていることが示唆された。これにより、特別なハードウェアを必要とせずに、低消費電力および低メモリデバイスにAIが広く採用される可能性がある。
論文参考訳（メタデータ） (2023-10-08T16:26:18Z)
Harnessing Deep Learning and HPC Kernels via High-Level Loop and Tensor Abstractions on CPU Architectures [67.47328776279204]
この研究は、効率的でポータブルなDeep LearningとHigh Performance Computingカーネルを開発するためのフレームワークを導入している。 1)プロセッシングプリミティブ(TPP)を用いた計算コアの表現と,2)高レベルな宣言的手法でTPPのまわりの論理ループの表現の2つのステップでカーネルの開発を分解する。我々は、スタンドアロンカーネルと、さまざまなCPUプラットフォームにおける最先端実装よりも優れたエンドツーエンドワークロードを使用して、このアプローチの有効性を実証する。
論文参考訳（メタデータ） (2023-04-25T05:04:44Z)
oneDNN Graph Compiler: A Hybrid Approach for High-Performance Deep Learning Compilation [8.64220475114214]
oneDNN Graph Compilerは、コンパイラ最適化とエキスパートチューニングされたカーネルの両方のテクニックをハイパフォーマンスコード生成に使用するためのハイブリッドアプローチを採用している。実験結果から,既存のテンソルコンパイラやプリミティブライブラリよりも高い性能を示した。
論文参考訳（メタデータ） (2023-01-03T19:52:17Z)
Kernel Identification Through Transformers [54.3795894579111]
カーネル選択はガウス過程(GP)モデルの性能決定において中心的な役割を果たす。この研究は、高次元GP回帰モデルのためのカスタムカーネル関数を構築するという課題に対処する。 KITT: Kernel Identification through Transformersを提案する。
論文参考訳（メタデータ） (2021-06-15T14:32:38Z)
Random Features for the Neural Tangent Kernel [57.132634274795066]
完全接続型ReLUネットワークのニューラルタンジェントカーネル(NTK)の効率的な特徴マップ構築を提案する。得られた特徴の次元は、理論と実践の両方で比較誤差境界を達成するために、他のベースライン特徴マップ構造よりもはるかに小さいことを示しています。
論文参考訳（メタデータ） (2021-04-03T09:08:12Z)
Kernel methods through the roof: handling billions of points efficiently [94.31450736250918]
カーネル法は、非パラメトリック学習に対するエレガントで原則化されたアプローチを提供するが、今のところ大規模な問題ではほとんど利用できない。最近の進歩は、最適化、数値線形代数、ランダム射影など、多くのアルゴリズム的アイデアの利点を示している。ここでは、これらの取り組みをさらに進めて、GPUハードウェアを最大限に活用する解決器を開発し、テストする。
論文参考訳（メタデータ） (2020-06-18T08:16:25Z)
PolyDL: Polyhedral Optimizations for Creation of High Performance DL primitives [55.79741270235602]
本稿では,Deep Learningプリミティブの高性能実装を自動的に生成するコンパイラアルゴリズムを提案する。我々は多面体モデルを用いた新しいデータ再利用分析アルゴリズムを開発した。また、このようなハイブリッドコンパイラとライブラリ使用の最小限のアプローチが、最先端のパフォーマンスをもたらすことを示す。
論文参考訳（メタデータ） (2020-06-02T06:44:09Z)
TIRAMISU: A Polyhedral Compiler for Dense and Sparse Deep Learning [10.145707529307462]
本稿では,スパースニューラルネットワークとリカレントニューラルネットワークを最適化するコンパイラを実演する。我々のアプローチは少なくともIntel MKL-DNNと一致し、場合によっては5倍(マルチコアCPU上で)性能が向上する。
論文参考訳（メタデータ） (2020-05-07T07:27:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。