論文の概要: Tensor Processing Primitives: A Programming Abstraction for Efficiency
and Portability in Deep Learning Workloads
- arxiv url: http://arxiv.org/abs/2104.05755v2
- Date: Wed, 14 Apr 2021 15:38:38 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-15 12:18:23.372264
- Title: Tensor Processing Primitives: A Programming Abstraction for Efficiency
and Portability in Deep Learning Workloads
- Title(参考訳): Tensor Processing Primitives: ディープラーニングワークロードの効率性と可搬性のためのプログラミング抽象化
- Authors: Evangelos Georganas, Dhiraj Kalamkar, Sasikanth Avancha, Menachem
Adelman, Cristina Anderson, Alexander Breuer, Narendra Chaudhary, Abhisek
Kundu, Vasimuddin Md, Sanchit Misra, Ramanarayan Mohanty, Hans Pabst, Barukh
Ziv, Alexander Heinecke
- Abstract要約: このプロセスプリミティブ(TPP、Processing Primitives)は、高い生産性を持つDeep Learning-Workloadの効率的でポータブルな実装を目指すプログラミング抽象化である。
TPPは、高次元テンソル上の複素作用素を構成するためにビルディングブロックとして使用できる2Dテンソル作用素(または仮想ISA)のコンパクトで汎用的な集合を定義する。
我々は,スタンドアロンカーネルとTLPで表現されたエンドツーエンドのDLワークロードによるアプローチの有効性を実証し,複数のプラットフォーム上での最先端実装よりも優れていることを示す。
- 参考スコア(独自算出の注目度): 86.62083829086393
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: During the past decade, novel Deep Learning (DL) algorithms/workloads and
hardware have been developed to tackle a wide range of problems. Despite the
advances in workload/hardware ecosystems, the programming methodology of
DL-systems is stagnant. DL-workloads leverage either highly-optimized, yet
platform-specific and inflexible kernels from DL-libraries, or in the case of
novel operators, reference implementations are built via DL-framework
primitives with underwhelming performance. This work introduces the Tensor
Processing Primitives (TPP), a programming abstraction striving for efficient,
portable implementation of DL-workloads with high-productivity. TPPs define a
compact, yet versatile set of 2D-tensor operators (or a virtual Tensor ISA),
which subsequently can be utilized as building-blocks to construct complex
operators on high-dimensional tensors. The TPP specification is
platform-agnostic, thus code expressed via TPPs is portable, whereas the TPP
implementation is highly-optimized and platform-specific. We demonstrate the
efficacy of our approach using standalone kernels and end-to-end DL-workloads
expressed entirely via TPPs that outperform state-of-the-art implementations on
multiple platforms.
- Abstract(参考訳): 過去10年間、新しいDeep Learning (DL)アルゴリズム/ワークロードとハードウェアは、幅広い問題に対処するために開発されてきた。
ワークロード/ハードウェアエコシステムの進歩にもかかわらず、DLシステムのプログラミング方法論は停滞しています。
DL-workloadsは、DL-librariesから高度に最適化された、プラットフォーム固有の、あるいは柔軟性のないカーネルを利用するか、新しい演算子の場合、低負荷性能のDL-frameworkプリミティブを介して参照実装を構築する。
dl-ワークロードを高生産性で効率的にポータブルに実装するためのプログラミング抽象化であるtensor processing primitives(tpp)を紹介する。
TPPはコンパクトだが汎用的な2Dテンソル作用素(または仮想テンソルISA)の集合を定義し、後に高次元テンソル上の複素作用素を構成するためにビルディングブロックとして利用することができる。
TPP仕様はプラットフォームに依存しないので、TPPで表現されたコードはポータブルである。
我々は,スタンドアロンカーネルとTLPで表現されたエンドツーエンドのDLワークロードを用いたアプローチの有効性を示す。
関連論文リスト
- SPP: Sparsity-Preserved Parameter-Efficient Fine-Tuning for Large Language Models [53.638791265113625]
空間保存型大規模言語モデルのための効率的な微調整法
コードはhttps://github.com/Lucky-Lance/SPP.comで公開される。
論文 参考訳(メタデータ) (2024-05-25T04:55:27Z) - Harnessing Deep Learning and HPC Kernels via High-Level Loop and Tensor Abstractions on CPU Architectures [67.47328776279204]
この研究は、効率的でポータブルなDeep LearningとHigh Performance Computingカーネルを開発するためのフレームワークを導入している。
1)プロセッシングプリミティブ(TPP)を用いた計算コアの表現と,2)高レベルな宣言的手法でTPPのまわりの論理ループの表現の2つのステップでカーネルの開発を分解する。
我々は、スタンドアロンカーネルと、さまざまなCPUプラットフォームにおける最先端実装よりも優れたエンドツーエンドワークロードを使用して、このアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-04-25T05:04:44Z) - Slapo: A Schedule Language for Progressive Optimization of Large Deep
Learning Model Training [17.556432199389615]
Slapoは、テンソルレベルの演算子の実行をその算術的定義から切り離すスケジュール言語である。
SlapoはNVIDIA V100 GPUを8台搭載した1台のマシンで最大2.92倍のトレーニングスループットを向上できることを示す。
論文 参考訳(メタデータ) (2023-02-16T00:34:53Z) - Partitioning Distributed Compute Jobs with Reinforcement Learning and
Graph Neural Networks [58.720142291102135]
大規模な機械学習モデルは、幅広い分野に進歩をもたらしている。
これらのモデルの多くは、単一のマシンでトレーニングするには大きすぎるため、複数のデバイスに分散する必要がある。
スループットやブロッキングレートといったユーザクリティカルな指標に対して,並列化の最大化が準最適であることを示す。
論文 参考訳(メタデータ) (2023-01-31T17:41:07Z) - Unifying Synergies between Self-supervised Learning and Dynamic
Computation [53.66628188936682]
SSLとDCのパラダイム間の相互作用に関する新しい視点を提示する。
SSL設定において、スクラッチから高密度かつゲートされたサブネットワークを同時に学習することは可能であることを示す。
密集エンコーダとゲートエンコーダの事前学習における共進化は、良好な精度と効率のトレードオフをもたらす。
論文 参考訳(メタデータ) (2023-01-22T17:12:58Z) - Scalable Deep-Learning-Accelerated Topology Optimization for Additively
Manufactured Materials [4.221095652322005]
トポロジー最適化(TO)は、新しい構造、材料、デバイスを設計するための、人気があり強力な計算手法である。
これらの課題に対処するため、SDL-TOと呼ばれる汎用拡張型ディープラーニング(DL)ベースのToフレームワークを提案する。
我々のフレームワークは、反復履歴データを学習し、与えられた設計と勾配のマッピングを同時にトレーニングすることで、TOを加速します。
論文 参考訳(メタデータ) (2020-11-28T17:38:31Z) - PolyDL: Polyhedral Optimizations for Creation of High Performance DL
primitives [55.79741270235602]
本稿では,Deep Learningプリミティブの高性能実装を自動的に生成するコンパイラアルゴリズムを提案する。
我々は多面体モデルを用いた新しいデータ再利用分析アルゴリズムを開発した。
また、このようなハイブリッドコンパイラとライブラリ使用の最小限のアプローチが、最先端のパフォーマンスをもたらすことを示す。
論文 参考訳(メタデータ) (2020-06-02T06:44:09Z) - The Deep Learning Compiler: A Comprehensive Survey [16.19025439622745]
我々は、広く採用されている設計を詳細に分離し、既存のDLコンパイラを網羅的に調査する。
具体的には、様々な側面から既存のDLコンパイラを総合的に比較する。
論文 参考訳(メタデータ) (2020-02-06T07:29:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。