論文の概要: TensorIR: An Abstraction for Automatic Tensorized Program Optimization
- arxiv url: http://arxiv.org/abs/2207.04296v1
- Date: Sat, 9 Jul 2022 16:28:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-12 13:38:33.167314
- Title: TensorIR: An Abstraction for Automatic Tensorized Program Optimization
- Title(参考訳): TensorIR: 自動テンソル化プログラム最適化のための抽象化
- Authors: Siyuan Feng, Bohan Hou, Hongyi Jin, Wuwei Lin, Junru Shao, Ruihang
Lai, Zihao Ye, Lianmin Zheng, Cody Hao Yu, Yong Yu, and Tianqi Chen
- Abstract要約: 本稿では,テンソル計算プリミティブでプログラムを最適化するコンパイラIRを提案する。
コンパイルの上にエンドツーエンドのフレームワークを構築し、与えられたテンソル計算プリミティブに対してディープラーニングモデルを自動的に最適化します。
- 参考スコア(独自算出の注目度): 22.812702519665617
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deploying deep learning models on various devices has become an important
topic. The wave of hardware specialization brings a diverse set of acceleration
primitives for multi-dimensional tensor computations. These new acceleration
primitives, along with the emerging machine learning models, bring tremendous
engineering challenges. In this paper, we present TensorIR, a compiler
abstraction for optimizing programs with these tensor computation primitives.
TensorIR generalizes the loop nest representation used in existing machine
learning compilers to bring tensor computation as the first-class citizen.
Finally, we build an end-to-end framework on top of our abstraction to
automatically optimize deep learning models for given tensor computation
primitives. Experimental results show that TensorIR compilation automatically
uses the tensor computation primitives for given hardware backends and delivers
performance that is competitive to state-of-art hand-optimized systems across
platforms.
- Abstract(参考訳): さまざまなデバイスにディープラーニングモデルをデプロイすることが重要なトピックになっている。
ハードウェア特殊化の波は多次元テンソル計算のための様々な加速プリミティブをもたらす。
これらの新しいアクセラレーションプリミティブは、新しい機械学習モデルとともに、素晴らしいエンジニアリング課題をもたらす。
本稿では,このテンソル計算プリミティブを用いてプログラムを最適化するコンパイラであるTensorIRを提案する。
tensorirは、既存の機械学習コンパイラで使用されるループネスト表現を一般化し、テンソル計算を第一級市民として提供する。
最後に、テンソル計算プリミティブのディープラーニングモデルを自動的に最適化するために、抽象化の上にエンドツーエンドのフレームワークを構築します。
実験の結果、tensorirコンパイルは、ハードウェアバックエンドのテンソル計算プリミティブを自動的に使用し、プラットフォーム間で最先端のハンド最適化システムと競合するパフォーマンスを提供する。
関連論文リスト
- Relax: Composable Abstractions for End-to-End Dynamic Machine Learning [19.79913796167022]
本稿では、エンドツーエンドの動的機械学習ワークロードを最適化するためのコンパイラ抽象化であるRelaxを紹介する。
Relaxは、プログラム全体にわたって動的形状の計算を追跡するために、第一級の記号型アノテーションを導入した。
動的形状モデルを最適化するために提案手法を用いて,エンドツーエンドのコンパイルフレームワークを構築した。
論文 参考訳(メタデータ) (2023-11-01T23:03:59Z) - TensorKrowch: Smooth integration of tensor networks in machine learning [46.0920431279359]
PyTorch上に構築されたオープンソースのPythonライブラリであるKrowchを紹介します。
ユーザは任意のテンソルネットワークを構築してトレーニングし、より複雑なディープラーニングモデルにレイヤとして統合することができる。
論文 参考訳(メタデータ) (2023-06-14T15:55:19Z) - oneDNN Graph Compiler: A Hybrid Approach for High-Performance Deep
Learning Compilation [8.64220475114214]
oneDNN Graph Compilerは、コンパイラ最適化とエキスパートチューニングされたカーネルの両方のテクニックをハイパフォーマンスコード生成に使用するためのハイブリッドアプローチを採用している。
実験結果から,既存のテンソルコンパイラやプリミティブライブラリよりも高い性能を示した。
論文 参考訳(メタデータ) (2023-01-03T19:52:17Z) - Intelligence Processing Units Accelerate Neuromorphic Learning [52.952192990802345]
スパイキングニューラルネットワーク(SNN)は、エネルギー消費と遅延の観点から、桁違いに改善されている。
我々は、カスタムSNN PythonパッケージsnnTorchのIPU最適化リリースを提示する。
論文 参考訳(メタデータ) (2022-11-19T15:44:08Z) - Hidet: Task Mapping Programming Paradigm for Deep Learning Tensor
Programs [11.338285393619042]
本稿では,スケジューリングプロセスをテンソルプログラムに組込み,タスクマッピングと呼ばれる専用マッピングを用いて計算の割り当てと順序付けを定義することを提案する。
提案するパラダイムでは、深層学習コンパイラであるHietを実装しています。
論文 参考訳(メタデータ) (2022-10-18T05:32:13Z) - Tensor Relational Algebra for Machine Learning System Design [7.764107702934616]
本稿では、リレーショナルテンソル代数(TRA)と呼ばれる別の実装抽象化を提案する。
TRA は、リレーショナル代数に基づく集合基底代数である。
我々の実証研究は、最適化されたTRAベースのバックエンドが、分散クラスタでMLを実行する際の選択肢を大幅に上回っていることを示している。
論文 参考訳(メタデータ) (2020-09-01T15:51:24Z) - A Learned Performance Model for Tensor Processing Units [5.733911161090224]
本稿では,処理ユニット(TPU)インスタンス用のグラフプログラムのコーパスから,パフォーマンスモデルを学習する方法を示す。
学習したモデルでは,2つのタスクにおいて,高度に最適化された分析性能モデルよりも優れていることを示す。
オートチューニングは、TPUへのアクセスが制限されたり、高価な設定で、より高速なプログラムを見つけるのに役立つ。
論文 参考訳(メタデータ) (2020-08-03T17:24:52Z) - Kernel methods through the roof: handling billions of points efficiently [94.31450736250918]
カーネル法は、非パラメトリック学習に対するエレガントで原則化されたアプローチを提供するが、今のところ大規模な問題ではほとんど利用できない。
最近の進歩は、最適化、数値線形代数、ランダム射影など、多くのアルゴリズム的アイデアの利点を示している。
ここでは、これらの取り組みをさらに進めて、GPUハードウェアを最大限に活用する解決器を開発し、テストする。
論文 参考訳(メタデータ) (2020-06-18T08:16:25Z) - Predictive Coding Approximates Backprop along Arbitrary Computation
Graphs [68.8204255655161]
我々は、コア機械学習アーキテクチャを予測的符号化に翻訳する戦略を開発する。
私たちのモデルは、挑戦的な機械学習ベンチマークのバックプロップと同等に機能します。
本手法は,ニューラルネットワークに標準機械学習アルゴリズムを直接実装できる可能性を高める。
論文 参考訳(メタデータ) (2020-06-07T15:35:47Z) - PolyDL: Polyhedral Optimizations for Creation of High Performance DL
primitives [55.79741270235602]
本稿では,Deep Learningプリミティブの高性能実装を自動的に生成するコンパイラアルゴリズムを提案する。
我々は多面体モデルを用いた新しいデータ再利用分析アルゴリズムを開発した。
また、このようなハイブリッドコンパイラとライブラリ使用の最小限のアプローチが、最先端のパフォーマンスをもたらすことを示す。
論文 参考訳(メタデータ) (2020-06-02T06:44:09Z) - PolyScientist: Automatic Loop Transformations Combined with Microkernels
for Optimization of Deep Learning Primitives [55.79741270235602]
深層学習カーネル開発のためのハイブリッドソリューションを開発する。
我々は、高度な多面体技術を用いて、パフォーマンスのために外部ループを自動的に調整する。
論文 参考訳(メタデータ) (2020-02-06T08:02:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。