論文の概要: TPU-MLIR: A Compiler For TPU Using MLIR
- arxiv url: http://arxiv.org/abs/2210.15016v1
- Date: Sun, 23 Oct 2022 10:45:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-28 13:17:47.596370
- Title: TPU-MLIR: A Compiler For TPU Using MLIR
- Title(参考訳): TPU-MLIR:MLIRを使用したTPUコンパイラ
- Authors: Pengchao Hu, Man Lu, Lei Wang, Guoyue Jiang
- Abstract要約: TPU-MLIRは、TPU(Processing Unit)と呼ばれるカスタムASICに、トレーニング済みニューラルネットワーク(NN)モデルをデプロイする
NNモデルはTOP方言に変換され、チップの構成に応じて異なるTPUのためにTPU方言に低下する。
MLIRパスパイプラインを使用してTPU上で最適化を行い、マシンコードを生成する方法を示す。
- 参考スコア(独自算出の注目度): 2.6519283973116963
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-level intermediate representations (MLIR) show great promise for
reducing the cost of building domain-specific compilers by providing a reusable
and extensible compiler infrastructure. This work presents TPU-MLIR, an
end-to-end compiler based on MLIR that deploys pre-trained neural network (NN)
models to a custom ASIC called a Tensor Processing Unit (TPU). TPU-MLIR defines
two new dialects to implement its functionality: 1. a Tensor operation (TOP)
dialect that encodes the deep learning graph semantics and independent of the
deep learning framework and 2. a TPU kernel dialect to provide a standard
kernel computation on TPU. A NN model is translated to the TOP dialect and then
lowered to the TPU dialect for different TPUs according to the chip's
configuration. We demonstrate how to use the MLIR pass pipeline to organize and
perform optimization on TPU to generate machine code. The paper also presents a
verification procedure to ensure the correctness of each transform stage.
- Abstract(参考訳): マルチレベル中間表現(MLIR)は、再利用可能な拡張可能なコンパイラインフラストラクチャを提供することで、ドメイン固有のコンパイラを構築するコストを削減できる。
MLIRをベースにしたエンドツーエンドコンパイラであるTPU-MLIRは、トレーニング済みニューラルネットワーク(NN)モデルを、Tensor Processing Unit(TPU)と呼ばれるカスタムASICにデプロイする。
TPU-MLIRはその機能を実装するために2つの新しい方言を定義している。
1. 深層学習グラフ意味論を符号化し、深層学習フレームワークに依存しないテンソル操作(TOP)方言
2. TPUカーネルの標準計算を提供するTPUカーネル方言。
NNモデルはTOP方言に変換され、チップの構成に応じて異なるTPUのためにTPU方言に低下する。
MLIRパスパイプラインを使用してTPU上で最適化を行い、マシンコードを生成する方法を示す。
また,各変換ステージの正当性を保証するための検証手順を提案する。
関連論文リスト
- Exploration of TPUs for AI Applications [0.0]
Processing Units (TPU) は、Googleが開発したディープラーニングのためのハードウェアアクセラレーターである。
本稿では、クラウドおよびエッジコンピューティングにおけるTPUを、AIアプリケーションに焦点をあてて検討することを目的とする。
論文 参考訳(メタデータ) (2023-09-16T07:58:05Z) - Harnessing Deep Learning and HPC Kernels via High-Level Loop and Tensor
Abstractions on CPU Architectures [101.36990944099105]
この研究は、効率的でポータブルなDeep LearningとHigh Performance Computingカーネルを開発するためのフレームワークを導入している。
1)プロセッシングプリミティブ(TPP)を用いた計算コアの表現と,2)高レベルな宣言的手法でTPPのまわりの論理ループの表現の2つのステップでカーネルの開発を分解する。
我々は、スタンドアロンカーネルと、さまざまなCPUプラットフォームにおける最先端実装よりも優れたエンドツーエンドワークロードを使用して、このアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-04-25T05:04:44Z) - Heterogeneous Integration of In-Memory Analog Computing Architectures
with Tensor Processing Units [0.0]
本稿では,IMACユニットとエッジTPUを統合してモバイルCNNの性能を向上させる,新しい,異種,混合信号,混合精度アーキテクチャを提案する。
本稿では,TPU-IMACアーキテクチャ上にモデルをデプロイする際の潜在的な精度低下を軽減するために,混合精度トレーニング手法を取り入れた統合学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-04-18T19:44:56Z) - Tensor Slicing and Optimization for Multicore NPUs [2.670309629218727]
本稿では,Slicing Optimization (TSO) と呼ばれるマルチコアNPUに対するコンパイラ最適化パスを提案する。
TSOは、一連のCNNモデルの実行時間を最小化する最高のテンソルスライシングを特定する。
その結果、TSOは一連のCNNモデルの実行時間を最小化する最適なテンソルスライシングを識別できることがわかった。
論文 参考訳(メタデータ) (2023-04-06T12:03:03Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z) - Enabling Retargetable Optimizing Compilers for Quantum Accelerators via
a Multi-Level Intermediate Representation [78.8942067357231]
我々は、最適化され、再ターゲット可能で、事前コンパイルが可能なマルチレベル量子古典中間表現(IR)を提案する。
ゲートベースのOpenQASM 3言語全体をサポートし、共通量子プログラミングパターンのカスタム拡張と構文の改善を提供します。
私たちの研究は、通常のPythonのアプローチよりも1000倍高速で、スタンドアロンの量子言語コンパイラよりも5~10倍高速なコンパイル時間を実現しています。
論文 参考訳(メタデータ) (2021-09-01T17:29:47Z) - Dynamic Multi-Branch Layers for On-Device Neural Machine Translation [53.637479651600586]
動的マルチブランチ層を用いたオンデバイスニューラルマシン翻訳(NMT)システムの性能向上を提案する。
具体的には、トレーニングと推論中に1つの分岐のみを活性化した層方向動的マルチブランチネットワークを設計する。
ほぼ同じ計算コストで、WMT14英語-ドイツ語翻訳タスクでは最大1.7 BLEUポイント、WMT20中国語-英語翻訳タスクでは1.8 BLEUポイントの改善を実現します。
論文 参考訳(メタデータ) (2021-05-14T07:32:53Z) - Exploring the limits of Concurrency in ML Training on Google TPUs [12.165692382950713]
我々は、4096 TPU-v3チップを備えたメッシュであるGoogle Multipodでモデルをスケールする手法を提案する。
Google TPU-v3 Multipod マシンの 4erf モデルでは,16秒から28秒間のトレーニング時間を記録できる。
論文 参考訳(メタデータ) (2020-11-07T00:18:43Z) - A Tensor Compiler for Unified Machine Learning Prediction Serving [8.362773007171118]
企業における機械学習(ML)の採用には、よりシンプルで効率的なソフトウェアインフラが必要である。
モデルのスコアリングは、モデルが一度訓練されるが、何度も使用されるため、インフラストラクチャの複雑さとコストに主要な貢献をする。
本稿では,HUMMINGBIRDを提案する。HUMMINGBIRDは,計算演算子と従来のMLモデルを小さなテンソル演算系にコンパイルする新しいモデルスコアリング手法である。
論文 参考訳(メタデータ) (2020-10-09T21:02:47Z) - Compiling ONNX Neural Network Models Using MLIR [51.903932262028235]
本稿では,深層ニューラルネットワークモデルの推論のためのコードを生成するonnx-mlirコンパイラについて予備報告を行う。
Onnx-mlirは、最近LLVMプロジェクトに統合されたMulti-Level Intermediate Representation (MLIR)インフラストラクチャに依存している。
論文 参考訳(メタデータ) (2020-08-19T05:28:08Z) - Synthetic Datasets for Neural Program Synthesis [66.20924952964117]
本稿では,プログラムと仕様の両方で合成データ分布のバイアスを制御し,評価するための新しい手法を提案する。
そこで我々は,Karel DSLと小さなCalculator DSLを用いて,これらの分布上でのディープネットワークのトレーニングにより,分散一般化性能が向上することが実証された。
論文 参考訳(メタデータ) (2019-12-27T21:28:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。