Fugu-MT 論文翻訳(概要): TPU-MLIR: A Compiler For TPU Using MLIR

論文の概要: TPU-MLIR: A Compiler For TPU Using MLIR

arxiv url: http://arxiv.org/abs/2210.15016v1
Date: Sun, 23 Oct 2022 10:45:54 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-28 13:17:47.596370
Title: TPU-MLIR: A Compiler For TPU Using MLIR
Title（参考訳）: TPU-MLIR:MLIRを使用したTPUコンパイラ
Authors: Pengchao Hu, Man Lu, Lei Wang, Guoyue Jiang
Abstract要約: TPU-MLIRは、TPU(Processing Unit)と呼ばれるカスタムASICに、トレーニング済みニューラルネットワーク(NN)モデルをデプロイする NNモデルはTOP方言に変換され、チップの構成に応じて異なるTPUのためにTPU方言に低下する。 MLIRパスパイプラインを使用してTPU上で最適化を行い、マシンコードを生成する方法を示す。
参考スコア（独自算出の注目度）: 2.6519283973116963
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Multi-level intermediate representations (MLIR) show great promise for reducing the cost of building domain-specific compilers by providing a reusable and extensible compiler infrastructure. This work presents TPU-MLIR, an end-to-end compiler based on MLIR that deploys pre-trained neural network (NN) models to a custom ASIC called a Tensor Processing Unit (TPU). TPU-MLIR defines two new dialects to implement its functionality: 1. a Tensor operation (TOP) dialect that encodes the deep learning graph semantics and independent of the deep learning framework and 2. a TPU kernel dialect to provide a standard kernel computation on TPU. A NN model is translated to the TOP dialect and then lowered to the TPU dialect for different TPUs according to the chip's configuration. We demonstrate how to use the MLIR pass pipeline to organize and perform optimization on TPU to generate machine code. The paper also presents a verification procedure to ensure the correctness of each transform stage.
Abstract（参考訳）: マルチレベル中間表現(MLIR)は、再利用可能な拡張可能なコンパイラインフラストラクチャを提供することで、ドメイン固有のコンパイラを構築するコストを削減できる。 MLIRをベースにしたエンドツーエンドコンパイラであるTPU-MLIRは、トレーニング済みニューラルネットワーク(NN)モデルを、Tensor Processing Unit(TPU)と呼ばれるカスタムASICにデプロイする。 TPU-MLIRはその機能を実装するために2つの新しい方言を定義している。 1. 深層学習グラフ意味論を符号化し、深層学習フレームワークに依存しないテンソル操作(TOP)方言 2. TPUカーネルの標準計算を提供するTPUカーネル方言。 NNモデルはTOP方言に変換され、チップの構成に応じて異なるTPUのためにTPU方言に低下する。 MLIRパスパイプラインを使用してTPU上で最適化を行い、マシンコードを生成する方法を示す。また,各変換ステージの正当性を保証するための検証手順を提案する。

関連論文リスト

NNTile: a machine learning framework capable of training extremely large GPT language models on a single node [83.9328245724548]
NNTileはタスクベースの並列処理を実装したStarPUライブラリをベースとしている。これは、大きなニューラルネットワークをトレーニングするために必要な特定の操作が、CPUコアまたはGPUデバイスのいずれかで実行されることを意味する。
論文参考訳（メタデータ） (2025-04-17T16:22:32Z)
Disambiguation of Chinese Polyphones in an End-to-End Framework with Semantic Features Extracted by Pre-trained BERT [81.99600765234285]
ポリフォニック文字の発音を予測するためのエンドツーエンドフレームワークを提案する。提案手法は,Transformers(BERT)モデルとニューラルネットワーク(NN)に基づく分類器から,事前訓練された双方向エンコーダ表現からなる。
論文参考訳（メタデータ） (2025-01-02T06:51:52Z)
Training Neural Networks as Recognizers of Formal Languages [87.06906286950438]
形式言語理論は、特に認識者に関するものである。代わりに、非公式な意味でのみ類似したプロキシタスクを使用するのが一般的である。ニューラルネットワークを文字列のバイナリ分類器として直接訓練し評価することで、このミスマッチを補正する。
論文参考訳（メタデータ） (2024-11-11T16:33:25Z)
Hardware-Assisted Virtualization of Neural Processing Units for Cloud Platforms [3.93151902626205]
我々は、総合的なNPU仮想化フレームワークであるNeu10を紹介する。 Neu10は、(1)物理NPU(pNPU)における不均一な計算ユニットの詳細な仮想化を可能にするvNPUと呼ばれるフレキシブルなNPU抽象化、(2)リソース利用とコスト効率を改善するためにペイ・アズ・ユー・ゴーコンピューティングモデルと柔軟なvNPU-to-pNPUマッピングを可能にするvNPUリソースアロケータ、(3)複数のvNPUのためのきめ細かいテンソル演算のスケジューリングを容易にする最新のNPUアーキテクチャのISA拡張からなる。
論文参考訳（メタデータ） (2024-08-07T21:45:01Z)
Flex-TPU: A Flexible TPU with Runtime Reconfigurable Dataflow Architecture [0.0]
この作業はFlex-TPUと呼ばれる再構成可能なデータフローTPUの開発で構成されており、実行時に層ごとのデータフローを動的に変更することができる。その結果,Flex-TPUの設計は従来のTPUに比べて2.75倍の大幅な性能向上を実現している。
論文参考訳（メタデータ） (2024-07-11T17:33:38Z)
On the Representational Capacity of Neural Language Models with Chain-of-Thought Reasoning [87.73401758641089]
CoT推論による現代言語モデル(LM)の性能向上 LMは弦上の分布の族を確率的チューリングマシンと同一に表現できることを示す。
論文参考訳（メタデータ） (2024-06-20T10:59:02Z)
Exploration of TPUs for AI Applications [0.0]
Processing Units (TPU) は、Googleが開発したディープラーニングのためのハードウェアアクセラレーターである。本稿では、クラウドおよびエッジコンピューティングにおけるTPUを、AIアプリケーションに焦点をあてて検討することを目的とする。
論文参考訳（メタデータ） (2023-09-16T07:58:05Z)
Harnessing Deep Learning and HPC Kernels via High-Level Loop and Tensor Abstractions on CPU Architectures [67.47328776279204]
この研究は、効率的でポータブルなDeep LearningとHigh Performance Computingカーネルを開発するためのフレームワークを導入している。 1)プロセッシングプリミティブ(TPP)を用いた計算コアの表現と,2)高レベルな宣言的手法でTPPのまわりの論理ループの表現の2つのステップでカーネルの開発を分解する。我々は、スタンドアロンカーネルと、さまざまなCPUプラットフォームにおける最先端実装よりも優れたエンドツーエンドワークロードを使用して、このアプローチの有効性を実証する。
論文参考訳（メタデータ） (2023-04-25T05:04:44Z)
Heterogeneous Integration of In-Memory Analog Computing Architectures with Tensor Processing Units [0.0]
本稿では,IMACユニットとエッジTPUを統合してモバイルCNNの性能を向上させる,新しい,異種,混合信号,混合精度アーキテクチャを提案する。本稿では,TPU-IMACアーキテクチャ上にモデルをデプロイする際の潜在的な精度低下を軽減するために,混合精度トレーニング手法を取り入れた統合学習アルゴリズムを提案する。
論文参考訳（メタデータ） (2023-04-18T19:44:56Z)
Tensor Slicing and Optimization for Multicore NPUs [2.670309629218727]
本稿では,Slicing Optimization (TSO) と呼ばれるマルチコアNPUに対するコンパイラ最適化パスを提案する。 TSOは、一連のCNNモデルの実行時間を最小化する最高のテンソルスライシングを特定する。その結果、TSOは一連のCNNモデルの実行時間を最小化する最適なテンソルスライシングを識別できることがわかった。
論文参考訳（メタデータ） (2023-04-06T12:03:03Z)
An Adaptive Device-Edge Co-Inference Framework Based on Soft Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文参考訳（メタデータ） (2022-01-09T09:31:50Z)
Compiling ONNX Neural Network Models Using MLIR [51.903932262028235]
本稿では,深層ニューラルネットワークモデルの推論のためのコードを生成するonnx-mlirコンパイラについて予備報告を行う。 Onnx-mlirは、最近LLVMプロジェクトに統合されたMulti-Level Intermediate Representation (MLIR)インフラストラクチャに依存している。
論文参考訳（メタデータ） (2020-08-19T05:28:08Z)
Synthetic Datasets for Neural Program Synthesis [66.20924952964117]
本稿では,プログラムと仕様の両方で合成データ分布のバイアスを制御し,評価するための新しい手法を提案する。そこで我々は,Karel DSLと小さなCalculator DSLを用いて,これらの分布上でのディープネットワークのトレーニングにより,分散一般化性能が向上することが実証された。
論文参考訳（メタデータ） (2019-12-27T21:28:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。