論文の概要: Flex-TPU: A Flexible TPU with Runtime Reconfigurable Dataflow Architecture
- arxiv url: http://arxiv.org/abs/2407.08700v1
- Date: Thu, 11 Jul 2024 17:33:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-12 16:21:02.605331
- Title: Flex-TPU: A Flexible TPU with Runtime Reconfigurable Dataflow Architecture
- Title(参考訳): Flex-TPU:実行時再構成可能なデータフローアーキテクチャを備えた柔軟なTPU
- Authors: Mohammed Elbtity, Peyton Chandarana, Ramtin Zand,
- Abstract要約: この作業はFlex-TPUと呼ばれる再構成可能なデータフローTPUの開発で構成されており、実行時に層ごとのデータフローを動的に変更することができる。
その結果,Flex-TPUの設計は従来のTPUに比べて2.75倍の大幅な性能向上を実現している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Tensor processing units (TPUs) are one of the most well-known machine learning (ML) accelerators utilized at large scale in data centers as well as in tiny ML applications. TPUs offer several improvements and advantages over conventional ML accelerators, like graphical processing units (GPUs), being designed specifically to perform the multiply-accumulate (MAC) operations required in the matrix-matrix and matrix-vector multiplies extensively present throughout the execution of deep neural networks (DNNs). Such improvements include maximizing data reuse and minimizing data transfer by leveraging the temporal dataflow paradigms provided by the systolic array architecture. While this design provides a significant performance benefit, the current implementations are restricted to a single dataflow consisting of either input, output, or weight stationary architectures. This can limit the achievable performance of DNN inference and reduce the utilization of compute units. Therefore, the work herein consists of developing a reconfigurable dataflow TPU, called the Flex-TPU, which can dynamically change the dataflow per layer during run-time. Our experiments thoroughly test the viability of the Flex-TPU comparing it to conventional TPU designs across multiple well-known ML workloads. The results show that our Flex-TPU design achieves a significant performance increase of up to 2.75x compared to conventional TPU, with only minor area and power overheads.
- Abstract(参考訳): テンソル処理ユニット(TPU)は、データセンターや小さなMLアプリケーションで広く使われている機械学習(ML)アクセラレーターの1つである。
TPUはグラフィカル処理ユニット(GPU)など、従来のMLアクセラレータよりもいくつかの改善とアドバンテージを提供し、ディープニューラルネットワーク(DNN)の実行を通じて広く存在する行列行列行列および行列ベクトル乗算に必要な乗算累積(MAC)演算を実行するように設計されている。
このような改善には、データ再利用の最大化と、systolic配列アーキテクチャが提供する時間的データフローパラダイムを活用することにより、データ転送の最小化が含まれる。
この設計は大きなパフォーマンス上の利点をもたらすが、現在の実装は入力、出力、あるいは重み付けされたアーキテクチャからなる単一のデータフローに限定されている。
これにより、DNN推論の達成可能な性能を制限し、演算ユニットの利用を減らすことができる。
そのため、この作業はFlex-TPUと呼ばれる再構成可能なデータフローTPUを開発し、実行時に層ごとのデータフローを動的に変更できる。
実験では、Flex-TPUを複数のよく知られたMLワークロードにまたがる従来のTPU設計と比較し、Flex-TPUの有効性を徹底的に検証した。
その結果,Flex-TPUの設計は従来のTPUに比べて2.75倍の大幅な性能向上を実現している。
関連論文リスト
- FlexNN: A Dataflow-aware Flexible Deep Learning Accelerator for Energy-Efficient Edge Devices [0.6892601897291335]
本稿では,アジャイル設計の原則を取り入れたFlexNNを紹介する。
私たちの設計は、ソフトウェア記述子を通じてあらゆるタイプの適応可能なデータフローを可能にすることで革新的です。
スループットをさらに向上し、エネルギー消費を削減するために、スポーシティベースの新しい加速ロジックを提案する。
論文 参考訳(メタデータ) (2024-03-14T01:39:12Z) - Fast Inner-Product Algorithms and Architectures for Deep Neural Network
Accelerators [0.0]
本稿では,FFIP(Free-pipeline Fast Inner Product)と呼ばれる新しいアルゴリズムとそのハードウェアアーキテクチャを紹介する。
FIPは、主に行列乗算に分解できるすべての機械学習(ML)モデル層に適用できる。
FFIPは従来の固定点シストリックアレーMLアクセラレーターにシームレスに組み込むことができることを示す。
論文 参考訳(メタデータ) (2023-11-20T22:37:20Z) - In Situ Framework for Coupling Simulation and Machine Learning with
Application to CFD [51.04126395480625]
近年、流体力学計算を容易にする機械学習(ML)の多くの成功例が報告されている。
シミュレーションが大きくなるにつれて、従来のオフライン学習のための新しいトレーニングデータセットの生成は、I/Oとストレージのボトルネックを生み出します。
この作業は、この結合を単純化し、異種クラスタでのその場トレーニングと推論を可能にするソリューションを提供する。
論文 参考訳(メタデータ) (2023-06-22T14:07:54Z) - Heterogeneous Integration of In-Memory Analog Computing Architectures
with Tensor Processing Units [0.0]
本稿では,IMACユニットとエッジTPUを統合してモバイルCNNの性能を向上させる,新しい,異種,混合信号,混合精度アーキテクチャを提案する。
本稿では,TPU-IMACアーキテクチャ上にモデルをデプロイする際の潜在的な精度低下を軽減するために,混合精度トレーニング手法を取り入れた統合学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-04-18T19:44:56Z) - ParaGraph: Weighted Graph Representation for Performance Optimization of
HPC Kernels [1.304892050913381]
抽象構文木を拡張した並列アプリケーションのためのグラフベースの新しいプログラム表現を提案する。
提案した表現は,OpenMPコード領域のランタイムを予測するために,グラフニューラルネットワーク(GNN)をトレーニングすることで評価する。
その結果,本手法は実効性があり,実行時予測では 0.004 から 0.01 に RMSE を正規化していることがわかった。
論文 参考訳(メタデータ) (2023-04-07T05:52:59Z) - Tensor Slicing and Optimization for Multicore NPUs [2.670309629218727]
本稿では,Slicing Optimization (TSO) と呼ばれるマルチコアNPUに対するコンパイラ最適化パスを提案する。
TSOは、一連のCNNモデルの実行時間を最小化する最高のテンソルスライシングを特定する。
その結果、TSOは一連のCNNモデルの実行時間を最小化する最適なテンソルスライシングを識別できることがわかった。
論文 参考訳(メタデータ) (2023-04-06T12:03:03Z) - Energy-efficient Task Adaptation for NLP Edge Inference Leveraging
Heterogeneous Memory Architectures [68.91874045918112]
Adapter-ALBERTは、様々なタスクにわたる最大データ再利用のための効率的なモデル最適化である。
検証されたNLPエッジアクセラレータ上でシミュレーションを行うことにより、モデルを不均一なオンチップメモリアーキテクチャにマッピングする利点を実証する。
論文 参考訳(メタデータ) (2023-03-25T14:40:59Z) - PARTIME: Scalable and Parallel Processing Over Time with Deep Neural
Networks [68.96484488899901]
PartIMEは、データが継続的にストリーミングされるたびにニューラルネットワークを高速化するように設計されたライブラリです。
PartIMEは、ストリームから利用可能になった時点で、各データサンプルの処理を開始する。
オンライン学習において、PartialIMEと古典的な非並列ニューラル計算を経験的に比較するために実験が行われる。
論文 参考訳(メタデータ) (2022-10-17T14:49:14Z) - Fluid Batching: Exit-Aware Preemptive Serving of Early-Exit Neural
Networks on Edge NPUs [74.83613252825754]
スマートエコシステム(smart ecosystems)"は、スタンドアロンではなく、センセーションが同時に行われるように形成されています。
これはデバイス上の推論パラダイムを、エッジにニューラル処理ユニット(NPU)をデプロイする方向にシフトしている。
そこで本研究では,実行時のプリエンプションが到着・終了プロセスによってもたらされる動的性を考慮に入れた,新しい早期終了スケジューリングを提案する。
論文 参考訳(メタデータ) (2022-09-27T15:04:01Z) - One-step regression and classification with crosspoint resistive memory
arrays [62.997667081978825]
高速で低エネルギーのコンピュータは、エッジでリアルタイム人工知能を実現するために要求されている。
ワンステップ学習は、ボストンの住宅のコスト予測と、MNIST桁認識のための2層ニューラルネットワークのトレーニングによって支援される。
結果は、クロスポイントアレイ内の物理計算、並列計算、アナログ計算のおかげで、1つの計算ステップで得られる。
論文 参考訳(メタデータ) (2020-05-05T08:00:07Z) - Einsum Networks: Fast and Scalable Learning of Tractable Probabilistic
Circuits [99.59941892183454]
我々は,PC用の新しい実装設計であるEinsum Networks (EiNets)を提案する。
中心となるのは、E EiNets は単一のモノリシックな einsum-operation に多数の算術演算を組み合わせている。
本稿では,PCにおける予測最大化(EM)の実装を,自動微分を利用した簡易化が可能であることを示す。
論文 参考訳(メタデータ) (2020-04-13T23:09:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。