論文の概要: Heterogeneous Integration of In-Memory Analog Computing Architectures
with Tensor Processing Units
- arxiv url: http://arxiv.org/abs/2304.09258v1
- Date: Tue, 18 Apr 2023 19:44:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-20 16:26:49.190478
- Title: Heterogeneous Integration of In-Memory Analog Computing Architectures
with Tensor Processing Units
- Title(参考訳): テンソル処理ユニットを用いたインメモリアナログコンピューティングアーキテクチャの不均一な統合
- Authors: Mohammed E. Elbtity, Brendan Reidy, Md Hasibul Amin, and Ramtin Zand
- Abstract要約: 本稿では,IMACユニットとエッジTPUを統合してモバイルCNNの性能を向上させる,新しい,異種,混合信号,混合精度アーキテクチャを提案する。
本稿では,TPU-IMACアーキテクチャ上にモデルをデプロイする際の潜在的な精度低下を軽減するために,混合精度トレーニング手法を取り入れた統合学習アルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Tensor processing units (TPUs), specialized hardware accelerators for machine
learning tasks, have shown significant performance improvements when executing
convolutional layers in convolutional neural networks (CNNs). However, they
struggle to maintain the same efficiency in fully connected (FC) layers,
leading to suboptimal hardware utilization. In-memory analog computing (IMAC)
architectures, on the other hand, have demonstrated notable speedup in
executing FC layers. This paper introduces a novel, heterogeneous,
mixed-signal, and mixed-precision architecture that integrates an IMAC unit
with an edge TPU to enhance mobile CNN performance. To leverage the strengths
of TPUs for convolutional layers and IMAC circuits for dense layers, we propose
a unified learning algorithm that incorporates mixed-precision training
techniques to mitigate potential accuracy drops when deploying models on the
TPU-IMAC architecture. The simulations demonstrate that the TPU-IMAC
configuration achieves up to $2.59\times$ performance improvements, and $88\%$
memory reductions compared to conventional TPU architectures for various CNN
models while maintaining comparable accuracy. The TPU-IMAC architecture shows
potential for various applications where energy efficiency and high performance
are essential, such as edge computing and real-time processing in mobile
devices. The unified training algorithm and the integration of IMAC and TPU
architectures contribute to the potential impact of this research on the
broader machine learning landscape.
- Abstract(参考訳): 機械学習タスク専用のハードウェアアクセラレータであるテンソルプロセッシングユニット(TPU)は、畳み込みニューラルネットワーク(CNN)で畳み込み層を実行する場合、大幅なパフォーマンス向上を示している。
しかし、彼らは完全に接続された(FC)層で同じ効率を維持するのに苦労し、最適以下のハードウェア利用につながる。
一方、インメモリアナログコンピューティング(IMAC)アーキテクチャは、FC層の実行において顕著なスピードアップを示している。
本稿では,IMACユニットとエッジTPUを統合してモバイルCNNの性能を向上させる,新しい,異種,混合信号,混合精度アーキテクチャを提案する。
畳み込み層に対するTPUの強みと高密度層に対するIMAC回路の強度を活用するため,TPU-IMACアーキテクチャにモデルを展開する際の潜在的な精度低下を軽減するために,混合精度トレーニング技術を取り入れた統合学習アルゴリズムを提案する。
シミュレーションにより、TPU-IMAC構成は、同等の精度を維持しながら、様々なCNNモデルの従来のTPUアーキテクチャと比較して、最大2.59\times$パフォーマンスの改善と8.8\%のメモリ削減を達成することが示された。
TPU-IMACアーキテクチャは、エッジコンピューティングやモバイルデバイスでのリアルタイム処理など、エネルギー効率と高性能が不可欠である様々なアプリケーションに可能性を示す。
統一トレーニングアルゴリズムとimacとtpuアーキテクチャの統合は、この研究がより広い機械学習の展望に潜在的に影響を与えている。
関連論文リスト
- Harnessing Manycore Processors with Distributed Memory for Accelerated
Training of Sparse and Recurrent Models [43.1773057439246]
現在のAIトレーニングインフラストラクチャは、単一の命令多重データ(SIMD)とシストリック配列アーキテクチャによって支配されている。
分散ローカルメモリを用いた大規模並列多重命令型マルチデータアーキテクチャにおけるスパース・リカレントモデルトレーニングについて検討する。
論文 参考訳(メタデータ) (2023-11-07T23:18:35Z) - Exploration of TPUs for AI Applications [0.0]
Processing Units (TPU) は、Googleが開発したディープラーニングのためのハードウェアアクセラレーターである。
本稿では、クラウドおよびエッジコンピューティングにおけるTPUを、AIアプリケーションに焦点をあてて検討することを目的とする。
論文 参考訳(メタデータ) (2023-09-16T07:58:05Z) - Harnessing Deep Learning and HPC Kernels via High-Level Loop and Tensor
Abstractions on CPU Architectures [101.36990944099105]
この研究は、効率的でポータブルなDeep LearningとHigh Performance Computingカーネルを開発するためのフレームワークを導入している。
1)プロセッシングプリミティブ(TPP)を用いた計算コアの表現と,2)高レベルな宣言的手法でTPPのまわりの論理ループの表現の2つのステップでカーネルの開発を分解する。
我々は、スタンドアロンカーネルと、さまざまなCPUプラットフォームにおける最先端実装よりも優れたエンドツーエンドワークロードを使用して、このアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-04-25T05:04:44Z) - ConvBLS: An Effective and Efficient Incremental Convolutional Broad
Learning System for Image Classification [63.49762079000726]
球状K-means(SKM)アルゴリズムと2段階マルチスケール(TSMS)機能融合に基づく畳み込み広範学習システム(ConvBLS)を提案する。
提案手法は前代未聞の効率的かつ効果的である。
論文 参考訳(メタデータ) (2023-04-01T04:16:12Z) - Energy-efficient Task Adaptation for NLP Edge Inference Leveraging
Heterogeneous Memory Architectures [68.91874045918112]
Adapter-ALBERTは、様々なタスクにわたる最大データ再利用のための効率的なモデル最適化である。
検証されたNLPエッジアクセラレータ上でシミュレーションを行うことにより、モデルを不均一なオンチップメモリアーキテクチャにマッピングする利点を実証する。
論文 参考訳(メタデータ) (2023-03-25T14:40:59Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z) - An In-Memory Analog Computing Co-Processor for Energy-Efficient CNN
Inference on Mobile Devices [4.117012092777604]
非揮発性メモリアレイ内のシナプス挙動とアクティベーション機能の両方を実現するインメモリアナログコンピューティング(IMAC)アーキテクチャを開発した。
スピン軌道トルク磁気抵抗ランダムアクセスメモリ(SOT-MRAM)装置を利用してシグモダルニューロンと双対シナプスを実現する。
モバイルプロセッサ上での畳み込みニューラルネットワーク(CNN)推論において、異種混合信号と混合精度のCPU-IMACアーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-05-24T23:01:36Z) - Ps and Qs: Quantization-aware pruning for efficient low latency neural
network inference [56.24109486973292]
超低遅延アプリケーションのためのニューラルネットワークのトレーニング中の分級と量子化の相互作用を研究します。
量子化アウェアプルーニングは,タスクのプルーニングや量子化のみよりも計算効率のよいモデルであることが判明した。
論文 参考訳(メタデータ) (2021-02-22T19:00:05Z) - Hybrid In-memory Computing Architecture for the Training of Deep Neural
Networks [5.050213408539571]
ハードウェアアクセラレータ上でのディープニューラルネットワーク(DNN)のトレーニングのためのハイブリッドインメモリコンピューティングアーキテクチャを提案する。
HICをベースとしたトレーニングでは,ベースラインに匹敵する精度を達成するために,推論モデルのサイズが約50%小さくなることを示す。
シミュレーションの結果,HICをベースとしたトレーニングにより,PCMの耐久限界のごく一部に,デバイスによる書き込みサイクルの回数を自然に確保できることがわかった。
論文 参考訳(メタデータ) (2021-02-10T05:26:27Z) - Large-scale neuromorphic optoelectronic computing with a reconfigurable
diffractive processing unit [38.898230519968116]
回折処理ユニットを構築することにより、光電子再構成可能な計算パラダイムを提案する。
異なるニューラルネットワークを効率的にサポートし、数百万のニューロンで高いモデル複雑性を達成することができる。
市販の光電子部品を用いたプロトタイプシステムは,最先端のグラフィックス処理ユニットの性能を超越している。
論文 参考訳(メタデータ) (2020-08-26T16:34:58Z) - Predictive Coding Approximates Backprop along Arbitrary Computation
Graphs [68.8204255655161]
我々は、コア機械学習アーキテクチャを予測的符号化に翻訳する戦略を開発する。
私たちのモデルは、挑戦的な機械学習ベンチマークのバックプロップと同等に機能します。
本手法は,ニューラルネットワークに標準機械学習アルゴリズムを直接実装できる可能性を高める。
論文 参考訳(メタデータ) (2020-06-07T15:35:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。