論文の概要: Heterogeneous Integration of In-Memory Analog Computing Architectures
with Tensor Processing Units
- arxiv url: http://arxiv.org/abs/2304.09258v1
- Date: Tue, 18 Apr 2023 19:44:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-20 16:26:49.190478
- Title: Heterogeneous Integration of In-Memory Analog Computing Architectures
with Tensor Processing Units
- Title(参考訳): テンソル処理ユニットを用いたインメモリアナログコンピューティングアーキテクチャの不均一な統合
- Authors: Mohammed E. Elbtity, Brendan Reidy, Md Hasibul Amin, and Ramtin Zand
- Abstract要約: 本稿では,IMACユニットとエッジTPUを統合してモバイルCNNの性能を向上させる,新しい,異種,混合信号,混合精度アーキテクチャを提案する。
本稿では,TPU-IMACアーキテクチャ上にモデルをデプロイする際の潜在的な精度低下を軽減するために,混合精度トレーニング手法を取り入れた統合学習アルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Tensor processing units (TPUs), specialized hardware accelerators for machine
learning tasks, have shown significant performance improvements when executing
convolutional layers in convolutional neural networks (CNNs). However, they
struggle to maintain the same efficiency in fully connected (FC) layers,
leading to suboptimal hardware utilization. In-memory analog computing (IMAC)
architectures, on the other hand, have demonstrated notable speedup in
executing FC layers. This paper introduces a novel, heterogeneous,
mixed-signal, and mixed-precision architecture that integrates an IMAC unit
with an edge TPU to enhance mobile CNN performance. To leverage the strengths
of TPUs for convolutional layers and IMAC circuits for dense layers, we propose
a unified learning algorithm that incorporates mixed-precision training
techniques to mitigate potential accuracy drops when deploying models on the
TPU-IMAC architecture. The simulations demonstrate that the TPU-IMAC
configuration achieves up to $2.59\times$ performance improvements, and $88\%$
memory reductions compared to conventional TPU architectures for various CNN
models while maintaining comparable accuracy. The TPU-IMAC architecture shows
potential for various applications where energy efficiency and high performance
are essential, such as edge computing and real-time processing in mobile
devices. The unified training algorithm and the integration of IMAC and TPU
architectures contribute to the potential impact of this research on the
broader machine learning landscape.
- Abstract(参考訳): 機械学習タスク専用のハードウェアアクセラレータであるテンソルプロセッシングユニット(TPU)は、畳み込みニューラルネットワーク(CNN)で畳み込み層を実行する場合、大幅なパフォーマンス向上を示している。
しかし、彼らは完全に接続された(FC)層で同じ効率を維持するのに苦労し、最適以下のハードウェア利用につながる。
一方、インメモリアナログコンピューティング(IMAC)アーキテクチャは、FC層の実行において顕著なスピードアップを示している。
本稿では,IMACユニットとエッジTPUを統合してモバイルCNNの性能を向上させる,新しい,異種,混合信号,混合精度アーキテクチャを提案する。
畳み込み層に対するTPUの強みと高密度層に対するIMAC回路の強度を活用するため,TPU-IMACアーキテクチャにモデルを展開する際の潜在的な精度低下を軽減するために,混合精度トレーニング技術を取り入れた統合学習アルゴリズムを提案する。
シミュレーションにより、TPU-IMAC構成は、同等の精度を維持しながら、様々なCNNモデルの従来のTPUアーキテクチャと比較して、最大2.59\times$パフォーマンスの改善と8.8\%のメモリ削減を達成することが示された。
TPU-IMACアーキテクチャは、エッジコンピューティングやモバイルデバイスでのリアルタイム処理など、エネルギー効率と高性能が不可欠である様々なアプリケーションに可能性を示す。
統一トレーニングアルゴリズムとimacとtpuアーキテクチャの統合は、この研究がより広い機械学習の展望に潜在的に影響を与えている。
関連論文リスト
- Task-Oriented Real-time Visual Inference for IoVT Systems: A Co-design Framework of Neural Networks and Edge Deployment [61.20689382879937]
タスク指向エッジコンピューティングは、データ分析をエッジにシフトすることで、この問題に対処する。
既存の手法は、高いモデル性能と低いリソース消費のバランスをとるのに苦労している。
ニューラルネットワークアーキテクチャを最適化する新しい協調設計フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-29T19:02:54Z) - EPS-MoE: Expert Pipeline Scheduler for Cost-Efficient MoE Inference [49.94169109038806]
本稿では,新しいパイプラインスケジューラであるEPS-MoEを紹介する。
その結果,既存の並列推論手法に比べて,プリフィルスループットが平均21%向上していることが判明した。
論文 参考訳(メタデータ) (2024-10-16T05:17:49Z) - A Realistic Simulation Framework for Analog/Digital Neuromorphic Architectures [73.65190161312555]
ARCANAは、混合信号ニューロモルフィック回路の特性を考慮に入れたスパイクニューラルネットワークシミュレータである。
その結果,ソフトウェアでトレーニングしたスパイクニューラルネットワークの挙動を,信頼性の高い推定結果として提示した。
論文 参考訳(メタデータ) (2024-09-23T11:16:46Z) - Flex-TPU: A Flexible TPU with Runtime Reconfigurable Dataflow Architecture [0.0]
この作業はFlex-TPUと呼ばれる再構成可能なデータフローTPUの開発で構成されており、実行時に層ごとのデータフローを動的に変更することができる。
その結果,Flex-TPUの設計は従来のTPUに比べて2.75倍の大幅な性能向上を実現している。
論文 参考訳(メタデータ) (2024-07-11T17:33:38Z) - Mechanistic Design and Scaling of Hybrid Architectures [114.3129802943915]
我々は、様々な計算プリミティブから構築された新しいハイブリッドアーキテクチャを特定し、テストする。
本研究では,大規模計算最適法則と新しい状態最適スケーリング法則解析を用いて,結果のアーキテクチャを実験的に検証する。
我々は,MAD合成法と計算-最適パープレキシティを相関させ,新しいアーキテクチャの正確な評価を可能にする。
論文 参考訳(メタデータ) (2024-03-26T16:33:12Z) - Harnessing Manycore Processors with Distributed Memory for Accelerated
Training of Sparse and Recurrent Models [43.1773057439246]
現在のAIトレーニングインフラストラクチャは、単一の命令多重データ(SIMD)とシストリック配列アーキテクチャによって支配されている。
分散ローカルメモリを用いた大規模並列多重命令型マルチデータアーキテクチャにおけるスパース・リカレントモデルトレーニングについて検討する。
論文 参考訳(メタデータ) (2023-11-07T23:18:35Z) - Exploration of TPUs for AI Applications [0.0]
Processing Units (TPU) は、Googleが開発したディープラーニングのためのハードウェアアクセラレーターである。
本稿では、クラウドおよびエッジコンピューティングにおけるTPUを、AIアプリケーションに焦点をあてて検討することを目的とする。
論文 参考訳(メタデータ) (2023-09-16T07:58:05Z) - ConvBLS: An Effective and Efficient Incremental Convolutional Broad
Learning System for Image Classification [63.49762079000726]
球状K-means(SKM)アルゴリズムと2段階マルチスケール(TSMS)機能融合に基づく畳み込み広範学習システム(ConvBLS)を提案する。
提案手法は前代未聞の効率的かつ効果的である。
論文 参考訳(メタデータ) (2023-04-01T04:16:12Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z) - An In-Memory Analog Computing Co-Processor for Energy-Efficient CNN
Inference on Mobile Devices [4.117012092777604]
非揮発性メモリアレイ内のシナプス挙動とアクティベーション機能の両方を実現するインメモリアナログコンピューティング(IMAC)アーキテクチャを開発した。
スピン軌道トルク磁気抵抗ランダムアクセスメモリ(SOT-MRAM)装置を利用してシグモダルニューロンと双対シナプスを実現する。
モバイルプロセッサ上での畳み込みニューラルネットワーク(CNN)推論において、異種混合信号と混合精度のCPU-IMACアーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-05-24T23:01:36Z) - Hybrid In-memory Computing Architecture for the Training of Deep Neural
Networks [5.050213408539571]
ハードウェアアクセラレータ上でのディープニューラルネットワーク(DNN)のトレーニングのためのハイブリッドインメモリコンピューティングアーキテクチャを提案する。
HICをベースとしたトレーニングでは,ベースラインに匹敵する精度を達成するために,推論モデルのサイズが約50%小さくなることを示す。
シミュレーションの結果,HICをベースとしたトレーニングにより,PCMの耐久限界のごく一部に,デバイスによる書き込みサイクルの回数を自然に確保できることがわかった。
論文 参考訳(メタデータ) (2021-02-10T05:26:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。