論文の概要: TrIM, Triangular Input Movement Systolic Array for Convolutional Neural Networks: Dataflow and Analytical Modelling
- arxiv url: http://arxiv.org/abs/2408.01254v2
- Date: Mon, 23 Dec 2024 08:15:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-24 15:51:37.767405
- Title: TrIM, Triangular Input Movement Systolic Array for Convolutional Neural Networks: Dataflow and Analytical Modelling
- Title(参考訳): 畳み込みニューラルネットワークのためのTrIM, 三角形入力運動シストリックアレイ:データフローと解析モデル
- Authors: Cristian Sestito, Shady Agwa, Themis Prodromakis,
- Abstract要約: 畳み込みニューラルネットワーク(CNN)はフォン・ノイマンのボトルネックに影響を受けやすい。
このボトルネックは、処理コアとメモリ間でデータを移動する際のエネルギーコストに関連している。
TrIMは、三角入力運動に基づくSystolic Arraysのための新しいデータフローであり、CNNコンピューティングと互換性がある。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: In order to follow the ever-growing computational complexity and data intensity of state-of-the-art AI models, new computing paradigms are being proposed. These paradigms aim at achieving high energy efficiency, by mitigating the Von Neumann bottleneck that relates to the energy cost of moving data between the processing cores and the memory. Convolutional Neural Networks (CNNs) are susceptible to this bottleneck, given the massive data they have to manage. Systolic Arrays (SAs) are promising architectures to mitigate the data transmission cost, thanks to high data utilization of Processing Elements (PEs). These PEs continuously exchange and process data locally based on specific dataflows (like weight stationary and row stationary), in turn reducing the number of memory accesses to the main memory. In SAs, convolutions are managed either as matrix multiplications or exploiting the raster-order scan of sliding windows. However, data redundancy is a primary concern affecting area, power and energy. In this paper, we propose TrIM: a novel dataflow for SAs based on a Triangular Input Movement and compatible with CNN computing. TrIM maximizes the local input utilization, minimizes the weight data movement and solves the data redundancy problem. Furthermore, TrIM does not incur the significant on-chip memory penalty introduced by the row stationary dataflow. When compared to state-of-the-art SA dataflows the high data utilization offered by TrIM guarantees ~10x less memory access. Furthermore, considering that PEs continuously overlap multiplications and accumulations, TrIM achieves high throughput (up to 81.8% higher than row stationary), other than requiring a limited number of registers (up to 15.6x fewer registers than row stationary).
- Abstract(参考訳): 最先端AIモデルの継続的な計算複雑性とデータ強度に従うために、新しい計算パラダイムが提案されている。
これらのパラダイムは、処理コアとメモリの間のデータ移動のエネルギーコストに関連するフォン・ノイマンのボトルネックを緩和することで、高いエネルギー効率を達成することを目的としている。
畳み込みニューラルネットワーク(CNN)は、管理しなければならない膨大なデータを考えると、このボトルネックの影響を受けやすい。
Systolic Arrays (SA) は、Processing Elements (PE) の高利用により、データ転送コストを軽減できる有望なアーキテクチャである。
これらのPEは、特定のデータフロー(重量定常や行定常など)に基づいて、データを連続的に交換し、処理し、メインメモリへのメモリアクセス数を減少させる。
SAでは、畳み込みは行列乗法か、スライディングウィンドウのラスタオーダースキャンを利用するかのいずれかとして管理される。
しかし、データ冗長性は、地域、電力、エネルギーに影響を与える主要な関心事である。
本稿では,三角入力運動に基づく新しいデータフローであるTrIMを提案する。
TrIMは局所的な入力利用を最大化し、重量データの動きを最小化し、データの冗長性問題を解決する。
さらにTrIMは、行定常データフローによって引き起こされる重要なオンチップメモリペナルティを生じさせない。
最先端のSAデータフローと比較して、TrIMが提供する高いデータ利用は、メモリアクセスを約10倍削減する。
さらに、PEが連続的に乗算と累積を重複していることを考えると、TrIMは限られたレジスタ(行定常よりも最大15.6倍少ないレジスタ)を必要とせず、高いスループット(行定常よりも81.8%高い)を達成する。
関連論文リスト
- Neuromorphic Wireless Split Computing with Multi-Level Spikes [69.73249913506042]
ニューロモルフィックコンピューティングでは、スパイクニューラルネットワーク(SNN)が推論タスクを実行し、シーケンシャルデータを含むワークロードの大幅な効率向上を提供する。
ハードウェアとソフトウェアの最近の進歩は、スパイクニューロン間で交換された各スパイクに数ビットのペイロードを埋め込むことにより、推論精度をさらに高めることを示した。
本稿では,マルチレベルSNNを用いた無線ニューロモルフィック分割計算アーキテクチャについて検討する。
論文 参考訳(メタデータ) (2024-11-07T14:08:35Z) - TrIM: Triangular Input Movement Systolic Array for Convolutional Neural Networks -- Part II: Architecture and Hardware Implementation [0.0]
TrIMは、入力の三角移動に基づく革新的なデータフローである。
TrIMは、最先端のシストリックアレイと比較して1桁のメモリアクセス数を削減できる。
アーキテクチャは、毎秒453.6ギガオペレーションのピークスループットを達成する。
論文 参考訳(メタデータ) (2024-08-05T10:18:00Z) - Efficient and accurate neural field reconstruction using resistive memory [52.68088466453264]
デジタルコンピュータにおける従来の信号再構成手法は、ソフトウェアとハードウェアの両方の課題に直面している。
本稿では,スパース入力からの信号再構成のためのソフトウェア・ハードウェア協調最適化を用いた体系的アプローチを提案する。
この研究は、AI駆動の信号復元技術を進歩させ、将来の効率的で堅牢な医療AIと3Dビジョンアプリケーションへの道を開く。
論文 参考訳(メタデータ) (2024-04-15T09:33:09Z) - Intelligence Processing Units Accelerate Neuromorphic Learning [52.952192990802345]
スパイキングニューラルネットワーク(SNN)は、エネルギー消費と遅延の観点から、桁違いに改善されている。
我々は、カスタムSNN PythonパッケージsnnTorchのIPU最適化リリースを提示する。
論文 参考訳(メタデータ) (2022-11-19T15:44:08Z) - GLEAM: Greedy Learning for Large-Scale Accelerated MRI Reconstruction [50.248694764703714]
アンロールされたニューラルネットワークは、最近最先端の加速MRI再構成を達成した。
これらのネットワークは、物理ベースの一貫性とニューラルネットワークベースの正規化を交互に組み合わせることで、反復最適化アルゴリズムをアンロールする。
我々は,高次元画像設定のための効率的なトレーニング戦略である加速度MRI再構成のためのグレディ・ラーニングを提案する。
論文 参考訳(メタデータ) (2022-07-18T06:01:29Z) - Deep Neural Networks Based Weight Approximation and Computation Reuse
for 2-D Image Classification [0.9507070656654631]
ディープニューラルネットワーク(DNN)は計算とメモリ集約である。
本稿では,近似計算とデータ再利用手法を融合させ,DNNs性能を改善する新しい手法を提案する。
IoTエッジデバイスに適しており、メモリサイズ要件と必要なメモリアクセス数を削減します。
論文 参考訳(メタデータ) (2021-04-28T10:16:53Z) - Deep Cellular Recurrent Network for Efficient Analysis of Time-Series
Data with Spatial Information [52.635997570873194]
本研究では,空間情報を用いた複雑な多次元時系列データを処理するための新しいディープセルリカレントニューラルネットワーク(DCRNN)アーキテクチャを提案する。
提案するアーキテクチャは,文献に比較して,学習可能なパラメータをかなり少なくしつつ,最先端の性能を実現している。
論文 参考訳(メタデータ) (2021-01-12T20:08:18Z) - Robust High-dimensional Memory-augmented Neural Networks [13.82206983716435]
メモリ拡張ニューラルネットワークは、これらの問題を克服するために、明示的なメモリでニューラルネットワークを強化する。
この明示的なメモリへのアクセスは、各個々のメモリエントリを含むソフト読み取りおよび書き込み操作を介して行われる。
本稿では,高次元(HD)ベクトル上でのアナログインメモリ計算を行う明示メモリとして,計算メモリユニットを用いた頑健なアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-10-05T12:01:56Z) - Sparse Systolic Tensor Array for Efficient CNN Hardware Acceleration [14.958793135751149]
モバイルデバイス上の畳み込みニューラルネットワーク(CNN)推論は、低精度(INT8)汎用行列乗算(GEMM)の効率的なハードウェアアクセラレーションを必要とする
CNN推論のGEMMをさらに加速する一般的な手法であり、特に、構造的スパーシリティは予測可能な負荷分散と非常に低いインデックスオーバーヘッドの利点がある。
ハードウェアの高利用を保ちながら、さまざまな分散レベルのサポートを提供する方法について、構造的疎結合で重要なアーキテクチャ上の課題に対処する。
論文 参考訳(メタデータ) (2020-09-04T20:17:42Z) - One-step regression and classification with crosspoint resistive memory
arrays [62.997667081978825]
高速で低エネルギーのコンピュータは、エッジでリアルタイム人工知能を実現するために要求されている。
ワンステップ学習は、ボストンの住宅のコスト予測と、MNIST桁認識のための2層ニューラルネットワークのトレーニングによって支援される。
結果は、クロスポイントアレイ内の物理計算、並列計算、アナログ計算のおかげで、1つの計算ステップで得られる。
論文 参考訳(メタデータ) (2020-05-05T08:00:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。