Fugu-MT 論文翻訳(概要): TrIM: Triangular Input Movement Systolic Array for Convolutional Neural Networks -- Part I: Dataflow and Analytical Modelling

論文の概要: TrIM: Triangular Input Movement Systolic Array for Convolutional Neural Networks -- Part I: Dataflow and Analytical Modelling

arxiv url: http://arxiv.org/abs/2408.01254v1
Date: Fri, 2 Aug 2024 13:15:17 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-05 13:27:42.061311
Title: TrIM: Triangular Input Movement Systolic Array for Convolutional Neural Networks -- Part I: Dataflow and Analytical Modelling
Title（参考訳）: TrIM:畳み込みニューラルネットワークのための三角形入力運動シストリックアレイ-その1:データフローと解析モデル
Authors: Cristian Sestito, Shady Agwa, Themis Prodromakis,
Abstract要約: 畳み込みニューラルネットワーク(CNN)は、特にフォン・ノイマンのボトルネックの影響を受けやすい。本稿では,三角入力運動に基づくSystolic Arrayの新たなデータフローであるTrIMを提案する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In order to follow the ever-growing computational complexity and data intensity of state-of-the-art AI models, new computing paradigms are being proposed. These paradigms aim at achieving high energy efficiency, by mitigating the Von Neumann bottleneck that relates to the energy cost of moving data between the processing cores and the memory. Convolutional Neural Networks (CNNs) are particularly susceptible to this bottleneck, given the massive data they have to manage. Systolic Arrays (SAs) are promising architectures to mitigate the data transmission cost, thanks to high data utilization carried out by an array of Processing Elements (PEs). These PEs continuously exchange and process data locally based on specific dataflows (like weight stationary and row stationary), in turn reducing the number of memory accesses to the main memory. The hardware specialization of SAs can meet different workloads, ranging from matrix multiplications to multi-dimensional convolutions. In this paper, we propose TrIM: a novel dataflow for SAs based on a Triangular Input Movement and compatible with CNN computing. When compared to state-of-the-art SA dataflows, like weight stationary and row stationary, the high data utilization offered by TrIM guarantees ~10x less memory access. Furthermore, considering that PEs continuously overlap multiplications and accumulations, TrIM achieves high throughput (up to 81.8% higher than row stationary), other than requiring a limited number of registers (up to 15.6x fewer registers than row stationary).
Abstract（参考訳）: 最先端AIモデルの継続的な計算複雑性とデータ強度に従うために、新しい計算パラダイムが提案されている。これらのパラダイムは、処理コアとメモリの間のデータ移動のエネルギーコストに関連するフォン・ノイマンのボトルネックを緩和することにより、高いエネルギー効率を達成することを目的としている。畳み込みニューラルネットワーク(CNN)はこのボトルネックに特に影響を受けやすい。 Systolic Arrays (SA)は、処理要素の配列(PE)によって実行される高いデータ利用のおかげで、データ転送コストを軽減できる有望なアーキテクチャである。これらのPEは、特定のデータフロー(重量定常や行定常など)に基づいて、データを連続的に交換し、処理し、メインメモリへのメモリアクセス数を減少させる。 SAのハードウェア特殊化は、行列乗算から多次元畳み込みまで、さまざまなワークロードに対応できる。本稿では,三角入力運動に基づく新しいデータフローであるTrIMを提案する。重量定常や行定常のような最先端のSAデータフローと比較すると、TrIMが提供する高いデータ利用はメモリアクセスを約10倍削減する。さらに、PEが連続的に乗算と累積を重複していることを考えると、TrIMは限られたレジスタ(行定常よりも最大で15.6倍少ないレジスタ)を必要とせず、高いスループット(行定常よりも81.8%高い)を達成する。

関連論文リスト

Neuromorphic Wireless Split Computing with Multi-Level Spikes [69.73249913506042]
ニューロモルフィックコンピューティングでは、スパイクニューラルネットワーク(SNN)が推論タスクを実行し、シーケンシャルデータを含むワークロードの大幅な効率向上を提供する。ハードウェアとソフトウェアの最近の進歩は、スパイクニューロン間で交換された各スパイクに数ビットのペイロードを埋め込むことにより、推論精度をさらに高めることを示した。本稿では,マルチレベルSNNを用いた無線ニューロモルフィック分割計算アーキテクチャについて検討する。
論文参考訳（メタデータ） (2024-11-07T14:08:35Z)
Reducing Data Bottlenecks in Distributed, Heterogeneous Neural Networks [5.32129361961937]
本稿では,組込みマルチコアおよびマルチコアシステムにおいて,ボトルネックサイズがディープラーニングモデルの性能に与える影響について検討する。ハードウェア・ソフトウェア共同設計手法を適用し,データトラフィックを減らすため,データボトルネックを極めて狭い層に置き換える。ハードウェア側の評価では、より高いボトルネック比が、ニューラルネットワークの層間でのデータ転送量を大幅に削減することを示している。
論文参考訳（メタデータ） (2024-10-12T21:07:55Z)
TrIM: Triangular Input Movement Systolic Array for Convolutional Neural Networks -- Part II: Architecture and Hardware Implementation [0.0]
TrIMは、入力の三角移動に基づく革新的なデータフローである。 TrIMは、最先端のシストリックアレイと比較して1桁のメモリアクセス数を削減できる。アーキテクチャは、毎秒453.6ギガオペレーションのピークスループットを達成する。
論文参考訳（メタデータ） (2024-08-05T10:18:00Z)
Efficient and accurate neural field reconstruction using resistive memory [52.68088466453264]
デジタルコンピュータにおける従来の信号再構成手法は、ソフトウェアとハードウェアの両方の課題に直面している。本稿では,スパース入力からの信号再構成のためのソフトウェア・ハードウェア協調最適化を用いた体系的アプローチを提案する。この研究は、AI駆動の信号復元技術を進歩させ、将来の効率的で堅牢な医療AIと3Dビジョンアプリケーションへの道を開く。
論文参考訳（メタデータ） (2024-04-15T09:33:09Z)
Full-Stack Optimization for CAM-Only DNN Inference [2.0837295518447934]
本稿では,3次重み付けニューラルネットワークと連想プロセッサのアルゴリズム最適化の組み合わせについて検討する。演算強度を低減し,APの畳み込みを最適化する新しいコンパイルフローを提案する。本研究では,イメージネット上でのResNet-18推論のエネルギー効率を,クロスバーメモリアクセラレータと比較して7.5倍向上させる。
論文参考訳（メタデータ） (2024-01-23T10:27:38Z)
RAMAN: A Re-configurable and Sparse tinyML Accelerator for Inference on Edge [1.8293684411977293]
エッジでのDeep Neural Network(DNN)ベースの推論は、これらの計算およびデータ集約アルゴリズムを低コストで低消費電力で実装する必要があるため、難しい。エッジ上のInfereNce用のRe-configurableおよびspArse smallML AcceleratorであるRAMANを紹介します。
論文参考訳（メタデータ） (2023-06-10T17:25:58Z)
Intelligence Processing Units Accelerate Neuromorphic Learning [52.952192990802345]
スパイキングニューラルネットワーク(SNN)は、エネルギー消費と遅延の観点から、桁違いに改善されている。我々は、カスタムSNN PythonパッケージsnnTorchのIPU最適化リリースを提示する。
論文参考訳（メタデータ） (2022-11-19T15:44:08Z)
GLEAM: Greedy Learning for Large-Scale Accelerated MRI Reconstruction [50.248694764703714]
アンロールされたニューラルネットワークは、最近最先端の加速MRI再構成を達成した。これらのネットワークは、物理ベースの一貫性とニューラルネットワークベースの正規化を交互に組み合わせることで、反復最適化アルゴリズムをアンロールする。我々は,高次元画像設定のための効率的なトレーニング戦略である加速度MRI再構成のためのグレディ・ラーニングを提案する。
論文参考訳（メタデータ） (2022-07-18T06:01:29Z)
NumS: Scalable Array Programming for the Cloud [82.827921577004]
タスクベース分散システム上でNumPyのような表現を最適化する配列プログラミングライブラリであるNumSを提案する。これはLoad Simulated Hierarchical Scheduling (LSHS)と呼ばれる新しいスケジューラによって実現される。 LSHSは、ネットワーク負荷を2倍減らし、メモリを4倍減らし、ロジスティック回帰問題において実行時間を10倍減らし、Rayの性能を向上させる。
論文参考訳（メタデータ） (2022-06-28T20:13:40Z)
SreaMRAK a Streaming Multi-Resolution Adaptive Kernel Algorithm [60.61943386819384]
既存のKRRの実装では、すべてのデータがメインメモリに格納される必要がある。 KRRのストリーミング版であるStreaMRAKを提案する。本稿では,2つの合成問題と2重振り子の軌道予測について紹介する。
論文参考訳（メタデータ） (2021-08-23T21:03:09Z)
Deep Neural Networks Based Weight Approximation and Computation Reuse for 2-D Image Classification [0.9507070656654631]
ディープニューラルネットワーク(DNN)は計算とメモリ集約である。本稿では,近似計算とデータ再利用手法を融合させ,DNNs性能を改善する新しい手法を提案する。 IoTエッジデバイスに適しており、メモリサイズ要件と必要なメモリアクセス数を削減します。
論文参考訳（メタデータ） (2021-04-28T10:16:53Z)
Deep Cellular Recurrent Network for Efficient Analysis of Time-Series Data with Spatial Information [52.635997570873194]
本研究では,空間情報を用いた複雑な多次元時系列データを処理するための新しいディープセルリカレントニューラルネットワーク(DCRNN)アーキテクチャを提案する。提案するアーキテクチャは,文献に比較して,学習可能なパラメータをかなり少なくしつつ,最先端の性能を実現している。
論文参考訳（メタデータ） (2021-01-12T20:08:18Z)
Robust High-dimensional Memory-augmented Neural Networks [13.82206983716435]
メモリ拡張ニューラルネットワークは、これらの問題を克服するために、明示的なメモリでニューラルネットワークを強化する。この明示的なメモリへのアクセスは、各個々のメモリエントリを含むソフト読み取りおよび書き込み操作を介して行われる。本稿では,高次元(HD)ベクトル上でのアナログインメモリ計算を行う明示メモリとして,計算メモリユニットを用いた頑健なアーキテクチャを提案する。
論文参考訳（メタデータ） (2020-10-05T12:01:56Z)
Sparse Systolic Tensor Array for Efficient CNN Hardware Acceleration [14.958793135751149]
モバイルデバイス上の畳み込みニューラルネットワーク(CNN)推論は、低精度(INT8)汎用行列乗算(GEMM)の効率的なハードウェアアクセラレーションを必要とする CNN推論のGEMMをさらに加速する一般的な手法であり、特に、構造的スパーシリティは予測可能な負荷分散と非常に低いインデックスオーバーヘッドの利点がある。ハードウェアの高利用を保ちながら、さまざまな分散レベルのサポートを提供する方法について、構造的疎結合で重要なアーキテクチャ上の課題に対処する。
論文参考訳（メタデータ） (2020-09-04T20:17:42Z)
One-step regression and classification with crosspoint resistive memory arrays [62.997667081978825]
高速で低エネルギーのコンピュータは、エッジでリアルタイム人工知能を実現するために要求されている。ワンステップ学習は、ボストンの住宅のコスト予測と、MNIST桁認識のための2層ニューラルネットワークのトレーニングによって支援される。結果は、クロスポイントアレイ内の物理計算、並列計算、アナログ計算のおかげで、1つの計算ステップで得られる。
論文参考訳（メタデータ） (2020-05-05T08:00:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。