論文の概要: HiMA: A Fast and Scalable History-based Memory Access Engine for
Differentiable Neural Computer
- arxiv url: http://arxiv.org/abs/2202.07275v1
- Date: Tue, 15 Feb 2022 09:35:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-16 14:25:50.504675
- Title: HiMA: A Fast and Scalable History-based Memory Access Engine for
Differentiable Neural Computer
- Title(参考訳): HiMA: 微分可能なニューラルネットワークのための高速かつスケーラブルな履歴ベースのメモリアクセスエンジン
- Authors: Yaoyu Tao, Zhengya Zhang
- Abstract要約: タイルに分散メモリを備えたタイル型履歴ベースメモリアクセスエンジンであるHiMAについて述べる。
HiMAはマルチモードネットワークオンチップ(NoC)を導入し、通信遅延の低減とスケーラビリティの向上を実現している。
シミュレーションにより、DNCとDNC-Dを走らせるHiMAは6.47倍と39.1倍の速度、22.8倍と164.3倍の面積効率、6.1倍と61.2倍のエネルギー効率を示す。
- 参考スコア(独自算出の注目度): 0.20305676256390928
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Memory-augmented neural networks (MANNs) provide better inference performance
in many tasks with the help of an external memory. The recently developed
differentiable neural computer (DNC) is a MANN that has been shown to
outperform in representing complicated data structures and learning long-term
dependencies. DNC's higher performance is derived from new history-based
attention mechanisms in addition to the previously used content-based attention
mechanisms. History-based mechanisms require a variety of new compute
primitives and state memories, which are not supported by existing neural
network (NN) or MANN accelerators. We present HiMA, a tiled, history-based
memory access engine with distributed memories in tiles. HiMA incorporates a
multi-mode network-on-chip (NoC) to reduce the communication latency and
improve scalability. An optimal submatrix-wise memory partition strategy is
applied to reduce the amount of NoC traffic; and a two-stage usage sort method
leverages distributed tiles to improve computation speed. To make HiMA
fundamentally scalable, we create a distributed version of DNC called DNC-D to
allow almost all memory operations to be applied to local memories with
trainable weighted summation to produce the global memory output. Two
approximation techniques, usage skimming and softmax approximation, are
proposed to further enhance hardware efficiency. HiMA prototypes are created in
RTL and synthesized in a 40nm technology. By simulations, HiMA running DNC and
DNC-D demonstrates 6.47x and 39.1x higher speed, 22.8x and 164.3x better area
efficiency, and 6.1x and 61.2x better energy efficiency over the
state-of-the-art MANN accelerator. Compared to an Nvidia 3080Ti GPU, HiMA
demonstrates speedup by up to 437x and 2,646x when running DNC and DNC-D,
respectively.
- Abstract(参考訳): memory-augmented neural network (manns)は、外部メモリの助けを借りて、多くのタスクにおいてより良い推論性能を提供する。
最近開発された微分可能ニューラルネットワーク(dnc)は、複雑なデータ構造の表現や長期的な依存関係の学習において優れていることが示されている。
DNCのハイパフォーマンスは、以前使用されていたコンテンツベースのアテンションメカニズムに加えて、新しい履歴ベースのアテンションメカニズムに由来する。
履歴ベースのメカニズムは、既存のニューラルネットワーク(NN)やMANNアクセラレータがサポートしていない、さまざまな新しい計算プリミティブとステートメモリを必要とする。
タイルに分散メモリを備えたタイル型履歴ベースメモリアクセスエンジンであるHiMAについて述べる。
HiMAはマルチモードネットワークオンチップ(NoC)を導入し、通信遅延を低減し、スケーラビリティを向上させる。
最適部分行列メモリ分割戦略を適用して、NoCトラフィックの量を削減し、2段階の利用ソート法では、分散タイルを活用して計算速度を向上する。
HiMAを根本的にスケーラブルにするために、DNC-Dと呼ばれる分散バージョンのDNCを作成し、ほとんどすべてのメモリ操作をローカルメモリに適用し、トレーニング可能な重み付け和でグローバルメモリ出力を生成する。
ハードウェア効率をより高めるために,2つの近似手法,使用法スキミングとソフトマックス近似を提案する。
HiMAのプロトタイプはRTLで作られ、40nmで合成される。
シミュレーションにより、DNCとDNC-Dを走らせるHiMAは6.47倍と39.1倍の速度、22.8倍と164.3倍の面積効率、そして6.1倍と61.2倍のエネルギー効率を示す。
Nvidia 3080Ti GPUと比較して、HiMAは、それぞれDNCとDNC-Dを実行する場合、最大437倍と2,646倍のスピードアップを示す。
関連論文リスト
- Dynamic neural network with memristive CIM and CAM for 2D and 3D vision [57.6208980140268]
本稿では,memristor を用いた意味記憶に基づく動的ニューラルネットワーク (DNN) を提案する。
ネットワークは、受信したデータとセマンティックベクターとして格納された過去の経験を関連付ける。
MNISTとModelNetのデータセットから画像と3Dポイントを分類するために、ResNetとPointNet++の40nmのmemristorマクロを用いて、我々の共同設計を検証する。
論文 参考訳(メタデータ) (2024-07-12T04:55:57Z) - OPIMA: Optical Processing-In-Memory for Convolutional Neural Network Acceleration [5.0389804644646174]
我々は,処理インメモリ(PIM)ベースの機械学習アクセラレータであるOPIMAを紹介する。
PIMは、内部データ移動のボトルネックのため、高いスループットとエネルギー効率を達成するのに苦労している。
我々は,OPIMAのスループットが2.98倍,エネルギー効率が137倍であることを示す。
論文 参考訳(メタデータ) (2024-07-11T06:12:04Z) - Efficient and accurate neural field reconstruction using resistive memory [52.68088466453264]
デジタルコンピュータにおける従来の信号再構成手法は、ソフトウェアとハードウェアの両方の課題に直面している。
本稿では,スパース入力からの信号再構成のためのソフトウェア・ハードウェア協調最適化を用いた体系的アプローチを提案する。
この研究は、AI駆動の信号復元技術を進歩させ、将来の効率的で堅牢な医療AIと3Dビジョンアプリケーションへの道を開く。
論文 参考訳(メタデータ) (2024-04-15T09:33:09Z) - Resistive Memory-based Neural Differential Equation Solver for Score-based Diffusion Model [55.116403765330084]
スコアベースの拡散のような現在のAIGC法は、迅速性と効率性の点で依然として不足している。
スコアベース拡散のための時間連続型およびアナログ型インメモリ型ニューラル微分方程式解法を提案する。
我々は180nmの抵抗型メモリインメモリ・コンピューティング・マクロを用いて,我々の解を実験的に検証した。
論文 参考訳(メタデータ) (2024-04-08T16:34:35Z) - Pruning random resistive memory for optimizing analogue AI [54.21621702814583]
AIモデルは、エネルギー消費と環境持続可能性に前例のない課題を提示する。
有望な解決策の1つは、アナログコンピューティングを再考することである。
ここでは、構造的塑性に着想を得たエッジプルーニングを用いたユニバーサルソリューション、ソフトウェア・ハードウエアの共設計について報告する。
論文 参考訳(メタデータ) (2023-11-13T08:59:01Z) - DAISM: Digital Approximate In-SRAM Multiplier-based Accelerator for DNN
Training and Inference [4.718504401468233]
PIMソリューションは、まだ成熟していない新しいメモリ技術か、パフォーマンス上のオーバーヘッドとスケーラビリティの問題のあるビットシリアル計算に依存している。
本稿では,従来のメモリを用いてビット並列計算を行い,複数のワードラインのアクティベーションを利用する,SRAM内デジタル乗算器を提案する。
次に、この乗算器を利用したアーキテクチャであるDAISMを導入し、SOTAと比較して最大2桁高い面積効率を実現し、競争エネルギー効率を向上する。
論文 参考訳(メタデータ) (2023-05-12T10:58:21Z) - Boosting Mobile CNN Inference through Semantic Memory [12.45440733435801]
デバイス上のCNN推論を改善するためのセマンティックメモリ設計を開発する。
SMTMは、関心のあるオブジェクトの長いテール分布を利用するために階層型メモリアーキテクチャを採用している。
標準的なアプローチ(最大2倍)や以前のキャッシュ設計(最大1.5倍)よりもモデル推論を大幅に高速化し、精度の低下を許容できる。
論文 参考訳(メタデータ) (2021-12-05T18:18:31Z) - MCUNetV2: Memory-Efficient Patch-based Inference for Tiny Deep Learning [72.80896338009579]
メモリボトルネックは畳み込みニューラルネットワーク(CNN)の設計における不均衡なメモリ分布に起因する。
本稿では,ピークメモリを大幅に削減するパッチ・バイ・パッチ・推論スケジューリングを提案する。
ニューラルアーキテクチャサーチによるプロセスを自動化し、ニューラルアーキテクチャと推論スケジューリングを共同で最適化し、MCUNetV2に導いた。
論文 参考訳(メタデータ) (2021-10-28T17:58:45Z) - Memory-Augmented Deep Unfolding Network for Compressive Sensing [7.123516761504439]
メモリ拡張Deep Unfolding Network (MADUN) は、切り捨てられた最適化手法をディープニューラルネットワークにマッピングするために提案されている。
我々はMADUNが既存の最先端手法よりも大きなマージンで優れていることを示す。
論文 参考訳(メタデータ) (2021-10-19T07:03:12Z) - Efficiency-driven Hardware Optimization for Adversarially Robust Neural
Networks [3.125321230840342]
効率性の高いハードウェア最適化を通じて、Deep Neural Networks(DNN)の対比ロバスト性に対処する方法に焦点を当てます。
そのようなアプローチの1つは、低電力運転をもたらす供給スケーリング(Vdd)を可能にするハイブリッド6T-8TセルによるおよそのデジタルCMOSメモリです。
別のメモリ最適化アプローチは、低エネルギーと面積の要件でマトリックス乗算(MVM)を効率的に実行する記念的なクロスバーの作成を含む。
論文 参考訳(メタデータ) (2021-05-09T19:26:25Z) - Optimizing Memory Placement using Evolutionary Graph Reinforcement
Learning [56.83172249278467]
大規模検索空間を対象とした進化グラフ強化学習(EGRL)を提案する。
我々は、推論のために、Intel NNP-Iチップ上で、我々のアプローチを直接訓練し、検証する。
また,NNP-Iコンパイラと比較して28~78%の高速化を実現している。
論文 参考訳(メタデータ) (2020-07-14T18:50:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。