論文の概要: Edge AI without Compromise: Efficient, Versatile and Accurate
Neurocomputing in Resistive Random-Access Memory
- arxiv url: http://arxiv.org/abs/2108.07879v1
- Date: Tue, 17 Aug 2021 21:08:51 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-19 23:48:52.377656
- Title: Edge AI without Compromise: Efficient, Versatile and Accurate
Neurocomputing in Resistive Random-Access Memory
- Title(参考訳): 競合のないエッジAI: 抵抗ランダムアクセシス記憶における効率よく、Versatileで正確なニューロ計算
- Authors: Weier Wan (1), Rajkumar Kubendran (2 and 5), Clemens Schaefer (4), S.
Burc Eryilmaz (1), Wenqiang Zhang (3), Dabin Wu (3), Stephen Deiss (2),
Priyanka Raina (1), He Qian (3), Bin Gao (3), Siddharth Joshi (4 and 2),
Huaqiang Wu (3), H.-S. Philip Wong (1), Gert Cauwenberghs (2) ((1) Stanford
University, (2) University of California San Diego, (3) Tsinghua University,
(4) University of Notre Dame, (5) University of Pittsburgh)
- Abstract要約: 我々は,RRAM CIMを用いた最初のマルチモーダルエッジAIチップであるNeuRRAMを提案する。
計算ビット精度の異なる先行技術よりも, 5 倍のエネルギー効率を 5 倍から 8 倍に向上することを示す。
この作業は、高度に効率的で再構成可能なエッジAIハードウェアプラットフォームを構築するための道を開くものだ。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Realizing today's cloud-level artificial intelligence functionalities
directly on devices distributed at the edge of the internet calls for edge
hardware capable of processing multiple modalities of sensory data (e.g. video,
audio) at unprecedented energy-efficiency. AI hardware architectures today
cannot meet the demand due to a fundamental "memory wall": data movement
between separate compute and memory units consumes large energy and incurs long
latency. Resistive random-access memory (RRAM) based compute-in-memory (CIM)
architectures promise to bring orders of magnitude energy-efficiency
improvement by performing computation directly within memory. However,
conventional approaches to CIM hardware design limit its functional flexibility
necessary for processing diverse AI workloads, and must overcome hardware
imperfections that degrade inference accuracy. Such trade-offs between
efficiency, versatility and accuracy cannot be addressed by isolated
improvements on any single level of the design. By co-optimizing across all
hierarchies of the design from algorithms and architecture to circuits and
devices, we present NeuRRAM - the first multimodal edge AI chip using RRAM CIM
to simultaneously deliver a high degree of versatility for diverse model
architectures, record energy-efficiency $5\times$ - $8\times$ better than prior
art across various computational bit-precisions, and inference accuracy
comparable to software models with 4-bit weights on all measured standard AI
benchmarks including accuracy of 99.0% on MNIST and 85.7% on CIFAR-10 image
classification, 84.7% accuracy on Google speech command recognition, and a 70%
reduction in image reconstruction error on a Bayesian image recovery task. This
work paves a way towards building highly efficient and reconfigurable edge AI
hardware platforms for the more demanding and heterogeneous AI applications of
the future.
- Abstract(参考訳): 今日のクラウドレベルの人工知能機能をインターネットの端で配布されているデバイスに直接実現することは、複数の感覚データ(例えば、)を処理できるエッジハードウェアを要求する。
ビデオ、オーディオ) 前例のないエネルギー効率。
計算ユニットとメモリユニット間のデータ移動は大きなエネルギーを消費し、長いレイテンシを発生させる。
抵抗的ランダムアクセスメモリ(RRAM)ベースのCIMアーキテクチャは、メモリ内で直接計算を実行することで、エネルギー効率の大幅な向上を約束する。
しかし、従来のCIMハードウェア設計アプローチでは、多様なAIワークロードを処理するのに必要な機能的柔軟性を制限し、推論精度を低下させるハードウェアの欠陥を克服しなければならない。
このような効率性、汎用性、正確性の間のトレードオフは、設計の単一レベルの独立した改善によって対処できない。
By co-optimizing across all hierarchies of the design from algorithms and architecture to circuits and devices, we present NeuRRAM - the first multimodal edge AI chip using RRAM CIM to simultaneously deliver a high degree of versatility for diverse model architectures, record energy-efficiency $5\times$ - $8\times$ better than prior art across various computational bit-precisions, and inference accuracy comparable to software models with 4-bit weights on all measured standard AI benchmarks including accuracy of 99.0% on MNIST and 85.7% on CIFAR-10 image classification, 84.7% accuracy on Google speech command recognition, and a 70% reduction in image reconstruction error on a Bayesian image recovery task.
この作業は、高度な効率的で再構成可能なエッジAIハードウェアプラットフォームを構築するための道を開いた。
関連論文リスト
- Efficient and accurate neural field reconstruction using resistive memory [52.68088466453264]
デジタルコンピュータにおける従来の信号再構成手法は、ソフトウェアとハードウェアの両方の課題に直面している。
本稿では,スパース入力からの信号再構成のためのソフトウェア・ハードウェア協調最適化を用いた体系的アプローチを提案する。
この研究は、AI駆動の信号復元技術を進歩させ、将来の効率的で堅牢な医療AIと3Dビジョンアプリケーションへの道を開く。
論文 参考訳(メタデータ) (2024-04-15T09:33:09Z) - Random resistive memory-based deep extreme point learning machine for
unified visual processing [67.51600474104171]
ハードウェア・ソフトウェア共同設計型, ランダム抵抗型メモリベース深部極点学習マシン(DEPLM)を提案する。
我々の共同設計システムは,従来のシステムと比較して,エネルギー効率の大幅な向上とトレーニングコストの削減を実現している。
論文 参考訳(メタデータ) (2023-12-14T09:46:16Z) - Pruning random resistive memory for optimizing analogue AI [54.21621702814583]
AIモデルは、エネルギー消費と環境持続可能性に前例のない課題を提示する。
有望な解決策の1つは、アナログコンピューティングを再考することである。
ここでは、構造的塑性に着想を得たエッジプルーニングを用いたユニバーサルソリューション、ソフトウェア・ハードウエアの共設計について報告する。
論文 参考訳(メタデータ) (2023-11-13T08:59:01Z) - Energy-efficient Task Adaptation for NLP Edge Inference Leveraging
Heterogeneous Memory Architectures [68.91874045918112]
Adapter-ALBERTは、様々なタスクにわたる最大データ再利用のための効率的なモデル最適化である。
検証されたNLPエッジアクセラレータ上でシミュレーションを行うことにより、モデルを不均一なオンチップメモリアーキテクチャにマッピングする利点を実証する。
論文 参考訳(メタデータ) (2023-03-25T14:40:59Z) - FPGA-optimized Hardware acceleration for Spiking Neural Networks [69.49429223251178]
本研究は,画像認識タスクに適用したオフライントレーニングによるSNN用ハードウェアアクセラレータの開発について述べる。
この設計はXilinx Artix-7 FPGAをターゲットにしており、利用可能なハードウェアリソースの40%を合計で使用している。
分類時間を3桁に短縮し、ソフトウェアと比較すると精度にわずか4.5%の影響を与えている。
論文 参考訳(メタデータ) (2022-01-18T13:59:22Z) - In-memory Implementation of On-chip Trainable and Scalable ANN for AI/ML
Applications [0.0]
本稿では,人工知能(AI)と機械学習(ML)アプリケーションを実現するための,ANNのためのインメモリコンピューティングアーキテクチャを提案する。
我々の新しいオンチップトレーニングとインメモリアーキテクチャは、プリチャージサイクル当たりの配列の複数行を同時にアクセスすることで、エネルギーコストを削減し、スループットを向上させる。
提案したアーキテクチャはIRISデータセットでトレーニングされ、以前の分類器と比較してMAC当たりのエネルギー効率が4,6倍に向上した。
論文 参考訳(メタデータ) (2020-05-19T15:36:39Z) - One-step regression and classification with crosspoint resistive memory
arrays [62.997667081978825]
高速で低エネルギーのコンピュータは、エッジでリアルタイム人工知能を実現するために要求されている。
ワンステップ学習は、ボストンの住宅のコスト予測と、MNIST桁認識のための2層ニューラルネットワークのトレーニングによって支援される。
結果は、クロスポイントアレイ内の物理計算、並列計算、アナログ計算のおかげで、1つの計算ステップで得られる。
論文 参考訳(メタデータ) (2020-05-05T08:00:07Z) - Near-Optimal Hardware Design for Convolutional Neural Networks [0.0]
本研究では,畳み込みニューラルネットワークのための新しい,特殊目的,高効率ハードウェアアーキテクチャを提案する。
提案アーキテクチャは,モデルの計算フローと同じ構造を持つ計算回路を設計することにより,乗算器の利用を最大化する。
提案するハードウェアアーキテクチャに基づく実装が,商用AI製品に適用されている。
論文 参考訳(メタデータ) (2020-02-06T09:15:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。