論文の概要: Breaking the Memory Wall for AI Chip with a New Dimension
- arxiv url: http://arxiv.org/abs/2009.13664v1
- Date: Mon, 28 Sep 2020 22:34:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-13 20:48:24.656109
- Title: Breaking the Memory Wall for AI Chip with a New Dimension
- Title(参考訳): 新しい次元でaiチップのメモリ壁を壊す
- Authors: Eugene Tam, Shenfei Jiang, Paul Duan, Shawn Meng, Yue Pang, Cayden
Huang, Yi Han, Jacke Xie, Yuanjun Cui, Jinsong Yu, Minggui Lu
- Abstract要約: ディープラーニングは、コンピュータビジョンや自然言語処理などのアプリケーションに人工知能(AI)が広く採用されている。
メモリ帯域幅は処理能力より遅れており、エネルギー消費が総所有コストを支配している。
私たちは、これらの3つの課題に対処するために、ニアメモリコンピューティングアーキテクチャを備えたサンライズと呼ばれる3DAIチップを提示します。
- 参考スコア(独自算出の注目度): 2.01683337112982
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements in deep learning have led to the widespread adoption of
artificial intelligence (AI) in applications such as computer vision and
natural language processing. As neural networks become deeper and larger, AI
modeling demands outstrip the capabilities of conventional chip architectures.
Memory bandwidth falls behind processing power. Energy consumption comes to
dominate the total cost of ownership. Currently, memory capacity is
insufficient to support the most advanced NLP models. In this work, we present
a 3D AI chip, called Sunrise, with near-memory computing architecture to
address these three challenges. This distributed, near-memory computing
architecture allows us to tear down the performance-limiting memory wall with
an abundance of data bandwidth. We achieve the same level of energy efficiency
on 40nm technology as competing chips on 7nm technology. By moving to similar
technologies as other AI chips, we project to achieve more than ten times the
energy efficiency, seven times the performance of the current state-of-the-art
chips, and twenty times of memory capacity as compared with the best chip in
each benchmark.
- Abstract(参考訳): 近年のディープラーニングの進歩により、コンピュータビジョンや自然言語処理などの応用に人工知能(AI)が広く採用されている。
ニューラルネットワークがより深く大きくなるにつれて、aiモデリングは従来のチップアーキテクチャの能力を上回っている。
メモリ帯域幅は処理能力に遅れる。
エネルギー消費は総所有コストを支配することになる。
現在、メモリ容量は最も高度なNLPモデルをサポートするには不十分である。
本稿では,これら3つの課題を解決するために,近メモリコンピューティングアーキテクチャを備えた3次元aiチップsunriseを提案する。
この分散ニアメモリコンピューティングアーキテクチャにより、データ帯域幅の豊富なパフォーマンス制限されたメモリウォールを分解することができます。
7nm技術における競合チップと同等のエネルギー効率を40nm技術で達成する。
他のaiチップと同じような技術に移行することで、我々は、エネルギー効率の10倍以上、現在の最先端チップのパフォーマンスの7倍、各ベンチマークの最高チップの20倍のメモリ容量を達成することを計画しています。
関連論文リスト
- Random resistive memory-based deep extreme point learning machine for
unified visual processing [67.51600474104171]
ハードウェア・ソフトウェア共同設計型, ランダム抵抗型メモリベース深部極点学習マシン(DEPLM)を提案する。
我々の共同設計システムは,従来のシステムと比較して,エネルギー効率の大幅な向上とトレーニングコストの削減を実現している。
論文 参考訳(メタデータ) (2023-12-14T09:46:16Z) - Pruning random resistive memory for optimizing analogue AI [54.21621702814583]
AIモデルは、エネルギー消費と環境持続可能性に前例のない課題を提示する。
有望な解決策の1つは、アナログコンピューティングを再考することである。
ここでは、構造的塑性に着想を得たエッジプルーニングを用いたユニバーサルソリューション、ソフトウェア・ハードウエアの共設計について報告する。
論文 参考訳(メタデータ) (2023-11-13T08:59:01Z) - Harnessing Manycore Processors with Distributed Memory for Accelerated
Training of Sparse and Recurrent Models [43.1773057439246]
現在のAIトレーニングインフラストラクチャは、単一の命令多重データ(SIMD)とシストリック配列アーキテクチャによって支配されている。
分散ローカルメモリを用いた大規模並列多重命令型マルチデータアーキテクチャにおけるスパース・リカレントモデルトレーニングについて検討する。
論文 参考訳(メタデータ) (2023-11-07T23:18:35Z) - A Co-design view of Compute in-Memory with Non-Volatile Elements for
Neural Networks [12.042322495445196]
次世代のコンピューティングハードウェアにおいて,コンピュート・イン・メモリがいかに重要な役割を果たすかを論じる。
非揮発性メモリベースのクロスバーアーキテクチャは、アナログプロセスを使用して行列ベクトル乗算演算を並列化するエンジンの心臓を形成する。
クロスバーアーキテクチャは、時にはニューロモルフィックアプローチと呼ばれ、将来のコンピュータにおいて重要なハードウェア要素となる。
論文 参考訳(メタデータ) (2022-06-03T15:59:46Z) - FPGA-optimized Hardware acceleration for Spiking Neural Networks [69.49429223251178]
本研究は,画像認識タスクに適用したオフライントレーニングによるSNN用ハードウェアアクセラレータの開発について述べる。
この設計はXilinx Artix-7 FPGAをターゲットにしており、利用可能なハードウェアリソースの40%を合計で使用している。
分類時間を3桁に短縮し、ソフトウェアと比較すると精度にわずか4.5%の影響を与えている。
論文 参考訳(メタデータ) (2022-01-18T13:59:22Z) - Synapse Compression for Event-Based Convolutional-Neural-Network
Accelerators [0.4359525715551522]
シナプス接続のための大きなメモリ要件は、現代の畳み込みニューラルネットワーク(CNN)の実行のためのショートッパーである
この作業は、シナプスメモリ要求を数千回圧縮する軽量なハードウェアスキームを提供することによって、この障害を克服する。
12nm技術におけるシリコン実装は、この技術がシステムの実装コストをわずか2%向上させることを示している。
論文 参考訳(メタデータ) (2021-12-13T21:14:35Z) - M6-10T: A Sharing-Delinking Paradigm for Efficient Multi-Trillion
Parameter Pretraining [55.16088793437898]
極端なモデルのトレーニングには大量の計算とメモリフットプリントが必要です。
本稿では,高メモリフットプリント要求大モデルのための簡単なトレーニング戦略"Pseudo-to-Real"を提案する。
論文 参考訳(メタデータ) (2021-10-08T04:24:51Z) - Edge AI without Compromise: Efficient, Versatile and Accurate
Neurocomputing in Resistive Random-Access Memory [0.0]
我々は,RRAM CIMを用いた最初のマルチモーダルエッジAIチップであるNeuRRAMを提案する。
計算ビット精度の異なる先行技術よりも, 5 倍のエネルギー効率を 5 倍から 8 倍に向上することを示す。
この作業は、高度に効率的で再構成可能なエッジAIハードウェアプラットフォームを構築するための道を開くものだ。
論文 参考訳(メタデータ) (2021-08-17T21:08:51Z) - Optimizing Memory Placement using Evolutionary Graph Reinforcement
Learning [56.83172249278467]
大規模検索空間を対象とした進化グラフ強化学習(EGRL)を提案する。
我々は、推論のために、Intel NNP-Iチップ上で、我々のアプローチを直接訓練し、検証する。
また,NNP-Iコンパイラと比較して28~78%の高速化を実現している。
論文 参考訳(メタデータ) (2020-07-14T18:50:12Z) - In-memory Implementation of On-chip Trainable and Scalable ANN for AI/ML
Applications [0.0]
本稿では,人工知能(AI)と機械学習(ML)アプリケーションを実現するための,ANNのためのインメモリコンピューティングアーキテクチャを提案する。
我々の新しいオンチップトレーニングとインメモリアーキテクチャは、プリチャージサイクル当たりの配列の複数行を同時にアクセスすることで、エネルギーコストを削減し、スループットを向上させる。
提案したアーキテクチャはIRISデータセットでトレーニングされ、以前の分類器と比較してMAC当たりのエネルギー効率が4,6倍に向上した。
論文 参考訳(メタデータ) (2020-05-19T15:36:39Z) - One-step regression and classification with crosspoint resistive memory
arrays [62.997667081978825]
高速で低エネルギーのコンピュータは、エッジでリアルタイム人工知能を実現するために要求されている。
ワンステップ学習は、ボストンの住宅のコスト予測と、MNIST桁認識のための2層ニューラルネットワークのトレーニングによって支援される。
結果は、クロスポイントアレイ内の物理計算、並列計算、アナログ計算のおかげで、1つの計算ステップで得られる。
論文 参考訳(メタデータ) (2020-05-05T08:00:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。