論文の概要: YOCO: A Hybrid In-Memory Computing Architecture with 8-bit Sub-PetaOps/W In-Situ Multiply Arithmetic for Large-Scale AI
- arxiv url: http://arxiv.org/abs/2312.11836v3
- Date: Wed, 11 Jun 2025 11:19:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 06:35:01.341421
- Title: YOCO: A Hybrid In-Memory Computing Architecture with 8-bit Sub-PetaOps/W In-Situ Multiply Arithmetic for Large-Scale AI
- Title(参考訳): YOCO: 大規模AIのための8ビットサブペタOps/Wインサイト乗算算演算を備えたハイブリッドインメモリコンピューティングアーキテクチャ
- Authors: Zihao Xuan, Yuxuan Yang, Wei Xuan, Zijia Su, Song Chen, Yi Kang,
- Abstract要約: 本稿では、アナログインメモリコンピューティング(AiMC)の可能性を探り、YOCOと呼ばれる革新的な人工知能(AI)アクセラレーターアーキテクチャを導入する。
YOCOは計算効率とストレージ密度のバランスをとるためにハイブリッドのReRAM-SRAMメモリ構造を採用している。
3つのSOTAベースラインと比較すると、平均的なYOCOはエネルギー効率を最大3.9x-19.9x、スループットを最大6.8x-33.6x、CNN/トランスフォーマーモデルでは最大6.8x-33.6x向上する。
- 参考スコア(独自算出の注目度): 3.273396093948655
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we further explore the potential of analog in-memory computing (AiMC) and introduce an innovative artificial intelligence (AI) accelerator architecture named YOCO, featuring three key proposals: (1) YOCO proposes a novel 8-bit in-situ multiply arithmetic (IMA) achieving 123.8 TOPS/W energy-efficiency and 34.9 TOPS throughput through efficient charge-domain computation and timedomain accumulation mechanism. (2) YOCO employs a hybrid ReRAM-SRAM memory structure to balance computational efficiency and storage density. (3) YOCO tailors an IMC-friendly attention computing flow with an efficient pipeline to accelerate the inference of transformer-based AI models. Compared to three SOTA baselines, YOCO on average improves energy efficiency by up to 3.9x-19.9x and throughput by up to 6.8x-33.6x across 10 CNN/transformer models.
- Abstract(参考訳): 本稿では、アナログインメモリコンピューティング(AiMC)の可能性をさらに探求し、YOCOと呼ばれる革新的な人工知能(AI)アクセラレーターアーキテクチャを導入する。(1) YOCOが提案する新しい8ビット乗算演算(IMA)は、123.8TOPS/Wエネルギー効率と34.9TOPSスループットを効率的な電荷領域計算と時間領域蓄積機構によって実現している。
2) YOCOは計算効率と記憶密度のバランスをとるためにハイブリッドなReRAM-SRAMメモリ構造を採用している。
(3) YOCOは、トランスフォーマーベースのAIモデルの推論を加速するために、効率的なパイプラインを備えたIMCフレンドリーなアテンションコンピューティングフローを調整する。
3つのSOTAベースラインと比較すると、平均的なYOCOはエネルギー効率を最大3.9x-19.9x、スループットを最大6.8x-33.6x、CNN/トランスフォーマーモデルでは最大6.8x-33.6x向上する。
関連論文リスト
- Approximate ADCs for In-Memory Computing [5.1793930906065775]
ディープラーニング(DL)アクセラレーターのためのメモリコンピューティング(IMC)アーキテクチャでは、エネルギー効率と高い並列行列ベクトル乗算(MVM)演算を利用する。
最近報告された設計では、MVMの結果を読み取るのに必要なADCが、計算能力の85%以上を消費し、またその領域を支配していることが明らかになっている。
本研究では,ICCコアの周辺認識設計を行い,そのオーバーヘッドを軽減する。
論文 参考訳(メタデータ) (2024-08-11T05:59:59Z) - A Pipelined Memristive Neural Network Analog-to-Digital Converter [0.24578723416255754]
本稿では,4ビットコンバータのパイプラインに基づくスケーラブルでモジュール化されたニューラルネットワークADCアーキテクチャを提案する。
8ビットパイプライン ADC は 0.18 LSB INL, 0.20 LSB DNL, 7.6 ENOB, 0.97 fJ/conv FOM を達成する。
論文 参考訳(メタデータ) (2024-06-04T10:51:12Z) - Efficient and accurate neural field reconstruction using resistive memory [52.68088466453264]
デジタルコンピュータにおける従来の信号再構成手法は、ソフトウェアとハードウェアの両方の課題に直面している。
本稿では,スパース入力からの信号再構成のためのソフトウェア・ハードウェア協調最適化を用いた体系的アプローチを提案する。
この研究は、AI駆動の信号復元技術を進歩させ、将来の効率的で堅牢な医療AIと3Dビジョンアプリケーションへの道を開く。
論文 参考訳(メタデータ) (2024-04-15T09:33:09Z) - Pruning for Improved ADC Efficiency in Crossbar-based Analog In-memory Accelerators [9.169425049927554]
クロスバー型アナログインメモリアーキテクチャはディープニューラルネットワーク(DNN)の高速化に魅力的である
クロスバー出力の通信にはアナログ・デジタル変換器(ADC)が必要である。
ADCは各クロスバー処理ユニットのエネルギーと面積の大部分を消費する。
ADC固有の非効率性を目標とするクロスバー調整プルーニングの動機付けを行う。
論文 参考訳(メタデータ) (2024-03-19T18:26:45Z) - ADC/DAC-Free Analog Acceleration of Deep Neural Networks with Frequency
Transformation [2.7488316163114823]
本稿では,アナログ領域の周波数ベーステンソル変換を用いた周波数領域ニューラルネットワークのエネルギー効率向上手法を提案する。
提案手法は,変換行列のトレーニング可能なパラメータを不要にすることで,よりコンパクトなセルを実現する。
16$times$16のクロスバーで8ビット入力処理を行い,Watt当たりの1602テラ演算のエネルギー効率を実現する。
論文 参考訳(メタデータ) (2023-09-04T19:19:39Z) - Latency-aware Unified Dynamic Networks for Efficient Image Recognition [72.8951331472913]
LAUDNetは動的ネットワークの理論的および実用的な効率ギャップを橋渡しするフレームワークである。
3つの主要な動的パラダイム - 適応型計算、動的層スキップ、動的チャネルスキップ - を統合している。
これにより、V100,3090やTX2 GPUのようなプラットフォーム上で、ResNetのようなモデルの遅延を50%以上削減できる。
論文 参考訳(メタデータ) (2023-08-30T10:57:41Z) - UNETR++: Delving into Efficient and Accurate 3D Medical Image Segmentation [93.88170217725805]
本稿では,高画質なセグメンテーションマスクと,パラメータ,計算コスト,推論速度の両面での効率性を提供するUNETR++という3次元医用画像セグメンテーション手法を提案する。
我々の設計の核となるのは、空間的およびチャネル的な識別的特徴を効率的に学習する、新しい効率的な対注意ブロック(EPA)の導入である。
Synapse, BTCV, ACDC, BRaTs, Decathlon-Lungの5つのベンチマークで評価した結果, 効率と精度の両面で, コントリビューションの有効性が示された。
論文 参考訳(メタデータ) (2022-12-08T18:59:57Z) - A 65nm 8b-Activation 8b-Weight SRAM-Based Charge-Domain Computing-in-Memory Macro Using A Fully-Parallel Analog Adder Network and A Single-ADC Interface [16.228299091691873]
コンピューティング・イン・メモリ(Computer-in-Memory, CiM)は、メモリ内の多重累積演算を可能にする、有望な緩和手法である。
この研究は、CIFAR-10データセットで88.6%の精度を示しながら、51.2GOPSのスループットと10.3TOPS/Wエネルギー効率を達成する。
論文 参考訳(メタデータ) (2022-11-23T07:52:10Z) - EdgeBERT: Sentence-Level Energy Optimizations for Latency-Aware
Multi-Task NLP Inference [82.1584439276834]
BERTのようなトランスフォーマーベースの言語モデルでは、自然言語処理(NLP)タスクの精度が大幅に向上する。
We present EdgeBERT, a in-deepth algorithm- hardware co-design for latency-aware energy optimization for multi-task NLP。
論文 参考訳(メタデータ) (2020-11-28T19:21:47Z) - Multi-Agent Reinforcement Learning in NOMA-aided UAV Networks for
Cellular Offloading [59.32570888309133]
複数の無人航空機(UAV)によるセルローディングのための新しい枠組みの提案
非直交多重アクセス(NOMA)技術は、無線ネットワークのスペクトル効率をさらに向上するために、各UAVに採用されている。
相互深いQ-network (MDQN) アルゴリズムは,UAVの最適3次元軌道と電力配分を共同で決定するために提案される。
論文 参考訳(メタデータ) (2020-10-18T20:22:05Z) - NOMA in UAV-aided cellular offloading: A machine learning approach [59.32570888309133]
複数の無人航空機(UAV)によるセルローディングのための新しい枠組みの提案
非直交多重アクセス(NOMA)技術は、無線ネットワークのスペクトル効率をさらに向上するために、各UAVに採用されている。
相互深いQ-network (MDQN) アルゴリズムは,UAVの最適3次元軌道と電力配分を共同で決定するために提案される。
論文 参考訳(メタデータ) (2020-10-18T17:38:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。