論文の概要: YOCO: A Hybrid In-Memory Computing Architecture with 8-bit Sub-PetaOps/W In-Situ Multiply Arithmetic for Large-Scale AI
- arxiv url: http://arxiv.org/abs/2312.11836v3
- Date: Wed, 11 Jun 2025 11:19:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 06:35:01.341421
- Title: YOCO: A Hybrid In-Memory Computing Architecture with 8-bit Sub-PetaOps/W In-Situ Multiply Arithmetic for Large-Scale AI
- Title(参考訳): YOCO: 大規模AIのための8ビットサブペタOps/Wインサイト乗算算演算を備えたハイブリッドインメモリコンピューティングアーキテクチャ
- Authors: Zihao Xuan, Yuxuan Yang, Wei Xuan, Zijia Su, Song Chen, Yi Kang,
- Abstract要約: 本稿では、アナログインメモリコンピューティング(AiMC)の可能性を探り、YOCOと呼ばれる革新的な人工知能(AI)アクセラレーターアーキテクチャを導入する。
YOCOは計算効率とストレージ密度のバランスをとるためにハイブリッドのReRAM-SRAMメモリ構造を採用している。
3つのSOTAベースラインと比較すると、平均的なYOCOはエネルギー効率を最大3.9x-19.9x、スループットを最大6.8x-33.6x、CNN/トランスフォーマーモデルでは最大6.8x-33.6x向上する。
- 参考スコア(独自算出の注目度): 3.273396093948655
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we further explore the potential of analog in-memory computing (AiMC) and introduce an innovative artificial intelligence (AI) accelerator architecture named YOCO, featuring three key proposals: (1) YOCO proposes a novel 8-bit in-situ multiply arithmetic (IMA) achieving 123.8 TOPS/W energy-efficiency and 34.9 TOPS throughput through efficient charge-domain computation and timedomain accumulation mechanism. (2) YOCO employs a hybrid ReRAM-SRAM memory structure to balance computational efficiency and storage density. (3) YOCO tailors an IMC-friendly attention computing flow with an efficient pipeline to accelerate the inference of transformer-based AI models. Compared to three SOTA baselines, YOCO on average improves energy efficiency by up to 3.9x-19.9x and throughput by up to 6.8x-33.6x across 10 CNN/transformer models.
- Abstract(参考訳): 本稿では、アナログインメモリコンピューティング(AiMC)の可能性をさらに探求し、YOCOと呼ばれる革新的な人工知能(AI)アクセラレーターアーキテクチャを導入する。(1) YOCOが提案する新しい8ビット乗算演算(IMA)は、123.8TOPS/Wエネルギー効率と34.9TOPSスループットを効率的な電荷領域計算と時間領域蓄積機構によって実現している。
2) YOCOは計算効率と記憶密度のバランスをとるためにハイブリッドなReRAM-SRAMメモリ構造を採用している。
(3) YOCOは、トランスフォーマーベースのAIモデルの推論を加速するために、効率的なパイプラインを備えたIMCフレンドリーなアテンションコンピューティングフローを調整する。
3つのSOTAベースラインと比較すると、平均的なYOCOはエネルギー効率を最大3.9x-19.9x、スループットを最大6.8x-33.6x、CNN/トランスフォーマーモデルでは最大6.8x-33.6x向上する。
関連論文リスト
- Decoder-Hybrid-Decoder Architecture for Efficient Reasoning with Long Generation [129.45368843861917]
我々は、レイヤ間の効率的なメモリ共有のためのシンプルで効果的なメカニズムであるGated Memory Unit(GMU)を紹介した。
これは、GMUを組み込んでSambaベースのセルフデコーダからメモリ読み出し状態を共有するデコーダ・ハイブリッド・デコーダアーキテクチャである。
論文 参考訳(メタデータ) (2025-07-09T07:27:00Z) - EfficientLLM: Efficiency in Large Language Models [64.3537131208038]
大規模言語モデル(LLM)は大きな進歩を導いてきたが、その増加とコンテキストウィンドウは計算、エネルギー、金銭的コストを禁止している。
本稿では,新しいベンチマークであるEfficientLLMを紹介する。
論文 参考訳(メタデータ) (2025-05-20T02:27:08Z) - SANA 1.5: Efficient Scaling of Training-Time and Inference-Time Compute in Linear Diffusion Transformer [49.1761733723771]
本稿では,テキスト・画像生成における効率的なスケーリングを実現する線形拡散変換器であるSANA-1.5を提案する。
効率的なトレーニングスケーリング、モデルの深さ決定、推論時間スケーリングの3つの重要なイノベーションを紹介します。
これらの戦略により、SANA-1.5 は GenEval 上のテキスト計算画像アライメントスコア 0.81 を達成し、VILA-Judge による推論スケーリングにより、さらに 0.96 に改善できる。
論文 参考訳(メタデータ) (2025-01-30T15:31:48Z) - IMPLY-based Approximate Full Adders for Efficient Arithmetic Operations in Image Processing and Machine Learning [0.5497663232622965]
我々は2つのSAPPI(Serial APProximate IMPLY-based full adder)を提案する。
我々の設計では、正確なアルゴリズムと比較してステップ数を39%-41%削減し、エネルギー消費を39%-42%削減する。
提案手法は、MNISTデータセットでトレーニングされた畳み込みニューラルネットワーク(CNN)に適用した場合、最大296mJ(21%)の省エネと13億(20%)の計算ステップを削減できることを示す。
論文 参考訳(メタデータ) (2024-12-20T13:36:40Z) - FusionLLM: A Decentralized LLM Training System on Geo-distributed GPUs with Adaptive Compression [55.992528247880685]
分散トレーニングは、システム設計と効率に関する重要な課題に直面します。
大規模深層ニューラルネットワーク(DNN)のトレーニング用に設計・実装された分散トレーニングシステムFusionLLMを提案する。
本システムと手法は,収束性を確保しつつ,ベースライン法と比較して1.45~9.39倍の高速化を実現可能であることを示す。
論文 参考訳(メタデータ) (2024-10-16T16:13:19Z) - Approximate ADCs for In-Memory Computing [5.1793930906065775]
ディープラーニング(DL)アクセラレーターのためのメモリコンピューティング(IMC)アーキテクチャでは、エネルギー効率と高い並列行列ベクトル乗算(MVM)演算を利用する。
最近報告された設計では、MVMの結果を読み取るのに必要なADCが、計算能力の85%以上を消費し、またその領域を支配していることが明らかになっている。
本研究では,ICCコアの周辺認識設計を行い,そのオーバーヘッドを軽減する。
論文 参考訳(メタデータ) (2024-08-11T05:59:59Z) - A Pipelined Memristive Neural Network Analog-to-Digital Converter [0.24578723416255754]
本稿では,4ビットコンバータのパイプラインに基づくスケーラブルでモジュール化されたニューラルネットワークADCアーキテクチャを提案する。
8ビットパイプライン ADC は 0.18 LSB INL, 0.20 LSB DNL, 7.6 ENOB, 0.97 fJ/conv FOM を達成する。
論文 参考訳(メタデータ) (2024-06-04T10:51:12Z) - Efficient and accurate neural field reconstruction using resistive memory [52.68088466453264]
デジタルコンピュータにおける従来の信号再構成手法は、ソフトウェアとハードウェアの両方の課題に直面している。
本稿では,スパース入力からの信号再構成のためのソフトウェア・ハードウェア協調最適化を用いた体系的アプローチを提案する。
この研究は、AI駆動の信号復元技術を進歩させ、将来の効率的で堅牢な医療AIと3Dビジョンアプリケーションへの道を開く。
論文 参考訳(メタデータ) (2024-04-15T09:33:09Z) - Pruning for Improved ADC Efficiency in Crossbar-based Analog In-memory Accelerators [9.169425049927554]
クロスバー型アナログインメモリアーキテクチャはディープニューラルネットワーク(DNN)の高速化に魅力的である
クロスバー出力の通信にはアナログ・デジタル変換器(ADC)が必要である。
ADCは各クロスバー処理ユニットのエネルギーと面積の大部分を消費する。
ADC固有の非効率性を目標とするクロスバー調整プルーニングの動機付けを行う。
論文 参考訳(メタデータ) (2024-03-19T18:26:45Z) - Pruning random resistive memory for optimizing analogue AI [54.21621702814583]
AIモデルは、エネルギー消費と環境持続可能性に前例のない課題を提示する。
有望な解決策の1つは、アナログコンピューティングを再考することである。
ここでは、構造的塑性に着想を得たエッジプルーニングを用いたユニバーサルソリューション、ソフトウェア・ハードウエアの共設計について報告する。
論文 参考訳(メタデータ) (2023-11-13T08:59:01Z) - ADC/DAC-Free Analog Acceleration of Deep Neural Networks with Frequency
Transformation [2.7488316163114823]
本稿では,アナログ領域の周波数ベーステンソル変換を用いた周波数領域ニューラルネットワークのエネルギー効率向上手法を提案する。
提案手法は,変換行列のトレーニング可能なパラメータを不要にすることで,よりコンパクトなセルを実現する。
16$times$16のクロスバーで8ビット入力処理を行い,Watt当たりの1602テラ演算のエネルギー効率を実現する。
論文 参考訳(メタデータ) (2023-09-04T19:19:39Z) - Latency-aware Unified Dynamic Networks for Efficient Image Recognition [72.8951331472913]
LAUDNetは動的ネットワークの理論的および実用的な効率ギャップを橋渡しするフレームワークである。
3つの主要な動的パラダイム - 適応型計算、動的層スキップ、動的チャネルスキップ - を統合している。
これにより、V100,3090やTX2 GPUのようなプラットフォーム上で、ResNetのようなモデルの遅延を50%以上削減できる。
論文 参考訳(メタデータ) (2023-08-30T10:57:41Z) - Dynamic Decision Tree Ensembles for Energy-Efficient Inference on IoT
Edge Nodes [12.99136544903102]
ランダムフォレスト (RFs) やグラディエント・ブースティング (GBTs) のような決定木アンサンブルは、その複雑さが比較的低いため、この作業に特に適している。
本稿では、遅延/エネルギー目標と処理された入力の複雑さの両方に基づいて実行された木数を調整する動的アンサンブルの使用を提案する。
我々は、Pythonアンサンブルを最適化されたCコードに変換するツールを設計し、これらのアルゴリズムをマルチコアの低消費電力IoTデバイスにデプロイすることに重点を置いている。
論文 参考訳(メタデータ) (2023-06-16T11:59:18Z) - UNETR++: Delving into Efficient and Accurate 3D Medical Image Segmentation [93.88170217725805]
本稿では,高画質なセグメンテーションマスクと,パラメータ,計算コスト,推論速度の両面での効率性を提供するUNETR++という3次元医用画像セグメンテーション手法を提案する。
我々の設計の核となるのは、空間的およびチャネル的な識別的特徴を効率的に学習する、新しい効率的な対注意ブロック(EPA)の導入である。
Synapse, BTCV, ACDC, BRaTs, Decathlon-Lungの5つのベンチマークで評価した結果, 効率と精度の両面で, コントリビューションの有効性が示された。
論文 参考訳(メタデータ) (2022-12-08T18:59:57Z) - A 65nm 8b-Activation 8b-Weight SRAM-Based Charge-Domain Computing-in-Memory Macro Using A Fully-Parallel Analog Adder Network and A Single-ADC Interface [16.228299091691873]
コンピューティング・イン・メモリ(Computer-in-Memory, CiM)は、メモリ内の多重累積演算を可能にする、有望な緩和手法である。
この研究は、CIFAR-10データセットで88.6%の精度を示しながら、51.2GOPSのスループットと10.3TOPS/Wエネルギー効率を達成する。
論文 参考訳(メタデータ) (2022-11-23T07:52:10Z) - An Algorithm-Hardware Co-Optimized Framework for Accelerating N:M Sparse
Transformers [11.811907838840712]
一般のN:M空間パターンを利用して, フレキシブルかつ効率的にトランスフォーマーを高速化するアルゴリズム・ハードウェア協調最適化フレームワークを提案する。
我々は、N:Mスパーストランスをデプロイする際の大幅な高速化を実現するために、フレキシブルで効率的なハードウェアアーキテクチャ、すなわちSTAを提案する。
実験の結果, 他の方法と比較して, IDPを用いて生成したN:Mスパース変圧器は, トレーニング効率の高い精度で平均6.7%向上することがわかった。
論文 参考訳(メタデータ) (2022-08-12T04:51:49Z) - iELAS: An ELAS-Based Energy-Efficient Accelerator for Real-Time Stereo
Matching on FPGA Platform [21.435663827158564]
FPGAプラットフォーム上でのリアルタイムELASステレオマッチングのためのエネルギー効率の高いアーキテクチャを提案する。
当社のFPGA実現は、38.4xと3.32xのフレームレート改善、27.1xと1.13xのエネルギー効率改善を実現します。
論文 参考訳(メタデータ) (2021-04-11T21:22:54Z) - EdgeBERT: Sentence-Level Energy Optimizations for Latency-Aware
Multi-Task NLP Inference [82.1584439276834]
BERTのようなトランスフォーマーベースの言語モデルでは、自然言語処理(NLP)タスクの精度が大幅に向上する。
We present EdgeBERT, a in-deepth algorithm- hardware co-design for latency-aware energy optimization for multi-task NLP。
論文 参考訳(メタデータ) (2020-11-28T19:21:47Z) - Multi-Agent Reinforcement Learning in NOMA-aided UAV Networks for
Cellular Offloading [59.32570888309133]
複数の無人航空機(UAV)によるセルローディングのための新しい枠組みの提案
非直交多重アクセス(NOMA)技術は、無線ネットワークのスペクトル効率をさらに向上するために、各UAVに採用されている。
相互深いQ-network (MDQN) アルゴリズムは,UAVの最適3次元軌道と電力配分を共同で決定するために提案される。
論文 参考訳(メタデータ) (2020-10-18T20:22:05Z) - NOMA in UAV-aided cellular offloading: A machine learning approach [59.32570888309133]
複数の無人航空機(UAV)によるセルローディングのための新しい枠組みの提案
非直交多重アクセス(NOMA)技術は、無線ネットワークのスペクトル効率をさらに向上するために、各UAVに採用されている。
相互深いQ-network (MDQN) アルゴリズムは,UAVの最適3次元軌道と電力配分を共同で決定するために提案される。
論文 参考訳(メタデータ) (2020-10-18T17:38:48Z) - Systolic Tensor Array: An Efficient Structured-Sparse GEMM Accelerator
for Mobile CNN Inference [16.812184391068786]
モバイルデバイス上の畳み込みニューラルネットワーク(CNN)推論は、効率的なハードウェアアクセラレーションを必要とする。
systolic array (SA)は、処理要素(PE)のパイプライン化された2D配列である
CNN推論を特に最適化するために,従来のSAアーキテクチャの2つの重要な改善点について述べる。
論文 参考訳(メタデータ) (2020-05-16T20:47:56Z) - SmartExchange: Trading Higher-cost Memory Storage/Access for Lower-cost
Computation [97.78417228445883]
We present SmartExchange, a algorithm- hardware co-design framework for energy- efficient inference of Deep Neural Network (DNNs)。
そこで我々は,非零要素がすべてパワー・オブ・ツーである小さな基底行列と大きなスパース係数行列の積として,各重み行列を格納できる,特別に好ましいDNN重み構造を強制する新しいアルゴリズムを開発した。
さらに、SmartExchange強化重量をフル活用し、エネルギー効率と遅延性能の両方を改善するための専用のアクセラレータを設計する。
論文 参考訳(メタデータ) (2020-05-07T12:12:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。