論文の概要: An All-Analog in-Memory Computing Architecture for Multi-Bit and
Large-Scale Vector Matrix Multiplication
- arxiv url: http://arxiv.org/abs/2312.11836v1
- Date: Tue, 19 Dec 2023 04:07:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2023-12-20 17:13:35.211833
- Title: An All-Analog in-Memory Computing Architecture for Multi-Bit and
Large-Scale Vector Matrix Multiplication
- Title(参考訳): マルチビット・大規模ベクトル行列乗算のための全アナログインメモリコンピューティングアーキテクチャ
- Authors: Zihao Xuan, Song Chen, Yi Kang
- Abstract要約: AiMCは、ニューラルネットワークアクセラレーションに優れた性能を示している。
計算ビット幅とスケールの増大に伴い、高速データ変換と長距離データルーティングは、AIMCシステムにおいて許容できないエネルギーと遅延のオーバーヘッドをもたらす。
AiDACという名前の革新的なAIMCアーキテクチャを3つの重要なコントリビューションで紹介する。
- 参考スコア(独自算出の注目度): 2.130721932419659
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Analog in-memory computing (AiMC) is an emerging technology that shows
fantastic performance superiority for neural network acceleration. However, as
the computational bit-width and scale increase, high-precision data conversion
and long-distance data routing will result in unacceptable energy and latency
overheads in the AiMC system. In this work, we focus on the potential of
in-charge computing and in-time interconnection and show an innovative AiMC
architecture, named AiDAC, with three key contributions: (1) AiDAC enhances
multibit computing efficiency and reduces data conversion times by grouping
capacitors technology; (2) AiDAC first adopts row drivers and column time
accumulators to achieve large-scale AiMC arrays integration while minimizing
the energy cost of data movements. (3) AiDAC is the first work to support
large-scale all-analog multibit vector-matrix multiplication (VMM) operations.
The evaluation shows that AiDAC maintains high-precision calculation (less than
0.79% total computing error) while also possessing excellent performance
features, such as high parallelism (up to 26.2TOPS), low latency (<20ns/VMM),
and high energy efficiency (123.8TOPS/W), for 8bits VMM with 1024 input
channels.
- Abstract(参考訳): analog in-memory computing (aimc) はニューラルネットワークの高速化に素晴らしい性能を示す新しい技術である。
しかし、計算ビット幅とスケールの増加に伴い、高精度データ変換と長距離データルーティングは、AIMCシステムにおいて許容できないエネルギーと遅延オーバーヘッドをもたらす。
本研究では,(1)AiDACがマルチビットコンピューティング効率を向上し,キャパシタ技術をグループ化することでデータ変換時間を短縮する,(2)AiDACはまず行ドライバと列時間アキュムレータを採用し,データ移動のエネルギーコストを最小化しながら,大規模AiMCアレイの統合を実現する,という3つの重要な貢献により,インチャージコンピューティングとインタイムインターコネクトの可能性に注目した。
(3) AiDACは, 大規模全アナログマルチビットベクトル行列乗算(VMM)演算をサポートする最初の研究である。
評価の結果、AiDACは高い並列性(26.2TOPSまで)、低レイテンシ(20ns/VMM)、高エネルギー効率(123.8TOPS/W)などの優れた性能を備え、1024の入力チャネルを持つ8ビットVMMに対して高速計算(0.79%の総計算誤差)を維持している。
関連論文リスト
- Decoder-Hybrid-Decoder Architecture for Efficient Reasoning with Long Generation [129.45368843861917]
我々は、レイヤ間の効率的なメモリ共有のためのシンプルで効果的なメカニズムであるGated Memory Unit(GMU)を紹介した。
これは、GMUを組み込んでSambaベースのセルフデコーダからメモリ読み出し状態を共有するデコーダ・ハイブリッド・デコーダアーキテクチャである。
論文 参考訳(メタデータ) (2025-07-09T07:27:00Z) - EfficientLLM: Efficiency in Large Language Models [64.3537131208038]
大規模言語モデル(LLM)は大きな進歩を導いてきたが、その増加とコンテキストウィンドウは計算、エネルギー、金銭的コストを禁止している。
本稿では,新しいベンチマークであるEfficientLLMを紹介する。
論文 参考訳(メタデータ) (2025-05-20T02:27:08Z) - SANA 1.5: Efficient Scaling of Training-Time and Inference-Time Compute in Linear Diffusion Transformer [49.1761733723771]
本稿では,テキスト・画像生成における効率的なスケーリングを実現する線形拡散変換器であるSANA-1.5を提案する。
効率的なトレーニングスケーリング、モデルの深さ決定、推論時間スケーリングの3つの重要なイノベーションを紹介します。
これらの戦略により、SANA-1.5 は GenEval 上のテキスト計算画像アライメントスコア 0.81 を達成し、VILA-Judge による推論スケーリングにより、さらに 0.96 に改善できる。
論文 参考訳(メタデータ) (2025-01-30T15:31:48Z) - IMPLY-based Approximate Full Adders for Efficient Arithmetic Operations in Image Processing and Machine Learning [0.5497663232622965]
我々は2つのSAPPI(Serial APProximate IMPLY-based full adder)を提案する。
我々の設計では、正確なアルゴリズムと比較してステップ数を39%-41%削減し、エネルギー消費を39%-42%削減する。
提案手法は、MNISTデータセットでトレーニングされた畳み込みニューラルネットワーク(CNN)に適用した場合、最大296mJ(21%)の省エネと13億(20%)の計算ステップを削減できることを示す。
論文 参考訳(メタデータ) (2024-12-20T13:36:40Z) - FusionLLM: A Decentralized LLM Training System on Geo-distributed GPUs with Adaptive Compression [55.992528247880685]
分散トレーニングは、システム設計と効率に関する重要な課題に直面します。
大規模深層ニューラルネットワーク(DNN)のトレーニング用に設計・実装された分散トレーニングシステムFusionLLMを提案する。
本システムと手法は,収束性を確保しつつ,ベースライン法と比較して1.45~9.39倍の高速化を実現可能であることを示す。
論文 参考訳(メタデータ) (2024-10-16T16:13:19Z) - Approximate ADCs for In-Memory Computing [5.1793930906065775]
ディープラーニング(DL)アクセラレーターのためのメモリコンピューティング(IMC)アーキテクチャでは、エネルギー効率と高い並列行列ベクトル乗算(MVM)演算を利用する。
最近報告された設計では、MVMの結果を読み取るのに必要なADCが、計算能力の85%以上を消費し、またその領域を支配していることが明らかになっている。
本研究では,ICCコアの周辺認識設計を行い,そのオーバーヘッドを軽減する。
論文 参考訳(メタデータ) (2024-08-11T05:59:59Z) - A Pipelined Memristive Neural Network Analog-to-Digital Converter [0.24578723416255754]
本稿では,4ビットコンバータのパイプラインに基づくスケーラブルでモジュール化されたニューラルネットワークADCアーキテクチャを提案する。
8ビットパイプライン ADC は 0.18 LSB INL, 0.20 LSB DNL, 7.6 ENOB, 0.97 fJ/conv FOM を達成する。
論文 参考訳(メタデータ) (2024-06-04T10:51:12Z) - Efficient and accurate neural field reconstruction using resistive memory [52.68088466453264]
デジタルコンピュータにおける従来の信号再構成手法は、ソフトウェアとハードウェアの両方の課題に直面している。
本稿では,スパース入力からの信号再構成のためのソフトウェア・ハードウェア協調最適化を用いた体系的アプローチを提案する。
この研究は、AI駆動の信号復元技術を進歩させ、将来の効率的で堅牢な医療AIと3Dビジョンアプリケーションへの道を開く。
論文 参考訳(メタデータ) (2024-04-15T09:33:09Z) - Pruning for Improved ADC Efficiency in Crossbar-based Analog In-memory Accelerators [9.169425049927554]
クロスバー型アナログインメモリアーキテクチャはディープニューラルネットワーク(DNN)の高速化に魅力的である
クロスバー出力の通信にはアナログ・デジタル変換器(ADC)が必要である。
ADCは各クロスバー処理ユニットのエネルギーと面積の大部分を消費する。
ADC固有の非効率性を目標とするクロスバー調整プルーニングの動機付けを行う。
論文 参考訳(メタデータ) (2024-03-19T18:26:45Z) - Pruning random resistive memory for optimizing analogue AI [54.21621702814583]
AIモデルは、エネルギー消費と環境持続可能性に前例のない課題を提示する。
有望な解決策の1つは、アナログコンピューティングを再考することである。
ここでは、構造的塑性に着想を得たエッジプルーニングを用いたユニバーサルソリューション、ソフトウェア・ハードウエアの共設計について報告する。
論文 参考訳(メタデータ) (2023-11-13T08:59:01Z) - ADC/DAC-Free Analog Acceleration of Deep Neural Networks with Frequency
Transformation [2.7488316163114823]
本稿では,アナログ領域の周波数ベーステンソル変換を用いた周波数領域ニューラルネットワークのエネルギー効率向上手法を提案する。
提案手法は,変換行列のトレーニング可能なパラメータを不要にすることで,よりコンパクトなセルを実現する。
16$times$16のクロスバーで8ビット入力処理を行い,Watt当たりの1602テラ演算のエネルギー効率を実現する。
論文 参考訳(メタデータ) (2023-09-04T19:19:39Z) - Latency-aware Unified Dynamic Networks for Efficient Image Recognition [72.8951331472913]
LAUDNetは動的ネットワークの理論的および実用的な効率ギャップを橋渡しするフレームワークである。
3つの主要な動的パラダイム - 適応型計算、動的層スキップ、動的チャネルスキップ - を統合している。
これにより、V100,3090やTX2 GPUのようなプラットフォーム上で、ResNetのようなモデルの遅延を50%以上削減できる。
論文 参考訳(メタデータ) (2023-08-30T10:57:41Z) - Dynamic Decision Tree Ensembles for Energy-Efficient Inference on IoT
Edge Nodes [12.99136544903102]
ランダムフォレスト (RFs) やグラディエント・ブースティング (GBTs) のような決定木アンサンブルは、その複雑さが比較的低いため、この作業に特に適している。
本稿では、遅延/エネルギー目標と処理された入力の複雑さの両方に基づいて実行された木数を調整する動的アンサンブルの使用を提案する。
我々は、Pythonアンサンブルを最適化されたCコードに変換するツールを設計し、これらのアルゴリズムをマルチコアの低消費電力IoTデバイスにデプロイすることに重点を置いている。
論文 参考訳(メタデータ) (2023-06-16T11:59:18Z) - UNETR++: Delving into Efficient and Accurate 3D Medical Image Segmentation [93.88170217725805]
本稿では,高画質なセグメンテーションマスクと,パラメータ,計算コスト,推論速度の両面での効率性を提供するUNETR++という3次元医用画像セグメンテーション手法を提案する。
我々の設計の核となるのは、空間的およびチャネル的な識別的特徴を効率的に学習する、新しい効率的な対注意ブロック(EPA)の導入である。
Synapse, BTCV, ACDC, BRaTs, Decathlon-Lungの5つのベンチマークで評価した結果, 効率と精度の両面で, コントリビューションの有効性が示された。
論文 参考訳(メタデータ) (2022-12-08T18:59:57Z) - A 65nm 8b-Activation 8b-Weight SRAM-Based Charge-Domain Computing-in-Memory Macro Using A Fully-Parallel Analog Adder Network and A Single-ADC Interface [16.228299091691873]
コンピューティング・イン・メモリ(Computer-in-Memory, CiM)は、メモリ内の多重累積演算を可能にする、有望な緩和手法である。
この研究は、CIFAR-10データセットで88.6%の精度を示しながら、51.2GOPSのスループットと10.3TOPS/Wエネルギー効率を達成する。
論文 参考訳(メタデータ) (2022-11-23T07:52:10Z) - An Algorithm-Hardware Co-Optimized Framework for Accelerating N:M Sparse
Transformers [11.811907838840712]
一般のN:M空間パターンを利用して, フレキシブルかつ効率的にトランスフォーマーを高速化するアルゴリズム・ハードウェア協調最適化フレームワークを提案する。
我々は、N:Mスパーストランスをデプロイする際の大幅な高速化を実現するために、フレキシブルで効率的なハードウェアアーキテクチャ、すなわちSTAを提案する。
実験の結果, 他の方法と比較して, IDPを用いて生成したN:Mスパース変圧器は, トレーニング効率の高い精度で平均6.7%向上することがわかった。
論文 参考訳(メタデータ) (2022-08-12T04:51:49Z) - iELAS: An ELAS-Based Energy-Efficient Accelerator for Real-Time Stereo
Matching on FPGA Platform [21.435663827158564]
FPGAプラットフォーム上でのリアルタイムELASステレオマッチングのためのエネルギー効率の高いアーキテクチャを提案する。
当社のFPGA実現は、38.4xと3.32xのフレームレート改善、27.1xと1.13xのエネルギー効率改善を実現します。
論文 参考訳(メタデータ) (2021-04-11T21:22:54Z) - EdgeBERT: Sentence-Level Energy Optimizations for Latency-Aware
Multi-Task NLP Inference [82.1584439276834]
BERTのようなトランスフォーマーベースの言語モデルでは、自然言語処理(NLP)タスクの精度が大幅に向上する。
We present EdgeBERT, a in-deepth algorithm- hardware co-design for latency-aware energy optimization for multi-task NLP。
論文 参考訳(メタデータ) (2020-11-28T19:21:47Z) - Multi-Agent Reinforcement Learning in NOMA-aided UAV Networks for
Cellular Offloading [59.32570888309133]
複数の無人航空機(UAV)によるセルローディングのための新しい枠組みの提案
非直交多重アクセス(NOMA)技術は、無線ネットワークのスペクトル効率をさらに向上するために、各UAVに採用されている。
相互深いQ-network (MDQN) アルゴリズムは,UAVの最適3次元軌道と電力配分を共同で決定するために提案される。
論文 参考訳(メタデータ) (2020-10-18T20:22:05Z) - NOMA in UAV-aided cellular offloading: A machine learning approach [59.32570888309133]
複数の無人航空機(UAV)によるセルローディングのための新しい枠組みの提案
非直交多重アクセス(NOMA)技術は、無線ネットワークのスペクトル効率をさらに向上するために、各UAVに採用されている。
相互深いQ-network (MDQN) アルゴリズムは,UAVの最適3次元軌道と電力配分を共同で決定するために提案される。
論文 参考訳(メタデータ) (2020-10-18T17:38:48Z) - Systolic Tensor Array: An Efficient Structured-Sparse GEMM Accelerator
for Mobile CNN Inference [16.812184391068786]
モバイルデバイス上の畳み込みニューラルネットワーク(CNN)推論は、効率的なハードウェアアクセラレーションを必要とする。
systolic array (SA)は、処理要素(PE)のパイプライン化された2D配列である
CNN推論を特に最適化するために,従来のSAアーキテクチャの2つの重要な改善点について述べる。
論文 参考訳(メタデータ) (2020-05-16T20:47:56Z) - SmartExchange: Trading Higher-cost Memory Storage/Access for Lower-cost
Computation [97.78417228445883]
We present SmartExchange, a algorithm- hardware co-design framework for energy- efficient inference of Deep Neural Network (DNNs)。
そこで我々は,非零要素がすべてパワー・オブ・ツーである小さな基底行列と大きなスパース係数行列の積として,各重み行列を格納できる,特別に好ましいDNN重み構造を強制する新しいアルゴリズムを開発した。
さらに、SmartExchange強化重量をフル活用し、エネルギー効率と遅延性能の両方を改善するための専用のアクセラレータを設計する。
論文 参考訳(メタデータ) (2020-05-07T12:12:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。