論文の概要: DS-CIM: Digital Stochastic Computing-In-Memory Featuring Accurate OR-Accumulation via Sample Region Remapping for Edge AI Models
- arxiv url: http://arxiv.org/abs/2601.06724v1
- Date: Sat, 10 Jan 2026 23:56:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-13 19:08:00.952849
- Title: DS-CIM: Digital Stochastic Computing-In-Memory Featuring Accurate OR-Accumulation via Sample Region Remapping for Edge AI Models
- Title(参考訳): DS-CIM:エッジAIモデルのためのサンプルリージョンリマッピングによるデジタル確率コンピューティング-インメモリ機能、正確なOR-アキュレーション
- Authors: Kunming Shao, Liang Zhao, Jiangnan Yu, Zhipeng Liao, Xiaomeng Wang, Yi Zou, Tim Kwang-Ting Cheng, Chi-Ying Tsui,
- Abstract要約: 本稿では,高い精度と効率を実現するデジタルCIM(DS-CIM)アーキテクチャを提案する。
データ表現を変更することで、コンパクトで符号のないORベースの回路に乗算累積(MAC)を実装する。
我々のコア戦略である2Dの共有ランダム数生成器(PRNG)は、単一サイクルの排他的アクティベーションによりORゲート衝突を排除します。
- 参考スコア(独自算出の注目度): 8.92683306412944
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Stochastic computing (SC) offers hardware simplicity but suffers from low throughput, while high-throughput Digital Computing-in-Memory (DCIM) is bottlenecked by costly adder logic for matrix-vector multiplication (MVM). To address this trade-off, this paper introduces a digital stochastic CIM (DS-CIM) architecture that achieves both high accuracy and efficiency. We implement signed multiply-accumulation (MAC) in a compact, unsigned OR-based circuit by modifying the data representation. Throughput is enhanced by replicating this low-cost circuit 64 times with only a 1x area increase. Our core strategy, a shared Pseudo Random Number Generator (PRNG) with 2D partitioning, enables single-cycle mutually exclusive activation to eliminate OR-gate collisions. We also resolve the 1s saturation issue via stochastic process analysis and data remapping, significantly improving accuracy and resilience to input sparsity. Our high-accuracy DS-CIM1 variant achieves 94.45% accuracy for INT8 ResNet18 on CIFAR-10 with a root-mean-squared error (RMSE) of just 0.74%. Meanwhile, our high-efficiency DS-CIM2 variant attains an energy efficiency of 3566.1 TOPS/W and an area efficiency of 363.7 TOPS/mm^2, while maintaining a low RMSE of 3.81%. The DS-CIM capability with larger models is further demonstrated through experiments with INT8 ResNet50 on ImageNet and the FP8 LLaMA-7B model.
- Abstract(参考訳): Stochastic Computing (SC) はハードウェアの単純さを提供するが、低スループットに悩まされる一方、高スループットのDigital Computing-in-Memory (DCIM) は、MVM (Matrix-vector multiplication) のための高価な加算論理によってボトルネックとなる。
このトレードオフに対処するために,高い精度と効率を実現するデジタル確率CIM(DS-CIM)アーキテクチャを提案する。
データ表現を変更することで,符号付き乗算蓄積(MAC)をコンパクトなORベース回路に実装する。
この低コスト回路64回を1倍の面積増加で複製することにより、スループットを向上させる。
我々のコア戦略である2次元分割による擬似乱数生成器(PRNG)は、単一サイクルの排他的活性化を可能にし、ORゲート衝突を排除します。
また,確率的プロセス解析とデータ再マッピングにより1s飽和問題を解消し,入力空間に対する精度とレジリエンスを著しく向上する。
我々の高精度DS-CIM1は、CIFAR-10上のINT8 ResNet18の94.45%の精度を達成し、ルート平均二乗誤差(RMSE)はわずか0.74%である。
一方,高効率DS-CIM2はエネルギー効率3566.1 TOPS/W,面積効率363.7 TOPS/mm^2を実現し,低RMSE3.81%を維持した。
より大きなモデルを持つDS-CIM機能は、ImageNet上のINT8 ResNet50とFP8 LLaMA-7Bモデルでの実験によってさらに実証される。
関連論文リスト
- Flow-GRPO: Training Flow Matching Models via Online RL [80.62659379624867]
本稿では,オンライン政策強化学習をフローマッチングモデルに統合する最初の方法であるFlow-GRPOを提案する。
提案手法では,(1)決定論的正規微分方程式を同値な微分方程式に変換するODE-to-SDE変換と,(2)推論ステップの数を維持しながらトレーニングの段階を短縮するDenoising Reduction戦略の2つの主要な戦略を用いる。
論文 参考訳(メタデータ) (2025-05-08T17:58:45Z) - Column-wise Quantization of Weights and Partial Sums for Accurate and Efficient Compute-In-Memory Accelerators [7.728820930581886]
CIMはディープニューラルネットワーク(DNN)を実装するための効率的な方法であるが、かなりのオーバーヘッドに悩まされている。
低精度のADCは、このオーバーヘッドを削減できるが、部分的なサム量子化誤差による精度低下をもたらす。
この研究は、重みと部分サム量子化の粒度をカラム単位で整列させることによって、これらの課題に対処する。
論文 参考訳(メタデータ) (2025-02-11T05:32:14Z) - IMAGINE: An 8-to-1b 22nm FD-SOI Compute-In-Memory CNN Accelerator With an End-to-End Analog Charge-Based 0.15-8POPS/W Macro Featuring Distribution-Aware Data Reshaping [0.6071203743728119]
作業負荷適応型1-to-8b CIM-CNNアクセラレータであるIMAGINEを22nm FD-SOIで紹介する。
1152x256のエンドツーエンドのチャージベースマクロと、パワーハングリーDACを回避する入力シリアル、ウェイトパラレルの蓄積に基づくマルチビットDPを導入している。
測定結果は、MNISTとCIFAR-10の競争力を持つ、0.3/0.6Vで40TOPS/Wの8b系レベルのエネルギー効率を示す。
論文 参考訳(メタデータ) (2024-12-27T17:18:15Z) - SDPose: Tokenized Pose Estimation via Circulation-Guide Self-Distillation [53.675725490807615]
SDPoseは小型変圧器モデルの性能向上のための新しい自己蒸留法である。
SDPose-Tは4.4Mパラメータと1.8 GFLOPを持つ69.7%のmAPを取得し、SDPose-S-V2はMSCOCO検証データセット上で73.5%のmAPを取得する。
論文 参考訳(メタデータ) (2024-04-04T15:23:14Z) - Pruning random resistive memory for optimizing analogue AI [54.21621702814583]
AIモデルは、エネルギー消費と環境持続可能性に前例のない課題を提示する。
有望な解決策の1つは、アナログコンピューティングを再考することである。
ここでは、構造的塑性に着想を得たエッジプルーニングを用いたユニバーサルソリューション、ソフトウェア・ハードウエアの共設計について報告する。
論文 参考訳(メタデータ) (2023-11-13T08:59:01Z) - AnalogNets: ML-HW Co-Design of Noise-robust TinyML Models and Always-On
Analog Compute-in-Memory Accelerator [50.31646817567764]
本稿では,キーワードスポッティング (KWS) と視覚覚醒語 (VWW) を常用するTinyMLモデルについて述べる。
アナログ非イデオロギーに面した精度を維持するため、包括的学習手法を詳述する。
また、プログラム可能な最小領域位相変化メモリ(PCM)アナログCiMアクセラレータであるAON-CiMについて述べる。
論文 参考訳(メタデータ) (2021-11-10T10:24:46Z) - SIMDive: Approximate SIMD Soft Multiplier-Divider for FPGAs with Tunable
Accuracy [3.4154033825543055]
本稿では,新しい乗算器とチューナブルな分割器に基づくSIMDアーキテクチャを初めて提示する。
提案したハイブリッドアーキテクチャはMitchellのアルゴリズムを実装し、8ビットから32ビットの精度変数をサポートする。
論文 参考訳(メタデータ) (2020-11-02T17:40:44Z) - An Accurate EEGNet-based Motor-Imagery Brain-Computer Interface for
Low-Power Edge Computing [13.266626571886354]
本稿では,MI-BCI(MI-BCI)の精度と堅牢性を示す。
EEGNetに基づく新しいモデルでは、低消費電力マイクロコントローラユニット(MCU)のメモリフットプリントと計算資源の要件が一致している。
スケールされたモデルは、最小モデルを操作するために101msと4.28mJを消費する商用のCortex-M4F MCUにデプロイされ、中型モデルでは44msと18.1mJのCortex-M7にデプロイされる。
論文 参考訳(メタデータ) (2020-03-31T19:52:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。