論文の概要: A Fast and Energy-Efficient Latch-Based Memristive Analog Content-Addressable Memory
- arxiv url: http://arxiv.org/abs/2605.11847v1
- Date: Tue, 12 May 2026 09:30:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 21:48:56.757838
- Title: A Fast and Energy-Efficient Latch-Based Memristive Analog Content-Addressable Memory
- Title(参考訳): 高速かつ省エネなラッチに基づくメムリシティブアナログコンテンツ適応型メモリ
- Authors: Paul-Philipp Manea, Aishwarya Natarajan, Jim Ignowski, John Paul Strachan, Luca Buonanno,
- Abstract要約: 静電圧分割を動的電流レースコンパレータに置き換える強腕ラッチ・メムリスタ (SALM) aCAM セルを導入する。
6T2Mと比較して、SALMは6T2Mが大きな配列にスケーリングできないようなゲインとクロストークの制限をなくしながら、同じレイテンシで読み取りエネルギーを33%削減する。
- 参考スコア(独自算出の注目度): 0.03262230127283451
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Analog content-addressable memories (aCAMs) based on memristors provide a promising pathway toward energy-efficient large-scale associative computing for Edge AI and embedded intelligence applications. They have been successfully applied to decision-tree inference and extend the capabilities of compute-in-memory (CIM) architectures beyond conventional vector-matrix multiplication. However, conventional designs such as the 6T2M architecture suffer from static search power, limited voltage gain, and pronounced match-line crosstalk, constraining analog precision and scalability. We introduce a strong-arm latched memristor (SALM) aCAM cell that replaces static voltage division with a dynamic current-race comparator, enabling high regenerative gain, intrinsic result latching, and near-zero static search power. Compared to 6T2M, SALM reduces read energy by 33% at identical latency while eliminating the gain and crosstalk limitations that prevent 6T2M from scaling to large arrays. SALM further enables scalable sequential and parallel latch sharing, and a dataset-aware optimization framework exposes an explicit energy-latency tradeoff, achieving up to 50% energy reduction at 3x latency across representative workloads. To enable architectural exploration, we develop a circuit-accurate behavioral model derived from SPICE lookup tables in 22 nm FD-SOI technology, capturing match-line dynamics and crosstalk. Integrated into the X-TIME decision-tree compiler, this framework demonstrates that SALM maintains near-software accuracy for high-dimensional datasets, whereas baseline designs degrade due to limited gain and cumulative crosstalk.
- Abstract(参考訳): メムリスタに基づくアナログコンテンツ調整可能なメモリ(aCAM)は、エッジAIおよび組み込みインテリジェンスアプリケーションのためのエネルギー効率の高い大規模連想コンピューティングへの有望な経路を提供する。
それらは決定木推論にうまく適用され、従来のベクトル行列乗法を超えて計算メモリアーキテクチャ(CIM)の能力を拡張した。
しかし、6T2Mアーキテクチャのような従来の設計は、静的探索力、電圧ゲインの制限、マッチラインのクロストークの発音に悩まされており、アナログ精度とスケーラビリティが制限されている。
本稿では, 静電圧分割を動的電流レースコンパレータに置き換え, 高再生ゲイン, 内在的な結果ラッチ, ほぼゼロの静的サーチパワーを実現する, 強腕ラッチ・メムリスタ (SALM) aCAMセルを提案する。
6T2Mと比較して、SALMは6T2Mが大きな配列にスケーリングできないようなゲインとクロストークの制限をなくしながら、同じレイテンシで読み取りエネルギーを33%削減する。
SALMはさらに、スケーラブルなシーケンシャルかつ並列なラッチ共有を可能にし、データセット対応の最適化フレームワークは、明示的なエネルギレイテンシトレードオフを公開し、代表ワークロード間の3倍のレイテンシで最大50%のエネルギ削減を実現している。
アーキテクチャ探索を実現するため,22nmFD-SOI技術でSPICEルックアップテーブルから導出される回路精度の高い動作モデルを構築し,一致線力学とクロストークを捉える。
X-TIME決定木コンパイラに統合されたこのフレームワークは、SALMが高次元データセットの近ソフトウェア精度を維持しているのに対し、ベースライン設計は利得の制限と累積クロストークにより劣化していることを示す。
関連論文リスト
- Tempus: A Temporally Scalable Resource-Invariant GEMM Streaming Framework for Versal AI Edge [0.0]
本稿では,AMD Versal AI Edgeシステムのためのリソース不変時GEMMフレームワークを提案する。
我々はTempusが10.677Wのオンチップパワーで607GOPSを達成したことを示す。
我々はまた、Tempusが先頭空間SOTA(ARIES)よりも211.2倍高いプロミネンス係数を達成することを証明した。
論文 参考訳(メタデータ) (2026-05-01T09:28:34Z) - Ge$^\text{2}$mS-T: Multi-Dimensional Grouping for Ultra-High Energy Efficiency in Spiking Transformer [84.8831358775386]
スパイキングニューラルネットワーク(SNN)は、ニューラルネットワーク(ANN)よりも優れたエネルギー効率を提供する
ANN-SNN ConversionやSpatial-Temporal Backpropagation (STBP)といった既存のパラダイムは、固有の制限に悩まされている。
Ge$text2$mS-Tを提案する。これは時間的・空間的・ネットワーク的構造次元にまたがるグループ計算を実装した新しいアーキテクチャである。
論文 参考訳(メタデータ) (2026-04-10T02:58:46Z) - BWTA: Accurate and Efficient Binarized Transformer by Algorithm-Hardware Co-design [71.97035034203275]
バイナライゼーションにおけるゼロ点歪みを解析し,BWTA量子化方式を提案する。
本稿では,Smooth Multi-Stage Quantizationを提案し,レベルワイド・デグラデーション・ストラテジーとMagnitude Alignment Projection Factorを組み合わせた。
実験の結果、BWTAはTransformerベースのモデルに対して、GLUEでは平均3.5%、タスクでは2%未満の精度でフル精度のパフォーマンスにアプローチしていることがわかった。
論文 参考訳(メタデータ) (2026-04-05T04:25:07Z) - AdaFuse: Accelerating Dynamic Adapter Inference via Token-Level Pre-Gating and Fused Kernel Optimization [84.25316984309725]
動的スパース構造とパラメータ効率のよいアダプタ(例えばLoRA)の統合は、大規模言語モデル(LLM)を拡張するための強力な技術である。
計算負荷は最小限に抑えられるが、計算のレイテンシが急上昇し、復号速度が2.5倍以上遅くなる。
AdaFuseはアルゴリズムと基盤となるハードウェアシステムとの緊密な協調設計に基づいて構築されたフレームワークで、効率的な動的アダプタ実行を実現する。
論文 参考訳(メタデータ) (2026-03-12T12:46:42Z) - Real-Time Human Activity Recognition on Edge Microcontrollers: Dynamic Hierarchical Inference with Multi-Spectral Sensor Fusion [7.184610830886172]
本稿では,マルチスペクトル融合と解釈可能なモジュールに基づくリソース対応階層型ネットワークを提案する。
低消費電力のリアルタイム推論のためにARM Cortex-M4マイクロコントローラ上にデプロイされたHPPI-Netは96.70%の精度を実現している。
MobileNetV3と比較して、HPPI-Netは精度を1.22%改善し、RAM使用量を71.2%削減し、ROM使用量を42.1%削減した。
論文 参考訳(メタデータ) (2026-01-29T15:21:45Z) - STEM: Scaling Transformers with Embedding Modules [59.26825251273227]
STEMは静的なトークンインデックス付きアプローチで、FFNのアッププロジェクションをレイヤローカルな埋め込みルックアップに置き換える。
これにより、ランタイムルーティングを廃止し、非同期プリフェッチによるCPUオフロードを可能にし、トーケン毎のFLOPとデバイス間通信の両方からキャパシティを分離する。
全体として、STEMはパラメトリックメモリのスケーリングに有効な方法であり、解釈性の向上、トレーニングの安定性の向上、効率の向上を実現している。
論文 参考訳(メタデータ) (2026-01-15T18:00:27Z) - An ultra-low-power CGRA for accelerating Transformers at the edge [1.52292571922932]
本稿では,変圧器モデルにおける汎用行列乗算(GEMM)演算を高速化する,超低消費電力粗粒再構成可能アレイ(CGRA)アーキテクチャを提案する。
提案アーキテクチャでは,効率的な並列計算のための処理要素の4 x 4配列と,最適化されたLOAD/STORE操作のための専用の4 x 2メモリ操作ブロック(MOB)を統合している。
スイッチレスメッシュトーラス相互接続ネットワークは、PEとMOB間の直接通信を可能にすることにより、電力と遅延を最小化する。
論文 参考訳(メタデータ) (2025-07-17T08:43:14Z) - Containing Analog Data Deluge at Edge through Frequency-Domain
Compression in Collaborative Compute-in-Memory Networks [0.0]
本稿では,ディープラーニング推論タスクにおける領域効率向上のための新しい手法を提案する。
アナログデータをより効率的に処理することにより、センサからの貴重なデータを選択的に保持し、アナログデータデルージュによる課題を軽減することができる。
論文 参考訳(メタデータ) (2023-09-20T03:52:04Z) - Dynamic Decision Tree Ensembles for Energy-Efficient Inference on IoT
Edge Nodes [12.99136544903102]
ランダムフォレスト (RFs) やグラディエント・ブースティング (GBTs) のような決定木アンサンブルは、その複雑さが比較的低いため、この作業に特に適している。
本稿では、遅延/エネルギー目標と処理された入力の複雑さの両方に基づいて実行された木数を調整する動的アンサンブルの使用を提案する。
我々は、Pythonアンサンブルを最適化されたCコードに変換するツールを設計し、これらのアルゴリズムをマルチコアの低消費電力IoTデバイスにデプロイすることに重点を置いている。
論文 参考訳(メタデータ) (2023-06-16T11:59:18Z) - Edge-MoE: Memory-Efficient Multi-Task Vision Transformer Architecture
with Task-level Sparsity via Mixture-of-Experts [60.1586169973792]
M$3$ViTは、Mix-of-experts (MoE)を導入した最新のマルチタスクViTモデルである。
MoEは精度の向上と80%以上の削減計算を実現しているが、FPGAに効率的なデプロイを行う上での課題は残されている。
Edge-MoEと呼ばれる私たちの研究は、アーキテクチャの革新の集合を伴って、マルチタスクのViTのための最初のエンドツーエンドFPGAアクセラレータを導入するという課題を解決します。
論文 参考訳(メタデータ) (2023-05-30T02:24:03Z) - One-step regression and classification with crosspoint resistive memory
arrays [62.997667081978825]
高速で低エネルギーのコンピュータは、エッジでリアルタイム人工知能を実現するために要求されている。
ワンステップ学習は、ボストンの住宅のコスト予測と、MNIST桁認識のための2層ニューラルネットワークのトレーニングによって支援される。
結果は、クロスポイントアレイ内の物理計算、並列計算、アナログ計算のおかげで、1つの計算ステップで得られる。
論文 参考訳(メタデータ) (2020-05-05T08:00:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。