論文の概要: Systolic Array-based Accelerator for State-Space Models
- arxiv url: http://arxiv.org/abs/2507.21394v1
- Date: Tue, 29 Jul 2025 00:01:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-30 17:08:55.447171
- Title: Systolic Array-based Accelerator for State-Space Models
- Title(参考訳): 状態空間モデルのためのSystolic Array-based Accelerator
- Authors: Shiva Raja, Cansu Demirkiran, Aakash Sarkar, Milos Popovic, Ajay Joshi,
- Abstract要約: State-Space Models (SSM) は非常に長いデータシーケンスをリカレントやトランスフォーマーベースのモデルよりも効率的に処理する。
本稿では,SSMの高速化を目的としたハードウェアアクセラレータEpochCoreを紹介する。
EpochCoreは平均250倍の性能向上と45倍のエネルギー効率向上を実現している。
- 参考スコア(独自算出の注目度): 1.137896937254823
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Sequence modeling is crucial for AI to understand temporal data and detect complex time-dependent patterns. While recurrent neural networks (RNNs), convolutional neural networks (CNNs), and Transformers have advanced in capturing long-range dependencies, they struggle with achieving high accuracy with very long sequences due to limited memory retention (fixed context window). State-Space Models (SSMs) leverage exponentially decaying memory enabling lengthy context window and so they process very long data sequences more efficiently than recurrent and Transformer-based models. Unlike traditional neural models like CNNs and RNNs, SSM-based models require solving differential equations through continuous integration, making training and inference both compute- and memory-intensive on conventional CPUs and GPUs. In this paper we introduce a specialized hardware accelerator, EpochCore, for accelerating SSMs. EpochCore is based on systolic arrays (SAs) and is designed to enhance the energy efficiency and throughput of inference of SSM-based models for long-range sequence tasks. Within the SA, we propose a versatile processing element (PE) called LIMA-PE to perform traditional and specialized MAC operations to support traditional DNNs and SSMs. To complement the EpochCore microarchitecture, we propose a novel dataflow, ProDF, which enables highly efficient execution of SSM-based models. By leveraging the LIMA-PE microarchitecture and ProDF, EpochCore achieves on average 250x gains in performance and 45x improvement in energy efficiency, at the expense of 2x increase in area cost over traditional SA-based accelerators, and around ~2,000x improvement in latency/inference on LRA datasets compared to GPU kernel operations.
- Abstract(参考訳): AIが時間的データを理解し、複雑な時間依存パターンを検出するためには、シーケンスモデリングが不可欠である。
リカレントニューラルネットワーク(RNN)、畳み込みニューラルネットワーク(CNN)、トランスフォーマー(Transformer)は、長距離依存のキャプチャに進歩しているが、メモリ保持の制限(固定されたコンテキストウィンドウ)のため、非常に長いシーケンスで高い精度を達成するのに苦労している。
状態空間モデル(SSM)は、指数関数的に減衰するメモリを利用して、長いコンテキストウインドウを可能にするため、非常に長いデータシーケンスをリカレントやトランスフォーマーベースのモデルよりも効率的に処理する。
CNNやRNNのような従来のニューラルモデルとは異なり、SSMベースのモデルは継続的インテグレーションを通じて微分方程式を解く必要があり、従来のCPUやGPUに計算とメモリを集中させるトレーニングと推論を行う。
本稿では,SSMの高速化を目的としたハードウェアアクセラレータEpochCoreを紹介する。
EpochCore は systolic arrays (SA) に基づいており、長距離シーケンスタスクのためのSSMベースのモデルの推論のエネルギー効率とスループットを向上させるように設計されている。
本稿では,従来の DNN や SSM をサポートするために,従来の MAC 操作を行う LIMA-PE という多目的処理要素を提案する。
本稿では,EpochCoreマイクロアーキテクチャを補完する新しいデータフローProDFを提案する。
LIMA-PEマイクロアーキテクチャとProDFを活用することで、EpochCoreは平均250倍の性能向上と45倍のエネルギー効率向上を実現している。
関連論文リスト
- QS4D: Quantization-aware training for efficient hardware deployment of structured state-space sequential models [0.8474310104568011]
構造化状態空間モデル(Structured State Space Model, SSM)は、ディープラーニングモデルの新しいクラスとして登場した。
QATは、様々なパフォーマンス指標において、SSMの複雑さを最大2桁まで減少させることができる。
その結果,QATはアナログノイズに対する堅牢性を高め,構造的プルーニングを可能にすることがわかった。
論文 参考訳(メタデータ) (2025-07-08T15:19:14Z) - MesaNet: Sequence Modeling by Locally Optimal Test-Time Training [67.45211108321203]
我々は,最近提案されたMesa層の数値的に安定かつチャンクワイズ可能な並列化版を導入する。
テストタイムの最適トレーニングにより、従来のRNNよりも言語モデリングの難易度が低く、ダウンストリームベンチマークのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2025-06-05T16:50:23Z) - NeuroSim V1.5: Improved Software Backbone for Benchmarking Compute-in-Memory Accelerators with Device and Circuit-level Non-idealities [2.141889595429907]
本稿では,デバイスレベルおよび回路レベルの非理想性において重要な進歩をもたらすNeuroSim V1.5を提案する。
NeuroSim V1.5は次世代のACIMアクセラレータの設計と検証を推進している。
NeuroSimのすべてのバージョンはhttps://github.com/neurosim/NeuroSimでオープンソース公開されている。
論文 参考訳(メタデータ) (2025-05-05T02:07:04Z) - EffiCANet: Efficient Time Series Forecasting with Convolutional Attention [12.784289506021265]
EffiCANetは計算効率を維持しながら予測精度を向上させるように設計されている。
EffiCANetは最先端モデルに対するMAEの最大10.02%の削減を実現している。
論文 参考訳(メタデータ) (2024-11-07T12:54:42Z) - Sparser is Faster and Less is More: Efficient Sparse Attention for Long-Range Transformers [58.5711048151424]
SPARSEK Attention(SPARSEK Attention)は、計算およびメモリ障害を克服するために設計された、新しいスパースアテンション機構である。
提案手法では,各クエリに対して一定数のKVペアを選択するために,スコアリングネットワークと差別化可能なトップkマスク演算子であるSPARSEKを統合する。
実験結果から,SPARSEK注意は従来のスパースアテンション法よりも優れていた。
論文 参考訳(メタデータ) (2024-06-24T15:55:59Z) - HOPE for a Robust Parameterization of Long-memory State Space Models [51.66430224089725]
線形時間不変(LTI)システムを利用する状態空間モデル(SSM)は、長いシーケンスの学習において有効であることが知られている。
我々は,ハンケル作用素内のマルコフパラメータを利用するLTIシステムに対して,HOPEと呼ばれる新しいパラメータ化手法を開発した。
我々の新しいパラメータ化は、固定時間ウィンドウ内に非遅延メモリを付与し、パッドドノイズのあるシーケンシャルCIFAR-10タスクによって実証的に相関する。
論文 参考訳(メタデータ) (2024-05-22T20:20:14Z) - Convolutional State Space Models for Long-Range Spatiotemporal Modeling [65.0993000439043]
ConvS5は、長距離時間モデリングのための効率的な変種である。
トランスフォーマーとConvNISTTMは、長い水平移動実験において、ConvLSTMより3倍速く、トランスフォーマーより400倍速くサンプルを生成する一方で、大幅に性能が向上した。
論文 参考訳(メタデータ) (2023-10-30T16:11:06Z) - Intelligence Processing Units Accelerate Neuromorphic Learning [52.952192990802345]
スパイキングニューラルネットワーク(SNN)は、エネルギー消費と遅延の観点から、桁違いに改善されている。
我々は、カスタムSNN PythonパッケージsnnTorchのIPU最適化リリースを提示する。
論文 参考訳(メタデータ) (2022-11-19T15:44:08Z) - Towards Energy-Efficient, Low-Latency and Accurate Spiking LSTMs [1.7969777786551424]
Spiking Neural Networks(SNN)は、複雑なタスクのための魅力的なテンポラルコンピューティングパラダイムビジョンとして登場した。
そこで本研究では,新規な長期記憶ネットワーク(LSTM)の学習フレームワークを提案する。
rev-to-SNN変換フレームワーク、続いてSNNトレーニング。
我々は、時間的M、Google Speech Commands(GSC)データセット、異なるLSTMアーキテクチャ上のUCIスマートフォンなど、逐次学習タスクに関するフレームワークを評価した。
論文 参考訳(メタデータ) (2022-10-23T04:10:27Z) - Automatic Remaining Useful Life Estimation Framework with Embedded
Convolutional LSTM as the Backbone [5.927250637620123]
組込み畳み込みLSTM(E NeuralTM)と呼ばれる新しいLSTM変種を提案する。
ETMでは、異なる1次元の畳み込みの群がLSTM構造に埋め込まれている。
RUL推定のために広く用いられているいくつかのベンチマークデータセットに対する最先端のアプローチよりも,提案したEMMアプローチの方が優れていることを示す。
論文 参考訳(メタデータ) (2020-08-10T08:34:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。