論文の概要: A Diagonal Structured State Space Model on Loihi 2 for Efficient Streaming Sequence Processing
- arxiv url: http://arxiv.org/abs/2409.15022v1
- Date: Mon, 23 Sep 2024 13:50:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-26 14:53:59.782691
- Title: A Diagonal Structured State Space Model on Loihi 2 for Efficient Streaming Sequence Processing
- Title(参考訳): 効率的なストリーミングシーケンス処理のためのLoihi 2上の対角構造状態空間モデル
- Authors: Svea Marie Meyer, Philipp Weidel, Philipp Plank, Leobardo Campos-Macias, Sumit Bam Shrestha, Philipp Stratmann, Mathis Richter,
- Abstract要約: 本稿では,Intel の Loihi 2 状態のニューロモルフィックプロセッサ上で,SSM S4D のトークン・バイ・トークン推論を行う。
これにより、SSMの効率的なリアルタイムストリーミングアプリケーションへの新たな道が開ける。
- 参考スコア(独自算出の注目度): 1.0726290663533131
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep State-Space Models (SSM) demonstrate state-of-the art performance on long-range sequence modeling tasks. While the recurrent structure of SSMs can be efficiently implemented as a convolution or as a parallel scan during training, recurrent token-by-token processing cannot currently be implemented efficiently on GPUs. Here, we demonstrate efficient token-by-token inference of the SSM S4D on Intel's Loihi 2 state-of-the-art neuromorphic processor. We compare this first ever neuromorphic-hardware implementation of an SSM on sMNIST, psMNIST, and sCIFAR to a recurrent and a convolutional implementation of S4D on Jetson Orin Nano (Jetson). While we find Jetson to perform better in an offline sample-by-sample based batched processing mode, Loihi 2 outperforms during token-by-token based processing, where it consumes 1000 times less energy with a 75 times lower latency and a 75 times higher throughput compared to the recurrent implementation of S4D on Jetson. This opens up new avenues towards efficient real-time streaming applications of SSMs.
- Abstract(参考訳): Deep State-Space Models (SSM)は、長距離シーケンスモデリングタスクにおける最先端のパフォーマンスを示す。
SSMのリカレント構造は、トレーニング中に畳み込みや並列スキャンとして効率的に実装できるが、現在のGPUでは、トークン・バイ・トークン処理を効率的に実装することはできない。
本稿では,Intel の Loihi 2 状態のニューロモルフィックプロセッサ上で,SSM S4D のトークン・バイ・トークン推論を行う。
我々は、sMNIST, psMNIST, sCIFAR上のSSMを、Jetson Orin Nano(Jetson)上のS4Dの反復的かつ畳み込み的な実装と比較した。
オフラインのサンプル・バイ・サンプル・サンプラー・ベースのバッチ処理モードでは,Roihi 2 はトークン・バイ・トークンベースの処理において,Jetson での S4D の繰り返し実装と比較して,75倍のレイテンシと75倍のスループットで,1000倍のエネルギーを消費する。
これにより、SSMの効率的なリアルタイムストリーミングアプリケーションへの新たな道が開ける。
関連論文リスト
- IMSSA: Deploying modern state-space models on memristive in-memory compute hardware [0.15268600910098268]
ディープラーニングにおける重要な課題は、長い時間的シーケンスを処理することだ。
トランスフォーマーはこのタスクの最先端になったが、過剰なメモリ要求に悩まされている。
構造化状態空間シーケンシャル(S4)モデルが最近登場し、非常に長いシーケンスコンテキストの処理を可能にしながら、固定されたメモリ状態を提供する。
我々は,S4Dモデルのサイズと計算要求を大幅に削減し,S4モデルのパワーをエッジハードウェアにもたらすことを目的としている。
論文 参考訳(メタデータ) (2024-12-28T16:58:31Z) - PRF: Parallel Resonate and Fire Neuron for Long Sequence Learning in Spiking Neural Networks [6.545474731089018]
スパイキングニューラルネットワーク(SNN)における長周期学習の効率性と性能の課題を同時に解決する。
まず,典型的なLeaky Integrate-and-Fire(LIF)モデルのトレーニング時間を$O(L2)$から$O(Llog L)$に短縮する。
第二に、長距離依存性を捉えるために、複素領域における微分可能リセット関数から共振機構によって駆動される振動膜電位を利用するパラレル共鳴・火災ニューロン(PRF)を提案する。
論文 参考訳(メタデータ) (2024-10-04T15:51:56Z) - Attention as an RNN [66.5420926480473]
我々は,そのテキストマンディ・ツー・ワンのRNN出力を効率的に計算できる特別なリカレントニューラルネットワーク(RNN)として注目されることを示す。
本稿では,並列プレフィックススキャンアルゴリズムを用いて,注目のテキストマンディ・ツー・マニーRNN出力を効率よく計算する手法を提案する。
Aarensは、一般的な4つのシーケンシャルな問題設定に散らばる38ドルのデータセットで、Transformersに匹敵するパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-05-22T19:45:01Z) - EfficientState Space Model viaFast Tensor Convolutionand Block Diagonalization [5.260841516691153]
本稿では,マルチインプットマルチアウトプットSSMに基づく新しい状態空間層,すなわち効率的なSSMを提案する。
我々のeSSMは、マルチインプットおよびマルチインプット(MIMO)SSMの畳み込み表現に基づいて構築されている。
モデル効率ベンチマークでは、eSSMのパラメータはLSTMの12.89%、Mambaの13.24%に過ぎなかった。
論文 参考訳(メタデータ) (2024-02-23T12:36:31Z) - Convolutional State Space Models for Long-Range Spatiotemporal Modeling [65.0993000439043]
ConvS5は、長距離時間モデリングのための効率的な変種である。
トランスフォーマーとConvNISTTMは、長い水平移動実験において、ConvLSTMより3倍速く、トランスフォーマーより400倍速くサンプルを生成する一方で、大幅に性能が向上した。
論文 参考訳(メタデータ) (2023-10-30T16:11:06Z) - Effectively Modeling Time Series with Simple Discrete State Spaces [25.046268609133982]
時系列モデリングのための新しい状態空間時系列アーキテクチャであるSpaceTimeを紹介する。
表現性を示すために,共役行列に基づく新しいSSMパラメータ化を提案する。
長期の地平線予測のために、同伴SSMの「閉ループ」変動を導入する。
効率的なトレーニングと推論のために,前列行列による前列パスのメモリと計算を削減できるアルゴリズムを導入する。
論文 参考訳(メタデータ) (2023-03-16T17:08:21Z) - Liquid Structural State-Space Models [106.74783377913433]
Liquid-S4はLong-Range Arenaベンチマークで平均87.32%の性能を達成した。
全生音声コマンド認識では、データセットLiquid-S4は96.78%の精度で、S4と比較してパラメータ数が30%減少している。
論文 参考訳(メタデータ) (2022-09-26T18:37:13Z) - On the Parameterization and Initialization of Diagonal State Space
Models [35.68370606343843]
対角状態空間モデルのパラメータ化と初期化について述べる。
S4の行列の対角制限は、無限状態次元の極限において、驚くほど同じカーネルを回復することを示す。
論文 参考訳(メタデータ) (2022-06-23T17:58:39Z) - TSM: Temporal Shift Module for Efficient and Scalable Video
Understanding on Edge Device [58.776352999540435]
本稿では,高能率かつ高能率な時間シフトモジュール(TSM)を提案する。
TSMは2次元CNNに挿入され、ゼロ計算とゼロパラメータでの時間的モデリングを実現する。
Jetson NanoとGalaxy Note8のオンラインビデオ認識では、74fpsと29fpsのハイフレームレートを実現している。
論文 参考訳(メタデータ) (2021-09-27T17:59:39Z) - Approximated Bilinear Modules for Temporal Modeling [116.6506871576514]
CNNの2層は補助ブランチサンプリングを追加することで、時間的双線形モジュールに変換できる。
我々のモデルは、事前トレーニングなしで、Something v1とv2データセットの最先端メソッドよりも優れている。
論文 参考訳(メタデータ) (2020-07-25T09:07:35Z) - A Real-time Action Representation with Temporal Encoding and Deep
Compression [115.3739774920845]
動作表現のための時間畳み込み3Dネットワーク(T-C3D)と呼ばれる新しいリアルタイム畳み込みアーキテクチャを提案する。
T-C3Dは、高プロセス速度を得ながら、階層的な多粒度でビデオアクション表現を学習する。
提案手法は,5MB未満のストレージモデルを用いて,提案手法の精度5.4%,推論速度2倍の高速化を実現した。
論文 参考訳(メタデータ) (2020-06-17T06:30:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。