論文の概要: QS4D: Quantization-aware training for efficient hardware deployment of structured state-space sequential models
- arxiv url: http://arxiv.org/abs/2507.06079v1
- Date: Tue, 08 Jul 2025 15:19:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-09 16:34:38.257964
- Title: QS4D: Quantization-aware training for efficient hardware deployment of structured state-space sequential models
- Title(参考訳): QS4D:構造化状態空間シーケンシャルモデルの効率的なハードウェア展開のための量子化対応トレーニング
- Authors: Sebastian Siegel, Ming-Jay Yang, Younes Bouhadjar, Maxime Fabre, Emre Neftci, John Paul Strachan,
- Abstract要約: 構造化状態空間モデル(Structured State Space Model, SSM)は、ディープラーニングモデルの新しいクラスとして登場した。
QATは、様々なパフォーマンス指標において、SSMの複雑さを最大2桁まで減少させることができる。
その結果,QATはアナログノイズに対する堅牢性を高め,構造的プルーニングを可能にすることがわかった。
- 参考スコア(独自算出の注目度): 0.8474310104568011
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Structured State Space models (SSM) have recently emerged as a new class of deep learning models, particularly well-suited for processing long sequences. Their constant memory footprint, in contrast to the linearly scaling memory demands of Transformers, makes them attractive candidates for deployment on resource-constrained edge-computing devices. While recent works have explored the effect of quantization-aware training (QAT) on SSMs, they typically do not address its implications for specialized edge hardware, for example, analog in-memory computing (AIMC) chips. In this work, we demonstrate that QAT can significantly reduce the complexity of SSMs by up to two orders of magnitude across various performance metrics. We analyze the relation between model size and numerical precision, and show that QAT enhances robustness to analog noise and enables structural pruning. Finally, we integrate these techniques to deploy SSMs on a memristive analog in-memory computing substrate and highlight the resulting benefits in terms of computational efficiency.
- Abstract(参考訳): 構造化状態空間モデル(Structured State Space Model, SSM)は、最近、ディープラーニングモデルの新しいクラスとして登場し、特に長いシーケンスを処理するのに適している。
それらのメモリフットプリントは、Transformersの線形にスケールするメモリ要求とは対照的に、リソース制約のあるエッジコンピューティングデバイスにデプロイする際の魅力的な候補となっている。
近年の研究では、QAT(quantization-aware training)がSSMに与える影響について検討されているが、一般的には特殊なエッジハードウェア、例えばアナログインメモリ・コンピューティング(AIMC)チップに対するその影響に対処していない。
本研究では,様々なパフォーマンス指標に対して,QATがSSMの複雑さを最大2桁まで低減できることを実証する。
モデルサイズと数値精度の関係を解析し、QATがアナログノイズに対する頑健性を高め、構造的プルーニングを可能にすることを示す。
最後に,これらの手法を統合して,メモリ内メモリのメモリ内メモリ間類似処理基板上にSSMをデプロイし,計算効率の面でのメリットを浮き彫りにする。
関連論文リスト
- Quantizing Small-Scale State-Space Models for Edge AI [0.4941855521192951]
ステートスペースモデル(SSM)は、最近、長距離依存を効率的にモデル化する能力について、ディープラーニングで注目を集めている。
本稿では,タスク性能を維持しながら,メモリと計算コストの削減に焦点をあてて,小型SSMにおける量子化の効果を分析する。
論文 参考訳(メタデータ) (2025-06-14T12:43:47Z) - Quantum Kernel-Based Long Short-term Memory [0.30723404270319693]
本稿では,Quantum Kernel-Based Long Short-Term Memory (QK-LSTM) ネットワークを導入する。
この量子化アーキテクチャは、効率的な収束、ロバストな損失最小化、モデルコンパクト性を示す。
ベンチマークの結果,QK-LSTMは従来のLSTMモデルと同等の性能を示すが,パラメータは少ない。
論文 参考訳(メタデータ) (2024-11-20T11:39:30Z) - Task-Oriented Real-time Visual Inference for IoVT Systems: A Co-design Framework of Neural Networks and Edge Deployment [61.20689382879937]
タスク指向エッジコンピューティングは、データ分析をエッジにシフトすることで、この問題に対処する。
既存の手法は、高いモデル性能と低いリソース消費のバランスをとるのに苦労している。
ニューラルネットワークアーキテクチャを最適化する新しい協調設計フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-29T19:02:54Z) - SMR: State Memory Replay for Long Sequence Modeling [19.755738298836526]
本稿では並列畳み込み計算における互換性の限界を克服する新しい非再帰的非一様サンプル処理戦略を提案する。
本研究では,学習可能な記憶を利用する状態記憶再生(SMR)を導入し,学習データと異なるサンプリングポイントでの一般化のために,現在の状態を多段階情報で調整する。
自己回帰言語モデリングとLong Range Arenaにおける長距離モデリングタスクの実験は、一連のSSMモデルに対するSMRメカニズムの一般的な効果を実証している。
論文 参考訳(メタデータ) (2024-05-27T17:53:32Z) - HOPE for a Robust Parameterization of Long-memory State Space Models [51.66430224089725]
線形時間不変(LTI)システムを利用する状態空間モデル(SSM)は、長いシーケンスの学習において有効であることが知られている。
我々は,ハンケル作用素内のマルコフパラメータを利用するLTIシステムに対して,HOPEと呼ばれる新しいパラメータ化手法を開発した。
我々の新しいパラメータ化は、固定時間ウィンドウ内に非遅延メモリを付与し、パッドドノイズのあるシーケンシャルCIFAR-10タスクによって実証的に相関する。
論文 参考訳(メタデータ) (2024-05-22T20:20:14Z) - Distributed Representations Enable Robust Multi-Timescale Symbolic Computation in Neuromorphic Hardware [3.961418890143814]
本稿では,ロバストなマルチスケールダイナミックスをアトラクタベースRSNNに組み込むシングルショット重み学習方式について述べる。
対称自己解離重み行列を重畳することにより、有限状態機械をRSNN力学に組み込む。
この研究は、リカレントダイナミクスによる堅牢な記号計算をニューロモルフィックハードウェアに組み込むスケーラブルなアプローチを導入している。
論文 参考訳(メタデータ) (2024-05-02T14:11:50Z) - LongVQ: Long Sequence Modeling with Vector Quantization on Structured Memory [63.41820940103348]
自己保持機構の計算コストは、長いシーケンスの実用性を制限する。
我々はLongVQと呼ばれる新しい手法を提案し、長さ固定されたコードブックとしてグローバルな抽象化を圧縮する。
LongVQは動的グローバルパターンとローカルパターンを効果的に維持し、長距離依存性の問題の欠如を補うのに役立つ。
論文 参考訳(メタデータ) (2024-04-17T08:26:34Z) - Stochastic Configuration Machines: FPGA Implementation [4.57421617811378]
コンフィグレーションネットワーク(SCN)は、データモデリングのメリットと実現可能性から、産業アプリケーションにおいて主要な選択肢である。
本稿では、フィールドプログラマブルゲートアレイ(FPGA)にSCMモデルを実装し、学習性能を向上させるためにバイナリコード入力を導入することを目的とする。
論文 参考訳(メタデータ) (2023-10-30T02:04:20Z) - Energy-efficient Task Adaptation for NLP Edge Inference Leveraging
Heterogeneous Memory Architectures [68.91874045918112]
Adapter-ALBERTは、様々なタスクにわたる最大データ再利用のための効率的なモデル最適化である。
検証されたNLPエッジアクセラレータ上でシミュレーションを行うことにより、モデルを不均一なオンチップメモリアーキテクチャにマッピングする利点を実証する。
論文 参考訳(メタデータ) (2023-03-25T14:40:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。