論文の概要: Quantizing Small-Scale State-Space Models for Edge AI
- arxiv url: http://arxiv.org/abs/2506.12480v1
- Date: Sat, 14 Jun 2025 12:43:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-17 17:28:46.293047
- Title: Quantizing Small-Scale State-Space Models for Edge AI
- Title(参考訳): エッジAIのための小規模状態空間モデルの量子化
- Authors: Leo Zhao, Tristan Torchet, Melika Payvand, Laura Kriener, Filippo Moro,
- Abstract要約: ステートスペースモデル(SSM)は、最近、長距離依存を効率的にモデル化する能力について、ディープラーニングで注目を集めている。
本稿では,タスク性能を維持しながら,メモリと計算コストの削減に焦点をあてて,小型SSMにおける量子化の効果を分析する。
- 参考スコア(独自算出の注目度): 0.4941855521192951
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: State-space models (SSMs) have recently gained attention in deep learning for their ability to efficiently model long-range dependencies, making them promising candidates for edge-AI applications. In this paper, we analyze the effects of quantization on small-scale SSMs with a focus on reducing memory and computational costs while maintaining task performance. Using the S4D architecture, we first investigate post-training quantization (PTQ) and show that the state matrix A and internal state x are particularly sensitive to quantization. Furthermore, we analyze the impact of different quantization techniques applied to the parameters and activations in the S4D architecture. To address the observed performance drop after Post-training Quantization (PTQ), we apply Quantization-aware Training (QAT), significantly improving performance from 40% (PTQ) to 96% on the sequential MNIST benchmark at 8-bit precision. We further demonstrate the potential of QAT in enabling sub-8-bit precisions and evaluate different parameterization schemes for QAT stability. Additionally, we propose a heterogeneous quantization strategy that assigns different precision levels to model components, reducing the overall memory footprint by a factor of 6x without sacrificing performance. Our results provide actionable insights for deploying quantized SSMs in resource-constrained environments.
- Abstract(参考訳): 近ごろ、ステートスペースモデル(SSM)は、長距離依存を効率的にモデル化する能力のためにディープラーニングに注目され、エッジAIアプリケーションの候補候補として期待されている。
本稿では,タスク性能を維持しながら,メモリと計算コストの削減に焦点をあてて,小型SSMにおける量子化の効果を分析する。
S4Dアーキテクチャを用いて、まずポストトレーニング量子化(PTQ)を調査し、状態行列Aと内部状態xが特に量子化に敏感であることを示す。
さらに,S4Dアーキテクチャのパラメータとアクティベーションに対して異なる量子化手法が与える影響を解析する。
ポストトレーニング量子化(PTQ)後の観測性能低下に対処するために、量子化対応トレーニング(QAT)を適用し、8ビット精度でシーケンシャルMNISTベンチマークにおいて、40%(PTQ)から96%に大幅に改善した。
さらに、サブ8ビット精度の実現におけるQATの可能性を示し、QAT安定のための異なるパラメータ化スキームを評価する。
さらに、異なる精度レベルをモデルコンポーネントに割り当てる異種量子化戦略を提案し、性能を犠牲にすることなくメモリ全体のフットプリントを6倍削減する。
本結果は,資源制約環境における定量化SSMの展開に有効な知見を提供する。
関連論文リスト
- Pushing the Limits of Low-Bit Optimizers: A Focus on EMA Dynamics [64.62231094774211]
ステートフル(例えばアダム)は、最適収束を達成するために、モデルサイズを2倍も補助情報を維持する。
SOLOにより、アダムスタイルは3ビットまたは2ビットの精度で量子化された状態を維持することができる。
したがって、SOLOはAdamスタイルにシームレスに適用でき、精度の低下を最小限に抑えることができる。
論文 参考訳(メタデータ) (2025-05-01T06:47:45Z) - QuartDepth: Post-Training Quantization for Real-Time Depth Estimation on the Edge [55.75103034526652]
ASIC のハードウェアアクセラレーションによる MDE モデルの定量化を後学習量子化に応用した QuartDepth を提案する。
提案手法では,重みとアクティベーションの両方を4ビット精度で定量化し,モデルサイズと計算コストを削減する。
我々は、カーネル融合とカスタマイズされた命令プログラム性をサポートすることにより、フレキシブルでプログラム可能なハードウェアアクセラレータを設計する。
論文 参考訳(メタデータ) (2025-03-20T21:03:10Z) - QMamba: Post-Training Quantization for Vision State Space Models [45.97843526485619]
状態空間モデル(SSM)は近年、ビジョンモデルに注目が集まっている。
リソース制限されたエッジデバイスにSSMをデプロイする計算コストを考えると、PTQ(Post-Training Quantization)は、SSMの効率的なデプロイを可能にする技術である。
本稿では,SSMにおけるアクティベーション分布の分析に基づいて,視覚SSM向けに設計された最初のPTQフレームワークであるQMambaを提案する。
論文 参考訳(メタデータ) (2025-01-23T12:45:20Z) - Optimizing Large Language Models through Quantization: A Comparative Analysis of PTQ and QAT Techniques [0.0]
量子化はモデルサイズを最大68%削減できる。
Int8量子化は計算コストと消費電力を40%削減する。
Int4量子化はこれらの指標をさらに60%改善する。
論文 参考訳(メタデータ) (2024-11-09T06:30:13Z) - Q-S5: Towards Quantized State Space Models [41.94295877935867]
状態空間モデル(SSM)はトランスフォーマーの強力な代替品として登場した。
本稿では,S5モデルに対する量子化の効果について検討し,そのモデル性能への影響について考察する。
論文 参考訳(メタデータ) (2024-06-13T09:53:24Z) - On-Chip Hardware-Aware Quantization for Mixed Precision Neural Networks [52.97107229149988]
エッジデバイス上でハードウェア対応の混合精度量子化を行うOn-Chipハードウェア・アウェア量子化フレームワークを提案する。
このパイプラインは、量子化プロセスが量子化演算子の実際のハードウェア効率を知覚することを可能にする。
精度測定のために,マルチチップシナリオにおける演算子の精度への影響を効果的に推定するMask-Guided Quantization Estimation技術を提案する。
論文 参考訳(メタデータ) (2023-09-05T04:39:34Z) - Modular Quantization-Aware Training for 6D Object Pose Estimation [52.9436648014338]
エッジアプリケーションは、リソース制約された組み込みプラットフォーム上で効率的な6Dオブジェクトのポーズ推定を要求する。
本稿では,適応的かつ高精度な量子化学習戦略であるMQAT(Modular Quantization-Aware Training)を紹介する。
MQATは、モジュール固有のビット精度を導出し、モジュール固有の量子化シーケンスを導出し、最先端の均一および混合精度の量子化技術によって生成されたものより優れた量子化モデルをもたらす。
論文 参考訳(メタデータ) (2023-03-12T21:01:54Z) - Once Quantization-Aware Training: High Performance Extremely Low-bit
Architecture Search [112.05977301976613]
本稿では,ネットワークアーキテクチャ検索手法と量子化手法を組み合わせることで,両者のメリットを享受することを提案する。
まず、多数の量子化モデルを取得するために、共有ステップサイズでアーキテクチャと量子化の合同トレーニングを提案する。
次に、量子化されたモデルを低ビットに転送するためにビット継承方式を導入し、さらに時間コストを削減し、量子化精度を向上させる。
論文 参考訳(メタデータ) (2020-10-09T03:52:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。