論文の概要: Quamba: A Post-Training Quantization Recipe for Selective State Space Models
- arxiv url: http://arxiv.org/abs/2410.13229v1
- Date: Thu, 17 Oct 2024 05:32:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-18 13:21:11.800207
- Title: Quamba: A Post-Training Quantization Recipe for Selective State Space Models
- Title(参考訳): Quamba: 選択状態空間モデルのためのポストトレーニング量子化レシピ
- Authors: Hung-Yueh Chiang, Chi-Chih Chang, Natalia Frumkin, Kai-Chiang Wu, Diana Marculescu,
- Abstract要約: State Space Models (SSM) は、大きな言語モデルのためのTransformerに代わる魅力的な代替品として登場した。
本研究では,入力アクティベーションの最大値を選択的SSMに抑制する静的8ビットSSM量子化法を提案する。
8ビットのウェイトアクティベーションを量子化したMamba 2.8B SSMはハードウェアアクセラレーションの恩恵を受け、Nvidia Orin Nano 8Gでは1.72倍のレイテンシを実現しています。
- 参考スコア(独自算出の注目度): 8.924779222965798
- License:
- Abstract: State Space Models (SSMs) have emerged as an appealing alternative to Transformers for large language models, achieving state-of-the-art accuracy with constant memory complexity which allows for holding longer context lengths than attention-based networks. The superior computational efficiency of SSMs in long sequence modeling positions them favorably over Transformers in many scenarios. However, improving the efficiency of SSMs on request-intensive cloud-serving and resource-limited edge applications is still a formidable task. SSM quantization is a possible solution to this problem, making SSMs more suitable for wide deployment, while still maintaining their accuracy. Quantization is a common technique to reduce the model size and to utilize the low bit-width acceleration features on modern computing units, yet existing quantization techniques are poorly suited for SSMs. Most notably, SSMs have highly sensitive feature maps within the selective scan mechanism (i.e., linear recurrence) and massive outliers in the output activations which are not present in the output of token-mixing in the self-attention modules. To address this issue, we propose a static 8-bit per-tensor SSM quantization method which suppresses the maximum values of the input activations to the selective SSM for finer quantization precision and quantizes the output activations in an outlier-free space with Hadamard transform. Our 8-bit weight-activation quantized Mamba 2.8B SSM benefits from hardware acceleration and achieves a 1.72x lower generation latency on an Nvidia Orin Nano 8G, with only a 0.9% drop in average accuracy on zero-shot tasks. The experiments demonstrate the effectiveness and practical applicability of our approach for deploying SSM-based models of all sizes on both cloud and edge platforms.
- Abstract(参考訳): State Space Models (SSM) は、大きな言語モデルのためのTransformerの魅力的な代替品として登場し、常にメモリの複雑さで最先端の精度を実現し、アテンションベースのネットワークよりも長いコンテキスト長を保持することができる。
長いシーケンスモデリングにおけるSSMの計算効率は、多くのシナリオにおいてトランスフォーマーよりも優れている。
しかし、リクエスト集約型クラウドサービスおよびリソース制限型エッジアプリケーションにおけるSSMの効率性の改善は、依然として大きな課題である。
SSM量子化(SSM Quantization)はこの問題に対する解決策であり、SSMの精度を保ちながら、より広いデプロイメントに適している。
量子化は、モデルサイズを小さくし、現代のコンピュータユニットの低ビット幅加速機能を利用するための一般的な手法であるが、既存の量子化技術はSSMにはあまり適していない。
特に、SSMは選択走査機構(リニアリカレンス)内での高感度な特徴写像と、自己保持モジュールにおけるトークン混合の出力に存在しない出力活性化における大規模なアウトリーチを持つ。
この問題に対処するため,Hadamard変換を用いて,入力アクティベーションの最大値を選択的SSMに抑制し,出力アクティベーションを外れ値のない空間で定量化する静的8ビットSSM量子化法を提案する。
8ビットのウェイトアクティベーションを量子化したMamba 2.8B SSMはハードウェアアクセラレーションの恩恵を受け、Nvidia Orin Nano 8Gでは1.72倍のレイテンシを実現しています。
実験では,クラウドプラットフォームとエッジプラットフォームの両方で,SSMベースのモデルをデプロイするためのアプローチの有効性と実用性を実証した。
関連論文リスト
- Progressive Mixed-Precision Decoding for Efficient LLM Inference [49.05448842542558]
我々は,デコーディングのメモリバウンドネスに対処するために,プログレッシブ・ミックス・プレシジョン・デコーディング(PMPD)を導入する。
PMPDはfp16モデルの行列ベクトル乗算において1.4$-$12.2$times$ Speedupを達成する。
我々の手法は、fp16モデルよりも3.8$-$8.0$times$、均一量子化アプローチよりも1.54$times$のスループット向上をもたらす。
論文 参考訳(メタデータ) (2024-10-17T11:46:33Z) - Rethinking Token Reduction for State Space Models [47.00760373683448]
状態空間モデル(SSM)のための調整・統一されたポストトレーニングトークン削減手法を提案する。
我々のアプローチはトークンの重要性と類似性を統合し、プルーニングとマージの両方を活用する。
本手法は,Mamba-2を用いた6つのベンチマークにおいて,従来の手法と比較して平均精度を5.7%から13.1%向上させる。
論文 参考訳(メタデータ) (2024-10-16T00:06:13Z) - SMR: State Memory Replay for Long Sequence Modeling [19.755738298836526]
本稿では並列畳み込み計算における互換性の限界を克服する新しい非再帰的非一様サンプル処理戦略を提案する。
本研究では,学習可能な記憶を利用する状態記憶再生(SMR)を導入し,学習データと異なるサンプリングポイントでの一般化のために,現在の状態を多段階情報で調整する。
自己回帰言語モデリングとLong Range Arenaにおける長距離モデリングタスクの実験は、一連のSSMモデルに対するSMRメカニズムの一般的な効果を実証している。
論文 参考訳(メタデータ) (2024-05-27T17:53:32Z) - HOPE for a Robust Parameterization of Long-memory State Space Models [51.66430224089725]
線形時間不変(LTI)システムを利用する状態空間モデル(SSM)は、長いシーケンスの学習において有効であることが知られている。
我々は,ハンケル作用素内のマルコフパラメータを利用するLTIシステムに対して,HOPEと呼ばれる新しいパラメータ化手法を開発した。
我々の新しいパラメータ化は、固定時間ウィンドウ内に非遅延メモリを付与し、パッドドノイズのあるシーケンシャルCIFAR-10タスクによって実証的に相関する。
論文 参考訳(メタデータ) (2024-05-22T20:20:14Z) - EfficientState Space Model viaFast Tensor Convolutionand Block Diagonalization [5.260841516691153]
本稿では,マルチインプットマルチアウトプットSSMに基づく新しい状態空間層,すなわち効率的なSSMを提案する。
我々のeSSMは、マルチインプットおよびマルチインプット(MIMO)SSMの畳み込み表現に基づいて構築されている。
モデル効率ベンチマークでは、eSSMのパラメータはLSTMの12.89%、Mambaの13.24%に過ぎなかった。
論文 参考訳(メタデータ) (2024-02-23T12:36:31Z) - DeepGEMM: Accelerated Ultra Low-Precision Inference on CPU Architectures
using Lookup Tables [49.965024476651706]
DeepGEMMはSIMDハードウェア上で超高精度畳み込みニューラルネットワークを実行するためのルックアップテーブルベースのアプローチである。
実装は、x86プラットフォーム上で、対応する8ビット整数カーネルを最大1.74倍の性能で上回る。
論文 参考訳(メタデータ) (2023-04-18T15:13:10Z) - AMED: Automatic Mixed-Precision Quantization for Edge Devices [3.5223695602582614]
量子ニューラルネットワークは、レイテンシ、消費電力、モデルサイズをパフォーマンスに大きな影響を与えずに減少させることでよく知られている。
混合精度量子化は、異なるビット幅での算術演算をサポートするカスタマイズされたハードウェアのより良い利用を提供する。
論文 参考訳(メタデータ) (2022-05-30T21:23:22Z) - PAMS: Quantized Super-Resolution via Parameterized Max Scale [84.55675222525608]
深部畳み込みニューラルネットワーク(DCNN)は超解像処理(SR)において優位な性能を示した
本稿では,PAMS(Parameterized Max Scale)と呼ばれる新しい量子化手法を提案する。
実験により,提案手法はEDSRやRDNなどの既存のSRモデルを適切に圧縮・高速化できることが示された。
論文 参考訳(メタデータ) (2020-11-09T06:16:05Z) - Leveraging Automated Mixed-Low-Precision Quantization for tiny edge
microcontrollers [76.30674794049293]
本稿では、HAQフレームワークに基づく自動混合精度量子化フローを提案するが、MCUデバイスのメモリおよび計算特性に特化している。
具体的には、強化学習エージェントは、個々の重みとアクティベーションテンソルの2, 4, 8ビットのうち、最高の均一量子化レベルを探索する。
重量のみの量子化のために2MBに制限されたMCUクラスのメモリが与えられた場合、混合精度エンジンによって生成された圧縮されたモデルは、最先端のソリューションと同じくらい正確である。
論文 参考訳(メタデータ) (2020-08-12T06:09:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。