論文の概要: MambaQuant: Quantizing the Mamba Family with Variance Aligned Rotation Methods
- arxiv url: http://arxiv.org/abs/2501.13484v1
- Date: Thu, 23 Jan 2025 08:57:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-24 15:59:49.680234
- Title: MambaQuant: Quantizing the Mamba Family with Variance Aligned Rotation Methods
- Title(参考訳): MambaQuant: 可変回転法によるMambaファミリーの定量化
- Authors: Zukang Xu, Yuxuan Yue, Xing Hu, Zhihang Yuan, Zixu Jiang, Zhixuan Chen, Jiangyong Yu, Chen Xu, Sifan Zhou, Dawei Yang,
- Abstract要約: MambaはTransformersと競合する効率的なシーケンスモデルである。
CNNやTransformerモデルに有効な既存の量子化手法は、Mambaでは不十分である。
本稿では,(1)KLT(Karhunen-Loeve Transformation)拡張回転,(2)チャネル分布に適応可能な回転行列の描画,(2)チャネルの分散を等化して,追加パラメータをモデル重みにマージする,といった学習後の量子化フレームワークであるMambaQuantを提案する。
- 参考スコア(独自算出の注目度): 10.08926186041001
- License:
- Abstract: Mamba is an efficient sequence model that rivals Transformers and demonstrates significant potential as a foundational architecture for various tasks. Quantization is commonly used in neural networks to reduce model size and computational latency. However, applying quantization to Mamba remains underexplored, and existing quantization methods, which have been effective for CNN and Transformer models, appear inadequate for Mamba models (e.g., Quarot suffers a 21% accuracy drop on Vim-T$^\dagger$ even under W8A8). We have pioneered the exploration of this issue and identified several key challenges. First, significant outliers are present in gate projections, output projections, and matrix multiplications. Second, Mamba's unique parallel scan further amplifies these outliers, leading to uneven and heavy-tailed data distributions. Third, even with the application of the Hadamard transform, the variance across channels in weights and activations still remains inconsistent. To these ends, we propose MambaQuant, a post-training quantization (PTQ) framework consisting of: 1) Karhunen-Loeve Transformation (KLT) enhanced rotation, rendering the rotation matrix adaptable to diverse channel distributions. 2) Smooth-Fused rotation, which equalizes channel variances and can merge additional parameters into model weights. Experiments show that MambaQuant can quantize both weights and activations into 8-bit with less than 1% accuracy loss for Mamba-based vision and language tasks. To the best of our knowledge, MambaQuant is the first comprehensive PTQ design for the Mamba family, paving the way for further advancements in its application.
- Abstract(参考訳): MambaはTransformerと競合する効率的なシーケンスモデルであり、様々なタスクの基礎となるアーキテクチャとして大きな可能性を示している。
量子化は、モデルサイズと計算遅延を低減するためにニューラルネットワークで一般的に使用される。
しかし、マンバへの量子化の適用は未定であり、CNNやトランスフォーマーモデルに有効な既存の量子化法は、マンバモデルでは不十分である(例えば、QuarotはVim-T$^\dagger$でも21%の精度低下を被る)。
私たちはこの問題の先駆者となり、いくつかの重要な課題を特定しました。
第一に、ゲート射影、出力射影、行列乗算に重要な外れ値が存在する。
第二に、Mambaのユニークな並列スキャンはこれらの外れ値をさらに増幅し、不均一で重み付きデータ分布をもたらす。
第3に、アダマール変換を応用しても、重みと活性化のチャネル間のばらつきはいまだに矛盾しない。
これらの目的のために, 後学習量子化(PTQ)フレームワークであるMambaQuantを提案する。
1) カーフン-ローブ変換(KLT)により回転が促進され, 多様なチャネル分布に適応する回転行列が得られた。
2) チャネルのばらつきを等しくし, 付加パラメータをモデル重みにマージするスムースフューズド・ローテーション。
実験によると、MambaQuantは重量とアクティベーションの両方を8ビットに定量化でき、Mambaベースの視覚と言語タスクの精度損失は1%以下である。
われわれの知る限りでは、MambaQuantはMambaファミリーにとって初めての総合的なPTQデザインであり、その応用のさらなる進歩への道を開いた。
関連論文リスト
- Bi-Mamba: Towards Accurate 1-Bit State Space Models [28.478762133816726]
Bi-Mambaは、より効率的な大規模言語モデルのために設計されたスケーラブルでパワフルな1ビットのMambaアーキテクチャである。
Bi-Mambaは完全な精度(FP16やBF16など)に匹敵するパフォーマンスを実現し、ポストトレーニングバイナリ化(PTB)のMambaベースラインよりもはるかに精度が高い。
論文 参考訳(メタデータ) (2024-11-18T18:59:15Z) - MaskMamba: A Hybrid Mamba-Transformer Model for Masked Image Generation [63.73137438677585]
MaskMambaは、MambaとTransformerアーキテクチャを組み合わせた新しいハイブリッドモデルである。
トランスフォーマーよりも2048時間2048ドルという解像度で、推論速度が54.44%向上した。
論文 参考訳(メタデータ) (2024-09-30T04:28:55Z) - The Mamba in the Llama: Distilling and Accelerating Hybrid Models [76.64055251296548]
注目層からの線形射影重みを学術的なGPU資源で再利用することにより,大規模な変換器を線形RNNに蒸留する方法を示す。
結果として得られたハイブリッドモデルは、チャットベンチマークのオリジナルのTransformerに匹敵するパフォーマンスを達成する。
また,Mambaとハイブリッドモデルの推論速度を高速化するハードウェア対応投機的復号アルゴリズムを導入する。
論文 参考訳(メタデータ) (2024-08-27T17:56:11Z) - Snakes and Ladders: Two Steps Up for VideoMamba [10.954210339694841]
本稿では,自尊心とマンバの差異を理論的に分析する。
本稿では, VideoMamba を1.6-2.8%, 1.1-1.9% で上回る VideoMambaPro モデルを提案する。
我々の2つの解決策は、Vision Mambaモデルの最近の進歩であり、将来のモデルにさらなる改善をもたらす可能性が高い。
論文 参考訳(メタデータ) (2024-06-27T08:45:31Z) - Venturing into Uncharted Waters: The Navigation Compass from Transformer to Mamba [77.21394300708172]
ディープニューラルネットワークアーキテクチャであるTransformerは、長年、自然言語処理などの分野を支配してきた。
マンバの最近の導入は、その優位性に挑戦し、研究者の間でかなりの関心を喚起し、マンバをベースとした一連のモデルが顕著な可能性を示している。
本研究は,総合的な議論をまとめ,本質的な研究の側面に潜り込み,(1)構造的状態空間モデルの原理に基づくマンバ機構の機能とその基盤,(2)提案されたマンバの様々なネットワークへの統合,(3)トランスフォーマーの代替としての可能性を探る。
論文 参考訳(メタデータ) (2024-06-24T15:27:21Z) - Q-Mamba: On First Exploration of Vision Mamba for Image Quality Assessment [15.320011514412437]
我々は、最近人気になった基礎モデルであるステートスペースモデル(State Space Model/Mamba)を、画像品質評価において初めて探求する。
本稿では,3つの重要なIQAタスクに対して,Q-Mambaモデルを再検討し適応させることにより,Q-Mambaを提案する。
提案するStylePromptは,より少ない計算コストで知覚伝達能力を向上させる。
論文 参考訳(メタデータ) (2024-06-13T19:21:01Z) - An Empirical Study of Mamba-based Language Models [69.74383762508805]
Mambaのような選択的な状態空間モデル(SSM)はトランスフォーマーの欠点を克服する。
同じデータセット上で訓練された8B-context Mamba, Mamba-2, Transformer モデルを直接比較する。
8BのMamba-2-Hybridは、12の標準タスクで8BのTransformerを上回っている。
論文 参考訳(メタデータ) (2024-06-12T05:25:15Z) - Demystify Mamba in Vision: A Linear Attention Perspective [72.93213667713493]
Mambaは線形計算複雑性を持つ効率的な状態空間モデルである。
我々は,Mambaが線形アテンショントランスフォーマーと驚くほど類似していることを示す。
本稿では,これら2つの鍵設計の利点を線形注意に取り入れた,マンバインスパイアされた線形注意(MILA)モデルを提案する。
論文 参考訳(メタデータ) (2024-05-26T15:31:09Z) - ReMamber: Referring Image Segmentation with Mamba Twister [51.291487576255435]
ReMamberは、マルチモーダルなMamba TwisterブロックとMambaのパワーを統合する新しいRISアーキテクチャである。
Mamba Twisterは画像とテキストのインタラクションを明示的にモデル化し、独自のチャネルと空間的ツイスト機構を通じてテキストと視覚的特徴を融合する。
論文 参考訳(メタデータ) (2024-03-26T16:27:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。