論文の概要: PTQ4VM: Post-Training Quantization for Visual Mamba
- arxiv url: http://arxiv.org/abs/2412.20386v1
- Date: Sun, 29 Dec 2024 07:21:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-31 16:02:32.277800
- Title: PTQ4VM: Post-Training Quantization for Visual Mamba
- Title(参考訳): PTQ4VM: Visual Mambaのポストトレーニング量子化
- Authors: Younghyun Cho, Changhun Lee, Seonggon Kim, Eunhyeok Park,
- Abstract要約: 本稿では,PTS(Per-Token Static Quantization)とJLSS(Joint Learning of Smoothing Scale and Step Size)の2つの主要な戦略を紹介する。
PTQ4VM は様々な Visual Mamba のバックボーンに適用でき、事前訓練されたモデルを15分以内で量子化されたフォーマットに変換する。
- 参考スコア(独自算出の注目度): 9.446971590056945
- License:
- Abstract: Visual Mamba is an approach that extends the selective space state model, Mamba, to vision tasks. It processes image tokens sequentially in a fixed order, accumulating information to generate outputs. Despite its growing popularity for delivering high-quality outputs at a low computational cost across various tasks, Visual Mamba is highly susceptible to quantization, which makes further performance improvements challenging. Our analysis reveals that the fixed token access order in Visual Mamba introduces unique quantization challenges, which we categorize into three main issues: 1) token-wise variance, 2) channel-wise outliers, and 3) a long tail of activations. To address these challenges, we propose Post-Training Quantization for Visual Mamba (PTQ4VM), which introduces two key strategies: Per-Token Static (PTS) quantization and Joint Learning of Smoothing Scale and Step Size (JLSS). To the our best knowledge, this is the first quantization study on Visual Mamba. PTQ4VM can be applied to various Visual Mamba backbones, converting the pretrained model to a quantized format in under 15 minutes without notable quality degradation. Extensive experiments on large-scale classification and regression tasks demonstrate its effectiveness, achieving up to 1.83x speedup on GPUs with negligible accuracy loss compared to FP16. Our code is available at https://github.com/YoungHyun197/ptq4vm.
- Abstract(参考訳): Visual Mambaは、選択された空間状態モデルであるMambaを視覚タスクに拡張するアプローチである。
画像トークンを一定の順序で順次処理し、情報を蓄積して出力を生成する。
様々なタスクにまたがって低い計算コストで高品質なアウトプットを提供するという人気が高まっているにもかかわらず、Visual Mambaは量子化に非常に敏感であり、さらなるパフォーマンス改善が困難である。
分析の結果、Visual Mambaの固定トークンアクセス順序は、ユニークな量子化の問題を導入し、主な3つの問題に分類した。
1)トークン単位の分散
2)チャンネルワイド・アウトレイア、及び
3) 活性化の長い尾。
これらの課題に対処するため、我々は、PTS(Per-Token Static Quantization)とJLSS(Joint Learning of Smoothing Scale and Step Size)の2つの主要な戦略を導入する、Visual Mamba(PTQ4VM)のポストトレーニング量子化を提案する。
私たちの知る限りでは、これはVisual Mambaに関する最初の量子化研究です。
PTQ4VM は様々な Visual Mamba のバックボーンに適用でき、事前訓練されたモデルを15分以内で量子化されたフォーマットに変換する。
大規模分類と回帰タスクに関する大規模な実験では、FP16と比較して、GPU上で最大1.83倍のスピードアップを達成した。
私たちのコードはhttps://github.com/YoungHyun197/ptq4vm.comから入手可能です。
関連論文リスト
- MambaQuant: Quantizing the Mamba Family with Variance Aligned Rotation Methods [10.08926186041001]
MambaはTransformersと競合する効率的なシーケンスモデルである。
CNNやTransformerモデルに有効な既存の量子化手法は、Mambaでは不十分である。
本稿では,(1)KLT(Karhunen-Loeve Transformation)拡張回転,(2)チャネル分布に適応可能な回転行列の描画,(2)チャネルの分散を等化して,追加パラメータをモデル重みにマージする,といった学習後の量子化フレームワークであるMambaQuantを提案する。
論文 参考訳(メタデータ) (2025-01-23T08:57:33Z) - Mamba-SEUNet: Mamba UNet for Monaural Speech Enhancement [54.427965535613886]
Mambaは、新しいステートスペースモデル(SSM)として、自然言語処理やコンピュータビジョンに広く応用されている。
本稿では,MambaとU-Net for SEタスクを統合する革新的なアーキテクチャであるMamba-SEUNetを紹介する。
論文 参考訳(メタデータ) (2024-12-21T13:43:51Z) - MobileMamba: Lightweight Multi-Receptive Visual Mamba Network [51.33486891724516]
従来の軽量モデルの研究は、主にCNNとTransformerベースの設計に重点を置いてきた。
効率と性能のバランスをとるMobileMambaフレームワークを提案する。
MobileMambaはTop-1で83.6%を達成し、既存の最先端の手法を上回っている。
論文 参考訳(メタデータ) (2024-11-24T18:01:05Z) - V2M: Visual 2-Dimensional Mamba for Image Representation Learning [68.51380287151927]
Mambaは、フレキシブルな設計と、1Dシーケンスを処理するための効率的なハードウェア性能のために、広く注目を集めている。
最近の研究では、マンバを2D画像をパッチに平らにすることで視覚領域に適用し、それらを1Dシークエンスとして扱うことが試みられている。
2次元空間における画像トークンを直接処理する完全解として,視覚的2次元マンバモデルを提案する。
論文 参考訳(メタデータ) (2024-10-14T11:11:06Z) - PackMamba: Efficient Processing of Variable-Length Sequences in Mamba training [13.926804198202582]
Mambaは、生成AIの分野で画期的なアーキテクチャとして登場し、長いシーケンスを扱うのに顕著な習熟度を示している。
Mambaの既存のトレーニングフレームワークは、可変長シーケンス入力による非効率性を示す。
可変長シーケンスを効率的に処理する高スループットなMambaであるPackMambaを提案する。
論文 参考訳(メタデータ) (2024-08-07T16:13:43Z) - Q-Mamba: On First Exploration of Vision Mamba for Image Quality Assessment [15.320011514412437]
我々は、最近人気になった基礎モデルであるステートスペースモデル(State Space Model/Mamba)を、画像品質評価において初めて探求する。
本稿では,3つの重要なIQAタスクに対して,Q-Mambaモデルを再検討し適応させることにより,Q-Mambaを提案する。
提案するStylePromptは,より少ない計算コストで知覚伝達能力を向上させる。
論文 参考訳(メタデータ) (2024-06-13T19:21:01Z) - Demystify Mamba in Vision: A Linear Attention Perspective [72.93213667713493]
Mambaは線形計算複雑性を持つ効率的な状態空間モデルである。
我々は,Mambaが線形アテンショントランスフォーマーと驚くほど類似していることを示す。
本稿では,これら2つの鍵設計の利点を線形注意に取り入れた,マンバインスパイアされた線形注意(MILA)モデルを提案する。
論文 参考訳(メタデータ) (2024-05-26T15:31:09Z) - Visual Mamba: A Survey and New Outlooks [33.90213491829634]
最近の選択的構造化状態空間モデルであるMambaは、ロングシーケンスモデリングにおいて優れている。
2024年1月以降、マンバは多様なコンピュータビジョンタスクに積極的に適用されてきた。
本稿では,200以上の論文を分析し,マンバの視覚的アプローチを概観する。
論文 参考訳(メタデータ) (2024-04-29T16:51:30Z) - Is Mamba Capable of In-Context Learning? [63.682741783013306]
GPT-4のような技術基盤モデルの現状は、文脈内学習(ICL)において驚くほどよく機能する
この研究は、新たに提案された状態空間モデルであるMambaが同様のICL能力を持つという実証的な証拠を提供する。
論文 参考訳(メタデータ) (2024-02-05T16:39:12Z) - Pink: Unveiling the Power of Referential Comprehension for Multi-modal
LLMs [49.88461345825586]
本稿では,MLLMの微細な画像理解能力を高めるための新しい枠組みを提案する。
本稿では,既存のデータセットのアノテーションを活用して,命令チューニングデータセットを低コストで構築する手法を提案する。
本研究では,Qwen-VLよりも5.2%精度が向上し,Kosmos-2の精度が24.7%向上したことを示す。
論文 参考訳(メタデータ) (2023-10-01T05:53:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。