論文の概要: OuroMamba: A Data-Free Quantization Framework for Vision Mamba Models
- arxiv url: http://arxiv.org/abs/2503.10959v1
- Date: Thu, 13 Mar 2025 23:58:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-17 13:09:05.241665
- Title: OuroMamba: A Data-Free Quantization Framework for Vision Mamba Models
- Title(参考訳): OuroMamba:ビジョンマンバモデルのためのデータフリー量子化フレームワーク
- Authors: Akshat Ramachandran, Mingyu Lee, Huan Xu, Souvik Kundu, Tushar Krishna,
- Abstract要約: We present OuroMamba, first data-free post-training Quantization (DFQ) method for vision Mamba-based model (VMMs)。
WeoMamba-Gen to generate semantically rich and meaningful synthesis data; 2) OuroMamba-Quant to use mixed-precision Quantization with light dynamic outlier detection during inference。
- 参考スコア(独自算出の注目度): 15.757637971482477
- License:
- Abstract: We present OuroMamba, the first data-free post-training quantization (DFQ) method for vision Mamba-based models (VMMs). We identify two key challenges in enabling DFQ for VMMs, (1) VMM's recurrent state transitions restricts capturing of long-range interactions and leads to semantically weak synthetic data, (2) VMM activations exhibit dynamic outlier variations across time-steps, rendering existing static PTQ techniques ineffective. To address these challenges, OuroMamba presents a two-stage framework: (1) OuroMamba-Gen to generate semantically rich and meaningful synthetic data. It applies contrastive learning on patch level VMM features generated through neighborhood interactions in the latent state space, (2) OuroMamba-Quant to employ mixed-precision quantization with lightweight dynamic outlier detection during inference. In specific, we present a thresholding based outlier channel selection strategy for activations that gets updated every time-step. Extensive experiments across vision and generative tasks show that our data-free OuroMamba surpasses existing data-driven PTQ techniques, achieving state-of-the-art performance across diverse quantization settings. Additionally, we implement efficient GPU kernels to achieve practical latency speedup of up to 2.36x. Code will be released soon.
- Abstract(参考訳): We present OuroMamba, a first data-free post-training Quantization (DFQ) method for vision Mamba-based model (VMMs)。
1)VMMのリカレント状態遷移は長距離相互作用のキャプチャを制限し、セマンティックに弱い合成データをもたらす。(2)VMMのアクティベーションは時間ステップにまたがる動的外乱変動を示し、既存の静的PTQテクニックを効果的にレンダリングする。
これらの課題に対処するために、OuroMambaは、(1)意味的にリッチで意味のある合成データを生成するためのOuroMamba-Genという2段階のフレームワークを提示している。
潜在状態空間における近傍相互作用によって生成されたパッチレベルVMMの特徴を対照的に学習し、(2)OuroMamba-Quantを用いて、推論中に軽量な動的外れ値検出を行う。
具体的には、時間毎に更新されるアクティベーションのためのしきい値に基づく外部チャネル選択戦略を示す。
ビジョンと生成タスクにわたる大規模な実験により、私たちのデータフリーのOuroMambaは、既存のデータ駆動型PTQ技術を超え、さまざまな量子化設定で最先端のパフォーマンスを実現しています。
さらに,高速なGPUカーネルを実装し,最大2.36倍の遅延高速化を実現した。
コードはまもなくリリースされる。
関連論文リスト
- PTQ4VM: Post-Training Quantization for Visual Mamba [9.446971590056945]
本稿では,PTS(Per-Token Static Quantization)とJLSS(Joint Learning of Smoothing Scale and Step Size)の2つの主要な戦略を紹介する。
PTQ4VM は様々な Visual Mamba のバックボーンに適用でき、事前訓練されたモデルを15分以内で量子化されたフォーマットに変換する。
論文 参考訳(メタデータ) (2024-12-29T07:21:33Z) - Mamba-SEUNet: Mamba UNet for Monaural Speech Enhancement [54.427965535613886]
Mambaは、新しいステートスペースモデル(SSM)として、自然言語処理やコンピュータビジョンに広く応用されている。
本稿では,MambaとU-Net for SEタスクを統合する革新的なアーキテクチャであるMamba-SEUNetを紹介する。
論文 参考訳(メタデータ) (2024-12-21T13:43:51Z) - Look Every Frame All at Once: Video-Ma$^2$mba for Efficient Long-form Video Understanding with Multi-Axis Gradient Checkpointing [52.050036778325094]
Video-Ma$2$mbaは、Mamba-2フレームワークにステートスペースモデル(SSM)を組み込んだ新しいアーキテクチャである。
本手法は,標準勾配チェックポイントに比べてメモリフットプリントを大幅に削減する。
時間的ダイナミクスの詳細なキャプチャーを維持することで、長いビデオ理解タスクにおける応答の精度と関連性を改善することができる。
論文 参考訳(メタデータ) (2024-11-29T04:12:13Z) - MobileMamba: Lightweight Multi-Receptive Visual Mamba Network [51.33486891724516]
従来の軽量モデルの研究は、主にCNNとTransformerベースの設計に重点を置いてきた。
効率と性能のバランスをとるMobileMambaフレームワークを提案する。
MobileMambaはTop-1で83.6%を達成し、既存の最先端の手法を上回っている。
論文 参考訳(メタデータ) (2024-11-24T18:01:05Z) - V2M: Visual 2-Dimensional Mamba for Image Representation Learning [68.51380287151927]
Mambaは、フレキシブルな設計と、1Dシーケンスを処理するための効率的なハードウェア性能のために、広く注目を集めている。
最近の研究では、マンバを2D画像をパッチに平らにすることで視覚領域に適用し、それらを1Dシークエンスとして扱うことが試みられている。
2次元空間における画像トークンを直接処理する完全解として,視覚的2次元マンバモデルを提案する。
論文 参考訳(メタデータ) (2024-10-14T11:11:06Z) - SIGMA: Selective Gated Mamba for Sequential Recommendation [56.85338055215429]
最近の進歩であるMambaは、時系列予測において例外的なパフォーマンスを示した。
SIGMA(Selective Gated Mamba)と呼ばれる,シークエンシャルレコメンデーションのための新しいフレームワークを紹介する。
以上の結果から,SIGMAは5つの実世界のデータセットにおいて,現在のモデルよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2024-08-21T09:12:59Z) - DiM-Gesture: Co-Speech Gesture Generation with Adaptive Layer Normalization Mamba-2 framework [2.187990941788468]
生音声のみから、高度にパーソナライズされた3Dフルボディジェスチャーを作成するために作られた生成モデル。
Modelは、Mambaベースのファジィ特徴抽出器と非自己回帰適応層正規化(AdaLN)Mamba-2拡散アーキテクチャを統合している。
論文 参考訳(メタデータ) (2024-08-01T08:22:47Z) - Mamba-in-Mamba: Centralized Mamba-Cross-Scan in Tokenized Mamba Model for Hyperspectral Image Classification [4.389334324926174]
本研究では、このタスクにステートスペースモデル(SSM)をデプロイする最初の試みである、HSI分類のための革新的なMamba-in-Mamba(MiM)アーキテクチャを紹介する。
MiMモデルには,1)イメージをシーケンスデータに変換する新しい集中型Mamba-Cross-Scan(MCS)機構,2)Tokenized Mamba(T-Mamba)エンコーダ,3)Weighted MCS Fusion(WMF)モジュールが含まれる。
3つの公開HSIデータセットによる実験結果から,本手法は既存のベースラインや最先端アプローチよりも優れていることが示された。
論文 参考訳(メタデータ) (2024-05-20T13:19:02Z) - Bi-Mamba+: Bidirectional Mamba for Time Series Forecasting [5.166854384000439]
長期時系列予測(LTSF)は、将来のトレンドとパターンに関するより長い洞察を提供する。
近年,Mamba という新しい状態空間モデル (SSM) が提案されている。
入力データに対する選択的機能とハードウェア対応並列計算アルゴリズムにより、Mambaは予測性能と計算効率のバランスをとる大きな可能性を示した。
論文 参考訳(メタデータ) (2024-04-24T09:45:48Z) - VMamba: Visual State Space Model [98.0517369083152]
状態空間言語モデルであるMambaを、線形時間複雑性を持つビジョンバックボーンであるVMambaに適合させる。
VMambaのコアには2D Selective Scan (SS2D)モジュールを備えたVisual State-Space (VSS)ブロックのスタックがある。
論文 参考訳(メタデータ) (2024-01-18T17:55:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。