論文の概要: QuarterMap: Efficient Post-Training Token Pruning for Visual State Space Models
- arxiv url: http://arxiv.org/abs/2507.09514v1
- Date: Sun, 13 Jul 2025 06:49:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-15 18:48:23.374936
- Title: QuarterMap: Efficient Post-Training Token Pruning for Visual State Space Models
- Title(参考訳): QuarterMap: ビジュアルステートスペースモデルのための効率的な後処理
- Authors: Tien-Yu Chi, Hung-Yueh Chiang, Diana Marculescu, Kai-Chiang Wu,
- Abstract要約: QuarterMapはスキャンする前に余分な空間的アクティベーションを取り除き、最寄りのアップサンプリングを通じて次元を復元する。
ImageNet-1Kでは、QuarterMapは0.9%の精度低下でVMamba上で11%のスピードアップを達成し、ADE20Kセグメンテーションでも同様の利得が得られる。
同一の4方向走査構造を持つドメイン固有モデルであるMedMamba上でQuarterMapを検証する。
- 参考スコア(独自算出の注目度): 8.543701468361395
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: State space models (SSMs) reduce the quadratic complexity of transformers by leveraging linear recurrence. Recently, VMamba has emerged as a strong SSM-based vision backbone, yet remains bottlenecked by spatial redundancy in its four-directional scan. We propose QuarterMap, a post-training activation pruning method that removes redundant spatial activations before scanning and restores dimensions via nearest-neighbor upsampling. Our method improves throughput without retraining. On ImageNet-1K, QuarterMap achieves up to 11% speedup on VMamba with less than 0.9% accuracy drop, and yields similar gains on ADE20K segmentation. Beyond VMamba, we validate QuarterMap on MedMamba, a domain-specific model that shares the same four-directional scanning structure, where it consistently improves throughput while preserving accuracy across multiple medical imaging tasks. Compared to token merging methods like ToMe, QuarterMap is tailored for SSMs and avoids costly merge-unmerge operations. Our method offers a plug-and-play tool for deployment-time efficiency without compromising transferability.
- Abstract(参考訳): 状態空間モデル(SSM)は、線形再帰を利用して変換器の二次的複雑性を減少させる。
最近、VMambaは強力なSSMベースの視覚バックボーンとして登場したが、その4方向スキャンでは空間的冗長性によってボトルネックが残っている。
そこで本研究では,近隣のアサンプリングを用いて寸法をスキャン・復元する前に余分な空間的アクティベーションを除去する,訓練後のアクティベーションプルーニング手法であるQuarterMapを提案する。
我々の方法は再訓練せずにスループットを向上する。
ImageNet-1Kでは、QuarterMapは0.9%の精度でVMamba上で最大11%のスピードアップを実現し、ADE20Kセグメンテーションでも同様のゲインを得る。
VMamba以外にも、同じ4方向走査構造を共有するドメイン固有のモデルであるMedMamba上でQuarterMapを検証する。
ToMeのようなトークンマージメソッドと比較して、QuarterMapはSSM用に調整されており、コストのかかるマージアンマージ操作を回避する。
本手法は,トランスファビリティを損なうことなく,デプロイ時の効率を向上するプラグイン・アンド・プレイツールを提供する。
関連論文リスト
- MambaMap: Online Vectorized HD Map Construction using State Space Model [11.15033113060733]
MambaMapは、オンラインベクター化されたHDマップを構築するために、状態空間の長い時間的特徴を効率的に融合する新しいフレームワークである。
具体的には、MambaMapにはメモリバンクが組み込まれており、過去のフレームから情報を保存して活用している。
さらに,BEVとインスタンスレベルの特徴抽出を強化するために,革新的な多方向・時空間走査方式を設計する。
論文 参考訳(メタデータ) (2025-07-27T11:09:27Z) - StruMamba3D: Exploring Structural Mamba for Self-supervised Point Cloud Representation Learning [31.585380521480868]
自己教師付きポイントクラウド表現学習のための新しいパラダイムであるStruMamba3Dを提案する。
空間状態を設計し,それらをプロキシとして用いて点間の空間的依存関係を保存する。
提案手法は,ModelNet40上でのSOTA 95.1%の精度と,投票戦略を使わずに最も難しい分割ScanObjectNN上での92.75%の精度を実現する。
論文 参考訳(メタデータ) (2025-06-26T17:58:05Z) - V"Mean"ba: Visual State Space Models only need 1 hidden dimension [0.7864304771129751]
状態空間モデル (SSM) は線形再帰機構を導入して解法として登場した。
平均演算を用いてSSMのチャネル次元を除去する,トレーニング不要な圧縮手法である textitVMeanba を導入する。
textitVMeanbaは1.12倍のスピードアップを達成でき、精度は3%以下である。
論文 参考訳(メタデータ) (2024-12-21T12:27:07Z) - MambaIRv2: Attentive State Space Restoration [96.4452232356586]
マンバをベースとした画像復元バックボーンは、最近、グローバルレセプションと計算効率のバランスをとる大きな可能性を証明している。
本稿では,空間復元モデルに到達するために,MambaとViTsに似た非因果モデリング能力を備えたMambaIRv2を提案する。
論文 参考訳(メタデータ) (2024-11-22T12:45:12Z) - MambaVC: Learned Visual Compression with Selective State Spaces [74.29217829932895]
本稿では,SSMに基づくシンプルで強力で効率的な圧縮ネットワークであるMambaVCを紹介する。
MambaVC は2次元選択的走査 (2DSS) モジュールを備えた視覚状態空間 (VSS) ブロックを各ダウンサンプリング後の非線形活性化関数として開発する。
圧縮ベンチマークデータセットでは、MambaVCはより低い計算とメモリオーバーヘッドでより優れたレート歪み性能を達成する。
論文 参考訳(メタデータ) (2024-05-24T10:24:30Z) - Coordinate Transformer: Achieving Single-stage Multi-person Mesh
Recovery from Videos [91.44553585470688]
ビデオから複数人の3Dメッシュを回収することは、バーチャルリアリティーや理学療法などにおけるグループ行動の自動認識に向けた重要な第一歩である。
本稿では,複数人物の時空間関係を直接モデル化し,同時にエンドツーエンドでマルチ・メッシュ・リカバリを行うコーディネート・トランスフォーマーを提案する。
3DPWデータセットの実験では、CoordFormerが最先端の精度を大幅に向上し、MPJPE、PAMPJPE、PVEの計測値でそれぞれ4.2%、8.8%、そして4.7%を上回った。
論文 参考訳(メタデータ) (2023-08-20T18:23:07Z) - NeuMap: Neural Coordinate Mapping by Auto-Transdecoder for Camera
Localization [60.73541222862195]
NeuMapは、カメラのローカライゼーションのためのエンドツーエンドのニューラルマッピング手法である。
シーン全体を遅延コードグリッドにエンコードし、Transformerベースのオートデコーダがクエリピクセルの3D座標を回帰する。
論文 参考訳(メタデータ) (2022-11-21T04:46:22Z) - CloudAttention: Efficient Multi-Scale Attention Scheme For 3D Point
Cloud Learning [81.85951026033787]
この作業にトランスフォーマーをセットし、それらを形状分類と部分およびシーンセグメンテーションのための階層的なフレームワークに組み込む。
また、各イテレーションにおけるサンプリングとグループ化を活用して、効率的でダイナミックなグローバルなクロスアテンションを計算します。
提案した階層モデルは,最先端の形状分類を平均精度で達成し,従来のセグメンテーション法と同等の結果を得る。
論文 参考訳(メタデータ) (2022-07-31T21:39:15Z) - Trans4Map: Revisiting Holistic Top-down Mapping from Egocentric Images
to Allocentric Semantics with Vision Transformers [34.6312362205904]
我々はTrans4Mapと呼ばれるマッピングのためのエンドツーエンドのワンステージトランスフォーマーベースのフレームワークを提案する。
Trans4Mapは67.2%のパラメータを削減しつつ、+3.25% mIoUと+4.09% mBF1の改善をMatterport3Dデータセットで達成している。
論文 参考訳(メタデータ) (2022-07-13T14:01:00Z) - Generic Merging of Structure from Motion Maps with a Low Memory
Footprint [3.7838598767969502]
効率的で柔軟で堅牢なマップマージを可能にする新しいツールを紹介します。
シミュレーションデータと実データ – 手持ちの携帯電話とドローンの両方から – を用いることで,提案手法の性能を検証する。
論文 参考訳(メタデータ) (2021-03-24T15:03:25Z) - HM4: Hidden Markov Model with Memory Management for Visual Place
Recognition [54.051025148533554]
自律運転における視覚的位置認識のための隠れマルコフモデルを提案する。
我々のアルゴリズムはHM$4$と呼ばれ、時間的ルックアヘッドを利用して、有望な候補画像をパッシブストレージとアクティブメモリ間で転送する。
固定被覆領域に対して一定の時間と空間推定が可能であることを示す。
論文 参考訳(メタデータ) (2020-11-01T08:49:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。