論文の概要: Training-free Token Reduction for Vision Mamba
- arxiv url: http://arxiv.org/abs/2507.14042v1
- Date: Fri, 18 Jul 2025 16:11:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-21 20:43:26.351488
- Title: Training-free Token Reduction for Vision Mamba
- Title(参考訳): ビジョンマンバのトレーニング不要化
- Authors: Qiankun Ma, Ziyao Zhang, Chi Su, Jie Chen, Zhen Song, Hairong Zheng, Wen Gao,
- Abstract要約: Vision MambaはVitual Transformers(ViTs)の強力なライバルとして登場した
ViTのトークン削減技術をVision Mambaに適用すると、パフォーマンスが大幅に低下する。
トレーニング不要なtextbfMamba textbfToken textbfReduction フレームワーク MTR を提案する。
- 参考スコア(独自算出の注目度): 21.451182941570394
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision Mamba has emerged as a strong competitor to Vision Transformers (ViTs) due to its ability to efficiently capture long-range dependencies with linear computational complexity. While token reduction, an effective compression technique in ViTs, has rarely been explored in Vision Mamba. Exploring Vision Mamba's efficiency is essential for enabling broader applications. However, we find that directly applying existing token reduction techniques for ViTs to Vision Mamba leads to significant performance degradation. This is primarily because Mamba is a sequence model without attention mechanisms, whereas most token reduction techniques for ViTs rely on attention mechanisms for importance measurement and overlook the order of compressed tokens. In this paper, we investigate a Mamba structure-aware importance score to evaluate token importance in a simple and effective manner. Building on this score, we further propose MTR, a training-free \textbf{M}amba \textbf{T}oken \textbf{R}eduction framework. Without the need for training or additional tuning parameters, our method can be seamlessly integrated as a plug-and-play component across various Mamba models. Extensive experiments demonstrate that our approach significantly reduces computational workload while minimizing performance impact across various tasks and multiple backbones. Notably, MTR reduces FLOPs by approximately 40\% on the Vim-B backbone, with only a 1.6\% drop in ImageNet performance without retraining.
- Abstract(参考訳): Vision MambaはViT(Vision Transformers)の強力なライバルとして登場した。
ViTの効果的な圧縮技術であるトークンの削減は、Vision Mambaではめったに行われていない。
Vision Mambaの効率性を探究することは、より広範なアプリケーションを実現するのに不可欠である。
しかし,ViTのトークン低減技術を直接Vision Mambaに適用すると,性能が著しく低下することがわかった。
これは、マンバが注意機構を持たないシーケンスモデルであるのに対し、ViTのほとんどのトークン還元技術は、重要度測定のための注意機構に依存し、圧縮されたトークンの順序を見落としているためである。
本稿では,マンバ構造を意識した重要度スコアを調査し,トークンの重要度を簡便かつ効果的に評価する。
このスコアに基づいて、トレーニング不要な \textbf{M}amba \textbf{T}oken \textbf{R}eduction framework MTR を提案する。
トレーニングや追加のチューニングパラメータを必要とせず、様々なMambaモデルにまたがるプラグイン・アンド・プレイコンポーネントとしてシームレスに統合できる。
大規模な実験により,本手法は様々なタスクや複数のバックボーンのパフォーマンスへの影響を最小限に抑えながら,計算負荷を大幅に削減することが示された。
特に、MTRは、Vim-Bバックボーン上でFLOPを約40\%削減し、ImageNetのパフォーマンスを再トレーニングすることなく1.6\%低下させる。
関連論文リスト
- Dynamic Vision Mamba [41.84910346271891]
マンバベースの視覚モデルは、注意に基づくモデルよりも計算的に効率的であることから、広く注目を集めている。
トークンの冗長性については、初期トークンプルーニング手法がトレーニングと推論の不整合をもたらすことを解析的に見出した。
ブロック冗長性については,マンバ型視覚モデルの推論速度がSSMブロック数に大きく影響しているという経験的観察に基づいて,各画像が動的にSSMブロックを選択することができる。
論文 参考訳(メタデータ) (2025-04-07T07:31:28Z) - Faster Vision Mamba is Rebuilt in Minutes via Merged Token Re-training [25.165300765309798]
実証的に言えば、プルーニングされたVimsはImageNet-1Kで最大0.9%の精度しか得られず、提案したフレームワークR-MeeToによって復元された。
Vim-Ti/S/Bは5/7/17分以内に再訓練され、Vim-Sは1.2倍(最大1.5倍)の速度で1.3%しか低下しない。
論文 参考訳(メタデータ) (2024-12-17T02:56:35Z) - TinyViM: Frequency Decoupling for Tiny Hybrid Vision Mamba [11.176993272867396]
Mambaはその線形複雑性のためにコンピュータビジョンに大きな可能性を示している。
既存の軽量なMambaベースのバックボーンは、ConvolutionやTransformerベースのメソッドにマッチするパフォーマンスを示すことはできない。
モバイルフレンドリーなコンボリューションと効率的なLaplaceミキサーを組み合わせることで、TinyViMと呼ばれる小さなハイブリッドビジョンを構築できる。
論文 参考訳(メタデータ) (2024-11-26T14:34:36Z) - MobileMamba: Lightweight Multi-Receptive Visual Mamba Network [51.33486891724516]
従来の軽量モデルの研究は、主にCNNとTransformerベースの設計に重点を置いてきた。
効率と性能のバランスをとるMobileMambaフレームワークを提案する。
MobileMambaはTop-1で83.6%を達成し、既存の最先端の手法を上回っている。
論文 参考訳(メタデータ) (2024-11-24T18:01:05Z) - MAP: Unleashing Hybrid Mamba-Transformer Vision Backbone's Potential with Masked Autoregressive Pretraining [23.37555991996508]
本稿では,Masked Autoregressive Pretraining (MAP) を提案する。
実験の結果,MAPで事前トレーニングしたMamba-Transformer視覚バックボーンネットワークは,他の事前トレーニング戦略よりも有意に優れていた。
論文 参考訳(メタデータ) (2024-10-01T17:05:08Z) - Famba-V: Fast Vision Mamba with Cross-Layer Token Fusion [10.854742185190482]
MambaとVision Mamba(Vim)モデルは、Transformerアーキテクチャに基づくメソッドの代替としての可能性を示している。
この研究は、Vimモデルのトレーニング効率を高めるための層間トークン融合技術であるFast Mamba for Vision (Famba-V)を導入している。
論文 参考訳(メタデータ) (2024-09-15T18:02:26Z) - CAS-ViT: Convolutional Additive Self-attention Vision Transformers for Efficient Mobile Applications [73.80247057590519]
ビジョントランスフォーマー(ViT)は、トークンミキサーの強力なグローバルコンテキスト能力によって、ニューラルネットワークの革命的な進歩を示す。
CAS-ViT: Convolutional Additive Self-attention Vision Transformerを導入し、モバイルアプリケーションにおける効率と性能のバランスを実現する。
ImageNet-1Kのパラメータは12M/21Mで83.0%/84.1%である。
論文 参考訳(メタデータ) (2024-08-07T11:33:46Z) - MambaVision: A Hybrid Mamba-Transformer Vision Backbone [54.965143338206644]
視覚応用に適した新しいハイブリッド型Mamba-TransformerバックボーンMambaVisionを提案する。
最終層に自己アテンションブロックを付加したMambaアーキテクチャは,長距離空間依存性を捕捉する能力を大幅に向上することを示す。
ImageNet-1Kデータセットの分類において、MambaVisionの変種は、Top-1の精度とスループットの両方の観点から、最先端(SOTA)のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-07-10T23:02:45Z) - Demystify Mamba in Vision: A Linear Attention Perspective [72.93213667713493]
Mambaは線形計算複雑性を持つ効率的な状態空間モデルである。
我々は,Mambaが線形アテンショントランスフォーマーと驚くほど類似していることを示す。
本稿では,これら2つの鍵設計の利点を線形注意に取り入れた,マンバインスパイアされた線形注意(MILA)モデルを提案する。
論文 参考訳(メタデータ) (2024-05-26T15:31:09Z) - Swin-UMamba: Mamba-based UNet with ImageNet-based pretraining [85.08169822181685]
本稿では,医療画像のセグメンテーションに特化して設計された新しいマンバモデルSwin-UMambaを紹介する。
Swin-UMamba は CNN や ViT,最新の Mamba ベースのモデルと比較して,優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-02-05T18:58:11Z) - VMamba: Visual State Space Model [98.0517369083152]
状態空間言語モデルであるMambaを、線形時間複雑性を持つビジョンバックボーンであるVMambaに適合させる。
VMambaのコアには2D Selective Scan (SS2D)モジュールを備えたVisual State-Space (VSS)ブロックのスタックがある。
論文 参考訳(メタデータ) (2024-01-18T17:55:39Z) - Self-slimmed Vision Transformer [52.67243496139175]
視覚変換器(ViT)は、様々な視覚タスクにおいて一般的な構造となり、CNN(Creative Convolutional Neural Network)よりも優れています。
本稿では,バニラVT,すなわちSiTに対する汎用的な自己スリム学習手法を提案する。
具体的には、まず、ViTの推論効率を向上させる新しいToken Slimming Module (TSM) を設計する。
論文 参考訳(メタデータ) (2021-11-24T16:48:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。