論文の概要: MambaScope: Coarse-to-Fine Scoping for Efficient Vision Mamba
- arxiv url: http://arxiv.org/abs/2512.00647v1
- Date: Sat, 29 Nov 2025 21:58:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:34.342682
- Title: MambaScope: Coarse-to-Fine Scoping for Efficient Vision Mamba
- Title(参考訳): MambaScope:高能率視覚マンバのための粗いフィンスコーピング
- Authors: Shanhui Liu, Rui Xu, Yunke Wang,
- Abstract要約: Vision MambaはVision Transformersの、有望で効率的な代替品として登場した。
効率的な推論のための適応型フレームワークであるtextitCoarse-to-Fine Vision Mamba (CF-ViM) を提案する。
- 参考スコア(独自算出の注目度): 8.769339443165029
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision Mamba has emerged as a promising and efficient alternative to Vision Transformers, yet its efficiency remains fundamentally constrained by the number of input tokens. Existing token reduction approaches typically adopt token pruning or merging to reduce computation. However, they inherently lead to information loss, as they discard or compress token representations. This problem is exacerbated when applied uniformly to fine-grained token representations across all images, regardless of visual complexity. We observe that not all inputs require fine-grained processing. Simple images can be effectively handled at coarse resolution, while only complex ones may warrant refinement. Based on this insight, we propose \textit{Coarse-to-Fine Vision Mamba (CF-ViM)}, an adaptive framework for efficient inference. CF-ViM first performs coarse-grained inference by dividing the input image into large patches, significantly reducing the token length and computation. When the model's prediction confidence is low, selected regions are re-processed at a finer resolution to recover critical visual details with minimal additional cost. This dynamic resolution assignment strategy allows CF-ViM to allocate computation adaptively according to image complexity, ensuring efficient processing without compromising essential visual information. Experiments on ImageNet demonstrate that CF-ViM outperforms both the baseline Vision Mamba and state-of-the-art token reduction techniques in terms of accuracy and efficiency.
- Abstract(参考訳): Vision MambaはVision Transformersに代わる有望で効率的な代替品として登場したが、その効率性は入力トークンの数によって基本的に制限されている。
既存のトークン削減アプローチでは、計算量を減らすためにトークンプルーニングやマージを採用するのが一般的である。
しかし、それらは本質的には、トークン表現を捨てたり圧縮したりするため、情報損失につながる。
この問題は、視覚的複雑さに関わらず、すべての画像にまたがる微細なトークン表現に一様に適用した場合、さらに悪化する。
すべての入力がきめ細かな処理を必要とするわけではない。
単純な画像は粗い解像度で効果的に処理できるが、複雑な画像だけが精細化を保証できる。
この知見に基づいて,効率的な推論のための適応型フレームワークである「textit{Coarse-to-Fine Vision Mamba (CF-ViM)} を提案する。
CF-ViMは、入力画像を大きなパッチに分割して粗粒度推論を行い、トークン長と計算を著しく削減する。
モデルの予測信頼度が低い場合には、選択された領域をより微細な解像度で再処理し、最小のコストで重要な視覚的詳細を回復する。
この動的解像度割当戦略により、CF-ViMは画像の複雑さに応じて適応的に計算を割り当てることができ、重要な視覚情報を妥協することなく効率的な処理を確保することができる。
ImageNetの実験では、CF-ViMはベースラインのVision Mambaと最先端のトークン削減技術の両方を精度と効率で上回っている。
関連論文リスト
- CATP: Contextually Adaptive Token Pruning for Efficient and Enhanced Multimodal In-Context Learning [15.733788584792388]
マルチモーダル・イン・コンテクスト・ラーニング(ICL)を対象とした学習自由プルーニング手法であるCATP(Contextual Adaptive Token Pruning)を提案する。
画像トークンの77.8%を取り除いた後、CATPは4つのLVLMと8つのベンチマークでバニラモデルよりも平均0.6%の性能向上を達成した。
平均10.78%のレイテンシ削減を達成することで効率を効果的に向上する。
論文 参考訳(メタデータ) (2025-08-11T11:41:51Z) - VFlowOpt: A Token Pruning Framework for LMMs with Visual Information Flow-Guided Optimization [70.98122339799218]
LMM(Large Multimodal Models)は、多数の視覚トークンを微粒な視覚情報に活用することにより、視覚言語タスクに優れる。
推論中の視覚トークンを減らすことを目的とした以前の研究は、一般的に、視覚のみのトークンや視覚言語トークンの注意スコアから得られた重要マップを利用して、1つまたは複数のプルーニング段階にわたってトークンをプルーンする。
重要地図導出プロセスとリサイクル機構を備えたプログレッシブプルーニングモジュールを導入したトークンプルーニングフレームワークであるVFlowOptを提案する。
実験により、VFlowOptは、同等のパフォーマンスを維持しながら、90%のビジュアルトークンをプルークでき、KVキャッシュメモリが89%削減され、3.8になった。
論文 参考訳(メタデータ) (2025-08-07T09:47:21Z) - Training-free Token Reduction for Vision Mamba [21.451182941570394]
Vision MambaはVitual Transformers(ViTs)の強力なライバルとして登場した
ViTのトークン削減技術をVision Mambaに適用すると、パフォーマンスが大幅に低下する。
トレーニング不要なtextbfMamba textbfToken textbfReduction フレームワーク MTR を提案する。
論文 参考訳(メタデータ) (2025-07-18T16:11:28Z) - VisionThink: Smart and Efficient Vision Language Model via Reinforcement Learning [95.89543460132413]
視覚言語モデル(VLM)は、視覚トークンの数を増やすことで性能を改善した。
しかし、現実世界のシナリオの多くは、このような膨大な数の視覚トークンを必要としない。
視覚的トークン圧縮(VisionThink)のための新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2025-07-17T17:59:55Z) - Streamline Without Sacrifice -- Squeeze out Computation Redundancy in LMM [41.796933489107815]
我々は,視覚トークンの計算レベルの冗長性を同定し,情報損失を確実にする。
本稿では,プロキシビジョントークンを用いた新しいアプローチであるProxyVを提案する。
論文 参考訳(メタデータ) (2025-05-21T17:59:52Z) - Efficient Multi-modal Large Language Models via Visual Token Grouping [55.482198808206284]
高解像度の画像やビデオは、彼らの広く普及するための障壁となる。
MLLMにおける視覚トークンの圧縮は、推論コストを削減するための有望なアプローチとして現れている。
本稿では,事前学習した視覚エンコーダの能力を利用して類似画像セグメントをグループ化する,新たなグループ化機構であるVisToGを紹介する。
論文 参考訳(メタデータ) (2024-11-26T09:36:02Z) - Inference Optimal VLMs Need Fewer Visual Tokens and More Parameters [54.01228554126122]
視覚言語モデル(VLM)は、様々な視覚的理解と推論タスクにまたがる強力な能力を示している。
推論コストを削減するために、LLM(Large Language Models)を縮小するか、イメージを表すのに必要な入力トークンの数を削減できる。
高速圧縮に適したトークン圧縮アルゴリズムを設計する第一歩を踏み出す。
論文 参考訳(メタデータ) (2024-11-05T18:54:21Z) - GTP-ViT: Efficient Vision Transformers via Graph-based Token Propagation [30.343504537684755]
ビジョントランスフォーマー(ViT)はコンピュータビジョンの分野に革命をもたらしたが、リソースに制約のあるデバイスへの展開は依然として困難である。
ViTを高速化するために、トークンのプルーニングとトークンのマージアプローチが開発され、計算に関わるトークンの数を減らすことを目的としている。
本稿では,効率的なViTのためのモデル効率と情報保存のバランスをとることの課題を解決するために,グラフベースの新しいToken Propagation(GTP)手法を提案する。
論文 参考訳(メタデータ) (2023-11-06T11:14:19Z) - CageViT: Convolutional Activation Guided Efficient Vision Transformer [90.69578999760206]
本稿では,CageViTと呼ばれる効率的な視覚変換器を提案する。
私たちのCageViTは、現在のTransformersとは違って、新しいエンコーダを使用して、再配置されたトークンを処理する。
実験の結果,提案したCageViTは最新の最先端のバックボーンよりも効率の面で大きな差があることがわかった。
論文 参考訳(メタデータ) (2023-05-17T03:19:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。