論文の概要: Do VLMs Need Vision Transformers? Evaluating State Space Models as Vision Encoders
- arxiv url: http://arxiv.org/abs/2603.19209v1
- Date: Thu, 19 Mar 2026 17:56:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-20 17:19:06.318339
- Title: Do VLMs Need Vision Transformers? Evaluating State Space Models as Vision Encoders
- Title(参考訳): VLMはビジョントランスを必要とするか? ビジョンエンコーダとしての状態空間モデルの評価
- Authors: Shang-Jui Ray Kuo, Paola Cascante-Bonilla,
- Abstract要約: 大きな視覚言語モデル(VLM)は、しばしば凍結した視覚バックボーンを使用し、その画像特徴は軽量コネクタを通して大きな言語モデルにマッピングされる。
トランスフォーマーベースのエンコーダが標準的な視覚バックボーンであるのに対し、状態空間モデル(SSM)ビジョンバックボーンが強力な代替品であるかどうかを問う。
- 参考スコア(独自算出の注目度): 5.475609165327278
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large vision--language models (VLMs) often use a frozen vision backbone, whose image features are mapped into a large language model through a lightweight connector. While transformer-based encoders are the standard visual backbone, we ask whether state space model (SSM) vision backbones can be a strong alternative. We systematically evaluate SSM vision backbones for VLMs in a controlled setting. Under matched ImageNet-1K initialization, the SSM backbone achieves the strongest overall performance across both VQA and grounding/localization. We further adapt both SSM and ViT-family backbones with detection or segmentation training and find that dense-task tuning generally improves performance across families; after this adaptation, the SSM backbone remains competitive while operating at a substantially smaller model scale. We further observe that (i) higher ImageNet accuracy or larger backbones do not reliably translate into better VLM performance, and (ii) some visual backbones are unstable in localization. Based on these findings, we propose stabilization strategies that improve robustness for both backbone families and highlight SSM backbones as a strong alternative to transformer-based vision encoders in VLMs.
- Abstract(参考訳): 大きな視覚言語モデル(VLM)は、しばしば凍結した視覚バックボーンを使用し、その画像特徴は軽量コネクタを通して大きな言語モデルにマッピングされる。
トランスフォーマーベースのエンコーダが標準的な視覚バックボーンであるのに対し、状態空間モデル(SSM)ビジョンバックボーンが強力な代替品であるかどうかを問う。
制御された環境下でのVLMのためのSSMビジョンバックボーンを体系的に評価した。
一致したImageNet-1Kの初期化の下で、SSMバックボーンはVQAとグラウンド/ローカライゼーションの両方で最高の全体的なパフォーマンスを達成する。
さらに,SSMおよびVTファミリーのバックボーンを検出およびセグメンテーション訓練により適用し,高密度タスクチューニングが家族間パフォーマンスを向上させることが確認された。
私たちはそれをさらに観察する。
(i)ImageNetの精度が高いか、より大きなバックボーンが確実にVLMの性能に変換されない、そして
(ii)いくつかの視覚的バックボーンは局所化において不安定である。
これらの知見に基づき,両バックボーンの堅牢性を向上する安定化戦略を提案し,VLMにおけるトランスフォーマーベースの視覚エンコーダの強力な代替手段としてSSMバックボーンを強調した。
関連論文リスト
- RelayFormer: A Unified Local-Global Attention Framework for Scalable Image and Video Manipulation Localization [50.75654397516163]
様々な解像度とモダリティに対応する統一フレームワークであるRelayFormerを提案する。
RelayFormerは、入力を固定サイズのサブイメージに分割し、Global-Local Relay(GLR)トークンを導入する。
これにより、セマンティックや時間的一貫性などのグローバルなキューを効率よく交換でき、きめ細かいアーティファクトを保存できる。
論文 参考訳(メタデータ) (2025-08-13T03:35:28Z) - Mamba as a Bridge: Where Vision Foundation Models Meet Vision Language Models for Domain-Generalized Semantic Segmentation [23.702783589405236]
Vision Foundation Models(VFM)とVision-Language Models(VLM)はドメイン一般化セマンティック(DGSS)で注目を集めている。
本稿では, VFM と VLM の強度を効率よく組み合わせた, マンバをベースとした新しい融合フレームワーク MFuser を提案する。
提案手法は,高い計算オーバーヘッドを伴わずに,高精度な特徴局所性と強いテキストアライメントを実現する。
論文 参考訳(メタデータ) (2025-04-04T05:44:45Z) - DAMamba: Vision State Space Model with Dynamic Adaptive Scan [51.81060691414399]
状態空間モデル(SSM)は近年、コンピュータビジョンにおいて大きな注目を集めている。
スキャン順序と領域を適応的に割り当てるデータ駆動型動的適応スキャン(DAS)を提案する。
DASをベースとしたビジョンバックボーンDAMambaの提案は,現在のビジョンタスクにおけるMambaモデルよりもはるかに優れている。
論文 参考訳(メタデータ) (2025-02-18T08:12:47Z) - Locality Alignment Improves Vision-Language Models [55.275235524659905]
近年では視覚言語モデル (VLM) が普及しているが、その多くが基本的な空間推論の誤りに悩まされている。
私たちのゴールは、ローカルとグローバルの両方の画像セマンティクスを効果的にキャプチャするビジョンバックボーンでこれを解決することです。
局所性アライメントとMaskEmbedと呼ばれる新しい微調整手順を提案する。
論文 参考訳(メタデータ) (2024-10-14T21:01:01Z) - Vision Mamba: Efficient Visual Representation Learning with Bidirectional State Space Model [48.233300343211205]
We propose a new generic vision backbone with bidirectional Mamba block (Vim)。
Vimは画像列を位置埋め込みでマークし、視覚表現を双方向の状態空間モデルで圧縮する。
その結果,高解像度画像に対するTransformerスタイルの理解において,Vimは計算とメモリの制約を克服できることがわかった。
論文 参考訳(メタデータ) (2024-01-17T18:56:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。