論文の概要: Mamba as a Bridge: Where Vision Foundation Models Meet Vision Language Models for Domain-Generalized Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2504.03193v1
- Date: Fri, 04 Apr 2025 05:44:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-14 20:33:36.028817
- Title: Mamba as a Bridge: Where Vision Foundation Models Meet Vision Language Models for Domain-Generalized Semantic Segmentation
- Title(参考訳): Mamba as a Bridge: Vision Foundation Models Meet Vision Language Models for Domain-Generalized Semantic Segmentation
- Authors: Xin Zhang, Robby T. Tan,
- Abstract要約: Vision Foundation Models(VFM)とVision-Language Models(VLM)はドメイン一般化セマンティック(DGSS)で注目を集めている。
本稿では, VFM と VLM の強度を効率よく組み合わせた, マンバをベースとした新しい融合フレームワーク MFuser を提案する。
提案手法は,高い計算オーバーヘッドを伴わずに,高精度な特徴局所性と強いテキストアライメントを実現する。
- 参考スコア(独自算出の注目度): 23.702783589405236
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision Foundation Models (VFMs) and Vision-Language Models (VLMs) have gained traction in Domain Generalized Semantic Segmentation (DGSS) due to their strong generalization capabilities. However, existing DGSS methods often rely exclusively on either VFMs or VLMs, overlooking their complementary strengths. VFMs (e.g., DINOv2) excel at capturing fine-grained features, while VLMs (e.g., CLIP) provide robust text alignment but struggle with coarse granularity. Despite their complementary strengths, effectively integrating VFMs and VLMs with attention mechanisms is challenging, as the increased patch tokens complicate long-sequence modeling. To address this, we propose MFuser, a novel Mamba-based fusion framework that efficiently combines the strengths of VFMs and VLMs while maintaining linear scalability in sequence length. MFuser consists of two key components: MVFuser, which acts as a co-adapter to jointly fine-tune the two models by capturing both sequential and spatial dynamics; and MTEnhancer, a hybrid attention-Mamba module that refines text embeddings by incorporating image priors. Our approach achieves precise feature locality and strong text alignment without incurring significant computational overhead. Extensive experiments demonstrate that MFuser significantly outperforms state-of-the-art DGSS methods, achieving 68.20 mIoU on synthetic-to-real and 71.87 mIoU on real-to-real benchmarks. The code is available at https://github.com/devinxzhang/MFuser.
- Abstract(参考訳): Vision Foundation Models (VFM) と Vision-Language Models (VLM) は、その強力な一般化能力により、Domain Generalized Semantic Segmentation (DGSS) において注目を集めている。
しかしながら、既存のDGSS法は、しばしばVFMまたはVLMにのみ依存し、その相補的な強みを見渡す。
VFM(eg, DINOv2)はきめ細かい特徴を捉えるのに優れ、VLM(eg, CLIP)は頑丈なテキストアライメントを提供するが、粗い粒度には耐えられない。
相補的な長所にもかかわらず、VFMとVLMと注意機構を効果的に統合することは困難であり、パッチトークンの増加は長いシーケンスモデリングを複雑にする。
そこで本研究では,メンバをベースとした新しい融合フレームワークであるMFuserを提案する。
MFuserは2つの重要なコンポーネントで構成されている。MVFuserは、シーケンシャルと空間的ダイナミクスの両方をキャプチャすることで、2つのモデルを協調的に微調整するコアダプターとして機能し、MTEnhancerは、画像プリエンスを組み込むことでテキスト埋め込みを洗練するハイブリッドアテンション-マンバモジュールである。
提案手法は,高い計算オーバーヘッドを伴わずに,高精度な特徴局所性と強いテキストアライメントを実現する。
大規模な実験により、MFuserは最先端のDGSS法を著しく上回り、合成から現実のベンチマークでは68.20 mIoU、実際のベンチマークでは71.87 mIoUを達成した。
コードはhttps://github.com/devinxzhang/MFuser.comで入手できる。
関連論文リスト
- LAMIC: Layout-Aware Multi-Image Composition via Scalability of Multimodal Diffusion Transformer [32.9330637921386]
LAMICはレイアウト対応のマルチイメージコンポジションフレームワークである。
単一の参照拡散モデルをトレーニング不要な方法でマルチ参照シナリオに拡張する。
ID-S、BG-S、IN-R、AVGのスコアにおいて、既存のマルチ参照ベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2025-08-01T09:51:54Z) - Reprogramming Vision Foundation Models for Spatio-Temporal Forecasting [12.591771385493509]
汎用ロバストネス・時間予測のためのビジョン・ファンデーション・モデル(VFM)を体系的に再プログラミングするフレームワークであるtextST-VFMを提案する。
このフレームワークは、生の入力と補助的なSTフローを統合し、フローは動的キューとして解釈可能な軽量の時間差信号を符号化する。
Emphpre-VFMリプログラミングでは、Temporal-Aware Tokenを使用して、両方のブランチをVFM互換の機能空間に整列させる。
emphpost-VFMリプログラミングでは、分岐間の動的相互作用を可能にするバイラテラルクロスプロンプトコーディネートモジュールが導入されている。
論文 参考訳(メタデータ) (2025-07-14T08:33:34Z) - MoCa: Modality-aware Continual Pre-training Makes Better Bidirectional Multimodal Embeddings [75.0617088717528]
MoCaは、トレーニング済みのVLMバックボーンを効果的な双方向埋め込みモデルに変換するためのフレームワークである。
MoCaは、MMEBとViDoRe-v2ベンチマークのパフォーマンスを継続的に改善し、新しい最先端の結果を達成する。
論文 参考訳(メタデータ) (2025-06-29T06:41:00Z) - vGamba: Attentive State Space Bottleneck for efficient Long-range Dependencies in Visual Recognition [0.0]
状態空間モデル(SSM)は代替手段を提供するが、視界での応用は未定である。
この研究は、効率性と表現性を高めるために、SSMと注意機構を統合するハイブリッドビジョンバックボーンであるvGambaを導入している。
分類、検出、セグメンテーションタスクのテストでは、vGambaは精度と計算効率のトレードオフが優れており、既存のモデルよりも優れていることが示されている。
論文 参考訳(メタデータ) (2025-03-27T08:39:58Z) - ContextFormer: Redefining Efficiency in Semantic Segmentation [48.81126061219231]
畳み込み法は、局所的な依存関係をうまく捉えるが、長距離関係に苦慮する。
ビジョントランスフォーマー(ViT)は、グローバルなコンテキストキャプチャでは優れるが、高い計算要求によって妨げられる。
我々は,リアルタイムセマンティックセグメンテーションの効率,精度,堅牢性のバランスをとるために,CNN と ViT の強みを活用したハイブリッドフレームワーク ContextFormer を提案する。
論文 参考訳(メタデータ) (2025-01-31T16:11:04Z) - Selective State Space Memory for Large Vision-Language Models [0.0]
State Space Memory Integration (SSMI)は、LVLMの効率的な微調整のための新しいアプローチである。
SSMIは長距離依存関係をキャプチャし、タスク固有の視覚的およびシーケンシャルなパターンを効果的に注入する。
COCO Captioning、VQA、Flickr30kといったベンチマークデータセットの実験は、SSMIが最先端のパフォーマンスを達成することを実証している。
論文 参考訳(メタデータ) (2024-12-13T05:40:50Z) - Unsupervised Modality Adaptation with Text-to-Image Diffusion Models for Semantic Segmentation [54.96563068182733]
セグメンテーションタスクのためのテキスト・ツー・イメージ拡散モデル(MADM)を用いたモダリティ適応を提案する。
MADMは、広範囲な画像とテキストのペアで事前訓練されたテキストと画像の拡散モデルを使用して、モデルの相互モダリティ能力を向上する。
我々は,MADMが画像から深度,赤外線,イベントのモダリティといった様々なモダリティタスクにまたがって,最先端の適応性能を実現することを示す。
論文 参考訳(メタデータ) (2024-10-29T03:49:40Z) - EMMA: Efficient Visual Alignment in Multi-Modal LLMs [56.03417732498859]
EMMAは、視覚的およびテキスト的エンコーディングを効率的に融合するために設計された軽量なクロスプラットフォームモジュールである。
EMMAは複数のタスクのパフォーマンスを最大9.3%向上させ、幻覚に対する堅牢性を大幅に向上させる。
論文 参考訳(メタデータ) (2024-10-02T23:00:31Z) - Brain-Inspired Stepwise Patch Merging for Vision Transformers [6.108377966393714]
本稿では,ステップワイズ・パッチ・マージ(SPM)と呼ばれる新しい手法を提案する。
ImageNet-1K、COCO、ADE20Kなどのベンチマークデータセットで実施された大規模な実験は、SPMが様々なモデルの性能を大幅に改善することを示した。
論文 参考訳(メタデータ) (2024-09-11T03:04:46Z) - DualKanbaFormer: An Efficient Selective Sparse Framework for Multimodal Aspect-based Sentiment Analysis [0.6187939267100836]
マルチモーダル解析のための並列テキストおよびVisual KanbaFormerモジュールを利用する新しいフレームワークであるDual KanbaFormerを紹介する。
当社のアプローチでは、アスペクト指向スパース注意(ADSA)を導入して、粗粒度の凝集とアスペクト指向の精度のためのきめ細かい選択のバランスを取る。
従来のフィードフォワードネットワークと正規化をKAN(Kolmogorov-Arnold Networks)とDyT(Dynamic Tanh)に置き換え、非線形表現性と推論安定性を向上させる。
論文 参考訳(メタデータ) (2024-08-27T19:33:15Z) - INF-LLaVA: Dual-perspective Perception for High-Resolution Multimodal Large Language Model [71.50973774576431]
本稿では,高解像度画像認識のための新しいMLLM INF-LLaVAを提案する。
我々はDCM(Dual-perspective Cropping Module)を導入し、各サブイメージが局所的な視点から連続的な詳細を含むことを保証する。
第2に,グローバルな特徴と局所的な特徴の相互強化を可能にするDEM(Dual-perspective Enhancement Module)を導入する。
論文 参考訳(メタデータ) (2024-07-23T06:02:30Z) - Bringing Masked Autoencoders Explicit Contrastive Properties for Point Cloud Self-Supervised Learning [116.75939193785143]
画像領域における視覚変換器(ViT)のコントラスト学習(CL)は、従来の畳み込みバックボーンのCLに匹敵する性能を達成した。
ViTで事前訓練した3Dポイントクラウドでは、マスク付きオートエンコーダ(MAE)モデリングが主流である。
論文 参考訳(メタデータ) (2024-07-08T12:28:56Z) - Modality-Specialized Synergizers for Interleaved Vision-Language Generalists [45.800383191637785]
ビジョンランゲージ・ジェネリスト(VLG)は、テキストと画像の両方を理解し、生成することができる。
1つの主な制限は、個別のテキストトークンと連続した画像の特徴を同時にモデル化するために、統一アーキテクチャと同じパラメータセットを適用することである。
最近の研究は、モダリティを意識したエキスパートモデルを導入することで、この問題に対処しようとしている。
本稿では,既存のVLGの統一アーキテクチャを効率的に最適化する新しい設計であるMODALITY-SPECIALIZED SynERGIZERS (MOSS)を紹介する。
論文 参考訳(メタデータ) (2024-07-04T03:28:22Z) - Compositional Chain-of-Thought Prompting for Large Multimodal Models [46.721769077885966]
CCoT(コンポジション・チェーン・オブ・ソート)は、新規なゼロショット・オブ・ソート・プロンプト法である。
まず,Large Language Model(LLM)を用いてSGを生成し,そのSGをプロンプトに使用して応答を生成する。
提案手法は,LMMの性能向上だけでなく,一般的なマルチモーダルベンチマーク上でのLMMの性能向上にも寄与する。
論文 参考訳(メタデータ) (2023-11-27T22:23:27Z) - USER: Unified Semantic Enhancement with Momentum Contrast for Image-Text
Retrieval [115.28586222748478]
Image-Text Retrieval (ITR) は、与えられたクエリに意味のあるターゲットインスタンスを、他のモダリティから検索することを目的としている。
既存のアプローチは通常、2つの大きな制限に悩まされる。
論文 参考訳(メタデータ) (2023-01-17T12:42:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。