論文の概要: Unlocking the Potential of MLLMs in Referring Expression Segmentation via a Light-weight Mask Decoder
- arxiv url: http://arxiv.org/abs/2508.04107v3
- Date: Tue, 19 Aug 2025 08:35:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-20 15:36:31.604233
- Title: Unlocking the Potential of MLLMs in Referring Expression Segmentation via a Light-weight Mask Decoder
- Title(参考訳): 軽量マスクデコーダによる表現セグメント参照におけるMLLMの可能性の解錠
- Authors: Jingchao Wang, Zhijian Wu, Dingjiang Huang, Yefeng Zheng, Hong Wang,
- Abstract要約: 本稿では,MLLMビジョンエンコーダに符号化された視覚的特徴を,余分な視覚的エンコーダを導入することなく活用する新しいフレームワークを提案する。
さらに,MLLMの大規模言語モデル(LLM)によって出力される意味関連特徴と,詳細関連視覚特徴とを完全に統合した,詳細拡張型・意味整合型特徴融合モジュール(DSFF)を提案する。
我々の手法は一般にSAMベースの競合とSAMフリーの競合に勝り、性能とコストのバランスが良くなる。
- 参考スコア(独自算出の注目度): 18.236863512276187
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reference Expression Segmentation (RES) aims to segment image regions specified by referring expressions and has become popular with the rise of multimodal large models (MLLMs). While MLLMs excel in semantic understanding, their token-generation paradigm struggles with pixel-level dense prediction. Existing RES methods either couple MLLMs with the parameter-heavy Segment Anything Model (SAM) with 632M network parameters or adopt SAM-free lightweight pipelines that sacrifice accuracy. To address the trade-off between performance and cost, we specifically propose MLLMSeg, a novel framework that fully exploits the inherent visual detail features encoded in the MLLM vision encoder without introducing an extra visual encoder. Besides, we propose a detail-enhanced and semantic-consistent feature fusion module (DSFF) that fully integrates the detail-related visual feature with the semantic-related feature output by the large language model (LLM) of MLLM. Finally, we establish a light-weight mask decoder with only 34M network parameters that optimally leverages detailed spatial features from the visual encoder and semantic features from the LLM to achieve precise mask prediction. Extensive experiments demonstrate that our method generally surpasses both SAM-based and SAM-free competitors, striking a better balance between performance and cost. Code is available at https://github.com/jcwang0602/MLLMSeg.
- Abstract(参考訳): 参照表現セグメンテーション(RES)は、参照表現によって指定された画像領域をセグメント化することを目的としており、マルチモーダル大モデル(MLLM)の台頭とともに普及している。
MLLMはセマンティック理解に優れているが、トークン生成パラダイムはピクセルレベルの密度予測に苦慮している。
既存のRESメソッドは、632Mネットワークパラメータを持つパラメータ重セグメンテーションモデル(SAM)とMLLMを結合するか、精度を犠牲にするSAMフリー軽量パイプラインを採用する。
性能とコストのトレードオフを解決するため,MLLMビジョンエンコーダに符号化された視覚的特徴を,余分な視覚的エンコーダを導入することなく完全に活用する新しいフレームワークであるMLLMSegを提案する。
さらに,MLLMの大規模言語モデル(LLM)によって出力される意味関連特徴と,詳細関連視覚特徴とを完全に統合した,詳細拡張型・意味整合型特徴融合モジュール(DSFF)を提案する。
最後に,約34Mのネットワークパラメータしか持たない軽量マスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスである。
大規模な実験により,本手法はSAMベースとSAMフリーの両競争相手を上回る結果となり,性能とコストのバランスが良くなった。
コードはhttps://github.com/jcwang0602/MLLMSegで入手できる。
関連論文リスト
- MLLM-Guided VLM Fine-Tuning with Joint Inference for Zero-Shot Composed Image Retrieval [50.062817677022586]
Zero-Shot Image Retrieval (ZS-CIR) メソッドは通常、参照イメージを擬似テキストトークンに変換するアダプタを訓練する。
MLLM-Guided VLM Fine-Tuning with Joint Inference (MVFT-JI) を提案する。
論文 参考訳(メタデータ) (2025-05-26T08:56:59Z) - Slot-MLLM: Object-Centric Visual Tokenization for Multimodal LLM [21.967692616735196]
マルチモーダル大規模言語モデル (MLLM) は、人工知能の実現において重要なアプローチとして登場した。
MLLMに特化してSlot Attentionに基づくオブジェクト中心型ビジュアルトークンを提案する。
この研究は、MLLMや地中自然画像を用いたオブジェクト中心のスロットアテンションの実現可能性の最初の実証である。
論文 参考訳(メタデータ) (2025-05-23T10:43:45Z) - SegAgent: Exploring Pixel Understanding Capabilities in MLLMs by Imitating Human Annotator Trajectories [52.57696897619189]
MLLMが対話型セグメンテーションツールを用いた人間のアノテーションを模倣する新しいパラダイムであるHLMAT(Human-Like Mask Modeling Task)を紹介する。
HLMATにより、MLLMはテキストベースのクリックポイントを反復的に生成し、アーキテクチャの変更や暗黙のトークンなしで高品質なマスクを実現することができる。
HLMATは、MLLMの微細なピクセル理解を評価するためのプロトコルを提供し、視覚中心の多段階意思決定タスクを導入している。
論文 参考訳(メタデータ) (2025-03-11T17:08:54Z) - PIP-MM: Pre-Integrating Prompt Information into Visual Encoding via Existing MLLM Structures [5.513631883813244]
既存のMLLMのモジュールを用いて,textbfPre-textbfIntegratestextbfPromptを視覚符号化プロセスに組み込むフレームワークを提案する。
我々のモデルは、視覚トークンの半分を減らしても優れた世代を維持している。
論文 参考訳(メタデータ) (2024-10-30T15:05:17Z) - Dense Connector for MLLMs [89.50595155217108]
Dense Connector - 既存のMLLMを大幅に強化するプラグイン・アンド・プレイ型ヴィジュアル言語コネクタ。
この上に構築されたEfficient Dense Connectorは,視覚トークンの25%に過ぎず,LLaVA-v1.5に匹敵するパフォーマンスを実現する。
画像のみを訓練したわれわれのモデルは、ビデオ理解でも際立ったゼロショットの能力を誇示している。
論文 参考訳(メタデータ) (2024-05-22T16:25:03Z) - MAS-SAM: Segment Any Marine Animal with Aggregated Features [55.91291540810978]
そこで本研究では,海洋生物のセグメンテーションのためのMAS-SAMという新しい特徴学習フレームワークを提案する。
本手法により,グローバルな文脈的手がかりからよりリッチな海洋情報を抽出し,よりきめ細かな局部的詳細を抽出できる。
論文 参考訳(メタデータ) (2024-04-24T07:38:14Z) - PSALM: Pixelwise SegmentAtion with Large Multi-Modal Model [49.80313655590392]
PSALMは、セグメント化タスクの課題に対処するため、LMM(Large Multi-modal Model)の強力な拡張である。
マスクデコーダとよく設計された入力スキーマを組み込んで,さまざまなセグメンテーションタスクを処理する。
PSALMの柔軟な設計は、複数のデータセットとタスクのジョイントトレーニングをサポートし、パフォーマンスとタスクの一般化を改善している。
論文 参考訳(メタデータ) (2024-03-21T17:50:47Z) - From CLIP to DINO: Visual Encoders Shout in Multi-modal Large Language
Models [36.41816380074965]
大規模言語モデル(MLLM)における視覚エンコーダの有効性について検討する。
以上の結果から,CLIPの浅層構造は,接地や領域理解といったきめ細かいタスクに特に有利であることがわかった。
我々は,CLIPとDINOをMergingと統合したシンプルな機能統合戦略であるCOMMを提案する。
論文 参考訳(メタデータ) (2023-10-13T02:41:55Z) - CLIP Is Also a Good Teacher: A New Learning Framework for Inductive
Zero-shot Semantic Segmentation [6.181169909576527]
汎用Zero-shot Semanticは、目に見えないカテゴリーと見えないカテゴリの両方を、目に見えないカテゴリの監督下だけに分割することを目的としている。
既存の手法では大規模な視覚言語モデル(VLM)を採用しており、ゼロショット性能が優れている。
ゼロショットおよびオープンボキャブラリタスクに適用されたクローズドセットセグメンテーション用に設計された任意のイメージエンコーダを実現するためのトレーニングフレームワークであるCLIP-ZSS(Zero-shot Semantic)を提案する。
論文 参考訳(メタデータ) (2023-10-03T09:33:47Z) - RefSAM: Efficiently Adapting Segmenting Anything Model for Referring Video Object Segmentation [53.4319652364256]
本稿では,ビデオオブジェクトのセグメンテーションを参照するためのSAMの可能性を探るRefSAMモデルを提案する。
提案手法は,Cross-RValModalを用いることで,モダリティ学習を向上させるためにオリジナルのSAMモデルに適応する。
我々は、言語と視覚の特徴を効果的に調整し、融合させるために、パラメータ効率のチューニング戦略を採用している。
論文 参考訳(メタデータ) (2023-07-03T13:21:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。