論文の概要: RSVP: Reasoning Segmentation via Visual Prompting and Multi-modal Chain-of-Thought
- arxiv url: http://arxiv.org/abs/2506.04277v1
- Date: Wed, 04 Jun 2025 02:07:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-06 21:53:49.320552
- Title: RSVP: Reasoning Segmentation via Visual Prompting and Multi-modal Chain-of-Thought
- Title(参考訳): RSVP:ビジュアル・プロンプトとマルチモーダル・オブ・サートによるセグメンテーションの推論
- Authors: Yi Lu, Jiawang Cao, Yongliang Wu, Bozheng Li, Licheng Tang, Yangguang Ji, Chong Wu, Jay Wu, Wenbo Zhu,
- Abstract要約: RSVPは、多段階のマルチモーダル推論を基盤的な視覚的理解と統合するフレームワークである。
RSVPはMLLM固有のローカライゼーション機能を利用して、モデルがオブジェクトを推論するだけでなく、構造化された視覚表現を生成することができる。
実験では,ReasonSegの最先端性能を最大6.5 gIoUで上回り,ゼロショット設定でSegInW上で49.7 mAPを達成した。
- 参考スコア(独自算出の注目度): 6.037123011622866
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Multi-modal Large Language Models (MLLMs) have demonstrated remarkable reasoning capability while lack explicit mechanisms for visual grounding and segmentation, creating a gap between cognitive reasoning and visual perception. To bridge this gap, we introduce Reasoning Segmentation via Visual Prompting (RSVP), a novel framework that unifies multi-step multimodal reasoning with grounded visual understanding. RSVP is a two-stage structuralized framework that integrates reasoning-driven localization with segmentation refinement. In the reasoning stage, RSVP employs multimodal chain-of-thought visual prompts to help MLLMs understand queries and infer targets, generating interpretable region proposals that enhance visual grounding. In segmentation stage, RSVP refines these proposals with a Vision-Language Segmentation Module (VLSM), seamlessly integrates textual and visual cues to produce precise segmentation masks. By explicitly modelling the interaction between multimodal reasoning and segmentation, RSVP introduces a new paradigm for interpretable reasoning segmentation. It exploits MLLMs' inherent localization capabilities, enabling the models to not only reason about objects but also generate structured visual representations. Our extensive experiments demonstrate that RSVP achieves state-of-the-art performance, surpasses state-of-the-art methods by up to +6.5 gIoU and +9.2 cIoU on ReasonSeg, and achieves 49.7 mAP on SegInW under zero-shot settings. These results validate RSVP as an effective and scalable framework for integrating cognitive reasoning with structured visual understanding.
- Abstract(参考訳): MLLM(Multi-modal Large Language Models)は、視覚的基盤とセグメンテーションの明確なメカニズムを欠き、認知的推論と視覚的知覚のギャップを生じさせる一方で、顕著な推論能力を示した。
このギャップを埋めるために,マルチステップのマルチモーダル推論を基礎的な視覚的理解で統一する新しいフレームワークであるReasoning Segmentation via Visual Prompting (RSVP)を紹介した。
RSVPは2段階構造化フレームワークであり、推論駆動のローカライゼーションとセグメンテーションの洗練を統合している。
推論段階では、RSVPはマルチモーダル連鎖視覚プロンプトを使用して、MLLMがクエリを理解し、ターゲットを推測し、視覚的接地を強化する解釈可能な領域提案を生成する。
セグメンテーション段階では、RSVPはこれらの提案をVLSM(Vision-Language Segmentation Module)で洗練し、テキストとビジュアルのキューをシームレスに統合して正確なセグメンテーションマスクを生成する。
マルチモーダル推論とセグメンテーションの相互作用を明示的にモデル化することにより、RSVPは解釈可能な推論セグメンテーションの新しいパラダイムを導入する。
MLLM固有のローカライゼーション機能を利用して、モデルがオブジェクトを推論するだけでなく、構造化された視覚表現を生成することができる。
我々の広範な実験は、RSVPが最先端のパフォーマンスを達成し、ReasonSegの最先端メソッドを最大+6.5 gIoUと+9.2 cIoUで上回り、ゼロショット設定でSegInW上で49.7 mAPを達成することを示した。
これらの結果は、認知的推論と構造化視覚的理解を統合するための効果的でスケーラブルなフレームワークとしてRSVPを検証した。
関連論文リスト
- Progressive Language-guided Visual Learning for Multi-Task Visual Grounding [21.297317604403652]
マルチタスクビジュアルグラウンドティングのためのプログレッシブ言語誘導型ビジュアルラーニングフレームワークを提案する。
本稿では,マルチタスク・ビジュアル・グラウンドティングのためのプログレッシブ言語誘導型ビジュアル・ラーニング・フレームワークを提案する。
論文 参考訳(メタデータ) (2025-04-22T12:48:12Z) - Show or Tell? Effectively prompting Vision-Language Models for semantic segmentation [22.057386630831402]
大規模ビジョンランゲージモデルでは、タスク固有のトレーニングを使わずに、プロンプトによって多様なタスクを解決するように指示することができる。
テキストまたは視覚的プロンプトによって導かれる最近のモデルのセグメンテーション性能を評価する。
本稿では,テキストと視覚的プロンプトを組み合わせたトレーニング不要のベースラインであるPromptMatcherを提案する。
論文 参考訳(メタデータ) (2025-03-25T13:36:59Z) - VIPER: Visual Perception and Explainable Reasoning for Sequential Decision-Making [21.61801132083334]
VIPERはマルチモーダル命令ベースの計画のための新しいフレームワークである。
VLMベースの知覚とLLMベースの推論を統合する。
その結果、VIPERは最先端のビジュアル・インストラクション・ベース・プランナーよりも優れていた。
論文 参考訳(メタデータ) (2025-03-19T11:05:42Z) - EAGLE: Towards Efficient Arbitrary Referring Visual Prompts Comprehension for Multimodal Large Language Models [80.00303150568696]
本稿では,既存のアプローチよりもトレーニングの少ない任意の参照視覚的プロンプトの理解を促進するための,MLLM(Multimodal Large Language Models)を提案する。
本手法は,視覚的プロンプトを,MLLMに理解可能な特定の空間領域を伝達する空間概念として応用する。
我々はまた、MLLMの領域レベルの理解を視覚的プロンプトを参照する特定の形式にさらに引き離すための幾何非依存学習パラダイム(GAL)を提案する。
論文 参考訳(メタデータ) (2024-09-25T08:22:00Z) - CoReS: Orchestrating the Dance of Reasoning and Segmentation [17.767049542947497]
セグメンテーションを推論する行為は、人間の視覚探索の認知段階を反映すべきである。
本稿では,Reasoning and Segmenting (CoReS) の連鎖を紹介する。
実験では、ReasonSegデータセットで最先端の手法を6.5%上回るCoReSの優れた性能を示す。
論文 参考訳(メタデータ) (2024-04-08T16:55:39Z) - Visual CoT: Advancing Multi-Modal Language Models with a Comprehensive Dataset and Benchmark for Chain-of-Thought Reasoning [40.972648044298374]
MLLM(Multi-Modal Large Language Models)は様々なVQAタスクにおいて顕著な性能を示す。
解釈可能性に欠け、複雑な視覚的な入力に苦しむことが多い。
438k問合せ対からなる大規模Visual CoTデータセットを提案する。
視覚的な入力を動的に重視し,解釈可能な思考を提供するマルチターン処理パイプラインを提案する。
論文 参考訳(メタデータ) (2024-03-25T17:59:23Z) - Multi-modal Instruction Tuned LLMs with Fine-grained Visual Perception [63.03288425612792]
マルチモーダル参照から画素単位のオブジェクト認識と自然言語記述を生成できる汎用MLLMモデルであるbfAnyRefを提案する。
本モデルでは,領域レベルの参照表現生成とセグメンテーションの多様さを含む,複数のベンチマークにおける最先端結果を実現する。
論文 参考訳(メタデータ) (2024-03-05T13:45:46Z) - See, Think, Confirm: Interactive Prompting Between Vision and Language
Models for Knowledge-based Visual Reasoning [60.43585179885355]
本稿では,知識に基づく視覚推論のための新しいフレームワークであるInteractive Prompting Visual Reasoner(IPVR)を提案する。
IPVRには3つのステージがある。
我々は,知識に基づく視覚的推論データセットについて実験を行った。
論文 参考訳(メタデータ) (2023-01-12T18:59:50Z) - DiMBERT: Learning Vision-Language Grounded Representations with
Disentangled Multimodal-Attention [101.99313208598569]
視覚と言語(V-L)タスクは、視覚内容と自然言語の両方を理解する必要がある。
視覚と言語に対する注意空間を分離したDiMBERT(Disentangled Multimodal-Attention BERT)を提案する。
DiMBERTは3つのタスクに対して最新のパフォーマンスを新たに設定する。
論文 参考訳(メタデータ) (2022-10-28T23:00:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。