論文の概要: DR$^2$Seg: Decomposed Two-Stage Rollouts for Efficient Reasoning Segmentation in Multimodal Large Language Models
- arxiv url: http://arxiv.org/abs/2601.09981v1
- Date: Thu, 15 Jan 2026 01:48:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-16 19:43:18.943858
- Title: DR$^2$Seg: Decomposed Two-Stage Rollouts for Efficient Reasoning Segmentation in Multimodal Large Language Models
- Title(参考訳): DR$^2$Seg:マルチモーダル大言語モデルにおける効率的な推論セグメンテーションのための2段階ロールアウトの分解
- Authors: Yulin He, Wei Chen, Zhikang Jian, Tianhang Guo, Wenjuan Zhou, Minglong Li,
- Abstract要約: DR$2$Segは、余分な思考監督なしにセグメンテーションの精度を向上させるセルフリワードフレームワークである。
DR$2$Segは推論効率と全体のセグメンテーション性能を一貫して改善することを示す。
- 参考スコア(独自算出の注目度): 15.079516727500236
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reasoning segmentation is an emerging vision-language task that requires reasoning over intricate text queries to precisely segment objects. However, existing methods typically suffer from overthinking, generating verbose reasoning chains that interfere with object localization in multimodal large language models (MLLMs). To address this issue, we propose DR$^2$Seg, a self-rewarding framework that improves both reasoning efficiency and segmentation accuracy without requiring extra thinking supervision. DR$^2$Seg employs a two-stage rollout strategy that decomposes reasoning segmentation into multimodal reasoning and referring segmentation. In the first stage, the model generates a self-contained description that explicitly specifies the target object. In the second stage, this description replaces the original complex query to verify its self-containment. Based on this design, two self-rewards are introduced to strengthen goal-oriented reasoning and suppress redundant thinking. Extensive experiments across MLLMs of varying scales and segmentation models demonstrate that DR$^2$Seg consistently improves reasoning efficiency and overall segmentation performance.
- Abstract(参考訳): 推論セグメンテーション(Reasoning segmentation)は、オブジェクトを正確にセグメンテーションするために複雑なテキストクエリの推論を必要とする、新しい視覚言語タスクである。
しかし、既存の手法は一般的に、多モーダル大言語モデル(MLLM)におけるオブジェクトの局所化に干渉する冗長な推論連鎖を生成するという過度な考えに悩まされる。
この問題を解決するためにDR$^2$Segを提案する。DR$^2$Segは推論効率とセグメンテーション精度を、余分な思考監督を必要とせずに改善する自己回帰フレームワークである。
DR$^2$Segは2段階のロールアウト戦略を採用し、推論のセグメンテーションをマルチモーダルな推論と参照セグメンテーションに分解する。
最初の段階では、モデルはターゲットオブジェクトを明確に指定した自己完結した記述を生成する。
第2段階では、この記述はオリジナルの複雑なクエリを置き換えて、自己完結性を検証する。
この設計に基づいて、目標志向の推論を強化し、冗長な思考を抑制するために、2つの自己回帰を導入する。
様々なスケールとセグメンテーションモデルのMLLMの広範な実験により、DR$^2$Segは推論効率と全体セグメンテーション性能を一貫して改善することを示した。
関連論文リスト
- Think Before You Segment: High-Quality Reasoning Segmentation with GPT Chain of Thoughts [64.93416171745693]
ThinkFirstはトレーニング不要の推論セグメンテーションフレームワークである。
我々のアプローチでは、GPT-4oや他の強力なMLLMが画像の詳細なチェーン記述を生成することができる。
この要約された記述は、セグメンテーションプロセスを支援するために言語で指示されたセグメンテーションアシスタントに渡される。
論文 参考訳(メタデータ) (2025-03-10T16:26:11Z) - LISA: Reasoning Segmentation via Large Language Model [68.24075852136761]
そこで我々は,新たなセグメンテーションタスク,すなわち推論セグメンテーションを提案する。
このタスクは、複雑で暗黙的なクエリテキストを与えられたセグメンテーションマスクを出力するように設計されている。
提案するLISA: Large Language Instructed Assistantは,マルチモーダル大規模言語モデルの言語生成能力を継承する。
論文 参考訳(メタデータ) (2023-08-01T17:50:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。