論文の概要: Qwen3-VL-Seg: Unlocking Open-World Referring Segmentation with Vision-Language Grounding
- arxiv url: http://arxiv.org/abs/2605.07141v1
- Date: Fri, 08 May 2026 02:20:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 19:43:38.745577
- Title: Qwen3-VL-Seg: Unlocking Open-World Referring Segmentation with Vision-Language Grounding
- Title(参考訳): Qwen3-VL-Seg:ビジョンランゲージグラウンドディングによるオープンワールド参照セグメンテーションのアンロック
- Authors: Yuan Yao, Qiushi Yang, Humen Zhong, Jiangning Wei, Yifang Men, Shuai Bai, Miaomiao Cui, Zhibo Yang,
- Abstract要約: Qwen3-VL-SegはMLLM予測ボックスを意味論的基盤構造として扱うパラメータ効率のよいフレームワークである。
その中核は、軽量のボックス誘導マスクデコーダで、マルチスケールの空間的特徴注入、空間意味的クエリ構築、ボックス誘導高解像度ピクセル融合を組み合わせている。
Qwen3-VL-Segはクローズドセットとオープンワールド設定で強く機能することを示す。
- 参考スコア(独自算出の注目度): 26.30521907946121
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Open-world referring segmentation requires grounding unconstrained language expressions to precise pixel-level regions. Existing multimodal large language models (MLLMs) exhibit strong open-world visual grounding, but their outputs remain limited to sparse bounding-box coordinates and are insufficient for dense visual prediction. Recent MLLM-based segmentation methods either directly predict sparse contour coordinates, struggling to reconstruct continuous object boundaries, or rely on external segmentation foundation models such as the Segment Anything Model (SAM), introducing substantial architectural and deployment overhead. We present Qwen3-VL-Seg, a parameter-efficient framework that treats the MLLM-predicted box as a semantically grounded structural prior and decodes it into pixel-level referring segmentation. At its core, a lightweight box-guided mask decoder combines multi-scale spatial feature injection, spatial-semantic query construction, box-guided high-resolution pixel fusion, and iterative mask-aware query refinement, introducing only 17M parameters (about 0.4\% of the base model). For scalable open-world training, we construct SA1B-ORS, an SA-1B-derived dataset with two subsets: SA1B-CoRS (category-oriented samples) and SA1B-DeRS (descriptive, instance-specific samples). For evaluation, we curate ORS-Bench, a manually screened benchmark with in-distribution and out-of-distribution subsets covering diverse referring expression types. Extensive experiments on referring expression segmentation, visual grounding, and ORS-Bench show that Qwen3-VL-Seg performs strongly across closed-set and open-world settings, with clear advantages on language-intensive instructions and strong out-of-distribution generalization. Evaluations on general multimodal benchmarks further show that the model broadly preserves general-purpose multimodal competence after segmentation-oriented adaptation.
- Abstract(参考訳): オープンワールド参照セグメンテーションでは、制約のない言語表現を正確なピクセルレベル領域に接地する必要がある。
既存のマルチモーダル大言語モデル(MLLM)は、強力なオープンワールドの視覚的接地を示すが、その出力は疎境界ボックス座標に限られており、密集した視覚的予測には不十分である。
最近のMLLMベースのセグメンテーション手法では、スパース輪郭座標を直接予測したり、連続的なオブジェクト境界の再構築に苦労したり、セグメンテーション・アシング・モデル(SAM)のような外部セグメンテーション基盤モデルに依存している。
Qwen3-VL-Segは,MLLM予測ボックスを意味的基底構造として扱うパラメータ効率のよいフレームワークであり,画素レベルの参照セグメンテーションにデコードする。
その中核は、軽量のボックス誘導マスクデコーダで、マルチスケールの空間的特徴注入、空間意味的クエリ構築、ボックス誘導高解像度画素融合、反復的なマスク認識クエリ改善を組み合わせ、17Mパラメータ(ベースモデルの約0.4\%)しか導入していない。
スケーラブルなオープンワールドトレーニングのために、SA1B-ORSという、SA1B-CoRS(カテゴリ指向サンプル)とSA1B-DeRS(記述型、インスタンス固有サンプル)の2つのサブセットを持つSA1B-ORSを構築した。
評価のために,多様な参照表現型をカバーする分布内および分布外サブセットを備えた手動スクリーニングベンチマークであるORS-Benchをキュレートする。
Qwen3-VL-Segは、クローズドセットとオープンワールドのセッティングにおいて、言語集約的な命令と強いアウト・オブ・ディストリビューションの一般化に明確なアドバンテージを持ち、表現のセグメンテーション、視覚的グラウンド、ORS-Benchを参照する広範な実験を行った。
一般的なマルチモーダル・ベンチマークの評価は、セグメンテーション指向適応後の汎用マルチモーダル・コンピテンスを広く保存することを示している。
関連論文リスト
- Segment and Matte Anything in a Unified Model [5.8874968768571625]
Segment Anything (SAM)は先日,ゼロショットの一般化とフレキシブルプロンプトを実証することによって,セグメンテーションの境界を推し進めた。
SAMの軽量拡張であるSegment And Matte Anything(SAMA)を紹介する。
論文 参考訳(メタデータ) (2026-01-17T19:43:10Z) - FineRS: Fine-grained Reasoning and Segmentation of Small Objects with Reinforcement Learning [62.11389260206383]
textscFineRSは、非常に小さなオブジェクトをセグメント化するための2段階のMLLMベースの強化学習フレームワークである。
textscFineRS-4kは,属性レベルの推論に基づくMLLMの評価と,微妙で小規模なターゲットに対する画素レベルのセグメンテーションのための新しいデータセットである。
論文 参考訳(メタデータ) (2025-10-24T10:14:17Z) - X-SAM: From Segment Anything to Any Segmentation [63.79182974315084]
大きな言語モデル(LLM)は、広い知識表現において強力な能力を示すが、本質的にはピクセルレベルの知覚的理解において不十分である。
テキスト化からテキスト化まで,セグメンテーションパラダイムを拡張したマルチモーダル大規模言語モデルフレームワークであるX-SAMを提案する。
インタラクティブな視覚的プロンプトで全てのインスタンスオブジェクトをセグメンテーションし、視覚的グラウンドでピクセルワイドな解釈能力を持つMLLMに権限を与える、Visual GrounDed (VGD)セグメンテーションと呼ばれる新しいセグメンテーションタスクを提案する。
論文 参考訳(メタデータ) (2025-08-06T17:19:10Z) - LIRA: Inferring Segmentation in Large Multi-modal Models with Local Interleaved Region Assistance [54.683384204063934]
大規模マルチモーダルモデル(LMM)は不正確なセグメンテーションと幻覚的理解に苦しむ。
視覚的理解とセグメンテーションの相補的関係を生かしたフレームワークであるLIRAを提案する。
LIRAはセグメンテーションと理解タスクの両方で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-07-08T07:46:26Z) - OpenWorldSAM: Extending SAM2 for Universal Image Segmentation with Language Prompts [20.327695503392274]
OpenWorldSAMは,Segment Anything Model v2 (SAM2) をオープン語彙シナリオに拡張するフレームワークである。
OpenWorldSAMは、カテゴリレベルの言語記述や文レベルの言語記述など、さまざまなプロンプトをサポートしている。
我々は,新しい位置決め型タイブレーカー埋め込みとクロスアテンション層により,モデルの空間的理解を高める。
論文 参考訳(メタデータ) (2025-07-07T19:16:22Z) - SAM-MIL: A Spatial Contextual Aware Multiple Instance Learning Approach for Whole Slide Image Classification [9.69491390062406]
本研究では,空間的文脈認識を重視し,空間的文脈を明示的に取り入れた新しいMILフレームワークSAM-MILを提案する。
提案手法は,空間的文脈に基づくグループ特徴抽出とSAM-Guided Group Masking戦略を含む。
CAMELYON-16およびTCGA肺がんデータセットの実験結果から,提案したSAM-MILモデルは,WSIs分類において既存の主流手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2024-07-25T01:12:48Z) - PosSAM: Panoptic Open-vocabulary Segment Anything [58.72494640363136]
PosSAMはオープン・ボキャブラリ・パノプティ・セグメンテーション・モデルであり、Segment Anything Model(SAM)の強みを、エンドツーエンドのフレームワークで視覚ネイティブのCLIPモデルと統合する。
本稿では,マスクの質を適応的に向上し,各画像の推論中にオープン語彙分類の性能を高めるマスク対応選択組立アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-03-14T17:55:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。