論文の概要: OpenSeg-R: Improving Open-Vocabulary Segmentation via Step-by-Step Visual Reasoning
- arxiv url: http://arxiv.org/abs/2505.16974v1
- Date: Thu, 22 May 2025 17:51:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:48.520443
- Title: OpenSeg-R: Improving Open-Vocabulary Segmentation via Step-by-Step Visual Reasoning
- Title(参考訳): OpenSeg-R: ステップバイステップビジュアル推論によるオープン語彙セグメンテーションの改善
- Authors: Zongyan Han, Jiale Cao, Shuo Chen, Tong Wang, Jorma Laaksonen, Rao Muhammad Anwer,
- Abstract要約: オープン語彙セグメンテーションのためのステップバイステップ視覚推論フレームワークOpenSeg-Rを提案する。
我々は各画像に対する一般的な推論と画像固有の推論の両方を生成し、粗い方法でオブジェクトの視覚的理由を説明する構造的な三重項を形成する。
実験の結果,OpenSeg-Rは,オープン語彙セマンティックセマンティックセグメンテーションにおける最先端手法よりも優れていた。
- 参考スコア(独自算出の注目度): 33.9473167263516
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Open-Vocabulary Segmentation (OVS) has drawn increasing attention for its capacity to generalize segmentation beyond predefined categories. However, existing methods typically predict segmentation masks with simple forward inference, lacking explicit reasoning and interpretability. This makes it challenging for OVS model to distinguish similar categories in open-world settings due to the lack of contextual understanding and discriminative visual cues. To address this limitation, we propose a step-by-step visual reasoning framework for open-vocabulary segmentation, named OpenSeg-R. The proposed OpenSeg-R leverages Large Multimodal Models (LMMs) to perform hierarchical visual reasoning before segmentation. Specifically, we generate both generic and image-specific reasoning for each image, forming structured triplets that explain the visual reason for objects in a coarse-to-fine manner. Based on these reasoning steps, we can compose detailed description prompts, and feed them to the segmentor to produce more accurate segmentation masks. To the best of our knowledge, OpenSeg-R is the first framework to introduce explicit step-by-step visual reasoning into OVS. Experimental results demonstrate that OpenSeg-R significantly outperforms state-of-the-art methods on open-vocabulary semantic segmentation across five benchmark datasets. Moreover, it achieves consistent gains across all metrics on open-vocabulary panoptic segmentation. Qualitative results further highlight the effectiveness of our reasoning-guided framework in improving both segmentation precision and interpretability. Our code is publicly available at https://github.com/Hanzy1996/OpenSeg-R.
- Abstract(参考訳): Open-Vocabulary Segmentation (OVS)は、事前に定義されたカテゴリを超えてセグメンテーションを一般化する能力に注目が集まっている。
しかし、既存の手法は通常、単純な前方推論でセグメンテーションマスクを予測し、明示的な推論と解釈可能性に欠ける。
このため、OVSモデルでは、文脈的理解と識別的な視覚的手がかりが欠如しているため、オープンワールド設定で同様のカテゴリを区別することは困難である。
この制限に対処するため,オープン語彙セグメンテーションのためのステップバイステップの視覚推論フレームワークOpenSeg-Rを提案する。
提案したOpenSeg-RはLarge Multimodal Models(LMM)を利用して,セグメント化前の階層的な視覚的推論を行う。
具体的には、各画像に対する一般的な推論と画像固有の推論の両方を生成し、粗い方法でオブジェクトの視覚的理由を説明する構造化三重項を形成する。
これらの推論ステップに基づいて、詳細な説明プロンプトを作成し、セグメンタに供給することでより正確なセグメンテーションマスクを生成することができる。
私たちの知る限りでは、OpenSeg-Rは、OVSに明確なステップバイステップの視覚的推論を導入する最初のフレームワークです。
実験の結果,OpenSeg-Rは5つのベンチマークデータセットのオープン語彙セマンティックセマンティックセグメンテーションにおいて,最先端の手法を著しく上回っていることがわかった。
さらに、オープン・ボキャブラリ・パノプティクス・セグメンテーションにおける全ての指標に対して一貫した利得を達成する。
定性的な結果は、セグメンテーション精度と解釈可能性の両方を改善するための推論誘導フレームワークの有効性をさらに強調する。
私たちのコードはhttps://github.com/Hanzy1996/OpenSeg-R.comで公開されています。
関連論文リスト
- ROSE: Revolutionizing Open-Set Dense Segmentation with Patch-Wise Perceptual Large Multimodal Model [75.750699619993]
本稿では,高密度マスク予測とオープンカテゴリ生成が可能な,革命的オープンセット高密度セグメンテーションLMMであるROSEを提案する。
本手法は,各画像パッチを関心領域の独立領域として扱い,密集マスクとスパースマスクを同時に予測する。
論文 参考訳(メタデータ) (2024-11-29T07:00:18Z) - Open-RGBT: Open-vocabulary RGB-T Zero-shot Semantic Segmentation in Open-world Environments [27.165760582797247]
オープン語彙RGB-TセマンティックセマンティックセグメンテーションモデルであるOpen-RGBTを提案する。
カテゴリ理解を高めるために視覚的プロンプトを取り入れたインスタンスレベルの検出提案を行う。
画像とテキストの類似性を評価するためにCLIPモデルを使用し、セマンティックな一貫性を補正し、カテゴリ識別におけるあいまいさを軽減する。
論文 参考訳(メタデータ) (2024-10-09T07:22:28Z) - MROVSeg: Breaking the Resolution Curse of Vision-Language Models in Open-Vocabulary Image Segmentation [26.667974865352708]
MROVSegは、オープンボキャブラリイメージセグメンテーションのためのマルチレゾリューショントレーニングフレームワークで、単一の事前トレーニングされたCLIPバックボーンを備えている。
スライドウィンドウを使用して、高解像度の入力を均一なパッチにスライスし、それぞれがよく訓練されたイメージエンコーダの入力サイズにマッチする。
論文 参考訳(メタデータ) (2024-08-27T04:45:53Z) - USE: Universal Segment Embeddings for Open-Vocabulary Image Segmentation [33.11010205890195]
オープン語彙のイメージセグメンテーションにおける大きな課題は、これらのセグメンテーションをテキスト定義カテゴリに正確に分類することにある。
この課題に対処するために、Universal Segment Embedding(USE)フレームワークを紹介します。
本フレームワークは,1)大量のセグメントテキストペアを様々な粒度で効率的にキュレートするように設計されたデータパイプライン,2)テキスト定義のカテゴリに精度の高いセグメント分類を可能にする普遍的なセグメント埋め込みモデルからなる。
論文 参考訳(メタデータ) (2024-06-07T21:41:18Z) - Diffusion Models for Open-Vocabulary Segmentation [79.02153797465324]
OVDiffは、教師なしオープン語彙セグメンテーションに生成テキストから画像への拡散モデルを利用する新しい手法である。
トレーニング済みのコンポーネントのみに依存し、トレーニングなしで合成セグメンタを直接出力する。
論文 参考訳(メタデータ) (2023-06-15T17:51:28Z) - Global Knowledge Calibration for Fast Open-Vocabulary Segmentation [124.74256749281625]
本稿では,各学習カテゴリの同義語群を生成するテキスト多様化戦略を提案する。
また,CLIPの汎用的な知識を維持するために,テキスト誘導型知識蒸留法を用いている。
提案手法は, 各種データセットに対して頑健な一般化性能を実現する。
論文 参考訳(メタデータ) (2023-03-16T09:51:41Z) - A Simple Framework for Open-Vocabulary Segmentation and Detection [85.21641508535679]
我々は,異なるセグメンテーションと検出データセットから共同で学習する,シンプルなオープン語彙検出フレームワークOpenSeeDを提案する。
まず、事前学習されたテキストエンコーダを導入し、視覚概念を2つのタスクにエンコードし、それらの共通意味空間を学習する。
プレトレーニング後,本モデルでは,セグメンテーションと検出の両方において,競争力あるいは強いゼロショット転送性を示す。
論文 参考訳(メタデータ) (2023-03-14T17:58:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。