論文の概要: Stepping Out of Similar Semantic Space for Open-Vocabulary Segmentation
- arxiv url: http://arxiv.org/abs/2506.16058v2
- Date: Tue, 24 Jun 2025 03:11:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-25 13:29:37.70398
- Title: Stepping Out of Similar Semantic Space for Open-Vocabulary Segmentation
- Title(参考訳): 開語彙セグメンテーションのための類似セマンティック空間のステッピングアウト
- Authors: Yong Liu, SongLi Wu, Sule Bai, Jiahao Wang, Yitong Wang, Yansong Tang,
- Abstract要約: Open-vocabulary segmentationは、無制限テキスト入力をガイダンスとして与えられた任意のカテゴリのセグメンテーションを実現することを目的としている。
トレーニングセマンティクスとは大きく異なるOpenBenchという新しいベンチマークを提示する。
また,多様なオープンシナリオに対するセグメンテーション性能を改善するため,OVSNetという手法を提案する。
- 参考スコア(独自算出の注目度): 34.00709332072491
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Open-vocabulary segmentation aims to achieve segmentation of arbitrary categories given unlimited text inputs as guidance. To achieve this, recent works have focused on developing various technical routes to exploit the potential of large-scale pre-trained vision-language models and have made significant progress on existing benchmarks. However, we find that existing test sets are limited in measuring the models' comprehension of ``open-vocabulary" concepts, as their semantic space closely resembles the training space, even with many overlapping categories. To this end, we present a new benchmark named OpenBench that differs significantly from the training semantics. It is designed to better assess the model's ability to understand and segment a wide range of real-world concepts. When testing existing methods on OpenBench, we find that their performance diverges from the conclusions drawn on existing test sets. In addition, we propose a method named OVSNet to improve the segmentation performance for diverse and open scenarios. Through elaborate fusion of heterogeneous features and cost-free expansion of the training space, OVSNet achieves state-of-the-art results on both existing datasets and our proposed OpenBench. Corresponding analysis demonstrate the soundness and effectiveness of our proposed benchmark and method.
- Abstract(参考訳): Open-vocabulary segmentationは、無制限テキスト入力をガイダンスとして与えられた任意のカテゴリのセグメンテーションを実現することを目的としている。
これを実現するために、近年の研究では、大規模な事前学習型視覚言語モデルの可能性を活用する様々な技術ルートの開発に焦点が当てられ、既存のベンチマークにおいて大きな進歩を遂げている。
しかしながら、既存のテストセットは、多くの重複するカテゴリであっても、その意味空間がトレーニング空間によく似ているため、'オープン語彙'概念のモデルの理解度を測ることに限られている。
この目的のために、トレーニングセマンティクスとは大きく異なるOpenBenchという新しいベンチマークを提示する。
様々な現実世界の概念を理解し、セグメント化するモデルの能力を、よりよく評価するように設計されている。
OpenBench上で既存のメソッドをテストすると、それらのパフォーマンスは既存のテストセット上で引き出された結論から分岐する。
さらに,多様なオープンシナリオに対するセグメンテーション性能を改善するため,OVSNetという手法を提案する。
OVSNetは、ヘテロジニアスな特徴の融合とトレーニングスペースのコストフリー拡張を通じて、既存のデータセットと提案したOpenBenchの両方で最先端の結果を達成する。
対応する分析は,提案したベンチマークと手法の健全性と有効性を示す。
関連論文リスト
- Semantic Correspondence: Unified Benchmarking and a Strong Baseline [14.012377730820342]
本研究は,意味対応手法の大規模調査である。
我々は、様々なベンチマークの文献におけるメソッドの結果を統合比較表に集約し、要約する。
複数のベンチマークで最先端のパフォーマンスを実現するための,シンプルで効果的なベースラインを提案する。
論文 参考訳(メタデータ) (2025-05-23T16:07:16Z) - Cross-Domain Semantic Segmentation with Large Language Model-Assisted Descriptor Generation [0.0]
LangSegはコンテキストに敏感できめ細かいサブクラス記述子を利用する新しいセマンティックセマンティックセマンティクス手法である。
我々はLangSegをADE20KとCOCO-Stuffという2つの挑戦的なデータセットで評価し、最先端のモデルよりも優れています。
論文 参考訳(メタデータ) (2025-01-27T20:02:12Z) - Visual Prompt Selection for In-Context Learning Segmentation [77.15684360470152]
本稿では,サンプル選択戦略の再考と改善に焦点をあてる。
まず、ICLに基づくセグメンテーションモデルが異なる文脈に敏感であることを示す。
さらに、経験的証拠は、文脈的プロンプトの多様性がセグメンテーションを導く上で重要な役割を担っていることを示している。
論文 参考訳(メタデータ) (2024-07-14T15:02:54Z) - Diffusion Models for Open-Vocabulary Segmentation [79.02153797465324]
OVDiffは、教師なしオープン語彙セグメンテーションに生成テキストから画像への拡散モデルを利用する新しい手法である。
トレーニング済みのコンポーネントのみに依存し、トレーニングなしで合成セグメンタを直接出力する。
論文 参考訳(メタデータ) (2023-06-15T17:51:28Z) - Open-vocabulary Panoptic Segmentation with Embedding Modulation [71.15502078615587]
オープン語彙のイメージセグメンテーションは、現実世界における重要な応用のために注目を集めている。
従来のクローズド・ボキャブラリ・セグメンテーション法は、新しいオブジェクトを特徴づけることができないが、最近のいくつかのオープン・ボキャブラリ試みは、満足のいく結果を得る。
オープン語彙パノプトンのための全能的でデータ効率のよいフレームワークであるOPSNetを提案する。
論文 参考訳(メタデータ) (2023-03-20T17:58:48Z) - Global Knowledge Calibration for Fast Open-Vocabulary Segmentation [124.74256749281625]
本稿では,各学習カテゴリの同義語群を生成するテキスト多様化戦略を提案する。
また,CLIPの汎用的な知識を維持するために,テキスト誘導型知識蒸留法を用いている。
提案手法は, 各種データセットに対して頑健な一般化性能を実現する。
論文 参考訳(メタデータ) (2023-03-16T09:51:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。