論文の概要: A Simple Framework for Open-Vocabulary Segmentation and Detection
- arxiv url: http://arxiv.org/abs/2303.08131v1
- Date: Tue, 14 Mar 2023 17:58:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-15 13:39:12.600286
- Title: A Simple Framework for Open-Vocabulary Segmentation and Detection
- Title(参考訳): Open-Vocabulary Segmentation and Detection のための簡易フレームワーク
- Authors: Hao Zhang, Feng Li, Xueyan Zou, Shilong Liu, Chunyuan Li, Jianfeng
Gao, Jianwei Yang, Lei Zhang
- Abstract要約: 私たちのモデルは、異なるセグメンテーションと検出データセットから共同で学習するフレームワークです。
本モデルでは, セグメンテーションと検出の両面において, 競合的あるいは強いゼロショット転送性を示す。
- 参考スコア(独自算出の注目度): 85.21641508535679
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present \ourmodel{}, a simple Open-vocabulary Segmentation and Detection
framework that jointly learns from different segmentation and detection
datasets. To bridge the gap of vocabulary and annotation granularity, we first
introduce a pre-trained text encoder to encode all the visual concepts in two
tasks and learn a common semantic space for them. This gives us reasonably good
results compared with the counterparts trained on segmentation task only. To
further reconcile them, we locate two discrepancies: $i$) task discrepancy --
segmentation requires extracting masks for both foreground objects and
background stuff, while detection merely cares about the former; $ii$) data
discrepancy -- box and mask annotations are with different spatial granularity,
and thus not directly interchangeable. To address these issues, we propose a
decoupled decoding to reduce the interference between foreground/background and
a conditioned mask decoding to assist in generating masks for given boxes. To
this end, we develop a simple encoder-decoder model encompassing all three
techniques and train it jointly on COCO and Objects365. After pre-training, our
model exhibits competitive or stronger zero-shot transferability for both
segmentation and detection. Specifically, \ourmodel{} beats the
state-of-the-art method for open-vocabulary instance and panoptic segmentation
across 5 datasets, and outperforms previous work for open-vocabulary detection
on LVIS and ODinW under similar settings. When transferred to specific tasks,
our model achieves new SoTA for panoptic segmentation on COCO and ADE20K, and
instance segmentation on ADE20K and Cityscapes.
Finally, we note that \ourmodel{} is the first to explore the potential of
joint training on segmentation and detection, and hope it can be received as a
strong baseline for developing a single model for both tasks in open world.
- Abstract(参考訳): 異なるセグメンテーションと検出データセットから共同で学習する,単純なopen-vocabulary segmentation and detection frameworkである \ourmodel{} を提案する。
語彙と注釈の粒度のギャップを埋めるために,まず事前学習されたテキストエンコーダを導入し,視覚概念を2つのタスクにエンコードし,それらの共通意味空間を学習する。
これにより、セグメンテーションタスクのみをトレーニングした相手と比較すると、合理的な結果が得られる。
タスクの差分処理 - セグメンテーションでは、前景オブジェクトと背景オブジェクトの両方のマスクを抽出する必要があるが、検出は単に前景を気にするだけである。
これらの問題に対処するために,前景/後景と条件付きマスクデコードとの干渉を低減し,与えられた箱のマスク生成を支援するデコードを提案する。
そこで本研究では,COCOとObjects365を併用した簡単なエンコーダデコーダモデルを開発した。
プレトレーニング後,本モデルでは,セグメンテーションと検出の両方において,競争力あるいは強いゼロショット転送性を示す。
具体的には、Open-vocabularyインスタンスとpanopticセグメンテーションを5つのデータセットで比較し、同様の設定でLVISとODinWでオープン-vocabulary検出を行うというこれまでの作業を上回っている。
特定のタスクに移行すると,COCOとADE20Kの単眼セグメンテーションとADE20KとCityscapesのインスタンスセグメンテーションのための新しいSoTAを実現する。
最後に,有理モデル{} はセグメンテーションと検出に関する共同トレーニングの可能性を初めて探求し,オープンワールドにおける両タスクの単一モデル開発のための強力なベースラインとして受け取れることを期待する。
関連論文リスト
- DQFormer: Towards Unified LiDAR Panoptic Segmentation with Decoupled Queries [14.435906383301555]
本稿では,統合ワークフローにセマンティックとインスタンスセグメンテーションを実装するDQFormerという新しいフレームワークを提案する。
具体的には,セマンティクスを用いた情報的クエリを局所化して提案する,疎結合なクエリジェネレータを設計する。
また、クエリ指向マスクデコーダを導入し、対応するセグメンテーションマスクをデコードする。
論文 参考訳(メタデータ) (2024-08-28T14:14:33Z) - SegVG: Transferring Object Bounding Box to Segmentation for Visual Grounding [56.079013202051094]
ボックスレベルのアノテーションを信号として転送する新しい手法であるSegVGを提案する。
このアプローチでは,ボックスレベルのレグレッションとピクセルレベルのセグメンテーションの両方の信号としてアノテーションを反復的に利用することができる。
論文 参考訳(メタデータ) (2024-07-03T15:30:45Z) - OpenSD: Unified Open-Vocabulary Segmentation and Detection [24.08879095731279]
オープン語彙のセグメンテーションと検出タスクを処理するために,OpenSDと略されるユニバーサルトランスフォーマーベースのフレームワークを提案する。
エンドツーエンドのセグメンテーションと検出にCLIPをよりよく活用するために、語彙内ドメインと語彙外ドメインを扱うための2つの分類器を提案する。
その結果,OpenSDはクローズド・オープン・ボキャブラリ設定とオープン・ボキャブラリ設定の両方において,最先端のオープン・ボキャブラリセグメンテーションと検出方法よりも優れていた。
論文 参考訳(メタデータ) (2023-12-10T08:51:34Z) - Open-Vocabulary Camouflaged Object Segmentation [66.94945066779988]
OVCOS(Open-vocabulary camouflaged Object segmentation)を導入した。
我々は11,483個の手選択画像とそれに対応するオブジェクトクラスを含む大規模複合シーンデータセット(textbfOVCamo)を構築した。
クラスセマンティック知識の指導とエッジ情報と深度情報からの視覚構造的手がかりの補足を統合することにより、提案手法は効率よくカモフラージュされたオブジェクトを捕捉できる。
論文 参考訳(メタデータ) (2023-11-19T06:00:39Z) - OG: Equip vision occupancy with instance segmentation and visual
grounding [1.0260983653504128]
職業予測タスクは、各ボクセルの幾何学的ラベルと意味的ラベルの両方の推測に焦点を当てる。
本稿では,バニラ占有型インスタンスセグメンテーション機能を備えた新しい手法であるOccupancy Grounding (OG)を提案する。
アプローチの鍵となるのは,(1)インスタンスクラスタリングにおける親和性フィールドの予測と(2)2Dインスタンスマスクと3D占有インスタンスの整列のための関連戦略である。
論文 参考訳(メタデータ) (2023-07-12T01:59:26Z) - Segment Everything Everywhere All at Once [124.90835636901096]
画像中のすべてのものを同時にセグメント化するための,迅速かつインタラクティブなモデルであるSEEMを提案する。
そこで本研究では,あらゆるタイプのセグメンテーションタスクに対して,多様なプロンプトを可能にする新しい復号化機構を提案する。
多様なセグメンテーションタスクにおけるSEEMの有効性を検証するための総合的な実証的研究を行った。
論文 参考訳(メタデータ) (2023-04-13T17:59:40Z) - Towards Universal Vision-language Omni-supervised Segmentation [72.31277932442988]
オープンワールドセグメンテーションタスクを提案分類として扱うために,VLOSS(Vision-Language Omni-Supervised)を提案する。
我々は、オムニ教師付きデータ(例えば、汎視的セグメンテーションデータ、オブジェクト検出データ、画像とテキストのペアデータ)をトレーニングに活用し、オープンワールドセグメンテーション能力を強化する。
Swin-Tiny を用いた VLOSS はパラメータが少ないため,LVIS v1 データセットのマスク AP では MaskCLIP を 2% 上回っている。
論文 参考訳(メタデータ) (2023-03-12T02:57:53Z) - Open-world Semantic Segmentation via Contrasting and Clustering
Vision-Language Embedding [95.78002228538841]
本研究では,様々なオープンワールドカテゴリのセマンティックオブジェクトを高密度アノテーションを使わずにセマンティックオブジェクトのセマンティックオブジェクトのセマンティック化を学習するための,新しいオープンワールドセマンティックセマンティックセマンティックセマンティクスパイプラインを提案する。
提案手法は任意のカテゴリのオブジェクトを直接分割し、3つのベンチマークデータセット上でデータラベリングを必要とするゼロショットセグメンテーション法より優れている。
論文 参考訳(メタデータ) (2022-07-18T09:20:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。