論文の概要: A Simple Framework for Open-Vocabulary Segmentation and Detection
- arxiv url: http://arxiv.org/abs/2303.08131v2
- Date: Wed, 15 Mar 2023 17:51:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-16 10:27:19.265525
- Title: A Simple Framework for Open-Vocabulary Segmentation and Detection
- Title(参考訳): Open-Vocabulary Segmentation and Detection のための簡易フレームワーク
- Authors: Hao Zhang, Feng Li, Xueyan Zou, Shilong Liu, Chunyuan Li, Jianfeng
Gao, Jianwei Yang, Lei Zhang
- Abstract要約: 私たちのモデルは、異なるセグメンテーションと検出データセットから共同で学習するフレームワークです。
本モデルでは, セグメンテーションと検出の両面において, 競合的あるいは強いゼロショット転送性を示す。
- 参考スコア(独自算出の注目度): 85.21641508535679
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present \ourmodel{}, a simple Open-vocabulary Segmentation and Detection
framework that jointly learns from different segmentation and detection
datasets. To bridge the gap of vocabulary and annotation granularity, we first
introduce a pre-trained text encoder to encode all the visual concepts in two
tasks and learn a common semantic space for them. This gives us reasonably good
results compared with the counterparts trained on segmentation task only. To
further reconcile them, we locate two discrepancies: $i$) task discrepancy --
segmentation requires extracting masks for both foreground objects and
background stuff, while detection merely cares about the former; $ii$) data
discrepancy -- box and mask annotations are with different spatial granularity,
and thus not directly interchangeable. To address these issues, we propose a
decoupled decoding to reduce the interference between foreground/background and
a conditioned mask decoding to assist in generating masks for given boxes. To
this end, we develop a simple encoder-decoder model encompassing all three
techniques and train it jointly on COCO and Objects365. After pre-training, our
model exhibits competitive or stronger zero-shot transferability for both
segmentation and detection. Specifically, \ourmodel{} beats the
state-of-the-art method for open-vocabulary instance and panoptic segmentation
across 5 datasets, and outperforms previous work for open-vocabulary detection
on LVIS and ODinW under similar settings. When transferred to specific tasks,
our model achieves new SoTA for panoptic segmentation on COCO and ADE20K, and
instance segmentation on ADE20K and Cityscapes.
Finally, we note that \ourmodel{} is the first to explore the potential of
joint training on segmentation and detection, and hope it can be received as a
strong baseline for developing a single model for both tasks in open world.
- Abstract(参考訳): 異なるセグメンテーションと検出データセットから共同で学習する,単純なopen-vocabulary segmentation and detection frameworkである \ourmodel{} を提案する。
語彙と注釈の粒度のギャップを埋めるために,まず事前学習されたテキストエンコーダを導入し,視覚概念を2つのタスクにエンコードし,それらの共通意味空間を学習する。
これにより、セグメンテーションタスクのみをトレーニングした相手と比較すると、合理的な結果が得られる。
タスクの差分処理 - セグメンテーションでは、前景オブジェクトと背景オブジェクトの両方のマスクを抽出する必要があるが、検出は単に前景を気にするだけである。
これらの問題に対処するために,前景/後景と条件付きマスクデコードとの干渉を低減し,与えられた箱のマスク生成を支援するデコードを提案する。
そこで本研究では,COCOとObjects365を併用した簡単なエンコーダデコーダモデルを開発した。
プレトレーニング後,本モデルでは,セグメンテーションと検出の両方において,競争力あるいは強いゼロショット転送性を示す。
具体的には、Open-vocabularyインスタンスとpanopticセグメンテーションを5つのデータセットで比較し、同様の設定でLVISとODinWでオープン-vocabulary検出を行うというこれまでの作業を上回っている。
特定のタスクに移行すると,COCOとADE20Kの単眼セグメンテーションとADE20KとCityscapesのインスタンスセグメンテーションのための新しいSoTAを実現する。
最後に,有理モデル{} はセグメンテーションと検出に関する共同トレーニングの可能性を初めて探求し,オープンワールドにおける両タスクの単一モデル開発のための強力なベースラインとして受け取れることを期待する。
関連論文リスト
- Learning Open-vocabulary Semantic Segmentation Models From Natural
Language Supervision [49.905448429974804]
オープン語彙セマンティックセマンティックセグメンテーション(OVS)は,事前に定義された閉集合のカテゴリではなく,任意のクラスのオブジェクトをセグメンテーションすることを目的としている。
OVSegmentorと呼ばれるOVSのトランスフォーマーベースモデルを提案する。
プレトレーニングには3%のデータ(4M vs 134M)のみを用いることで,最先端手法よりも優れたセグメンテーション結果が得られる。
論文 参考訳(メタデータ) (2023-01-22T13:10:05Z) - Open-world Semantic Segmentation via Contrasting and Clustering
Vision-Language Embedding [95.78002228538841]
本研究では,様々なオープンワールドカテゴリのセマンティックオブジェクトを高密度アノテーションを使わずにセマンティックオブジェクトのセマンティックオブジェクトのセマンティック化を学習するための,新しいオープンワールドセマンティックセマンティックセマンティックセマンティクスパイプラインを提案する。
提案手法は任意のカテゴリのオブジェクトを直接分割し、3つのベンチマークデータセット上でデータラベリングを必要とするゼロショットセグメンテーション法より優れている。
論文 参考訳(メタデータ) (2022-07-18T09:20:04Z) - Joint Inductive and Transductive Learning for Video Object Segmentation [107.32760625159301]
半教師付きオブジェクトセグメンテーションは、第1フレームのマスクだけを与えられたビデオシーケンスで対象オブジェクトをセグメンテーションするタスクである。
過去の最も優れた手法は、マッチングベースの帰納的推論やオンライン帰納的学習を採用していた。
本稿では,トランスダクティブ学習とインダクティブ学習を統合したフレームワークに統合し,それら間の補完を利用して,高精度かつ堅牢なビデオオブジェクトセグメンテーションを提案する。
論文 参考訳(メタデータ) (2021-08-08T16:25:48Z) - Merging Tasks for Video Panoptic Segmentation [0.0]
ビデオパノプティカルセグメンテーション(VPS)は、最近導入されたコンピュータビジョンタスクであり、ビデオ内のすべてのピクセルを分類し、追跡する必要がある。
ビデオパノプティクスのセグメンテーションを理解するために、まず最初に、セマンティクスとトラッキングを別途重視する構成課題について研究する。
カスタマイズされたデータセットのトレーニングを必要としない2つのデータ駆動アプローチが、それを解決するために選択される。
論文 参考訳(メタデータ) (2021-07-10T08:46:42Z) - Distribution Alignment: A Unified Framework for Long-tail Visual
Recognition [52.36728157779307]
長尾視覚認識のための分散アライメント戦略を提案する。
次に,二段階学習における一般化された再重み付け法を導入して,事前のクラスバランスをとる。
提案手法は, 4つの認識タスクすべてにおいて, 単純で統一されたフレームワークを用いて最先端の結果を得る。
論文 参考訳(メタデータ) (2021-03-30T14:09:53Z) - Unsupervised Semantic Segmentation by Contrasting Object Mask Proposals [78.12377360145078]
画素埋め込みを学習するために、コントラスト最適化の目的として、予め決められた事前を取り入れた新しい2段階フレームワークを導入する。
これは、プロキシタスクやエンドツーエンドのクラスタリングに依存する既存の作業から大きく逸脱している。
特に、PASCALでラベル付き例の1%だけを用いて学習した表現を微調整すると、7.1% mIoUで教師付き ImageNet の事前トレーニングを上回ります。
論文 参考訳(メタデータ) (2021-02-11T18:54:47Z) - Deep Variational Instance Segmentation [7.334808870313923]
State-of-the-artアルゴリズムは、しばしば2つの別々のステージを使用し、最初の1つはオブジェクトの提案を生成し、もう1つは境界を認識して修正する。
完全畳み込みネットワーク(FCN)を直接利用して,インスタンスラベルを予測する新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-07-22T17:57:49Z) - BANet: Bidirectional Aggregation Network with Occlusion Handling for
Panoptic Segmentation [30.008473359758632]
Panoptic segmentationは、フォアグラウンドインスタンスのインスタンスセグメンテーションと、バックグラウンドオブジェクトのセマンティックセグメンテーションを同時に行うことを目的としている。
本稿では,双方向学習パイプラインに基づく新しい深部汎視的セグメンテーション手法を提案する。
COCOパン光学ベンチマーク実験の結果,提案手法の有効性を検証した。
論文 参考訳(メタデータ) (2020-03-31T08:57:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。