論文の概要: OpenVIS: Open-vocabulary Video Instance Segmentation
- arxiv url: http://arxiv.org/abs/2305.16835v1
- Date: Fri, 26 May 2023 11:25:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-29 15:21:53.269182
- Title: OpenVIS: Open-vocabulary Video Instance Segmentation
- Title(参考訳): OpenVIS: オープン語彙ビデオインスタンスセグメンテーション
- Authors: Pinxue Guo, Tony Huang, Peiyang He, Xuefeng Liu, Tianjun Xiao, Zhaoyu
Chen, Wenqiang Zhang
- Abstract要約: Open-vocabulary video instance segmentation (OpenVIS) という新しいコンピュータビジョンタスクを提案し,検討する。
OpenVISは、対応するテキスト記述に従って、ビデオ内の任意のオブジェクトを同時に分割、検出、追跡することを目的としている。
本稿では,高品質なクラス非依存のオブジェクトマスクを提案するための2段階パイプラインを提案し,それに対応するカテゴリを事前学習したVLMを用いて予測する。
- 参考スコア(独自算出の注目度): 13.389338896523924
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose and study a new computer vision task named open-vocabulary video
instance segmentation (OpenVIS), which aims to simultaneously segment, detect,
and track arbitrary objects in a video according to corresponding text
descriptions. Compared to the original video instance segmentation, OpenVIS
enables users to identify objects of desired categories, regardless of whether
those categories were included in the training dataset. To achieve this goal,
we propose a two-stage pipeline for proposing high-quality class-agnostic
object masks and predicting their corresponding categories via pre-trained VLM.
Specifically, we first employ a query-based mask proposal network to generate
masks of all potential objects, where we replace the original class head with
an instance head trained with a binary object loss, thereby enhancing the
class-agnostic mask proposal ability. Then, we introduce a proposal
post-processing approach to adapt the proposals better to the pre-trained VLMs,
avoiding distortion and unnatural proposal inputs. Meanwhile, to facilitate
research on this new task, we also propose an evaluation benchmark that
utilizes off-the-shelf datasets to comprehensively assess its performance.
Experimentally, the proposed OpenVIS exhibits a remarkable 148\% improvement
compared to the full-supervised baselines on BURST, which have been trained on
all categories.
- Abstract(参考訳): 本研究では,ビデオ中の任意のオブジェクトをテキスト記述に従って同時分割,検出,追跡することを目的とした,オープン語彙ビデオインスタンスセグメンテーション(OpenVIS)というコンピュータビジョンタスクを提案する。
オリジナルのビデオインスタンスセグメンテーションと比較して、OpenVISでは、トレーニングデータセットに含まれているかどうかに関わらず、望ましいカテゴリのオブジェクトを識別することができる。
この目的を達成するために,高品質なクラス非依存オブジェクトマスクの提案と,事前学習したvlmによる対応するカテゴリの予測を行う2段階パイプラインを提案する。
具体的には、クエリベースのマスク提案ネットワークを使用して、すべての潜在的なオブジェクトのマスクを生成し、元のクラスヘッドをバイナリオブジェクト損失でトレーニングされたインスタンスヘッドに置き換えることで、クラス非依存なマスク提案能力を向上します。
そこで本研究では,提案手法を事前学習したVLMに適応させるための提案後処理手法を提案し,歪みや不自然な提案入力を回避する。
また,本課題の研究を促進するために,市販のデータセットを用いてその性能を総合的に評価する評価ベンチマークを提案する。
実験により,提案したOpenVISは,すべてのカテゴリでトレーニングされているBURSTのフル教師付きベースラインと比較して,18%の大幅な改善を示した。
関連論文リスト
- What is Point Supervision Worth in Video Instance Segmentation? [119.71921319637748]
ビデオインスタンスセグメンテーション(VIS)は、ビデオ内のオブジェクトを検出し、セグメンテーションし、追跡することを目的とした、難しいビジョンタスクである。
トレーニング中、ビデオフレーム内の各オブジェクトについて、人間のアノテーションを1点に減らし、完全に教師されたモデルに近い高品質なマスク予測を得る。
3つのVISベンチマークに関する総合的な実験は、提案フレームワークの競合性能を示し、完全に教師付きされた手法にほぼ一致する。
論文 参考訳(メタデータ) (2024-04-01T17:38:25Z) - Video Instance Segmentation in an Open-World [112.02667959850436]
ビデオインスタンスセグメンテーション(VIS)アプローチは一般にクローズドワールドの仮定に従う。
OW-VISFormerと呼ばれるオープンワールドなVISアプローチを提案する。
我々のOW-VISFormerはOW-VIS設定において、ソリッドベースラインに対して良好に動作します。
論文 参考訳(メタデータ) (2023-04-03T17:59:52Z) - Global Knowledge Calibration for Fast Open-Vocabulary Segmentation [124.74256749281625]
本稿では,各学習カテゴリの同義語群を生成するテキスト多様化戦略を提案する。
また,CLIPの汎用的な知識を維持するために,テキスト誘導型知識蒸留法を用いている。
提案手法は, 各種データセットに対して頑健な一般化性能を実現する。
論文 参考訳(メタデータ) (2023-03-16T09:51:41Z) - A Simple Framework for Open-Vocabulary Segmentation and Detection [85.21641508535679]
我々は,異なるセグメンテーションと検出データセットから共同で学習する,シンプルなオープン語彙検出フレームワークOpenSeeDを提案する。
まず、事前学習されたテキストエンコーダを導入し、視覚概念を2つのタスクにエンコードし、それらの共通意味空間を学習する。
プレトレーニング後,本モデルでは,セグメンテーションと検出の両方において,競争力あるいは強いゼロショット転送性を示す。
論文 参考訳(メタデータ) (2023-03-14T17:58:34Z) - Towards Universal Vision-language Omni-supervised Segmentation [72.31277932442988]
オープンワールドセグメンテーションタスクを提案分類として扱うために,VLOSS(Vision-Language Omni-Supervised)を提案する。
我々は、オムニ教師付きデータ(例えば、汎視的セグメンテーションデータ、オブジェクト検出データ、画像とテキストのペアデータ)をトレーニングに活用し、オープンワールドセグメンテーション能力を強化する。
Swin-Tiny を用いた VLOSS はパラメータが少ないため,LVIS v1 データセットのマスク AP では MaskCLIP を 2% 上回っている。
論文 参考訳(メタデータ) (2023-03-12T02:57:53Z) - Solve the Puzzle of Instance Segmentation in Videos: A Weakly Supervised
Framework with Spatio-Temporal Collaboration [13.284951215948052]
ビデオにおけるtextbfS-patiotextbfTemporal textbfClaboration の例を示す。
提案手法は,TrackR-CNN と MaskTrack R-CNN の完全教師付き性能よりも優れる。
論文 参考訳(メタデータ) (2022-12-15T02:44:13Z) - Exemplar-Based Open-Set Panoptic Segmentation Network [79.99748041746592]
我々は、オープンワールドにパン光学セグメンテーションを拡張し、オープンセットのパン光学セグメンテーション(OPS)タスクを導入する。
本研究では,タスクの実践的課題を調査し,既存のデータセットであるCOCO上にベンチマークを構築する。
本稿では,エスペクティブ理論に着想を得た,エスペクティブ・ベース・オープン・セット・パノプティブ・セグメンテーション・ネットワーク(EOPSN)を提案する。
論文 参考訳(メタデータ) (2021-05-18T07:59:21Z) - Salient Instance Segmentation with Region and Box-level Annotations [3.1458035003538884]
新たな世代の唾液濃度検出は、ビデオ監視の強力な理論的および技術的基盤を提供する。
既存のデータセットの規模が限られており、マスクアノテーションのコストが高いため、優れたパフォーマンスの優れたインスタンスモデルをトレーニングするためには、緊急に多くの監視ソースが必要になります。
本稿では, 厳密なラベル付けに頼らずに, 厳密な監視を施した新規な健全なインスタンスセグメンテーションフレームワークを提案する。
論文 参考訳(メタデータ) (2020-08-19T03:43:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。