論文の概要: OpenVIS: Open-vocabulary Video Instance Segmentation
- arxiv url: http://arxiv.org/abs/2305.16835v2
- Date: Sun, 10 Mar 2024 08:23:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-13 17:15:11.482715
- Title: OpenVIS: Open-vocabulary Video Instance Segmentation
- Title(参考訳): OpenVIS: オープン語彙ビデオインスタンスセグメンテーション
- Authors: Pinxue Guo, Tony Huang, Peiyang He, Xuefeng Liu, Tianjun Xiao, Zhaoyu
Chen, Wenqiang Zhang
- Abstract要約: OpenVIS(Open-vocabulary Video Instance)は、ビデオ内の任意のオブジェクトカテゴリを検出し、セグメンテーションし、追跡する。
我々は、強力なオープン語彙機能を実現するOpenVISフレームワークInstFormerを提案する。
- 参考スコア(独自算出の注目度): 26.107369797422145
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Open-vocabulary Video Instance Segmentation (OpenVIS) can simultaneously
detect, segment, and track arbitrary object categories in a video, without
being constrained to categories seen during training. In this work, we propose
an OpenVIS framework called InstFormer that achieves powerful open vocabulary
capability through lightweight fine-tuning on a limited-category labeled
dataset. Specifically, InstFormer comes in three steps a) Open-world Mask
Proposal: we utilize a query-based transformer, which is encouraged to propose
all potential object instances, to obtain class-agnostic instance masks; b)
Open-vocabulary Instance Representation and Classification: we propose
InstCLIP, adapted from pre-trained CLIP with Instance Guidance Attention.
InstCLIP generates the instance token capable of representing each
open-vocabulary instance. These instance tokens not only enable open-vocabulary
classification for multiple instances with a single CLIP forward pass but have
also been proven effective for subsequent open-vocabulary instance tracking. c)
Rollout Association: we introduce a class-agnostic rollout tracker to predict
rollout tokens from the tracking tokens of previous frames to enable
open-vocabulary instance association across frames in the video. The
experimental results demonstrate the proposed InstFormer achieve
state-of-the-art capabilities on a comprehensive OpenVIS evaluation benchmark,
while also achieves competitive performance in fully supervised VIS task.
- Abstract(参考訳): OpenVIS(Open-vocabulary Video Instance Segmentation)は、トレーニング中に見られるカテゴリに制約されることなく、ビデオ内の任意のオブジェクトカテゴリを検出し、セグメンテーションし、追跡する。
本研究では,制限付きラベル付きデータセットを軽量に微調整することで,強力なオープン語彙を実現するOpenVISフレームワークInstFormerを提案する。
特にInstFormerには3つのステップがある
a)オープンワールドマスクの提案:全ての潜在的オブジェクトインスタンスの提案を推奨するクエリベースのトランスフォーマーを使用して、クラスに依存しないインスタンスマスクを取得する。
b) オープン語彙のインスタンス表現と分類: 事前学習したCLIPからインスタンス誘導を意図したInstCLIPを提案する。
InstCLIPは、各オープン語彙インスタンスを表現可能なインスタンストークンを生成する。
これらのインスタンストークンは、単一のCLIPフォワードパスを持つ複数のインスタンスのオープン語彙分類を可能にするだけでなく、その後のオープン語彙インスタンス追跡にも有効であることが証明されている。
c) ロールアウトアソシエーション: 従来のフレームのトラッキングトークンからロールアウトトークンを予測し,ビデオ内のフレーム間のオープン語彙インスタンスアソシエーションを可能にする,クラスに依存しないロールアウトトラッカーを導入する。
提案するinstformerは,包括的openvis評価ベンチマークで最先端性能を実現するとともに,visタスクにおける競合性能も達成する。
関連論文リスト
- What is Point Supervision Worth in Video Instance Segmentation? [119.71921319637748]
ビデオインスタンスセグメンテーション(VIS)は、ビデオ内のオブジェクトを検出し、セグメンテーションし、追跡することを目的とした、難しいビジョンタスクである。
トレーニング中、ビデオフレーム内の各オブジェクトについて、人間のアノテーションを1点に減らし、完全に教師されたモデルに近い高品質なマスク予測を得る。
3つのVISベンチマークに関する総合的な実験は、提案フレームワークの競合性能を示し、完全に教師付きされた手法にほぼ一致する。
論文 参考訳(メタデータ) (2024-04-01T17:38:25Z) - Video Instance Segmentation in an Open-World [112.02667959850436]
ビデオインスタンスセグメンテーション(VIS)アプローチは一般にクローズドワールドの仮定に従う。
OW-VISFormerと呼ばれるオープンワールドなVISアプローチを提案する。
我々のOW-VISFormerはOW-VIS設定において、ソリッドベースラインに対して良好に動作します。
論文 参考訳(メタデータ) (2023-04-03T17:59:52Z) - Global Knowledge Calibration for Fast Open-Vocabulary Segmentation [124.74256749281625]
本稿では,各学習カテゴリの同義語群を生成するテキスト多様化戦略を提案する。
また,CLIPの汎用的な知識を維持するために,テキスト誘導型知識蒸留法を用いている。
提案手法は, 各種データセットに対して頑健な一般化性能を実現する。
論文 参考訳(メタデータ) (2023-03-16T09:51:41Z) - A Simple Framework for Open-Vocabulary Segmentation and Detection [85.21641508535679]
我々は,異なるセグメンテーションと検出データセットから共同で学習する,シンプルなオープン語彙検出フレームワークOpenSeeDを提案する。
まず、事前学習されたテキストエンコーダを導入し、視覚概念を2つのタスクにエンコードし、それらの共通意味空間を学習する。
プレトレーニング後,本モデルでは,セグメンテーションと検出の両方において,競争力あるいは強いゼロショット転送性を示す。
論文 参考訳(メタデータ) (2023-03-14T17:58:34Z) - Towards Universal Vision-language Omni-supervised Segmentation [72.31277932442988]
オープンワールドセグメンテーションタスクを提案分類として扱うために,VLOSS(Vision-Language Omni-Supervised)を提案する。
我々は、オムニ教師付きデータ(例えば、汎視的セグメンテーションデータ、オブジェクト検出データ、画像とテキストのペアデータ)をトレーニングに活用し、オープンワールドセグメンテーション能力を強化する。
Swin-Tiny を用いた VLOSS はパラメータが少ないため,LVIS v1 データセットのマスク AP では MaskCLIP を 2% 上回っている。
論文 参考訳(メタデータ) (2023-03-12T02:57:53Z) - Solve the Puzzle of Instance Segmentation in Videos: A Weakly Supervised
Framework with Spatio-Temporal Collaboration [13.284951215948052]
ビデオにおけるtextbfS-patiotextbfTemporal textbfClaboration の例を示す。
提案手法は,TrackR-CNN と MaskTrack R-CNN の完全教師付き性能よりも優れる。
論文 参考訳(メタデータ) (2022-12-15T02:44:13Z) - Exemplar-Based Open-Set Panoptic Segmentation Network [79.99748041746592]
我々は、オープンワールドにパン光学セグメンテーションを拡張し、オープンセットのパン光学セグメンテーション(OPS)タスクを導入する。
本研究では,タスクの実践的課題を調査し,既存のデータセットであるCOCO上にベンチマークを構築する。
本稿では,エスペクティブ理論に着想を得た,エスペクティブ・ベース・オープン・セット・パノプティブ・セグメンテーション・ネットワーク(EOPSN)を提案する。
論文 参考訳(メタデータ) (2021-05-18T07:59:21Z) - Salient Instance Segmentation with Region and Box-level Annotations [3.1458035003538884]
新たな世代の唾液濃度検出は、ビデオ監視の強力な理論的および技術的基盤を提供する。
既存のデータセットの規模が限られており、マスクアノテーションのコストが高いため、優れたパフォーマンスの優れたインスタンスモデルをトレーニングするためには、緊急に多くの監視ソースが必要になります。
本稿では, 厳密なラベル付けに頼らずに, 厳密な監視を施した新規な健全なインスタンスセグメンテーションフレームワークを提案する。
論文 参考訳(メタデータ) (2020-08-19T03:43:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。