論文の概要: OpenVIS: Open-vocabulary Video Instance Segmentation
- arxiv url: http://arxiv.org/abs/2305.16835v3
- Date: Sat, 17 Aug 2024 09:30:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-21 04:36:46.712854
- Title: OpenVIS: Open-vocabulary Video Instance Segmentation
- Title(参考訳): OpenVIS: オープン語彙ビデオインスタンスセグメンテーション
- Authors: Pinxue Guo, Tony Huang, Peiyang He, Xuefeng Liu, Tianjun Xiao, Zhaoyu Chen, Wenqiang Zhang,
- Abstract要約: OpenVIS(Open-vocabulary Video Instance)は、ビデオ内の任意のオブジェクトカテゴリを検出し、セグメンテーションし、追跡する。
InstFormerは、限られたカテゴリデータによる軽量な微調整により、強力なオープン語彙機能を実現するフレームワークである。
- 参考スコア(独自算出の注目度): 24.860711503327323
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Open-vocabulary Video Instance Segmentation (OpenVIS) can simultaneously detect, segment, and track arbitrary object categories in a video, without being constrained to categories seen during training. In this work, we propose InstFormer, a carefully designed framework for the OpenVIS task that achieves powerful open-vocabulary capabilities through lightweight fine-tuning with limited-category data. InstFormer begins with the open-world mask proposal network, encouraged to propose all potential instance class-agnostic masks by the contrastive instance margin loss. Next, we introduce InstCLIP, adapted from pre-trained CLIP with Instance Guidance Attention, which encodes open-vocabulary instance tokens efficiently. These instance tokens not only enable open-vocabulary classification but also offer strong universal tracking capabilities. Furthermore, to prevent the tracking module from being constrained by the training data with limited categories, we propose the universal rollout association, which transforms the tracking problem into predicting the next frame's instance tracking token. The experimental results demonstrate the proposed InstFormer achieve state-of-the-art capabilities on a comprehensive OpenVIS evaluation benchmark, while also achieves competitive performance in fully supervised VIS task.
- Abstract(参考訳): OpenVIS(Open-vocabulary Video Instance Segmentation)は、トレーニング中に見られるカテゴリに制約されることなく、ビデオ内の任意のオブジェクトカテゴリを検出し、セグメンテーションし、追跡する。
本研究では,OpenVISタスクのための慎重に設計されたフレームワークであるInstFormerを提案する。
InstFormerは、オープンワールドマスクの提案ネットワークから始まり、コントラストのあるインスタンスマージン損失によって、すべての潜在的なインスタンスクラスに依存しないマスクを提案することを奨励している。
次に、オープン語彙のインスタンストークンを効率的にエンコードするインスタンス誘導注意による事前訓練済みCLIPから適応したInstCLIPを紹介します。
これらのインスタンストークンは、オープン語彙分類を可能にするだけでなく、強力なユニバーサルトラッキング機能を提供する。
さらに,特定カテゴリのトレーニングデータによるトラッキングモジュールの制約を回避するために,トラッキング問題を次のフレームのインスタンス追跡トークンの予測に変換するユニバーサルロールアウトアソシエーションを提案する。
実験の結果,提案したInstFormerは,総合的なOpenVIS評価ベンチマークで最先端の機能を実現するとともに,完全な教師付きVISタスクにおける競合性能も達成した。
関連論文リスト
- What is Point Supervision Worth in Video Instance Segmentation? [119.71921319637748]
ビデオインスタンスセグメンテーション(VIS)は、ビデオ内のオブジェクトを検出し、セグメンテーションし、追跡することを目的とした、難しいビジョンタスクである。
トレーニング中、ビデオフレーム内の各オブジェクトについて、人間のアノテーションを1点に減らし、完全に教師されたモデルに近い高品質なマスク予測を得る。
3つのVISベンチマークに関する総合的な実験は、提案フレームワークの競合性能を示し、完全に教師付きされた手法にほぼ一致する。
論文 参考訳(メタデータ) (2024-04-01T17:38:25Z) - Video Instance Segmentation in an Open-World [112.02667959850436]
ビデオインスタンスセグメンテーション(VIS)アプローチは一般にクローズドワールドの仮定に従う。
OW-VISFormerと呼ばれるオープンワールドなVISアプローチを提案する。
我々のOW-VISFormerはOW-VIS設定において、ソリッドベースラインに対して良好に動作します。
論文 参考訳(メタデータ) (2023-04-03T17:59:52Z) - Global Knowledge Calibration for Fast Open-Vocabulary Segmentation [124.74256749281625]
本稿では,各学習カテゴリの同義語群を生成するテキスト多様化戦略を提案する。
また,CLIPの汎用的な知識を維持するために,テキスト誘導型知識蒸留法を用いている。
提案手法は, 各種データセットに対して頑健な一般化性能を実現する。
論文 参考訳(メタデータ) (2023-03-16T09:51:41Z) - A Simple Framework for Open-Vocabulary Segmentation and Detection [85.21641508535679]
我々は,異なるセグメンテーションと検出データセットから共同で学習する,シンプルなオープン語彙検出フレームワークOpenSeeDを提案する。
まず、事前学習されたテキストエンコーダを導入し、視覚概念を2つのタスクにエンコードし、それらの共通意味空間を学習する。
プレトレーニング後,本モデルでは,セグメンテーションと検出の両方において,競争力あるいは強いゼロショット転送性を示す。
論文 参考訳(メタデータ) (2023-03-14T17:58:34Z) - Towards Universal Vision-language Omni-supervised Segmentation [72.31277932442988]
オープンワールドセグメンテーションタスクを提案分類として扱うために,VLOSS(Vision-Language Omni-Supervised)を提案する。
我々は、オムニ教師付きデータ(例えば、汎視的セグメンテーションデータ、オブジェクト検出データ、画像とテキストのペアデータ)をトレーニングに活用し、オープンワールドセグメンテーション能力を強化する。
Swin-Tiny を用いた VLOSS はパラメータが少ないため,LVIS v1 データセットのマスク AP では MaskCLIP を 2% 上回っている。
論文 参考訳(メタデータ) (2023-03-12T02:57:53Z) - Solve the Puzzle of Instance Segmentation in Videos: A Weakly Supervised
Framework with Spatio-Temporal Collaboration [13.284951215948052]
ビデオにおけるtextbfS-patiotextbfTemporal textbfClaboration の例を示す。
提案手法は,TrackR-CNN と MaskTrack R-CNN の完全教師付き性能よりも優れる。
論文 参考訳(メタデータ) (2022-12-15T02:44:13Z) - Exemplar-Based Open-Set Panoptic Segmentation Network [79.99748041746592]
我々は、オープンワールドにパン光学セグメンテーションを拡張し、オープンセットのパン光学セグメンテーション(OPS)タスクを導入する。
本研究では,タスクの実践的課題を調査し,既存のデータセットであるCOCO上にベンチマークを構築する。
本稿では,エスペクティブ理論に着想を得た,エスペクティブ・ベース・オープン・セット・パノプティブ・セグメンテーション・ネットワーク(EOPSN)を提案する。
論文 参考訳(メタデータ) (2021-05-18T07:59:21Z) - Salient Instance Segmentation with Region and Box-level Annotations [3.1458035003538884]
新たな世代の唾液濃度検出は、ビデオ監視の強力な理論的および技術的基盤を提供する。
既存のデータセットの規模が限られており、マスクアノテーションのコストが高いため、優れたパフォーマンスの優れたインスタンスモデルをトレーニングするためには、緊急に多くの監視ソースが必要になります。
本稿では, 厳密なラベル付けに頼らずに, 厳密な監視を施した新規な健全なインスタンスセグメンテーションフレームワークを提案する。
論文 参考訳(メタデータ) (2020-08-19T03:43:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。