論文の概要: Towards Open-Vocabulary Video Instance Segmentation
- arxiv url: http://arxiv.org/abs/2304.01715v1
- Date: Tue, 4 Apr 2023 11:25:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-05 14:08:20.558339
- Title: Towards Open-Vocabulary Video Instance Segmentation
- Title(参考訳): Open-Vocabulary Video Instance Segmentationに向けて
- Authors: Haochen Wang, Shuai Wang, Cilin Yan, Xiaolong Jiang, XU Tang, Yao Hu,
Weidi Xie, Efstratios Gavves
- Abstract要約: Video Instanceは、ビデオ内のオブジェクトをクローズドなトレーニングカテゴリから分類し分類することを目的としている。
Open-Vocabulary Video Instanceは、オープンセットのカテゴリからビデオ内のオブジェクトを分割、追跡、分類することを目的としている。
LV-VISデータセットは1,212の多様なカテゴリからよく注釈付けされたオブジェクトを含んでいる。
- 参考スコア(独自算出の注目度): 61.469232166803465
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video Instance Segmentation(VIS) aims at segmenting and categorizing objects
in videos from a closed set of training categories, lacking the generalization
ability to handle novel categories in real-world videos. To address this
limitation, we make the following three contributions. First, we introduce the
novel task of Open-Vocabulary Video Instance Segmentation, which aims to
simultaneously segment, track, and classify objects in videos from open-set
categories, including novel categories unseen during training. Second, to
benchmark Open-Vocabulary VIS, we collect a Large-Vocabulary Video Instance
Segmentation dataset(LV-VIS), that contains well-annotated objects from 1,212
diverse categories, significantly surpassing the category size of existing
datasets by more than one order of magnitude. Third, we propose an efficient
Memory-Induced Vision-Language Transformer, MindVLT, to first achieve
Open-Vocabulary VIS in an end-to-end manner with near real-time inference
speed. Extensive experiments on LV-VIS and four existing VIS datasets
demonstrate the strong zero-shot generalization ability of MindVLT on novel
categories. We will release the dataset and code to facilitate future
endeavors.
- Abstract(参考訳): ビデオインスタンスセグメンテーション(VIS)は、ビデオ内のオブジェクトをクローズドなトレーニングカテゴリから分類し、分類することを目的としている。
この制限に対処するため、以下の3つの貢献をする。
まず,オープン・ボキャブラリ・ビデオ・インスタンス・セグメンテーション(Open-Vocabulary Video Instance Segmentation)の課題を紹介する。
次に,open-vocabulary visのベンチマークを行うために,1,212のカテゴリから十分な注釈付きオブジェクトを含む大語彙ビデオインスタンスセグメンテーションデータセット(lv-vis)を収集し,既存のデータセットのカテゴリサイズを1桁以上上回った。
第3に,高速なメモリ駆動型視覚言語変換器MindVLTを提案する。
LV-VISと既存の4つのVISデータセットに関する大規模な実験は、MindVLTの新たなカテゴリにおける強力なゼロショット一般化能力を示している。
将来の取り組みを促進するために、データセットとコードをリリースします。
関連論文リスト
- ReferEverything: Towards Segmenting Everything We Can Speak of in Videos [42.88584315033116]
本稿では、自然言語で記述可能なビデオのセグメンテーションフレームワークREMを提案する。
提案手法は,インターネット規模のデータセット上での映像拡散モデルから学習した視覚表現に重きを置いている。
論文 参考訳(メタデータ) (2024-10-30T17:59:26Z) - Unified Embedding Alignment for Open-Vocabulary Video Instance Segmentation [28.360157186395686]
Open-Vocabulary Video Instance (VIS)は、任意のオブジェクトのセグメンテーションと追跡機能によって、注目を集めている。
我々はOVFormerと呼ばれる新しいオープン語彙VISベースラインを提案する。
OVFormerは軽量モジュールを使用して、クエリの埋め込みとCLIPイメージの埋め込みを統一する。
従来の画像ベーストレーニングとは異なり、ビデオベースのモデルトレーニングを行い、ビデオ内の時間的一貫性を完全にマイニングする半オンライン推論スキームをデプロイする。
論文 参考訳(メタデータ) (2024-07-10T07:30:51Z) - UVIS: Unsupervised Video Instance Segmentation [65.46196594721545]
ビデオキャプションインスタンスのセグメンテーションには、ビデオフレームをまたいだすべてのオブジェクトの分類、セグメンテーション、追跡が必要である。
UVISは,ビデオアノテーションや高密度ラベルに基づく事前学習を必要とせずに,ビデオインスタンスのセグメンテーションを行うことのできる,新しいUnsupervised Video Instance (UVIS) フレームワークである。
本フレームワークは,フレームレベルの擬似ラベル生成,トランスフォーマーベースのVISモデルトレーニング,クエリベースのトラッキングという3つの重要なステップで構成されている。
論文 参考訳(メタデータ) (2024-06-11T03:05:50Z) - DVIS++: Improved Decoupled Framework for Universal Video Segmentation [30.703276476607545]
我々は,最初のオープン語彙ユニバーサルビデオセグメンテーションフレームワークであるOV-DVIS++を提案する。
CLIPとDVIS++を統合することで、最初のオープン語彙のユニバーサルビデオセグメンテーションフレームワークであるOV-DVIS++を提案する。
論文 参考訳(メタデータ) (2023-12-20T03:01:33Z) - Tracking Anything with Decoupled Video Segmentation [87.07258378407289]
我々はデカップリングビデオセグメンテーションアプローチ(DEVA)を開発した。
タスク固有のイメージレベルセグメンテーションと、クラス/タスク非依存の双方向の時間的伝搬で構成されている。
この分離された定式化は、複数のデータスカースタスクにおけるエンドツーエンドのアプローチと良好に比較できることを示す。
論文 参考訳(メタデータ) (2023-09-07T17:59:41Z) - Efficient Video Instance Segmentation via Tracklet Query and Proposal [62.897552852894854]
Video Instanceは、ビデオ内の複数のオブジェクトインスタンスを同時に分類、セグメント化、追跡することを目的としている。
ほとんどのクリップレベルメソッドはエンドツーエンドの学習可能でもリアルタイムでもない。
本稿では,効率的なトレーニングと推論を行う完全エンドツーエンドフレームワークであるEfficientVISを提案する。
論文 参考訳(メタデータ) (2022-03-03T17:00:11Z) - Video Instance Segmentation with a Propose-Reduce Paradigm [68.59137660342326]
ビデオインスタンスセグメンテーション(VIS)は、ビデオ内の各フレームごとに定義されたクラスのすべてのインスタンスをセグメンテーションし、関連付けることを目的とする。
先行メソッドは通常、フレームまたはクリップのセグメンテーションを最初に取得し、追跡またはマッチングによって不完全な結果をマージします。
新しいパラダイムであるPropose-Reduceを提案し、入力ビデオの完全なシーケンスを1ステップで生成します。
論文 参考訳(メタデータ) (2021-03-25T10:58:36Z) - Video Panoptic Segmentation [117.08520543864054]
我々は,ビデオパノプティクスセグメンテーションと呼ばれる,このタスクの新たな拡張手法を提案し,検討する。
この新しいタスクの研究を活性化するために,2種類のビデオパノプティクスデータセットを提示する。
本稿では,ビデオフレーム内のオブジェクトクラス,バウンディングボックス,マスク,インスタンスID追跡,セマンティックセマンティックセマンティックセマンティックセマンティクスを共同で予測する新しいビデオパノプティックセマンティクスネットワーク(VPSNet)を提案する。
論文 参考訳(メタデータ) (2020-06-19T19:35:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。