論文の概要: Unified Embedding Alignment for Open-Vocabulary Video Instance Segmentation
- arxiv url: http://arxiv.org/abs/2407.07427v2
- Date: Fri, 12 Jul 2024 02:49:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-16 03:58:18.374504
- Title: Unified Embedding Alignment for Open-Vocabulary Video Instance Segmentation
- Title(参考訳): Open-Vocabulary Video Instance Segmentationのための統一埋め込みアライメント
- Authors: Hao Fang, Peng Wu, Yawei Li, Xinxin Zhang, Xiankai Lu,
- Abstract要約: Open-Vocabulary Video Instance (VIS)は、任意のオブジェクトのセグメンテーションと追跡機能によって、注目を集めている。
我々はOVFormerと呼ばれる新しいオープン語彙VISベースラインを提案する。
OVFormerは軽量モジュールを使用して、クエリの埋め込みとCLIPイメージの埋め込みを統一する。
従来の画像ベーストレーニングとは異なり、ビデオベースのモデルトレーニングを行い、ビデオ内の時間的一貫性を完全にマイニングする半オンライン推論スキームをデプロイする。
- 参考スコア(独自算出の注目度): 28.360157186395686
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Open-Vocabulary Video Instance Segmentation (VIS) is attracting increasing attention due to its ability to segment and track arbitrary objects. However, the recent Open-Vocabulary VIS attempts obtained unsatisfactory results, especially in terms of generalization ability of novel categories. We discover that the domain gap between the VLM features (e.g., CLIP) and the instance queries and the underutilization of temporal consistency are two central causes. To mitigate these issues, we design and train a novel Open-Vocabulary VIS baseline called OVFormer. OVFormer utilizes a lightweight module for unified embedding alignment between query embeddings and CLIP image embeddings to remedy the domain gap. Unlike previous image-based training methods, we conduct video-based model training and deploy a semi-online inference scheme to fully mine the temporal consistency in the video. Without bells and whistles, OVFormer achieves 21.9 mAP with a ResNet-50 backbone on LV-VIS, exceeding the previous state-of-the-art performance by 7.7. Extensive experiments on some Close-Vocabulary VIS datasets also demonstrate the strong zero-shot generalization ability of OVFormer (+ 7.6 mAP on YouTube-VIS 2019, + 3.9 mAP on OVIS). Code is available at https://github.com/fanghaook/OVFormer.
- Abstract(参考訳): Open-Vocabulary Video Instance Segmentation (VIS)は、任意のオブジェクトをセグメンテーションし追跡する能力によって、注目を集めている。
しかし、最近のOpen-Vocabulary VISの試みは、特に新しいカテゴリの一般化能力に関して、不満足な結果を得た。
VLM機能(例えばCLIP)とインスタンスクエリのドメインギャップと時間的一貫性の未利用が2つの中心的な原因であることが判明した。
これらの問題を緩和するために、我々はOVFormerと呼ばれる新しいOpen-Vocabulary VISベースラインを設計し、訓練する。
OVFormerは軽量なモジュールを使用して、クエリの埋め込みとCLIPイメージの埋め込みを統合してドメインギャップを修復する。
従来の画像ベーストレーニングとは異なり、ビデオベースのモデルトレーニングを行い、ビデオ内の時間的一貫性を完全にマイニングする半オンライン推論スキームをデプロイする。
ベルとホイッスルがなければ、OVFormerはLV-VISのResNet-50バックボーンで21.9mAPを達成した。
いくつかの近接語彙VISデータセットに対する大規模な実験は、OVFormerの強いゼロショット一般化能力(YouTube-VIS 2019では7.6 mAP、OVISでは3.9 mAP)も示している。
コードはhttps://github.com/fanghaook/OVFormer.comで入手できる。
関連論文リスト
- UVIS: Unsupervised Video Instance Segmentation [65.46196594721545]
ビデオキャプションインスタンスのセグメンテーションには、ビデオフレームをまたいだすべてのオブジェクトの分類、セグメンテーション、追跡が必要である。
UVISは,ビデオアノテーションや高密度ラベルに基づく事前学習を必要とせずに,ビデオインスタンスのセグメンテーションを行うことのできる,新しいUnsupervised Video Instance (UVIS) フレームワークである。
本フレームワークは,フレームレベルの擬似ラベル生成,トランスフォーマーベースのVISモデルトレーニング,クエリベースのトラッキングという3つの重要なステップで構成されている。
論文 参考訳(メタデータ) (2024-06-11T03:05:50Z) - DVIS++: Improved Decoupled Framework for Universal Video Segmentation [30.703276476607545]
我々は,最初のオープン語彙ユニバーサルビデオセグメンテーションフレームワークであるOV-DVIS++を提案する。
CLIPとDVIS++を統合することで、最初のオープン語彙のユニバーサルビデオセグメンテーションフレームワークであるOV-DVIS++を提案する。
論文 参考訳(メタデータ) (2023-12-20T03:01:33Z) - Towards Open-Vocabulary Video Instance Segmentation [61.469232166803465]
Video Instanceは、ビデオ内のオブジェクトをクローズドなトレーニングカテゴリから分類し分類することを目的としている。
本稿では,オープンなカテゴリからビデオ内のオブジェクトを分割,追跡,分類することを目的とした,Open-Vocabulary Video Instanceの新たなタスクを紹介する。
Open-Vocabulary VISをベンチマークするために、我々は1,196の多様なカテゴリから、よく注釈付けされたオブジェクトを含む大語彙ビデオインスタンスデータセット(LV-VIS)を収集します。
論文 参考訳(メタデータ) (2023-04-04T11:25:23Z) - Video Instance Segmentation in an Open-World [112.02667959850436]
ビデオインスタンスセグメンテーション(VIS)アプローチは一般にクローズドワールドの仮定に従う。
OW-VISFormerと呼ばれるオープンワールドなVISアプローチを提案する。
我々のOW-VISFormerはOW-VIS設定において、ソリッドベースラインに対して良好に動作します。
論文 参考訳(メタデータ) (2023-04-03T17:59:52Z) - A Generalized Framework for Video Instance Segmentation [49.41441806931224]
ビデオインスタンスセグメンテーション(VIS)コミュニティでは,複雑なシーケンスと隠蔽シーケンスによる長いビデオの処理が,新たな課題として浮上している。
我々は、挑戦的なベンチマーク上で最先端のパフォーマンスを達成するための、VISの一般化されたフレームワーク、すなわちGenVISを提案する。
我々は、YouTube-VIS 2019/2021/2022およびOccluded VIS (OVIS)上で、人気VISベンチマークに対する我々のアプローチを評価した。
論文 参考訳(メタデータ) (2022-11-16T11:17:19Z) - Video Instance Segmentation via Multi-scale Spatio-temporal Split
Attention Transformer [77.95612004326055]
ビデオセグメンテーション(VIS)アプローチは通常、注意計算中に単一スケールの時間的特徴またはフレームごとのマルチスケール特徴のいずれかを利用する。
エンコーダにMS-STSアテンションモジュールを組み込んだトランスフォーマーベースのVISフレームワークMS-STS VISを提案する。
MS-STSモジュールは、ビデオ内のフレームをまたいだ複数のスケールにおける分割時間的特徴関係を効果的にキャプチャする。
論文 参考訳(メタデータ) (2022-03-24T17:59:20Z) - Deformable VisTR: Spatio temporal deformable attention for video
instance segmentation [79.76273774737555]
ビデオインスタンスセグメンテーション(VIS)タスクは、クリップ内のすべてのフレーム上でのオブジェクトインスタンスのセグメンテーション、分類、追跡を必要とする。
近年、VisTRは最先端の性能を実証しつつ、エンドツーエンドのトランスフォーマーベースのVISフレームワークとして提案されている。
本稿では,小さな鍵時間サンプリングポイントのみに対応する時間変形型アテンションモジュールであるDeformable VisTRを提案する。
論文 参考訳(メタデータ) (2022-03-12T02:27:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。