論文の概要: UVIS: Unsupervised Video Instance Segmentation
- arxiv url: http://arxiv.org/abs/2406.06908v1
- Date: Tue, 11 Jun 2024 03:05:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-12 19:36:38.539216
- Title: UVIS: Unsupervised Video Instance Segmentation
- Title(参考訳): UVIS: 教師なしのビデオインスタンスセグメンテーション
- Authors: Shuaiyi Huang, Saksham Suri, Kamal Gupta, Sai Saketh Rambhatla, Ser-nam Lim, Abhinav Shrivastava,
- Abstract要約: ビデオキャプションインスタンスのセグメンテーションには、ビデオフレームをまたいだすべてのオブジェクトの分類、セグメンテーション、追跡が必要である。
UVISは,ビデオアノテーションや高密度ラベルに基づく事前学習を必要とせずに,ビデオインスタンスのセグメンテーションを行うことのできる,新しいUnsupervised Video Instance (UVIS) フレームワークである。
本フレームワークは,フレームレベルの擬似ラベル生成,トランスフォーマーベースのVISモデルトレーニング,クエリベースのトラッキングという3つの重要なステップで構成されている。
- 参考スコア(独自算出の注目度): 65.46196594721545
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video instance segmentation requires classifying, segmenting, and tracking every object across video frames. Unlike existing approaches that rely on masks, boxes, or category labels, we propose UVIS, a novel Unsupervised Video Instance Segmentation (UVIS) framework that can perform video instance segmentation without any video annotations or dense label-based pretraining. Our key insight comes from leveraging the dense shape prior from the self-supervised vision foundation model DINO and the openset recognition ability from the image-caption supervised vision-language model CLIP. Our UVIS framework consists of three essential steps: frame-level pseudo-label generation, transformer-based VIS model training, and query-based tracking. To improve the quality of VIS predictions in the unsupervised setup, we introduce a dual-memory design. This design includes a semantic memory bank for generating accurate pseudo-labels and a tracking memory bank for maintaining temporal consistency in object tracks. We evaluate our approach on three standard VIS benchmarks, namely YoutubeVIS-2019, YoutubeVIS-2021, and Occluded VIS. Our UVIS achieves 21.1 AP on YoutubeVIS-2019 without any video annotations or dense pretraining, demonstrating the potential of our unsupervised VIS framework.
- Abstract(参考訳): ビデオインスタンスのセグメンテーションには、ビデオフレームをまたいだすべてのオブジェクトの分類、セグメンテーション、追跡が必要である。
マスクやボックス,あるいはカテゴリラベルに依存する既存のアプローチとは違って,ビデオアノテーションや濃密なラベルベースの事前トレーニングを使わずにビデオインスタンスセグメンテーションを実行できる,新しいビデオインスタンスセグメンテーション(Unsupervised Video Instance Segmentation, UVIS)フレームワークであるUVISを提案する。
我々の重要な洞察は、自己監督型視覚基礎モデルDINOの前の密な形状と、画像キャプチャ型視覚言語モデルCLIPのオープンセット認識能力を活用することにある。
UVISフレームワークは,フレームレベルの擬似ラベル生成,トランスフォーマーベースのVISモデルトレーニング,クエリベースのトラッキングという3つの重要なステップで構成されている。
教師なしセットアップにおけるVIS予測の品質向上のために,デュアルメモリ設計を導入する。
この設計は、正確な擬似ラベルを生成するセマンティックメモリバンクと、オブジェクトトラックの時間的一貫性を維持するトラッキングメモリバンクとを含む。
提案手法を,YoutubeVIS-2019,YoutubeVIS-2021,Occluded VISの3つの標準VISベンチマークで評価した。
UVISはYouTubeVIS-2019で21.1 APを達成したが、ビデオアノテーションや密集事前学習は行わず、教師なしVISフレームワークの可能性を示している。
関連論文リスト
- DVIS++: Improved Decoupled Framework for Universal Video Segmentation [30.703276476607545]
我々は,最初のオープン語彙ユニバーサルビデオセグメンテーションフレームワークであるOV-DVIS++を提案する。
CLIPとDVIS++を統合することで、最初のオープン語彙のユニバーサルビデオセグメンテーションフレームワークであるOV-DVIS++を提案する。
論文 参考訳(メタデータ) (2023-12-20T03:01:33Z) - NOVIS: A Case for End-to-End Near-Online Video Instance Segmentation [22.200700685751826]
ビデオインスタンス(VIS)コミュニティは、オフラインメソッドは一般的にオンライン処理によってフレームよりも優れているという共通の信念の下で運営されている。
本稿では、異なる処理パラダイムの詳細な分析と、新しいエンドツーエンドビデオインスタンス法を提案する。
我々のNOVISは、手作りの追跡を避ける最初のニアオンラインVISアプローチである。
論文 参考訳(メタデータ) (2023-08-29T12:51:04Z) - CTVIS: Consistent Training for Online Video Instance Segmentation [62.957370691452844]
オンラインビデオインスタンスセグメンテーション(VIS)におけるインスタンスの関連付けにおいて,インスタンス埋め込みの識別が重要な役割を担っている
近年のオンラインVIS手法では,参照フレームのみから派生したCIを活用している。
我々は,オンラインVIS(Consistent Training for Online VIS)と呼ばれる,トレーニングパイプラインと推論パイプラインの整合性を重視した,シンプルで効果的なトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2023-07-24T08:44:25Z) - Towards Open-Vocabulary Video Instance Segmentation [61.469232166803465]
Video Instanceは、ビデオ内のオブジェクトをクローズドなトレーニングカテゴリから分類し分類することを目的としている。
本稿では,オープンなカテゴリからビデオ内のオブジェクトを分割,追跡,分類することを目的とした,Open-Vocabulary Video Instanceの新たなタスクを紹介する。
Open-Vocabulary VISをベンチマークするために、我々は1,196の多様なカテゴリから、よく注釈付けされたオブジェクトを含む大語彙ビデオインスタンスデータセット(LV-VIS)を収集します。
論文 参考訳(メタデータ) (2023-04-04T11:25:23Z) - BoxVIS: Video Instance Segmentation with Box Annotations [15.082477136581153]
我々は,最先端の画素教師付きVISモデルをボックス教師付きVISベースラインに適応させ,若干の性能劣化を観測する。
本研究では, 空間的・時間的整合性を改善するために, 空間的・時間的親和性損失を箱中心に誘導し, インスタンスマスクの予測を行う。
アノテーションの時間とコストの16%しか使用せず、最先端のピクセル管理型VISモデルよりも優れたインスタンスマスク予測性能と一般化能力を示す。
論文 参考訳(メタデータ) (2023-03-26T04:04:58Z) - A Generalized Framework for Video Instance Segmentation [49.41441806931224]
ビデオインスタンスセグメンテーション(VIS)コミュニティでは,複雑なシーケンスと隠蔽シーケンスによる長いビデオの処理が,新たな課題として浮上している。
我々は、挑戦的なベンチマーク上で最先端のパフォーマンスを達成するための、VISの一般化されたフレームワーク、すなわちGenVISを提案する。
我々は、YouTube-VIS 2019/2021/2022およびOccluded VIS (OVIS)上で、人気VISベンチマークに対する我々のアプローチを評価した。
論文 参考訳(メタデータ) (2022-11-16T11:17:19Z) - MinVIS: A Minimal Video Instance Segmentation Framework without
Video-based Training [84.81566912372328]
MinVISは最小限のビデオインスタンスセグメンテーションフレームワークである。
ビデオベースのアーキテクチャでもトレーニング手順でも、最先端のVISパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-08-03T17:50:42Z) - Crossover Learning for Fast Online Video Instance Segmentation [53.5613957875507]
本稿では,現在のフレームのインスタンス特徴を用いて,他のフレームで同じインスタンスをピクセル単位でローカライズする,新しいクロスオーバー学習方式を提案する。
私たちの知る限り、CrossVISはすべてのオンラインVISメソッドの中で最先端のパフォーマンスを達成し、レイテンシと精度の適切なトレードオフを示します。
論文 参考訳(メタデータ) (2021-04-13T06:47:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。