論文の概要: PM-VIS: High-Performance Box-Supervised Video Instance Segmentation
- arxiv url: http://arxiv.org/abs/2404.13863v1
- Date: Mon, 22 Apr 2024 04:25:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-23 15:16:29.712363
- Title: PM-VIS: High-Performance Box-Supervised Video Instance Segmentation
- Title(参考訳): PM-VIS: 高性能ボックススーパービジョンビデオインスタンスセグメンテーション
- Authors: Zhangjing Yang, Dun Liu, Wensheng Cheng, Jinqiao Wang, Yi Wu,
- Abstract要約: Box-supervised Video Instance (VIS) メソッドは、労働集約的なアノテーションプロセスを緩和する実行可能なソリューションとして登場した。
我々は、インスタンスボックスアノテーションを利用して、高品質なインスタンス擬似マスクを生成する新しいアプローチを導入する。
我々のPM-VISモデルは、高品質な擬似マスクアノテーションで訓練され、事例マスク予測における強力な能力を示す。
- 参考スコア(独自算出の注目度): 30.453433078039133
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Labeling pixel-wise object masks in videos is a resource-intensive and laborious process. Box-supervised Video Instance Segmentation (VIS) methods have emerged as a viable solution to mitigate the labor-intensive annotation process. . In practical applications, the two-step approach is not only more flexible but also exhibits a higher recognition accuracy. Inspired by the recent success of Segment Anything Model (SAM), we introduce a novel approach that aims at harnessing instance box annotations from multiple perspectives to generate high-quality instance pseudo masks, thus enriching the information contained in instance annotations. We leverage ground-truth boxes to create three types of pseudo masks using the HQ-SAM model, the box-supervised VIS model (IDOL-BoxInst), and the VOS model (DeAOT) separately, along with three corresponding optimization mechanisms. Additionally, we introduce two ground-truth data filtering methods, assisted by high-quality pseudo masks, to further enhance the training dataset quality and improve the performance of fully supervised VIS methods. To fully capitalize on the obtained high-quality Pseudo Masks, we introduce a novel algorithm, PM-VIS, to integrate mask losses into IDOL-BoxInst. Our PM-VIS model, trained with high-quality pseudo mask annotations, demonstrates strong ability in instance mask prediction, achieving state-of-the-art performance on the YouTube-VIS 2019, YouTube-VIS 2021, and OVIS validation sets, notably narrowing the gap between box-supervised and fully supervised VIS methods.
- Abstract(参考訳): 動画にピクセル単位のオブジェクトマスクをラベル付けするのは、リソース集約的で退屈なプロセスです。
Box-supervised Video Instance Segmentation (VIS) メソッドは、労働集約的なアノテーションプロセスを緩和するための実行可能なソリューションとして登場した。
と。
現実的な応用では、2段階のアプローチはより柔軟であるだけでなく、高い認識精度を示す。
最近のSegment Anything Model(SAM)の成功に触発されて,複数の視点からインスタンスボックスアノテーションを活用することによって,高品質なインスタンス仮面を生成する新たなアプローチを導入し,インスタンスアノテーションに含まれる情報を強化する。
そこで,本研究では,HQ-SAMモデル,IDOL-BoxInstモデル,VOSモデル(DeAOT)の3種類の擬似マスクを作成する。
さらに,高品質な擬似マスクを用いた2つの地中構造データフィルタリング手法を導入し,トレーニングデータセットの品質をさらに向上し,完全教師付きVIS法の性能向上を図る。
得られた高品質なPseudo Maskをフルに活用するために,マスク損失をIDOL-BoxInstに統合する新しいアルゴリズムPM-VISを導入する。
我々のPM-VISモデルは、高品質な擬似マスクアノテーションで訓練され、インスタンスマスク予測において強力な能力を示し、YouTube-VIS 2019、YouTube-VIS 2021、OVIS検証セットで最先端のパフォーマンスを達成する。
関連論文リスト
- Triple Point Masking [49.39218611030084]
既存の3Dマスク学習手法は、限られたデータの下でパフォーマンスボトルネックに遭遇する。
我々は、マスク付きオートエンコーダの事前学習のためのスケーラブルなフレームワークとして、TPMと呼ばれるトリプルポイントマスキング方式を導入する。
大規模な実験により,提案したTPMを組み込んだ4つのベースラインが,下流タスクの総合的な性能向上を実現することが示された。
論文 参考訳(メタデータ) (2024-09-26T05:33:30Z) - Semantic Refocused Tuning for Open-Vocabulary Panoptic Segmentation [42.020470627552136]
Open-vocabulary Panoptic segmentationは、イメージを意味のあるマスクに正確に分割することを目的とした、新たなタスクである。
マスク分類は、オープンボキャブ・パノプティクスのセグメンテーションにおける主要なパフォーマンスボトルネックである。
オープンボキャブ・パノプティクスのセグメンテーションを大幅に強化する新しいフレームワークであるセマンティック・リフォーカス・タニングを提案する。
論文 参考訳(メタデータ) (2024-09-24T17:50:28Z) - PosSAM: Panoptic Open-vocabulary Segment Anything [58.72494640363136]
PosSAMはオープン・ボキャブラリ・パノプティ・セグメンテーション・モデルであり、Segment Anything Model(SAM)の強みを、エンドツーエンドのフレームワークで視覚ネイティブのCLIPモデルと統合する。
本稿では,マスクの質を適応的に向上し,各画像の推論中にオープン語彙分類の性能を高めるマスク対応選択組立アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-03-14T17:55:03Z) - Generalizable Entity Grounding via Assistance of Large Language Model [77.07759442298666]
本稿では,長いキャプションから密接な視覚的実体を抽出する手法を提案する。
本研究では,意味代名詞の抽出に大規模なマルチモーダルモデル,エンティティレベルのセグメンテーションを生成するクラス-aセグメンテーションモデル,および各セグメンテーション名詞と対応するセグメンテーションマスクを関連付けるマルチモーダル特徴融合モジュールを利用する。
論文 参考訳(メタデータ) (2024-02-04T16:06:05Z) - RefSAM: Efficiently Adapting Segmenting Anything Model for Referring Video Object Segmentation [53.4319652364256]
本稿では,ビデオオブジェクトのセグメンテーションを参照するためのSAMの可能性を探るRefSAMモデルを提案する。
提案手法は,Cross-RValModalを用いることで,モダリティ学習を向上させるためにオリジナルのSAMモデルに適応する。
我々は、言語と視覚の特徴を効果的に調整し、融合させるために、パラメータ効率のチューニング戦略を採用している。
論文 参考訳(メタデータ) (2023-07-03T13:21:58Z) - UVOSAM: A Mask-free Paradigm for Unsupervised Video Object Segmentation via Segment Anything Model [5.632631449489529]
Segment Anything Model (SAM)は、画像セグメンテーションのための新しいプロンプト駆動パラダイムを導入し、新しい可能性を提供している。
本稿では,STD-Netトラッカーを用いたUVOSのマスクフリーパラダイムであるUVOSAMを提案する。
STD-Netは、フレーム内特徴とフレーム間特徴の効果的な相関を確立するために、空間的・時間的疎結合な変形可能なアテンション機構を組み込んでいる。
論文 参考訳(メタデータ) (2023-05-22T03:03:29Z) - BoxVIS: Video Instance Segmentation with Box Annotations [15.082477136581153]
我々は,最先端の画素教師付きVISモデルをボックス教師付きVISベースラインに適応させ,若干の性能劣化を観測する。
本研究では, 空間的・時間的整合性を改善するために, 空間的・時間的親和性損失を箱中心に誘導し, インスタンスマスクの予測を行う。
アノテーションの時間とコストの16%しか使用せず、最先端のピクセル管理型VISモデルよりも優れたインスタンスマスク予測性能と一般化能力を示す。
論文 参考訳(メタデータ) (2023-03-26T04:04:58Z) - Solve the Puzzle of Instance Segmentation in Videos: A Weakly Supervised
Framework with Spatio-Temporal Collaboration [13.284951215948052]
ビデオにおけるtextbfS-patiotextbfTemporal textbfClaboration の例を示す。
提案手法は,TrackR-CNN と MaskTrack R-CNN の完全教師付き性能よりも優れる。
論文 参考訳(メタデータ) (2022-12-15T02:44:13Z) - Video Mask Transfiner for High-Quality Video Instance Segmentation [102.50936366583106]
Video Mask Transfiner (VMT) は、高効率なビデオトランス構造により、微細な高解像度機能を利用することができる。
当社のVMTアーキテクチャに基づいて,反復的トレーニングと自己補正による自動アノテーション改善アプローチを設計する。
我々はVMTとHQ-YTVISの最新の最先端手法、Youtube-VIS、OVIS、BDD100K MOTSを比較した。
論文 参考訳(メタデータ) (2022-07-28T11:13:37Z) - MIST: Multiple Instance Self-Training Framework for Video Anomaly
Detection [76.80153360498797]
タスク固有の識別表現を効率的に洗練するためのマルチインスタンス自己学習フレームワーク(MIST)を開発した。
mistは1)スパース連続サンプリング戦略を適用し,より信頼性の高いクリップレベル擬似ラベルを生成するマルチインスタンス擬似ラベル生成器,2)自己誘導型注意強調特徴エンコーダで構成される。
本手法は,上海技術におけるフレームレベルのAUC 94.83%の取得において,既存の教師付きおよび弱教師付き手法と同等あるいはそれ以上に機能する。
論文 参考訳(メタデータ) (2021-04-04T15:47:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。