論文の概要: BoxVIS: Video Instance Segmentation with Box Annotations
- arxiv url: http://arxiv.org/abs/2303.14618v2
- Date: Wed, 12 Jul 2023 10:44:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-13 19:25:54.705497
- Title: BoxVIS: Video Instance Segmentation with Box Annotations
- Title(参考訳): BoxVIS: Boxアノテーションによるビデオインスタンスのセグメンテーション
- Authors: Minghan Li and Lei Zhang
- Abstract要約: 我々は,最先端の画素教師付きVISモデルをボックス教師付きVISベースラインに適応させ,若干の性能劣化を観測する。
本研究では, 空間的・時間的整合性を改善するために, 空間的・時間的親和性損失を箱中心に誘導し, インスタンスマスクの予測を行う。
アノテーションの時間とコストの16%しか使用せず、最先端のピクセル管理型VISモデルよりも優れたインスタンスマスク予測性能と一般化能力を示す。
- 参考スコア(独自算出の注目度): 15.082477136581153
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: It is expensive and labour-extensive to label the pixel-wise object masks in
a video. As a result, the amount of pixel-wise annotations in existing video
instance segmentation (VIS) datasets is small, limiting the generalization
capability of trained VIS models. An alternative but much cheaper solution is
to use bounding boxes to label instances in videos. Inspired by the recent
success of box-supervised image instance segmentation, we adapt the
state-of-the-art pixel-supervised VIS models to a box-supervised VIS (BoxVIS)
baseline, and observe slight performance degradation. We consequently propose
to improve the BoxVIS performance from two aspects. First, we propose a
box-center guided spatial-temporal pairwise affinity (STPA) loss to predict
instance masks for better spatial and temporal consistency. Second, we collect
a larger scale box-annotated VIS dataset (BVISD) by consolidating the videos
from current VIS benchmarks and converting images from the COCO dataset to
short pseudo video clips. With the proposed BVISD and the STPA loss, our
trained BoxVIS model achieves 43.2\% and 29.0\% mask AP on the YouTube-VIS 2021
and OVIS valid sets, respectively. It exhibits comparable instance mask
prediction performance and better generalization ability than state-of-the-art
pixel-supervised VIS models by using only 16\% of their annotation time and
cost. Codes and data can be found at \url{https://github.com/MinghanLi/BoxVIS}.
- Abstract(参考訳): ピクセル単位でオブジェクトマスクをビデオにラベル付けするのは高価で労力がかかる。
その結果、既存のビデオインスタンスセグメンテーション(VIS)データセットにおけるピクセルワイズアノテーションの量は少なく、訓練されたVISモデルの一般化能力を制限している。
代替案として、バウンディングボックスを使ってビデオにインスタンスをラベル付ける方法がある。
近年のボックス型イメージインスタンスセグメンテーションの成功に触発されて,最先端の画素型VISモデルをボックス型VIS(BoxVIS)ベースラインに適応し,若干の性能劣化を観測した。
そこで我々は,BoxVISの性能を2つの側面から改善することを提案する。
まず, 空間的・時間的整合性を改善するために, 箱型ガイド付き時空間対親和性(STPA)損失を提案する。
第2に、現在のVISベンチマークからビデオを統合し、COCOデータセットから短い擬似ビデオクリップに変換することにより、大規模ボックス付きVISデータセット(BVISD)を収集する。
提案したBVISDとSTPAの損失により、トレーニングされたBoxVISモデルは、YouTube-VIS 2021とOVISの有効セット上でそれぞれ43.2\%と29.0\%のマスクAPを達成する。
アノテーションの時間とコストの16倍しか使用せず、最先端のピクセル管理型VISモデルよりも優れたインスタンスマスク予測性能と一般化能力を示す。
コードとデータは \url{https://github.com/MinghanLi/BoxVIS} で見ることができる。
関連論文リスト
- PM-VIS+: High-Performance Video Instance Segmentation without Video Annotation [15.9587266448337]
ビデオインスタンスのセグメンテーションには、ビデオ内のオブジェクトを検出し、セグメンテーションし、追跡する必要がある。
本稿では,画像データセットを利用してビデオアノテーションを除去する手法を提案する。
論文 参考訳(メタデータ) (2024-06-28T05:22:39Z) - UVIS: Unsupervised Video Instance Segmentation [65.46196594721545]
ビデオキャプションインスタンスのセグメンテーションには、ビデオフレームをまたいだすべてのオブジェクトの分類、セグメンテーション、追跡が必要である。
UVISは,ビデオアノテーションや高密度ラベルに基づく事前学習を必要とせずに,ビデオインスタンスのセグメンテーションを行うことのできる,新しいUnsupervised Video Instance (UVIS) フレームワークである。
本フレームワークは,フレームレベルの擬似ラベル生成,トランスフォーマーベースのVISモデルトレーニング,クエリベースのトラッキングという3つの重要なステップで構成されている。
論文 参考訳(メタデータ) (2024-06-11T03:05:50Z) - PM-VIS: High-Performance Box-Supervised Video Instance Segmentation [30.453433078039133]
Box-supervised Video Instance (VIS) メソッドは、労働集約的なアノテーションプロセスを緩和する実行可能なソリューションとして登場した。
我々は、インスタンスボックスアノテーションを利用して、高品質なインスタンス擬似マスクを生成する新しいアプローチを導入する。
我々のPM-VISモデルは、高品質な擬似マスクアノテーションで訓練され、事例マスク予測における強力な能力を示す。
論文 参考訳(メタデータ) (2024-04-22T04:25:02Z) - Mask-Free Video Instance Segmentation [102.50936366583106]
ビデオマスクは面倒で高価なアノテーションで、既存のVISデータセットのスケールと多様性を制限している。
我々は、オブジェクト状態のバウンディングボックスアノテーションのみを使用しながら、非常に競争力のあるVIS性能を実現するMaskFreeVISを提案する。
我々のTK-Lossは、効率的なパッチマッチングステップを経て、フレーム間の一対多のマッチを見つけ、続いてK-アネレスの隣り合う選択を行う。
論文 参考訳(メタデータ) (2023-03-28T11:48:07Z) - MinVIS: A Minimal Video Instance Segmentation Framework without
Video-based Training [84.81566912372328]
MinVISは最小限のビデオインスタンスセグメンテーションフレームワークである。
ビデオベースのアーキテクチャでもトレーニング手順でも、最先端のVISパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-08-03T17:50:42Z) - Video Mask Transfiner for High-Quality Video Instance Segmentation [102.50936366583106]
Video Mask Transfiner (VMT) は、高効率なビデオトランス構造により、微細な高解像度機能を利用することができる。
当社のVMTアーキテクチャに基づいて,反復的トレーニングと自己補正による自動アノテーション改善アプローチを設計する。
我々はVMTとHQ-YTVISの最新の最先端手法、Youtube-VIS、OVIS、BDD100K MOTSを比較した。
論文 参考訳(メタデータ) (2022-07-28T11:13:37Z) - DeVIS: Making Deformable Transformers Work for Video Instance
Segmentation [4.3012765978447565]
ビデオインスタンス(VIS)は、ビデオシーケンスにおける複数オブジェクトの検出、追跡、セグメンテーションに共同で取り組む。
トランスフォーマーは最近、VISタスク全体を単一のセット予測問題としてキャストすることを許可した。
変形可能な注意は、より効率的な代替手段を提供するが、その時間領域やセグメンテーションタスクへの応用はまだ検討されていない。
論文 参考訳(メタデータ) (2022-07-22T14:27:45Z) - Crossover Learning for Fast Online Video Instance Segmentation [53.5613957875507]
本稿では,現在のフレームのインスタンス特徴を用いて,他のフレームで同じインスタンスをピクセル単位でローカライズする,新しいクロスオーバー学習方式を提案する。
私たちの知る限り、CrossVISはすべてのオンラインVISメソッドの中で最先端のパフォーマンスを達成し、レイテンシと精度の適切なトレードオフを示します。
論文 参考訳(メタデータ) (2021-04-13T06:47:40Z) - Video Panoptic Segmentation [117.08520543864054]
我々は,ビデオパノプティクスセグメンテーションと呼ばれる,このタスクの新たな拡張手法を提案し,検討する。
この新しいタスクの研究を活性化するために,2種類のビデオパノプティクスデータセットを提示する。
本稿では,ビデオフレーム内のオブジェクトクラス,バウンディングボックス,マスク,インスタンスID追跡,セマンティックセマンティックセマンティックセマンティックセマンティクスを共同で予測する新しいビデオパノプティックセマンティクスネットワーク(VPSNet)を提案する。
論文 参考訳(メタデータ) (2020-06-19T19:35:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。