論文の概要: BoxVIS: Video Instance Segmentation with Box Annotations
- arxiv url: http://arxiv.org/abs/2303.14618v1
- Date: Sun, 26 Mar 2023 04:04:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-28 18:39:09.716594
- Title: BoxVIS: Video Instance Segmentation with Box Annotations
- Title(参考訳): BoxVIS: Boxアノテーションによるビデオインスタンスのセグメンテーション
- Authors: Minghan Li and Lei Zhang
- Abstract要約: ビデオのピクセル単位のオブジェクトマスクをラベル付けるのは高価で、労働力に満ちている。
代わりに、より安価な解決策は、ビデオのインスタンスをラベル付けするためにバウンディングボックスを使用することだ。
ボックス型イメージインスタンスセグメンテーションの成功に触発されて、私たちはまず最先端のピクセル型VISモデルをボックス型VISベースラインに適応させる。
- 参考スコア(独自算出の注目度): 15.082477136581153
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: It is expensive and labour-extensive to label the pixel-wise object masks in
a video. As a results, the amount of pixel-wise annotations in existing video
instance segmentation (VIS) datasets is small, limiting the generalization
capability of trained VIS models. An alternative but much cheaper solution is
to use bounding boxes to label instances in videos. Inspired by the recent
success of box-supervised image instance segmentation, we first adapt the
state-of-the-art pixel-supervised VIS models to a box-supervised VIS (BoxVIS)
baseline, and observe only slight performance degradation. We consequently
propose to improve BoxVIS performance from two aspects. First, we propose a
box-center guided spatial-temporal pairwise affinity (STPA) loss to predict
instance masks for better spatial and temporal consistency. Second, we collect
a larger scale box-annotated VIS dataset (BVISD) by consolidating the videos
from current VIS benchmarks and converting images from the COCO dataset to
short pseudo video clips. With the proposed BVISD and the STPA loss, our
trained BoxVIS model demonstrates promising instance mask prediction
performance. Specifically, it achieves 43.2\% and 29.0\% mask AP on the
YouTube-VIS 2021 and OVIS valid sets, respectively, exhibiting comparable or
even better generalization performance than state-of-the-art pixel-supervised
VIS models by using only 16\% annotation time and cost. Codes and data of
BoxVIS can be found at \url{https://github.com/MinghanLi/BoxVIS}.
- Abstract(参考訳): ピクセル単位でオブジェクトマスクをビデオにラベル付けするのは高価で労力がかかる。
その結果、既存のビデオインスタンスセグメンテーション(VIS)データセットにおけるピクセルワイズアノテーションの量は少なく、訓練されたVISモデルの一般化能力を制限している。
代替案として、バウンディングボックスを使ってビデオにインスタンスをラベル付ける方法がある。
最近のbox-supervised image instance segmentationの成功に触発されて、我々はまず最先端のpixel-supervised visモデルをbox-supervised vis(boxvis)ベースラインに適応させ、わずかなパフォーマンス低下だけを観察した。
そこで我々は,BoxVISの性能を2つの側面から改善することを提案する。
まず, 空間的・時間的整合性を改善するために, 箱型ガイド付き時空間対親和性(STPA)損失を提案する。
第2に、現在のVISベンチマークからビデオを統合し、COCOデータセットから短い擬似ビデオクリップに変換することにより、大規模ボックス付きVISデータセット(BVISD)を収集する。
提案するbvisdとstpa損失により,トレーニングしたboxvisモデルは,有望なインスタンスマスク予測性能を示す。
具体的には、YouTube-VIS 2021 と OVIS の有効セットで 43.2\% と 29.0\% のマスク AP を達成し、16\% のアノテーション時間とコストしか使用せず、最先端のピクセル管理型 VIS モデルと同等またはそれ以上の一般化性能を示す。
BoxVISのコードとデータは \url{https://github.com/MinghanLi/BoxVIS} にある。
関連論文リスト
- PM-VIS+: High-Performance Video Instance Segmentation without Video Annotation [15.9587266448337]
ビデオインスタンスのセグメンテーションには、ビデオ内のオブジェクトを検出し、セグメンテーションし、追跡する必要がある。
本稿では,画像データセットを利用してビデオアノテーションを除去する手法を提案する。
論文 参考訳(メタデータ) (2024-06-28T05:22:39Z) - UVIS: Unsupervised Video Instance Segmentation [65.46196594721545]
ビデオキャプションインスタンスのセグメンテーションには、ビデオフレームをまたいだすべてのオブジェクトの分類、セグメンテーション、追跡が必要である。
UVISは,ビデオアノテーションや高密度ラベルに基づく事前学習を必要とせずに,ビデオインスタンスのセグメンテーションを行うことのできる,新しいUnsupervised Video Instance (UVIS) フレームワークである。
本フレームワークは,フレームレベルの擬似ラベル生成,トランスフォーマーベースのVISモデルトレーニング,クエリベースのトラッキングという3つの重要なステップで構成されている。
論文 参考訳(メタデータ) (2024-06-11T03:05:50Z) - PM-VIS: High-Performance Box-Supervised Video Instance Segmentation [30.453433078039133]
Box-supervised Video Instance (VIS) メソッドは、労働集約的なアノテーションプロセスを緩和する実行可能なソリューションとして登場した。
我々は、インスタンスボックスアノテーションを利用して、高品質なインスタンス擬似マスクを生成する新しいアプローチを導入する。
我々のPM-VISモデルは、高品質な擬似マスクアノテーションで訓練され、事例マスク予測における強力な能力を示す。
論文 参考訳(メタデータ) (2024-04-22T04:25:02Z) - Mask-Free Video Instance Segmentation [102.50936366583106]
ビデオマスクは面倒で高価なアノテーションで、既存のVISデータセットのスケールと多様性を制限している。
我々は、オブジェクト状態のバウンディングボックスアノテーションのみを使用しながら、非常に競争力のあるVIS性能を実現するMaskFreeVISを提案する。
我々のTK-Lossは、効率的なパッチマッチングステップを経て、フレーム間の一対多のマッチを見つけ、続いてK-アネレスの隣り合う選択を行う。
論文 参考訳(メタデータ) (2023-03-28T11:48:07Z) - MinVIS: A Minimal Video Instance Segmentation Framework without
Video-based Training [84.81566912372328]
MinVISは最小限のビデオインスタンスセグメンテーションフレームワークである。
ビデオベースのアーキテクチャでもトレーニング手順でも、最先端のVISパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-08-03T17:50:42Z) - Video Mask Transfiner for High-Quality Video Instance Segmentation [102.50936366583106]
Video Mask Transfiner (VMT) は、高効率なビデオトランス構造により、微細な高解像度機能を利用することができる。
当社のVMTアーキテクチャに基づいて,反復的トレーニングと自己補正による自動アノテーション改善アプローチを設計する。
我々はVMTとHQ-YTVISの最新の最先端手法、Youtube-VIS、OVIS、BDD100K MOTSを比較した。
論文 参考訳(メタデータ) (2022-07-28T11:13:37Z) - DeVIS: Making Deformable Transformers Work for Video Instance
Segmentation [4.3012765978447565]
ビデオインスタンス(VIS)は、ビデオシーケンスにおける複数オブジェクトの検出、追跡、セグメンテーションに共同で取り組む。
トランスフォーマーは最近、VISタスク全体を単一のセット予測問題としてキャストすることを許可した。
変形可能な注意は、より効率的な代替手段を提供するが、その時間領域やセグメンテーションタスクへの応用はまだ検討されていない。
論文 参考訳(メタデータ) (2022-07-22T14:27:45Z) - Crossover Learning for Fast Online Video Instance Segmentation [53.5613957875507]
本稿では,現在のフレームのインスタンス特徴を用いて,他のフレームで同じインスタンスをピクセル単位でローカライズする,新しいクロスオーバー学習方式を提案する。
私たちの知る限り、CrossVISはすべてのオンラインVISメソッドの中で最先端のパフォーマンスを達成し、レイテンシと精度の適切なトレードオフを示します。
論文 参考訳(メタデータ) (2021-04-13T06:47:40Z) - Video Panoptic Segmentation [117.08520543864054]
我々は,ビデオパノプティクスセグメンテーションと呼ばれる,このタスクの新たな拡張手法を提案し,検討する。
この新しいタスクの研究を活性化するために,2種類のビデオパノプティクスデータセットを提示する。
本稿では,ビデオフレーム内のオブジェクトクラス,バウンディングボックス,マスク,インスタンスID追跡,セマンティックセマンティックセマンティックセマンティックセマンティクスを共同で予測する新しいビデオパノプティックセマンティクスネットワーク(VPSNet)を提案する。
論文 参考訳(メタデータ) (2020-06-19T19:35:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。