論文の概要: Mask-Free Video Instance Segmentation
- arxiv url: http://arxiv.org/abs/2303.15904v1
- Date: Tue, 28 Mar 2023 11:48:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-29 15:28:24.303297
- Title: Mask-Free Video Instance Segmentation
- Title(参考訳): マスクフリービデオインスタンスセグメンテーション
- Authors: Lei Ke, Martin Danelljan, Henghui Ding, Yu-Wing Tai, Chi-Keung Tang,
Fisher Yu
- Abstract要約: ビデオマスクは面倒で高価なアノテーションで、既存のVISデータセットのスケールと多様性を制限している。
我々は、オブジェクト状態のバウンディングボックスアノテーションのみを使用しながら、非常に競争力のあるVIS性能を実現するMaskFreeVISを提案する。
我々のTK-Lossは、効率的なパッチマッチングステップを経て、フレーム間の一対多のマッチを見つけ、続いてK-アネレスの隣り合う選択を行う。
- 参考スコア(独自算出の注目度): 102.50936366583106
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The recent advancement in Video Instance Segmentation (VIS) has largely been
driven by the use of deeper and increasingly data-hungry transformer-based
models. However, video masks are tedious and expensive to annotate, limiting
the scale and diversity of existing VIS datasets. In this work, we aim to
remove the mask-annotation requirement. We propose MaskFreeVIS, achieving
highly competitive VIS performance, while only using bounding box annotations
for the object state. We leverage the rich temporal mask consistency
constraints in videos by introducing the Temporal KNN-patch Loss (TK-Loss),
providing strong mask supervision without any labels. Our TK-Loss finds
one-to-many matches across frames, through an efficient patch-matching step
followed by a K-nearest neighbor selection. A consistency loss is then enforced
on the found matches. Our mask-free objective is simple to implement, has no
trainable parameters, is computationally efficient, yet outperforms baselines
employing, e.g., state-of-the-art optical flow to enforce temporal mask
consistency. We validate MaskFreeVIS on the YouTube-VIS 2019/2021, OVIS and
BDD100K MOTS benchmarks. The results clearly demonstrate the efficacy of our
method by drastically narrowing the gap between fully and weakly-supervised VIS
performance. Our code and trained models are available at
https://github.com/SysCV/MaskFreeVis.
- Abstract(参考訳): ビデオインスタンスセグメンテーション(VIS)の最近の進歩は、より深く、ますますデータハングリーなトランスフォーマーベースのモデルを使用することによって大きく推進されている。
しかし、ビデオマスクは、注釈をつけるのが面倒で高価であり、既存のVISデータセットのスケールと多様性を制限する。
本研究は,マスクアノテーションの要件を取り除くことを目的としている。
我々は、オブジェクト状態のバウンディングボックスアノテーションのみを使用しながら、非常に競争力のあるVIS性能を実現するMaskFreeVISを提案する。
我々は,tk-loss(temporal knn-patch loss)を導入することで,ビデオの時間的マスク一貫性制約を生かした。
tk-lossは、効率的なパッチマッチングステップとk-nearestの隣人選択を通じて、フレーム間で1対1のマッチを見つけます。
そして、見つけたマッチに一貫性の損失を強制する。
我々のマスクフリーな目的は実装が簡単で、訓練可能なパラメータがなく、計算効率が良いが、例えば、時間的マスク一貫性を強制するために最先端の光学フローを使用するベースラインよりも優れている。
YouTube-VIS 2019/2021、OVIS、BDD100K MOTSベンチマークでMaskFreeVISを検証する。
その結果,完全教師付きvis性能と弱教師付きvis性能のギャップを極端に狭めることにより,本手法の有効性を明確に示した。
私たちのコードとトレーニングされたモデルはhttps://github.com/SysCV/MaskFreeVis.comで利用可能です。
関連論文リスト
- DropMAE: Masked Autoencoders with Spatial-Attention Dropout for Tracking
Tasks [76.24996889649744]
Masked Autoencoder (MAE) Pretraining on video for matching-based downstream task, including visual object tracking (VOT) and video object segmentation (VOS)
そこで我々は,映像における時間的対応学習を容易にするために,フレーム再構成において空間的アテンション・ドロップアウトを適応的に行うDropMAEを提案する。
本モデルは,9つの競争力のあるビデオ追跡とセグメンテーションデータセットのうち8つに,最先端のパフォーマンスを新たに設定する。
論文 参考訳(メタデータ) (2023-04-02T16:40:42Z) - BoxVIS: Video Instance Segmentation with Box Annotations [15.082477136581153]
我々は,最先端の画素教師付きVISモデルをボックス教師付きVISベースラインに適応させ,若干の性能劣化を観測する。
本研究では, 空間的・時間的整合性を改善するために, 空間的・時間的親和性損失を箱中心に誘導し, インスタンスマスクの予測を行う。
アノテーションの時間とコストの16%しか使用せず、最先端のピクセル管理型VISモデルよりも優れたインスタンスマスク予測性能と一般化能力を示す。
論文 参考訳(メタデータ) (2023-03-26T04:04:58Z) - One-Shot Video Inpainting [5.7120338754738835]
ワンショット・ビデオ・インパインティング(OSVI)のための統一パイプラインを提案する。
マスク予測と映像補完をエンドツーエンドで共同学習することにより,タスク全体に対して最適な結果が得られる。
提案手法は,予測マスクをネットワークの内部ガイダンスとして利用できるため,信頼性が高い。
論文 参考訳(メタデータ) (2023-02-28T07:30:36Z) - Video Mask Transfiner for High-Quality Video Instance Segmentation [102.50936366583106]
Video Mask Transfiner (VMT) は、高効率なビデオトランス構造により、微細な高解像度機能を利用することができる。
当社のVMTアーキテクチャに基づいて,反復的トレーニングと自己補正による自動アノテーション改善アプローチを設計する。
我々はVMTとHQ-YTVISの最新の最先端手法、Youtube-VIS、OVIS、BDD100K MOTSを比較した。
論文 参考訳(メタデータ) (2022-07-28T11:13:37Z) - Object Propagation via Inter-Frame Attentions for Temporally Stable
Video Instance Segmentation [51.68840525174265]
ビデオインスタンスセグメンテーションは、ビデオ内のオブジェクトを検出し、セグメンテーションし、追跡することを目的としている。
現在のアプローチでは、画像レベルのセグメンテーションアルゴリズムを時間領域に拡張している。
本稿では,検出の欠如による問題を解消するビデオインスタンス分割手法を提案する。
論文 参考訳(メタデータ) (2021-11-15T04:15:57Z) - MSN: Efficient Online Mask Selection Network for Video Instance
Segmentation [7.208483056781188]
本稿では、オブジェクトクラスとともにインスタンスレベルのセグメンテーションマスクを自動的に生成し、ビデオ内で追跡するビデオインスタンス(VIS)の新しいソリューションを提案する。
マスク選択ネットワーク(MSN)を用いて,マスクのセグメンテーションと伝搬分岐をオンライン的に改善する。
この手法は2021年のYouTube-VISチャレンジで49.1mAPを獲得し、30以上のグローバルチームの中で3位にランクインした。
論文 参考訳(メタデータ) (2021-06-19T08:33:29Z) - Generating Masks from Boxes by Mining Spatio-Temporal Consistencies in
Videos [159.02703673838639]
フレーム毎のバウンディングボックスアノテーションからセグメンテーションマスクを生成する手法を動画で紹介します。
得られた正確なマスクを用いて、ビデオオブジェクトセグメンテーション(VOS)ネットワークの弱い教師付きトレーニングを行う。
追加データは、VOSとより困難なトラッキングドメインの両方で最先端の結果をもたらす大幅に優れた一般化パフォーマンスを提供します。
論文 参考訳(メタデータ) (2021-01-06T18:56:24Z) - Spatiotemporal Graph Neural Network based Mask Reconstruction for Video
Object Segmentation [70.97625552643493]
本稿では,クラス非依存オブジェクトを半教師あり設定でセグメント化するタスクについて述べる。
提案手法のすべてを利用して局所的なコンテキストを捕捉する新しいグラフニューラルネットワーク(TG-Net)を提案する。
論文 参考訳(メタデータ) (2020-12-10T07:57:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。