論文の概要: Generating Masks from Boxes by Mining Spatio-Temporal Consistencies in
Videos
- arxiv url: http://arxiv.org/abs/2101.02196v1
- Date: Wed, 6 Jan 2021 18:56:24 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-11 00:06:42.988104
- Title: Generating Masks from Boxes by Mining Spatio-Temporal Consistencies in
Videos
- Title(参考訳): 映像中の時空間構造をマイニングした箱からのマスク生成
- Authors: Bin Zhao, Goutam Bhat, Martin Danelljan, Luc Van Gool, Radu Timofte
- Abstract要約: フレーム毎のバウンディングボックスアノテーションからセグメンテーションマスクを生成する手法を動画で紹介します。
得られた正確なマスクを用いて、ビデオオブジェクトセグメンテーション(VOS)ネットワークの弱い教師付きトレーニングを行う。
追加データは、VOSとより困難なトラッキングドメインの両方で最先端の結果をもたらす大幅に優れた一般化パフォーマンスを提供します。
- 参考スコア(独自算出の注目度): 159.02703673838639
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Segmenting objects in videos is a fundamental computer vision task. The
current deep learning based paradigm offers a powerful, but data-hungry
solution. However, current datasets are limited by the cost and human effort of
annotating object masks in videos. This effectively limits the performance and
generalization capabilities of existing video segmentation methods. To address
this issue, we explore weaker form of bounding box annotations.
We introduce a method for generating segmentation masks from per-frame
bounding box annotations in videos. To this end, we propose a spatio-temporal
aggregation module that effectively mines consistencies in the object and
background appearance across multiple frames. We use our resulting accurate
masks for weakly supervised training of video object segmentation (VOS)
networks. We generate segmentation masks for large scale tracking datasets,
using only their bounding box annotations. The additional data provides
substantially better generalization performance leading to state-of-the-art
results in both the VOS and more challenging tracking domain.
- Abstract(参考訳): ビデオ内のオブジェクトのセグメンテーションは、基本的なコンピュータビジョンタスクである。
現在のディープラーニングベースのパラダイムは、強力だがデータハングリーなソリューションを提供する。
しかし、現在のデータセットは、ビデオにオブジェクトマスクを注釈するコストと人的労力によって制限されている。
これにより、既存のビデオセグメンテーション手法の性能と一般化能力を効果的に制限する。
この問題に対処するため、バウンディングボックスアノテーションのより弱い形式を探求する。
ビデオ中のフレーム単位境界ボックスアノテーションからセグメンテーションマスクを生成する手法を提案する。
そこで本稿では,複数のフレームにまたがる物体の構成と背景の出現を効果的にマイニングする時空間凝集モジュールを提案する。
得られた正確なマスクを用いて、ビデオオブジェクトセグメンテーション(VOS)ネットワークの弱い教師付きトレーニングを行う。
境界ボックスアノテーションのみを使用して,大規模追跡データセット用のセグメンテーションマスクを生成する。
追加データにより、VOSとより困難なトラッキングドメインの両方で最先端の結果につながる、かなり優れた一般化性能が得られる。
関連論文リスト
- Rethinking Video Segmentation with Masked Video Consistency: Did the Model Learn as Intended? [22.191260650245443]
ビデオセグメント化は、ビデオシーケンスを、オブジェクトやフレーム内の関心領域に基づいて意味のあるセグメントに分割することを目的としている。
現在のビデオセグメンテーションモデルは、しばしば画像セグメンテーション技術から派生している。
本研究では,空間的・時間的特徴集約を向上する学習戦略であるMasked Video Consistencyを提案する。
論文 参考訳(メタデータ) (2024-08-20T08:08:32Z) - Disentangling spatio-temporal knowledge for weakly supervised object detection and segmentation in surgical video [10.287675722826028]
本稿では,セミデカップリング型時間的知識蒸留を用いて,高品質なクラスアクティベーションマップ(CAM)の予測を行うために,VDST-Net(Video Spatio-Temporal Disment Networks)を導入している。
提案するフレームワークは,一般的な参照データセットや,オブジェクトが平均60%未満の注釈付きフレームに存在する,より困難な手術用ビデオデータセット上で有効であることを示す。
論文 参考訳(メタデータ) (2024-07-22T16:52:32Z) - Training-Free Robust Interactive Video Object Segmentation [82.05906654403684]
対話型ビデオオブジェクトセグメンテーション(I-PT)のためのトレーニングフリープロンプトトラッキングフレームワークを提案する。
スパースポイントとボックストラッキングを共同で採用し、不安定なポイントをフィルタリングし、オブジェクトワイズ情報をキャプチャします。
我々のフレームワークは、人気のあるVOSデータセット上で、ゼロショットビデオセグメンテーションの堅牢な結果を示してきた。
論文 参考訳(メタデータ) (2024-06-08T14:25:57Z) - Learning Referring Video Object Segmentation from Weak Annotation [78.45828085350936]
RVOS(Referring Video Object segmentation)は、対象物を記述する文に基づいて、対象物をすべてのビデオフレームにセグメント化することを目的としたタスクである。
そこで本研究では, RVOS に対する十分な監視を提供しながら, アノテーションの労力を 8 倍に削減する新たなアノテーション方式を提案する。
私たちのスキームは、最初にオブジェクトが現れるフレームのマスクと、残りのフレームのバウンディングボックスのみを必要とする。
論文 参考訳(メタデータ) (2023-08-04T06:50:52Z) - Robust Visual Tracking by Segmentation [103.87369380021441]
対象範囲を推定することは、視覚的物体追跡において根本的な課題となる。
高精度なセグメンテーションマスクを生成するセグメンテーション中心のトラッキングパイプラインを提案する。
我々のトラッカーは、シーンのターゲットを背景コンテンツと明確に区別するターゲット表現をよりよく学習することができる。
論文 参考訳(メタデータ) (2022-03-21T17:59:19Z) - Spatiotemporal Graph Neural Network based Mask Reconstruction for Video
Object Segmentation [70.97625552643493]
本稿では,クラス非依存オブジェクトを半教師あり設定でセグメント化するタスクについて述べる。
提案手法のすべてを利用して局所的なコンテキストを捕捉する新しいグラフニューラルネットワーク(TG-Net)を提案する。
論文 参考訳(メタデータ) (2020-12-10T07:57:44Z) - Reducing the Annotation Effort for Video Object Segmentation Datasets [50.893073670389164]
ピクセルマスクでフレームを密にラベル付けしても 大規模なデータセットにはスケールしない
我々は、より安価なバウンディングボックスアノテーションからピクセルレベルで擬似ラベルを自動生成するために、深層畳み込みネットワークを使用します。
我々は新しいTAO-VOSベンチマークを取得し、www.vision.rwth-aachen.de/page/taovosで公開している。
論文 参考訳(メタデータ) (2020-11-02T17:34:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。