論文の概要: Reducing the Annotation Effort for Video Object Segmentation Datasets
- arxiv url: http://arxiv.org/abs/2011.01142v1
- Date: Mon, 2 Nov 2020 17:34:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-30 12:23:14.199626
- Title: Reducing the Annotation Effort for Video Object Segmentation Datasets
- Title(参考訳): ビデオオブジェクトセグメンテーションデータセットにおけるアノテーションの削減
- Authors: Paul Voigtlaender and Lishu Luo and Chun Yuan and Yong Jiang and
Bastian Leibe
- Abstract要約: ピクセルマスクでフレームを密にラベル付けしても 大規模なデータセットにはスケールしない
我々は、より安価なバウンディングボックスアノテーションからピクセルレベルで擬似ラベルを自動生成するために、深層畳み込みネットワークを使用します。
我々は新しいTAO-VOSベンチマークを取得し、www.vision.rwth-aachen.de/page/taovosで公開している。
- 参考スコア(独自算出の注目度): 50.893073670389164
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: For further progress in video object segmentation (VOS), larger, more
diverse, and more challenging datasets will be necessary. However, densely
labeling every frame with pixel masks does not scale to large datasets. We use
a deep convolutional network to automatically create pseudo-labels on a pixel
level from much cheaper bounding box annotations and investigate how far such
pseudo-labels can carry us for training state-of-the-art VOS approaches. A very
encouraging result of our study is that adding a manually annotated mask in
only a single video frame for each object is sufficient to generate
pseudo-labels which can be used to train a VOS method to reach almost the same
performance level as when training with fully segmented videos. We use this
workflow to create pixel pseudo-labels for the training set of the challenging
tracking dataset TAO, and we manually annotate a subset of the validation set.
Together, we obtain the new TAO-VOS benchmark, which we make publicly available
at www.vision.rwth-aachen.de/page/taovos. While the performance of
state-of-the-art methods on existing datasets starts to saturate, TAO-VOS
remains very challenging for current algorithms and reveals their shortcomings.
- Abstract(参考訳): ビデオオブジェクトセグメンテーション(VOS)のさらなる進歩には、より大きく、より多様な、より困難なデータセットが必要である。
しかし、ピクセルマスクでフレームを密にラベル付けしても、大きなデータセットにはスケールしない。
深層畳み込みネットワークを用いて、より安価なバウンディングボックスアノテーションからピクセルレベルで擬似ラベルを自動生成し、そのような擬似ラベルがいかにして最先端のVOSアプローチをトレーニングできるかを調べる。
本研究の非常に有望な成果は、各オブジェクトに1つのビデオフレームのみに手動でアノテートされたマスクを追加することで、vosメソッドをトレーニングして、完全にセグメント化されたビデオでトレーニングする場合とほぼ同じパフォーマンスレベルに達することができる擬似ラベルを生成するのに十分であるということです。
このワークフローを使って、困難な追跡データセットtaoのトレーニングセット用のピクセル擬似ラベルを作成し、バリデーションセットのサブセットを手動で注釈付けします。
TAO-VOS ベンチマークは www.vision.rwth-aachen.de/page/taovos で公開されています。
既存のデータセットにおける最先端のメソッドのパフォーマンスは飽和し始めているが、TAO-VOSは現在のアルゴリズムでは非常に困難であり、その欠点を明らかにしている。
関連論文リスト
- Pseudolabel guided pixels contrast for domain adaptive semantic segmentation [0.9831489366502301]
セマンティックセグメンテーションのための教師なしドメイン適応(UDA)は、ラベル付き仮想データを使用してモデルをトレーニングし、ラベルなしで実際のデータに適応するテクニックである。
近年のいくつかの研究は、このテクニックを支援するために、自己教師付き学習の強力な方法であるコントラスト学習を使用している。
Pseudo-label Guided Pixel Contrast (PGPC) と呼ばれる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-01-15T03:25:25Z) - Learning Referring Video Object Segmentation from Weak Annotation [78.45828085350936]
RVOS(Referring Video Object segmentation)は、対象物を記述する文に基づいて、対象物をすべてのビデオフレームにセグメント化することを目的としたタスクである。
そこで本研究では, RVOS に対する十分な監視を提供しながら, アノテーションの労力を 8 倍に削減する新たなアノテーション方式を提案する。
私たちのスキームは、最初にオブジェクトが現れるフレームのマスクと、残りのフレームのバウンディングボックスのみを必要とする。
論文 参考訳(メタデータ) (2023-08-04T06:50:52Z) - Two-shot Video Object Segmentation [35.48207692959968]
少ない注釈付きビデオでビデオオブジェクトセグメンテーションモデルを訓練する。
ラベル付きフレームの擬似ラベルを生成し、ラベル付きデータと擬似ラベル付きデータの組み合わせでモデルを最適化する。
初めて、2ショットのVOSデータセット上でVOSモデルをトレーニングする一般的な方法を示す。
論文 参考訳(メタデータ) (2023-03-21T17:59:56Z) - Generating Masks from Boxes by Mining Spatio-Temporal Consistencies in
Videos [159.02703673838639]
フレーム毎のバウンディングボックスアノテーションからセグメンテーションマスクを生成する手法を動画で紹介します。
得られた正確なマスクを用いて、ビデオオブジェクトセグメンテーション(VOS)ネットワークの弱い教師付きトレーニングを行う。
追加データは、VOSとより困難なトラッキングドメインの両方で最先端の結果をもたらす大幅に優れた一般化パフォーマンスを提供します。
論文 参考訳(メタデータ) (2021-01-06T18:56:24Z) - Semantics through Time: Semi-supervised Segmentation of Aerial Videos
with Iterative Label Propagation [16.478668565965243]
本稿では,SegPropの導入によって自動アノテーションへの重要な一歩を踏み出す。
SegPropは、空間と時間におけるスペクトルクラスタリングに直接接続する、新しい反復フローベースの手法である。
Ruralscapesは、50フレーム毎に高解像度(4K)イメージと手動で注釈付けされた高密度ラベルを備えた、新しいデータセットである。
われわれの小説『SegProp』は、残っていない98%のフレームを90%を超える精度で自動的に注釈付けする。
論文 参考訳(メタデータ) (2020-10-02T15:15:50Z) - Labelling unlabelled videos from scratch with multi-modal
self-supervision [82.60652426371936]
ビデオデータセットの教師なしラベリングは、強力な機能エンコーダから解放されない。
人間のアノテーションを使わずにビデオデータセットの擬似ラベリングを可能にする新しいクラスタリング手法を提案する。
広範囲な分析により、結果として得られたクラスタは、真理の人間ラベルと高いセマンティックオーバーラップがあることが示されている。
論文 参考訳(メタデータ) (2020-06-24T12:28:17Z) - Naive-Student: Leveraging Semi-Supervised Learning in Video Sequences
for Urban Scene Segmentation [57.68890534164427]
本研究では,未ラベル映像シーケンスと追加画像の半教師付き学習を利用して,都市景観セグメンテーションの性能を向上させることができるかどうかを問う。
我々は単にラベルのないデータに対して擬似ラベルを予測し、人間の注釈付きデータと擬似ラベル付きデータの両方でその後のモデルを訓練する。
我々のNaive-Studentモデルは、このような単純で効果的な反復的半教師付き学習で訓練され、3つのCityscapesベンチマークで最先端の結果を得る。
論文 参考訳(メタデータ) (2020-05-20T18:00:05Z) - Learning Video Object Segmentation from Unlabeled Videos [158.18207922363783]
未ラベルビデオからのオブジェクトパターン学習に対処するビデオオブジェクトセグメンテーション(VOS)を提案する。
複数の粒度で VOS の特性を包括的にキャプチャする,教師なし/弱教師付き学習フレームワーク MuG を導入している。
論文 参考訳(メタデータ) (2020-03-10T22:12:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。