論文の概要: Learning Referring Video Object Segmentation from Weak Annotation
- arxiv url: http://arxiv.org/abs/2308.02162v1
- Date: Fri, 4 Aug 2023 06:50:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-07 13:42:00.514493
- Title: Learning Referring Video Object Segmentation from Weak Annotation
- Title(参考訳): 弱アノテーションを用いたビデオオブジェクトセグメンテーションの学習
- Authors: Wangbo Zhao, Kepan Nan, Songyang Zhang, Kai Chen, Dahua Lin, Yang You
- Abstract要約: RVOS(Referring Video Object segmentation)は、対象物を記述する文に基づいて、対象物をすべてのビデオフレームにセグメント化することを目的としたタスクである。
従来のRVOSメソッドは、高密度の注釈付きデータセットで大きなパフォーマンスを実現している。
そこで我々は,オブジェクトが最初にマスクで現れるフレームと,その後のフレームにバウンディングボックスを使用するフレームをラベル付けする,新しいアノテーション方式を提案する。
- 参考スコア(独自算出の注目度): 79.5293269201157
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Referring video object segmentation (RVOS) is a task that aims to segment the
target object in all video frames based on a sentence describing the object.
Previous RVOS methods have achieved significant performance with
densely-annotated datasets, whose construction is expensive and time-consuming.
To relieve the burden of data annotation while maintaining sufficient
supervision for segmentation, we propose a new annotation scheme, in which we
label the frame where the object first appears with a mask and use bounding
boxes for the subsequent frames. Based on this scheme, we propose a method to
learn from this weak annotation. Specifically, we design a cross frame
segmentation method, which uses the language-guided dynamic filters to
thoroughly leverage the valuable mask annotation and bounding boxes. We further
develop a bi-level contrastive learning method to encourage the model to learn
discriminative representation at the pixel level. Extensive experiments and
ablative analyses show that our method is able to achieve competitive
performance without the demand of dense mask annotation. The code will be
available at https://github.com/wangbo-zhao/WRVOS/.
- Abstract(参考訳): RVOS(Referring Video Object segmentation)は、対象物を記述する文に基づいて、対象物をすべてのビデオフレームにセグメント化するタスクである。
従来のRVOS手法は、高コストで時間を要する高密度なアノテートデータセットで大きなパフォーマンスを実現している。
セグメンテーションの十分な監督を維持しつつ,データアノテーションの負担を軽減するため,まず被写体がマスクで現れるフレームをラベル付けし,その後のフレームにバウンディングボックスを使用する新たなアノテーション手法を提案する。
このスキームに基づいて,この弱いアノテーションから学習する手法を提案する。
具体的には,言語誘導動的フィルタを用いて意味のあるマスクアノテーションとバウンディングボックスを徹底的に活用するクロスフレームセグメンテーションを設計する。
さらに,二段階のコントラスト学習法を開発し,モデルの画素レベルでの識別表現の学習を促す。
本手法は,高密度マスクアノテーションを必要とせずに,競争性能を実現することができることを示す。
コードはhttps://github.com/wangbo-zhao/WRVOS/で入手できる。
関連論文リスト
- What is Point Supervision Worth in Video Instance Segmentation? [119.71921319637748]
ビデオインスタンスセグメンテーション(VIS)は、ビデオ内のオブジェクトを検出し、セグメンテーションし、追跡することを目的とした、難しいビジョンタスクである。
トレーニング中、ビデオフレーム内の各オブジェクトについて、人間のアノテーションを1点に減らし、完全に教師されたモデルに近い高品質なマスク予測を得る。
3つのVISベンチマークに関する総合的な実験は、提案フレームワークの競合性能を示し、完全に教師付きされた手法にほぼ一致する。
論文 参考訳(メタデータ) (2024-04-01T17:38:25Z) - Point-VOS: Pointing Up Video Object Segmentation [16.359861197595986]
現在の最先端のビデオオブジェクト(VOS)メソッドは、トレーニングとテストの両方において、オブジェクトごとの密集したマスクアノテーションに依存している。
本稿では,その労力を大幅に削減する疎時間的ポイントワイドアノテーションスキームを備えた新しいPoint-VOSタスクを提案する。
ビデオナラティブグラウンドディング(VNG)タスクで評価することで、視覚と言語を接続するモデルを改善するために、我々のデータが利用できることを示す。
論文 参考訳(メタデータ) (2024-02-08T18:52:23Z) - Learning the What and How of Annotation in Video Object Segmentation [11.012995995497029]
ビデオオブジェクト(VOS)は、ビデオ編集からビデオデータ生成まで、いくつかのアプリケーションにとって不可欠である。
従来のアノテート手法では、ビデオフレームごとにターゲットオブジェクトに詳細なセグメンテーションマスクを描く必要がある。
ビデオオブジェクトセグメンテーションのためのヒューマン・イン・ザ・ループアノテーションフレームワークであるEVA-VOSを提案する。
論文 参考訳(メタデータ) (2023-11-08T00:56:31Z) - Towards Robust Video Object Segmentation with Adaptive Object
Calibration [18.094698623128146]
ビデオオブジェクトセグメンテーション(VOS)は、参照フレームの注釈付きオブジェクトマスクを与えられたビデオのすべてのターゲットフレームにおけるオブジェクトのセグメンテーションを目的としている。
本稿では,オブジェクト表現を適応的に構築し,オブジェクトマスクを校正して強靭性を実現する,新しいディープネットワークを提案する。
本モデルは,既存の出版作品の最先端性能を達成し,摂動に対する優れた堅牢性を示す。
論文 参考訳(メタデータ) (2022-07-02T17:51:29Z) - FreeSOLO: Learning to Segment Objects without Annotations [191.82134817449528]
我々は,単純なインスタンスセグメンテーションメソッドSOLO上に構築された自己教師型インスタンスセグメンテーションフレームワークであるFreeSOLOを紹介する。
また,本手法では,複雑なシーンからオブジェクトを教師なしで検出する,新たなローカライズ対応事前学習フレームワークを提案する。
論文 参考訳(メタデータ) (2022-02-24T16:31:44Z) - Generating Masks from Boxes by Mining Spatio-Temporal Consistencies in
Videos [159.02703673838639]
フレーム毎のバウンディングボックスアノテーションからセグメンテーションマスクを生成する手法を動画で紹介します。
得られた正確なマスクを用いて、ビデオオブジェクトセグメンテーション(VOS)ネットワークの弱い教師付きトレーニングを行う。
追加データは、VOSとより困難なトラッキングドメインの両方で最先端の結果をもたらす大幅に優れた一般化パフォーマンスを提供します。
論文 参考訳(メタデータ) (2021-01-06T18:56:24Z) - Reducing the Annotation Effort for Video Object Segmentation Datasets [50.893073670389164]
ピクセルマスクでフレームを密にラベル付けしても 大規模なデータセットにはスケールしない
我々は、より安価なバウンディングボックスアノテーションからピクセルレベルで擬似ラベルを自動生成するために、深層畳み込みネットワークを使用します。
我々は新しいTAO-VOSベンチマークを取得し、www.vision.rwth-aachen.de/page/taovosで公開している。
論文 参考訳(メタデータ) (2020-11-02T17:34:45Z) - Learning Video Object Segmentation from Unlabeled Videos [158.18207922363783]
未ラベルビデオからのオブジェクトパターン学習に対処するビデオオブジェクトセグメンテーション(VOS)を提案する。
複数の粒度で VOS の特性を包括的にキャプチャする,教師なし/弱教師付き学習フレームワーク MuG を導入している。
論文 参考訳(メタデータ) (2020-03-10T22:12:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。