論文の概要: One-shot Training for Video Object Segmentation
- arxiv url: http://arxiv.org/abs/2405.14010v1
- Date: Wed, 22 May 2024 21:37:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-24 19:54:29.267701
- Title: One-shot Training for Video Object Segmentation
- Title(参考訳): ビデオオブジェクトセグメンテーションのためのワンショットトレーニング
- Authors: Baiyu Chen, Sixian Chan, Xiaoqin Zhang,
- Abstract要約: Video Object(VOS)は、ビデオ内のフレームをまたいだオブジェクトを追跡し、ターゲットオブジェクトの初期アノテーション付きフレームに基づいてそれらをセグメンテーションすることを目的としている。
これまでのVOSの作業は、トレーニングのために完全に注釈付けされたビデオに頼っていた。
VOSのための一般的なワンショットトレーニングフレームワークを提案し、トレーニングビデオあたりのラベル付きフレームは1つしか必要としない。
- 参考スコア(独自算出の注目度): 11.52321103793505
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Video Object Segmentation (VOS) aims to track objects across frames in a video and segment them based on the initial annotated frame of the target objects. Previous VOS works typically rely on fully annotated videos for training. However, acquiring fully annotated training videos for VOS is labor-intensive and time-consuming. Meanwhile, self-supervised VOS methods have attempted to build VOS systems through correspondence learning and label propagation. Still, the absence of mask priors harms their robustness to complex scenarios, and the label propagation paradigm makes them impractical in terms of efficiency. To address these issues, we propose, for the first time, a general one-shot training framework for VOS, requiring only a single labeled frame per training video and applicable to a majority of state-of-the-art VOS networks. Specifically, our algorithm consists of: i) Inferring object masks time-forward based on the initial labeled frame. ii) Reconstructing the initial object mask time-backward using the masks from step i). Through this bi-directional training, a satisfactory VOS network can be obtained. Notably, our approach is extremely simple and can be employed end-to-end. Finally, our approach uses a single labeled frame of YouTube-VOS and DAVIS datasets to achieve comparable results to those trained on fully labeled datasets. The code will be released.
- Abstract(参考訳): ビデオオブジェクトセグメンテーション(VOS)は、ビデオ内のフレームをまたいだオブジェクトを追跡し、ターゲットオブジェクトの初期アノテーション付きフレームに基づいてそれらをセグメンテーションすることを目的としている。
これまでのVOSの作業は、トレーニングのために完全に注釈付けされたビデオに頼っていた。
しかしながら、VOSのための完全注釈付きトレーニングビデオを取得することは、労働集約的で時間を要する。
一方、自己教師付きVOS手法は、対応学習とラベル伝搬によるVOSシステムの構築を試みた。
それでも仮面の先行がないことは、複雑なシナリオに対する堅牢性を損なうものであり、ラベルの伝搬パラダイムは効率の点で実用的ではない。
これらの問題に対処するために、我々は初めて、VOSの一般的なワンショットトレーニングフレームワークを提案し、トレーニングビデオ毎にラベル付きフレームを1つだけ必要とし、最先端のVOSネットワークの大部分に適用する。
特に、我々のアルゴリズムは以下の通りである。
一 初期ラベル付きフレームに基づいて被写体マスクを時間順に推定すること。
二 ステップから仮面を用いて初期物マスクをタイムバックに再構築すること。
i)。
この双方向トレーニングにより、良好なVOSネットワークを得ることができる。
特に、私たちのアプローチは非常にシンプルで、エンドツーエンドで使用できます。
最後に、我々のアプローチでは、YouTube-VOSとDAVISデータセットの単一のラベル付きフレームを使用して、完全にラベル付きデータセットでトレーニングされたデータセットに匹敵する結果を得る。
コードはリリースされます。
関連論文リスト
- Learning the What and How of Annotation in Video Object Segmentation [11.012995995497029]
ビデオオブジェクト(VOS)は、ビデオ編集からビデオデータ生成まで、いくつかのアプリケーションにとって不可欠である。
従来のアノテート手法では、ビデオフレームごとにターゲットオブジェクトに詳細なセグメンテーションマスクを描く必要がある。
ビデオオブジェクトセグメンテーションのためのヒューマン・イン・ザ・ループアノテーションフレームワークであるEVA-VOSを提案する。
論文 参考訳(メタデータ) (2023-11-08T00:56:31Z) - Learning Referring Video Object Segmentation from Weak Annotation [78.45828085350936]
RVOS(Referring Video Object segmentation)は、対象物を記述する文に基づいて、対象物をすべてのビデオフレームにセグメント化することを目的としたタスクである。
そこで本研究では, RVOS に対する十分な監視を提供しながら, アノテーションの労力を 8 倍に削減する新たなアノテーション方式を提案する。
私たちのスキームは、最初にオブジェクトが現れるフレームのマスクと、残りのフレームのバウンディングボックスのみを必要とする。
論文 参考訳(メタデータ) (2023-08-04T06:50:52Z) - Boosting Video Object Segmentation via Space-time Correspondence
Learning [48.8275459383339]
ビデオオブジェクトセグメンテーション(VOS)の現在のソリューションは、通常マッチングベースのレシエーションに従う。
そこで我々は,ロバストな対応マッチングを明示的に奨励することにより,マッチングベースのVOSソリューションを向上する,対応対応型トレーニングフレームワークを考案した。
提案アルゴリズムは, 広く使用されている4つのベンチマークに対して, 確固たる性能向上をもたらす。
論文 参考訳(メタデータ) (2023-04-13T01:34:44Z) - Two-shot Video Object Segmentation [35.48207692959968]
少ない注釈付きビデオでビデオオブジェクトセグメンテーションモデルを訓練する。
ラベル付きフレームの擬似ラベルを生成し、ラベル付きデータと擬似ラベル付きデータの組み合わせでモデルを最適化する。
初めて、2ショットのVOSデータセット上でVOSモデルをトレーニングする一般的な方法を示す。
論文 参考訳(メタデータ) (2023-03-21T17:59:56Z) - FlowVOS: Weakly-Supervised Visual Warping for Detail-Preserving and
Temporally Consistent Single-Shot Video Object Segmentation [4.3171602814387136]
本稿では,VOSデータから流れ場を学習する前景型ビジュアルワープ手法を提案する。
フローモジュールをトレーニングし、2つの弱い教師付き損失を用いてフレーム間の詳細な動きをキャプチャする。
提案手法は,高精細かつ時間的整合性を持ったセグメンテーションを生成する。
論文 参考訳(メタデータ) (2021-11-20T16:17:10Z) - Generating Masks from Boxes by Mining Spatio-Temporal Consistencies in
Videos [159.02703673838639]
フレーム毎のバウンディングボックスアノテーションからセグメンテーションマスクを生成する手法を動画で紹介します。
得られた正確なマスクを用いて、ビデオオブジェクトセグメンテーション(VOS)ネットワークの弱い教師付きトレーニングを行う。
追加データは、VOSとより困難なトラッキングドメインの両方で最先端の結果をもたらす大幅に優れた一般化パフォーマンスを提供します。
論文 参考訳(メタデータ) (2021-01-06T18:56:24Z) - Reducing the Annotation Effort for Video Object Segmentation Datasets [50.893073670389164]
ピクセルマスクでフレームを密にラベル付けしても 大規模なデータセットにはスケールしない
我々は、より安価なバウンディングボックスアノテーションからピクセルレベルで擬似ラベルを自動生成するために、深層畳み込みネットワークを使用します。
我々は新しいTAO-VOSベンチマークを取得し、www.vision.rwth-aachen.de/page/taovosで公開している。
論文 参考訳(メタデータ) (2020-11-02T17:34:45Z) - Learning Video Object Segmentation from Unlabeled Videos [158.18207922363783]
未ラベルビデオからのオブジェクトパターン学習に対処するビデオオブジェクトセグメンテーション(VOS)を提案する。
複数の粒度で VOS の特性を包括的にキャプチャする,教師なし/弱教師付き学習フレームワーク MuG を導入している。
論文 参考訳(メタデータ) (2020-03-10T22:12:15Z) - Learning Fast and Robust Target Models for Video Object Segmentation [83.3382606349118]
ビデオオブジェクトセグメンテーション(VOS)は、ターゲットオブジェクトを定義する初期マスクがテスト時にのみ与えられるため、非常に難しい問題である。
それまでのほとんどの場合、第1フレーム上のファイン・チューン・セグメンテーション・ネットワークにアプローチし、非現実的なフレームレートとオーバーフィッティングのリスクをもたらす。
本稿では,2つのネットワークコンポーネントからなる新しいVOSアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-02-27T21:58:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。