論文の概要: Learning Video Object Segmentation from Unlabeled Videos
- arxiv url: http://arxiv.org/abs/2003.05020v1
- Date: Tue, 10 Mar 2020 22:12:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-24 21:30:35.176442
- Title: Learning Video Object Segmentation from Unlabeled Videos
- Title(参考訳): ラベルのないビデオからビデオオブジェクトのセグメンテーションを学ぶ
- Authors: Xiankai Lu, Wenguan Wang, Jianbing Shen, Yu-Wing Tai, David Crandall,
and Steven C. H. Hoi
- Abstract要約: 未ラベルビデオからのオブジェクトパターン学習に対処するビデオオブジェクトセグメンテーション(VOS)を提案する。
複数の粒度で VOS の特性を包括的にキャプチャする,教師なし/弱教師付き学習フレームワーク MuG を導入している。
- 参考スコア(独自算出の注目度): 158.18207922363783
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a new method for video object segmentation (VOS) that addresses
object pattern learning from unlabeled videos, unlike most existing methods
which rely heavily on extensive annotated data. We introduce a unified
unsupervised/weakly supervised learning framework, called MuG, that
comprehensively captures intrinsic properties of VOS at multiple granularities.
Our approach can help advance understanding of visual patterns in VOS and
significantly reduce annotation burden. With a carefully-designed architecture
and strong representation learning ability, our learned model can be applied to
diverse VOS settings, including object-level zero-shot VOS, instance-level
zero-shot VOS, and one-shot VOS. Experiments demonstrate promising performance
in these settings, as well as the potential of MuG in leveraging unlabeled data
to further improve the segmentation accuracy.
- Abstract(参考訳): 本稿では,ビデオオブジェクトセグメンテーション(VOS)の新たな手法を提案する。この手法は,広範囲な注釈付きデータに大きく依存する既存の手法とは異なり,未ラベルビデオからのオブジェクトパターン学習に対処する。
複数の粒度で VOS 固有の特性を包括的にキャプチャする,教師なし/弱教師付き学習フレームワーク MuG を導入する。
我々のアプローチは、VOSにおける視覚パターンの理解を深め、アノテーションの負担を大幅に軽減するのに役立つ。
慎重に設計されたアーキテクチャと強力な表現学習能力により、学習モデルは、オブジェクトレベルのゼロショットVOS、インスタンスレベルのゼロショットVOS、ワンショットVOSなど、多様なVOS設定に適用できる。
実験は、これらの設定で有望な性能を示すとともに、ラベルのないデータを利用してセグメント化精度をさらに向上させるmugの可能性を示す。
関連論文リスト
- Point-VOS: Pointing Up Video Object Segmentation [16.359861197595986]
現在の最先端のビデオオブジェクト(VOS)メソッドは、トレーニングとテストの両方において、オブジェクトごとの密集したマスクアノテーションに依存している。
本稿では,その労力を大幅に削減する疎時間的ポイントワイドアノテーションスキームを備えた新しいPoint-VOSタスクを提案する。
ビデオナラティブグラウンドディング(VNG)タスクで評価することで、視覚と言語を接続するモデルを改善するために、我々のデータが利用できることを示す。
論文 参考訳(メタデータ) (2024-02-08T18:52:23Z) - Learning the What and How of Annotation in Video Object Segmentation [11.012995995497029]
ビデオオブジェクト(VOS)は、ビデオ編集からビデオデータ生成まで、いくつかのアプリケーションにとって不可欠である。
従来のアノテート手法では、ビデオフレームごとにターゲットオブジェクトに詳細なセグメンテーションマスクを描く必要がある。
ビデオオブジェクトセグメンテーションのためのヒューマン・イン・ザ・ループアノテーションフレームワークであるEVA-VOSを提案する。
論文 参考訳(メタデータ) (2023-11-08T00:56:31Z) - Learning Referring Video Object Segmentation from Weak Annotation [78.45828085350936]
RVOS(Referring Video Object segmentation)は、対象物を記述する文に基づいて、対象物をすべてのビデオフレームにセグメント化することを目的としたタスクである。
そこで本研究では, RVOS に対する十分な監視を提供しながら, アノテーションの労力を 8 倍に削減する新たなアノテーション方式を提案する。
私たちのスキームは、最初にオブジェクトが現れるフレームのマスクと、残りのフレームのバウンディングボックスのみを必要とする。
論文 参考訳(メタデータ) (2023-08-04T06:50:52Z) - Dense Video Object Captioning from Disjoint Supervision [77.47084982558101]
本稿では,高密度ビデオオブジェクトキャプションのための新しいタスクとモデルを提案する。
このタスクは、ビデオにおける空間的および時間的局所化を統一する。
我々は、この新しいタスクの強力なベースラインにおいて、我々のモデルがどのように改善されているかを示す。
論文 参考訳(メタデータ) (2023-06-20T17:57:23Z) - Self-Supervised Video Representation Learning with Motion-Contrastive
Perception [13.860736711747284]
モーションコントラスト知覚ネットワーク(MCPNet)
MCPNetは、MIP(Motion Information Perception)とCIP(Contrastive Instance Perception)の2つのブランチから構成される。
本手法は,現在最先端の視覚のみによる自己監督手法よりも優れています。
論文 参考訳(メタデータ) (2022-04-10T05:34:46Z) - In-N-Out Generative Learning for Dense Unsupervised Video Segmentation [89.21483504654282]
本稿では,ラベルなしビデオから視覚的対応を学習する,教師なしビデオオブジェクト(VOS)タスクに焦点を当てる。
In-aNd-Out(INO)生成学習を純粋に生成的観点から提案する。
我々のINOは、最先端の手法をかなりのマージンで上回っている。
論文 参考訳(メタデータ) (2022-03-29T07:56:21Z) - Reducing the Annotation Effort for Video Object Segmentation Datasets [50.893073670389164]
ピクセルマスクでフレームを密にラベル付けしても 大規模なデータセットにはスケールしない
我々は、より安価なバウンディングボックスアノテーションからピクセルレベルで擬似ラベルを自動生成するために、深層畳み込みネットワークを使用します。
我々は新しいTAO-VOSベンチマークを取得し、www.vision.rwth-aachen.de/page/taovosで公開している。
論文 参考訳(メタデータ) (2020-11-02T17:34:45Z) - Learning What to Learn for Video Object Segmentation [157.4154825304324]
本稿では,多様な数発の学習モジュールを統合した,エンドツーエンドのトレーニング可能なVOSアーキテクチャを提案する。
この内部学習器は、ターゲットの強力なパラメトリックモデルを予測するように設計されている。
私たちは、大規模なYouTube-VOS 2018データセットに、総合スコア81.5を達成して、新たな最先端を設定しました。
論文 参考訳(メタデータ) (2020-03-25T17:58:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。