論文の概要: Two-shot Video Object Segmentation
- arxiv url: http://arxiv.org/abs/2303.12078v1
- Date: Tue, 21 Mar 2023 17:59:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-22 13:45:02.583661
- Title: Two-shot Video Object Segmentation
- Title(参考訳): 2ショットビデオオブジェクトセグメンテーション
- Authors: Kun Yan, Xiao Li, Fangyun Wei, Jinglu Wang, Chenbin Zhang, Ping Wang,
Yan Lu
- Abstract要約: 少ない注釈付きビデオでビデオオブジェクトセグメンテーションモデルを訓練する。
ラベル付きフレームの擬似ラベルを生成し、ラベル付きデータと擬似ラベル付きデータの組み合わせでモデルを最適化する。
初めて、2ショットのVOSデータセット上でVOSモデルをトレーニングする一般的な方法を示す。
- 参考スコア(独自算出の注目度): 35.48207692959968
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Previous works on video object segmentation (VOS) are trained on densely
annotated videos. Nevertheless, acquiring annotations in pixel level is
expensive and time-consuming. In this work, we demonstrate the feasibility of
training a satisfactory VOS model on sparsely annotated videos-we merely
require two labeled frames per training video while the performance is
sustained. We term this novel training paradigm as two-shot video object
segmentation, or two-shot VOS for short. The underlying idea is to generate
pseudo labels for unlabeled frames during training and to optimize the model on
the combination of labeled and pseudo-labeled data. Our approach is extremely
simple and can be applied to a majority of existing frameworks. We first
pre-train a VOS model on sparsely annotated videos in a semi-supervised manner,
with the first frame always being a labeled one. Then, we adopt the pre-trained
VOS model to generate pseudo labels for all unlabeled frames, which are
subsequently stored in a pseudo-label bank. Finally, we retrain a VOS model on
both labeled and pseudo-labeled data without any restrictions on the first
frame. For the first time, we present a general way to train VOS models on
two-shot VOS datasets. By using 7.3% and 2.9% labeled data of YouTube-VOS and
DAVIS benchmarks, our approach achieves comparable results in contrast to the
counterparts trained on fully labeled set. Code and models are available at
https://github.com/yk-pku/Two-shot-Video-Object-Segmentation.
- Abstract(参考訳): ビデオオブジェクトセグメンテーション(VOS)に関するこれまでの研究は、濃密に注釈付けされたビデオで訓練されている。
それでも、ピクセルレベルでのアノテーションの取得は高価で時間がかかります。
本研究は,少ない注釈付きビデオに対して満足度の高いVOSモデルをトレーニング可能であることを実証する。
この新たなトレーニングパラダイムを,2ショットビデオオブジェクトセグメンテーション,あるいは2ショットvosと略す。
基本的な考え方は、トレーニング中にラベルのないフレームの擬似ラベルを生成し、ラベル付きデータと擬似ラベル付きデータの組み合わせでモデルを最適化することだ。
私たちのアプローチは非常にシンプルで、既存のフレームワークの大部分に適用できます。
我々はまず、短い注釈付きビデオのVOSモデルを半教師付きで事前訓練し、最初のフレームは常にラベル付きビデオである。
次に、事前学習されたVOSモデルを用いて、未ラベルのフレームの擬似ラベルを生成し、擬似ラベルバンクに格納する。
最後に,ラベル付きデータと擬似ラベル付きデータの両方において,第1フレームに制限を加えることなくVOSモデルを再学習する。
初めて、2ショットのVOSデータセット上でVOSモデルをトレーニングする一般的な方法を示す。
YouTube-VOSおよびDAVISベンチマークのラベル付きデータ7.3%と2.9%を使用することで、完全なラベル付きセットでトレーニングされたデータセットと同等の結果が得られる。
コードとモデルはhttps://github.com/yk-pku/two-shot-video-object-segmentationで入手できる。
関連論文リスト
- One-shot Training for Video Object Segmentation [11.52321103793505]
Video Object(VOS)は、ビデオ内のフレームをまたいだオブジェクトを追跡し、ターゲットオブジェクトの初期アノテーション付きフレームに基づいてそれらをセグメンテーションすることを目的としている。
これまでのVOSの作業は、トレーニングのために完全に注釈付けされたビデオに頼っていた。
VOSのための一般的なワンショットトレーニングフレームワークを提案し、トレーニングビデオあたりのラベル付きフレームは1つしか必要としない。
論文 参考訳(メタデータ) (2024-05-22T21:37:08Z) - Multi-View Video-Based Learning: Leveraging Weak Labels for Frame-Level Perception [1.5741307755393597]
本稿では,フレームレベルの認識に弱いラベルを持つビデオベースの行動認識モデルを訓練するための新しい学習フレームワークを提案する。
弱いラベルを用いてモデルを訓練するために,新しい潜在損失関数を提案する。
また、下流フレームレベルの行動認識および検出タスクにビュー固有の潜伏埋め込みを利用するモデルを提案する。
論文 参考訳(メタデータ) (2024-03-18T09:47:41Z) - A Simple Recipe for Contrastively Pre-training Video-First Encoders
Beyond 16 Frames [54.90226700939778]
我々は,大規模な画像テキストモデルを浅部時間融合によりビデオに転送する共通パラダイムを構築した。
1)標準ビデオデータセットにおけるビデオ言語アライメントの低下による空間能力の低下と,(2)処理可能なフレーム数のボトルネックとなるメモリ消費の増大である。
論文 参考訳(メタデータ) (2023-12-12T16:10:19Z) - Learning the What and How of Annotation in Video Object Segmentation [11.012995995497029]
ビデオオブジェクト(VOS)は、ビデオ編集からビデオデータ生成まで、いくつかのアプリケーションにとって不可欠である。
従来のアノテート手法では、ビデオフレームごとにターゲットオブジェクトに詳細なセグメンテーションマスクを描く必要がある。
ビデオオブジェクトセグメンテーションのためのヒューマン・イン・ザ・ループアノテーションフレームワークであるEVA-VOSを提案する。
論文 参考訳(メタデータ) (2023-11-08T00:56:31Z) - Self-supervised and Weakly Supervised Contrastive Learning for
Frame-wise Action Representations [26.09611987412578]
本稿では,フレームワイドな行動表現を自己監督的あるいは弱監督的に学習するための,コントラッシブ・アクション表現学習(CARL)の枠組みを紹介する。
具体的には,空間的コンテキストと時間的コンテキストの両方を考慮した,シンプルだが効果的なビデオエンコーダを提案する。
提案手法は,下流の微細な動作分類とより高速な推論において,従来の最先端技術よりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-12-06T16:42:22Z) - Frozen CLIP Models are Efficient Video Learners [86.73871814176795]
ビデオ認識はエンドツーエンドの学習パラダイムに支配されている。
Contrastive Vision-Language Pre-Trainingの最近の進歩は、視覚認識タスクのための新しいルートの道を開く。
高品質なビデオ認識モデルを直接トレーニングする効率的なフレームワークである、効率的なビデオ学習を提案する。
論文 参考訳(メタデータ) (2022-08-06T17:38:25Z) - Beyond Short Clips: End-to-End Video-Level Learning with Collaborative
Memories [56.91664227337115]
本稿では,ビデオの複数のサンプルクリップにまたがる情報を,トレーニングイテレーション毎にエンコードするコラボレーティブメモリ機構を提案する。
これにより、単一のクリップ以上の長距離依存関係の学習が可能になる。
提案するフレームワークはエンドツーエンドでトレーニング可能で,計算オーバーヘッドが無視できないビデオ分類精度が大幅に向上する。
論文 参考訳(メタデータ) (2021-04-02T18:59:09Z) - Reducing the Annotation Effort for Video Object Segmentation Datasets [50.893073670389164]
ピクセルマスクでフレームを密にラベル付けしても 大規模なデータセットにはスケールしない
我々は、より安価なバウンディングボックスアノテーションからピクセルレベルで擬似ラベルを自動生成するために、深層畳み込みネットワークを使用します。
我々は新しいTAO-VOSベンチマークを取得し、www.vision.rwth-aachen.de/page/taovosで公開している。
論文 参考訳(メタデータ) (2020-11-02T17:34:45Z) - Learning Video Object Segmentation from Unlabeled Videos [158.18207922363783]
未ラベルビデオからのオブジェクトパターン学習に対処するビデオオブジェクトセグメンテーション(VOS)を提案する。
複数の粒度で VOS の特性を包括的にキャプチャする,教師なし/弱教師付き学習フレームワーク MuG を導入している。
論文 参考訳(メタデータ) (2020-03-10T22:12:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。