論文の概要: Point-VOS: Pointing Up Video Object Segmentation
- arxiv url: http://arxiv.org/abs/2402.05917v1
- Date: Thu, 8 Feb 2024 18:52:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-09 13:24:49.122818
- Title: Point-VOS: Pointing Up Video Object Segmentation
- Title(参考訳): Point-VOS:ビデオオブジェクトセグメンテーションのポイントアップ
- Authors: Idil Esen Zulfikar, Sabarinath Mahadevan, Paul Voigtlaender, Bastian
Leibe
- Abstract要約: 現在の最先端のビデオオブジェクト(VOS)メソッドは、トレーニングとテストの両方において、オブジェクトごとの密集したマスクアノテーションに依存している。
本稿では,その労力を大幅に削減する疎時間的ポイントワイドアノテーションスキームを備えた新しいPoint-VOSタスクを提案する。
ビデオナラティブグラウンドディング(VNG)タスクで評価することで、視覚と言語を接続するモデルを改善するために、我々のデータが利用できることを示す。
- 参考スコア(独自算出の注目度): 17.87197307395854
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current state-of-the-art Video Object Segmentation (VOS) methods rely on
dense per-object mask annotations both during training and testing. This
requires time-consuming and costly video annotation mechanisms. We propose a
novel Point-VOS task with a spatio-temporally sparse point-wise annotation
scheme that substantially reduces the annotation effort. We apply our
annotation scheme to two large-scale video datasets with text descriptions and
annotate over 19M points across 133K objects in 32K videos. Based on our
annotations, we propose a new Point-VOS benchmark, and a corresponding
point-based training mechanism, which we use to establish strong baseline
results. We show that existing VOS methods can easily be adapted to leverage
our point annotations during training, and can achieve results close to the
fully-supervised performance when trained on pseudo-masks generated from these
points. In addition, we show that our data can be used to improve models that
connect vision and language, by evaluating it on the Video Narrative Grounding
(VNG) task. We will make our code and annotations available at
https://pointvos.github.io.
- Abstract(参考訳): 現在の最先端のビデオオブジェクトセグメンテーション(VOS)メソッドは、トレーニングとテストの両方において、オブジェクトごとの密集したマスクアノテーションに依存している。
これは時間とコストのかかるビデオアノテーション機構を必要とする。
本稿では,時空間的スパースなポイントワイズアノテーションスキームを用いた新しいポイントボーズタスクを提案し,アノテーションの労力を大幅に削減する。
テキスト記述を伴う2つの大規模ビデオデータセットにアノテーションスキームを適用し,32kビデオ中の133kオブジェクトに19万点以上の注釈を付与する。
提案のアノテーションに基づいて,新しいpoint-vosベンチマークと,それに対応するpoint-based training機構を提案する。
既存の VOS メソッドはトレーニング中のポイントアノテーションに容易に適用でき、これらのポイントから生成された擬似マスクでトレーニングした場合に、完全に教師されたパフォーマンスに近い結果が得られることを示す。
さらに,ビデオナラティブグラウンド(VNG)タスクで評価することで,視覚と言語を接続するモデルを改善するために,我々のデータを利用することができることを示す。
コードとアノテーションはhttps://pointvos.github.io.comで公開します。
関連論文リスト
- Learning the What and How of Annotation in Video Object Segmentation [11.012995995497029]
ビデオオブジェクト(VOS)は、ビデオ編集からビデオデータ生成まで、いくつかのアプリケーションにとって不可欠である。
従来のアノテート手法では、ビデオフレームごとにターゲットオブジェクトに詳細なセグメンテーションマスクを描く必要がある。
ビデオオブジェクトセグメンテーションのためのヒューマン・イン・ザ・ループアノテーションフレームワークであるEVA-VOSを提案する。
論文 参考訳(メタデータ) (2023-11-08T00:56:31Z) - Learning Referring Video Object Segmentation from Weak Annotation [78.45828085350936]
RVOS(Referring Video Object segmentation)は、対象物を記述する文に基づいて、対象物をすべてのビデオフレームにセグメント化することを目的としたタスクである。
そこで本研究では, RVOS に対する十分な監視を提供しながら, アノテーションの労力を 8 倍に削減する新たなアノテーション方式を提案する。
私たちのスキームは、最初にオブジェクトが現れるフレームのマスクと、残りのフレームのバウンディングボックスのみを必要とする。
論文 参考訳(メタデータ) (2023-08-04T06:50:52Z) - Segment Anything Meets Point Tracking [116.44931239508578]
本稿では,SAMと長期点追跡を併用した,ポイント中心の対話型ビデオセグメンテーションの新たな手法を提案する。
ゼロショットオープンワールドUnidentified Video Objects(UVO)ベンチマークで直接評価することで,ポイントベーストラッキングのメリットを強調した。
DAVIS, YouTube-VOS, BDD100Kなどの人気ビデオオブジェクトのセグメンテーションと多目的セグメンテーションのベンチマーク実験により, ポイントベースセグメンテーショントラッカーがより優れたゼロショット性能と効率的なインタラクションをもたらすことが示唆された。
論文 参考訳(メタデータ) (2023-07-03T17:58:01Z) - EPIC-KITCHENS VISOR Benchmark: VIdeo Segmentations and Object Relations [83.26326325568208]
我々は、新しいピクセルアノテーションのデータセットであるVISORと、エゴセントリックなビデオで手やアクティブなオブジェクトをセグメンテーションするためのベンチマークスイートを紹介する。
具体的には、オブジェクトが変換的相互作用を行う場合、ピクセルレベルのアノテーションの短期的および長期的整合性を保証する必要がある。
VISORは、拡張性と品質のために、部分でAI駆動のアノテーションパイプラインを導入している。
論文 参考訳(メタデータ) (2022-09-26T23:03:26Z) - Generating Masks from Boxes by Mining Spatio-Temporal Consistencies in
Videos [159.02703673838639]
フレーム毎のバウンディングボックスアノテーションからセグメンテーションマスクを生成する手法を動画で紹介します。
得られた正確なマスクを用いて、ビデオオブジェクトセグメンテーション(VOS)ネットワークの弱い教師付きトレーニングを行う。
追加データは、VOSとより困難なトラッキングドメインの両方で最先端の結果をもたらす大幅に優れた一般化パフォーマンスを提供します。
論文 参考訳(メタデータ) (2021-01-06T18:56:24Z) - t-EVA: Time-Efficient t-SNE Video Annotation [16.02592287695421]
t-EVAは、ビデオ分類におけるテスト精度を維持しながら、他のビデオアノテーションツールより優れている。
t-EVAはビデオ分類におけるテスト精度を維持しつつ、他のビデオアノテーションツールよりも優れていることを示す。
論文 参考訳(メタデータ) (2020-11-26T09:56:54Z) - Reducing the Annotation Effort for Video Object Segmentation Datasets [50.893073670389164]
ピクセルマスクでフレームを密にラベル付けしても 大規模なデータセットにはスケールしない
我々は、より安価なバウンディングボックスアノテーションからピクセルレベルで擬似ラベルを自動生成するために、深層畳み込みネットワークを使用します。
我々は新しいTAO-VOSベンチマークを取得し、www.vision.rwth-aachen.de/page/taovosで公開している。
論文 参考訳(メタデータ) (2020-11-02T17:34:45Z) - Learning Video Object Segmentation from Unlabeled Videos [158.18207922363783]
未ラベルビデオからのオブジェクトパターン学習に対処するビデオオブジェクトセグメンテーション(VOS)を提案する。
複数の粒度で VOS の特性を包括的にキャプチャする,教師なし/弱教師付き学習フレームワーク MuG を導入している。
論文 参考訳(メタデータ) (2020-03-10T22:12:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。