論文の概要: PM-VIS+: High-Performance Video Instance Segmentation without Video Annotation
- arxiv url: http://arxiv.org/abs/2406.19665v1
- Date: Fri, 28 Jun 2024 05:22:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-01 17:39:39.603402
- Title: PM-VIS+: High-Performance Video Instance Segmentation without Video Annotation
- Title(参考訳): PM-VIS+:ビデオアノテーションのない高性能ビデオインスタンスセグメンテーション
- Authors: Zhangjing Yang, Dun Liu, Xin Wang, Zhe Li, Barathwaj Anandan, Yi Wu,
- Abstract要約: ビデオインスタンスのセグメンテーションには、ビデオ内のオブジェクトを検出し、セグメンテーションし、追跡する必要がある。
本稿では,画像データセットを利用してビデオアノテーションを除去する手法を提案する。
- 参考スコア(独自算出の注目度): 15.9587266448337
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Video instance segmentation requires detecting, segmenting, and tracking objects in videos, typically relying on costly video annotations. This paper introduces a method that eliminates video annotations by utilizing image datasets. The PM-VIS algorithm is adapted to handle both bounding box and instance-level pixel annotations dynamically. We introduce ImageNet-bbox to supplement missing categories in video datasets and propose the PM-VIS+ algorithm to adjust supervision based on annotation types. To enhance accuracy, we use pseudo masks and semi-supervised optimization techniques on unannotated video data. This method achieves high video instance segmentation performance without manual video annotations, offering a cost-effective solution and new perspectives for video instance segmentation applications. The code will be available in https://github.com/ldknight/PM-VIS-plus
- Abstract(参考訳): ビデオインスタンスのセグメンテーションには、ビデオ内のオブジェクトを検出し、セグメンテーションし、追跡する必要がある。
本稿では,画像データセットを利用してビデオアノテーションを除去する手法を提案する。
PM-VISアルゴリズムは、バウンディングボックスとインスタンスレベルのピクセルアノテーションの両方を動的に扱うように適応されている。
ビデオデータセットの欠落したカテゴリを補完するImageNet-bboxを導入し、アノテーションタイプに基づいた調整を行うPM-VIS+アルゴリズムを提案する。
精度を高めるために、未注釈映像データに対して擬似マスクと半教師付き最適化手法を用いる。
本手法は,手動の動画アノテーションを使わずに高精細度ビデオインスタンスセグメンテーション性能を実現し,コスト効率の高いソリューションとビデオインスタンスセグメンテーションアプリケーションのための新たな視点を提供する。
コードはhttps://github.com/ldknight/PM-VIS-plusで入手できる。
関連論文リスト
- Point-VOS: Pointing Up Video Object Segmentation [16.359861197595986]
現在の最先端のビデオオブジェクト(VOS)メソッドは、トレーニングとテストの両方において、オブジェクトごとの密集したマスクアノテーションに依存している。
本稿では,その労力を大幅に削減する疎時間的ポイントワイドアノテーションスキームを備えた新しいPoint-VOSタスクを提案する。
ビデオナラティブグラウンドディング(VNG)タスクで評価することで、視覚と言語を接続するモデルを改善するために、我々のデータが利用できることを示す。
論文 参考訳(メタデータ) (2024-02-08T18:52:23Z) - Learning the What and How of Annotation in Video Object Segmentation [11.012995995497029]
ビデオオブジェクト(VOS)は、ビデオ編集からビデオデータ生成まで、いくつかのアプリケーションにとって不可欠である。
従来のアノテート手法では、ビデオフレームごとにターゲットオブジェクトに詳細なセグメンテーションマスクを描く必要がある。
ビデオオブジェクトセグメンテーションのためのヒューマン・イン・ザ・ループアノテーションフレームワークであるEVA-VOSを提案する。
論文 参考訳(メタデータ) (2023-11-08T00:56:31Z) - Tracking Anything with Decoupled Video Segmentation [87.07258378407289]
我々はデカップリングビデオセグメンテーションアプローチ(DEVA)を開発した。
タスク固有のイメージレベルセグメンテーションと、クラス/タスク非依存の双方向の時間的伝搬で構成されている。
この分離された定式化は、複数のデータスカースタスクにおけるエンドツーエンドのアプローチと良好に比較できることを示す。
論文 参考訳(メタデータ) (2023-09-07T17:59:41Z) - Learning Referring Video Object Segmentation from Weak Annotation [78.45828085350936]
RVOS(Referring Video Object segmentation)は、対象物を記述する文に基づいて、対象物をすべてのビデオフレームにセグメント化することを目的としたタスクである。
そこで本研究では, RVOS に対する十分な監視を提供しながら, アノテーションの労力を 8 倍に削減する新たなアノテーション方式を提案する。
私たちのスキームは、最初にオブジェクトが現れるフレームのマスクと、残りのフレームのバウンディングボックスのみを必要とする。
論文 参考訳(メタデータ) (2023-08-04T06:50:52Z) - Robust Online Video Instance Segmentation with Track Queries [15.834703258232002]
我々は,YouTube-VIS 2019ベンチマークにおいて,上位のオフラインメソッドと同等に動作するフルオンライントランスフォーマーベースのビデオインスタンスセグメンテーションモデルを提案する。
十分な画像セグメンテーションアーキテクチャと組み合わせることで,ショートビデオに拘束されずに,トラッククエリが印象的な精度を示すことを示す。
論文 参考訳(メタデータ) (2022-11-16T18:50:14Z) - Guess What Moves: Unsupervised Video and Image Segmentation by
Anticipating Motion [92.80981308407098]
本稿では,動きに基づくセグメンテーションと外観に基づくセグメンテーションの強みを組み合わせたアプローチを提案する。
本稿では、画像分割ネットワークを監督し、単純な動きパターンを含む可能性のある領域を予測することを提案する。
教師なしのビデオセグメンテーションモードでは、ネットワークは、学習プロセス自体をこれらのビデオをセグメンテーションするアルゴリズムとして使用して、ラベルのないビデオの集合に基づいて訓練される。
論文 参考訳(メタデータ) (2022-05-16T17:55:34Z) - HODOR: High-level Object Descriptors for Object Re-segmentation in Video
Learned from Static Images [123.65233334380251]
オブジェクトの外観やシーンコンテキストを理解するために,注釈付き静的イメージを効果的に活用する新しい手法であるHODORを提案する。
その結果、HODORはDAVISとYouTube-VOSベンチマークで最先端のパフォーマンスを達成した。
アーキテクチャの変更なしに、HODORは単一の注釈付きビデオフレームに関するビデオコンテキストから学ぶこともできる。
論文 参考訳(メタデータ) (2021-12-16T18:59:53Z) - Generating Masks from Boxes by Mining Spatio-Temporal Consistencies in
Videos [159.02703673838639]
フレーム毎のバウンディングボックスアノテーションからセグメンテーションマスクを生成する手法を動画で紹介します。
得られた正確なマスクを用いて、ビデオオブジェクトセグメンテーション(VOS)ネットワークの弱い教師付きトレーニングを行う。
追加データは、VOSとより困難なトラッキングドメインの両方で最先端の結果をもたらす大幅に優れた一般化パフォーマンスを提供します。
論文 参考訳(メタデータ) (2021-01-06T18:56:24Z) - Video Panoptic Segmentation [117.08520543864054]
我々は,ビデオパノプティクスセグメンテーションと呼ばれる,このタスクの新たな拡張手法を提案し,検討する。
この新しいタスクの研究を活性化するために,2種類のビデオパノプティクスデータセットを提示する。
本稿では,ビデオフレーム内のオブジェクトクラス,バウンディングボックス,マスク,インスタンスID追跡,セマンティックセマンティックセマンティックセマンティックセマンティクスを共同で予測する新しいビデオパノプティックセマンティクスネットワーク(VPSNet)を提案する。
論文 参考訳(メタデータ) (2020-06-19T19:35:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。