論文の概要: PMVOS: Pixel-Level Matching-Based Video Object Segmentation
- arxiv url: http://arxiv.org/abs/2009.08855v1
- Date: Fri, 18 Sep 2020 14:22:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-17 03:16:37.529114
- Title: PMVOS: Pixel-Level Matching-Based Video Object Segmentation
- Title(参考訳): PMVOS:Pixel-Level Matchingベースのビデオオブジェクトセグメンテーション
- Authors: Suhwan Cho, Heansung Lee, Sungmin Woo, Sungjun Jang, Sangyoun Lee
- Abstract要約: 半教師付きビデオオブジェクトセグメンテーション(VOS)は、初期フレームの真理セグメンテーションマスクが提供されるとき、任意の対象オブジェクトをビデオ内にセグメンテーションすることを目的としている。
近年の画素レベルのマッチング (PM) は, 高い性能のため, 特徴マッチングに広く用いられている。
本稿では,過去のすべてのフレームの情報を含む強力なテンプレート機能を構築するPMVOS(Message-PM-based Video Object segmentation)を提案する。
- 参考スコア(独自算出の注目度): 9.357153487612965
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Semi-supervised video object segmentation (VOS) aims to segment arbitrary
target objects in video when the ground truth segmentation mask of the initial
frame is provided. Due to this limitation of using prior knowledge about the
target object, feature matching, which compares template features representing
the target object with input features, is an essential step. Recently,
pixel-level matching (PM), which matches every pixel in template features and
input features, has been widely used for feature matching because of its high
performance. However, despite its effectiveness, the information used to build
the template features is limited to the initial and previous frames. We address
this issue by proposing a novel method-PM-based video object segmentation
(PMVOS)-that constructs strong template features containing the information of
all past frames. Furthermore, we apply self-attention to the similarity maps
generated from PM to capture global dependencies. On the DAVIS 2016 validation
set, we achieve new state-of-the-art performance among real-time methods (> 30
fps), with a J&F score of 85.6%. Performance on the DAVIS 2017 and YouTube-VOS
validation sets is also impressive, with J&F scores of 74.0% and 68.2%,
respectively.
- Abstract(参考訳): 半教師付きビデオオブジェクトセグメンテーション(VOS)は、初期フレームの真理セグメンテーションマスクが提供されるとき、任意の対象オブジェクトをビデオ内にセグメンテーションすることを目的としている。
対象オブジェクトに関する事前知識を使用するという制限のため、対象オブジェクトを表すテンプレート特徴と入力特徴を比較する機能マッチングは必須のステップである。
近年,テンプレート機能や入力機能の各ピクセルにマッチするピクセルレベルのマッチング (PM) が,高い性能のため,機能マッチングに広く利用されている。
しかし、その効果にもかかわらず、テンプレート機能を構築するのに使用される情報は初期フレームと前フレームに限られる。
我々は,過去の全てのフレームの情報を含む強力なテンプレート機能を構築するPMVOS( Method-PM-based Video Object segmentation)を提案することで,この問題に対処する。
さらに,pm から生成する類似度マップに自己アテンションを適用し,グローバルな依存関係をキャプチャする。
DAVIS 2016の検証セットでは、J&Fスコア85.6%のリアルタイム手法(30fps以上)で新しい最先端性能を実現している。
DAVIS 2017とYouTube-VOSの検証セットのパフォーマンスも印象的であり、それぞれ74.0%と68.2%である。
関連論文リスト
- Training-Free Robust Interactive Video Object Segmentation [82.05906654403684]
対話型ビデオオブジェクトセグメンテーション(I-PT)のためのトレーニングフリープロンプトトラッキングフレームワークを提案する。
スパースポイントとボックストラッキングを共同で採用し、不安定なポイントをフィルタリングし、オブジェクトワイズ情報をキャプチャします。
我々のフレームワークは、人気のあるVOSデータセット上で、ゼロショットビデオセグメンテーションの堅牢な結果を示してきた。
論文 参考訳(メタデータ) (2024-06-08T14:25:57Z) - Joint Modeling of Feature, Correspondence, and a Compressed Memory for
Video Object Segmentation [52.11279360934703]
現在のビデオオブジェクト(VOS)メソッドは通常、特徴抽出後のカレントフレームと参照フレームの密マッチングを実行する。
本稿では,特徴量,対応性,圧縮メモリの3要素を共同モデリングするための統合VOSフレームワークであるJointFormerを提案する。
論文 参考訳(メタデータ) (2023-08-25T17:30:08Z) - Segment Anything Meets Point Tracking [116.44931239508578]
本稿では,SAMと長期点追跡を併用した,ポイント中心の対話型ビデオセグメンテーションの新たな手法を提案する。
ゼロショットオープンワールドUnidentified Video Objects(UVO)ベンチマークで直接評価することで,ポイントベーストラッキングのメリットを強調した。
DAVIS, YouTube-VOS, BDD100Kなどの人気ビデオオブジェクトのセグメンテーションと多目的セグメンテーションのベンチマーク実験により, ポイントベースセグメンテーショントラッカーがより優れたゼロショット性能と効率的なインタラクションをもたらすことが示唆された。
論文 参考訳(メタデータ) (2023-07-03T17:58:01Z) - Look Before You Match: Instance Understanding Matters in Video Object
Segmentation [114.57723592870097]
本稿では,ビデオオブジェクトセグメンテーション(VOS)におけるインスタンスの重要性について論じる。
本稿では,クエリベースのインスタンスセグメンテーション(IS)ブランチを現在のフレームのインスタンス詳細に分割し,VOSブランチをメモリバンクと時空間マッチングする,VOS用の2分岐ネットワークを提案する。
我々は、ISブランチから十分に学習されたオブジェクトクエリを使用して、インスタンス固有の情報をクエリキーに注入し、インスタンス拡張マッチングをさらに実行します。
論文 参考訳(メタデータ) (2022-12-13T18:59:59Z) - Region Aware Video Object Segmentation with Deep Motion Modeling [56.95836951559529]
Region Aware Video Object (RAVOS) は、効率的なオブジェクトセグメンテーションとメモリストレージのための関心領域を予測する手法である。
効率的なセグメンテーションのために、ROIに応じてオブジェクトの特徴を抽出し、オブジェクトレベルのセグメンテーションのためにオブジェクトデコーダを設計する。
効率的なメモリ記憶のために,2つのフレーム間のオブジェクトの移動経路内の特徴を記憶することで,冗長なコンテキストをフィルタリングする動作パスメモリを提案する。
論文 参考訳(メタデータ) (2022-07-21T01:44:40Z) - Towards Robust Video Object Segmentation with Adaptive Object
Calibration [18.094698623128146]
ビデオオブジェクトセグメンテーション(VOS)は、参照フレームの注釈付きオブジェクトマスクを与えられたビデオのすべてのターゲットフレームにおけるオブジェクトのセグメンテーションを目的としている。
本稿では,オブジェクト表現を適応的に構築し,オブジェクトマスクを校正して強靭性を実現する,新しいディープネットワークを提案する。
本モデルは,既存の出版作品の最先端性能を達成し,摂動に対する優れた堅牢性を示す。
論文 参考訳(メタデータ) (2022-07-02T17:51:29Z) - CompFeat: Comprehensive Feature Aggregation for Video Instance
Segmentation [67.17625278621134]
ビデオインスタンスのセグメンテーションは、特定のビデオのそれぞれのオブジェクトを検出し、セグメンテーションし、追跡する必要がある複雑なタスクです。
従来のアプローチは、オブジェクトの検出、セグメンテーション、追跡にのみシングルフレーム機能を使用します。
本稿では,時間的および空間的コンテキスト情報を用いて,フレームレベルとオブジェクトレベルでの機能を洗練する新しい包括的特徴集約アプローチ(compfeat)を提案する。
論文 参考訳(メタデータ) (2020-12-07T00:31:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。