論文の概要: Video Mask Transfiner for High-Quality Video Instance Segmentation
- arxiv url: http://arxiv.org/abs/2207.14012v1
- Date: Thu, 28 Jul 2022 11:13:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-29 12:27:29.975843
- Title: Video Mask Transfiner for High-Quality Video Instance Segmentation
- Title(参考訳): 高品質ビデオインスタンスセグメンテーションのためのビデオマスクトランスファイナ
- Authors: Lei Ke, Henghui Ding, Martin Danelljan, Yu-Wing Tai, Chi-Keung Tang,
Fisher Yu
- Abstract要約: Video Mask Transfiner (VMT) は、高効率なビデオトランス構造により、微細な高解像度機能を利用することができる。
当社のVMTアーキテクチャに基づいて,反復的トレーニングと自己補正による自動アノテーション改善アプローチを設計する。
我々はVMTとHQ-YTVISの最新の最先端手法、Youtube-VIS、OVIS、BDD100K MOTSを比較した。
- 参考スコア(独自算出の注目度): 102.50936366583106
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: While Video Instance Segmentation (VIS) has seen rapid progress, current
approaches struggle to predict high-quality masks with accurate boundary
details. Moreover, the predicted segmentations often fluctuate over time,
suggesting that temporal consistency cues are neglected or not fully utilized.
In this paper, we set out to tackle these issues, with the aim of achieving
highly detailed and more temporally stable mask predictions for VIS. We first
propose the Video Mask Transfiner (VMT) method, capable of leveraging
fine-grained high-resolution features thanks to a highly efficient video
transformer structure. Our VMT detects and groups sparse error-prone
spatio-temporal regions of each tracklet in the video segment, which are then
refined using both local and instance-level cues. Second, we identify that the
coarse boundary annotations of the popular YouTube-VIS dataset constitute a
major limiting factor. Based on our VMT architecture, we therefore design an
automated annotation refinement approach by iterative training and
self-correction. To benchmark high-quality mask predictions for VIS, we
introduce the HQ-YTVIS dataset, consisting of a manually re-annotated test set
and our automatically refined training data. We compare VMT with the most
recent state-of-the-art methods on the HQ-YTVIS, as well as the Youtube-VIS,
OVIS and BDD100K MOTS benchmarks. Experimental results clearly demonstrate the
efficacy and effectiveness of our method on segmenting complex and dynamic
objects, by capturing precise details.
- Abstract(参考訳): ビデオインスタンスセグメンテーション(VIS)は急速に進歩しているが、現在のアプローチでは、正確な境界の詳細を持つ高品質なマスクの予測に苦労している。
さらに,予測されたセグメント化は時間とともに変動することが多く,時間的一貫性が無視されるか,完全には利用されないことが示唆された。
本稿では,これらの課題に対処し,高精細で時間的に安定したマスク予測を実現することを目的とした。
まず,高効率なビデオトランス構造により,高精細な高精細な特徴を活用できるビデオマスクトランスファイナ(VMT)法を提案する。
我々のVMTは、ビデオセグメント内の各トラックレットのスパースエラー発生時空間を検出し、グループ化し、その後、ローカルおよびインスタンスレベルのキューを使用して精査する。
第2に,人気のあるyoutube-visデータセットの粗い境界アノテーションが大きな制限因子であることを示す。
そこで我々は,VMTアーキテクチャに基づいて,反復学習と自己補正による自動アノテーション修正アプローチを設計する。
VISの高品質マスク予測をベンチマークするために、手動で再注釈したテストセットと、自動修正されたトレーニングデータからなるHQ-YTVISデータセットを導入する。
我々はVMTとHQ-YTVISの最新の最先端手法、Youtube-VIS、OVIS、BDD100K MOTSベンチマークを比較した。
実験により, 複雑な物体と動的物体のセグメンテーションにおける手法の有効性と有効性を明らかにした。
関連論文リスト
- AU-vMAE: Knowledge-Guide Action Units Detection via Video Masked Autoencoder [38.04963261966939]
顔行動単位(FAU)検出のためのビデオレベルの事前学習方式を提案する。
我々の設計の中心は、ビデオマインドオートエンコーダに基づく事前訓練されたビデオ特徴抽出器である。
提案手法は,BP4DおよびdisFA FAUsデータセットで使用されている既存の最先端手法と比較して,性能の大幅な向上を示す。
論文 参考訳(メタデータ) (2024-07-16T08:07:47Z) - PM-VIS: High-Performance Box-Supervised Video Instance Segmentation [30.453433078039133]
Box-supervised Video Instance (VIS) メソッドは、労働集約的なアノテーションプロセスを緩和する実行可能なソリューションとして登場した。
我々は、インスタンスボックスアノテーションを利用して、高品質なインスタンス擬似マスクを生成する新しいアプローチを導入する。
我々のPM-VISモデルは、高品質な擬似マスクアノテーションで訓練され、事例マスク予測における強力な能力を示す。
論文 参考訳(メタデータ) (2024-04-22T04:25:02Z) - Appearance-Based Refinement for Object-Centric Motion Segmentation [85.2426540999329]
本稿では,ビデオストリームの時間的一貫性を利用して,不正確なフローベース提案を補正する外観に基づく改善手法を提案する。
提案手法では,高精度なフロー予測マスクを模範として,シーケンスレベルの選択機構を用いる。
パフォーマンスは、DAVIS、YouTube、SegTrackv2、FBMS-59など、複数のビデオセグメンテーションベンチマークで評価されている。
論文 参考訳(メタデータ) (2023-12-18T18:59:51Z) - Temporal-aware Hierarchical Mask Classification for Video Semantic
Segmentation [62.275143240798236]
ビデオセマンティックセグメンテーションデータセットは、ビデオ毎のカテゴリが限られている。
VSSトレーニング中に意味のある勾配更新を受けるために、クエリの10%未満がマッチする可能性がある。
提案手法は,最新のVSSベンチマークVSPWにおいてベルやホイッスルを使わずに,最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-09-14T20:31:06Z) - MGMAE: Motion Guided Masking for Video Masked Autoencoding [34.80832206608387]
時間的冗長性は、ビデオMAEのマスキング比が高く、マスキング戦略をカスタマイズしている。
我々の動き誘導マスクは、時間的一貫したマスキングボリュームを構築するために、運動情報を明示的に組み込む。
我々は、Something V2 と Kinetics-400 のデータセット上で実験を行い、MGMAE が元の VideoMAE よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-08-21T15:39:41Z) - Solve the Puzzle of Instance Segmentation in Videos: A Weakly Supervised
Framework with Spatio-Temporal Collaboration [13.284951215948052]
ビデオにおけるtextbfS-patiotextbfTemporal textbfClaboration の例を示す。
提案手法は,TrackR-CNN と MaskTrack R-CNN の完全教師付き性能よりも優れる。
論文 参考訳(メタデータ) (2022-12-15T02:44:13Z) - SVFormer: Semi-supervised Video Transformer for Action Recognition [88.52042032347173]
SVFormerは、未ラベルの動画サンプルに対処するために、安定した擬似ラベルフレームワークを採用する。
さらに,ビデオの複雑な時間変動をカバーするための時間ゆらぎを提案する。
特にSVFormerは、Kinetics-400の1%のラベル付け率でトレーニングエポックを減らし、最先端の技術を31.5%上回っている。
論文 参考訳(メタデータ) (2022-11-23T18:58:42Z) - Robust Online Video Instance Segmentation with Track Queries [15.834703258232002]
我々は,YouTube-VIS 2019ベンチマークにおいて,上位のオフラインメソッドと同等に動作するフルオンライントランスフォーマーベースのビデオインスタンスセグメンテーションモデルを提案する。
十分な画像セグメンテーションアーキテクチャと組み合わせることで,ショートビデオに拘束されずに,トラッククエリが印象的な精度を示すことを示す。
論文 参考訳(メタデータ) (2022-11-16T18:50:14Z) - End-to-End Video Instance Segmentation with Transformers [84.17794705045333]
ビデオインスタンスセグメンテーション(ビデオインスタンスセグメンテーション、英: Video instance segmentation、VIS)は、ビデオに関心のあるオブジェクトインスタンスを同時に分類、セグメンテーション、追跡することを必要とするタスクである。
本稿では,Transformer上に構築された新しいビデオインスタンスセグメンテーションフレームワークVisTRを提案する。
初めて、Transformers上に構築されたよりシンプルで高速なビデオインスタンスセグメンテーションフレームワークをデモし、競争力のある精度を実現した。
論文 参考訳(メタデータ) (2020-11-30T02:03:50Z) - Fast Video Object Segmentation With Temporal Aggregation Network and
Dynamic Template Matching [67.02962970820505]
ビデオオブジェクト(VOS)に「トラッキング・バイ・検出」を導入する。
本稿では,時間的アグリゲーションネットワークと動的時間進化テンプレートマッチング機構を提案する。
我々は,DAVISベンチマークで1フレームあたり0.14秒,J&Fで75.9%の速度で,複雑なベルとホイッスルを伴わずに,新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2020-07-11T05:44:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。