論文の概要: Self-Supervised Video Object Segmentation by Motion-Aware Mask
Propagation
- arxiv url: http://arxiv.org/abs/2107.12569v1
- Date: Tue, 27 Jul 2021 03:07:56 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-28 14:42:55.900601
- Title: Self-Supervised Video Object Segmentation by Motion-Aware Mask
Propagation
- Title(参考訳): 運動対応マスク伝搬による自己監督映像オブジェクト分割
- Authors: Bo Miao, Mohammed Bennamoun, Yongsheng Gao, Ajmal Mian
- Abstract要約: 半教師付きビデオオブジェクトセグメンテーションのための自己教師付きモーションアウェアマッチング法を作成した。
従来の自己教師型手法と比較して,MAMPはより高度な一般化能力を持つ最先端性能を実現していることを示す。
- 参考スコア(独自算出の注目度): 52.8407961172098
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We propose a self-supervised spatio-temporal matching method coined
Motion-Aware Mask Propagation (MAMP) for semi-supervised video object
segmentation. During training, MAMP leverages the frame reconstruction task to
train the model without the need for annotations. During inference, MAMP
extracts high-resolution features from each frame to build a memory bank from
the features as well as the predicted masks of selected past frames. MAMP then
propagates the masks from the memory bank to subsequent frames according to our
motion-aware spatio-temporal matching module, also proposed in this paper.
Evaluation on DAVIS-2017 and YouTube-VOS datasets show that MAMP achieves
state-of-the-art performance with stronger generalization ability compared to
existing self-supervised methods, i.e. 4.9\% higher mean
$\mathcal{J}\&\mathcal{F}$ on DAVIS-2017 and 4.85\% higher mean
$\mathcal{J}\&\mathcal{F}$ on the unseen categories of YouTube-VOS than the
nearest competitor. Moreover, MAMP performs on par with many supervised video
object segmentation methods. Our code is available at:
\url{https://github.com/bo-miao/MAMP}.
- Abstract(参考訳): 半教師付きビデオオブジェクトセグメンテーションのための自己教師付き時空間マッチング手法であるMotion-Aware Mask Propagation (MAMP)を提案する。
トレーニング中、mampは、アノテーションなしでモデルをトレーニングするためにフレーム再構築タスクを利用する。
推論中、MAMPは各フレームから高解像度の特徴を抽出し、その特徴と、選択した過去のフレームの予測マスクからメモリバンクを構築する。
次に、MAMPは、運動認識時空間整合モジュールに従って、メモリバンクからその後のフレームにマスクを伝搬する。
DAVIS-2017とYouTube-VOSデータセットの評価は、MAMPが既存の自己監督手法と比較して、より高度な一般化能力を持つ最先端のパフォーマンスを達成することを示している。
4.9\%がdavis-2017で$\mathcal{j}\&\mathcal{f}$、$85\%が$\mathcal{j}\&\mathcal{f}$である。
さらに、MAMPは多くの教師付きビデオオブジェクトセグメンテーション手法と同等に動作する。
私たちのコードは、 \url{https://github.com/bo-miao/mamp} で利用可能です。
関連論文リスト
- Mask Propagation for Efficient Video Semantic Segmentation [63.09523058489429]
ビデオセマンティックベースライン劣化(VSS)は、ビデオシーケンス内の各ピクセルにセマンティックラベルを割り当てることを含む。
SSSSと呼ばれるVSSのための効率的なマスク伝搬フレームワークを提案する。
当社のフレームワークは,フレーム単位のMask2Formerと比較して最大4倍のFLOPを削減し,Cityscapes検証セット上では最大2% mIoUしか使用できない。
論文 参考訳(メタデータ) (2023-10-29T09:55:28Z) - Motion-Guided Masking for Spatiotemporal Representation Learning [16.9547105658246]
動きベクトルを利用して各マスクの位置を経時的に案内する動き誘導マスキングアルゴリズム(MGM)を提案する。
2つの挑戦的な大規模ビデオベンチマークでは、MGMにビデオMAEを装備し、従来の最先端の手法と比較して最大$1.3%の改善を実現した。
論文 参考訳(メタデータ) (2023-08-24T17:58:04Z) - MGMAE: Motion Guided Masking for Video Masked Autoencoding [34.80832206608387]
時間的冗長性は、ビデオMAEのマスキング比が高く、マスキング戦略をカスタマイズしている。
我々の動き誘導マスクは、時間的一貫したマスキングボリュームを構築するために、運動情報を明示的に組み込む。
我々は、Something V2 と Kinetics-400 のデータセット上で実験を行い、MGMAE が元の VideoMAE よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-08-21T15:39:41Z) - Siamese Masked Autoencoders [76.35448665609998]
ビデオから視覚的対応を学習するために,Siamese Masked Autoencoders(SiamMAE)を提案する。
SiamMAEはランダムにサンプリングされたビデオフレームのペアで動作し、非対称にそれらをマスクする。
ビデオオブジェクトのセグメンテーション、キーポイントのプロパゲーション、セマンティック部分のプロパゲーションタスクにおいて、最先端の自己管理手法よりも優れています。
論文 参考訳(メタデータ) (2023-05-23T17:59:46Z) - DropMAE: Masked Autoencoders with Spatial-Attention Dropout for Tracking
Tasks [76.24996889649744]
Masked Autoencoder (MAE) Pretraining on video for matching-based downstream task, including visual object tracking (VOT) and video object segmentation (VOS)
そこで我々は,映像における時間的対応学習を容易にするために,フレーム再構成において空間的アテンション・ドロップアウトを適応的に行うDropMAEを提案する。
本モデルは,9つの競争力のあるビデオ追跡とセグメンテーションデータセットのうち8つに,最先端のパフォーマンスを新たに設定する。
論文 参考訳(メタデータ) (2023-04-02T16:40:42Z) - Mask-Free Video Instance Segmentation [102.50936366583106]
ビデオマスクは面倒で高価なアノテーションで、既存のVISデータセットのスケールと多様性を制限している。
我々は、オブジェクト状態のバウンディングボックスアノテーションのみを使用しながら、非常に競争力のあるVIS性能を実現するMaskFreeVISを提案する。
我々のTK-Lossは、効率的なパッチマッチングステップを経て、フレーム間の一対多のマッチを見つけ、続いてK-アネレスの隣り合う選択を行う。
論文 参考訳(メタデータ) (2023-03-28T11:48:07Z) - Efficient Video Object Segmentation with Compressed Video [36.192735485675286]
ビデオの時間的冗長性を利用した半教師付きビデオオブジェクトセグメンテーションのための効率的なフレームワークを提案する。
提案手法は,圧縮したビデオビットストリームの動作と残差に基づいて,選択したベクトルの推測を行い,他のフレームの予測を行う。
ベースモデルとしてトップkフィルタリングを用いたSTMでは,DAVIS16とYouTube-VOSにおいて,精度の低下とともに最大4.9倍の高速化を実現した。
論文 参考訳(メタデータ) (2021-07-26T12:57:04Z) - Generating Masks from Boxes by Mining Spatio-Temporal Consistencies in
Videos [159.02703673838639]
フレーム毎のバウンディングボックスアノテーションからセグメンテーションマスクを生成する手法を動画で紹介します。
得られた正確なマスクを用いて、ビデオオブジェクトセグメンテーション(VOS)ネットワークの弱い教師付きトレーニングを行う。
追加データは、VOSとより困難なトラッキングドメインの両方で最先端の結果をもたらす大幅に優れた一般化パフォーマンスを提供します。
論文 参考訳(メタデータ) (2021-01-06T18:56:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。