論文の概要: Mask Propagation for Efficient Video Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2310.18954v1
- Date: Sun, 29 Oct 2023 09:55:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-31 15:15:49.955765
- Title: Mask Propagation for Efficient Video Semantic Segmentation
- Title(参考訳): 効率的な映像セマンティクスセグメンテーションのためのマスク伝搬
- Authors: Yuetian Weng, Mingfei Han, Haoyu He, Mingjie Li, Lina Yao, Xiaojun
Chang, Bohan Zhuang
- Abstract要約: ビデオセマンティックベースライン劣化(VSS)は、ビデオシーケンス内の各ピクセルにセマンティックラベルを割り当てることを含む。
SSSSと呼ばれるVSSのための効率的なマスク伝搬フレームワークを提案する。
当社のフレームワークは,フレーム単位のMask2Formerと比較して最大4倍のFLOPを削減し,Cityscapes検証セット上では最大2% mIoUしか使用できない。
- 参考スコア(独自算出の注目度): 63.09523058489429
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video Semantic Segmentation (VSS) involves assigning a semantic label to each
pixel in a video sequence. Prior work in this field has demonstrated promising
results by extending image semantic segmentation models to exploit temporal
relationships across video frames; however, these approaches often incur
significant computational costs. In this paper, we propose an efficient mask
propagation framework for VSS, called MPVSS. Our approach first employs a
strong query-based image segmentor on sparse key frames to generate accurate
binary masks and class predictions. We then design a flow estimation module
utilizing the learned queries to generate a set of segment-aware flow maps,
each associated with a mask prediction from the key frame. Finally, the
mask-flow pairs are warped to serve as the mask predictions for the non-key
frames. By reusing predictions from key frames, we circumvent the need to
process a large volume of video frames individually with resource-intensive
segmentors, alleviating temporal redundancy and significantly reducing
computational costs. Extensive experiments on VSPW and Cityscapes demonstrate
that our mask propagation framework achieves SOTA accuracy and efficiency
trade-offs. For instance, our best model with Swin-L backbone outperforms the
SOTA MRCFA using MiT-B5 by 4.0% mIoU, requiring only 26% FLOPs on the VSPW
dataset. Moreover, our framework reduces up to 4x FLOPs compared to the
per-frame Mask2Former baseline with only up to 2% mIoU degradation on the
Cityscapes validation set. Code is available at
https://github.com/ziplab/MPVSS.
- Abstract(参考訳): ビデオ意味セマンティクスセグメンテーション(vss)は、ビデオシーケンスの各ピクセルに意味ラベルを割り当てることを含む。
この分野での先行研究は、ビデオフレーム間の時間的関係を利用するために画像意味セグメンテーションモデルを拡張することによって有望な結果を示しているが、これらのアプローチは、しばしば重要な計算コストをもたらす。
本稿では,MPVSSと呼ばれるVSSのための効率的なマスク伝搬フレームワークを提案する。
提案手法では,まずスパースキーフレーム上に強いクエリベースの画像セグメンタを用い,正確なバイナリマスクとクラス予測を生成する。
次に、学習したクエリを利用したフロー推定モジュールを設計し、それぞれがキーフレームからマスク予測に関連するセグメント認識フローマップを生成する。
最後に、マスクフローペアは非キーフレームのマスク予測として機能するように警告される。
キーフレームからの予測を再利用することにより、リソース集約セグメントで個別に大量のビデオフレームを処理する必要性を回避し、時間的冗長を緩和し、計算コストを大幅に削減する。
VSPWとCityscapesの大規模な実験により、我々のマスク伝搬フレームワークがSOTAの精度と効率のトレードオフを達成することを示した。
例えば、Swin-Lのバックボーンを用いた最良のモデルは、MIT-B5を用いてSOTA MRCFAを4.0%mIoUで上回り、VSPWデータセット上でFLOPは26%しか必要としない。
さらに,本フレームワークは,フレーム単位のMask2Formerベースラインに比べて最大4倍のFLOPを削減し,Cityscapes検証セット上では最大2%のmIoUしか劣化しない。
コードはhttps://github.com/ziplab/mpvssで入手できる。
関連論文リスト
- Bridge the Points: Graph-based Few-shot Segment Anything Semantically [79.1519244940518]
プレトレーニング技術の最近の進歩により、視覚基礎モデルの能力が向上した。
最近の研究はSAMをFew-shot Semantic segmentation (FSS)に拡張している。
本稿では,グラフ解析に基づく簡易かつ効果的な手法を提案する。
論文 参考訳(メタデータ) (2024-10-09T15:02:28Z) - DFormer: Diffusion-guided Transformer for Universal Image Segmentation [86.73405604947459]
提案したDFormerは,拡散モデルを用いて画像分割タスクをデノナイズプロセスとみなしている。
我々のDFormerは、ランダムに生成されたマスクの集合から、マスクとそれに対応するカテゴリを直接予測します。
我々のDFormerは、最近の拡散型汎光学分割法Pix2Seq-Dより優れており、MS COCO val 2017セットで3.6%向上している。
論文 参考訳(メタデータ) (2023-06-06T06:33:32Z) - One-Shot Video Inpainting [5.7120338754738835]
ワンショット・ビデオ・インパインティング(OSVI)のための統一パイプラインを提案する。
マスク予測と映像補完をエンドツーエンドで共同学習することにより,タスク全体に対して最適な結果が得られる。
提案手法は,予測マスクをネットワークの内部ガイダンスとして利用できるため,信頼性が高い。
論文 参考訳(メタデータ) (2023-02-28T07:30:36Z) - Masked Contrastive Pre-Training for Efficient Video-Text Retrieval [37.05164804180039]
我々は、シンプルだが効果的なビデオ言語事前学習(VidLP)フレームワーク、Masked Contrastive Video-Language Pretraining(MAC)を提案する。
我々のMACは、VidLPモデルにおける映像表現の空間的および時間的冗長性を低減することを目的としている。
これらの設計を結合することで、FLOP(60%オフ)の削減、事前トレーニング(3倍)の高速化、性能向上など、効率的なエンドツーエンドの事前トレーニングが可能になる。
論文 参考訳(メタデータ) (2022-12-02T05:44:23Z) - ConvMAE: Masked Convolution Meets Masked Autoencoders [65.15953258300958]
機能事前トレーニングとマルチスケールハイブリッド畳み込み変換アーキテクチャのためのマスク付き自動エンコーディングは、ViTの可能性をさらに解き放つことができる。
我々のConvMAEフレームワークは、マスクの自動符号化方式により、マルチスケールのハイブリッド畳み込み変換器がより識別的な表現を学習できることを実証している。
事前訓練したConvMAEモデルに基づいて、ConvMAE-Baseは画像Net-1Kの微調整精度をMAE-Baseと比較して1.4%改善する。
論文 参考訳(メタデータ) (2022-05-08T15:12:19Z) - Efficient Video Object Segmentation with Compressed Video [36.192735485675286]
ビデオの時間的冗長性を利用した半教師付きビデオオブジェクトセグメンテーションのための効率的なフレームワークを提案する。
提案手法は,圧縮したビデオビットストリームの動作と残差に基づいて,選択したベクトルの推測を行い,他のフレームの予測を行う。
ベースモデルとしてトップkフィルタリングを用いたSTMでは,DAVIS16とYouTube-VOSにおいて,精度の低下とともに最大4.9倍の高速化を実現した。
論文 参考訳(メタデータ) (2021-07-26T12:57:04Z) - Spatiotemporal Graph Neural Network based Mask Reconstruction for Video
Object Segmentation [70.97625552643493]
本稿では,クラス非依存オブジェクトを半教師あり設定でセグメント化するタスクについて述べる。
提案手法のすべてを利用して局所的なコンテキストを捕捉する新しいグラフニューラルネットワーク(TG-Net)を提案する。
論文 参考訳(メタデータ) (2020-12-10T07:57:44Z) - SipMask: Spatial Information Preservation for Fast Image and Video
Instance Segmentation [149.242230059447]
SipMaskと呼ばれる高速な単一ステージインスタンス分割法を提案する。
検出されたバウンディングボックスの異なるサブリージョンにインスタンスのマスク予測を分離することで、インスタンス固有の空間情報を保存する。
リアルタイム機能の面では、SipMaskはYOLACTを、同様の設定で3.0%(マスクAP)という絶対的なゲインで上回ります。
論文 参考訳(メタデータ) (2020-07-29T12:21:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。