論文の概要: MSN: Efficient Online Mask Selection Network for Video Instance
Segmentation
- arxiv url: http://arxiv.org/abs/2106.10452v1
- Date: Sat, 19 Jun 2021 08:33:29 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-22 15:49:41.765960
- Title: MSN: Efficient Online Mask Selection Network for Video Instance
Segmentation
- Title(参考訳): MSN: ビデオインスタンスセグメンテーションのための効率的なオンラインマスク選択ネットワーク
- Authors: Vidit Goel, Jiachen Li, Shubhika Garg, Harsh Maheshwari, Humphrey Shi
- Abstract要約: 本稿では、オブジェクトクラスとともにインスタンスレベルのセグメンテーションマスクを自動的に生成し、ビデオ内で追跡するビデオインスタンス(VIS)の新しいソリューションを提案する。
マスク選択ネットワーク(MSN)を用いて,マスクのセグメンテーションと伝搬分岐をオンライン的に改善する。
この手法は2021年のYouTube-VISチャレンジで49.1mAPを獲得し、30以上のグローバルチームの中で3位にランクインした。
- 参考スコア(独自算出の注目度): 7.208483056781188
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work we present a novel solution for Video Instance
Segmentation(VIS), that is automatically generating instance level segmentation
masks along with object class and tracking them in a video. Our method improves
the masks from segmentation and propagation branches in an online manner using
the Mask Selection Network (MSN) hence limiting the noise accumulation during
mask tracking. We propose an effective design of MSN by using patch-based
convolutional neural network. The network is able to distinguish between very
subtle differences between the masks and choose the better masks out of the
associated masks accurately. Further, we make use of temporal consistency and
process the video sequences in both forward and reverse manner as a post
processing step to recover lost objects. The proposed method can be used to
adapt any video object segmentation method for the task of VIS. Our method
achieves a score of 49.1 mAP on 2021 YouTube-VIS Challenge and was ranked third
place among more than 30 global teams. Our code will be available at
https://github.com/SHI-Labs/Mask-Selection-Networks.
- Abstract(参考訳): 本研究では,ビデオインスタンスセグメンテーション(VIS)のための新しいソリューションを提案する。これはオブジェクトクラスとともにインスタンスレベルのセグメンテーションマスクを自動的に生成し,ビデオ内で追跡するものだ。
マスク選択ネットワーク (MSN) を用いて, マスクのセグメンテーションと伝搬分岐をオンライン的に改善することにより, マスクトラッキング時のノイズ蓄積を抑える。
パッチベースの畳み込みニューラルネットワークを用いてMSNを効果的に設計する。
ネットワークは、マスクの微妙な違いを区別し、関連するマスクの中からより良いマスクを正しく選択することができる。
さらに, 時間的一貫性を活かし, 映像列を前方および逆の順に処理し, 失われた物体を回収するポスト処理ステップとする。
提案手法は,ビデオオブジェクトのセグメンテーションをVISのタスクに適応させるのに利用できる。
本手法は2021年のYouTube-VISチャレンジで49.1mAPを獲得し,30チーム以上の中で3位となった。
私たちのコードはhttps://github.com/SHI-Labs/Mask-Selection-Networks.comで公開されます。
関連論文リスト
- Siamese Masked Autoencoders [76.35448665609998]
ビデオから視覚的対応を学習するために,Siamese Masked Autoencoders(SiamMAE)を提案する。
SiamMAEはランダムにサンプリングされたビデオフレームのペアで動作し、非対称にそれらをマスクする。
ビデオオブジェクトのセグメンテーション、キーポイントのプロパゲーション、セマンティック部分のプロパゲーションタスクにおいて、最先端の自己管理手法よりも優れています。
論文 参考訳(メタデータ) (2023-05-23T17:59:46Z) - Mask-Free Video Instance Segmentation [102.50936366583106]
ビデオマスクは面倒で高価なアノテーションで、既存のVISデータセットのスケールと多様性を制限している。
我々は、オブジェクト状態のバウンディングボックスアノテーションのみを使用しながら、非常に競争力のあるVIS性能を実現するMaskFreeVISを提案する。
我々のTK-Lossは、効率的なパッチマッチングステップを経て、フレーム間の一対多のマッチを見つけ、続いてK-アネレスの隣り合う選択を行う。
論文 参考訳(メタデータ) (2023-03-28T11:48:07Z) - DynaMask: Dynamic Mask Selection for Instance Segmentation [21.50329070835023]
我々は,各インスタンスに最適なマスク解像度を選択するために,計算コストを無視できるマスクスイッチモジュール(MSM)を開発した。
提案手法,すなわちDynaMaskは,高い計算オーバーヘッドで,他の最先端技術よりも一貫した,顕著なパフォーマンス向上を実現する。
論文 参考訳(メタデータ) (2023-03-14T13:01:25Z) - MP-Former: Mask-Piloted Transformer for Image Segmentation [16.620469868310288]
Mask2Formerはデコーダ層間の一貫性のないマスク予測に悩まされている。
本手法では,マスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスのマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスをマスマスマスマストした。
論文 参考訳(メタデータ) (2023-03-13T17:57:59Z) - One-Shot Video Inpainting [5.7120338754738835]
ワンショット・ビデオ・インパインティング(OSVI)のための統一パイプラインを提案する。
マスク予測と映像補完をエンドツーエンドで共同学習することにより,タスク全体に対して最適な結果が得られる。
提案手法は,予測マスクをネットワークの内部ガイダンスとして利用できるため,信頼性が高い。
論文 参考訳(メタデータ) (2023-02-28T07:30:36Z) - Object Propagation via Inter-Frame Attentions for Temporally Stable
Video Instance Segmentation [51.68840525174265]
ビデオインスタンスセグメンテーションは、ビデオ内のオブジェクトを検出し、セグメンテーションし、追跡することを目的としている。
現在のアプローチでは、画像レベルのセグメンテーションアルゴリズムを時間領域に拡張している。
本稿では,検出の欠如による問題を解消するビデオインスタンス分割手法を提案する。
論文 参考訳(メタデータ) (2021-11-15T04:15:57Z) - Generating Masks from Boxes by Mining Spatio-Temporal Consistencies in
Videos [159.02703673838639]
フレーム毎のバウンディングボックスアノテーションからセグメンテーションマスクを生成する手法を動画で紹介します。
得られた正確なマスクを用いて、ビデオオブジェクトセグメンテーション(VOS)ネットワークの弱い教師付きトレーニングを行う。
追加データは、VOSとより困難なトラッキングドメインの両方で最先端の結果をもたらす大幅に優れた一般化パフォーマンスを提供します。
論文 参考訳(メタデータ) (2021-01-06T18:56:24Z) - Spatiotemporal Graph Neural Network based Mask Reconstruction for Video
Object Segmentation [70.97625552643493]
本稿では,クラス非依存オブジェクトを半教師あり設定でセグメント化するタスクについて述べる。
提案手法のすべてを利用して局所的なコンテキストを捕捉する新しいグラフニューラルネットワーク(TG-Net)を提案する。
論文 参考訳(メタデータ) (2020-12-10T07:57:44Z) - BlendMask: Top-Down Meets Bottom-Up for Instance Segmentation [103.74690082121079]
本研究では,インスタンスレベルの情報とセマンティックな情報と,低レベルの微細な粒度を効果的に組み合わせることで,マスク予測の改善を実現する。
私たちの主な貢献は、トップダウンとボトムアップの両方のインスタンスセグメンテーションアプローチからインスピレーションを得たブレンダーモジュールです。
BlendMaskは、非常に少ないチャネルで、ピクセルあたりの高密度な位置感受性インスタンス機能を効果的に予測し、単一の畳み込み層で各インスタンスの注意マップを学習することができる。
論文 参考訳(メタデータ) (2020-01-02T03:30:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。