論文の概要: Spatial Feature Calibration and Temporal Fusion for Effective One-stage
Video Instance Segmentation
- arxiv url: http://arxiv.org/abs/2104.05606v1
- Date: Tue, 6 Apr 2021 09:26:58 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-04 10:07:03.558386
- Title: Spatial Feature Calibration and Temporal Fusion for Effective One-stage
Video Instance Segmentation
- Title(参考訳): 効果的なワンステージビデオインスタンス分割のための空間的特徴校正と時間融合
- Authors: Minghan Li, Shuai Li, Lida Li and Lei Zhang
- Abstract要約: 本稿では,空間キャリブレーションと時間融合による一段階ビデオインスタンスセグメンテーションフレームワークであるstmaskを提案する。
YouTube-VIS検証セットの実験では、提案されたSTMaskとResNet-50/-101のバックボーンが33.5 %/36.8 %のマスクAPを取得し、ビデオインスタンスセグメンテーションでは28.6 / 23.4 FPSを達成した。
- 参考スコア(独自算出の注目度): 16.692219644392253
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Modern one-stage video instance segmentation networks suffer from two
limitations. First, convolutional features are neither aligned with anchor
boxes nor with ground-truth bounding boxes, reducing the mask sensitivity to
spatial location. Second, a video is directly divided into individual frames
for frame-level instance segmentation, ignoring the temporal correlation
between adjacent frames. To address these issues, we propose a simple yet
effective one-stage video instance segmentation framework by spatial
calibration and temporal fusion, namely STMask. To ensure spatial feature
calibration with ground-truth bounding boxes, we first predict regressed
bounding boxes around ground-truth bounding boxes, and extract features from
them for frame-level instance segmentation. To further explore temporal
correlation among video frames, we aggregate a temporal fusion module to infer
instance masks from each frame to its adjacent frames, which helps our
framework to handle challenging videos such as motion blur, partial occlusion
and unusual object-to-camera poses. Experiments on the YouTube-VIS valid set
show that the proposed STMask with ResNet-50/-101 backbone obtains 33.5 % /
36.8 % mask AP, while achieving 28.6 / 23.4 FPS on video instance segmentation.
The code is released online https://github.com/MinghanLi/STMask.
- Abstract(参考訳): 現代のワンステージビデオインスタンスセグメンテーションネットワークには2つの制限がある。
まず、畳み込み機能はアンカーボックスや接地ボックスと一致せず、マスクの感度を空間的位置まで低下させる。
第2に、ビデオはフレームレベルのインスタンスセグメンテーションのために個々のフレームに直接分割され、隣接するフレーム間の時間的相関は無視される。
これらの問題に対処するために,空間キャリブレーションと時間融合(STMask)による簡易かつ効果的なワンステージビデオインスタンスセグメンテーションフレームワークを提案する。
地中構造境界ボックスによる空間的特徴キャリブレーションを確保するため,まず地中構造境界ボックスを囲む回帰境界ボックスを予測し,フレームレベルのインスタンスセグメンテーションのために特徴量を抽出する。
ビデオフレーム間の時間的相関を更に探求するため,各フレームから隣接するフレームにインスタンスマスクを推論するための時間的融合モジュールを集約した。
YouTube-VIS検証セットの実験では、提案されたSTMaskとResNet-50/-101のバックボーンが33.5 %/36.8 %のマスクAPを取得し、ビデオインスタンスセグメンテーションでは28.6 / 23.4 FPSを達成した。
コードはhttps://github.com/MinghanLi/STMask.comで公開されている。
関連論文リスト
- You Can Ground Earlier than See: An Effective and Efficient Pipeline for
Temporal Sentence Grounding in Compressed Videos [56.676761067861236]
ビデオがトリミングされていない場合、時間的文のグラウンド化は、文問合せに従って目的のモーメントを意味的に見つけることを目的としている。
それまでの優れた作品は、かなり成功したが、それらはデコードされたフレームから抽出されたハイレベルな視覚的特徴にのみ焦点を当てている。
本稿では,圧縮された映像を直接視覚入力として利用する,圧縮された領域のTSGを提案する。
論文 参考訳(メタデータ) (2023-03-14T12:53:27Z) - Consistent Video Instance Segmentation with Inter-Frame Recurrent
Attention [23.72098615213679]
ビデオインスタンスセグメンテーションは、各フレームのオブジェクトセグメンテーションマスクの予測と、複数のフレームでインスタンスを関連付けることを目的としている。
最近のエンドツーエンドビデオインスタンスセグメンテーション手法は、直接並列シーケンスデコード/予測フレームワークにおいて、オブジェクトセグメンテーションとインスタンスアソシエーションを一緒に行うことができる。
本稿では,隣接するフレームの時間的インスタンス一貫性とグローバルな時間的コンテキストの両方をモデル化するために,フレーム間リカレントアテンションを用いた一貫したエンドツーエンドビデオインスタンスセグメンテーションフレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-14T17:22:55Z) - Tag-Based Attention Guided Bottom-Up Approach for Video Instance
Segmentation [83.13610762450703]
ビデオインスタンスは、ビデオシーケンス全体にわたるオブジェクトインスタンスのセグメンテーションと追跡を扱う、基本的なコンピュータビジョンタスクである。
そこで本研究では,従来の領域プロモーター方式ではなく,画素レベルの粒度でインスタンスマスク予測を実現するための,単純なエンドツーエンドのボトムアップ方式を提案する。
提案手法は,YouTube-VIS と DAVIS-19 のデータセット上での競合結果を提供する。
論文 参考訳(メタデータ) (2022-04-22T15:32:46Z) - One-stage Video Instance Segmentation: From Frame-in Frame-out to
Clip-in Clip-out [15.082477136581153]
ビデオクリップの時間情報を利用するクリップインクリップアウト(CiCo)フレームワークを提案する。
CiCo戦略は条件付きフレームアライメントが不要で、既存のFiFoベースのVISアプローチに簡単に組み込むことができる。
2つの新しい1段VISモデルは37.7.3%、35.2/35.4%、17.2/1%のマスクAPを達成した。
論文 参考訳(メタデータ) (2022-03-12T12:23:21Z) - Hybrid Tracker with Pixel and Instance for Video Panoptic Segmentation [50.62685357414904]
ビデオパノプティカル係数(VPS)は、コヒーレントなパノプティカルセグメンテーションを生成し、ビデオフレーム全体の全ピクセルのアイデンティティを追跡することを目的としている。
単一トラッカーの限界を取り除くために,軽量かつ共同的な追跡モデルであるHybridTrackerを提案する。
総合的な実験により、HybridTrackerはCityscapes-VPSとVIPERデータセットの最先端メソッドよりも優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-03-02T16:21:55Z) - Object Propagation via Inter-Frame Attentions for Temporally Stable
Video Instance Segmentation [51.68840525174265]
ビデオインスタンスセグメンテーションは、ビデオ内のオブジェクトを検出し、セグメンテーションし、追跡することを目的としている。
現在のアプローチでは、画像レベルのセグメンテーションアルゴリズムを時間領域に拡張している。
本稿では,検出の欠如による問題を解消するビデオインスタンス分割手法を提案する。
論文 参考訳(メタデータ) (2021-11-15T04:15:57Z) - Video Instance Segmentation by Instance Flow Assembly [23.001856276175506]
箱のない特徴を扱うボトムアップ手法は、フレーム間の正確な空間的相関を提供する。
フレーム間の相関関係をよりよくエンコードするための時間的コンテキスト融合モジュールを備えたフレームワークを提案する。
実験により、提案手法は、挑戦的なYoutube-VISデータセット上で、最先端のオンライン手法(画像レベルの入力を取る)よりも優れていることが示された。
論文 参考訳(メタデータ) (2021-10-20T14:49:28Z) - Contextual Guided Segmentation Framework for Semi-supervised Video
Instance Segmentation [20.174393465900156]
ビデオインスタンスのセグメンテーションを3つのパスで行うためのContextual Guided (CGS) フレームワークを提案する。
最初のパス、すなわちプレビューセグメンテーションでは、各インスタンスの主特性を推定するためにインスタンス再識別フローを提案します。
第2のパス、すなわちコンテキストセグメンテーションでは、複数のコンテキストセグメンテーションスキームを導入する。
DAVIS Test-Challengeデータセットを用いて実験を行い,提案手法の有効性を実証した。
論文 参考訳(メタデータ) (2021-06-07T04:16:50Z) - Weakly Supervised Instance Segmentation for Videos with Temporal Mask
Consistency [28.352140544936198]
弱い教師付きインスタンスセグメンテーションは、モデルのトレーニングに必要なアノテーションのコストを削減します。
画像ではなく弱いラベル付きビデオでトレーニングすることで,これらの問題に対処できることを示す。
私たちは、弱い教師付きインスタンスセグメンテーションに取り組むために、これらのビデオ信号の使用を初めて調査しました。
論文 参考訳(メタデータ) (2021-03-23T23:20:46Z) - Generating Masks from Boxes by Mining Spatio-Temporal Consistencies in
Videos [159.02703673838639]
フレーム毎のバウンディングボックスアノテーションからセグメンテーションマスクを生成する手法を動画で紹介します。
得られた正確なマスクを用いて、ビデオオブジェクトセグメンテーション(VOS)ネットワークの弱い教師付きトレーニングを行う。
追加データは、VOSとより困難なトラッキングドメインの両方で最先端の結果をもたらす大幅に優れた一般化パフォーマンスを提供します。
論文 参考訳(メタデータ) (2021-01-06T18:56:24Z) - SipMask: Spatial Information Preservation for Fast Image and Video
Instance Segmentation [149.242230059447]
SipMaskと呼ばれる高速な単一ステージインスタンス分割法を提案する。
検出されたバウンディングボックスの異なるサブリージョンにインスタンスのマスク予測を分離することで、インスタンス固有の空間情報を保存する。
リアルタイム機能の面では、SipMaskはYOLACTを、同様の設定で3.0%(マスクAP)という絶対的なゲインで上回ります。
論文 参考訳(メタデータ) (2020-07-29T12:21:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。