論文の概要: SG-Net: Spatial Granularity Network for One-Stage Video Instance
Segmentation
- arxiv url: http://arxiv.org/abs/2103.10284v1
- Date: Thu, 18 Mar 2021 14:31:15 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-19 13:59:02.846324
- Title: SG-Net: Spatial Granularity Network for One-Stage Video Instance
Segmentation
- Title(参考訳): SG-Net: 一段階ビデオインスタンスセグメンテーションのための空間粒度ネットワーク
- Authors: Dongfang Liu, Yiming Cui, Wenbo Tan, Yingjie Chen
- Abstract要約: ビデオインスタンスセグメンテーション(VIS)はコンピュータビジョンにおける新しい重要なタスクである。
VISのための一段階空間粒度ネットワーク(SG-Net)を提案する。
提案手法は精度と推論速度の両方で性能を向上できることを示す。
- 参考スコア(独自算出の注目度): 7.544917072241684
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video instance segmentation (VIS) is a new and critical task in computer
vision. To date, top-performing VIS methods extend the two-stage Mask R-CNN by
adding a tracking branch, leaving plenty of room for improvement. In contrast,
we approach the VIS task from a new perspective and propose a one-stage spatial
granularity network (SG-Net). Compared to the conventional two-stage methods,
SG-Net demonstrates four advantages: 1) Our method has a one-stage compact
architecture and each task head (detection, segmentation, and tracking) is
crafted interdependently so they can effectively share features and enjoy the
joint optimization; 2) Our mask prediction is dynamically performed on the
sub-regions of each detected instance, leading to high-quality masks of fine
granularity; 3) Each of our task predictions avoids using expensive
proposal-based RoI features, resulting in much reduced runtime complexity per
instance; 4) Our tracking head models objects centerness movements for
tracking, which effectively enhances the tracking robustness to different
object appearances. In evaluation, we present state-of-the-art comparisons on
the YouTube-VIS dataset. Extensive experiments demonstrate that our compact
one-stage method can achieve improved performance in both accuracy and
inference speed. We hope our SG-Net could serve as a strong and flexible
baseline for the VIS task. Our code will be available.
- Abstract(参考訳): ビデオインスタンスセグメンテーション(VIS)はコンピュータビジョンにおける新しい重要なタスクである。
現在、トップパフォーマンスのVISメソッドは、トラッキングブランチを追加して、2段階のMask R-CNNを拡張しており、改善の余地はたくさんある。
対照的に、新しい視点からVISタスクにアプローチし、一段階空間粒度ネットワーク(SG-Net)を提案する。
Compared to the conventional two-stage methods, SG-Net demonstrates four advantages: 1) Our method has a one-stage compact architecture and each task head (detection, segmentation, and tracking) is crafted interdependently so they can effectively share features and enjoy the joint optimization; 2) Our mask prediction is dynamically performed on the sub-regions of each detected instance, leading to high-quality masks of fine granularity; 3) Each of our task predictions avoids using expensive proposal-based RoI features, resulting in much reduced runtime complexity per instance; 4) Our tracking head models objects centerness movements for tracking, which effectively enhances the tracking robustness to different object appearances.
評価では,YouTube-VISデータセットの最先端比較について述べる。
広範にわたる実験により, 1段階のコンパクトな手法が精度と推論速度の両方において, 性能の向上を実現した。
私たちは、SG-NetがVISタスクの強力で柔軟なベースラインになることを期待しています。
私たちのコードは利用可能です。
関連論文リスト
- DynaSeg: A Deep Dynamic Fusion Method for Unsupervised Image Segmentation Incorporating Feature Similarity and Spatial Continuity [0.5755004576310334]
我々は、革新的な教師なしイメージセグメンテーションアプローチであるDynaSegを紹介する。
従来の方法とは異なり、DynaSegは画像の特徴に柔軟に対応する動的重み付け方式を採用している。
DynaSegは、予測されたクラスタ数が1つに収束する可能性のある、過小評価の失敗を防ぐ。
論文 参考訳(メタデータ) (2024-05-09T00:30:45Z) - Solve the Puzzle of Instance Segmentation in Videos: A Weakly Supervised
Framework with Spatio-Temporal Collaboration [13.284951215948052]
ビデオにおけるtextbfS-patiotextbfTemporal textbfClaboration の例を示す。
提案手法は,TrackR-CNN と MaskTrack R-CNN の完全教師付き性能よりも優れる。
論文 参考訳(メタデータ) (2022-12-15T02:44:13Z) - Video Mask Transfiner for High-Quality Video Instance Segmentation [102.50936366583106]
Video Mask Transfiner (VMT) は、高効率なビデオトランス構造により、微細な高解像度機能を利用することができる。
当社のVMTアーキテクチャに基づいて,反復的トレーニングと自己補正による自動アノテーション改善アプローチを設計する。
我々はVMTとHQ-YTVISの最新の最先端手法、Youtube-VIS、OVIS、BDD100K MOTSを比較した。
論文 参考訳(メタデータ) (2022-07-28T11:13:37Z) - A Unified Transformer Framework for Group-based Segmentation:
Co-Segmentation, Co-Saliency Detection and Video Salient Object Detection [59.21990697929617]
人間は、ダイナミックな世界に住んでいるので、画像のグループやビデオのフレームから学ぶことによってオブジェクトをマイニングする傾向があります。
従来のアプローチでは、類似したタスクで異なるネットワークを個別に設計するが、互いに適用するのは困難である。
UFO(UnifiedObject Framework for Co-Object Framework)という,これらの問題に対処するための統一フレームワークを導入する。
論文 参考訳(メタデータ) (2022-03-09T13:35:19Z) - STC: Spatio-Temporal Contrastive Learning for Video Instance
Segmentation [47.28515170195206]
ビデオインスタンス(VIS)は、ビデオ内の分類、セグメンテーション、インスタンスアソシエーションを同時に必要とするタスクである。
最近のVISアプローチは、RoI関連の操作や3D畳み込みなど、この目標を達成するために洗練されたパイプラインに依存している。
本稿では,インスタンスセグメンテーション手法であるConInstをベースとした,シンプルで効率的な単一ステージVISフレームワークを提案する。
論文 参考訳(メタデータ) (2022-02-08T09:34:26Z) - Full-Duplex Strategy for Video Object Segmentation [141.43983376262815]
Full- Strategy Network (FSNet)はビデオオブジェクトセグメンテーション(VOS)のための新しいフレームワークである
我々のFSNetは、融合復号ステージの前に、クロスモーダルな機能パス(すなわち、送信と受信)を同時に実行します。
我々のFSNetは、VOSとビデオの有能なオブジェクト検出タスクの両方において、他の最先端技術よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-08-06T14:50:50Z) - Target-Aware Object Discovery and Association for Unsupervised Video
Multi-Object Segmentation [79.6596425920849]
本稿では,教師なしビデオマルチオブジェクトセグメンテーションの課題について述べる。
より正確で効率的な時間区分のための新しいアプローチを紹介します。
DAVIS$_17$とYouTube-VISに対する提案手法を評価した結果,セグメント化精度と推論速度の両方において最先端の手法より優れていることが示された。
論文 参考訳(メタデータ) (2021-04-10T14:39:44Z) - Learning to Track Instances without Video Annotations [85.9865889886669]
本稿では,ラベル付き画像データセットとラベルなしビデオシーケンスのみを用いたインスタンス追跡ネットワークを学習する,新しい半教師付きフレームワークを提案する。
画像のみを訓練しても,学習した特徴表現は出現の変動にロバストであることが判明した。
さらに、このモジュールを単一ステージのインスタンスセグメンテーションとポーズ推定フレームワークに統合します。
論文 参考訳(メタデータ) (2021-04-01T06:47:41Z) - Visual Object Tracking by Segmentation with Graph Convolutional Network [7.729569666460712]
グラフ畳み込みネットワーク(GCN)モデルを用いて,スーパーピクセルベースのオブジェクトトラッキングを提案する。
提案モデルは,i)ラベル線形予測とi)各スーパーピクセルの構造認識特徴情報を統合した,汎用的なエンドツーエンドフレームワークを提供する。
論文 参考訳(メタデータ) (2020-09-05T12:43:21Z) - Fast Video Object Segmentation With Temporal Aggregation Network and
Dynamic Template Matching [67.02962970820505]
ビデオオブジェクト(VOS)に「トラッキング・バイ・検出」を導入する。
本稿では,時間的アグリゲーションネットワークと動的時間進化テンプレートマッチング機構を提案する。
我々は,DAVISベンチマークで1フレームあたり0.14秒,J&Fで75.9%の速度で,複雑なベルとホイッスルを伴わずに,新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2020-07-11T05:44:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。