論文の概要: Spatiotemporal Graph Neural Network based Mask Reconstruction for Video
Object Segmentation
- arxiv url: http://arxiv.org/abs/2012.05499v1
- Date: Thu, 10 Dec 2020 07:57:44 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-15 06:39:00.793505
- Title: Spatiotemporal Graph Neural Network based Mask Reconstruction for Video
Object Segmentation
- Title(参考訳): 時空間グラフニューラルネットワークを用いたビデオオブジェクト分割のためのマスク再構成
- Authors: Daizong Liu, Shuangjie Xu, Xiao-Yang Liu, Zichuan Xu, Wei Wei, Pan
Zhou
- Abstract要約: 本稿では,クラス非依存オブジェクトを半教師あり設定でセグメント化するタスクについて述べる。
提案手法のすべてを利用して局所的なコンテキストを捕捉する新しいグラフニューラルネットワーク(TG-Net)を提案する。
- 参考スコア(独自算出の注目度): 70.97625552643493
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper addresses the task of segmenting class-agnostic objects in
semi-supervised setting. Although previous detection based methods achieve
relatively good performance, these approaches extract the best proposal by a
greedy strategy, which may lose the local patch details outside the chosen
candidate. In this paper, we propose a novel spatiotemporal graph neural
network (STG-Net) to reconstruct more accurate masks for video object
segmentation, which captures the local contexts by utilizing all proposals. In
the spatial graph, we treat object proposals of a frame as nodes and represent
their correlations with an edge weight strategy for mask context aggregation.
To capture temporal information from previous frames, we use a memory network
to refine the mask of current frame by retrieving historic masks in a temporal
graph. The joint use of both local patch details and temporal relationships
allow us to better address the challenges such as object occlusion and missing.
Without online learning and fine-tuning, our STG-Net achieves state-of-the-art
performance on four large benchmarks (DAVIS, YouTube-VOS, SegTrack-v2, and
YouTube-Objects), demonstrating the effectiveness of the proposed approach.
- Abstract(参考訳): 本稿では,クラス非依存オブジェクトを半教師あり設定でセグメント化するタスクについて述べる。
従来の検出に基づく手法は比較的優れた性能を示すが、これらの手法は、選択された候補の外で局所パッチの詳細を失う可能性のある、欲求戦略によって最良の提案を抽出する。
本稿では,ビデオオブジェクトセグメンテーションのためのより正確なマスクを再構成するための新しい時空間グラフニューラルネットワーク(STG-Net)を提案する。
空間グラフでは、フレームのオブジェクト提案をノードとして扱い、それらの相関をマスクコンテキストアグリゲーションのためのエッジウェイト戦略で表現する。
過去のフレームから時間情報を取得するために,メモリネットワークを用いて,過去のマスクを時間グラフで検索し,現在のフレームのマスクを洗練する。
局所パッチの詳細と時間的関係の両方を組み合わせることで、オブジェクトの閉塞や欠落といった課題にもっと対処できるのです。
オンライン学習や微調整がなければ、私たちのstg-netは4つの大きなベンチマーク(davis、youtube-vos、segtrack-v2、youtube-objects)で最先端のパフォーマンスを実現します。
関連論文リスト
- Bridge the Points: Graph-based Few-shot Segment Anything Semantically [79.1519244940518]
プレトレーニング技術の最近の進歩により、視覚基礎モデルの能力が向上した。
最近の研究はSAMをFew-shot Semantic segmentation (FSS)に拡張している。
本稿では,グラフ解析に基づく簡易かつ効果的な手法を提案する。
論文 参考訳(メタデータ) (2024-10-09T15:02:28Z) - End-to-end video instance segmentation via spatial-temporal graph neural
networks [30.748756362692184]
ビデオインスタンスセグメンテーションは、イメージインスタンスセグメンテーションをビデオドメインに拡張する難しいタスクである。
既存のメソッドは、検出とセグメンテーションのサブプロブレムにのみシングルフレーム情報に依存するか、別の後処理ステップとしてハンドラートラッキングを使用する。
上述の制限に対処するグラフニューラルネット(GNN)に基づく新しい手法を提案する。
論文 参考訳(メタデータ) (2022-03-07T05:38:08Z) - GP-S3Net: Graph-based Panoptic Sparse Semantic Segmentation Network [1.9949920338542213]
GP-S3Netは提案なしのアプローチであり、オブジェクトを識別するためにオブジェクトの提案は必要ない。
私たちの新しいデザインは、セマンティックな結果を処理する新しいインスタンスレベルのネットワークで構成されています。
GP-S3Netは現在の最先端のアプローチよりも優れていた。
論文 参考訳(メタデータ) (2021-08-18T21:49:58Z) - Target-Aware Object Discovery and Association for Unsupervised Video
Multi-Object Segmentation [79.6596425920849]
本稿では,教師なしビデオマルチオブジェクトセグメンテーションの課題について述べる。
より正確で効率的な時間区分のための新しいアプローチを紹介します。
DAVIS$_17$とYouTube-VISに対する提案手法を評価した結果,セグメント化精度と推論速度の両方において最先端の手法より優れていることが示された。
論文 参考訳(メタデータ) (2021-04-10T14:39:44Z) - Generating Masks from Boxes by Mining Spatio-Temporal Consistencies in
Videos [159.02703673838639]
フレーム毎のバウンディングボックスアノテーションからセグメンテーションマスクを生成する手法を動画で紹介します。
得られた正確なマスクを用いて、ビデオオブジェクトセグメンテーション(VOS)ネットワークの弱い教師付きトレーニングを行う。
追加データは、VOSとより困難なトラッキングドメインの両方で最先端の結果をもたらす大幅に優れた一般化パフォーマンスを提供します。
論文 参考訳(メタデータ) (2021-01-06T18:56:24Z) - Learning Spatio-Appearance Memory Network for High-Performance Visual
Tracking [79.80401607146987]
既存のオブジェクトトラッキングは通常、フレーム間の視覚的ターゲットにマッチするバウンディングボックスベースのテンプレートを学習する。
本稿では,局所時間メモリネットワークを備え,正確な時空間対応を学習するセグメンテーションに基づくトラッキングアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-09-21T08:12:02Z) - Towards Accurate Pixel-wise Object Tracking by Attention Retrieval [50.06436600343181]
本稿では,バックボーンの特徴に対するソフト空間制約を実現するために,アテンション検索ネットワーク(ARN)を提案する。
私たちは40fpsで動作しながら、最近のピクセルワイドオブジェクトトラッキングベンチマークであるVOT 2020に最先端のベンチマークを新たに設定しました。
論文 参考訳(メタデータ) (2020-08-06T16:25:23Z) - Dual Temporal Memory Network for Efficient Video Object Segmentation [42.05305410986511]
ビデオオブジェクト(VOS)の基本的な課題の1つは、時間情報を最大限活用してパフォーマンスを向上する方法である。
本稿では,現在のフレームに先行する短・長期のビデオシーケンス情報を時間記憶として格納するエンド・ツー・エンド・ネットワークを提案する。
我々のネットワークは、短期記憶サブネットワークと長期記憶サブネットワークを含む2つの時間的サブネットワークで構成されている。
論文 参考訳(メタデータ) (2020-03-13T06:07:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。