論文の概要: Look Before You Match: Instance Understanding Matters in Video Object
Segmentation
- arxiv url: http://arxiv.org/abs/2212.06826v1
- Date: Tue, 13 Dec 2022 18:59:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-14 15:05:02.232611
- Title: Look Before You Match: Instance Understanding Matters in Video Object
Segmentation
- Title(参考訳): マッチングの前に見る - ビデオオブジェクトのセグメンテーションにおけるインスタンス理解の問題
- Authors: Junke Wang and Dongdong Chen and Zuxuan Wu and Chong Luo and Chuanxin
Tang and Xiyang Dai and Yucheng Zhao and Yujia Xie and Lu Yuan and Yu-Gang
Jiang
- Abstract要約: 本稿では,ビデオオブジェクトセグメンテーション(VOS)におけるインスタンスの重要性について論じる。
本稿では,クエリベースのインスタンスセグメンテーション(IS)ブランチを現在のフレームのインスタンス詳細に分割し,VOSブランチをメモリバンクと時空間マッチングする,VOS用の2分岐ネットワークを提案する。
我々は、ISブランチから十分に学習されたオブジェクトクエリを使用して、インスタンス固有の情報をクエリキーに注入し、インスタンス拡張マッチングをさらに実行します。
- 参考スコア(独自算出の注目度): 114.57723592870097
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Exploring dense matching between the current frame and past frames for
long-range context modeling, memory-based methods have demonstrated impressive
results in video object segmentation (VOS) recently. Nevertheless, due to the
lack of instance understanding ability, the above approaches are oftentimes
brittle to large appearance variations or viewpoint changes resulted from the
movement of objects and cameras. In this paper, we argue that instance
understanding matters in VOS, and integrating it with memory-based matching can
enjoy the synergy, which is intuitively sensible from the definition of VOS
task, \ie, identifying and segmenting object instances within the video.
Towards this goal, we present a two-branch network for VOS, where the
query-based instance segmentation (IS) branch delves into the instance details
of the current frame and the VOS branch performs spatial-temporal matching with
the memory bank. We employ the well-learned object queries from IS branch to
inject instance-specific information into the query key, with which the
instance-augmented matching is further performed. In addition, we introduce a
multi-path fusion block to effectively combine the memory readout with
multi-scale features from the instance segmentation decoder, which incorporates
high-resolution instance-aware features to produce final segmentation results.
Our method achieves state-of-the-art performance on DAVIS 2016/2017 val (92.6%
and 87.1%), DAVIS 2017 test-dev (82.8%), and YouTube-VOS 2018/2019 val (86.3%
and 86.3%), outperforming alternative methods by clear margins.
- Abstract(参考訳): 長期コンテキストモデリングのための現在のフレームと過去のフレームの密マッチングを探索するメモリベース手法は,近年,ビデオオブジェクトセグメンテーション(VOS)において顕著な結果を示した。
それでも、インスタンス理解能力の欠如により、上記のアプローチは、しばしばオブジェクトやカメラの移動によって生じる大きな外観の変化や視点の変化に対して脆弱である。
本稿では、VOSにおけるインスタンス理解の問題と、それをメモリベースのマッチングに統合することで、VOSタスクの定義から直感的に理解できる相乗効果を享受し、ビデオ内のオブジェクトインスタンスを識別し、セグメンテーションすることができることを論じる。
この目標に向けて,クエリベースのインスタンスセグメンテーション(IS)ブランチを現在のフレームのインスタンス詳細に分割し,VOSブランチをメモリバンクと時空間マッチングする,VOS用の2分岐ネットワークを提案する。
私たちは、インスタンス固有の情報をクエリキーに注入するために、isブランチからよく学習されたオブジェクトクエリを使用します。
さらに、メモリ読み出しとインスタンスセグメンテーションデコーダのマルチスケール機能とを効果的に組み合わせたマルチパス融合ブロックを導入し、最終的なセグメンテーション結果を生成する。
DAVIS 2016/2017 val (92.6%, 87.1%), DAVIS 2017 test-dev (82.8%), YouTube-VOS 2018/2019 val (86.3%, 86.3%) の最先端性能を達成し, 明確なマージンによる代替手法よりも優れていた。
関連論文リスト
- Context-Aware Video Instance Segmentation [12.71520768233772]
本稿では,コンテキスト対応型ビデオインスタンス(CAVIS)について紹介する。
本研究では、コンテキスト認識型インスタンス追跡装置(CAIT)を提案する。これは、インスタンスを取り巻くコンテキストデータをコアインスタンス機能とマージすることで、トラッキング精度を向上させる。
また,PCC(Prototypeal Cross-frame Contrastive)ロスを導入し,フレーム間のオブジェクトレベルの特徴の整合性を確保する。
論文 参考訳(メタデータ) (2024-07-03T11:11:16Z) - Training-Free Robust Interactive Video Object Segmentation [82.05906654403684]
対話型ビデオオブジェクトセグメンテーション(I-PT)のためのトレーニングフリープロンプトトラッキングフレームワークを提案する。
スパースポイントとボックストラッキングを共同で採用し、不安定なポイントをフィルタリングし、オブジェクトワイズ情報をキャプチャします。
我々のフレームワークは、人気のあるVOSデータセット上で、ゼロショットビデオセグメンテーションの堅牢な結果を示してきた。
論文 参考訳(メタデータ) (2024-06-08T14:25:57Z) - DeVOS: Flow-Guided Deformable Transformer for Video Object Segmentation [0.4487265603408873]
DeVOS(Deformable VOS)は,メモリベースマッチングと移動誘導伝搬を組み合わせたビデオオブジェクトのアーキテクチャである。
DAVIS 2017 val と test-dev (88.1%, 83.0%), YouTube-VOS 2019 val (86.6%) でトップランクを達成した。
論文 参考訳(メタデータ) (2024-05-11T14:57:22Z) - Video Object Segmentation with Dynamic Query Modulation [23.811776213359625]
オブジェクトとマルチオブジェクトセグメンテーションのためのクエリ変調手法QMVOSを提案する。
提案手法は,メモリベースSVOS法を大幅に改善し,標準SVOSベンチマーク上での競合性能を実現する。
論文 参考訳(メタデータ) (2024-03-18T07:31:39Z) - VISAGE: Video Instance Segmentation with Appearance-Guided Enhancement [39.154059294954614]
オンラインビデオインスタンス (VIS) 法は、強力なクエリベースの検出器によって著しく進歩している。
しかし,これらの手法は位置情報に大きく依存していることが観察された。
本稿では,トラッカーにおける物体マッチングの鍵軸は外観情報であり,位置的手がかりが不十分な状況下では,その特徴を識別する上で非常に指導的になることを示す。
論文 参考訳(メタデータ) (2023-12-08T07:48:03Z) - Joint Modeling of Feature, Correspondence, and a Compressed Memory for
Video Object Segmentation [52.11279360934703]
現在のビデオオブジェクト(VOS)メソッドは通常、特徴抽出後のカレントフレームと参照フレームの密マッチングを実行する。
本稿では,特徴量,対応性,圧縮メモリの3要素を共同モデリングするための統合VOSフレームワークであるJointFormerを提案する。
論文 参考訳(メタデータ) (2023-08-25T17:30:08Z) - Region Aware Video Object Segmentation with Deep Motion Modeling [56.95836951559529]
Region Aware Video Object (RAVOS) は、効率的なオブジェクトセグメンテーションとメモリストレージのための関心領域を予測する手法である。
効率的なセグメンテーションのために、ROIに応じてオブジェクトの特徴を抽出し、オブジェクトレベルのセグメンテーションのためにオブジェクトデコーダを設計する。
効率的なメモリ記憶のために,2つのフレーム間のオブジェクトの移動経路内の特徴を記憶することで,冗長なコンテキストをフィルタリングする動作パスメモリを提案する。
論文 参考訳(メタデータ) (2022-07-21T01:44:40Z) - Tag-Based Attention Guided Bottom-Up Approach for Video Instance
Segmentation [83.13610762450703]
ビデオインスタンスは、ビデオシーケンス全体にわたるオブジェクトインスタンスのセグメンテーションと追跡を扱う、基本的なコンピュータビジョンタスクである。
そこで本研究では,従来の領域プロモーター方式ではなく,画素レベルの粒度でインスタンスマスク予測を実現するための,単純なエンドツーエンドのボトムアップ方式を提案する。
提案手法は,YouTube-VIS と DAVIS-19 のデータセット上での競合結果を提供する。
論文 参考訳(メタデータ) (2022-04-22T15:32:46Z) - End-to-end video instance segmentation via spatial-temporal graph neural
networks [30.748756362692184]
ビデオインスタンスセグメンテーションは、イメージインスタンスセグメンテーションをビデオドメインに拡張する難しいタスクである。
既存のメソッドは、検出とセグメンテーションのサブプロブレムにのみシングルフレーム情報に依存するか、別の後処理ステップとしてハンドラートラッキングを使用する。
上述の制限に対処するグラフニューラルネット(GNN)に基づく新しい手法を提案する。
論文 参考訳(メタデータ) (2022-03-07T05:38:08Z) - CompFeat: Comprehensive Feature Aggregation for Video Instance
Segmentation [67.17625278621134]
ビデオインスタンスのセグメンテーションは、特定のビデオのそれぞれのオブジェクトを検出し、セグメンテーションし、追跡する必要がある複雑なタスクです。
従来のアプローチは、オブジェクトの検出、セグメンテーション、追跡にのみシングルフレーム機能を使用します。
本稿では,時間的および空間的コンテキスト情報を用いて,フレームレベルとオブジェクトレベルでの機能を洗練する新しい包括的特徴集約アプローチ(compfeat)を提案する。
論文 参考訳(メタデータ) (2020-12-07T00:31:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。