論文の概要: Tracking Instances as Queries
- arxiv url: http://arxiv.org/abs/2106.11963v2
- Date: Wed, 23 Jun 2021 15:02:24 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-24 12:08:01.763249
- Title: Tracking Instances as Queries
- Title(参考訳): クエリーとしてインスタンスを追跡する
- Authors: Shusheng Yang, Yuxin Fang, Xinggang Wang, Yu Li, Ying Shan, Bin Feng,
Wenyu Liu
- Abstract要約: textbfQueryTrack(インスタンスをクエリとして追跡する)は、エレガントなアーキテクチャと強力なパフォーマンスを備えた統合クエリベースのVISフレームワークである。
提案手法は、YouTube-VIS 2019 / 2021データセット上で52.7 / 52.3 APを取得し、YouTube-VISチャレンジで2位を獲得した。
- 参考スコア(独自算出の注目度): 43.43478315902866
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, query based deep networks catch lots of attention owing to their
end-to-end pipeline and competitive results on several fundamental computer
vision tasks, such as object detection, semantic segmentation, and instance
segmentation. However, how to establish a query based video instance
segmentation (VIS) framework with elegant architecture and strong performance
remains to be settled. In this paper, we present \textbf{QueryTrack} (i.e.,
tracking instances as queries), a unified query based VIS framework fully
leveraging the intrinsic one-to-one correspondence between instances and
queries in QueryInst. The proposed method obtains 52.7 / 52.3 AP on
YouTube-VIS-2019 / 2021 datasets, which wins the 2-nd place in the YouTube-VIS
Challenge at CVPR 2021 \textbf{with a single online end-to-end model, single
scale testing \& modest amount of training data}. We also provide
QueryTrack-ResNet-50 baseline results on YouTube-VIS-2021 val set as references
for the VIS community.
- Abstract(参考訳): 最近、クエリベースのディープネットワークは、エンドツーエンドパイプラインと、オブジェクト検出、セマンティックセグメンテーション、インスタンスセグメンテーションなど、いくつかの基本的なコンピュータビジョンタスクにおける競合結果のために多くの注目を集めている。
しかし、エレガントなアーキテクチャと強力なパフォーマンスを備えたクエリベースのビデオインスタンスセグメンテーション(VIS)フレームワークの確立方法はまだ解決されていない。
本稿では、QueryInstのインスタンスとクエリの固有の一対一対応をフル活用した統合クエリベースのVISフレームワークである、textbf{QueryTrack}(クエリとしてのインスタンスの追跡)を提案する。
提案手法は,YouTube-VIS-2019 / 2021データセット上で52.7 / 52.3 APを取得し,CVPR 2021 \textbf{ with a single online end-to-end model, single scale testing \& modest amount of training data} で2位を獲得した。
また、VISコミュニティのリファレンスとして、YouTube-VIS-2021 val のQueryTrack-ResNet-50ベースライン結果も提供します。
関連論文リスト
- UVIS: Unsupervised Video Instance Segmentation [65.46196594721545]
ビデオキャプションインスタンスのセグメンテーションには、ビデオフレームをまたいだすべてのオブジェクトの分類、セグメンテーション、追跡が必要である。
UVISは,ビデオアノテーションや高密度ラベルに基づく事前学習を必要とせずに,ビデオインスタンスのセグメンテーションを行うことのできる,新しいUnsupervised Video Instance (UVIS) フレームワークである。
本フレームワークは,フレームレベルの擬似ラベル生成,トランスフォーマーベースのVISモデルトレーニング,クエリベースのトラッキングという3つの重要なステップで構成されている。
論文 参考訳(メタデータ) (2024-06-11T03:05:50Z) - InsPro: Propagating Instance Query and Proposal for Online Video
Instance Segmentation [41.85216306978024]
ビデオインスタンスセグメンテーション(VIS)は、ビデオ内のオブジェクトのセグメンテーションと追跡を目的としている。
以前のメソッドは、まずフレームレベルまたはクリップレベルのオブジェクトインスタンスを生成し、その後、追加のトラッキングヘッドまたは複雑なインスタンスマッチングアルゴリズムによってそれらを関連付ける。
本稿では,オンラインVISのためのシンプルな,高速かつ効果的なクエリベースのフレームワークを設計する。
論文 参考訳(メタデータ) (2023-01-05T02:41:20Z) - A Generalized Framework for Video Instance Segmentation [49.41441806931224]
ビデオインスタンスセグメンテーション(VIS)コミュニティでは,複雑なシーケンスと隠蔽シーケンスによる長いビデオの処理が,新たな課題として浮上している。
我々は、挑戦的なベンチマーク上で最先端のパフォーマンスを達成するための、VISの一般化されたフレームワーク、すなわちGenVISを提案する。
我々は、YouTube-VIS 2019/2021/2022およびOccluded VIS (OVIS)上で、人気VISベンチマークに対する我々のアプローチを評価した。
論文 参考訳(メタデータ) (2022-11-16T11:17:19Z) - STC: Spatio-Temporal Contrastive Learning for Video Instance
Segmentation [47.28515170195206]
ビデオインスタンス(VIS)は、ビデオ内の分類、セグメンテーション、インスタンスアソシエーションを同時に必要とするタスクである。
最近のVISアプローチは、RoI関連の操作や3D畳み込みなど、この目標を達成するために洗練されたパイプラインに依存している。
本稿では,インスタンスセグメンテーション手法であるConInstをベースとした,シンプルで効率的な単一ステージVISフレームワークを提案する。
論文 参考訳(メタデータ) (2022-02-08T09:34:26Z) - Occluded Video Instance Segmentation: Dataset and ICCV 2021 Challenge [133.80567761430584]
我々はOVISと呼ばれる大規模データセットを収集し、隠されたシナリオでビデオインスタンスのセグメンテーションを行う。
OVISは296kの高品質のインスタンスマスクと901の隠蔽シーンで構成されている。
全てのベースライン法は、強吸収対象群で約80%の性能低下に遭遇する。
論文 参考訳(メタデータ) (2021-11-15T17:59:03Z) - QueryInst: Parallelly Supervised Mask Query for Instance Segmentation [53.5613957875507]
本稿では,動的マスクヘッドの並列監視によるクエリベースインスタンスセグメンテーション手法であるqueryinstを提案する。
COCO、CityScapes、YouTube-VISの3つの挑戦的なベンチマークについて広範な実験を行っています。
QueryInstは、すべてのオンラインVISアプローチの中で最高のパフォーマンスを達成し、十分なスピード精度のトレードオフを打ち負かす。
論文 参考訳(メタデータ) (2021-05-05T08:38:25Z) - End-to-End Video Instance Segmentation with Transformers [84.17794705045333]
ビデオインスタンスセグメンテーション(ビデオインスタンスセグメンテーション、英: Video instance segmentation、VIS)は、ビデオに関心のあるオブジェクトインスタンスを同時に分類、セグメンテーション、追跡することを必要とするタスクである。
本稿では,Transformer上に構築された新しいビデオインスタンスセグメンテーションフレームワークVisTRを提案する。
初めて、Transformers上に構築されたよりシンプルで高速なビデオインスタンスセグメンテーションフレームワークをデモし、競争力のある精度を実現した。
論文 参考訳(メタデータ) (2020-11-30T02:03:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。