論文の概要: InsPro: Propagating Instance Query and Proposal for Online Video
Instance Segmentation
- arxiv url: http://arxiv.org/abs/2301.01882v1
- Date: Thu, 5 Jan 2023 02:41:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-06 13:59:18.757812
- Title: InsPro: Propagating Instance Query and Proposal for Online Video
Instance Segmentation
- Title(参考訳): InsPro: インスタンスクエリの伝搬とオンラインビデオインスタンスセグメンテーションの提案
- Authors: Fei He, Haoyang Zhang, Naiyu Gao, Jian Jia, Yanhu Shan, Xin Zhao,
Kaiqi Huang
- Abstract要約: ビデオインスタンスセグメンテーション(VIS)は、ビデオ内のオブジェクトのセグメンテーションと追跡を目的としている。
以前のメソッドは、まずフレームレベルまたはクリップレベルのオブジェクトインスタンスを生成し、その後、追加のトラッキングヘッドまたは複雑なインスタンスマッチングアルゴリズムによってそれらを関連付ける。
本稿では,オンラインVISのためのシンプルな,高速かつ効果的なクエリベースのフレームワークを設計する。
- 参考スコア(独自算出の注目度): 41.85216306978024
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video instance segmentation (VIS) aims at segmenting and tracking objects in
videos. Prior methods typically generate frame-level or clip-level object
instances first and then associate them by either additional tracking heads or
complex instance matching algorithms. This explicit instance association
approach increases system complexity and fails to fully exploit temporal cues
in videos. In this paper, we design a simple, fast and yet effective
query-based framework for online VIS. Relying on an instance query and proposal
propagation mechanism with several specially developed components, this
framework can perform accurate instance association implicitly. Specifically,
we generate frame-level object instances based on a set of instance
query-proposal pairs propagated from previous frames. This instance
query-proposal pair is learned to bind with one specific object across frames
through conscientiously developed strategies. When using such a pair to predict
an object instance on the current frame, not only the generated instance is
automatically associated with its precursors on previous frames, but the model
gets a good prior for predicting the same object. In this way, we naturally
achieve implicit instance association in parallel with segmentation and
elegantly take advantage of temporal clues in videos. To show the effectiveness
of our method InsPro, we evaluate it on two popular VIS benchmarks, i.e.,
YouTube-VIS 2019 and YouTube-VIS 2021. Without bells-and-whistles, our InsPro
with ResNet-50 backbone achieves 43.2 AP and 37.6 AP on these two benchmarks
respectively, outperforming all other online VIS methods.
- Abstract(参考訳): ビデオインスタンスセグメンテーション(VIS)は、ビデオ内のオブジェクトのセグメンテーションと追跡を目的としている。
従来のメソッドは通常、フレームレベルまたはクリップレベルのオブジェクトインスタンスを生成し、次に追加のトラッキングヘッドまたは複雑なインスタンスマッチングアルゴリズムでそれらを関連付ける。
この明示的なインスタンスアソシエーションアプローチはシステムの複雑さを増大させ、ビデオの時間的手がかりを完全に活用できない。
本稿では,オンラインvisのためのシンプルで高速かつ効果的なクエリベースフレームワークをデザインする。
インスタンスクエリとプロポーザルの伝搬メカニズムをいくつかの特別に開発されたコンポーネントに依存して、このフレームワークは暗黙的に正確なインスタンス関連付けを行うことができる。
具体的には、前のフレームから伝播したインスタンスクエリ-プロポサペアのセットに基づいて、フレームレベルのオブジェクトインスタンスを生成する。
このクエリ-プロソサルペアは、良心的に開発された戦略を通じて、フレームをまたいだ1つの特定のオブジェクトにバインドするように学習される。
このようなペアを使用して現在のフレーム上のオブジェクトインスタンスを予測する場合、生成されたインスタンスは、以前のフレーム上の前駆体と自動的に関連付けられているだけでなく、モデルが同じオブジェクトを予測するための適切な事前情報を得る。
このようにして,セグメンテーションと並行して暗黙のインスタンス関連を自然に達成し,ビデオの時間的手がかりをエレガントに活用する。
InsProの有効性を示すため、YouTube-VIS 2019とYouTube-VIS 2021の2つの人気のあるVISベンチマークで評価した。
ResNet-50のバックボーンを持つ我々のInsProは、これらの2つのベンチマークでそれぞれ43.2 APと37.6 APを達成した。
関連論文リスト
- Look Before You Match: Instance Understanding Matters in Video Object
Segmentation [114.57723592870097]
本稿では,ビデオオブジェクトセグメンテーション(VOS)におけるインスタンスの重要性について論じる。
本稿では,クエリベースのインスタンスセグメンテーション(IS)ブランチを現在のフレームのインスタンス詳細に分割し,VOSブランチをメモリバンクと時空間マッチングする,VOS用の2分岐ネットワークを提案する。
我々は、ISブランチから十分に学習されたオブジェクトクエリを使用して、インスタンス固有の情報をクエリキーに注入し、インスタンス拡張マッチングをさらに実行します。
論文 参考訳(メタデータ) (2022-12-13T18:59:59Z) - Online Video Instance Segmentation via Robust Context Fusion [36.376900904288966]
ビデオインスタンスセグメンテーション(VIS)は、ビデオシーケンス内のオブジェクトインスタンスを分類、セグメンテーション、追跡することを目的としている。
最近のトランスフォーマーベースのニューラルネットワークは、VISタスクのモデリングの強力な能力を実証している。
そこで本稿では,VISをオンライン方式で扱うための堅牢なコンテキスト融合ネットワークを提案する。
論文 参考訳(メタデータ) (2022-07-12T15:04:50Z) - Tag-Based Attention Guided Bottom-Up Approach for Video Instance
Segmentation [83.13610762450703]
ビデオインスタンスは、ビデオシーケンス全体にわたるオブジェクトインスタンスのセグメンテーションと追跡を扱う、基本的なコンピュータビジョンタスクである。
そこで本研究では,従来の領域プロモーター方式ではなく,画素レベルの粒度でインスタンスマスク予測を実現するための,単純なエンドツーエンドのボトムアップ方式を提案する。
提案手法は,YouTube-VIS と DAVIS-19 のデータセット上での競合結果を提供する。
論文 参考訳(メタデータ) (2022-04-22T15:32:46Z) - STC: Spatio-Temporal Contrastive Learning for Video Instance
Segmentation [47.28515170195206]
ビデオインスタンス(VIS)は、ビデオ内の分類、セグメンテーション、インスタンスアソシエーションを同時に必要とするタスクである。
最近のVISアプローチは、RoI関連の操作や3D畳み込みなど、この目標を達成するために洗練されたパイプラインに依存している。
本稿では,インスタンスセグメンテーション手法であるConInstをベースとした,シンプルで効率的な単一ステージVISフレームワークを提案する。
論文 参考訳(メタデータ) (2022-02-08T09:34:26Z) - Hybrid Instance-aware Temporal Fusion for Online Video Instance
Segmentation [23.001856276175506]
本稿では,新しいインスタンス対応時間融合手法を用いたオンラインビデオインスタンスセグメンテーションフレームワークを提案する。
我々のモデルは,全オンラインVIS手法の中で最高の性能を達成している。
論文 参考訳(メタデータ) (2021-12-03T03:37:57Z) - Video Instance Segmentation with a Propose-Reduce Paradigm [68.59137660342326]
ビデオインスタンスセグメンテーション(VIS)は、ビデオ内の各フレームごとに定義されたクラスのすべてのインスタンスをセグメンテーションし、関連付けることを目的とする。
先行メソッドは通常、フレームまたはクリップのセグメンテーションを最初に取得し、追跡またはマッチングによって不完全な結果をマージします。
新しいパラダイムであるPropose-Reduceを提案し、入力ビデオの完全なシーケンスを1ステップで生成します。
論文 参考訳(メタデータ) (2021-03-25T10:58:36Z) - End-to-End Video Instance Segmentation with Transformers [84.17794705045333]
ビデオインスタンスセグメンテーション(ビデオインスタンスセグメンテーション、英: Video instance segmentation、VIS)は、ビデオに関心のあるオブジェクトインスタンスを同時に分類、セグメンテーション、追跡することを必要とするタスクである。
本稿では,Transformer上に構築された新しいビデオインスタンスセグメンテーションフレームワークVisTRを提案する。
初めて、Transformers上に構築されたよりシンプルで高速なビデオインスタンスセグメンテーションフレームワークをデモし、競争力のある精度を実現した。
論文 参考訳(メタデータ) (2020-11-30T02:03:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。