論文の概要: QueryInst: Parallelly Supervised Mask Query for Instance Segmentation
- arxiv url: http://arxiv.org/abs/2105.01928v1
- Date: Wed, 5 May 2021 08:38:25 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-06 12:48:29.923476
- Title: QueryInst: Parallelly Supervised Mask Query for Instance Segmentation
- Title(参考訳): QueryInst: インスタンスセグメンテーションのためのParallelly Supervised Mask Query
- Authors: Yuxin Fang, Shusheng Yang, Xinggang Wang, Yu Li, Chen Fang, Ying Shan,
Bin Feng, Wenyu Liu
- Abstract要約: 本稿では,動的マスクヘッドの並列監視によるクエリベースインスタンスセグメンテーション手法であるqueryinstを提案する。
COCO、CityScapes、YouTube-VISの3つの挑戦的なベンチマークについて広範な実験を行っています。
QueryInstは、すべてのオンラインVISアプローチの中で最高のパフォーマンスを達成し、十分なスピード精度のトレードオフを打ち負かす。
- 参考スコア(独自算出の注目度): 53.5613957875507
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, query based object detection frameworks achieve comparable
performance with previous state-of-the-art object detectors. However, how to
fully leverage such frameworks to perform instance segmentation remains an open
problem. In this paper, we present QueryInst, a query based instance
segmentation method driven by parallel supervision on dynamic mask heads. The
key insight of QueryInst is to leverage the intrinsic one-to-one correspondence
in object queries across different stages, as well as one-to-one correspondence
between mask RoI features and object queries in the same stage. This approach
eliminates the explicit multi-stage mask head connection and the proposal
distribution inconsistency issues inherent in non-query based multi-stage
instance segmentation methods. We conduct extensive experiments on three
challenging benchmarks, i.e., COCO, CityScapes, and YouTube-VIS to evaluate the
effectiveness of QueryInst in instance segmentation and video instance
segmentation (VIS) task. Specifically, using ResNet-101-FPN backbone, QueryInst
obtains 48.1 box AP and 42.8 mask AP on COCO test-dev, which is 2 points higher
than HTC in terms of both box AP and mask AP, while runs 2.4 times faster. For
video instance segmentation, QueryInst achieves the best performance among all
online VIS approaches and strikes a decent speed-accuracy trade-off. Code is
available at \url{https://github.com/hustvl/QueryInst}.
- Abstract(参考訳): 近年,クエリベースのオブジェクト検出フレームワークは,従来の最先端オブジェクト検出フレームワークと同等のパフォーマンスを実現している。
しかし、そのようなフレームワークをフル活用してインスタンスセグメンテーションを実行するかは、まだ未解決の問題である。
本稿では,動的マスクヘッドの並列監視によって駆動されるクエリベースのインスタンスセグメンテーション手法であるQueryInstを提案する。
QueryInstの主な洞察は、異なるステージにわたるオブジェクトクエリにおける固有の1対1対応と、同じステージにおけるマスクRoI機能とオブジェクトクエリとの1対1対応を活用することである。
このアプローチは、明示的なマルチステージマスクヘッド接続と、非クエリベースのマルチステージインスタンスセグメンテーションメソッドに固有のプロポーザル分散の不整合問題を排除する。
我々は、インスタンスセグメンテーションとビデオインスタンスセグメンテーション(VIS)タスクにおけるQueryInstの有効性を評価するために、COCO、CityScapes、YouTube-VISの3つの挑戦的ベンチマークについて広範な実験を行った。
具体的には、resnet-101-fpnバックボーンを使用して、coco test-dev上で48.1 box apと42.8 mask apを取得している。
ビデオインスタンスのセグメンテーションでは、QueryInstはすべてのオンラインVISアプローチの中で最高のパフォーマンスを達成し、十分なスピード精度のトレードオフを打ち負かす。
コードは \url{https://github.com/hustvl/QueryInst} で入手できる。
関連論文リスト
- DQFormer: Towards Unified LiDAR Panoptic Segmentation with Decoupled Queries [14.435906383301555]
本稿では,統合ワークフローにセマンティックとインスタンスセグメンテーションを実装するDQFormerという新しいフレームワークを提案する。
具体的には,セマンティクスを用いた情報的クエリを局所化して提案する,疎結合なクエリジェネレータを設計する。
また、クエリ指向マスクデコーダを導入し、対応するセグメンテーションマスクをデコードする。
論文 参考訳(メタデータ) (2024-08-28T14:14:33Z) - A Unified Query-based Paradigm for Camouflaged Instance Segmentation [26.91533966120182]
本稿では,UQFormer と呼ばれるキャモフラージュされたインスタンスセグメンテーションのための,クエリベースの統合型マルチタスク学習フレームワークを提案する。
本モデルでは,インスタンスセグメンテーションをクエリに基づく直接セット予測問題とみなすが,非最大抑圧のような後処理は不要である。
最先端の14のアプローチと比較して、UQFormerは、camouflagedインスタンスセグメンテーションのパフォーマンスを大幅に改善します。
論文 参考訳(メタデータ) (2023-08-14T18:23:18Z) - Learning Equivariant Segmentation with Instance-Unique Querying [47.52528819153683]
我々は、差別的なクエリ埋め込み学習を通じて、クエリベースのモデルを強化する新しいトレーニングフレームワークを考案した。
我々のアルゴリズムは、トレーニングデータセット全体から対応するインスタンスを検索するためにクエリを使用します。
4つの有名なクエリベースのモデルに加えて、トレーニングアルゴリズムは大きなパフォーマンス向上を提供します。
論文 参考訳(メタデータ) (2022-10-03T13:14:00Z) - BURST: A Benchmark for Unifying Object Recognition, Segmentation and
Tracking in Video [58.71785546245467]
複数の既存のベンチマークには、ビデオ内のオブジェクトのトラッキングとセグメンテーションが含まれる。
異なるベンチマークデータセットとメトリクスを使用するため、それらの相互作用はほとんどありません。
高品質なオブジェクトマスクを備えた数千の多様なビデオを含むデータセットであるBURSTを提案する。
すべてのタスクは、同じデータと同等のメトリクスを使って評価されます。
論文 参考訳(メタデータ) (2022-09-25T01:27:35Z) - Mask Encoding for Single Shot Instance Segmentation [97.99956029224622]
マスクエンコーディングに基づくインスタンスセグメンテーション(MEInst)と呼ばれる単純なシングルショットインスタンスセグメンテーションフレームワークを提案する。
二次元マスクを直接予測する代わりに、MEInstはそれをコンパクトで固定的な表現ベクトルに蒸留する。
よりシンプルでフレキシブルな一段階のインスタンスセグメンテーション手法は、競合性能も達成できることを示す。
論文 参考訳(メタデータ) (2020-03-26T02:51:17Z) - SOLOv2: Dynamic and Fast Instance Segmentation [102.15325936477362]
パフォーマンスの高いシンプルで直接的で高速なインスタンスセグメンテーションフレームワークを構築しています。
オブジェクトセグメンタのマスクヘッドを動的に学習することで、さらに一歩前進する。
簡単な直接インスタンス分割システムを示し,高速化と精度の両面において,いくつかの最先端手法より優れていることを示す。
論文 参考訳(メタデータ) (2020-03-23T09:44:21Z) - PointINS: Point-based Instance Segmentation [117.38579097923052]
POI(Point-of-Interest)機能によるインスタンスセグメンテーションにおけるマスク表現は、各インスタンスの高次元マスク機能を学ぶには、計算負荷が重いため、難しい。
本稿では、このマスク表現学習タスクを2つの抽出可能なモジュールに分解するインスタンス認識畳み込みを提案する。
インスタンス認識の畳み込みとともに、単純で実用的なインスタンスセグメンテーションアプローチであるPointINSを提案する。
論文 参考訳(メタデータ) (2020-03-13T08:24:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。