論文の概要: SOLQ: Segmenting Objects by Learning Queries
- arxiv url: http://arxiv.org/abs/2106.02351v1
- Date: Fri, 4 Jun 2021 09:03:31 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-07 15:02:25.758285
- Title: SOLQ: Segmenting Objects by Learning Queries
- Title(参考訳): SOLQ: クエリの学習によるオブジェクトのセグメンテーション
- Authors: Bin Dong, Fangao Zeng, Tiancai Wang, Xiangyu Zhang, Yichen Wei
- Abstract要約: SOLQでは、各クエリは1つのオブジェクトを表し、クラス、ロケーション、マスクの複数の表現を持つ。
SOLQは最先端のパフォーマンスを達成でき、既存のアプローチの多くを上回ります。
統合クエリ表現の合同学習は、元のDETRの検出性能を大幅に向上させることができる。
- 参考スコア(独自算出の注目度): 33.02115826341877
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we propose an end-to-end framework for instance segmentation.
Based on the recently introduced DETR [1], our method, termed SOLQ, segments
objects by learning unified queries. In SOLQ, each query represents one object
and has multiple representations: class, location and mask. The object queries
learned perform classification, box regression and mask encoding simultaneously
in an unified vector form. During training phase, the mask vectors encoded are
supervised by the compression coding of raw spatial masks. In inference time,
mask vectors produced can be directly transformed to spatial masks by the
inverse process of compression coding. Experimental results show that SOLQ can
achieve state-of-the-art performance, surpassing most of existing approaches.
Moreover, the joint learning of unified query representation can greatly
improve the detection performance of original DETR. We hope our SOLQ can serve
as a strong baseline for the Transformer-based instance segmentation. Code is
available at https://github.com/megvii-research/SOLQ.
- Abstract(参考訳): 本稿では,インスタンスセグメンテーションのためのエンドツーエンドフレームワークを提案する。
最近導入された DETR [1] に基づいて,SOLQ と呼ばれる手法でオブジェクトを分割し,統一クエリを学習する。
SOLQでは、各クエリは1つのオブジェクトを表し、クラス、ロケーション、マスクの複数の表現を持つ。
学習したオブジェクトクエリは、統一ベクトル形式で、分類、ボックス回帰、マスクエンコーディングを同時に行う。
トレーニングフェーズでは、符号化されたマスクベクトルは、生の空間マスクの圧縮符号化によって監視される。
推測時間において、生成したマスクベクトルは、圧縮符号化の逆過程により直接空間マスクに変換することができる。
実験の結果,SOLQは最先端の性能を達成でき,既存手法のほとんどを超越していることがわかった。
さらに、統一クエリ表現の合同学習により、オリジナルdetrの検出性能が大幅に向上する。
SOLQがTransformerベースのインスタンスセグメンテーションの強力なベースラインになることを期待しています。
コードはhttps://github.com/megvii-research/solqで入手できる。
関連論文リスト
- Shift and matching queries for video semantic segmentation [0.0]
本稿では,問合せに基づく画像分割モデルをビデオに拡張する手法を提案する。
この方法はクエリベースのアーキテクチャを使用し、デコードされたクエリはセグメンテーションマスクを表す。
CityScapes-VPSとVSPWの実験結果は、ベースラインから大きく改善された。
論文 参考訳(メタデータ) (2024-10-10T06:07:33Z) - DQFormer: Towards Unified LiDAR Panoptic Segmentation with Decoupled Queries [14.435906383301555]
本稿では,統合ワークフローにセマンティックとインスタンスセグメンテーションを実装するDQFormerという新しいフレームワークを提案する。
具体的には,セマンティクスを用いた情報的クエリを局所化して提案する,疎結合なクエリジェネレータを設計する。
また、クエリ指向マスクデコーダを導入し、対応するセグメンテーションマスクをデコードする。
論文 参考訳(メタデータ) (2024-08-28T14:14:33Z) - Temporal-aware Hierarchical Mask Classification for Video Semantic
Segmentation [62.275143240798236]
ビデオセマンティックセグメンテーションデータセットは、ビデオ毎のカテゴリが限られている。
VSSトレーニング中に意味のある勾配更新を受けるために、クエリの10%未満がマッチする可能性がある。
提案手法は,最新のVSSベンチマークVSPWにおいてベルやホイッスルを使わずに,最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-09-14T20:31:06Z) - A Unified Query-based Paradigm for Camouflaged Instance Segmentation [26.91533966120182]
本稿では,UQFormer と呼ばれるキャモフラージュされたインスタンスセグメンテーションのための,クエリベースの統合型マルチタスク学習フレームワークを提案する。
本モデルでは,インスタンスセグメンテーションをクエリに基づく直接セット予測問題とみなすが,非最大抑圧のような後処理は不要である。
最先端の14のアプローチと比較して、UQFormerは、camouflagedインスタンスセグメンテーションのパフォーマンスを大幅に改善します。
論文 参考訳(メタデータ) (2023-08-14T18:23:18Z) - Mask Matching Transformer for Few-Shot Segmentation [71.32725963630837]
Mask Matching Transformer (MM-Former) は、少数ショットセグメンテーションタスクのための新しいパラダイムである。
まず、MM-Formerは、まず分解し、次にブレンドするというパラダイムに従う。
一般的なCOCO-20i$とPascal-5i$ベンチマークに関する広範な実験を行っている。
論文 参考訳(メタデータ) (2022-12-05T11:00:32Z) - SOIT: Segmenting Objects with Instance-Aware Transformers [16.234574932216855]
本稿では,SOIT(Segments Objects with Instance-aware Transformer)と呼ばれるエンドツーエンドのインスタンスセグメンテーションフレームワークを提案する。
提案手法では,インスタンスのセグメンテーションを直接セット予測問題とみなし,多数の手作り部品の必要性を効果的に除去する。
MS COCOデータセットの実験結果は、SOITが最先端のインスタンスセグメンテーションアプローチを大幅に上回っていることを示している。
論文 参考訳(メタデータ) (2021-12-21T08:23:22Z) - QueryInst: Parallelly Supervised Mask Query for Instance Segmentation [53.5613957875507]
本稿では,動的マスクヘッドの並列監視によるクエリベースインスタンスセグメンテーション手法であるqueryinstを提案する。
COCO、CityScapes、YouTube-VISの3つの挑戦的なベンチマークについて広範な実験を行っています。
QueryInstは、すべてのオンラインVISアプローチの中で最高のパフォーマンスを達成し、十分なスピード精度のトレードオフを打ち負かす。
論文 参考訳(メタデータ) (2021-05-05T08:38:25Z) - DCT-Mask: Discrete Cosine Transform Mask Representation for Instance
Segmentation [50.70679435176346]
本稿では、離散コサイン変換(DCT)を用いて、高分解能二元格子マスクをコンパクトなベクトルに符号化することで、新しいマスク表現を提案する。
DCT-Maskと呼ばれるこの手法は、ほとんどのピクセルベースのインスタンスセグメンテーション手法に簡単に統合できる。
論文 参考訳(メタデータ) (2020-11-19T15:00:21Z) - Mask Encoding for Single Shot Instance Segmentation [97.99956029224622]
マスクエンコーディングに基づくインスタンスセグメンテーション(MEInst)と呼ばれる単純なシングルショットインスタンスセグメンテーションフレームワークを提案する。
二次元マスクを直接予測する代わりに、MEInstはそれをコンパクトで固定的な表現ベクトルに蒸留する。
よりシンプルでフレキシブルな一段階のインスタンスセグメンテーション手法は、競合性能も達成できることを示す。
論文 参考訳(メタデータ) (2020-03-26T02:51:17Z) - SOLOv2: Dynamic and Fast Instance Segmentation [102.15325936477362]
パフォーマンスの高いシンプルで直接的で高速なインスタンスセグメンテーションフレームワークを構築しています。
オブジェクトセグメンタのマスクヘッドを動的に学習することで、さらに一歩前進する。
簡単な直接インスタンス分割システムを示し,高速化と精度の両面において,いくつかの最先端手法より優れていることを示す。
論文 参考訳(メタデータ) (2020-03-23T09:44:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。