論文の概要: DQFormer: Towards Unified LiDAR Panoptic Segmentation with Decoupled Queries
- arxiv url: http://arxiv.org/abs/2408.15813v1
- Date: Wed, 28 Aug 2024 14:14:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-29 15:40:56.172223
- Title: DQFormer: Towards Unified LiDAR Panoptic Segmentation with Decoupled Queries
- Title(参考訳): DQFormer: 分離クエリによる統一LiDARパノプティブセグメンテーションを目指して
- Authors: Yu Yang, Jianbiao Mei, Liang Liu, Siliang Du, Yilin Xiao, Jongwon Ra, Yong Liu, Xiao Xu, Huifeng Wu,
- Abstract要約: 本稿では,統合ワークフローにセマンティックとインスタンスセグメンテーションを実装するDQFormerという新しいフレームワークを提案する。
具体的には,セマンティクスを用いた情報的クエリを局所化して提案する,疎結合なクエリジェネレータを設計する。
また、クエリ指向マスクデコーダを導入し、対応するセグメンテーションマスクをデコードする。
- 参考スコア(独自算出の注目度): 14.435906383301555
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: LiDAR panoptic segmentation, which jointly performs instance and semantic segmentation for things and stuff classes, plays a fundamental role in LiDAR perception tasks. While most existing methods explicitly separate these two segmentation tasks and utilize different branches (i.e., semantic and instance branches), some recent methods have embraced the query-based paradigm to unify LiDAR panoptic segmentation. However, the distinct spatial distribution and inherent characteristics of objects(things) and their surroundings(stuff) in 3D scenes lead to challenges, including the mutual competition of things/stuff and the ambiguity of classification/segmentation. In this paper, we propose decoupling things/stuff queries according to their intrinsic properties for individual decoding and disentangling classification/segmentation to mitigate ambiguity. To this end, we propose a novel framework dubbed DQFormer to implement semantic and instance segmentation in a unified workflow. Specifically, we design a decoupled query generator to propose informative queries with semantics by localizing things/stuff positions and fusing multi-level BEV embeddings. Moreover, a query-oriented mask decoder is introduced to decode corresponding segmentation masks by performing masked cross-attention between queries and mask embeddings. Finally, the decoded masks are combined with the semantics of the queries to produce panoptic results. Extensive experiments on nuScenes and SemanticKITTI datasets demonstrate the superiority of our DQFormer framework.
- Abstract(参考訳): モノやモノのインスタンスとセマンティックセグメンテーションを共同で実行するLiDAR汎視セグメンテーションは、LiDAR知覚タスクにおいて基本的な役割を果たす。
既存のほとんどのメソッドは、これらの2つのセグメンテーションタスクを明示的に分離し、異なるブランチ(セマンティックブランチとインスタンスブランチ)を利用するが、最近のメソッドでは、LiDARのパノプティクスセグメンテーションを統合するためのクエリベースのパラダイムを取り入れている。
しかし,3次元シーンにおける物体(モノ)とその周囲の空間分布と特徴は,物体・物体の相互競合や分類・分離のあいまいさなどの課題に繋がる。
本稿では,個々の復号化とアンビグジュアリティを緩和するために,個々の復号化と復号化のための本質的な特性に応じて,モノ/スタッフクエリを分離する手法を提案する。
そこで本研究では,統合ワークフローにセマンティックとインスタンスセグメンテーションを実装するDQFormerという新しいフレームワークを提案する。
具体的には,複数レベルのBEV埋め込みを融合させることにより,セマンティクスを用いた情報的クエリを提案するために,分離クエリ生成器を設計する。
さらに、クエリとマスク埋め込み間のマスク交叉アテンションを実行することで、対応するセグメンテーションマスクをデコードするために、クエリ指向マスクデコーダを導入する。
最後に、デコードされたマスクとクエリのセマンティクスを組み合わせて、パンプト結果を生成する。
nuScenesとSemanticKITTIデータセットに関する大規模な実験は、私たちのDQFormerフレームワークの優位性を示しています。
関連論文リスト
- LESS: Label-Efficient and Single-Stage Referring 3D Segmentation [55.06002976797879]
参照3Dは、クエリの文で記述された3Dポイントクラウドから、指定されたオブジェクトのすべてのポイントをセグメントする視覚言語タスクである。
本稿では,LESSと呼ばれるレファレンス3次元パイプラインを提案する。
ScanReferデータセット上での最先端のパフォーマンスは、バイナリラベルのみを使用して、以前の3.7% mIoUの手法を上回ります。
論文 参考訳(メタデータ) (2024-10-17T07:47:41Z) - DOCTR: Disentangled Object-Centric Transformer for Point Scene Understanding [7.470587868134298]
ポイントシーン理解は、現実世界のシーンポイントクラウドを処理する上で難しいタスクです。
最近の最先端の手法はまず各オブジェクトを分割し、次に異なるサブタスクの複数のステージで独立に処理する。
本稿では,オブジェクト中心表現を探索するDECTR(Disentangled Object-Centric TRansformer)を提案する。
論文 参考訳(メタデータ) (2024-03-25T05:22:34Z) - Temporal-aware Hierarchical Mask Classification for Video Semantic
Segmentation [62.275143240798236]
ビデオセマンティックセグメンテーションデータセットは、ビデオ毎のカテゴリが限られている。
VSSトレーニング中に意味のある勾配更新を受けるために、クエリの10%未満がマッチする可能性がある。
提案手法は,最新のVSSベンチマークVSPWにおいてベルやホイッスルを使わずに,最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-09-14T20:31:06Z) - A Unified Query-based Paradigm for Camouflaged Instance Segmentation [26.91533966120182]
本稿では,UQFormer と呼ばれるキャモフラージュされたインスタンスセグメンテーションのための,クエリベースの統合型マルチタスク学習フレームワークを提案する。
本モデルでは,インスタンスセグメンテーションをクエリに基づく直接セット予測問題とみなすが,非最大抑圧のような後処理は不要である。
最先端の14のアプローチと比較して、UQFormerは、camouflagedインスタンスセグメンテーションのパフォーマンスを大幅に改善します。
論文 参考訳(メタデータ) (2023-08-14T18:23:18Z) - A Simple Framework for Open-Vocabulary Segmentation and Detection [85.21641508535679]
我々は,異なるセグメンテーションと検出データセットから共同で学習する,シンプルなオープン語彙検出フレームワークOpenSeeDを提案する。
まず、事前学習されたテキストエンコーダを導入し、視覚概念を2つのタスクにエンコードし、それらの共通意味空間を学習する。
プレトレーニング後,本モデルでは,セグメンテーションと検出の両方において,競争力あるいは強いゼロショット転送性を示す。
論文 参考訳(メタデータ) (2023-03-14T17:58:34Z) - Discovering Object Masks with Transformers for Unsupervised Semantic
Segmentation [75.00151934315967]
MaskDistillは教師なしセマンティックセグメンテーションのための新しいフレームワークである。
我々のフレームワークは、低レベルの画像キューにラッチを付けず、オブジェクト中心のデータセットに限らない。
論文 参考訳(メタデータ) (2022-06-13T17:59:43Z) - Beyond the Prototype: Divide-and-conquer Proxies for Few-shot
Segmentation [63.910211095033596]
少ないショットのセグメンテーションは、少数の濃密なラベル付けされたサンプルのみを与えられた、目に見えないクラスオブジェクトをセグメンテーションすることを目的としている。
分割・分散の精神において, 単純かつ多目的な枠組みを提案する。
提案手法は、DCP(disvision-and-conquer proxies)と呼ばれるもので、適切な信頼性のある情報の開発を可能にする。
論文 参考訳(メタデータ) (2022-04-21T06:21:14Z) - SOLO: A Simple Framework for Instance Segmentation [84.00519148562606]
インスタンスカテゴリ"は、インスタンスの場所に応じて、インスタンス内の各ピクセルにカテゴリを割り当てる。
SOLO"は、強力なパフォーマンスを備えたインスタンスセグメンテーションのための、シンプルで、直接的で、高速なフレームワークです。
提案手法は, 高速化と精度の両面から, 実例分割の最先端結果を実現する。
論文 参考訳(メタデータ) (2021-06-30T09:56:54Z) - Hierarchical Lov\'asz Embeddings for Proposal-free Panoptic Segmentation [25.065380488503262]
State-of-the-the-art panoptic segmentation法は、タスクごとに異なるストリームを持つ複雑なモデルを使用する。
本稿では,インスタンスレベルとカテゴリレベルの識別情報を同時に符号化する画素単位の特徴ベクトルである階層型Lov'asz Embeddingsを提案する。
提案手法は,Cityscapes,COCO,Mapillary Vistasにおける従来の提案不要のパノプティクスセグメンテーション法と比較して,最先端の結果が得られる。
論文 参考訳(メタデータ) (2021-06-08T17:43:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。