論文の概要: Mask2Map: Vectorized HD Map Construction Using Bird's Eye View Segmentation Masks
- arxiv url: http://arxiv.org/abs/2407.13517v3
- Date: Mon, 11 Nov 2024 06:04:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-12 17:14:26.521629
- Title: Mask2Map: Vectorized HD Map Construction Using Bird's Eye View Segmentation Masks
- Title(参考訳): Mask2Map:Bird's Eye View Segmentation Masksを用いたベクトル化HDマップの構築
- Authors: Sehwan Choi, Jungho Kim, Hongjae Shin, Jun Won Choi,
- Abstract要約: 本稿では,自動運転アプリケーション用に設計された,新しいエンドツーエンドのオンラインHDマップ構築手法であるMask2Mapを紹介する。
このアプローチでは、シーン内のマップインスタンスのクラスと順序付けられたポイントセットを予測することに重点を置いています。
Mask2Mapは、従来の最先端メソッドよりも優れたパフォーマンスを実現している。
- 参考スコア(独自算出の注目度): 9.113769643415868
- License:
- Abstract: In this paper, we introduce Mask2Map, a novel end-to-end online HD map construction method designed for autonomous driving applications. Our approach focuses on predicting the class and ordered point set of map instances within a scene, represented in the bird's eye view (BEV). Mask2Map consists of two primary components: the Instance-Level Mask Prediction Network (IMPNet) and the Mask-Driven Map Prediction Network (MMPNet). IMPNet generates Mask-Aware Queries and BEV Segmentation Masks to capture comprehensive semantic information globally. Subsequently, MMPNet enhances these query features using local contextual information through two submodules: the Positional Query Generator (PQG) and the Geometric Feature Extractor (GFE). PQG extracts instance-level positional queries by embedding BEV positional information into Mask-Aware Queries, while GFE utilizes BEV Segmentation Masks to generate point-level geometric features. However, we observed limited performance in Mask2Map due to inter-network inconsistency stemming from different predictions to Ground Truth (GT) matching between IMPNet and MMPNet. To tackle this challenge, we propose the Inter-network Denoising Training method, which guides the model to denoise the output affected by both noisy GT queries and perturbed GT Segmentation Masks. Our evaluation conducted on nuScenes and Argoverse2 benchmarks demonstrates that Mask2Map achieves remarkable performance improvements over previous state-of-the-art methods, with gains of 10.1% mAP and 4.1 mAP, respectively. Our code can be found at https://github.com/SehwanChoi0307/Mask2Map.
- Abstract(参考訳): 本稿では,自動運転アプリケーション用に設計された新しいエンドツーエンドのオンラインHDマップ構築手法であるMask2Mapを紹介する。
本手法は,鳥の眼球図(BEV)で表されるシーン内の地図インスタンスのクラスと順序付けられた点集合を予測することに焦点を当てる。
Mask2Mapは、IMPNet(インスタンスレベルマスク予測ネットワーク)とMMPNet(マスク駆動マップ予測ネットワーク)の2つの主要コンポーネントで構成されている。
IMPNetはMask-Aware QueriesとBEVセグメンテーションマスクを生成し、世界中の包括的なセマンティック情報をキャプチャする。
その後、MMPNetは2つのサブモジュール(PQG)とGeometric Feature Extractor(GFE))を通じて、ローカルなコンテキスト情報を使用して、これらのクエリ機能を強化した。
PQGは、BEV位置情報をMask-Aware Queriesに埋め込んでインスタンスレベルの位置情報を抽出し、GFEはBEVセグメンテーションマスクを使用してポイントレベルの幾何学的特徴を生成する。
しかし,ネットワーク間不整合によるMask2Mapの性能は,IMPNetとMMPNetの整合性(GT)と異なる予測から生じる。
この課題に対処するために、ノイズの多いGTクエリと摂動したGTセグメンテーションマスクの両方によって影響を受ける出力をデノマイズするためのモデルであるInter-network Denoising Training法を提案する。
nuScenes と Argoverse2 のベンチマークによる評価の結果,Mask2Map は従来の最先端手法よりも優れた性能を示し,それぞれ10.1% mAP と 4.1 mAP が得られた。
私たちのコードはhttps://github.com/SehwanChoi0307/Mask2Mapで参照できます。
関連論文リスト
- Bridge the Points: Graph-based Few-shot Segment Anything Semantically [79.1519244940518]
プレトレーニング技術の最近の進歩により、視覚基礎モデルの能力が向上した。
最近の研究はSAMをFew-shot Semantic segmentation (FSS)に拡張している。
本稿では,グラフ解析に基づく簡易かつ効果的な手法を提案する。
論文 参考訳(メタデータ) (2024-10-09T15:02:28Z) - MaskInversion: Localized Embeddings via Optimization of Explainability Maps [49.50785637749757]
MaskInversionは、テスト時にマスクによって指定されたクエリ画像領域に対するコンテキスト認識の埋め込みを生成する。
オープン語彙のクラス検索、表現理解の参照、局所的なキャプションや画像生成など、幅広いタスクに使用することができる。
論文 参考訳(メタデータ) (2024-07-29T14:21:07Z) - MGMap: Mask-Guided Learning for Online Vectorized HD Map Construction [17.16231247910372]
本稿では,情報領域を効果的に強調し,正確な地図要素の局所化を実現するマスク誘導方式MGMapを提案する。
具体的には、MGMapは2つの観点から強化されたマルチスケールBEV機能に基づいて学習マスクを採用する。
ベースラインと比較して,提案したMGMapは,入力モードが異なる場合,約10mAPの顕著な改善を実現している。
論文 参考訳(メタデータ) (2024-04-01T03:13:32Z) - DynaMask: Dynamic Mask Selection for Instance Segmentation [21.50329070835023]
我々は,各インスタンスに最適なマスク解像度を選択するために,計算コストを無視できるマスクスイッチモジュール(MSM)を開発した。
提案手法,すなわちDynaMaskは,高い計算オーバーヘッドで,他の最先端技術よりも一貫した,顕著なパフォーマンス向上を実現する。
論文 参考訳(メタデータ) (2023-03-14T13:01:25Z) - MP-Former: Mask-Piloted Transformer for Image Segmentation [16.620469868310288]
Mask2Formerはデコーダ層間の一貫性のないマスク予測に悩まされている。
本手法では,マスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスのマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスをマスマスマスマストした。
論文 参考訳(メタデータ) (2023-03-13T17:57:59Z) - SODAR: Segmenting Objects by DynamicallyAggregating Neighboring Mask
Representations [90.8752454643737]
最近の最先端のワンステージインスタンスセグメンテーションモデルSOLOは、入力画像をグリッドに分割し、完全な畳み込みネットワークを備えたグリッドセルオブジェクトマスクを直接予測する。
我々は,SOLOが近傍の格子セルの物体に対して類似したマスクを生成するのを観察する。
観測されたギャップによってモチベーションを得た学習ベースのアグリゲーション手法を開発し,そのリッチな隣り合う情報を活用してSOLOを改善する。
論文 参考訳(メタデータ) (2022-02-15T13:53:03Z) - RefineMask: Towards High-Quality Instance Segmentation with Fine-Grained
Features [53.71163467683838]
RefineMaskは、オブジェクトやシーンの高品質なインスタンスセグメンテーションのための新しい方法です。
インスタンス毎のセグメンテーションプロセス中に粒度の細かい機能を多段階的に組み込む。
以前のほとんどのメソッドで過剰にスムースされたオブジェクトの曲がった部分のようなハードケースをセグメンテーションすることに成功します。
論文 参考訳(メタデータ) (2021-04-17T15:09:20Z) - Spatiotemporal Graph Neural Network based Mask Reconstruction for Video
Object Segmentation [70.97625552643493]
本稿では,クラス非依存オブジェクトを半教師あり設定でセグメント化するタスクについて述べる。
提案手法のすべてを利用して局所的なコンテキストを捕捉する新しいグラフニューラルネットワーク(TG-Net)を提案する。
論文 参考訳(メタデータ) (2020-12-10T07:57:44Z) - PointINS: Point-based Instance Segmentation [117.38579097923052]
POI(Point-of-Interest)機能によるインスタンスセグメンテーションにおけるマスク表現は、各インスタンスの高次元マスク機能を学ぶには、計算負荷が重いため、難しい。
本稿では、このマスク表現学習タスクを2つの抽出可能なモジュールに分解するインスタンス認識畳み込みを提案する。
インスタンス認識の畳み込みとともに、単純で実用的なインスタンスセグメンテーションアプローチであるPointINSを提案する。
論文 参考訳(メタデータ) (2020-03-13T08:24:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。