論文の概要: MGMapNet: Multi-Granularity Representation Learning for End-to-End Vectorized HD Map Construction
- arxiv url: http://arxiv.org/abs/2410.07733v1
- Date: Thu, 10 Oct 2024 09:05:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-31 15:15:56.737945
- Title: MGMapNet: Multi-Granularity Representation Learning for End-to-End Vectorized HD Map Construction
- Title(参考訳): MGMapNet: エンドツーエンドベクトル化HDマップ構築のための多粒度表現学習
- Authors: Jing Yang, Minyue Jiang, Sen Yang, Xiao Tan, Yingying Li, Errui Ding, Hanli Wang, Jingdong Wang,
- Abstract要約: 多粒性表現を持つ地図要素をモデル化するためのMGMapNet(Multi-Granularity Map Network)を提案する。
提案したMGMapNetは最先端のパフォーマンスを達成し,MapTRv2 を nuScenes で 5.3 mAP,Argoverse2 で 4.4 mAP で上回った。
- 参考スコア(独自算出の注目度): 75.93907511203317
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The construction of Vectorized High-Definition (HD) map typically requires capturing both category and geometry information of map elements. Current state-of-the-art methods often adopt solely either point-level or instance-level representation, overlooking the strong intrinsic relationships between points and instances. In this work, we propose a simple yet efficient framework named MGMapNet (Multi-Granularity Map Network) to model map element with a multi-granularity representation, integrating both coarse-grained instance-level and fine-grained point-level queries. Specifically, these two granularities of queries are generated from the multi-scale bird's eye view (BEV) features using a proposed Multi-Granularity Aggregator. In this module, instance-level query aggregates features over the entire scope covered by an instance, and the point-level query aggregates features locally. Furthermore, a Point Instance Interaction module is designed to encourage information exchange between instance-level and point-level queries. Experimental results demonstrate that the proposed MGMapNet achieves state-of-the-art performance, surpassing MapTRv2 by 5.3 mAP on nuScenes and 4.4 mAP on Argoverse2 respectively.
- Abstract(参考訳): Vectorized High-Definition (HD) マップの構築には、通常、地図要素のカテゴリ情報と幾何学情報の両方を取得する必要がある。
現在の最先端の手法は、しばしばポイントレベルまたはインスタンスレベルの表現のみを採用し、ポイントとインスタンス間の強い固有の関係を見下ろしている。
本研究では,MGMapNet(Multi-Granularity Map Network)というシンプルなフレームワークを提案する。
具体的には、これらの2つのクエリは、提案したマルチグラニュラリティアグリゲータを用いて、BEV(Multi-scale Bird's Eye View)特徴から生成される。
このモジュールでは、インスタンスレベルのクエリは、インスタンスがカバーするスコープ全体に機能を集約し、ポイントレベルのクエリは、機能をローカルに集約する。
さらに、ポイントインスタンスインタラクションモジュールは、インスタンスレベルとポイントレベルのクエリ間の情報交換を促進するように設計されている。
実験の結果,提案したMGMapNetは, nuScenesでは5.3mAP, Argoverse2では4.4mAP, MapTRv2を5.3mAP以上,最先端性能を実現していることがわかった。
関連論文リスト
- Few-shot Object Localization [37.347898735345574]
本稿では,Few-Shot Object Localization (FSOL) という新しいタスクを定義する。
限られたサンプルで正確な位置決めを実現することを目的としている。
本課題は、少数のラベル付きサポートサンプルを利用して、対応する画像内のオブジェクトの位置情報をクエリすることで、一般化されたオブジェクトのローカライゼーションを実現する。
実験の結果,FSOLタスクにおけるアプローチの大幅な性能向上が示され,さらなる研究のための効率的なベンチマークが確立された。
論文 参考訳(メタデータ) (2024-03-19T05:50:48Z) - Leveraging Enhanced Queries of Point Sets for Vectorized Map Construction [15.324464723174533]
本稿では,オンラインベクトル化マップ構築のためのクエリ機能の向上を重視したエンドツーエンド手法であるMapQRを紹介する。
MapQR はscatter-and-gather クエリと呼ばれる新しいクエリ設計を採用している。
提案したMapQRは,最高平均精度(mAP)を達成し,nuScenesとArgoverse 2.0の両方で良好な効率を維持する。
論文 参考訳(メタデータ) (2024-02-27T11:43:09Z) - M$^3$Net: Multi-view Encoding, Matching, and Fusion for Few-shot
Fine-grained Action Recognition [80.21796574234287]
M$3$Netは、FS-FGアクション認識のためのマッチングベースのフレームワークである。
textitmulti-view エンコーディング、textitmulti-view matching、textitmulti-view fusion を組み込んで、埋め込みエンコーディング、類似性マッチング、意思決定を容易にする。
説明可能な可視化と実験結果により,M$3$Netの微細な動作の詳細を捉える上での優位性が示された。
論文 参考訳(メタデータ) (2023-08-06T09:15:14Z) - Towards accurate instance segmentation in large-scale LiDAR point clouds [17.808580509435565]
パノプティックセグメンテーション(英: Panoptic segmentation)は、セグメンテーションとインスタンスセグメンテーションの組み合わせである。
本研究では,オブジェクトインスタンスへのクラスタリング点に関する汎視的セグメンテーションパイプラインのステップについて検討する。
複数の学習点埋め込みを活用するクラスタリング戦略が,インスタンスのセグメンテーションを大幅に改善することがわかった。
論文 参考訳(メタデータ) (2023-07-06T09:29:03Z) - Hierarchical Matching and Reasoning for Multi-Query Image Retrieval [113.44470784756308]
マルチクエリ画像検索のための階層マッチング・推論ネットワーク(HMRN)を提案する。
MQIRを3つの階層的なセマンティック表現に分解し、きめ細かい局所的な詳細、文脈的グローバルスコープ、高レベルの固有の相関をキャプチャする責任を負う。
我々のHMRNは最先端の手法を大幅に上回っている。
論文 参考訳(メタデータ) (2023-06-26T07:03:56Z) - Part-guided Relational Transformers for Fine-grained Visual Recognition [59.20531172172135]
識別的特徴を学習し,特徴変換モジュールとの相関関係を探索するフレームワークを提案する。
提案手法は,3-of-the-levelオブジェクト認識において,部分ブランチの追加に頼らず,最先端の性能に達する。
論文 参考訳(メタデータ) (2022-12-28T03:45:56Z) - Multistep feature aggregation framework for salient object detection [0.0]
本稿では,有能な物体検出のための多段階特徴集約フレームワークを提案する。
Diverse Reception (DR) モジュール、Multiscale Interaction (MSI) モジュール、Feature Enhancement (FE) モジュールの3つのモジュールで構成されている。
6つのベンチマークデータセットの実験結果は、MSFAが最先端のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2022-11-12T16:13:16Z) - Segmenting Moving Objects via an Object-Centric Layered Representation [100.26138772664811]
深層表現を用いたオブジェクト中心セグメンテーションモデルを提案する。
複数のオブジェクトで合成トレーニングデータを生成するスケーラブルなパイプラインを導入する。
標準的なビデオセグメンテーションベンチマークでモデルを評価する。
論文 参考訳(メタデータ) (2022-07-05T17:59:43Z) - I^3Net: Implicit Instance-Invariant Network for Adapting One-Stage
Object Detectors [64.93963042395976]
暗黙のInstance-Invariant Network(I3Net)は、ワンステージ検出器の適応に適しています。
i3netは、異なる層における深い特徴の自然な特徴を利用してインスタンス不変な特徴を暗黙的に学習する。
実験によると、I3Netはベンチマークデータセットの最先端のパフォーマンスを上回っている。
論文 参考訳(メタデータ) (2021-03-25T11:14:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。