論文の概要: DTCLMapper: Dual Temporal Consistent Learning for Vectorized HD Map Construction
- arxiv url: http://arxiv.org/abs/2405.05518v1
- Date: Thu, 9 May 2024 02:58:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-10 14:12:43.953030
- Title: DTCLMapper: Dual Temporal Consistent Learning for Vectorized HD Map Construction
- Title(参考訳): DTCLMapper: ベクトル化HDマップ構築のための2つの時間一貫性学習
- Authors: Siyu Li, Jiacheng Lin, Hao Shi, Jiaming Zhang, Song Wang, You Yao, Zhiyong Li, Kailun Yang,
- Abstract要約: 本稿では,時間的インスタンス整合性と時間的マップ整合性学習に焦点を当てた。
DTCLMapperは、インスタンスの埋め込みとジオメトリマップを組み合わせた、双方向ストリームの時間一貫性学習モジュールである。
良く認識されたベンチマーク実験から,提案したDTCLMapperはベクトル化されたマッピングタスクにおいて最先端のパフォーマンスを達成することが示唆された。
- 参考スコア(独自算出の注目度): 20.6143278960295
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Temporal information plays a pivotal role in Bird's-Eye-View (BEV) driving scene understanding, which can alleviate the visual information sparsity. However, the indiscriminate temporal fusion method will cause the barrier of feature redundancy when constructing vectorized High-Definition (HD) maps. In this paper, we revisit the temporal fusion of vectorized HD maps, focusing on temporal instance consistency and temporal map consistency learning. To improve the representation of instances in single-frame maps, we introduce a novel method, DTCLMapper. This approach uses a dual-stream temporal consistency learning module that combines instance embedding with geometry maps. In the instance embedding component, our approach integrates temporal Instance Consistency Learning (ICL), ensuring consistency from vector points and instance features aggregated from points. A vectorized points pre-selection module is employed to enhance the regression efficiency of vector points from each instance. Then aggregated instance features obtained from the vectorized points preselection module are grounded in contrastive learning to realize temporal consistency, where positive and negative samples are selected based on position and semantic information. The geometry mapping component introduces Map Consistency Learning (MCL) designed with self-supervised learning. The MCL enhances the generalization capability of our consistent learning approach by concentrating on the global location and distribution constraints of the instances. Extensive experiments on well-recognized benchmarks indicate that the proposed DTCLMapper achieves state-of-the-art performance in vectorized mapping tasks, reaching 61.9% and 65.1% mAP scores on the nuScenes and Argoverse datasets, respectively. The source code will be made publicly available at https://github.com/lynn-yu/DTCLMapper.
- Abstract(参考訳): 時間情報はバード・アイビュー(BEV)のシーン理解において重要な役割を担い、視覚情報の空間性を軽減する。
しかし,不特定時間融合法は,ベクトル化高分解(HD)写像を構築する際に特徴冗長性の障壁を引き起こす。
本稿では,ベクトル化されたHDマップの時間的融合を再考し,時間的インスタンスの整合性と時間的マップの整合性学習に着目した。
単一フレームマップにおけるインスタンスの表現を改善するために,新しいメソッドDTCLMapperを導入する。
このアプローチでは、インスタンスの埋め込みとジオメトリマップを組み合わせたデュアルストリーム時整合学習モジュールを使用する。
インスタンス埋め込みコンポーネントでは、時間的インスタンス一貫性学習(ICL)を統合し、ベクターポイントからの一貫性と、ポイントから集約されたインスタンス機能を保証する。
ベクトル化前選択モジュールを用いて各インスタンスからのベクトル点の回帰効率を高める。
そして、ベクトル化された点選択モジュールから得られる集約されたインスタンス特徴を対照的に学習して時間的一貫性を実現し、位置と意味情報に基づいて正と負のサンプルを選択する。
ジオメトリマッピングコンポーネントは、自己教師付き学習で設計されたマップ一貫性学習(MCL)を導入している。
MCLは、インスタンスのグローバルな位置と分布制約に集中することにより、一貫した学習アプローチの一般化能力を高める。
良く認識されたベンチマークに関する大規模な実験は、提案されたDTCLMapperがベクトル化されたマッピングタスクにおける最先端のパフォーマンスを達成し、それぞれ nuScenes と Argoverse のデータセット上で 61.9% と 65.1% mAP のスコアに達したことを示している。
ソースコードはhttps://github.com/lynn-yu/DTCLMapper.comで公開されている。
関連論文リスト
- MGMapNet: Multi-Granularity Representation Learning for End-to-End Vectorized HD Map Construction [75.93907511203317]
多粒性表現を持つ地図要素をモデル化するためのMGMapNet(Multi-Granularity Map Network)を提案する。
提案したMGMapNetは最先端のパフォーマンスを達成し,MapTRv2 を nuScenes で 5.3 mAP,Argoverse2 で 4.4 mAP で上回った。
論文 参考訳(メタデータ) (2024-10-10T09:05:23Z) - STCMOT: Spatio-Temporal Cohesion Learning for UAV-Based Multiple Object Tracking [13.269416985959404]
無人航空機(UAV)ビデオにおける複数物体追跡(MOT)は、コンピュータビジョンにおける多様な用途において重要である。
時空間結合型多目的追跡フレームワーク(STCMOT)を提案する。
歴史的埋め込み機能を用いて,ReIDの表現と検出機能を逐次的にモデル化する。
我々のフレームワークはMOTAとIDF1メトリクスで新しい最先端のパフォーマンスを設定します。
論文 参考訳(メタデータ) (2024-09-17T14:34:18Z) - GenMapping: Unleashing the Potential of Inverse Perspective Mapping for Robust Online HD Map Construction [20.1127163541618]
我々はGenMappingというユニバーサルマップ生成フレームワークを設計した。
このフレームワークは、主および二重補助枝を含む三進的なシナジーアーキテクチャで構築されている。
実験結果の網羅的な配列から,提案手法はセマンティックマッピングとベクトル化マッピングの両方において最先端の手法を超越し,高速な推論速度を維持した。
論文 参考訳(メタデータ) (2024-09-13T10:15:28Z) - TASeg: Temporal Aggregation Network for LiDAR Semantic Segmentation [80.13343299606146]
そこで本稿では, 時系列LiDARアグリゲーション・蒸留(TLAD)アルゴリズムを提案する。
時間画像のフル活用を目的として,カメラFOVを大幅に拡張できるTIAFモジュールを設計した。
また,静的移動スイッチ拡張(SMSA)アルゴリズムを開発し,時間的情報を利用してオブジェクトの動作状態を自由に切り替える。
論文 参考訳(メタデータ) (2024-07-13T03:00:16Z) - Semantics Meets Temporal Correspondence: Self-supervised Object-centric Learning in Videos [63.94040814459116]
自己教師付き手法は、高レベルの意味論と低レベルの時間対応の学習において顕著な進歩を見せている。
融合した意味特徴と対応地図の上に,意味認識型マスキングスロットアテンションを提案する。
我々は、時間的コヒーレントなオブジェクト中心表現を促進するために、セマンティックおよびインスタンスレベルの時間的一貫性を自己スーパービジョンとして採用する。
論文 参考訳(メタデータ) (2023-08-19T09:12:13Z) - EgoVM: Achieving Precise Ego-Localization using Lightweight Vectorized
Maps [9.450650025266379]
本稿では,従来の最先端手法に匹敵するローカライズ精度を実現するエンド・ツー・エンドのローカライズネットワークであるEgoVMを提案する。
我々は、学習可能なセマンティック埋め込みを用いて、マップ要素のセマンティックタイプを符号化し、セマンティックセマンティックセグメンテーションでそれらを監督する。
本研究では,頑健なヒストグラムに基づくポーズ解法を用いて,候補ポーズを徹底的に探索することで最適なポーズを推定する。
論文 参考訳(メタデータ) (2023-07-18T06:07:25Z) - Asynchronously Trained Distributed Topographic Maps [0.0]
分散トレーニングによって特徴マップを生成するために,N$の自律ユニットを用いたアルゴリズムを提案する。
単位の自律性は、分散探索とカスケード駆動の重み更新スキームを組み合わせることで、時間と空間のスパース相互作用によって達成される。
論文 参考訳(メタデータ) (2023-01-20T01:15:56Z) - Learning Implicit Feature Alignment Function for Semantic Segmentation [51.36809814890326]
Implicit Feature Alignment Function (IFA)は、暗黙の神経表現の急速に拡大するトピックにインスパイアされている。
IFAは機能マップを異なるレベルで暗黙的に整列し、任意の解像度でセグメンテーションマップを生成することができることを示す。
提案手法は,様々なアーキテクチャの改善と組み合わせて,一般的なベンチマークにおける最先端の精度のトレードオフを実現する。
論文 参考訳(メタデータ) (2022-06-17T09:40:14Z) - Sparse Instance Activation for Real-Time Instance Segmentation [72.23597664935684]
本稿では,リアルタイムインスタンスセグメンテーションのための概念的・効率的・完全畳み込み型フレームワークを提案する。
SparseInstは非常に高速な推論速度を持ち、COCOベンチマークで40 FPSと37.9 APを達成した。
論文 参考訳(メタデータ) (2022-03-24T03:15:39Z) - Temporal Contrastive Graph Learning for Video Action Recognition and
Retrieval [83.56444443849679]
本研究では,動画内の時間依存性を利用して,TCGL (temporal Contrastive Graph Learning) という新たな自己監督手法を提案する。
TCGLは、スニペット間およびスニペット内時間依存性を時間表現学習のための自己監督信号として共同で評価するハイブリッドグラフコントラスト学習戦略をルーツとしています。
実験結果は、大規模アクション認識およびビデオ検索ベンチマークにおける最先端の方法よりも、TCGLの優位性を示しています。
論文 参考訳(メタデータ) (2021-01-04T08:11:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。