論文の概要: MapFM: Foundation Model-Driven HD Mapping with Multi-Task Contextual Learning
- arxiv url: http://arxiv.org/abs/2506.15313v1
- Date: Wed, 18 Jun 2025 09:42:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-19 19:35:51.623888
- Title: MapFM: Foundation Model-Driven HD Mapping with Multi-Task Contextual Learning
- Title(参考訳): MapFM:マルチタスクコンテキスト学習による基礎モデル駆動型HDマッピング
- Authors: Leonid Ivanov, Vasily Yuryev, Dmitry Yudin,
- Abstract要約: 自律運転においては、鳥眼ビュー(BEV)におけるHDマップと意味マップは正確な位置決め、計画、意思決定に不可欠である。
本稿では,オンラインベクトル化HDマップ生成のためのMapFMと呼ばれる拡張エンド・ツー・エンドモデルを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In autonomous driving, high-definition (HD) maps and semantic maps in bird's-eye view (BEV) are essential for accurate localization, planning, and decision-making. This paper introduces an enhanced End-to-End model named MapFM for online vectorized HD map generation. We show significantly boost feature representation quality by incorporating powerful foundation model for encoding camera images. To further enrich the model's understanding of the environment and improve prediction quality, we integrate auxiliary prediction heads for semantic segmentation in the BEV representation. This multi-task learning approach provides richer contextual supervision, leading to a more comprehensive scene representation and ultimately resulting in higher accuracy and improved quality of the predicted vectorized HD maps. The source code is available at https://github.com/LIvanoff/MapFM.
- Abstract(参考訳): 自律運転においては、鳥眼ビュー(BEV)におけるHDマップと意味マップは正確な位置決め、計画、意思決定に不可欠である。
本稿では,オンラインベクトル化HDマップ生成のためのMapFMと呼ばれる拡張エンド・ツー・エンドモデルを提案する。
カメラ画像の符号化に強力な基礎モデルを導入することにより,特徴表現の質を著しく向上させる。
モデルによる環境理解をさらに強化し、予測品質を向上させるため、BEV表現にセマンティックセグメンテーションのための補助予測ヘッドを統合する。
このマルチタスク学習アプローチは、よりリッチなコンテキスト管理を提供し、より包括的なシーン表現をもたらし、最終的に予測されたベクトル化されたHDマップの精度と品質が向上する。
ソースコードはhttps://github.com/LIvanoff/MapFM.comで入手できる。
関連論文リスト
- Unified Dense Prediction of Video Diffusion [91.16237431830417]
テキストプロンプトからビデオとその対応するエンティティセグメンテーションと深度マップを同時に生成する統合ネットワークを提案する。
カラーマップを用いて実体マスクと深度マップを表現し,RGBビデオ生成と密集予測を密に統合する。
論文 参考訳(メタデータ) (2025-03-12T12:41:02Z) - TopoSD: Topology-Enhanced Lane Segment Perception with SDMap Prior [70.84644266024571]
我々は、標準定義地図(SDMaps)を見るために知覚モデルを訓練することを提案する。
我々はSDMap要素をニューラル空間マップ表現やインスタンストークンにエンコードし、先行情報のような補完的な特徴を組み込む。
レーンセグメント表現フレームワークに基づいて、モデルはレーン、中心線、およびそれらのトポロジを同時に予測する。
論文 参考訳(メタデータ) (2024-11-22T06:13:42Z) - VQ-Map: Bird's-Eye-View Map Layout Estimation in Tokenized Discrete Space via Vector Quantization [108.68014173017583]
Bird's-eye-view (BEV) マップのレイアウト推定には、エゴ車の周囲の環境要素のセマンティクスを正確に完全に理解する必要がある。
本稿では,Vector Quantized-Variational AutoEncoder (VQ-VAE) に似た生成モデルを用いて,トークン化された離散空間における高レベルのBEVセマンティクスの事前知識を取得することを提案する。
得られたBEVトークンには,異なるBEV要素のセマンティクスを包含したコードブックが組み込まれているため,スパースバックボーン画像特徴と得られたBEVトークンとを直接一致させることができる。
論文 参考訳(メタデータ) (2024-11-03T16:09:47Z) - Progressive Query Refinement Framework for Bird's-Eye-View Semantic Segmentation from Surrounding Images [3.495246564946556]
本稿では, 自律運転のためのバードズ・アイビュー(BEV)セマンティックセマンティックセグメンテーションにMR(Multi-Resolution)の概念を導入する。
本稿では,画像間と特徴レベル間の相互作用を促進する視覚的特徴相互作用ネットワークを提案する。
大規模な実世界のデータセットを用いて、我々のモデルを評価する。
論文 参考訳(メタデータ) (2024-07-24T05:00:31Z) - Map It Anywhere (MIA): Empowering Bird's Eye View Mapping using Large-scale Public Data [3.1968751101341173]
トップダウンのBird's Eye View (BEV)マップは地上ロボットナビゲーションの一般的な表現である。
最近の手法では、ファーストパーソンビュー(FPV)画像からBEVマップを予測することが約束されているが、その一般化可能性は、現在の自動運転車ベースのデータセットによってキャプチャされた小さな領域に限られている。
2つの大規模クラウドソースマッピングプラットフォームを利用することで,よりスケーラブルなマップ予測手法が実現可能であることを示す。
論文 参考訳(メタデータ) (2024-07-11T17:57:22Z) - Multi-view Aggregation Network for Dichotomous Image Segmentation [76.75904424539543]
Dichotomous Image (DIS) は近年,高解像度自然画像からの高精度物体分割に向けて出現している。
既存の手法は、グローバルなローカライゼーションと局所的な洗練を徐々に完了させるために、退屈な複数のエンコーダ・デコーダストリームとステージに依存している。
これに触発されて、我々は多視点オブジェクト認識問題としてdisをモデル化し、擬似多視点アグリゲーションネットワーク(MVANet)を提供する。
一般的なdis-5Kデータセットの実験では、我々のMVANetは精度と速度の両方で最先端の手法を大きく上回っている。
論文 参考訳(メタデータ) (2024-04-11T03:00:00Z) - MV-Map: Offboard HD-Map Generation with Multi-view Consistency [29.797769409113105]
Bird's-eye-view (BEV) の知覚モデルは、人間の労働力が少ない高精細地図(HD-Maps)を構築するのに有用である。
これらの結果は、しばしば信頼できないものであり、異なる視点から予測されたHD-Mapに顕著な矛盾を示す。
本稿では,計算制約を解消する,より実用的な「オフボード」なHDマップ生成機構を提案する。
論文 参考訳(メタデータ) (2023-05-15T17:59:15Z) - BEVerse: Unified Perception and Prediction in Birds-Eye-View for
Vision-Centric Autonomous Driving [92.05963633802979]
マルチカメラシステムに基づく3次元認識と予測のための統合フレームワークであるBEVerseを提案する。
マルチタスクBEVerseは3次元オブジェクト検出,セマンティックマップ構築,動き予測において単一タスク法より優れていることを示す。
論文 参考訳(メタデータ) (2022-05-19T17:55:35Z) - HDMapGen: A Hierarchical Graph Generative Model of High Definition Maps [81.86923212296863]
HDマップは道路路面の正確な定義と交通ルールの豊富な意味を持つ地図である。
実際の道路トポロジやジオメトリはごくわずかで、自動運転スタックをテストする能力は著しく制限されています。
高品質で多様なHDマップを生成可能な階層グラフ生成モデルであるHDMapGenを提案する。
論文 参考訳(メタデータ) (2021-06-28T17:59:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。