論文の概要: FlexMap: Generalized HD Map Construction from Flexible Camera Configurations
- arxiv url: http://arxiv.org/abs/2601.22376v1
- Date: Thu, 29 Jan 2026 22:41:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 18:28:15.105246
- Title: FlexMap: Generalized HD Map Construction from Flexible Camera Configurations
- Title(参考訳): FlexMap: フレキシブルカメラ構成による一般的なHDマップの構築
- Authors: Run Wang, Chaoyi Zhou, Amir Salarpour, Xi Liu, Zhi-Qi Cheng, Feng Luo, Mert D. Pesé, Siyu Huang,
- Abstract要約: ハイデフィニション(HD)マップは、自律運転システムのための道路構造について重要な意味情報を提供する。
現在のHDマップ構築法では、キャリブレーションされたマルチカメラのセットアップと暗黙的または明示的な2D-to-BEV変換が必要である。
我々は、特定のNカメラリグに固定された以前のメソッドとは異なり、FlexMapを導入します。
- 参考スコア(独自算出の注目度): 29.3161377210518
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: High-definition (HD) maps provide essential semantic information of road structures for autonomous driving systems, yet current HD map construction methods require calibrated multi-camera setups and either implicit or explicit 2D-to-BEV transformations, making them fragile when sensors fail or camera configurations vary across vehicle fleets. We introduce FlexMap, unlike prior methods that are fixed to a specific N-camera rig, our approach adapts to variable camera configurations without any architectural changes or per-configuration retraining. Our key innovation eliminates explicit geometric projections by using a geometry-aware foundation model with cross-frame attention to implicitly encode 3D scene understanding in feature space. FlexMap features two core components: a spatial-temporal enhancement module that separates cross-view spatial reasoning from temporal dynamics, and a camera-aware decoder with latent camera tokens, enabling view-adaptive attention without the need for projection matrices. Experiments demonstrate that FlexMap outperforms existing methods across multiple configurations while maintaining robustness to missing views and sensor variations, enabling more practical real-world deployment.
- Abstract(参考訳): ハイデフィニション(HD)マップは、自律走行システムのための道路構造に関する重要な意味情報を提供するが、現在のHDマップ構築手法では、キャリブレーションされたマルチカメラのセットアップが必要であり、暗黙または明示的な2D-to-BEV変換が必要である。
我々は、特定のNカメラリグに固定された以前のメソッドとは異なり、FlexMapを導入します。
特徴空間における3次元シーン理解を暗黙的に符号化するために、フレーム間注目の幾何認識基盤モデルを用いることにより、目に見える幾何学的プロジェクションを排除した。
FlexMapは2つのコアコンポーネントを備えている: 空間的時間的拡張モジュールで、時間的ダイナミクスから横方向の空間的推論を分離する。
実験によると、FlexMapは既存のメソッドを複数の構成で上回り、ビューやセンサーのバリエーションの欠如に対して堅牢性を維持し、より実用的な実世界のデプロイを可能にしている。
関連論文リスト
- A Unified 3D Object Perception Framework for Real-Time Outside-In Multi-Camera Systems [16.644881371951175]
大規模インフラ環境向けに最適化されたSparse4Dフレームワークを提案する。
我々は、NVIDIA COSMOSフレームワークを使用して、Sim2Realドメインギャップを橋渡しする生成データ拡張戦略を採用している。
AI City Challenge 2025ベンチマークに基づいて、我々のカメラのみのフレームワークは、最先端のHOTAの45.22ドルを達成した。
論文 参考訳(メタデータ) (2026-01-15T19:31:37Z) - ViewMorpher3D: A 3D-aware Diffusion Framework for Multi-Camera Novel View Synthesis in Autonomous Driving [20.935790354765604]
画像拡散モデルに基づく多視点画像拡張フレームワークであるViewMorpher3Dを紹介する。
シングルビューのアプローチとは異なり、ViewMorpher3Dはカメラのポーズに条件付けされた一連のレンダリングビュー、幾何学的先行3D、時間的に隣接または空間的に重複する参照ビューを共同で処理する。
我々のフレームワークは、様々なカメラとフレキシブルな参照/ターゲットビュー構成に対応しており、多様なセンサー設定に適応できる。
論文 参考訳(メタデータ) (2026-01-12T13:44:14Z) - WorldMirror: Universal 3D World Reconstruction with Any-Prior Prompting [51.69408870574092]
汎用的な3次元幾何予測タスクのためのオールインワンフィードフォワードモデルであるWorldMirrorを提案する。
我々のフレームワークは、カメラのポーズ、内在性、深度マップなど、様々な幾何学的先入観を柔軟に統合する。
WorldMirrorは、カメラ、ポイントマップ、深さ、表面正規推定から新しいビュー合成に至るまで、さまざまなベンチマークで最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-10-12T17:59:09Z) - XYZCylinder: Feedforward Reconstruction for Driving Scenes Based on A Unified Cylinder Lifting Method [27.213339282749885]
統一シリンダリフト法に基づくフィードフォワードモデルである textbfXYZ Cylinder を提案する。
具体的には、視点に依存した空間対応の学習を避けるため、UCCM(Unified Cylinder Camera Modeling)戦略を設計する。
再構成精度を向上させるために,新たに設計されたCylinder Plane Feature Groupに基づく複数の専用モジュールを用いたハイブリッド表現を提案する。
論文 参考訳(メタデータ) (2025-10-09T06:58:03Z) - MapAnything: Universal Feed-Forward Metric 3D Reconstruction [63.79151976126576]
MapAnythingは1つ以上の画像を取り込み、カメラの内在性、ポーズ、深さ、部分的な再構築など、任意の幾何学的入力を行う。
そして、メーター3Dシーンの幾何学とカメラを直接補強する。
MapAnythingは、単一のフィードフォワードパスで幅広い3Dビジョンタスクに対処する。
論文 参考訳(メタデータ) (2025-09-16T18:00:14Z) - Visual Geometry Grounded Deep Structure From Motion [20.203320509695306]
本稿では,各コンポーネントが完全に微分可能で,エンドツーエンドでトレーニング可能な,新しいディープパイプラインVGGSfMを提案する。
まず, 深部2次元点追跡の最近の進歩をベースとして, 画素精度の高いトラックを抽出し, ペアマッチングのチェーン化の必要性を解消する。
私たちは、CO3D、IMC Phototourism、ETH3Dという3つの一般的なデータセットで最先端のパフォーマンスを達成しました。
論文 参考訳(メタデータ) (2023-12-07T18:59:52Z) - AutoDecoding Latent 3D Diffusion Models [95.7279510847827]
本稿では,3次元オートデコーダをコアとした静的・明瞭な3次元アセットの生成に対して,新しいアプローチを提案する。
3D Autodecoderフレームワークは、ターゲットデータセットから学んだプロパティを潜時空間に埋め込む。
次に、適切な中間体積潜在空間を特定し、ロバストな正規化と非正規化演算を導入する。
論文 参考訳(メタデータ) (2023-07-07T17:59:14Z) - Vid2Curve: Simultaneous Camera Motion Estimation and Thin Structure
Reconstruction from an RGB Video [90.93141123721713]
ワイヤーフレーム彫刻、フェンス、ケーブル、電力線、木の枝などの細い構造は現実世界では一般的である。
従来の画像ベースや深度ベースの再構築手法を用いて3Dデジタルモデルを入手することは極めて困難である。
ハンドヘルドカメラで撮影したカラービデオから,カメラの動きを同時に推定し,複雑な3次元薄膜構造の形状を高品質に再構成する手法を提案する。
論文 参考訳(メタデータ) (2020-05-07T10:39:20Z) - Lightweight Multi-View 3D Pose Estimation through Camera-Disentangled
Representation [57.11299763566534]
空間校正カメラで撮影した多視点画像から3次元ポーズを復元する手法を提案する。
我々は3次元形状を利用して、入力画像をカメラ視点から切り離したポーズの潜在表現に融合する。
アーキテクチャは、カメラプロジェクション演算子に学習した表現を条件付け、ビュー当たりの正確な2次元検出を生成する。
論文 参考訳(メタデータ) (2020-04-05T12:52:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。