論文の概要: BEVCALIB: LiDAR-Camera Calibration via Geometry-Guided Bird's-Eye View Representations
- arxiv url: http://arxiv.org/abs/2506.02587v1
- Date: Tue, 03 Jun 2025 08:07:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:35.421223
- Title: BEVCALIB: LiDAR-Camera Calibration via Geometry-Guided Bird's-Eye View Representations
- Title(参考訳): BEVCALIB:LiDAR-Camera Calibration by Geometry-Guided Bird's-Eye View Representations
- Authors: Weiduo Yuan, Jerry Li, Justin Yue, Divyank Shah, Konstantinos Karydis, Hang Qiu,
- Abstract要約: 本稿では,鳥眼ビュー(BEV)機能を用いて,生データからLiDARカメラキャリブレーションを行う最初のモデルを提案する。
本稿では,トランスフォーメーションデコーダの最も重要な特徴をフィルタする新しい特徴セレクタを提案する。
様々なノイズ条件下では、BEVCALIBは文学において最高のベースラインを上回っている。
- 参考スコア(独自算出の注目度): 14.042288504857934
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Accurate LiDAR-camera calibration is fundamental to fusing multi-modal perception in autonomous driving and robotic systems. Traditional calibration methods require extensive data collection in controlled environments and cannot compensate for the transformation changes during the vehicle/robot movement. In this paper, we propose the first model that uses bird's-eye view (BEV) features to perform LiDAR camera calibration from raw data, termed BEVCALIB. To achieve this, we extract camera BEV features and LiDAR BEV features separately and fuse them into a shared BEV feature space. To fully utilize the geometric information from the BEV feature, we introduce a novel feature selector to filter the most important features in the transformation decoder, which reduces memory consumption and enables efficient training. Extensive evaluations on KITTI, NuScenes, and our own dataset demonstrate that BEVCALIB establishes a new state of the art. Under various noise conditions, BEVCALIB outperforms the best baseline in the literature by an average of (47.08%, 82.32%) on KITTI dataset, and (78.17%, 68.29%) on NuScenes dataset, in terms of (translation, rotation), respectively. In the open-source domain, it improves the best reproducible baseline by one order of magnitude. Our code and demo results are available at https://cisl.ucr.edu/BEVCalib.
- Abstract(参考訳): 正確なLiDARカメラキャリブレーションは、自律走行とロボットシステムにおけるマルチモーダル認識を融合させるのに基本である。
従来のキャリブレーション手法では、制御された環境での広範なデータ収集が必要であり、車両/ロボットの動きの変換変化を補うことはできない。
本稿では,鳥眼ビュー(BEV)機能を用いて,BEVCALIBと呼ばれる生データからLiDARカメラキャリブレーションを行う最初のモデルを提案する。
そこで我々は,カメラのBEV特徴とLiDARのBEV特徴を別々に抽出し,それらを共有のBEV特徴空間に融合する。
BEV特徴量から得られる幾何情報をフル活用するために,変換デコーダの最も重要な特徴をフィルタする特徴セレクタを導入し,メモリ消費を低減し,効率的なトレーニングを実現する。
KITTI、NuScenes、および我々のデータセットに関する大規模な評価は、BEVCALIBが新しい最先端技術を確立していることを示している。
様々なノイズ条件下では、BEVCALIBはKITTIデータセットでは平均47.08%、82.32%)、NuScenesデータセットでは78.17%、68.29%(翻訳、回転)で文学において最高のベースラインを上回っている。
オープンソースドメインでは、最高の再現可能なベースラインを1桁改善する。
私たちのコードとデモ結果はhttps://cisl.ucr.edu/BEVCalib.orgで公開されています。
関連論文リスト
- RaCFormer: Towards High-Quality 3D Object Detection via Query-based Radar-Camera Fusion [58.77329237533034]
本稿では3次元物体検出の精度を高めるために,Raar-Camera fusion transformer (RaCFormer)を提案する。
RaCFormerは、nuScenesデータセット上で64.9% mAPと70.2%の優れた結果を得る。
論文 参考訳(メタデータ) (2024-12-17T09:47:48Z) - BEVal: A Cross-dataset Evaluation Study of BEV Segmentation Models for Autonomous Driving [3.4113606473878386]
我々は最先端のBEVセグメンテーションモデルの包括的クロスデータセット評価を行う。
本稿では,カメラやLiDARなどの各種センサがモデルの一般化能力に与える影響について検討する。
論文 参考訳(メタデータ) (2024-08-29T07:49:31Z) - BEV$^2$PR: BEV-Enhanced Visual Place Recognition with Structural Cues [44.96177875644304]
本稿では,鳥眼ビュー(BEV)における構造的手がかりを1台のカメラから活用して,画像に基づく視覚的位置認識(VPR)フレームワークを提案する。
BEV$2$PRフレームワークは、単一のカメラに基づいて視覚的手がかりと空間的認識の両方を持つ複合記述子を生成する。
論文 参考訳(メタデータ) (2024-03-11T10:46:43Z) - DA-BEV: Unsupervised Domain Adaptation for Bird's Eye View Perception [104.87876441265593]
カメラのみのBird's Eye View (BEV)は3次元空間における環境認識に大きな可能性を示した。
非教師なし領域適応型BEVは、様々な未ラベル対象データから効果的に学習するが、まだ未探索である。
DA-BEVは、画像ビュー機能とBEV機能の相補性を利用して、ドメイン適応型BEV課題に対処する、最初のドメイン適応型カメラのみのBEVフレームワークである。
論文 参考訳(メタデータ) (2024-01-13T04:21:24Z) - U-BEV: Height-aware Bird's-Eye-View Segmentation and Neural Map-based Relocalization [81.76044207714637]
GPS受信が不十分な場合やセンサベースのローカライゼーションが失敗する場合、インテリジェントな車両には再ローカライゼーションが不可欠である。
Bird's-Eye-View (BEV)セグメンテーションの最近の進歩は、局所的な景観の正確な推定を可能にする。
本稿では,U-NetにインスパイアされたアーキテクチャであるU-BEVについて述べる。
論文 参考訳(メタデータ) (2023-10-20T18:57:38Z) - BEVFusion4D: Learning LiDAR-Camera Fusion Under Bird's-Eye-View via
Cross-Modality Guidance and Temporal Aggregation [14.606324706328106]
本稿では,LiDARとカメラBEVを生成し,適応的なモダリティ融合を行うためのデュアルブランチフレームワークを提案する。
LiDAR-Guided View Transformer (LGVT) は、BEV空間におけるカメラ表現を効果的に得るように設計されている。
BEVFusion4Dと呼ばれる我々のフレームワークは、3Dオブジェクト検出において最先端の結果を得る。
論文 参考訳(メタデータ) (2023-03-30T02:18:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。