論文の概要: Benchmarking Multi-View BEV Object Detection with Mixed Pinhole and Fisheye Cameras
- arxiv url: http://arxiv.org/abs/2603.27818v1
- Date: Sun, 29 Mar 2026 19:10:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:45.132183
- Title: Benchmarking Multi-View BEV Object Detection with Mixed Pinhole and Fisheye Cameras
- Title(参考訳): ピンホールと魚眼カメラの混在による多視点BEV物体検出のベンチマーク
- Authors: Xiangzhong Liu, Hao Shen,
- Abstract要約: 我々は、KITTI-360をnuScenesフォーマットに変換することで、混合カメラを用いたマルチビューBEV検出ベンチマークを導入する。
本研究は,ゼロショット評価のための修正とnuScenes訓練モデルの微調整の3つの適応を含む。
プロジェクションフリーアーキテクチャは本質的に他のVTMよりも頑丈で,魚眼の歪みに対して有効であることを示す。
- 参考スコア(独自算出の注目度): 5.227238848375275
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Modern autonomous driving systems increasingly rely on mixed camera configurations with pinhole and fisheye cameras for full view perception. However, Bird's-Eye View (BEV) 3D object detection models are predominantly designed for pinhole cameras, leading to performance degradation under fisheye distortion. To bridge this gap, we introduce a multi-view BEV detection benchmark with mixed cameras by converting KITTI-360 into nuScenes format. Our study encompasses three adaptations: rectification for zero-shot evaluation and fine-tuning of nuScenes-trained models, distortion-aware view transformation modules (VTMs) via the MEI camera model, and polar coordinate representations to better align with radial distortion. We systematically evaluate three representative BEV architectures, BEVFormer, BEVDet and PETR, across these strategies. We demonstrate that projection-free architectures are inherently more robust and effective against fisheye distortion than other VTMs. This work establishes the first real-data 3D detection benchmark with fisheye and pinhole images and provides systematic adaptation and practical guidelines for designing robust and cost-effective 3D perception systems. The code is available at https://github.com/CesarLiu/FishBEVOD.git.
- Abstract(参考訳): 現代の自律走行システムは、ピンホールと魚眼カメラで視界を完全に認識するカメラ構成にますます依存している。
しかし、Bird's-Eye View (BEV) 3Dオブジェクト検出モデルは、主にピンホールカメラ用に設計されており、魚眼歪みによる性能劣化につながっている。
このギャップを埋めるために、KITTI-360をnuScenesフォーマットに変換することで、混合カメラを用いたマルチビューBEV検出ベンチマークを導入する。
本研究は, ゼロショット評価の補正と nuScenes-trained model の微調整, MEI カメラモデルによる歪み認識ビュー変換モジュール (VTM) , 偏極座標表現の3つの適応を含む。
これらの戦略により,BEVFormer,BEVDet,PETRの3つの代表的BEVアーキテクチャを体系的に評価した。
プロジェクションフリーアーキテクチャは本質的に他のVTMよりも頑丈で,魚眼の歪みに対して有効であることを示す。
本研究は,魚眼画像とピンホール画像を用いた最初の実データ3D検出ベンチマークを確立し,ロバストで費用対効果の高い3D知覚システムを設計するための体系的適応と実践的ガイドラインを提供する。
コードはhttps://github.com/CesarLiu/FishBEVOD.gitで公開されている。
関連論文リスト
- UniK3D: Universal Camera Monocular 3D Estimation [62.06785782635153]
カメラをモデル化可能なモノクル3D推定法として,UniK3Dを提案する。
本手法では, 球面3次元表現を導入し, カメラとシーンの形状をよりよく切り離すことができる。
13の多様なデータセットに対する包括的なゼロショット評価は、3D、ディープ、カメラメトリクスにわたるUniK3Dの最先端のパフォーマンスを示している。
論文 参考訳(メタデータ) (2025-03-20T17:49:23Z) - SDGE: Stereo Guided Depth Estimation for 360$^\circ$ Camera Sets [65.64958606221069]
マルチカメラシステムは、360ドル周の知覚を達成するために、しばしば自律走行に使用される。
360ドル(約3万3000円)のカメラセットは、しばしば制限または低品質のオーバーラップ領域を持ち、画像全体に対してマルチビューステレオメソッドを実現する。
重なりの重なりに多視点ステレオ結果を明示的に利用することにより、全画像の深さ推定を強化するステレオガイド深度推定法(SGDE)を提案する。
論文 参考訳(メタデータ) (2024-02-19T02:41:37Z) - Instance-aware Multi-Camera 3D Object Detection with Structural Priors
Mining and Self-Boosting Learning [93.71280187657831]
カメラによる鳥眼視(BEV)知覚パラダイムは、自律運転分野において大きな進歩を遂げている。
画像平面のインスタンス認識をBEV検出器内の深度推定プロセスに統合するIA-BEVを提案する。
論文 参考訳(メタデータ) (2023-12-13T09:24:42Z) - Towards Generalizable Multi-Camera 3D Object Detection via Perspective
Debiasing [28.874014617259935]
マルチカメラ3Dオブジェクト検出(MC3D-Det)は,鳥眼ビュー(BEV)の出現によって注目されている。
本研究では,3次元検出と2次元カメラ平面との整合性を両立させ,一貫した高精度な検出を実現する手法を提案する。
論文 参考訳(メタデータ) (2023-10-17T15:31:28Z) - Depth Estimation Analysis of Orthogonally Divergent Fisheye Cameras with
Distortion Removal [0.0]
伝統的なステレオビジョンシステムは、視野が限られているため、特定のシナリオには適さないかもしれない。
魚眼カメラは、ステレオマッチングと深さ推定の精度に影響を与えるエッジの歪みを生じさせる。
本稿では,ステレオビジョンシステムにおける歪み除去・深さ推定法を提案する。
論文 参考訳(メタデータ) (2023-07-07T13:44:12Z) - GeoMIM: Towards Better 3D Knowledge Transfer via Masked Image Modeling
for Multi-view 3D Understanding [42.780417042750315]
マルチビューカメラによる3D検出は、コンピュータビジョンにおいて難しい問題である。
最近の研究は、事前訓練されたLiDAR検出モデルを利用して、知識をカメラベースの学生ネットワークに転送する。
我々は,LiDARモデルの知識を事前学習のパラダイムに伝達するための拡張幾何マスク画像モデリング(GeoMIM)を提案する。
論文 参考訳(メタデータ) (2023-03-20T17:59:03Z) - Towards Model Generalization for Monocular 3D Object Detection [57.25828870799331]
我々は,Mono3Dオブジェクト検出に有効な統合カメラ一般化パラダイム(CGP)を提案する。
また,インスタンスレベルの拡張によりギャップを埋める2D-3D幾何一貫性オブジェクトスケーリング戦略(GCOS)を提案する。
DGMono3Dと呼ばれる手法は、評価された全てのデータセットに対して顕著な性能を達成し、SoTAの教師なしドメイン適応スキームを上回ります。
論文 参考訳(メタデータ) (2022-05-23T23:05:07Z) - Wide-angle Image Rectification: A Survey [86.36118799330802]
広角画像は、基礎となるピンホールカメラモデルに反する歪みを含む。
これらの歪みを補正することを目的とした画像修正は、これらの問題を解決することができる。
本稿では、異なるアプローチで使用されるカメラモデルについて、詳細な説明と議論を行う。
次に,従来の幾何学に基づく画像修正手法と深層学習法の両方について検討する。
論文 参考訳(メタデータ) (2020-10-30T17:28:40Z) - Lightweight Multi-View 3D Pose Estimation through Camera-Disentangled
Representation [57.11299763566534]
空間校正カメラで撮影した多視点画像から3次元ポーズを復元する手法を提案する。
我々は3次元形状を利用して、入力画像をカメラ視点から切り離したポーズの潜在表現に融合する。
アーキテクチャは、カメラプロジェクション演算子に学習した表現を条件付け、ビュー当たりの正確な2次元検出を生成する。
論文 参考訳(メタデータ) (2020-04-05T12:52:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。