論文の概要: MIC-BEV: Multi-Infrastructure Camera Bird's-Eye-View Transformer with Relation-Aware Fusion for 3D Object Detection
- arxiv url: http://arxiv.org/abs/2510.24688v1
- Date: Tue, 28 Oct 2025 17:49:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-29 15:35:37.31863
- Title: MIC-BEV: Multi-Infrastructure Camera Bird's-Eye-View Transformer with Relation-Aware Fusion for 3D Object Detection
- Title(参考訳): MIC-BEV:3次元物体検出のためのリレー・アウェア・フュージョンを用いたマルチフラクチャーカメラバードアイビュー変換器
- Authors: Yun Zhang, Zhaoliang Zheng, Johnson Liu, Zhiyu Huang, Zewei Zhou, Zonglin Meng, Tianhui Cai, Jiaqi Ma,
- Abstract要約: 我々は,トランスフォーマーをベースとした鳥眼ビュー(BEV)認識フレームワークであるMIC-BEVを紹介した。
トレーニングと評価を支援するため,インフラに基づくオブジェクト検出のための合成データセットM2Iを導入する。
M2Iと実世界のデータセットRoScenesの実験は、3Dオブジェクト検出において、MIC-BEVが最先端のパフォーマンスを達成することを示した。
- 参考スコア(独自算出の注目度): 14.97413385915044
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Infrastructure-based perception plays a crucial role in intelligent transportation systems, offering global situational awareness and enabling cooperative autonomy. However, existing camera-based detection models often underperform in such scenarios due to challenges such as multi-view infrastructure setup, diverse camera configurations, degraded visual inputs, and various road layouts. We introduce MIC-BEV, a Transformer-based bird's-eye-view (BEV) perception framework for infrastructure-based multi-camera 3D object detection. MIC-BEV flexibly supports a variable number of cameras with heterogeneous intrinsic and extrinsic parameters and demonstrates strong robustness under sensor degradation. The proposed graph-enhanced fusion module in MIC-BEV integrates multi-view image features into the BEV space by exploiting geometric relationships between cameras and BEV cells alongside latent visual cues. To support training and evaluation, we introduce M2I, a synthetic dataset for infrastructure-based object detection, featuring diverse camera configurations, road layouts, and environmental conditions. Extensive experiments on both M2I and the real-world dataset RoScenes demonstrate that MIC-BEV achieves state-of-the-art performance in 3D object detection. It also remains robust under challenging conditions, including extreme weather and sensor degradation. These results highlight the potential of MIC-BEV for real-world deployment. The dataset and source code are available at: https://github.com/HandsomeYun/MIC-BEV.
- Abstract(参考訳): インフラに基づく認識は、知的輸送システムにおいて重要な役割を担い、グローバルな状況認識を提供し、協調的な自治を可能にする。
しかし、既存のカメラベース検出モデルは、多視点インフラストラクチャの設定、多様なカメラ構成、劣化した視覚入力、様々な道路レイアウトといった課題により、このようなシナリオでは性能が劣ることが多い。
我々は,トランスフォーマーをベースとした鳥眼ビュー(BEV)認識フレームワークであるMIC-BEVを紹介した。
MIC-BEVは、不均一な内在パラメータと外在パラメータを持つ可変数のカメラを柔軟にサポートし、センサ劣化下で強い堅牢性を示す。
MIC-BEVのグラフ強化融合モジュールは、カメラとBEVセル間の幾何学的関係を利用して、多視点画像の特徴をBEV空間に統合する。
トレーニングと評価を支援するために,多様なカメラ構成,道路レイアウト,環境条件を特徴とする,インフラストラクチャベースのオブジェクト検出のための合成データセットM2Iを導入する。
M2Iと実世界のデータセットRoScenesの大規模な実験により、MIC-BEVが3Dオブジェクト検出において最先端のパフォーマンスを達成することが示された。
また、極度の天候やセンサーの劣化など、困難な状況下でも頑丈である。
これらの結果は、実世界展開におけるMIC-BEVの可能性を強調している。
データセットとソースコードは、https://github.com/HandsomeYun/MIC-BEVで入手できる。
関連論文リスト
- Bridging Perspectives: Foundation Model Guided BEV Maps for 3D Object Detection and Tracking [16.90910171943142]
カメラによる3Dオブジェクトの検出と追跡は、自律運転における認識に不可欠である。
現在の最先端のアプローチは、しばしば視点ビュー(PV)または鳥眼ビュー(BEV)の機能にのみ依存する。
PVとBEVの両方のカメラ画像機能を備えたハイブリッド検出・トラッキングフレームワークであるDualViewDistillを提案する。
論文 参考訳(メタデータ) (2025-10-11T17:01:42Z) - SimBEV: A Synthetic Multi-Task Multi-Sensor Driving Data Generation Tool and Dataset [101.51012770913627]
近年,BEV(Bird's-eye view)の認識は自律運転において大きな注目を集めている。
SimBEVは、広範囲にスケーラブルでスケーラブルなランダム化された合成データ生成ツールである。
SimBEVは、さまざまな運転シナリオからの注釈付き知覚データの大規模なコレクションであるSimBEVデータセットを作成するために使用される。
論文 参考訳(メタデータ) (2025-02-04T00:00:06Z) - OE-BevSeg: An Object Informed and Environment Aware Multimodal Framework for Bird's-eye-view Vehicle Semantic Segmentation [57.2213693781672]
Bird's-eye-view (BEV)セマンティックセマンティックセグメンテーションは自律運転システムにおいて重要である。
本稿では,BEVセグメンテーション性能を向上させるエンドツーエンドマルチモーダルフレームワークであるOE-BevSegを提案する。
提案手法は,車両セグメンテーションのためのnuScenesデータセットにおいて,最先端の成果を大きなマージンで達成する。
論文 参考訳(メタデータ) (2024-07-18T03:48:22Z) - BEV$^2$PR: BEV-Enhanced Visual Place Recognition with Structural Cues [44.96177875644304]
本稿では,鳥眼ビュー(BEV)における構造的手がかりを1台のカメラから活用して,画像に基づく視覚的位置認識(VPR)フレームワークを提案する。
BEV$2$PRフレームワークは、単一のカメラに基づいて視覚的手がかりと空間的認識の両方を持つ複合記述子を生成する。
論文 参考訳(メタデータ) (2024-03-11T10:46:43Z) - DA-BEV: Unsupervised Domain Adaptation for Bird's Eye View Perception [104.87876441265593]
カメラのみのBird's Eye View (BEV)は3次元空間における環境認識に大きな可能性を示した。
非教師なし領域適応型BEVは、様々な未ラベル対象データから効果的に学習するが、まだ未探索である。
DA-BEVは、画像ビュー機能とBEV機能の相補性を利用して、ドメイン適応型BEV課題に対処する、最初のドメイン適応型カメラのみのBEVフレームワークである。
論文 参考訳(メタデータ) (2024-01-13T04:21:24Z) - BEVNeXt: Reviving Dense BEV Frameworks for 3D Object Detection [47.7933708173225]
近年,クエリベースのトランスフォーマーデコーダが登場し,カメラベースの3Dオブジェクト検出が作り直されている。
本稿では,BEVNeXtと呼ばれる高密度BEVフレームワークを紹介する。
nuScenesベンチマークでは、BEVNeXtはBEVベースのフレームワークとクエリベースのフレームワークの両方を上回っている。
論文 参考訳(メタデータ) (2023-12-04T07:35:02Z) - CoBEVT: Cooperative Bird's Eye View Semantic Segmentation with Sparse
Transformers [36.838065731893735]
CoBEVTは、BEVマップ予測を協調的に生成できる最初の汎用マルチエージェント認識フレームワークである。
CoBEVTは協調的BEVセマンティックセグメンテーションのための最先端性能を実現する。
論文 参考訳(メタデータ) (2022-07-05T17:59:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。