論文の概要: GaussianCaR: Gaussian Splatting for Efficient Camera-Radar Fusion
- arxiv url: http://arxiv.org/abs/2602.08784v1
- Date: Mon, 09 Feb 2026 15:25:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:41.290926
- Title: GaussianCaR: Gaussian Splatting for Efficient Camera-Radar Fusion
- Title(参考訳): GaussianCaR: 効率的なカメラレーダ融合のためのガウススプラッティング
- Authors: Santiago Montiel-Marín, Miguel Antunes-García, Fabio Sánchez-García, Angel Llamazares, Holger Caesar, Luis M. Bergasa,
- Abstract要約: 実験の結果,本手法はBEVセグメンテーションタスクにおける技術状況に匹敵する,あるいは超えた性能を達成できることが示された。
私たちの主な貢献は、BEVセグメンテーションのためのエンドツーエンドネットワークであるGaussianCaRです。
- 参考スコア(独自算出の注目度): 8.829313789934693
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Robust and accurate perception of dynamic objects and map elements is crucial for autonomous vehicles performing safe navigation in complex traffic scenarios. While vision-only methods have become the de facto standard due to their technical advances, they can benefit from effective and cost-efficient fusion with radar measurements. In this work, we advance fusion methods by repurposing Gaussian Splatting as an efficient universal view transformer that bridges the view disparity gap, mapping both image pixels and radar points into a common Bird's-Eye View (BEV) representation. Our main contribution is GaussianCaR, an end-to-end network for BEV segmentation that, unlike prior BEV fusion methods, leverages Gaussian Splatting to map raw sensor information into latent features for efficient camera-radar fusion. Our architecture combines multi-scale fusion with a transformer decoder to efficiently extract BEV features. Experimental results demonstrate that our approach achieves performance on par with, or even surpassing, the state of the art on BEV segmentation tasks (57.3%, 82.9%, and 50.1% IoU for vehicles, roads, and lane dividers) on the nuScenes dataset, while maintaining a 3.2x faster inference runtime. Code and project page are available online.
- Abstract(参考訳): 複雑な交通シナリオにおいて安全なナビゲーションを行う自動運転車にとって、動的オブジェクトとマップ要素のロバストで正確な認識が不可欠である。
視覚のみの手法は技術的進歩によりデファクトスタンダードとなっているが、レーダー計測による効果的で費用効率のよい融合の恩恵を受けることができる。
本研究では,画像画素とレーダポイントの両方を共通のバードアイビュー(BEV)表現にマッピングし,ビューの格差を埋める効率的なユニバーサルビュートランスフォーマーとしてガウススプラッティングを再利用することで,融合法を推し進める。
我々の主な貢献は、BEVセグメンテーションのためのエンドツーエンドネットワークであるGaussianCaRである。これは、従来のBEV融合法とは異なり、Gaussian Splattingを利用して、生センサ情報を潜在機能にマッピングし、効率的なカメラレーダ融合を実現する。
我々のアーキテクチャはマルチスケール融合と変圧器デコーダを組み合わせて効率よくBEV特徴を抽出する。
実験結果から,本手法は,車両,道路,レーンディバイザにおけるBEVセグメンテーションタスク(57.3%,82.9%,50.1%IoU)の精度を3.2倍高速な推論ランタイムを維持しつつ,その性能を達成できた。
コードとプロジェクトページはオンラインで公開されている。
関連論文リスト
- iGaussian: Real-Time Camera Pose Estimation via Feed-Forward 3D Gaussian Splatting Inversion [62.09575122593993]
iGaussianは2段階のフィードフォワードフレームワークで、直接3Dガウス変換によるリアルタイムカメラポーズ推定を実現する。
NeRF Synthetic, Mip-NeRF 360, T&T+DB データセットの実験結果から, 従来の手法に比べて大幅な性能向上が得られた。
論文 参考訳(メタデータ) (2025-11-18T05:22:22Z) - CVFusion: Cross-View Fusion of 4D Radar and Camera for 3D Object Detection [11.109888378081187]
本稿では,CVFusionと呼ばれる2段階間核融合ネットワークを提案する。
第1段階では、高リコール3D提案ボックスを生成するために、レーダ誘導反復(RGIter)BEV融合モジュールを設計する。
第2段階では、各提案のポイント、イメージ、BEVを含む複数の異種ビューから特徴を集約する。
提案手法は,ビュー・オブ・デルフト(VoD)とTJ4DRadSetでそれぞれ9.10%,3.68%のmAP改善を達成し,従来の最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2025-07-07T00:45:53Z) - RaCFormer: Towards High-Quality 3D Object Detection via Query-based Radar-Camera Fusion [58.77329237533034]
本稿では3次元物体検出の精度を高めるために,Raar-Camera fusion transformer (RaCFormer)を提案する。
RaCFormerは、nuScenesデータセット上で64.9% mAPと70.2%の優れた結果を得る。
論文 参考訳(メタデータ) (2024-12-17T09:47:48Z) - SpaRC: Sparse Radar-Camera Fusion for 3D Object Detection [7.889379973011702]
本稿では,マルチビュー画像セマンティクスとレーダとカメラポイント機能を統合した3次元認識のための新しいスパース融合変換器であるSpaRCを提案する。
nuScenes と TruckScenes のベンチマークに関する実証的な評価は、SpaRC が既存の密度の高い BEV ベースおよびスパースクエリベースの検出器より著しく優れていることを示している。
論文 参考訳(メタデータ) (2024-11-29T17:17:38Z) - BEVFusion: Multi-Task Multi-Sensor Fusion with Unified Bird's-Eye View Representation [105.96557764248846]
本稿では,汎用マルチタスクマルチセンサ融合フレームワークであるBEVFusionを紹介する。
共有鳥眼ビュー表示空間におけるマルチモーダル特徴を統一する。
3Dオブジェクト検出では1.3%高いmAPとNDS、BEVマップのセグメンテーションでは13.6%高いmIoU、コストは1.9倍である。
論文 参考訳(メタデータ) (2022-05-26T17:59:35Z) - M^2BEV: Multi-Camera Joint 3D Detection and Segmentation with Unified
Birds-Eye View Representation [145.6041893646006]
M$2$BEVは3Dオブジェクトの検出とマップのセグメンテーションを共同で行う統合フレームワークである。
M$2$BEVは、両方のタスクを統一モデルで推論し、効率を向上する。
論文 参考訳(メタデータ) (2022-04-11T13:43:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。