論文の概要: RaGS: Unleashing 3D Gaussian Splatting from 4D Radar and Monocular Cues for 3D Object Detection
- arxiv url: http://arxiv.org/abs/2507.19856v2
- Date: Wed, 30 Jul 2025 05:32:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-31 11:57:45.828203
- Title: RaGS: Unleashing 3D Gaussian Splatting from 4D Radar and Monocular Cues for 3D Object Detection
- Title(参考訳): RaGS:3Dオブジェクト検出のための4Dレーダと単眼クイズから3Dガウスの切り離し
- Authors: Xiaokai Bai, Chenxu Zhou, Lianqing Zheng, Si-Yuan Cao, Jianan Liu, Xiaohan Zhang, Zhengzhuang Zhang, Hui-liang Shen,
- Abstract要約: 4Dミリ波レーダーは、自動運転のための有望なセンサーとして登場した。
4Dレーダーとモノクル画像の両方から有効な3Dオブジェクトを検出することは、依然として課題である。
3次元物体検出における4次元レーダとモノクルキューの融合表現として、3次元ガウススプラッティング(GS)を利用する最初のフレームワークであるRaGSを提案する。
- 参考スコア(独自算出の注目度): 13.02381448154211
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: 4D millimeter-wave radar has emerged as a promising sensor for autonomous driving, but effective 3D object detection from both 4D radar and monocular images remains a challenge. Existing fusion approaches typically rely on either instance-based proposals or dense BEV grids, which either lack holistic scene understanding or are limited by rigid grid structures. To address these, we propose RaGS, the first framework to leverage 3D Gaussian Splatting (GS) as representation for fusing 4D radar and monocular cues in 3D object detection. 3D GS naturally suits 3D object detection by modeling the scene as a field of Gaussians, dynamically allocating resources on foreground objects and providing a flexible, resource-efficient solution. RaGS uses a cascaded pipeline to construct and refine the Gaussian field. It starts with the Frustum-based Localization Initiation (FLI), which unprojects foreground pixels to initialize coarse 3D Gaussians positions. Then, the Iterative Multimodal Aggregation (IMA) fuses semantics and geometry, refining the limited Gaussians to the regions of interest. Finally, the Multi-level Gaussian Fusion (MGF) renders the Gaussians into multi-level BEV features for 3D object detection. By dynamically focusing on sparse objects within scenes, RaGS enable object concentrating while offering comprehensive scene perception. Extensive experiments on View-of-Delft, TJ4DRadSet, and OmniHD-Scenes benchmarks demonstrate its state-of-the-art performance. Code will be released.
- Abstract(参考訳): 4Dミリ波レーダーは自動運転のための有望なセンサーとして登場したが、4Dレーダーとモノクロ画像の両方から有効な3Dオブジェクト検出は依然として課題である。
既存の融合アプローチは、通常、インスタンスベースの提案か密度の高いBEVグリッドに依存し、全体像の理解が欠如しているか、厳密なグリッド構造によって制限されている。
そこで本研究では, 3次元物体検出において, 4次元レーダとモノクルキューを融合させるための表現として, 3次元ガウススプラッティング(GS)を利用する最初のフレームワークであるRaGSを提案する。
3D GSは自然に、シーンをガウスのフィールドとしてモデル化し、前景のオブジェクトに動的にリソースを割り当て、柔軟でリソース効率の良いソリューションを提供する3Dオブジェクト検出に適している。
RaGSはカスケードパイプラインを使用してガウスのフィールドを構築し、洗練する。
これはFrustumベースのLocalization Initiation (FLI)から始まり、3Dガウスの位置を粗い初期化するために前景ピクセルを投影する。
そして、IMA(Iterative Multimodal Aggregation)は意味論と幾何学を融合させ、限定されたガウスを関心のある領域に精製する。
最後に、多レベルガウス核融合(MGF)は、ガウスを3次元物体検出のための多レベルBEVにレンダリングする。
シーン内のスパースオブジェクトに動的にフォーカスすることで、RaGSは、総合的なシーン認識を提供しながら、集中するオブジェクトを可能にする。
View-of-Delft、TJ4DRadSet、OmniHD-Scenesベンチマークに関する大規模な実験は、最先端のパフォーマンスを示している。
コードはリリースされる。
関連論文リスト
- GaussianFormer3D: Multi-Modal Gaussian-based Semantic Occupancy Prediction with 3D Deformable Attention [15.890744831541452]
3Dセマンティック占有予測は、安全で信頼性の高い自動運転を実現するために重要である。
本稿では,3次元変形可能な注意力を利用したマルチモーダルガウスに基づくセマンティック占有予測フレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-15T20:05:08Z) - GaussRender: Learning 3D Occupancy with Gaussian Rendering [86.89653628311565]
GaussRenderは、投影的一貫性を強制することによって3D占有学習を改善するモジュールである。
提案手法は,不整合な2次元プロジェクションを生成する3次元構成をペナライズすることにより,より一貫性のある3次元構造を実現する。
論文 参考訳(メタデータ) (2025-02-07T16:07:51Z) - GaussianAD: Gaussian-Centric End-to-End Autonomous Driving [23.71316979650116]
視覚に基づく自動運転は、十分な性能と低コストのために大きな可能性を秘めている。
既存のほとんどの方法は、決定のために密度の高い表現(例えば鳥の眼図)やスパース表現(例箱)を採用する。
本稿では、ガウス中心のエンドツーエンド自動運転フレームワークを探求し、3Dセマンティックガウスを利用して、そのシーンを広義に記述する。
論文 参考訳(メタデータ) (2024-12-13T18:59:30Z) - PUP 3D-GS: Principled Uncertainty Pruning for 3D Gaussian Splatting [59.277480452459315]
本研究では,視覚的忠実度と前景の細部を高い圧縮比で保持する原理的感度プルーニングスコアを提案する。
また,トレーニングパイプラインを変更することなく,事前訓練した任意の3D-GSモデルに適用可能な複数ラウンドプルーファインパイプラインを提案する。
論文 参考訳(メタデータ) (2024-06-14T17:53:55Z) - GaussianFormer: Scene as Gaussians for Vision-Based 3D Semantic Occupancy Prediction [70.65250036489128]
3Dのセマンティック占有予測は,周囲のシーンの3Dの微細な形状とセマンティックスを得ることを目的としている。
本稿では,3Dシーンを3Dセマンティック・ガウシアンで表現するオブジェクト中心表現を提案する。
GaussianFormerは17.8%から24.8%のメモリ消費しか持たない最先端のメソッドで同等のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-05-27T17:59:51Z) - Semantic Gaussians: Open-Vocabulary Scene Understanding with 3D Gaussian Splatting [27.974762304763694]
セマンティック・ガウシアン(Semantic Gaussians)は,3次元ガウシアン・スプレイティングをベースとした,新しいオープン語彙シーン理解手法である。
既存の手法とは異なり、様々な2次元意味的特徴を3次元ガウスの新たな意味的構成要素にマッピングする多目的投影手法を設計する。
我々は,高速な推論のために,生の3Dガウスから意味成分を直接予測する3Dセマンティックネットワークを構築した。
論文 参考訳(メタデータ) (2024-03-22T21:28:19Z) - SAGD: Boundary-Enhanced Segment Anything in 3D Gaussian via Gaussian Decomposition [66.56357905500512]
3Dガウススプラッティングは、新しいビュー合成のための代替の3D表現として登場した。
SAGDは3D-GSのための概念的にシンプルで効果的な境界拡張パイプラインである。
提案手法は粗い境界問題なく高品質な3Dセグメンテーションを実現し,他のシーン編集作業にも容易に適用できる。
論文 参考訳(メタデータ) (2024-01-31T14:19:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。