論文の概要: RaGS: Unleashing 3D Gaussian Splatting from 4D Radar and Monocular Cues for 3D Object Detection
- arxiv url: http://arxiv.org/abs/2507.19856v3
- Date: Sat, 08 Nov 2025 15:42:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 14:56:00.029394
- Title: RaGS: Unleashing 3D Gaussian Splatting from 4D Radar and Monocular Cues for 3D Object Detection
- Title(参考訳): RaGS:3Dオブジェクト検出のための4Dレーダと単眼クイズから3Dガウスの切り離し
- Authors: Xiaokai Bai, Chenxu Zhou, Lianqing Zheng, Si-Yuan Cao, Jianan Liu, Xiaohan Zhang, Yiming Li, Zhengzhuang Zhang, Hui-liang Shen,
- Abstract要約: 提案するRaGSは,3次元ガウス散乱を利用して4次元レーダとモノクラーキューを融合して3次元物体検出を行うフレームワークである。
RaGSはオブジェクト中心の精度と総合的なシーン認識を実現する。
- 参考スコア(独自算出の注目度): 22.546559563539272
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: 4D millimeter-wave radar is a promising sensing modality for autonomous driving, yet effective 3D object detection from 4D radar and monocular images remains challenging. Existing fusion approaches either rely on instance proposals lacking global context or dense BEV grids constrained by rigid structures, lacking a flexible and adaptive representation for diverse scenes. To address this, we propose RaGS, the first framework that leverages 3D Gaussian Splatting (GS) to fuse 4D radar and monocular cues for 3D object detection. 3D GS models the scene as a continuous field of Gaussians, enabling dynamic resource allocation to foreground objects while maintaining flexibility and efficiency. Moreover, the velocity dimension of 4D radar provides motion cues that help anchor and refine the spatial distribution of Gaussians. Specifically, RaGS adopts a cascaded pipeline to construct and progressively refine the Gaussian field. It begins with Frustum-based Localization Initiation (FLI), which unprojects foreground pixels to initialize coarse Gaussian centers. Then, Iterative Multimodal Aggregation (IMA) explicitly exploits image semantics and implicitly integrates 4D radar velocity geometry to refine the Gaussians within regions of interest. Finally, Multi-level Gaussian Fusion (MGF) renders the Gaussian field into hierarchical BEV features for 3D object detection. By dynamically focusing on sparse and informative regions, RaGS achieves object-centric precision and comprehensive scene perception. Extensive experiments on View-of-Delft, TJ4DRadSet, and OmniHD-Scenes demonstrate its robustness and SOTA performance. Code will be released.
- Abstract(参考訳): 4Dミリ波レーダーは自動運転には有望な検知モードであるが、4Dレーダーとモノクロ画像からの効果的な3Dオブジェクト検出は依然として困難である。
既存の融合アプローチは、グローバルコンテキストの欠如や、剛体構造に制約された密集したBEVグリッドの欠如、多様なシーンに対する柔軟な適応表現の欠如のいずれかに依存している。
この問題を解決するために,3次元ガウス散乱(GS)を利用した最初のフレームワークであるRaGSを提案する。
3D GSは、このシーンをガウスの連続したフィールドとしてモデル化し、柔軟性と効率性を維持しながら、オブジェクトのフォアグラウンドに動的リソース割り当てを可能にする。
さらに、4次元レーダーの速度次元は、ガウスの空間分布のアンカーと改善に役立つ動きの手がかりを提供する。
具体的には、RaGSはカスケードパイプラインを採用して、ガウスのフィールドを構築し、徐々に洗練する。
これはFrustumベースのローカライゼーション開始(英語版) (FLI) から始まり、粗いガウス中心を初期化するために前景ピクセルを投影する。
次に、IMA(Iterative Multimodal Aggregation)は画像セマンティクスを明示的に活用し、4次元レーダー速度幾何学を暗黙的に統合し、興味のある領域内のガウスを洗練させる。
最後に、多レベルガウス核融合(MGF)は、ガウス場を3次元物体検出のための階層的BEV特徴として表現する。
スパース領域と情報領域に動的に集中することにより、RaGSはオブジェクト中心の精度と総合的なシーン知覚を達成する。
View-of-Delft、TJ4DRadSet、OmniHD-Scenesの大規模な実験は、その堅牢性とSOTA性能を示している。
コードはリリースされる。
関連論文リスト
- GaussianFormer3D: Multi-Modal Gaussian-based Semantic Occupancy Prediction with 3D Deformable Attention [15.890744831541452]
3Dセマンティック占有予測は、安全で信頼性の高い自動運転を実現するために重要である。
本稿では,3次元変形可能な注意力を利用したマルチモーダルガウスに基づくセマンティック占有予測フレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-15T20:05:08Z) - DirectTriGS: Triplane-based Gaussian Splatting Field Representation for 3D Generation [37.09199962653554]
ガウススプラッティング(GS)を用いた3次元オブジェクト生成のための新しいフレームワークであるDirectTriGSを提案する。
提案した生成フレームワークは,テキスト・ツー・3Dタスクにおいて高品質な3Dオブジェクト形状とレンダリング結果を生成することができる。
論文 参考訳(メタデータ) (2025-03-10T04:05:38Z) - GaussRender: Learning 3D Occupancy with Gaussian Rendering [86.89653628311565]
GaussRenderは、投影的一貫性を強制することによって3D占有学習を改善するモジュールである。
提案手法は,不整合な2次元プロジェクションを生成する3次元構成をペナライズすることにより,より一貫性のある3次元構造を実現する。
論文 参考訳(メタデータ) (2025-02-07T16:07:51Z) - GaussianAD: Gaussian-Centric End-to-End Autonomous Driving [23.71316979650116]
視覚に基づく自動運転は、十分な性能と低コストのために大きな可能性を秘めている。
既存のほとんどの方法は、決定のために密度の高い表現(例えば鳥の眼図)やスパース表現(例箱)を採用する。
本稿では、ガウス中心のエンドツーエンド自動運転フレームワークを探求し、3Dセマンティックガウスを利用して、そのシーンを広義に記述する。
論文 参考訳(メタデータ) (2024-12-13T18:59:30Z) - 3DGS-DET: Empower 3D Gaussian Splatting with Boundary Guidance and Box-Focused Sampling for 3D Object Detection [12.14595005884025]
本稿では,3DGSを初めて3DODに導入し,主な課題を2つ挙げる。
2次元境界ガイダンスを組み込んだエレガントで効率的なソリューションを提案する。
また,3次元空間におけるオブジェクトの確率分布を生成するために2次元ボックスを用いたBox-Focused Smpling戦略を提案する。
論文 参考訳(メタデータ) (2024-10-02T15:15:52Z) - PUP 3D-GS: Principled Uncertainty Pruning for 3D Gaussian Splatting [59.277480452459315]
本研究では,視覚的忠実度と前景の細部を高い圧縮比で保持する原理的感度プルーニングスコアを提案する。
また,トレーニングパイプラインを変更することなく,事前訓練した任意の3D-GSモデルに適用可能な複数ラウンドプルーファインパイプラインを提案する。
論文 参考訳(メタデータ) (2024-06-14T17:53:55Z) - $\ extit{S}^3$Gaussian: Self-Supervised Street Gaussians for Autonomous Driving [82.82048452755394]
光リアルなストリートシーンの3D再構成は、現実の自動運転シミュレータを開発する上で重要な技術である。
既存のストリート3DGS法の多くは、静的および動的要素を分解するために、トラックされた3D車両バウンディングボックスを必要とする。
動的および静的な要素を4次元整合性から分解する自己教師付きストリートガウス(textitS3$Gaussian)手法を提案する。
論文 参考訳(メタデータ) (2024-05-30T17:57:08Z) - GaussianFormer: Scene as Gaussians for Vision-Based 3D Semantic Occupancy Prediction [70.65250036489128]
3Dのセマンティック占有予測は,周囲のシーンの3Dの微細な形状とセマンティックスを得ることを目的としている。
本稿では,3Dシーンを3Dセマンティック・ガウシアンで表現するオブジェクト中心表現を提案する。
GaussianFormerは17.8%から24.8%のメモリ消費しか持たない最先端のメソッドで同等のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-05-27T17:59:51Z) - Semantic Gaussians: Open-Vocabulary Scene Understanding with 3D Gaussian Splatting [27.974762304763694]
セマンティック・ガウシアン(Semantic Gaussians)は,3次元ガウシアン・スプレイティングをベースとした,新しいオープン語彙シーン理解手法である。
既存の手法とは異なり、様々な2次元意味的特徴を3次元ガウスの新たな意味的構成要素にマッピングする多目的投影手法を設計する。
我々は,高速な推論のために,生の3Dガウスから意味成分を直接予測する3Dセマンティックネットワークを構築した。
論文 参考訳(メタデータ) (2024-03-22T21:28:19Z) - SAGD: Boundary-Enhanced Segment Anything in 3D Gaussian via Gaussian Decomposition [66.56357905500512]
3Dガウススプラッティングは、新しいビュー合成のための代替の3D表現として登場した。
SAGDは3D-GSのための概念的にシンプルで効果的な境界拡張パイプラインである。
提案手法は粗い境界問題なく高品質な3Dセグメンテーションを実現し,他のシーン編集作業にも容易に適用できる。
論文 参考訳(メタデータ) (2024-01-31T14:19:03Z) - Gaussian Grouping: Segment and Edit Anything in 3D Scenes [65.49196142146292]
ガウシアン・グルーピング(ガウシアン・グルーピング)はガウシアン・スプラッティングを拡張して,オープンワールドの3Dシーンで何かを共同で再構築・分割する。
暗黙のNeRF表現と比較すると,グループ化された3次元ガウシアンは,高画質,微粒度,高効率で,あらゆるものを3次元で再構成,分割,編集することができる。
論文 参考訳(メタデータ) (2023-12-01T17:09:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。