論文の概要: GaussianOcc3D: A Gaussian-Based Adaptive Multi-modal 3D Occupancy Prediction
- arxiv url: http://arxiv.org/abs/2601.22729v1
- Date: Fri, 30 Jan 2026 09:05:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 18:28:15.336775
- Title: GaussianOcc3D: A Gaussian-Based Adaptive Multi-modal 3D Occupancy Prediction
- Title(参考訳): GaussianOcc3D: ガウスに基づく適応型マルチモーダル3D動作予測
- Authors: A. Enes Doruk, Hasan F. Ates,
- Abstract要約: セマンティック占有率予測のためのメモリ効率・連続3次元ガウス表現フレームワークを提案する。
ガウシアンOcc3Dは、雨と夜間の困難な状況にまたがって優れた堅牢性を示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: 3D semantic occupancy prediction is a pivotal task in autonomous driving, providing a dense and fine-grained understanding of the surrounding environment, yet single-modality methods face trade-offs between camera semantics and LiDAR geometry. Existing multi-modal frameworks often struggle with modality heterogeneity, spatial misalignment, and the representation crisis--where voxels are computationally heavy and BEV alternatives are lossy. We present GaussianOcc3D, a multi-modal framework bridging camera and LiDAR through a memory-efficient, continuous 3D Gaussian representation. We introduce four modules: (1) LiDAR Depth Feature Aggregation (LDFA), using depth-wise deformable sampling to lift sparse signals onto Gaussian primitives; (2) Entropy-Based Feature Smoothing (EBFS) to mitigate domain noise; (3) Adaptive Camera-LiDAR Fusion (ACLF) with uncertainty-aware reweighting for sensor reliability; and (4) a Gauss-Mamba Head leveraging Selective State Space Models for global context with linear complexity. Evaluations on Occ3D, SurroundOcc, and SemanticKITTI benchmarks demonstrate state-of-the-art performance, achieving mIoU scores of 49.4%, 28.9%, and 25.2% respectively. GaussianOcc3D exhibits superior robustness across challenging rainy and nighttime conditions.
- Abstract(参考訳): 3Dセマンティック占有予測は自動運転における重要な課題であり、周囲環境の密集したきめ細かな理解を提供するが、カメラセマンティクスとLiDAR幾何学のトレードオフに直面している。
既存のマルチモーダルフレームワークは、しばしばモダリティの不均一性、空間的ミスアライメント、そして表現危機に苦しむ。
メモリ効率のよい連続した3Dガウス表現により,マルチモーダル・フレームワーク・ブリッジ・カメラとLiDARを提案する。
筆者らは,(1)LiDAR奥行き特徴集合(LDFA)を用いた深度変形可能なサンプリング,(2)エントロピーに基づく特徴平滑化(EBFS)によるドメインノイズ低減,(3)センサ信頼性に対する不確実性を考慮した適応カメラ-LiDAR融合(ACLF),(4)選択状態空間モデルを利用したガウス・マンバヘッドの4つのモジュールを紹介した。
Occ3D、SurroundOcc、SemanticKITTIベンチマークの評価では、それぞれ49.4%、28.9%、25.2%のmIoUスコアが得られた。
ガウシアンOcc3Dは、雨と夜間の困難な状況にまたがって優れた堅牢性を示す。
関連論文リスト
- Gaussian Based Adaptive Multi-Modal 3D Semantic Occupancy Prediction [0.0]
この研究は、新しい適応カメラ-LiDARマルチモーダル3D占有率予測モデルを強化する。
カメラモダリティの意味的強度とLiDARモダリティの幾何学的強度をシームレスにブリッジする。
論文 参考訳(メタデータ) (2026-01-20T20:11:09Z) - ShelfGaussian: Shelf-Supervised Open-Vocabulary Gaussian-based 3D Scene Understanding [7.610505486431266]
オープンボキャブラリ型多モードガウス型3Dシーン理解フレームワークであるShelfGaussianについて紹介する。
既存の手法は、オブジェクトをアノテーション付き3Dラベルで教師される閉集合意味ガウスとしてモデル化し、そのレンダリング能力を無視したり、純粋に2Dの自己スーパービジョンを通じてオープンセットガウス表現を学習する。
論文 参考訳(メタデータ) (2025-12-03T02:06:09Z) - GauSSmart: Enhanced 3D Reconstruction through 2D Foundation Models and Geometric Filtering [50.675710727721786]
2次元基礎モデルと3次元ガウススプラッティング再構成をブリッジするハイブリッド手法であるGauSSmartを提案する。
提案手法は,凸フィルタリングや意味的特徴監視など,確立した2次元コンピュータビジョン技術を統合している。
GauSSmartは既存のGaussian Splattingよりも一貫して優れています。
論文 参考訳(メタデータ) (2025-10-16T03:38:26Z) - D$^2$GS: Depth-and-Density Guided Gaussian Splatting for Stable and Accurate Sparse-View Reconstruction [73.61056394880733]
3D Gaussian Splatting (3DGS)は、3D表現を明示したリアルタイムかつ高忠実なノベルビュー合成(NVS)を可能にする。
疎視条件下では,カメラ近傍のガウス密度が過大な地域での過度適合と,ガウス範囲が不十分な遠隔地での過度適合の2つの重要な障害モードを同定する。
本稿では,奥行き案内型ドロップアウト戦略と距離認識型フィデリティ拡張モジュールという,2つの主要なコンポーネントからなる統合フレームワークD$2$GSを提案する。
論文 参考訳(メタデータ) (2025-10-09T17:59:49Z) - Metropolis-Hastings Sampling for 3D Gaussian Reconstruction [31.840492077537018]
3次元ガウス平滑化のための適応型サンプリングフレームワーク(3DGS)を提案する。
我々の枠組みは, 確率的サンプリングプロセスとして, デンシフィケーションとプルーニングを改質することで限界を克服する。
提案手法は,最先端モデルのビュー合成品質を適度に上回りながら,より高速な収束を実現する。
論文 参考訳(メタデータ) (2025-06-15T19:12:37Z) - ProBA: Probabilistic Bundle Adjustment with the Bhattacharyya Coefficient [43.75661586211106]
ProBAは2次元観察と3次元シーン構造における不確実性を明示的にモデル化し、伝播する。
我々の手法は点のようなランドマークの代わりに3Dガウス的を用いる。
ProBAは、非構造化環境でデプロイされたSLAMシステムの実用性を高める。
論文 参考訳(メタデータ) (2025-05-27T08:07:00Z) - GaussianFormer3D: Multi-Modal Gaussian-based Semantic Occupancy Prediction with 3D Deformable Attention [15.890744831541452]
3Dセマンティック占有予測は、安全で信頼性の高い自動運転を実現するために重要である。
本稿では,3次元変形可能な注意力を利用したマルチモーダルガウスに基づくセマンティック占有予測フレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-15T20:05:08Z) - GaussianFormer-2: Probabilistic Gaussian Superposition for Efficient 3D Occupancy Prediction [55.60972844777044]
3Dセマンティック占有予測は、堅牢な視覚中心の自律運転において重要な課題である。
既存のほとんどの手法は、密度の高いグリッドベースのシーン表現を利用しており、運転シーンの空間的空間性を見渡している。
本稿では,各ガウス分布をその周辺領域の確率分布として解釈する確率論的ガウス重ね合わせモデルを提案する。
論文 参考訳(メタデータ) (2024-12-05T17:59:58Z) - GaussianFormer: Scene as Gaussians for Vision-Based 3D Semantic Occupancy Prediction [70.65250036489128]
3Dのセマンティック占有予測は,周囲のシーンの3Dの微細な形状とセマンティックスを得ることを目的としている。
本稿では,3Dシーンを3Dセマンティック・ガウシアンで表現するオブジェクト中心表現を提案する。
GaussianFormerは17.8%から24.8%のメモリ消費しか持たない最先端のメソッドで同等のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-05-27T17:59:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。