論文の概要: GaussianFormer3D: Multi-Modal Gaussian-based Semantic Occupancy Prediction with 3D Deformable Attention
- arxiv url: http://arxiv.org/abs/2505.10685v1
- Date: Thu, 15 May 2025 20:05:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-19 14:36:13.480577
- Title: GaussianFormer3D: Multi-Modal Gaussian-based Semantic Occupancy Prediction with 3D Deformable Attention
- Title(参考訳): GaussianFormer3D:3次元変形を考慮したマルチモーダルガウスに基づくセマンティック占有予測
- Authors: Lingjun Zhao, Sizhe Wei, James Hays, Lu Gan,
- Abstract要約: 3Dセマンティック占有予測は、安全で信頼性の高い自動運転を実現するために重要である。
本稿では,3次元変形可能な注意力を利用したマルチモーダルガウスに基づくセマンティック占有予測フレームワークを提案する。
- 参考スコア(独自算出の注目度): 15.890744831541452
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: 3D semantic occupancy prediction is critical for achieving safe and reliable autonomous driving. Compared to camera-only perception systems, multi-modal pipelines, especially LiDAR-camera fusion methods, can produce more accurate and detailed predictions. Although most existing works utilize a dense grid-based representation, in which the entire 3D space is uniformly divided into discrete voxels, the emergence of 3D Gaussians provides a compact and continuous object-centric representation. In this work, we propose a multi-modal Gaussian-based semantic occupancy prediction framework utilizing 3D deformable attention, named as GaussianFormer3D. We introduce a voxel-to-Gaussian initialization strategy to provide 3D Gaussians with geometry priors from LiDAR data, and design a LiDAR-guided 3D deformable attention mechanism for refining 3D Gaussians with LiDAR-camera fusion features in a lifted 3D space. We conducted extensive experiments on both on-road and off-road datasets, demonstrating that our GaussianFormer3D achieves high prediction accuracy that is comparable to state-of-the-art multi-modal fusion-based methods with reduced memory consumption and improved efficiency.
- Abstract(参考訳): 3Dセマンティック占有予測は、安全で信頼性の高い自動運転を実現するために重要である。
カメラのみの認識システムと比較して、マルチモーダルパイプライン、特にLiDAR-カメラ融合法はより正確で詳細な予測を行うことができる。
既存のほとんどの研究は、高密度グリッドベースの表現を利用しており、3次元空間全体が一様に離散ボクセルに分割されているが、3次元ガウスの出現はコンパクトで連続的な対象中心の表現を提供する。
本研究では,GussianFormer3Dと命名された3次元変形可能な注意力を利用したマルチモーダルガウスに基づくセマンティック占有予測フレームワークを提案する。
ボクセル-ガウシアン初期化戦略を導入し,LiDARデータから3次元ガウシアンに幾何学的先行性を与えるとともに,LiDARに誘導される3次元ガウシアンの3次元カメラ融合特性を改良するための3次元アテンション機構を設計する。
我々は、オンロードとオフロードの両方のデータセットに関する広範な実験を行い、ガウスフォーマー3Dが、メモリ消費を削減し、効率を向上し、最先端のマルチモーダル融合法に匹敵する高い予測精度を達成できることを実証した。
関連論文リスト
- GaussTR: Foundation Model-Aligned Gaussian Transformer for Self-Supervised 3D Spatial Understanding [44.68350305790145]
GaussTRは3次元空間理解を促進するためにガウス表現を通して基礎モデルアライメントとスパース3次元モデリングを統一する新しいトランスフォーマーフレームワークである。
Occ3D-nuScenesデータセットの実験では、GaussTRの12.27 mIoUの最先端のゼロショット性能と、トレーニング時間の40%削減が示されている。
これらの結果は、スケーラブルで総合的な3次元空間理解のためのGaussTRの有効性を強調し、自律運転とエンボディエージェントに有望な意味を持つ。
論文 参考訳(メタデータ) (2024-12-17T18:59:46Z) - GaussianFormer-2: Probabilistic Gaussian Superposition for Efficient 3D Occupancy Prediction [55.60972844777044]
3Dセマンティック占有予測は、堅牢な視覚中心の自律運転において重要な課題である。
既存のほとんどの手法は、密度の高いグリッドベースのシーン表現を利用しており、運転シーンの空間的空間性を見渡している。
本稿では,各ガウス分布をその周辺領域の確率分布として解釈する確率論的ガウス重ね合わせモデルを提案する。
論文 参考訳(メタデータ) (2024-12-05T17:59:58Z) - L3DG: Latent 3D Gaussian Diffusion [74.36431175937285]
L3DGは3次元ガウス拡散定式化による3次元ガウスの3次元モデリングのための最初のアプローチである。
我々は、部屋の大きさのシーンで効率的に操作するために、スパース畳み込みアーキテクチャーを用いている。
3Dガウス表現を利用することで、生成されたシーンを任意の視点からリアルタイムでレンダリングすることができる。
論文 参考訳(メタデータ) (2024-10-17T13:19:32Z) - GaussianFormer: Scene as Gaussians for Vision-Based 3D Semantic Occupancy Prediction [70.65250036489128]
3Dのセマンティック占有予測は,周囲のシーンの3Dの微細な形状とセマンティックスを得ることを目的としている。
本稿では,3Dシーンを3Dセマンティック・ガウシアンで表現するオブジェクト中心表現を提案する。
GaussianFormerは17.8%から24.8%のメモリ消費しか持たない最先端のメソッドで同等のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-05-27T17:59:51Z) - GaussianCube: A Structured and Explicit Radiance Representation for 3D Generative Modeling [55.05713977022407]
構造的かつ完全明快な放射率表現を導入し、3次元生成モデリングを大幅に促進する。
我々はまず,新しい密度制約付きガウス適合アルゴリズムを用いてガウスキューブを導出する。
非条件およびクラス条件オブジェクト生成、デジタルアバター生成、テキスト・トゥ・3Dによる実験は、我々のモデル合成が最先端の生成結果を達成することを示す。
論文 参考訳(メタデータ) (2024-03-28T17:59:50Z) - Gaussian Splatting SLAM [16.3858380078553]
単分子SLAMにおける3次元ガウス散乱の最初の応用について述べる。
我々の方法は3fpsで動作し、正確な追跡、マッピング、高品質なレンダリングに必要な表現を統一する。
ライブカメラから高忠実度で連続的に3Dシーンを再構築するためには、いくつかの革新が必要である。
論文 参考訳(メタデータ) (2023-12-11T18:19:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。