論文の概要: GaussRender: Learning 3D Occupancy with Gaussian Rendering
- arxiv url: http://arxiv.org/abs/2502.05040v1
- Date: Fri, 07 Feb 2025 16:07:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-10 14:56:26.876840
- Title: GaussRender: Learning 3D Occupancy with Gaussian Rendering
- Title(参考訳): GaussRender: Gaussian Renderingで3D作業を学ぶ
- Authors: Loick Chambon, Eloi Zablocki, Alexandre Boulch, Mickael Chen, Matthieu Cord,
- Abstract要約: GaussRenderは、Voxelベースの監視を強化する3Dから2Dへのプラグアンドプレイのリジェクション損失である。
提案手法は, 任意の2次元視点に3次元ボクセル表現を投影し, ガウススプラッティングをボクセルの効率的かつ微分可能なレンダリングプロキシとして活用する。
- 参考スコア(独自算出の注目度): 84.60008381280286
- License:
- Abstract: Understanding the 3D geometry and semantics of driving scenes is critical for developing of safe autonomous vehicles. While 3D occupancy models are typically trained using voxel-based supervision with standard losses (e.g., cross-entropy, Lovasz, dice), these approaches treat voxel predictions independently, neglecting their spatial relationships. In this paper, we propose GaussRender, a plug-and-play 3D-to-2D reprojection loss that enhances voxel-based supervision. Our method projects 3D voxel representations into arbitrary 2D perspectives and leverages Gaussian splatting as an efficient, differentiable rendering proxy of voxels, introducing spatial dependencies across projected elements. This approach improves semantic and geometric consistency, handles occlusions more efficiently, and requires no architectural modifications. Extensive experiments on multiple benchmarks (SurroundOcc-nuScenes, Occ3D-nuScenes, SSCBench-KITTI360) demonstrate consistent performance gains across various 3D occupancy models (TPVFormer, SurroundOcc, Symphonies), highlighting the robustness and versatility of our framework. The code is available at https://github.com/valeoai/GaussRender.
- Abstract(参考訳): 運転シーンの3次元形状と意味を理解することは、安全な自動運転車の開発に不可欠である。
3次元占有モデルは、通常、標準的な損失(例えば、クロスエントロピー、ロヴァス、ダイス)を持つボクセルベースの監督を用いて訓練されるが、これらのアプローチは、ボクセル予測を独立に扱い、空間的関係を無視している。
本稿では,Voxelベースの監視を強化する3D-to-2Dリジェクション・ロスであるGaussRenderを提案する。
提案手法は, 任意の2次元視点に3次元ボクセル表現を投影し, ガウススプラッティングをボクセルの効率的かつ微分可能なレンダリングプロキシとして利用し, 投影要素間の空間依存性を導入する。
このアプローチは意味的整合性と幾何学的整合性を改善し、オクルージョンをより効率的に処理し、アーキテクチャの変更を必要としない。
複数のベンチマーク(SurroundOcc-nuScenes, Occ3D-nuScenes, SSCBench-KITTI360)での大規模な実験は、様々な3D占有モデル(TPVFormer, SurroundOcc, Symphonies)で一貫した性能向上を示し、我々のフレームワークの堅牢性と汎用性を強調している。
コードはhttps://github.com/valeoai/GaussRender.comで公開されている。
関連論文リスト
- Robust 3D Semantic Occupancy Prediction with Calibration-free Spatial Transformation [32.50849425431012]
マルチカメラとLiDARを備えた自動運転車では、高精度で堅牢な予測のために、マルチセンサー情報を統一された3D空間に集約することが重要である。
最近の手法は主にセンサキャリブレーションに依存する2D-to-3D変換に基づいて構築され,2D画像情報を3D空間に投影する。
本研究では,空間対応を暗黙的にモデル化するために,バニラ注意に基づく校正自由空間変換を提案する。
論文 参考訳(メタデータ) (2024-11-19T02:40:42Z) - Neural Signed Distance Function Inference through Splatting 3D Gaussians Pulled on Zero-Level Set [49.780302894956776]
多視点表面再構成における符号付き距離関数(SDF)の推測は不可欠である。
本稿では3DGSとニューラルSDFの学習をシームレスに融合する手法を提案する。
我々の数値的および視覚的比較は、広く使用されているベンチマークの最先端結果よりも優れていることを示している。
論文 参考訳(メタデータ) (2024-10-18T05:48:06Z) - Enhancing Single Image to 3D Generation using Gaussian Splatting and Hybrid Diffusion Priors [17.544733016978928]
単一の画像から3Dオブジェクトを生成するには、野生で撮影された未ポーズのRGB画像から、目に見えない景色の完全な3D形状とテクスチャを推定する必要がある。
3次元オブジェクト生成の最近の進歩は、物体の形状とテクスチャを再構築する技術を導入している。
本稿では, この限界に対応するために, 2次元拡散モデルと3次元拡散モデルとのギャップを埋めることを提案する。
論文 参考訳(メタデータ) (2024-10-12T10:14:11Z) - GSD: View-Guided Gaussian Splatting Diffusion for 3D Reconstruction [52.04103235260539]
単一視点からの3次元オブジェクト再構成のためのガウススプティング表現に基づく拡散モデル手法を提案する。
モデルはGS楕円体の集合で表される3Dオブジェクトを生成することを学習する。
最終的な再構成されたオブジェクトは、高品質な3D構造とテクスチャを持ち、任意のビューで効率的にレンダリングできる。
論文 参考訳(メタデータ) (2024-07-05T03:43:08Z) - Any2Point: Empowering Any-modality Large Models for Efficient 3D Understanding [83.63231467746598]
我々は,Any2Pointというパラメータ効率のよい大規模モデル(ビジョン,言語,音声)を3次元理解に活用する手法を紹介した。
入力された3Dポイントと元の1Dまたは2D位置との相関関係を示す3D-to-any (1Dまたは2D)仮想プロジェクション戦略を提案する。
論文 参考訳(メタデータ) (2024-04-11T17:59:45Z) - Semantic Gaussians: Open-Vocabulary Scene Understanding with 3D Gaussian Splatting [27.974762304763694]
セマンティック・ガウシアン(Semantic Gaussians)は,3次元ガウシアン・スプレイティングをベースとした,新しいオープン語彙シーン理解手法である。
既存の手法とは異なり、様々な2次元意味的特徴を3次元ガウスの新たな意味的構成要素にマッピングする多目的投影手法を設計する。
我々は,高速な推論のために,生の3Dガウスから意味成分を直接予測する3Dセマンティックネットワークを構築した。
論文 参考訳(メタデータ) (2024-03-22T21:28:19Z) - Volumetric Environment Representation for Vision-Language Navigation [66.04379819772764]
視覚言語ナビゲーション(VLN)は、視覚的な観察と自然言語の指示に基づいて、エージェントが3D環境をナビゲートする必要がある。
本研究では,物理世界を3次元構造細胞にボクセル化するボリューム環境表現(VER)を提案する。
VERは3D占有率、3D部屋レイアウト、および3Dバウンディングボックスを共同で予測する。
論文 参考訳(メタデータ) (2024-03-21T06:14:46Z) - PonderV2: Pave the Way for 3D Foundation Model with A Universal
Pre-training Paradigm [114.47216525866435]
本稿では,効率的な3D表現の獲得を容易にするために,新しいユニバーサル3D事前学習フレームワークを提案する。
PonderV2は、11の室内および屋外ベンチマークで最先端のパフォーマンスを達成したことで、その効果が示唆された。
論文 参考訳(メタデータ) (2023-10-12T17:59:57Z) - RenderOcc: Vision-Centric 3D Occupancy Prediction with 2D Rendering
Supervision [36.15913507034939]
RenderOccは2次元ラベルのみを用いて3次元占有モデルを訓練するための新しいパラダイムである。
具体的には、マルチビュー画像からNeRFスタイルの3Dボリューム表現を抽出する。
ボリュームレンダリング技術を用いて2次元レンダリングを確立することにより,2次元セマンティクスや深度ラベルから直接の3D監視を可能にする。
論文 参考訳(メタデータ) (2023-09-18T06:08:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。