論文の概要: GaussianFormer: Scene as Gaussians for Vision-Based 3D Semantic Occupancy Prediction
- arxiv url: http://arxiv.org/abs/2405.17429v1
- Date: Mon, 27 May 2024 17:59:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-28 13:52:58.325945
- Title: GaussianFormer: Scene as Gaussians for Vision-Based 3D Semantic Occupancy Prediction
- Title(参考訳): GaussianFormer:視覚に基づく3Dセマンティック動作予測のためのガウス的シーン
- Authors: Yuanhui Huang, Wenzhao Zheng, Yunpeng Zhang, Jie Zhou, Jiwen Lu,
- Abstract要約: 3Dのセマンティック占有予測は,周囲のシーンの3Dの微細な形状とセマンティックスを得ることを目的としている。
本稿では,3Dシーンを3Dセマンティック・ガウシアンで表現するオブジェクト中心表現を提案する。
GaussianFormerは17.8%から24.8%のメモリ消費しか持たない最先端のメソッドで同等のパフォーマンスを実現している。
- 参考スコア(独自算出の注目度): 70.65250036489128
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: 3D semantic occupancy prediction aims to obtain 3D fine-grained geometry and semantics of the surrounding scene and is an important task for the robustness of vision-centric autonomous driving. Most existing methods employ dense grids such as voxels as scene representations, which ignore the sparsity of occupancy and the diversity of object scales and thus lead to unbalanced allocation of resources. To address this, we propose an object-centric representation to describe 3D scenes with sparse 3D semantic Gaussians where each Gaussian represents a flexible region of interest and its semantic features. We aggregate information from images through the attention mechanism and iteratively refine the properties of 3D Gaussians including position, covariance, and semantics. We then propose an efficient Gaussian-to-voxel splatting method to generate 3D occupancy predictions, which only aggregates the neighboring Gaussians for a certain position. We conduct extensive experiments on the widely adopted nuScenes and KITTI-360 datasets. Experimental results demonstrate that GaussianFormer achieves comparable performance with state-of-the-art methods with only 17.8% - 24.8% of their memory consumption. Code is available at: https://github.com/huang-yh/GaussianFormer.
- Abstract(参考訳): 3Dセマンティック占有予測は,周辺環境の3次元微粒な形状とセマンティックスを得ることを目的としており,視覚中心の自律運転の堅牢性にとって重要な課題である。
既存のほとんどの手法では、シーン表現としてボクセルのような密度の高い格子を用いており、占有の空間性やオブジェクトスケールの多様性を無視し、リソースのバランスの取れない割り当てにつながる。
そこで本研究では,各ガウスがフレキシブルな関心領域とセマンティックな特徴を表現している3Dセマンティック・ガウスを,スパースな3Dセマンティック・ガウスで表現するオブジェクト中心の表現を提案する。
我々は、注意機構を通じて画像から情報を集約し、位置、共分散、意味論を含む3Dガウスの性質を反復的に洗練する。
そこで我々は,隣接するガウス人のみを一定の位置に集約した3次元占有予測を生成するための効率的なガウス・ボクセル分割法を提案する。
我々は広く採用されているnuScenesとKITTI-360データセットについて広範な実験を行った。
実験の結果、GaussianFormerは17.8%から24.8%のメモリ消費しか持たない最先端のメソッドで同等のパフォーマンスを実現していることが示された。
コードは、https://github.com/huang-yh/GaussianFormer.comで入手できる。
関連論文リスト
- OccGS: Zero-shot 3D Occupancy Reconstruction with Semantic and Geometric-Aware Gaussian Splatting [46.677120329555486]
OccGSはSemanticとGeometric-Aware Gaussian Splattingを利用した3D Occupancy再構築フレームワークである。
ガウス人からガウス人への居住を再構築するための累積的なガウスから3Dのボクセルスプラッティング法を開発した。
OccGSは、占有率予測において自己監督手法に対して好意的に機能し、完全に監督されたアプローチに匹敵するパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-02-07T14:58:59Z) - OVGaussian: Generalizable 3D Gaussian Segmentation with Open Vocabularies [112.80292725951921]
textbfOVGaussianは3D textbfGaussian表現に基づいた、一般化可能なtextbfOpen-textbfVocabulary 3Dセマンティックセマンティックセグメンテーションフレームワークである。
まず,3DGSをベースとした大規模3Dシーンデータセット(textbfSegGaussian)を構築し,ガウス点とマルチビュー画像の両方に対して詳細なセマンティックおよびインスタンスアノテーションを提供する。
シーン間のセマンティック・一般化を促進するために,ジェネリック・セマンティック・ラスタライゼーション(GSR)を導入する。
論文 参考訳(メタデータ) (2024-12-31T07:55:35Z) - GaussTR: Foundation Model-Aligned Gaussian Transformer for Self-Supervised 3D Spatial Understanding [44.68350305790145]
本稿では,ガウス変換器であるガウスTRを導入し,自己教師付き3次元空間理解を推し進める。
GaussTRはTransformerアーキテクチャを採用し、フィードフォワード方式でシーンを表現する3Dガウスのスパースセットを予測する。
Occ3D-nuScenesデータセットの実証評価では、ガウスTRの最先端のゼロショット性能が示されている。
論文 参考訳(メタデータ) (2024-12-17T18:59:46Z) - GaussianAD: Gaussian-Centric End-to-End Autonomous Driving [23.71316979650116]
視覚に基づく自動運転は、十分な性能と低コストのために大きな可能性を秘めている。
既存のほとんどの方法は、決定のために密度の高い表現(例えば鳥の眼図)やスパース表現(例箱)を採用する。
本稿では、ガウス中心のエンドツーエンド自動運転フレームワークを探求し、3Dセマンティックガウスを利用して、そのシーンを広義に記述する。
論文 参考訳(メタデータ) (2024-12-13T18:59:30Z) - GaussianFormer-2: Probabilistic Gaussian Superposition for Efficient 3D Occupancy Prediction [55.60972844777044]
3Dセマンティック占有予測は、堅牢な視覚中心の自律運転において重要な課題である。
既存のほとんどの手法は、密度の高いグリッドベースのシーン表現を利用しており、運転シーンの空間的空間性を見渡している。
本稿では,各ガウス分布をその周辺領域の確率分布として解釈する確率論的ガウス重ね合わせモデルを提案する。
論文 参考訳(メタデータ) (2024-12-05T17:59:58Z) - EmbodiedOcc: Embodied 3D Occupancy Prediction for Vision-based Online Scene Understanding [63.99937807085461]
3D占有予測は周囲のシーンを包括的に記述する。
既存のほとんどのメソッドは、1つか数つのビューからのオフラインの認識に焦点を当てている。
具体化された3次元占有予測タスクを定式化し,ガウスをベースとしたEmbodiedOccフレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-05T17:57:09Z) - ShapeSplat: A Large-scale Dataset of Gaussian Splats and Their Self-Supervised Pretraining [104.34751911174196]
ShapeNetとModelNetを用いた大規模3DGSデータセットを構築した。
データセットのShapeSplatは、87のユニークなカテゴリから65Kのオブジェクトで構成されています。
textbftextitGaussian-MAEを導入し、ガウスパラメータからの表現学習の独特な利点を強調した。
論文 参考訳(メタデータ) (2024-08-20T14:49:14Z) - Semantic Gaussians: Open-Vocabulary Scene Understanding with 3D Gaussian Splatting [27.974762304763694]
セマンティック・ガウシアン(Semantic Gaussians)は,3次元ガウシアン・スプレイティングをベースとした,新しいオープン語彙シーン理解手法である。
既存の手法とは異なり、様々な2次元意味的特徴を3次元ガウスの新たな意味的構成要素にマッピングする多目的投影手法を設計する。
我々は,高速な推論のために,生の3Dガウスから意味成分を直接予測する3Dセマンティックネットワークを構築した。
論文 参考訳(メタデータ) (2024-03-22T21:28:19Z) - Gaussian Grouping: Segment and Edit Anything in 3D Scenes [65.49196142146292]
ガウシアン・グルーピング(ガウシアン・グルーピング)はガウシアン・スプラッティングを拡張して,オープンワールドの3Dシーンで何かを共同で再構築・分割する。
暗黙のNeRF表現と比較すると,グループ化された3次元ガウシアンは,高画質,微粒度,高効率で,あらゆるものを3次元で再構成,分割,編集することができる。
論文 参考訳(メタデータ) (2023-12-01T17:09:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。