論文の概要: GaussianFormer: Scene as Gaussians for Vision-Based 3D Semantic Occupancy Prediction
- arxiv url: http://arxiv.org/abs/2405.17429v1
- Date: Mon, 27 May 2024 17:59:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-28 13:52:58.325945
- Title: GaussianFormer: Scene as Gaussians for Vision-Based 3D Semantic Occupancy Prediction
- Title(参考訳): GaussianFormer:視覚に基づく3Dセマンティック動作予測のためのガウス的シーン
- Authors: Yuanhui Huang, Wenzhao Zheng, Yunpeng Zhang, Jie Zhou, Jiwen Lu,
- Abstract要約: 3Dのセマンティック占有予測は,周囲のシーンの3Dの微細な形状とセマンティックスを得ることを目的としている。
本稿では,3Dシーンを3Dセマンティック・ガウシアンで表現するオブジェクト中心表現を提案する。
GaussianFormerは17.8%から24.8%のメモリ消費しか持たない最先端のメソッドで同等のパフォーマンスを実現している。
- 参考スコア(独自算出の注目度): 70.65250036489128
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: 3D semantic occupancy prediction aims to obtain 3D fine-grained geometry and semantics of the surrounding scene and is an important task for the robustness of vision-centric autonomous driving. Most existing methods employ dense grids such as voxels as scene representations, which ignore the sparsity of occupancy and the diversity of object scales and thus lead to unbalanced allocation of resources. To address this, we propose an object-centric representation to describe 3D scenes with sparse 3D semantic Gaussians where each Gaussian represents a flexible region of interest and its semantic features. We aggregate information from images through the attention mechanism and iteratively refine the properties of 3D Gaussians including position, covariance, and semantics. We then propose an efficient Gaussian-to-voxel splatting method to generate 3D occupancy predictions, which only aggregates the neighboring Gaussians for a certain position. We conduct extensive experiments on the widely adopted nuScenes and KITTI-360 datasets. Experimental results demonstrate that GaussianFormer achieves comparable performance with state-of-the-art methods with only 17.8% - 24.8% of their memory consumption. Code is available at: https://github.com/huang-yh/GaussianFormer.
- Abstract(参考訳): 3Dセマンティック占有予測は,周辺環境の3次元微粒な形状とセマンティックスを得ることを目的としており,視覚中心の自律運転の堅牢性にとって重要な課題である。
既存のほとんどの手法では、シーン表現としてボクセルのような密度の高い格子を用いており、占有の空間性やオブジェクトスケールの多様性を無視し、リソースのバランスの取れない割り当てにつながる。
そこで本研究では,各ガウスがフレキシブルな関心領域とセマンティックな特徴を表現している3Dセマンティック・ガウスを,スパースな3Dセマンティック・ガウスで表現するオブジェクト中心の表現を提案する。
我々は、注意機構を通じて画像から情報を集約し、位置、共分散、意味論を含む3Dガウスの性質を反復的に洗練する。
そこで我々は,隣接するガウス人のみを一定の位置に集約した3次元占有予測を生成するための効率的なガウス・ボクセル分割法を提案する。
我々は広く採用されているnuScenesとKITTI-360データセットについて広範な実験を行った。
実験の結果、GaussianFormerは17.8%から24.8%のメモリ消費しか持たない最先端のメソッドで同等のパフォーマンスを実現していることが示された。
コードは、https://github.com/huang-yh/GaussianFormer.comで入手できる。
関連論文リスト
- NovelGS: Consistent Novel-view Denoising via Large Gaussian Reconstruction Model [57.92709692193132]
NovelGSは、スパースビュー画像が与えられたガウススプラッティングの拡散モデルである。
我々は3Dガウスを生成するためにトランスフォーマーネットワークを経由する新しい視点を利用する。
論文 参考訳(メタデータ) (2024-11-25T07:57:17Z) - GaussianOcc: Fully Self-supervised and Efficient 3D Occupancy Estimation with Gaussian Splatting [16.480043962212566]
本研究では, ガウススプラッティングとガウススプラッティングの2つの利用法を提案する。
その結果,GussianOcc法では,計算コストの低い競合性能において,完全に自己監督された3次元占有率推定が可能となった。
論文 参考訳(メタデータ) (2024-08-21T09:06:30Z) - ShapeSplat: A Large-scale Dataset of Gaussian Splats and Their Self-Supervised Pretraining [104.34751911174196]
ShapeNetとModelNetを用いた大規模3DGSデータセットを構築した。
データセットのShapeSplatは、87のユニークなカテゴリから65Kのオブジェクトで構成されています。
textbftextitGaussian-MAEを導入し、ガウスパラメータからの表現学習の独特な利点を強調した。
論文 参考訳(メタデータ) (2024-08-20T14:49:14Z) - Dynamic Gaussian Marbles for Novel View Synthesis of Casual Monocular Videos [58.22272760132996]
既存の4次元ガウス法は単分子配置が制約されていないため、この設定で劇的に失敗することを示す。
単分子配置の難易度を目標とした3つのコア修正からなる動的ガウス大理石を提案する。
Nvidia Dynamic ScenesデータセットとDyCheck iPhoneデータセットを評価し,Gaussian Marblesが他のGaussianベースラインを著しく上回っていることを示す。
論文 参考訳(メタデータ) (2024-06-26T19:37:07Z) - GSGAN: Adversarial Learning for Hierarchical Generation of 3D Gaussian Splats [20.833116566243408]
本稿では,Gaussianを3D GANの3次元表現として利用し,その効率的かつ明示的な特徴を活用する。
生成したガウスの位置とスケールを効果的に正規化する階層的多スケールガウス表現を持つジェネレータアーキテクチャを導入する。
実験結果から,最先端の3D一貫したGANと比較して,レンダリング速度(x100)が大幅に向上することが示された。
論文 参考訳(メタデータ) (2024-06-05T05:52:20Z) - Semantic Gaussians: Open-Vocabulary Scene Understanding with 3D Gaussian Splatting [27.974762304763694]
セマンティック・ガウシアン(Semantic Gaussians)は,3次元ガウシアン・スプレイティングをベースとした,新しいオープン語彙シーン理解手法である。
既存の手法とは異なり、様々な2次元意味的特徴を3次元ガウスの新たな意味的構成要素にマッピングする多目的投影手法を設計する。
我々は,高速な推論のために,生の3Dガウスから意味成分を直接予測する3Dセマンティックネットワークを構築した。
論文 参考訳(メタデータ) (2024-03-22T21:28:19Z) - Learning Segmented 3D Gaussians via Efficient Feature Unprojection for Zero-shot Neural Scene Segmentation [16.57158278095853]
ゼロショットニューラルシーンセグメンテーションはシーン理解に有効な方法である。
既存のモデル、特に効率的な3Dガウス法は、コンパクトなセグメンテーションの結果を生み出すのに苦労している。
セグメンテーションフィールドとしてFeature UnprojectionとFusionモジュールを提案する。
本モデルでは,ゼロショットセマンティックセグメンテーションタスクのベースラインを超越し,最良ベースラインよりも10%mIoU向上を図っている。
論文 参考訳(メタデータ) (2024-01-11T14:05:01Z) - Compact 3D Scene Representation via Self-Organizing Gaussian Grids [10.816451552362823]
3D Gaussian Splattingは、静的な3Dシーンをモデリングするための非常に有望なテクニックとして最近登場した。
本稿では3DGSのパラメータを局所的均一性を持つ2次元グリッドに整理したコンパクトなシーン表現を提案する。
本手法は,訓練時間の増加を伴わない複雑なシーンに対して,17倍から42倍の縮小係数を実現する。
論文 参考訳(メタデータ) (2023-12-19T20:18:29Z) - GAvatar: Animatable 3D Gaussian Avatars with Implicit Mesh Learning [60.33970027554299]
ガウススプラッティングは、明示的(メッシュ)と暗黙的(NeRF)の両方の3D表現の利点を利用する強力な3D表現として登場した。
本稿では,ガウススプラッティングを利用してテキスト記述から現実的なアニマタブルなアバターを生成する。
提案手法であるGAvatarは,テキストプロンプトのみを用いて,多様なアニマタブルアバターを大規模に生成する。
論文 参考訳(メタデータ) (2023-12-18T18:59:12Z) - Gaussian Grouping: Segment and Edit Anything in 3D Scenes [65.49196142146292]
ガウシアン・グルーピング(ガウシアン・グルーピング)はガウシアン・スプラッティングを拡張して,オープンワールドの3Dシーンで何かを共同で再構築・分割する。
暗黙のNeRF表現と比較すると,グループ化された3次元ガウシアンは,高画質,微粒度,高効率で,あらゆるものを3次元で再構成,分割,編集することができる。
論文 参考訳(メタデータ) (2023-12-01T17:09:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。