Fugu-MT 論文翻訳(概要): GaussianFormer: Scene as Gaussians for Vision-Based 3D Semantic Occupancy Prediction

論文の概要: GaussianFormer: Scene as Gaussians for Vision-Based 3D Semantic Occupancy Prediction

arxiv url: http://arxiv.org/abs/2405.17429v1
Date: Mon, 27 May 2024 17:59:51 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-28 13:52:58.325945
Title: GaussianFormer: Scene as Gaussians for Vision-Based 3D Semantic Occupancy Prediction
Title（参考訳）: GaussianFormer:視覚に基づく3Dセマンティック動作予測のためのガウス的シーン
Authors: Yuanhui Huang, Wenzhao Zheng, Yunpeng Zhang, Jie Zhou, Jiwen Lu,
Abstract要約: 3Dのセマンティック占有予測は,周囲のシーンの3Dの微細な形状とセマンティックスを得ることを目的としている。本稿では,3Dシーンを3Dセマンティック・ガウシアンで表現するオブジェクト中心表現を提案する。 GaussianFormerは17.8%から24.8%のメモリ消費しか持たない最先端のメソッドで同等のパフォーマンスを実現している。
参考スコア（独自算出の注目度）: 70.65250036489128
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: 3D semantic occupancy prediction aims to obtain 3D fine-grained geometry and semantics of the surrounding scene and is an important task for the robustness of vision-centric autonomous driving. Most existing methods employ dense grids such as voxels as scene representations, which ignore the sparsity of occupancy and the diversity of object scales and thus lead to unbalanced allocation of resources. To address this, we propose an object-centric representation to describe 3D scenes with sparse 3D semantic Gaussians where each Gaussian represents a flexible region of interest and its semantic features. We aggregate information from images through the attention mechanism and iteratively refine the properties of 3D Gaussians including position, covariance, and semantics. We then propose an efficient Gaussian-to-voxel splatting method to generate 3D occupancy predictions, which only aggregates the neighboring Gaussians for a certain position. We conduct extensive experiments on the widely adopted nuScenes and KITTI-360 datasets. Experimental results demonstrate that GaussianFormer achieves comparable performance with state-of-the-art methods with only 17.8% - 24.8% of their memory consumption. Code is available at: https://github.com/huang-yh/GaussianFormer.
Abstract（参考訳）: 3Dセマンティック占有予測は,周辺環境の3次元微粒な形状とセマンティックスを得ることを目的としており,視覚中心の自律運転の堅牢性にとって重要な課題である。既存のほとんどの手法では、シーン表現としてボクセルのような密度の高い格子を用いており、占有の空間性やオブジェクトスケールの多様性を無視し、リソースのバランスの取れない割り当てにつながる。そこで本研究では,各ガウスがフレキシブルな関心領域とセマンティックな特徴を表現している3Dセマンティック・ガウスを,スパースな3Dセマンティック・ガウスで表現するオブジェクト中心の表現を提案する。我々は、注意機構を通じて画像から情報を集約し、位置、共分散、意味論を含む3Dガウスの性質を反復的に洗練する。そこで我々は,隣接するガウス人のみを一定の位置に集約した3次元占有予測を生成するための効率的なガウス・ボクセル分割法を提案する。我々は広く採用されているnuScenesとKITTI-360データセットについて広範な実験を行った。実験の結果、GaussianFormerは17.8%から24.8%のメモリ消費しか持たない最先端のメソッドで同等のパフォーマンスを実現していることが示された。コードは、https://github.com/huang-yh/GaussianFormer.comで入手できる。

関連論文リスト

Manboformer: Learning Gaussian Representations via Spatial-temporal Attention Mechanism [0.3277163122167433]
ボクセルベースのグリッド予測と比較して、自律運転のための3Dセマンティック占有予測の分野において、ガウシアンフォーマーは3Dガウシアンを用いてオブジェクトに基づくスパースな3Dセマンティックガウシアンシーンを記述することを提案した。実験の結果,本手法で要求されるガウス関数は,元の高密度グリッドネットワークのクエリ分解能よりも大きく,性能が損なわれていることがわかった。
論文参考訳（メタデータ） (2025-03-06T09:40:46Z)
OVGaussian: Generalizable 3D Gaussian Segmentation with Open Vocabularies [112.80292725951921]
textbfOVGaussianは3D textbfGaussian表現に基づいた、一般化可能なtextbfOpen-textbfVocabulary 3Dセマンティックセマンティックセグメンテーションフレームワークである。まず,3DGSをベースとした大規模3Dシーンデータセット(textbfSegGaussian)を構築し,ガウス点とマルチビュー画像の両方に対して詳細なセマンティックおよびインスタンスアノテーションを提供する。シーン間のセマンティック・一般化を促進するために,ジェネリック・セマンティック・ラスタライゼーション(GSR)を導入する。
論文参考訳（メタデータ） (2024-12-31T07:55:35Z)
GaussTR: Foundation Model-Aligned Gaussian Transformer for Self-Supervised 3D Spatial Understanding [44.68350305790145]
GaussTRは3次元空間理解を促進するためにガウス表現を通して基礎モデルアライメントとスパース3次元モデリングを統一する新しいトランスフォーマーフレームワークである。 Occ3D-nuScenesデータセットの実験では、GaussTRの12.27 mIoUの最先端のゼロショット性能と、トレーニング時間の40%削減が示されている。これらの結果は、スケーラブルで総合的な3次元空間理解のためのGaussTRの有効性を強調し、自律運転とエンボディエージェントに有望な意味を持つ。
論文参考訳（メタデータ） (2024-12-17T18:59:46Z)
GaussianAD: Gaussian-Centric End-to-End Autonomous Driving [23.71316979650116]
視覚に基づく自動運転は、十分な性能と低コストのために大きな可能性を秘めている。既存のほとんどの方法は、決定のために密度の高い表現(例えば鳥の眼図)やスパース表現(例箱)を採用する。本稿では、ガウス中心のエンドツーエンド自動運転フレームワークを探求し、3Dセマンティックガウスを利用して、そのシーンを広義に記述する。
論文参考訳（メタデータ） (2024-12-13T18:59:30Z)
GaussianFormer-2: Probabilistic Gaussian Superposition for Efficient 3D Occupancy Prediction [55.60972844777044]
3Dセマンティック占有予測は、堅牢な視覚中心の自律運転において重要な課題である。既存のほとんどの手法は、密度の高いグリッドベースのシーン表現を利用しており、運転シーンの空間的空間性を見渡している。本稿では,各ガウス分布をその周辺領域の確率分布として解釈する確率論的ガウス重ね合わせモデルを提案する。
論文参考訳（メタデータ） (2024-12-05T17:59:58Z)
EmbodiedOcc: Embodied 3D Occupancy Prediction for Vision-based Online Scene Understanding [63.99937807085461]
3D占有予測は周囲のシーンを包括的に記述する。既存のほとんどのメソッドは、1つか数つのビューからのオフラインの認識に焦点を当てている。具体化された3次元占有予測タスクを定式化し,ガウスをベースとしたEmbodiedOccフレームワークを提案する。
論文参考訳（メタデータ） (2024-12-05T17:57:09Z)
NovelGS: Consistent Novel-view Denoising via Large Gaussian Reconstruction Model [57.92709692193132]
NovelGSは、スパースビュー画像が与えられたガウススプラッティングの拡散モデルである。我々は3Dガウスを生成するためにトランスフォーマーネットワークを経由する新しい視点を利用する。
論文参考訳（メタデータ） (2024-11-25T07:57:17Z)
GaussianOcc: Fully Self-supervised and Efficient 3D Occupancy Estimation with Gaussian Splatting [16.480043962212566]
本研究では, ガウススプラッティングとガウススプラッティングの2つの利用法を提案する。その結果,GussianOcc法では,計算コストの低い競合性能において,完全に自己監督された3次元占有率推定が可能となった。
論文参考訳（メタデータ） (2024-08-21T09:06:30Z)
ShapeSplat: A Large-scale Dataset of Gaussian Splats and Their Self-Supervised Pretraining [104.34751911174196]
ShapeNetとModelNetを用いた大規模3DGSデータセットを構築した。データセットのShapeSplatは、87のユニークなカテゴリから65Kのオブジェクトで構成されています。 textbftextitGaussian-MAEを導入し、ガウスパラメータからの表現学習の独特な利点を強調した。
論文参考訳（メタデータ） (2024-08-20T14:49:14Z)
Dynamic Gaussian Marbles for Novel View Synthesis of Casual Monocular Videos [58.22272760132996]
既存の4次元ガウス法は単分子配置が制約されていないため、この設定で劇的に失敗することを示す。単分子配置の難易度を目標とした3つのコア修正からなる動的ガウス大理石を提案する。 Nvidia Dynamic ScenesデータセットとDyCheck iPhoneデータセットを評価し,Gaussian Marblesが他のGaussianベースラインを著しく上回っていることを示す。
論文参考訳（メタデータ） (2024-06-26T19:37:07Z)
GSGAN: Adversarial Learning for Hierarchical Generation of 3D Gaussian Splats [20.833116566243408]
本稿では,Gaussianを3D GANの3次元表現として利用し,その効率的かつ明示的な特徴を活用する。生成したガウスの位置とスケールを効果的に正規化する階層的多スケールガウス表現を持つジェネレータアーキテクチャを導入する。実験結果から,最先端の3D一貫したGANと比較して,レンダリング速度(x100)が大幅に向上することが示された。
論文参考訳（メタデータ） (2024-06-05T05:52:20Z)
Semantic Gaussians: Open-Vocabulary Scene Understanding with 3D Gaussian Splatting [27.974762304763694]
セマンティック・ガウシアン(Semantic Gaussians)は,3次元ガウシアン・スプレイティングをベースとした,新しいオープン語彙シーン理解手法である。既存の手法とは異なり、様々な2次元意味的特徴を3次元ガウスの新たな意味的構成要素にマッピングする多目的投影手法を設計する。我々は,高速な推論のために,生の3Dガウスから意味成分を直接予測する3Dセマンティックネットワークを構築した。
論文参考訳（メタデータ） (2024-03-22T21:28:19Z)
Learning Segmented 3D Gaussians via Efficient Feature Unprojection for Zero-shot Neural Scene Segmentation [16.57158278095853]
ゼロショットニューラルシーンセグメンテーションはシーン理解に有効な方法である。既存のモデル、特に効率的な3Dガウス法は、コンパクトなセグメンテーションの結果を生み出すのに苦労している。セグメンテーションフィールドとしてFeature UnprojectionとFusionモジュールを提案する。本モデルでは,ゼロショットセマンティックセグメンテーションタスクのベースラインを超越し,最良ベースラインよりも10%mIoU向上を図っている。
論文参考訳（メタデータ） (2024-01-11T14:05:01Z)
Compact 3D Scene Representation via Self-Organizing Gaussian Grids [10.816451552362823]
3D Gaussian Splattingは、静的な3Dシーンをモデリングするための非常に有望なテクニックとして最近登場した。本稿では3DGSのパラメータを局所的均一性を持つ2次元グリッドに整理したコンパクトなシーン表現を提案する。本手法は,訓練時間の増加を伴わない複雑なシーンに対して,17倍から42倍の縮小係数を実現する。
論文参考訳（メタデータ） (2023-12-19T20:18:29Z)
GAvatar: Animatable 3D Gaussian Avatars with Implicit Mesh Learning [60.33970027554299]
ガウススプラッティングは、明示的(メッシュ)と暗黙的(NeRF)の両方の3D表現の利点を利用する強力な3D表現として登場した。本稿では,ガウススプラッティングを利用してテキスト記述から現実的なアニマタブルなアバターを生成する。提案手法であるGAvatarは,テキストプロンプトのみを用いて,多様なアニマタブルアバターを大規模に生成する。
論文参考訳（メタデータ） (2023-12-18T18:59:12Z)
Gaussian Grouping: Segment and Edit Anything in 3D Scenes [65.49196142146292]
ガウシアン・グルーピング(ガウシアン・グルーピング)はガウシアン・スプラッティングを拡張して,オープンワールドの3Dシーンで何かを共同で再構築・分割する。暗黙のNeRF表現と比較すると,グループ化された3次元ガウシアンは,高画質,微粒度,高効率で,あらゆるものを3次元で再構成,分割,編集することができる。
論文参考訳（メタデータ） (2023-12-01T17:09:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。