論文の概要: GaussianFlowOcc: Sparse and Weakly Supervised Occupancy Estimation using Gaussian Splatting and Temporal Flow
- arxiv url: http://arxiv.org/abs/2502.17288v2
- Date: Tue, 25 Feb 2025 08:07:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-26 13:17:50.592775
- Title: GaussianFlowOcc: Sparse and Weakly Supervised Occupancy Estimation using Gaussian Splatting and Temporal Flow
- Title(参考訳): Gaussian FlowOcc: Gassian Splatting と Temporal Flow を用いたSparse and Weakly Supervised Occupancy Estimation
- Authors: Simon Boeder, Fabian Gigengack, Benjamin Risse,
- Abstract要約: 職業推定は3次元コンピュータビジョンにおいて顕著な課題となっている。
本稿では,GaussianFlowOccと呼ばれる,新規な占有率推定手法を提案する。
ガウススプラッティングにインスパイアされ、伝統的な密度の強いボクセル格子をスパース3Dガウス表現に置き換える。
- 参考スコア(独自算出の注目度): 0.5852077003870417
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Occupancy estimation has become a prominent task in 3D computer vision, particularly within the autonomous driving community. In this paper, we present a novel approach to occupancy estimation, termed GaussianFlowOcc, which is inspired by Gaussian Splatting and replaces traditional dense voxel grids with a sparse 3D Gaussian representation. Our efficient model architecture based on a Gaussian Transformer significantly reduces computational and memory requirements by eliminating the need for expensive 3D convolutions used with inefficient voxel-based representations that predominantly represent empty 3D spaces. GaussianFlowOcc effectively captures scene dynamics by estimating temporal flow for each Gaussian during the overall network training process, offering a straightforward solution to a complex problem that is often neglected by existing methods. Moreover, GaussianFlowOcc is designed for scalability, as it employs weak supervision and does not require costly dense 3D voxel annotations based on additional data (e.g., LiDAR). Through extensive experimentation, we demonstrate that GaussianFlowOcc significantly outperforms all previous methods for weakly supervised occupancy estimation on the nuScenes dataset while featuring an inference speed that is 50 times faster than current SOTA.
- Abstract(参考訳): 職業推定は3Dコンピュータビジョンにおいて特に自動運転コミュニティにおいて顕著な課題となっている。
本稿では,ガウス的スプラッティングにインスパイアされたガウス的 FlowOcc という,従来の高密度なボクセル格子をスパースな3次元ガウス表現で置き換えた,占有推定の新しい手法を提案する。
ガウス変換器に基づく効率的なモデルアーキテクチャは、空の3次元空間を主に表現する非効率なボクセル表現で使用される高価な3次元畳み込みを不要にすることで、計算とメモリの要求を大幅に削減する。
GaussianFlowOccは,ネットワークトレーニングプロセス全体において,各ガウスの時間的フローを推定することにより,シーンダイナミクスを効果的にキャプチャする。
さらに、GaussianFlowOccは、管理が弱いためスケーラビリティのために設計されており、追加データ(例えばLiDAR)に基づいた高密度な3Dボクセルアノテーションを必要としない。
広範にわたる実験により,GaussianFlowOccは,現在のSOTAの50倍高速な推論速度を特徴とし,nuScenesデータセット上の弱教師付き占有率推定法を著しく上回ることを示した。
関連論文リスト
- ProtoGS: Efficient and High-Quality Rendering with 3D Gaussian Prototypes [81.48624894781257]
3D Gaussian Splatting (3DGS) は、新しいビュー合成において大きな進歩を遂げてきたが、ガウスプリミティブのかなりの数によって制限されている。
近年の手法では、密度の高いガウスの記憶容量を圧縮することでこの問題に対処しているが、レンダリングの品質と効率の維持には失敗している。
本稿では,ガウスの原始体を表現するためにガウスのプロトタイプを学習するProtoGSを提案し,視覚的品質を犠牲にすることなくガウスの総量を大幅に削減する。
論文 参考訳(メタデータ) (2025-03-21T18:55:14Z) - TT-GaussOcc: Test-Time Compute for Self-Supervised Occupancy Prediction via Spatio-Temporal Gaussian Splatting [32.57885385644153]
自己監督型3D占有予測は、コストのかかる3Dアノテーションを必要とせずに複雑な運転シーンを理解するための有望なソリューションを提供する。
本稿ではTT-GaussOccと呼ばれる実用的で柔軟なテスト時間占有予測フレームワークを提案する。
TT-GaussOccは、オフライントレーニングなしでmIoUで46%の自監督ベースラインを越え、より微細なボキセル解像度を2.6FPSの推論速度でサポートすることを示す。
論文 参考訳(メタデータ) (2025-03-11T14:37:39Z) - Manboformer: Learning Gaussian Representations via Spatial-temporal Attention Mechanism [0.3277163122167433]
ボクセルベースのグリッド予測と比較して、自律運転のための3Dセマンティック占有予測の分野において、ガウシアンフォーマーは3Dガウシアンを用いてオブジェクトに基づくスパースな3Dセマンティックガウシアンシーンを記述することを提案した。
実験の結果,本手法で要求されるガウス関数は,元の高密度グリッドネットワークのクエリ分解能よりも大きく,性能が損なわれていることがわかった。
論文 参考訳(メタデータ) (2025-03-06T09:40:46Z) - GaussianFormer-2: Probabilistic Gaussian Superposition for Efficient 3D Occupancy Prediction [55.60972844777044]
3Dセマンティック占有予測は、堅牢な視覚中心の自律運転において重要な課題である。
既存のほとんどの手法は、密度の高いグリッドベースのシーン表現を利用しており、運転シーンの空間的空間性を見渡している。
本稿では,各ガウス分布をその周辺領域の確率分布として解釈する確率論的ガウス重ね合わせモデルを提案する。
論文 参考訳(メタデータ) (2024-12-05T17:59:58Z) - L3DG: Latent 3D Gaussian Diffusion [74.36431175937285]
L3DGは3次元ガウス拡散定式化による3次元ガウスの3次元モデリングのための最初のアプローチである。
我々は、部屋の大きさのシーンで効率的に操作するために、スパース畳み込みアーキテクチャーを用いている。
3Dガウス表現を利用することで、生成されたシーンを任意の視点からリアルタイムでレンダリングすることができる。
論文 参考訳(メタデータ) (2024-10-17T13:19:32Z) - OPUS: Occupancy Prediction Using a Sparse Set [64.60854562502523]
学習可能なクエリの集合を用いて、占有された場所とクラスを同時に予測するフレームワークを提案する。
OPUSには、モデルパフォーマンスを高めるための非自明な戦略が組み込まれている。
最も軽量なモデルではOcc3D-nuScenesデータセットの2倍 FPS に優れたRayIoUが得られる一方、最も重いモデルは6.1 RayIoUを上回ります。
論文 参考訳(メタデータ) (2024-09-14T07:44:22Z) - GaussianOcc: Fully Self-supervised and Efficient 3D Occupancy Estimation with Gaussian Splatting [16.480043962212566]
本研究では, ガウススプラッティングとガウススプラッティングの2つの利用法を提案する。
その結果,GussianOcc法では,計算コストの低い競合性能において,完全に自己監督された3次元占有率推定が可能となった。
論文 参考訳(メタデータ) (2024-08-21T09:06:30Z) - latentSplat: Autoencoding Variational Gaussians for Fast Generalizable 3D Reconstruction [48.86083272054711]
latentSplatは3D潜在空間における意味ガウスを予測し、軽量な生成型2Dアーキテクチャで切り落としてデコードする手法である。
latentSplatは、高速でスケーラブルで高解像度なデータでありながら、復元品質と一般化におけるこれまでの成果よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-03-24T20:48:36Z) - GES: Generalized Exponential Splatting for Efficient Radiance Field Rendering [112.16239342037714]
GES(Generalized Exponential Splatting)は、GEF(Generalized Exponential Function)を用いて3Dシーンをモデル化する斬新な表現である。
周波数変調損失の助けを借りて、GESは新規なビュー合成ベンチマークにおいて競合性能を達成する。
論文 参考訳(メタデータ) (2024-02-15T17:32:50Z) - GS-SLAM: Dense Visual SLAM with 3D Gaussian Splatting [51.96353586773191]
我々は,まず3次元ガウス表現を利用したtextbfGS-SLAM を提案する。
提案手法は,地図の最適化とRGB-Dレンダリングの大幅な高速化を実現するリアルタイム微分可能なスプレイティングレンダリングパイプラインを利用する。
提案手法は,Replica,TUM-RGBDデータセット上の既存の最先端リアルタイム手法と比較して,競争性能が向上する。
論文 参考訳(メタデータ) (2023-11-20T12:08:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。