論文の概要: GaussianFlowOcc: Sparse and Weakly Supervised Occupancy Estimation using Gaussian Splatting and Temporal Flow
- arxiv url: http://arxiv.org/abs/2502.17288v2
- Date: Tue, 25 Feb 2025 08:07:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-26 11:59:00.450434
- Title: GaussianFlowOcc: Sparse and Weakly Supervised Occupancy Estimation using Gaussian Splatting and Temporal Flow
- Title(参考訳): Gaussian FlowOcc: Gassian Splatting と Temporal Flow を用いたSparse and Weakly Supervised Occupancy Estimation
- Authors: Simon Boeder, Fabian Gigengack, Benjamin Risse,
- Abstract要約: 職業推定は3次元コンピュータビジョンにおいて顕著な課題となっている。
本稿では,GaussianFlowOccと呼ばれる,新規な占有率推定手法を提案する。
ガウススプラッティングにインスパイアされ、伝統的な密度の強いボクセル格子をスパース3Dガウス表現に置き換える。
- 参考スコア(独自算出の注目度): 0.5852077003870417
- License:
- Abstract: Occupancy estimation has become a prominent task in 3D computer vision, particularly within the autonomous driving community. In this paper, we present a novel approach to occupancy estimation, termed GaussianFlowOcc, which is inspired by Gaussian Splatting and replaces traditional dense voxel grids with a sparse 3D Gaussian representation. Our efficient model architecture based on a Gaussian Transformer significantly reduces computational and memory requirements by eliminating the need for expensive 3D convolutions used with inefficient voxel-based representations that predominantly represent empty 3D spaces. GaussianFlowOcc effectively captures scene dynamics by estimating temporal flow for each Gaussian during the overall network training process, offering a straightforward solution to a complex problem that is often neglected by existing methods. Moreover, GaussianFlowOcc is designed for scalability, as it employs weak supervision and does not require costly dense 3D voxel annotations based on additional data (e.g., LiDAR). Through extensive experimentation, we demonstrate that GaussianFlowOcc significantly outperforms all previous methods for weakly supervised occupancy estimation on the nuScenes dataset while featuring an inference speed that is 50 times faster than current SOTA.
- Abstract(参考訳): 職業推定は3Dコンピュータビジョンにおいて特に自動運転コミュニティにおいて顕著な課題となっている。
本稿では,ガウス的スプラッティングにインスパイアされたガウス的 FlowOcc という,従来の高密度なボクセル格子をスパースな3次元ガウス表現で置き換えた,占有推定の新しい手法を提案する。
ガウス変換器に基づく効率的なモデルアーキテクチャは、空の3次元空間を主に表現する非効率なボクセル表現で使用される高価な3次元畳み込みを不要にすることで、計算とメモリの要求を大幅に削減する。
GaussianFlowOccは,ネットワークトレーニングプロセス全体において,各ガウスの時間的フローを推定することにより,シーンダイナミクスを効果的にキャプチャする。
さらに、GaussianFlowOccは、管理が弱いためスケーラビリティのために設計されており、追加データ(例えばLiDAR)に基づいた高密度な3Dボクセルアノテーションを必要としない。
広範にわたる実験により,GaussianFlowOccは,現在のSOTAの50倍高速な推論速度を特徴とし,nuScenesデータセット上の弱教師付き占有率推定法を著しく上回ることを示した。
関連論文リスト
- TSGaussian: Semantic and Depth-Guided Target-Specific Gaussian Splatting from Sparse Views [18.050257821756148]
TSGaussianは、新しいビュー合成タスクにおける幾何学的劣化を避けるために、意味的制約と深さ事前の制約を組み合わせる新しいフレームワークである。
提案手法は,バックグラウンドアロケーションを最小化しながら,指定された目標に対する計算資源の優先順位付けを行う。
大規模な実験により、TSGaussianは3つの標準データセット上で最先端の手法より優れていることが示された。
論文 参考訳(メタデータ) (2024-12-13T11:26:38Z) - GaussianFormer-2: Probabilistic Gaussian Superposition for Efficient 3D Occupancy Prediction [55.60972844777044]
3Dセマンティック占有予測は、堅牢な視覚中心の自律運転において重要な課題である。
既存のほとんどの手法は、密度の高いグリッドベースのシーン表現を利用しており、運転シーンの空間的空間性を見渡している。
本稿では,各ガウス分布をその周辺領域の確率分布として解釈する確率論的ガウス重ね合わせモデルを提案する。
論文 参考訳(メタデータ) (2024-12-05T17:59:58Z) - L3DG: Latent 3D Gaussian Diffusion [74.36431175937285]
L3DGは3次元ガウス拡散定式化による3次元ガウスの3次元モデリングのための最初のアプローチである。
我々は、部屋の大きさのシーンで効率的に操作するために、スパース畳み込みアーキテクチャーを用いている。
3Dガウス表現を利用することで、生成されたシーンを任意の視点からリアルタイムでレンダリングすることができる。
論文 参考訳(メタデータ) (2024-10-17T13:19:32Z) - OPUS: Occupancy Prediction Using a Sparse Set [64.60854562502523]
学習可能なクエリの集合を用いて、占有された場所とクラスを同時に予測するフレームワークを提案する。
OPUSには、モデルパフォーマンスを高めるための非自明な戦略が組み込まれている。
最も軽量なモデルではOcc3D-nuScenesデータセットの2倍 FPS に優れたRayIoUが得られる一方、最も重いモデルは6.1 RayIoUを上回ります。
論文 参考訳(メタデータ) (2024-09-14T07:44:22Z) - GaussianOcc: Fully Self-supervised and Efficient 3D Occupancy Estimation with Gaussian Splatting [16.480043962212566]
本研究では, ガウススプラッティングとガウススプラッティングの2つの利用法を提案する。
その結果,GussianOcc法では,計算コストの低い競合性能において,完全に自己監督された3次元占有率推定が可能となった。
論文 参考訳(メタデータ) (2024-08-21T09:06:30Z) - latentSplat: Autoencoding Variational Gaussians for Fast Generalizable 3D Reconstruction [48.86083272054711]
latentSplatは3D潜在空間における意味ガウスを予測し、軽量な生成型2Dアーキテクチャで切り落としてデコードする手法である。
latentSplatは、高速でスケーラブルで高解像度なデータでありながら、復元品質と一般化におけるこれまでの成果よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-03-24T20:48:36Z) - GES: Generalized Exponential Splatting for Efficient Radiance Field Rendering [112.16239342037714]
GES(Generalized Exponential Splatting)は、GEF(Generalized Exponential Function)を用いて3Dシーンをモデル化する斬新な表現である。
周波数変調損失の助けを借りて、GESは新規なビュー合成ベンチマークにおいて競合性能を達成する。
論文 参考訳(メタデータ) (2024-02-15T17:32:50Z) - GS-SLAM: Dense Visual SLAM with 3D Gaussian Splatting [51.96353586773191]
我々は,まず3次元ガウス表現を利用したtextbfGS-SLAM を提案する。
提案手法は,地図の最適化とRGB-Dレンダリングの大幅な高速化を実現するリアルタイム微分可能なスプレイティングレンダリングパイプラインを利用する。
提案手法は,Replica,TUM-RGBDデータセット上の既存の最先端リアルタイム手法と比較して,競争性能が向上する。
論文 参考訳(メタデータ) (2023-11-20T12:08:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。