論文の概要: TT-GaussOcc: Test-Time Compute for Self-Supervised Occupancy Prediction via Spatio-Temporal Gaussian Splatting
- arxiv url: http://arxiv.org/abs/2503.08485v1
- Date: Tue, 11 Mar 2025 14:37:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-12 15:42:38.696380
- Title: TT-GaussOcc: Test-Time Compute for Self-Supervised Occupancy Prediction via Spatio-Temporal Gaussian Splatting
- Title(参考訳): TT-GaussOcc:時空間ガウススプレイティングによる自己監督的職業予測のためのテスト時間計算
- Authors: Fengyi Zhang, Huitong Yang, Zheng Zhang, Zi Huang, Yadan Luo,
- Abstract要約: 自己監督型3D占有予測は、コストのかかる3Dアノテーションを必要とせずに複雑な運転シーンを理解するための有望なソリューションを提供する。
本稿ではTT-GaussOccと呼ばれる実用的で柔軟なテスト時間占有予測フレームワークを提案する。
TT-GaussOccは、オフライントレーニングなしでmIoUで46%の自監督ベースラインを越え、より微細なボキセル解像度を2.6FPSの推論速度でサポートすることを示す。
- 参考スコア(独自算出の注目度): 32.57885385644153
- License:
- Abstract: Self-supervised 3D occupancy prediction offers a promising solution for understanding complex driving scenes without requiring costly 3D annotations. However, training dense voxel decoders to capture fine-grained geometry and semantics can demand hundreds of GPU hours, and such models often fail to adapt to varying voxel resolutions or new classes without extensive retraining. To overcome these limitations, we propose a practical and flexible test-time occupancy prediction framework termed TT-GaussOcc. Our approach incrementally optimizes time-aware 3D Gaussians instantiated from raw sensor streams at runtime, enabling voxelization at arbitrary user-specified resolution. Specifically, TT-GaussOcc operates in a "lift-move-voxel" symphony: we first "lift" surrounding-view semantics obtained from 2D vision foundation models (VLMs) to instantiate Gaussians at non-empty 3D space; Next, we "move" dynamic Gaussians from previous frames along estimated Gaussian scene flow to complete appearance and eliminate trailing artifacts of fast-moving objects, while accumulating static Gaussians to enforce temporal consistency; Finally, we mitigate inherent noises in semantic predictions and scene flow vectors by periodically smoothing neighboring Gaussians during optimization, using proposed trilateral RBF kernels that jointly consider color, semantic, and spatial affinities. The historical static and current dynamic Gaussians are then combined and voxelized to generate occupancy prediction. Extensive experiments on Occ3D and nuCraft with varying voxel resolutions demonstrate that TT-GaussOcc surpasses self-supervised baselines by 46% on mIoU without any offline training, and supports finer voxel resolutions at 2.6 FPS inference speed.
- Abstract(参考訳): 自己監督型3D占有予測は、コストのかかる3Dアノテーションを必要とせずに複雑な運転シーンを理解するための有望なソリューションを提供する。
しかし、密度の高いボクセルデコーダを訓練して、細かい幾何学やセマンティクスを捉えるには、数百時間のGPUを必要とする可能性がある。
これらの制約を克服するために,TT-GaussOccと呼ばれる実用的で柔軟なテスト時間占有予測フレームワークを提案する。
提案手法は,生のセンサストリームからインスタンス化された3Dガウシアンを実行時に段階的に最適化し,任意のユーザ指定解像度でボキセル化を実現する。
具体的には、TT-GaussOccは「リフト・ムーブ・ボクセル」交響曲で、まずは2次元視覚基礎モデル(VLM)から得られた周囲のセマンティクスを「リフト」して、空でない3次元空間でガウスアンをインスタンス化する。次に、推定されたガウスのシーンフローに沿って、推定されたガウスのシーンフローに沿って、動的ガウスアンを「移動」して、時間的一貫性を保ちながら静的ガウスアンを蓄積する。
その後、歴史的な静的および現在の動的ガウスが組み合わされて酸化され、占有率予測が生成される。
Occ3D と nuCraft の様々なボクセル解像度による大規模な実験は、TT-GaussOcc がオフライントレーニングなしで mIoU 上で 46% の自監督ベースラインを越え、より微細なボクセル解像度を 2.6 FPS の推論速度でサポートすることを示した。
関連論文リスト
- OG-Gaussian: Occupancy Based Street Gaussians for Autonomous Driving [12.47557991785691]
我々は,LiDAR点雲をサラウンドビューカメラ画像から生成されたOG(Occupancy Grids)に置き換える新しいアプローチであるOG-Gaussianを提案する。
提案手法は,OGのセマンティック情報を利用して静的道路背景から動的車両を分離し,これらのグリッドを2つの初期点雲に変換し,静的物体と動的物体の両方を再構成する。
Openデータセットの実験では、OG-Gaussianは復元品質とレンダリング速度の点で現在の最先端と同等であり、平均PSNRは35.13、レンダリング速度は143 FPSであることが示された。
論文 参考訳(メタデータ) (2025-02-20T04:00:47Z) - GaussRender: Learning 3D Occupancy with Gaussian Rendering [84.60008381280286]
GaussRenderは、Voxelベースの監視を強化する3Dから2Dへのプラグアンドプレイのリジェクション損失である。
提案手法は, 任意の2次元視点に3次元ボクセル表現を投影し, ガウススプラッティングをボクセルの効率的かつ微分可能なレンダリングプロキシとして活用する。
論文 参考訳(メタデータ) (2025-02-07T16:07:51Z) - GPS-Gaussian+: Generalizable Pixel-wise 3D Gaussian Splatting for Real-Time Human-Scene Rendering from Sparse Views [67.34073368933814]
スパースビューカメラ設定下での高解像度画像レンダリングのための一般化可能なガウススプラッティング手法を提案する。
我々は,人間のみのデータや人景データに基づいてガウスパラメータ回帰モジュールをトレーニングし,深度推定モジュールと共同で2次元パラメータマップを3次元空間に引き上げる。
いくつかのデータセットに対する実験により、我々の手法はレンダリング速度を超越しながら最先端の手法より優れていることが示された。
論文 参考訳(メタデータ) (2024-11-18T08:18:44Z) - DeSiRe-GS: 4D Street Gaussians for Static-Dynamic Decomposition and Surface Reconstruction for Urban Driving Scenes [71.61083731844282]
本稿では,自己教師型ガウススプラッティング表現であるDeSiRe-GSについて述べる。
複雑な駆動シナリオにおいて、効率的な静的・動的分解と高忠実な表面再構成を可能にする。
論文 参考訳(メタデータ) (2024-11-18T05:49:16Z) - ALOcc: Adaptive Lifting-based 3D Semantic Occupancy and Cost Volume-based Flow Prediction [89.89610257714006]
既存の手法は、これらのタスクの要求に応えるために高い精度を優先する。
本稿では,3次元セマンティック占有率予測とフロー推定のための一連の改善点を紹介する。
私たちの純粋な時間的アーキテクチャフレームワークであるALOccは、速度と精度の最適なトレードオフを実現しています。
論文 参考訳(メタデータ) (2024-11-12T11:32:56Z) - OPUS: Occupancy Prediction Using a Sparse Set [64.60854562502523]
学習可能なクエリの集合を用いて、占有された場所とクラスを同時に予測するフレームワークを提案する。
OPUSには、モデルパフォーマンスを高めるための非自明な戦略が組み込まれている。
最も軽量なモデルではOcc3D-nuScenesデータセットの2倍 FPS に優れたRayIoUが得られる一方、最も重いモデルは6.1 RayIoUを上回ります。
論文 参考訳(メタデータ) (2024-09-14T07:44:22Z) - GaussianOcc: Fully Self-supervised and Efficient 3D Occupancy Estimation with Gaussian Splatting [16.480043962212566]
本研究では, ガウススプラッティングとガウススプラッティングの2つの利用法を提案する。
その結果,GussianOcc法では,計算コストの低い競合性能において,完全に自己監督された3次元占有率推定が可能となった。
論文 参考訳(メタデータ) (2024-08-21T09:06:30Z) - CoherentGS: Sparse Novel View Synthesis with Coherent 3D Gaussians [18.42203035154126]
2次元画像空間で制御できる構造付きガウス表現を導入する。
次に、ガウス群、特にその位置を制約し、最適化中に独立に動くのを防ぐ。
我々は,様々な場面における最先端のスパースビュー NeRF ベースのアプローチと比較して,顕著な改善を示した。
論文 参考訳(メタデータ) (2024-03-28T15:27:13Z) - GPS-Gaussian: Generalizable Pixel-wise 3D Gaussian Splatting for Real-time Human Novel View Synthesis [70.24111297192057]
我々は、文字の新たなビューをリアルタイムに合成するための新しいアプローチ、GPS-Gaussianを提案する。
提案手法は,スパースビューカメラ設定下での2K解像度のレンダリングを可能にする。
論文 参考訳(メタデータ) (2023-12-04T18:59:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。