論文の概要: TT-Occ: Test-Time Compute for Self-Supervised Occupancy via Spatio-Temporal Gaussian Splatting
- arxiv url: http://arxiv.org/abs/2503.08485v2
- Date: Fri, 06 Jun 2025 08:21:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-09 17:28:42.894062
- Title: TT-Occ: Test-Time Compute for Self-Supervised Occupancy via Spatio-Temporal Gaussian Splatting
- Title(参考訳): TT-Occ: 時空間ガウススプラッティングによる自励式自励式テスト時間計算
- Authors: Fengyi Zhang, Huitong Yang, Zheng Zhang, Zi Huang, Yadan Luo,
- Abstract要約: 自己監督型3D占有予測は、コストのかかる3Dアノテーションを必要とせずに、シーンの運転を理解するための有望なソリューションを提供する。
TT-Occと呼ばれる実用的で柔軟なテストタイム占有予測フレームワークを提案する。
- 参考スコア(独自算出の注目度): 32.57885385644153
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self-supervised 3D occupancy prediction offers a promising solution for understanding complex driving scenes without requiring costly 3D annotations. However, training dense occupancy decoders to capture fine-grained geometry and semantics can demand hundreds of GPU hours, and once trained, such models struggle to adapt to varying voxel resolutions or novel object categories without extensive retraining. To overcome these limitations, we propose a practical and flexible test-time occupancy prediction framework termed TT-Occ. Our method incrementally constructs, optimizes and voxelizes time-aware 3D Gaussians from raw sensor streams by integrating vision foundation models (VLMs) at runtime. The flexible nature of 3D Gaussians allows voxelization at arbitrary user-specified resolutions, while the generalization ability of VLMs enables accurate perception and open-vocabulary recognition, without any network training or fine-tuning. Specifically, TT-Occ operates in a lift-track-voxelize symphony: We first lift the geometry and semantics of surrounding-view extracted from VLMs to instantiate Gaussians at 3D space; Next, we track dynamic Gaussians while accumulating static ones to complete the scene and enforce temporal consistency; Finally, we voxelize the optimized Gaussians to generate occupancy prediction. Optionally, inherent noise in VLM predictions and tracking is mitigated by periodically smoothing neighboring Gaussians during optimization. To validate the generality and effectiveness of our framework, we offer two variants: one LiDAR-based and one vision-centric, and conduct extensive experiments on Occ3D and nuCraft benchmarks with varying voxel resolutions. Code will be available at https://github.com/Xian-Bei/TT-Occ.
- Abstract(参考訳): 自己監督型3D占有予測は、コストのかかる3Dアノテーションを必要とせずに複雑な運転シーンを理解するための有望なソリューションを提供する。
しかし、微粒な幾何やセマンティクスを捉えるために密度の高い占有デコーダを訓練すると、数百のGPU時間が必要となり、訓練が完了すれば、大規模なリトレーニングなしに様々なボクセル解像度や新しいオブジェクトカテゴリに適応するのに苦労する。
これらの制約を克服するために,TT-Occ と呼ばれる実用的で柔軟なテスト時間占有予測フレームワークを提案する。
本手法は,視覚基礎モデル(VLM)を実行時に統合することにより,生のセンサストリームから時間認識型3Dガウスアンを段階的に構築し,最適化し,ボキセル化する。
3Dガウスの柔軟な性質は、任意のユーザ指定の解像度でのボクセル化を可能にし、VLMの一般化能力はネットワークトレーニングや微調整なしに正確な認識と開語彙認識を可能にする。
TT-Occは、まず、VLMから抽出した周囲ビューの幾何学と意味を持ち上げて、3次元空間でガウシアンをインスタンス化する。次に、静的なガウシアンを蓄積しながら静的なガウシアンを追跡してシーンを完了し、時間的一貫性を強制する。最後に、最適化されたガウシアンを酸化して、占有率予測を生成する。
任意に、VLM予測と追跡に固有のノイズは、最適化中に近隣のガウス人を周期的に滑らかにすることで軽減される。
フレームワークの汎用性と有効性を検証するために,1つのLiDARベースと1つのビジョン中心の2つのバリエーションを提供し,様々なボクセル解像度を持つOcc3DおよびnuCraftベンチマークで広範な実験を行う。
コードはhttps://github.com/Xian-Bei/TT-Occ.comで入手できる。
関連論文リスト
- EVolSplat: Efficient Volume-based Gaussian Splatting for Urban View Synthesis [61.1662426227688]
既存のNeRFおよび3DGSベースの手法は、フォトリアリスティックレンダリングを実現する上で有望な結果を示すが、スローでシーンごとの最適化が必要である。
本稿では,都市景観を対象とした効率的な3次元ガウススプレイティングモデルEVolSplatを紹介する。
論文 参考訳(メタデータ) (2025-03-26T02:47:27Z) - GaussianFlowOcc: Sparse and Weakly Supervised Occupancy Estimation using Gaussian Splatting and Temporal Flow [0.5852077003870417]
職業推定は3次元コンピュータビジョンにおいて顕著な課題となっている。
本稿では,GaussianFlowOccと呼ばれる,新規な占有率推定手法を提案する。
ガウススプラッティングにインスパイアされ、伝統的な密度の強いボクセル格子をスパース3Dガウス表現に置き換える。
論文 参考訳(メタデータ) (2025-02-24T16:16:01Z) - OG-Gaussian: Occupancy Based Street Gaussians for Autonomous Driving [12.47557991785691]
我々は,LiDAR点雲をサラウンドビューカメラ画像から生成されたOG(Occupancy Grids)に置き換える新しいアプローチであるOG-Gaussianを提案する。
提案手法は,OGのセマンティック情報を利用して静的道路背景から動的車両を分離し,これらのグリッドを2つの初期点雲に変換し,静的物体と動的物体の両方を再構成する。
Openデータセットの実験では、OG-Gaussianは復元品質とレンダリング速度の点で現在の最先端と同等であり、平均PSNRは35.13、レンダリング速度は143 FPSであることが示された。
論文 参考訳(メタデータ) (2025-02-20T04:00:47Z) - GPS-Gaussian+: Generalizable Pixel-wise 3D Gaussian Splatting for Real-Time Human-Scene Rendering from Sparse Views [67.34073368933814]
スパースビューカメラ設定下での高解像度画像レンダリングのための一般化可能なガウススプラッティング手法を提案する。
我々は,人間のみのデータや人景データに基づいてガウスパラメータ回帰モジュールをトレーニングし,深度推定モジュールと共同で2次元パラメータマップを3次元空間に引き上げる。
いくつかのデータセットに対する実験により、我々の手法はレンダリング速度を超越しながら最先端の手法より優れていることが示された。
論文 参考訳(メタデータ) (2024-11-18T08:18:44Z) - DeSiRe-GS: 4D Street Gaussians for Static-Dynamic Decomposition and Surface Reconstruction for Urban Driving Scenes [71.61083731844282]
本稿では,自己教師型ガウススプラッティング表現であるDeSiRe-GSについて述べる。
複雑な駆動シナリオにおいて、効率的な静的・動的分解と高忠実な表面再構成を可能にする。
論文 参考訳(メタデータ) (2024-11-18T05:49:16Z) - ALOcc: Adaptive Lifting-based 3D Semantic Occupancy and Cost Volume-based Flow Prediction [89.89610257714006]
既存の手法は、これらのタスクの要求に応えるために高い精度を優先する。
本稿では,3次元セマンティック占有率予測とフロー推定のための一連の改善点を紹介する。
私たちの純粋な時間的アーキテクチャフレームワークであるALOccは、速度と精度の最適なトレードオフを実現しています。
論文 参考訳(メタデータ) (2024-11-12T11:32:56Z) - OPUS: Occupancy Prediction Using a Sparse Set [64.60854562502523]
学習可能なクエリの集合を用いて、占有された場所とクラスを同時に予測するフレームワークを提案する。
OPUSには、モデルパフォーマンスを高めるための非自明な戦略が組み込まれている。
最も軽量なモデルではOcc3D-nuScenesデータセットの2倍 FPS に優れたRayIoUが得られる一方、最も重いモデルは6.1 RayIoUを上回ります。
論文 参考訳(メタデータ) (2024-09-14T07:44:22Z) - GaussianOcc: Fully Self-supervised and Efficient 3D Occupancy Estimation with Gaussian Splatting [16.480043962212566]
本研究では, ガウススプラッティングとガウススプラッティングの2つの利用法を提案する。
その結果,GussianOcc法では,計算コストの低い競合性能において,完全に自己監督された3次元占有率推定が可能となった。
論文 参考訳(メタデータ) (2024-08-21T09:06:30Z) - PUP 3D-GS: Principled Uncertainty Pruning for 3D Gaussian Splatting [59.277480452459315]
本研究では,視覚的忠実度と前景の細部を高い圧縮比で保持する原理的感度プルーニングスコアを提案する。
また,トレーニングパイプラインを変更することなく,事前訓練した任意の3D-GSモデルに適用可能な複数ラウンドプルーファインパイプラインを提案する。
論文 参考訳(メタデータ) (2024-06-14T17:53:55Z) - GPS-Gaussian: Generalizable Pixel-wise 3D Gaussian Splatting for Real-time Human Novel View Synthesis [70.24111297192057]
我々は、文字の新たなビューをリアルタイムに合成するための新しいアプローチ、GPS-Gaussianを提案する。
提案手法は,スパースビューカメラ設定下での2K解像度のレンダリングを可能にする。
論文 参考訳(メタデータ) (2023-12-04T18:59:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。