論文の概要: VoxelSplat: Dynamic Gaussian Splatting as an Effective Loss for Occupancy and Flow Prediction
- arxiv url: http://arxiv.org/abs/2506.05563v1
- Date: Thu, 05 Jun 2025 20:19:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-09 17:28:43.221653
- Title: VoxelSplat: Dynamic Gaussian Splatting as an Effective Loss for Occupancy and Flow Prediction
- Title(参考訳): VoxelSplat: 動的ガウス平滑化による機能低下とフロー予測
- Authors: Ziyue Zhu, Shenlong Wang, Jin Xie, Jiang-jiang Liu, Jingdong Wang, Jian Yang,
- Abstract要約: カメラによる占領予測の最近の進歩は、3Dセマンティクスとシーンフローの同時予測に焦点を当てている。
本稿では,これらの課題とその根本原因を解決するために,VoxelSplatという新たな正規化フレームワークを提案する。
本フレームワークは,ガウス運動をモデル化するために,予測されたシーンフローを用いて,移動物体のシーンフローを自己監督的に学習することができる。
- 参考スコア(独自算出の注目度): 46.31516096522758
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advancements in camera-based occupancy prediction have focused on the simultaneous prediction of 3D semantics and scene flow, a task that presents significant challenges due to specific difficulties, e.g., occlusions and unbalanced dynamic environments. In this paper, we analyze these challenges and their underlying causes. To address them, we propose a novel regularization framework called VoxelSplat. This framework leverages recent developments in 3D Gaussian Splatting to enhance model performance in two key ways: (i) Enhanced Semantics Supervision through 2D Projection: During training, our method decodes sparse semantic 3D Gaussians from 3D representations and projects them onto the 2D camera view. This provides additional supervision signals in the camera-visible space, allowing 2D labels to improve the learning of 3D semantics. (ii) Scene Flow Learning: Our framework uses the predicted scene flow to model the motion of Gaussians, and is thus able to learn the scene flow of moving objects in a self-supervised manner using the labels of adjacent frames. Our method can be seamlessly integrated into various existing occupancy models, enhancing performance without increasing inference time. Extensive experiments on benchmark datasets demonstrate the effectiveness of VoxelSplat in improving the accuracy of both semantic occupancy and scene flow estimation. The project page and codes are available at https://zzy816.github.io/VoxelSplat-Demo/.
- Abstract(参考訳): 近年,3次元セマンティクスとシーンフローの同時予測に焦点が当てられている。
本稿では,これらの課題とその根本原因について分析する。
そこで本研究では,VoxelSplatと呼ばれる新しい正規化フレームワークを提案する。
このフレームワークは、3Dガウススプラッティングの最近の発展を活用し、モデル性能を2つの重要な方法で向上させる。
(i)2Dプロジェクションによるセマンティックス・スーパービジョンの強化:トレーニング中、我々の方法は3D表現からスパースセマンティックな3Dガウスアンをデコードし、2Dカメラビューに投影する。
これにより、カメラ可視空間における監視信号が追加され、2Dラベルは3Dセマンティクスの学習を改善することができる。
(II)シーンフロー学習:我々のフレームワークはガウス運動をモデル化するために予測されたシーンフローを使用し、隣接するフレームのラベルを用いて移動物体のシーンフローを自己監督的に学習することができる。
提案手法は,既存の既存モデルにシームレスに統合することができ,推論時間を増やすことなく性能を向上させることができる。
ベンチマークデータセットの大規模な実験は、セマンティック占有率とシーンフロー推定の精度を向上させるためにVoxelSplatの有効性を示す。
プロジェクトページとコードはhttps://zzy816.github.io/VoxelSplat-Demo/で公開されている。
関連論文リスト
- EVolSplat: Efficient Volume-based Gaussian Splatting for Urban View Synthesis [61.1662426227688]
既存のNeRFおよび3DGSベースの手法は、フォトリアリスティックレンダリングを実現する上で有望な結果を示すが、スローでシーンごとの最適化が必要である。
本稿では,都市景観を対象とした効率的な3次元ガウススプレイティングモデルEVolSplatを紹介する。
論文 参考訳(メタデータ) (2025-03-26T02:47:27Z) - ManiTrend: Bridging Future Generation and Action Prediction with 3D Flow for Robotic Manipulation [11.233768932957771]
3次元流れは、シーン内の3次元粒子の動きの傾向を表す。
ManiTrendは3D粒子、視覚観察、操作動作のダイナミクスをモデル化する統合フレームワークである。
提案手法は最先端の性能を高い効率で達成する。
論文 参考訳(メタデータ) (2025-02-14T09:13:57Z) - GaussRender: Learning 3D Occupancy with Gaussian Rendering [86.89653628311565]
GaussRenderは、投影的一貫性を強制することによって3D占有学習を改善するモジュールである。
提案手法は,不整合な2次元プロジェクションを生成する3次元構成をペナライズすることにより,より一貫性のある3次元構造を実現する。
論文 参考訳(メタデータ) (2025-02-07T16:07:51Z) - A Lesson in Splats: Teacher-Guided Diffusion for 3D Gaussian Splats Generation with 2D Supervision [65.33043028101471]
本研究では,ガウスプレートの拡散モデルであるSplatDiffusionを導入し,単一画像から3次元構造を生成する。
既存の方法は決定論的フィードフォワード予測に依存しており、2Dデータからの3D推論の本質的な曖昧さを扱う能力を制限する。
論文 参考訳(メタデータ) (2024-12-01T00:29:57Z) - HUGS: Holistic Urban 3D Scene Understanding via Gaussian Splatting [53.6394928681237]
RGB画像に基づく都市景観の全体的理解は、難しいが重要な問題である。
我々の主な考え方は、静的な3Dガウスと動的なガウスの組合せを用いた幾何学、外観、意味論、運動の合同最適化である。
提案手法は,2次元および3次元のセマンティック情報を高精度に生成し,新たな視点をリアルタイムに描画する機能を提供する。
論文 参考訳(メタデータ) (2024-03-19T13:39:05Z) - OccFlowNet: Towards Self-supervised Occupancy Estimation via
Differentiable Rendering and Occupancy Flow [0.6577148087211809]
本稿では,2次元ラベルのみを用いたニューラルレイディアンス場(NeRF)による占有率推定手法を提案する。
深度とセマンティックマップの予測や,2次元監視のみに基づく3次元ネットワークのトレーニングには,可変ボリュームレンダリングを用いる。
論文 参考訳(メタデータ) (2024-02-20T08:04:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。