論文の概要: STCOcc: Sparse Spatial-Temporal Cascade Renovation for 3D Occupancy and Scene Flow Prediction
- arxiv url: http://arxiv.org/abs/2504.19749v1
- Date: Mon, 28 Apr 2025 12:49:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:54.438618
- Title: STCOcc: Sparse Spatial-Temporal Cascade Renovation for 3D Occupancy and Scene Flow Prediction
- Title(参考訳): STCOcc : 3次元活動とシーンフロー予測のための空間空間-時間カスケード修復
- Authors: Zhimin Liao, Ping Wei, Shuaijia Chen, Haoxuan Wang, Ziyang Ren,
- Abstract要約: 3Dの占有とシーンフローは、詳細な3Dシーンのダイナミックな表現を提供する。
従来の視覚中心の手法では、空間情報と時間情報をモデル化するための暗黙の学習に基づくアプローチが採用されてきた。
本稿では, 占有状態を利用して3次元特徴を再構築する, 明示的な状態ベースモデリング手法を提案する。
- 参考スコア(独自算出の注目度): 2.884410617643992
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: 3D occupancy and scene flow offer a detailed and dynamic representation of 3D scene. Recognizing the sparsity and complexity of 3D space, previous vision-centric methods have employed implicit learning-based approaches to model spatial and temporal information. However, these approaches struggle to capture local details and diminish the model's spatial discriminative ability. To address these challenges, we propose a novel explicit state-based modeling method designed to leverage the occupied state to renovate the 3D features. Specifically, we propose a sparse occlusion-aware attention mechanism, integrated with a cascade refinement strategy, which accurately renovates 3D features with the guidance of occupied state information. Additionally, we introduce a novel method for modeling long-term dynamic interactions, which reduces computational costs and preserves spatial information. Compared to the previous state-of-the-art methods, our efficient explicit renovation strategy not only delivers superior performance in terms of RayIoU and mAVE for occupancy and scene flow prediction but also markedly reduces GPU memory usage during training, bringing it down to 8.7GB. Our code is available on https://github.com/lzzzzzm/STCOcc
- Abstract(参考訳): 3Dの占有とシーンフローは、3Dシーンの詳細なダイナミックな表現を提供する。
従来の視覚中心の手法では空間情報と時間情報のモデル化に暗黙の学習に基づくアプローチを採用してきた。
しかし、これらのアプローチは、局所的な詳細を捉え、モデルの空間的識別能力を低下させるのに苦労する。
これらの課題に対処するために, 占有状態を利用して3次元特徴を再構築する, 明示的な状態ベースモデリング手法を提案する。
具体的には,カスケード改質戦略と統合されたスパースオクルージョン対応アテンション機構を提案する。
さらに、計算コストを低減し、空間情報を保存する、長期的動的相互作用をモデル化する新しい手法を提案する。
従来の最先端手法と比較すると,RayIoUやmAVEでは,占有率やシーンフローの予測に優れるだけでなく,トレーニング時のGPUメモリ使用量を大幅に削減し,8.7GBまで削減できる。
私たちのコードはhttps://github.com/lzzzzzm/STCOccで利用可能です。
関連論文リスト
- 3D Gaussian Splatting against Moving Objects for High-Fidelity Street Scene Reconstruction [1.2603104712715607]
本稿では,ダイナミックストリートシーン再構築のための新しい3次元ガウス点分布法を提案する。
提案手法では,高忠実度な静的シーンを保存しながらオブジェクトの移動を除去する。
実験により, 大規模動的環境における再現性の向上, レンダリング性能の向上, 適応性の向上が示された。
論文 参考訳(メタデータ) (2025-03-15T05:41:59Z) - Automatic occlusion removal from 3D maps for maritime situational awareness [1.7661845949769064]
従来の3D再構築技術は、車や船などの動的物体が本当の環境を曖昧にする問題に直面することが多い。
提案手法は,3次元メッシュのテクスチャと幾何学を直接修正するために,インスタンスセグメンテーションや生成インペインティングなどのディープラーニング技術を活用する。
対象物を選択的にターゲットし、静的要素を保存することにより、幾何学的および視覚的精度を向上する。
論文 参考訳(メタデータ) (2024-09-05T11:58:36Z) - Let Occ Flow: Self-Supervised 3D Occupancy Flow Prediction [14.866463843514156]
Occ Flowは、カメラ入力のみを使用して、関節の3D占有率と占有率の予測を行う最初の自己教師型作業である。
我々のアプローチは、動的オブジェクトの依存関係をキャプチャするために、新しい注意に基づく時間融合モジュールを組み込んでいる。
本手法は3次元容積流れ場に微分可能レンダリングを拡張する。
論文 参考訳(メタデータ) (2024-07-10T12:20:11Z) - HUGS: Holistic Urban 3D Scene Understanding via Gaussian Splatting [53.6394928681237]
RGB画像に基づく都市景観の全体的理解は、難しいが重要な問題である。
我々の主な考え方は、静的な3Dガウスと動的なガウスの組合せを用いた幾何学、外観、意味論、運動の合同最適化である。
提案手法は,2次元および3次元のセマンティック情報を高精度に生成し,新たな視点をリアルタイムに描画する機能を提供する。
論文 参考訳(メタデータ) (2024-03-19T13:39:05Z) - OccNeRF: Advancing 3D Occupancy Prediction in LiDAR-Free Environments [77.0399450848749]
本稿では,OccNeRF法を用いて,3次元監視なしで占有ネットワークを訓練する手法を提案する。
我々は、再構成された占有領域をパラメータ化し、サンプリング戦略を再編成し、カメラの無限知覚範囲に合わせる。
意味的占有予測のために,事前学習した開語彙2Dセグメンテーションモデルの出力をフィルタリングし,プロンプトを洗練するためのいくつかの戦略を設計する。
論文 参考訳(メタデータ) (2023-12-14T18:58:52Z) - ALSTER: A Local Spatio-Temporal Expert for Online 3D Semantic
Reconstruction [62.599588577671796]
本稿では,RGB-Dフレームのストリームから3次元セマンティックマップを段階的に再構成するオンライン3次元セマンティックセマンティックセマンティクス手法を提案する。
オフラインの手法とは異なり、ロボット工学や混合現実のようなリアルタイムな制約のあるシナリオに直接適用できます。
論文 参考訳(メタデータ) (2023-11-29T20:30:18Z) - GS-SLAM: Dense Visual SLAM with 3D Gaussian Splatting [51.96353586773191]
我々は,まず3次元ガウス表現を利用したtextbfGS-SLAM を提案する。
提案手法は,地図の最適化とRGB-Dレンダリングの大幅な高速化を実現するリアルタイム微分可能なスプレイティングレンダリングパイプラインを利用する。
提案手法は,Replica,TUM-RGBDデータセット上の既存の最先端リアルタイム手法と比較して,競争性能が向上する。
論文 参考訳(メタデータ) (2023-11-20T12:08:23Z) - SCFusion: Real-time Incremental Scene Reconstruction with Semantic
Completion [86.77318031029404]
本研究では,シーン再構成とセマンティックシーン補完を段階的かつリアルタイムに共同で行うフレームワークを提案する。
我々のフレームワークは、3Dグローバルモデルでセマンティックコンプリートを正確かつ効率的に融合させるために、占有マップを処理し、ボクセル状態を活用するように設計された新しいニューラルアーキテクチャに依存している。
論文 参考訳(メタデータ) (2020-10-26T15:31:52Z) - 3D Sketch-aware Semantic Scene Completion via Semi-supervised Structure
Prior [50.73148041205675]
セマンティック・シーン・コンプリート(SSC)タスクの目標は、単一視点で観察することで、ボリューム占有率とシーン内のオブジェクトの意味ラベルの完全な3Dボクセル表現を同時に予測することである。
低解像度のボクセル表現で深度情報を埋め込む新しい幾何学的手法を提案する。
提案手法は,SSCフレームワークからの深度特徴学習よりも有効である。
論文 参考訳(メタデータ) (2020-03-31T09:33:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。