論文の概要: EmbodiedOcc++: Boosting Embodied 3D Occupancy Prediction with Plane Regularization and Uncertainty Sampler
- arxiv url: http://arxiv.org/abs/2504.09540v1
- Date: Sun, 13 Apr 2025 12:10:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-15 16:52:01.854938
- Title: EmbodiedOcc++: Boosting Embodied 3D Occupancy Prediction with Plane Regularization and Uncertainty Sampler
- Title(参考訳): EmbodiedOcc++: 平面正規化と不確かさサンプリングによる3D動作予測の強化
- Authors: Hao Wang, Xiaobao Wei, Xiaoan Zhang, Jianing Li, Chengyu Bai, Ying Li, Ming Lu, Wenzhao Zheng, Shanghang Zhang,
- Abstract要約: 本稿では,EmbodiedOcc++を紹介する。
Geometry-Guided Refinement Module (GRM) は、SUS(Semantic-Aware Uncertainty Sampler)とともに平面正規化によるガウス的更新を制約する
EmbodiedOcc-ScanNetベンチマークの実験は、EmbodiedOccがさまざまな設定で最先端のパフォーマンスを達成することを示した。
- 参考スコア(独自算出の注目度): 43.277357306520145
- License:
- Abstract: Online 3D occupancy prediction provides a comprehensive spatial understanding of embodied environments. While the innovative EmbodiedOcc framework utilizes 3D semantic Gaussians for progressive indoor occupancy prediction, it overlooks the geometric characteristics of indoor environments, which are primarily characterized by planar structures. This paper introduces EmbodiedOcc++, enhancing the original framework with two key innovations: a Geometry-guided Refinement Module (GRM) that constrains Gaussian updates through plane regularization, along with a Semantic-aware Uncertainty Sampler (SUS) that enables more effective updates in overlapping regions between consecutive frames. GRM regularizes the position update to align with surface normals. It determines the adaptive regularization weight using curvature-based and depth-based constraints, allowing semantic Gaussians to align accurately with planar surfaces while adapting in complex regions. To effectively improve geometric consistency from different views, SUS adaptively selects proper Gaussians to update. Comprehensive experiments on the EmbodiedOcc-ScanNet benchmark demonstrate that EmbodiedOcc++ achieves state-of-the-art performance across different settings. Our method demonstrates improved edge accuracy and retains more geometric details while ensuring computational efficiency, which is essential for online embodied perception. The code will be released at: https://github.com/PKUHaoWang/EmbodiedOcc2.
- Abstract(参考訳): オンライン3D占有予測は、実施環境の包括的空間的理解を提供する。
革新的なEmbodiedOccフレームワークは3Dセマンティック・ガウシアンを用いて、進行的な屋内占有予測を行うが、主に平面構造を特徴とする屋内環境の幾何学的特徴を見落としている。
本稿では,EmbodiedOcc++を紹介し,ジオメトリ誘導型リファインメントモジュール (GRM) と,連続フレーム間の重複領域のより効率的な更新を可能にするセマンティック認識不確実性サンプリング (SUS) という2つの重要なイノベーションによって,オリジナルのフレームワークを強化した。
GRMは位置更新を正規化して表面正規値と整合する。
曲率ベースおよび深さベース制約を用いて適応正則化重みを決定し、複雑な領域に適応しながら、意味ガウス多様体を平面面と正確に整合させることができる。
異なるビューからの幾何学的一貫性を効果的に向上するために、SUSは適切なガウスを適応的に選択する。
EmbodiedOcc-ScanNetベンチマークに関する総合的な実験は、EmbodiedOcc++がさまざまな設定で最先端のパフォーマンスを達成することを示した。
提案手法は, エッジ精度の向上を図り, より幾何的細部を保ちながら, 計算効率の確保を図っている。
コードは、https://github.com/PKUHaoWang/EmbodiedOcc2.comでリリースされる。
関連論文リスト
- CDGS: Confidence-Aware Depth Regularization for 3D Gaussian Splatting [5.8678184183132265]
CDGSは3DGSを強化するために開発された信頼性を考慮した深度正規化手法である。
我々は,単眼深度推定のマルチキュー信頼マップと,運動深度からのスパース構造を適応的に調整するために活用する。
本手法は,初期訓練段階における幾何ディテールの保存性を向上し,NVSの品質と幾何精度の両面での競争性能を実現する。
論文 参考訳(メタデータ) (2025-02-20T16:12:13Z) - EmbodiedOcc: Embodied 3D Occupancy Prediction for Vision-based Online Scene Understanding [63.99937807085461]
3D占有予測は周囲のシーンを包括的に記述する。
既存のほとんどのメソッドは、1つか数つのビューからのオフラインの認識に焦点を当てている。
具体化された3次元占有予測タスクを定式化し,ガウスをベースとしたEmbodiedOccフレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-05T17:57:09Z) - AGS-Mesh: Adaptive Gaussian Splatting and Meshing with Geometric Priors for Indoor Room Reconstruction Using Smartphones [19.429461194706786]
室内シーンの正確な3次元再構成のためのガウススメッティング法における接合面深度と正規化のアプローチを提案する。
我々のフィルタリング戦略と最適化設計は、メッシュ推定と新規ビュー合成の両方において大きな改善を示す。
論文 参考訳(メタデータ) (2024-11-28T17:04:32Z) - Robust 3D Semantic Occupancy Prediction with Calibration-free Spatial Transformation [32.50849425431012]
マルチカメラとLiDARを備えた自動運転車では、高精度で堅牢な予測のために、マルチセンサー情報を統一された3D空間に集約することが重要である。
最近の手法は主にセンサキャリブレーションに依存する2D-to-3D変換に基づいて構築され,2D画像情報を3D空間に投影する。
本研究では,空間対応を暗黙的にモデル化するために,バニラ注意に基づく校正自由空間変換を提案する。
論文 参考訳(メタデータ) (2024-11-19T02:40:42Z) - SGBA: Semantic Gaussian Mixture Model-Based LiDAR Bundle Adjustment [24.92338138193458]
LiDARバンドル調整(BA)は、フロントエンドからのポーズ推定におけるドリフトを減らす効果的なアプローチである。
SGBAは,環境を事前定義された特徴型を伴わない意味ガウス混合モデル(GMM)としてモデル化するLiDAR BAスキームである。
我々は様々な実験を行い、SGBAが正確で頑健なポーズ改善を達成できることを実証した。
論文 参考訳(メタデータ) (2024-10-02T14:57:07Z) - OPUS: Occupancy Prediction Using a Sparse Set [64.60854562502523]
学習可能なクエリの集合を用いて、占有された場所とクラスを同時に予測するフレームワークを提案する。
OPUSには、モデルパフォーマンスを高めるための非自明な戦略が組み込まれている。
最も軽量なモデルではOcc3D-nuScenesデータセットの2倍 FPS に優れたRayIoUが得られる一方、最も重いモデルは6.1 RayIoUを上回ります。
論文 参考訳(メタデータ) (2024-09-14T07:44:22Z) - Real-Time 3D Occupancy Prediction via Geometric-Semantic Disentanglement [8.592248643229675]
運転予測は自律運転(AD)において重要な役割を担っている
既存の手法はしばしば高い計算コストを発生させるが、これはADのリアルタイム要求と矛盾する。
ハイブリッドBEV-Voxel表現を用いた幾何学的意味的デュアルブランチネットワーク(GSDBN)を提案する。
論文 参考訳(メタデータ) (2024-07-18T04:46:13Z) - GOI: Find 3D Gaussians of Interest with an Optimizable Open-vocabulary Semantic-space Hyperplane [53.388937705785025]
3Dオープンボキャブラリのシーン理解は、拡張現実とロボット応用の推進に不可欠である。
GOIは2次元視覚言語基礎モデルから3次元ガウススプラッティング(3DGS)に意味的特徴を統合するフレームワークである。
提案手法では,特徴空間内の超平面分割として特徴選択処理を扱い,クエリに関連性の高い特徴のみを保持する。
論文 参考訳(メタデータ) (2024-05-27T18:57:18Z) - Volumetric Semantically Consistent 3D Panoptic Mapping [77.13446499924977]
非構造環境における自律エージェントに適したセマンティック3Dマップを生成することを目的としたオンライン2次元から3次元のセマンティック・インスタンスマッピングアルゴリズムを提案する。
マッピング中にセマンティック予測の信頼性を統合し、セマンティックおよびインスタンス一貫性のある3D領域を生成する新しい方法を導入する。
提案手法は,パブリックな大規模データセット上での最先端の精度を実現し,多くの広く使用されているメトリクスを改善した。
論文 参考訳(メタデータ) (2023-09-26T08:03:10Z) - Geometry-Contrastive Transformer for Generalized 3D Pose Transfer [95.56457218144983]
この研究の直感は、与えられたメッシュ間の幾何学的不整合を強力な自己認識機構で知覚することである。
本研究では,グローバルな幾何学的不整合に対する3次元構造的知覚能力を有する新しい幾何学コントラスト変換器を提案する。
本稿では, クロスデータセット3次元ポーズ伝達タスクのための半合成データセットとともに, 潜時等尺正則化モジュールを提案する。
論文 参考訳(メタデータ) (2021-12-14T13:14:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。