論文の概要: VEOcc: Voxel-Centric Online Semantic Occupancy Prediction For Embodied Scene Understanding
- arxiv url: http://arxiv.org/abs/2605.25059v2
- Date: Wed, 27 May 2026 08:25:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:54.97742
- Title: VEOcc: Voxel-Centric Online Semantic Occupancy Prediction For Embodied Scene Understanding
- Title(参考訳): VEOcc:Voxel-Centric Online Semantic Occupancy Prediction for Embodied Scene Understanding
- Authors: Ruoyu Wang, Yong Liu, Sheng Tao, Yuhang Lin, Yukai Ma,
- Abstract要約: 本稿では,認識・同化パラダイムとして定式化されたボクセル中心のフレームワークVEOccを提案する。
VEOccは、初期スケール推定の必要性をなくすことで、高度に合理化され、オープンな地図展開を可能にする。
Occ-ScanNetとEmbodiedOcc-ScanNetの実験では、VEOccがローカル設定とエンボディ設定の両方で新しい最先端のパフォーマンスを確立することが示されている。
- 参考スコア(独自算出の注目度): 14.359441996020719
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Crucial for autonomous exploration, online 3D occupancy prediction and mapping incrementally constructs dense spatial representations on the fly. However, recent Gaussian-centric methods struggle with structural boundary fidelity and rely heavily on predefined scene-size priors, fundamentally limiting their operational efficiency. In this work, we present VEOcc, a voxel-centric framework formulated as a recursive perception-and-assimilation paradigm. By eliminating the need for initial scale estimation, VEOcc enables highly streamlined, open-ended map expansion. Furthermore, to robustly aggregate noisy temporal observations within the discrete voxel space, we propose a Spatio-Temporal-Aware Online Update Strategy. It integrates Cross-Temporal Logit Aggregation (TLA) for temporal consistency, Reliability-Aware Confidence Modulation (RCM) for spatial uncertainty calibration, and Confidence-Driven Incremental State Update (CSU) for robust global state assimilation. % Extensive experiments on Occ-ScanNet and EmbodiedOcc-ScanNet demonstrate that VEOcc establishes new state-of-the-art performance in both local and embodied settings, providing an accurate and efficient solution for real-world exploration. Extensive experiments on Occ-ScanNet and EmbodiedOcc-ScanNet demonstrate that VEOcc establishes new state-of-the-art performance in both local and embodied settings. Notably, zero-shot evaluations on self-collected video sequences further confirm its robust out-of-distribution generalization capability in completely unseen real-world environments. Ultimately, our framework provides an accurate and highly efficient solution for autonomous exploration. Code and supplementary visualizations are available on our project page: https://wryzju.github.io/VEOcc/.
- Abstract(参考訳): 自律探査、オンライン3Dの占有予測、マッピングは、ハエの密集した空間表現を段階的に構築する。
しかし、近年のガウス中心の手法は、構造境界の忠実さに苦しむとともに、事前に定義されたシーンサイズに大きく依存し、運用効率を根本的に制限している。
本稿では,再帰的知覚・同化パラダイムとして定式化されたボクセル中心のフレームワークであるVEOccを紹介する。
VEOccは、初期スケール推定の必要性をなくすことで、高度に合理化され、オープンな地図展開を可能にする。
さらに,離散ボクセル空間内での雑音の時間的観測を頑健に集約するために,時空間対応オンライン更新戦略を提案する。
時間的一貫性のためのTLA、空間的不確実性校正のためのRCM(Reliability-Aware Confidence Modulation)、堅牢なグローバルステート同化のための信頼駆動増分状態更新(Confidence-Driven Incremental State Update, CSU)を統合している。
% Occ-ScanNetとEmbodiedOcc-ScanNetの大規模な実験は、VEOccが局所的および具体的設定の両方において新しい最先端のパフォーマンスを確立し、現実世界の探索に正確かつ効率的なソリューションを提供することを示した。
Occ-ScanNetとEmbodiedOcc-ScanNetの大規模な実験は、VEOccがローカルとエンボディの両方で新しい最先端のパフォーマンスを確立することを実証している。
特に、自己コンパイルされたビデオシーケンスに対するゼロショット評価は、完全に見えない実環境において、その堅牢な配布外一般化能力をさらに確認する。
最終的に私たちのフレームワークは、自律的な探索のための正確かつ高効率なソリューションを提供します。
コードと補助的な視覚化は、プロジェクトのページ(https://wryzju.github.io/VEOcc/)で公開されています。
関連論文リスト
- ViCrop-Det: Spatial Attention Entropy Guided Cropping for Training-Free Small-Object Detection [6.1221124436192875]
ViCrop-Detは、適応的な空間信頼領域収縮を導入する、トレーニング不要な推論フレームワークである。
RT-DETR-R50 と Deformable DETR に +1-3 mAP@50 を連続的に追加し,20-23% の遅延オーバヘッドを有することを示す。
計算マッチング設定下では、適応的ルーティング戦略は、一様スライシングベースラインを包括的に超越し、高度に最適化された精度-速度トレードオフを実現する。
論文 参考訳(メタデータ) (2026-04-29T15:35:03Z) - OnFly: Onboard Zero-Shot Aerial Vision-Language Navigation toward Safety and Efficiency [9.769964979769204]
ゼロショットAVLNのためのフルオンボードリアルタイムフレームワークOnFlyを提案する。
OnFlyは、低周波進行監視から高周波目標生成を分離する、共有パーセプション二重エージェントアーキテクチャを採用している。
シミュレーションでは、OnFlyは最強の最先端ベースラインと比較してタスク成功率を26.4%から67.8%に改善している。
論文 参考訳(メタデータ) (2026-03-11T11:48:22Z) - UAGLNet: Uncertainty-Aggregated Global-Local Fusion Network with Cooperative CNN-Transformer for Building Extraction [83.48950950780554]
リモートセンシング画像からの抽出は、複雑な構造変化のために難しい課題である。
既存の方法は、セグメンテーションモデルにおけるマルチスケール特徴をキャプチャするために、畳み込みブロックまたは自己アテンションブロックを使用する。
高品質なグローバルローカルなビジュアルセマンティクスを活用するために,不確実性集約型グローバルローカルフュージョンネットワーク(UAGLNet)を提案する。
論文 参考訳(メタデータ) (2025-12-15T02:59:16Z) - Scaling Up Occupancy-centric Driving Scene Generation: Dataset and Method [54.461213497603154]
作業中心の手法は、最近、フレームとモダリティをまたいだ一貫した条件付けを提供することで、最先端の結果を得た。
Nuplan-Occは、広く使われているNuplanベンチマークから構築された、これまでで最大の占有率データセットである。
高品質な占有、多視点ビデオ、LiDAR点雲を共同で合成する統合フレームワークを開発した。
論文 参考訳(メタデータ) (2025-10-27T03:52:45Z) - URNet: Uncertainty-aware Refinement Network for Event-based Stereo Depth Estimation [35.032297238013186]
イベントカメラは高時間分解能、高ダイナミックレンジ、低レイテンシを提供する。
イベントベースステレオ深度推定のための不確実性認識ネットワークURNetを導入する。
論文 参考訳(メタデータ) (2025-09-18T07:24:50Z) - VRS-UIE: Value-Driven Reordering Scanning for Underwater Image Enhancement [104.78586859995333]
状態空間モデル(SSM)は、線形複雑性と大域的受容場のために、視覚タスクの有望なバックボーンとして登場した。
大型で均質だが無意味な海洋背景の優位性は、希少で価値ある標的の特徴表現応答を希薄にすることができる。
水中画像強調(UIE)のための新しい値駆動リダクションスキャンフレームワークを提案する。
本フレームワークは, 水バイアスを効果的に抑制し, 構造や色彩の忠実さを保ち, 優れた向上性能(WMambaを平均0.89dB超える)を実現する。
論文 参考訳(メタデータ) (2025-05-02T12:21:44Z) - EmbodiedOcc: Embodied 3D Occupancy Prediction for Vision-based Online Scene Understanding [72.96388875744704]
3D占有予測は周囲のシーンを包括的に記述する。
既存のほとんどのメソッドは、1つか数つのビューからのオフラインの認識に焦点を当てている。
具体化された3次元占有予測タスクを定式化し,ガウスをベースとしたEmbodiedOccフレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-05T17:57:09Z) - Offboard Occupancy Refinement with Hybrid Propagation for Autonomous Driving [33.3595557038557]
3Dセマンティックシーンコンプリート(3D Semantic Scene Completion, SSC)は、コンピュータビジョンにおいて重要な課題である。
OccFinerは,視覚による占有率予測の精度を高めるために設計された,新しいオフボードフレームワークである。
論文 参考訳(メタデータ) (2024-03-13T13:12:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。