論文の概要: EmbodiedOcc: Embodied 3D Occupancy Prediction for Vision-based Online Scene Understanding
- arxiv url: http://arxiv.org/abs/2412.04380v2
- Date: Fri, 06 Dec 2024 15:43:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-09 12:36:41.247297
- Title: EmbodiedOcc: Embodied 3D Occupancy Prediction for Vision-based Online Scene Understanding
- Title(参考訳): EmbodiedOcc:視覚に基づくオンライン場面理解のための3D作業予測
- Authors: Yuqi Wu, Wenzhao Zheng, Sicheng Zuo, Yuanhui Huang, Jie Zhou, Jiwen Lu,
- Abstract要約: 3D占有予測は周囲のシーンを包括的に記述する。
既存のほとんどのメソッドは、1つか数つのビューからのオフラインの認識に焦点を当てている。
具体化された3次元占有予測タスクを定式化し,ガウスをベースとしたEmbodiedOccフレームワークを提案する。
- 参考スコア(独自算出の注目度): 63.99937807085461
- License:
- Abstract: 3D occupancy prediction provides a comprehensive description of the surrounding scenes and has become an essential task for 3D perception. Most existing methods focus on offline perception from one or a few views and cannot be applied to embodied agents which demands to gradually perceive the scene through progressive embodied exploration. In this paper, we formulate an embodied 3D occupancy prediction task to target this practical scenario and propose a Gaussian-based EmbodiedOcc framework to accomplish it. We initialize the global scene with uniform 3D semantic Gaussians and progressively update local regions observed by the embodied agent. For each update, we extract semantic and structural features from the observed image and efficiently incorporate them via deformable cross-attention to refine the regional Gaussians. Finally, we employ Gaussian-to-voxel splatting to obtain the global 3D occupancy from the updated 3D Gaussians. Our EmbodiedOcc assumes an unknown (i.e., uniformly distributed) environment and maintains an explicit global memory of it with 3D Gaussians. It gradually gains knowledge through the local refinement of regional Gaussians, which is consistent with how humans understand new scenes through embodied exploration. We reorganize an EmbodiedOcc-ScanNet benchmark based on local annotations to facilitate the evaluation of the embodied 3D occupancy prediction task. Experiments demonstrate that our EmbodiedOcc outperforms existing local prediction methods and accomplishes the embodied occupancy prediction with high accuracy and strong expandability. Code: https://github.com/YkiWu/EmbodiedOcc.
- Abstract(参考訳): 3D占有率予測は周囲のシーンを包括的に記述し,3D知覚に不可欠な課題となっている。
既存のほとんどの手法は1つか数つの視点からのオフラインの知覚に焦点をあてており、プログレッシブ・エンボディド・サーベイを通じてシーンを徐々に知覚するよう要求するエンボディド・エージェントには適用できない。
本稿では,この現実的なシナリオを目標として,具体化された3次元占有予測タスクを定式化し,それを実現するためのガウスベースのEmbodiedOccフレームワークを提案する。
グローバルシーンを均一な3Dセマンティック・ガウシアンで初期化し、エンボディエージェントによって観察された局所領域を徐々に更新する。
各更新では, 観察画像から意味的特徴と構造的特徴を抽出し, 変形可能なクロスアテンションにより効率的に統合し, 地域ガウスを洗練させる。
最後に, ガウスからボクセルへのスプラッティングを用いて, 更新された3Dガウスからグローバルな3D占有率を得る。
我々のEmbodiedOccは未知の(一様に分散した)環境を前提としており、3Dガウスアンと共にそのグローバルな記憶を維持している。
地域ガウシアンの地域改良を通じて徐々に知識を得るが、これは人間が具体的探索を通じて新しい場面を理解する方法と一致している。
我々は,EmbodiedOcc-ScanNetベンチマークをローカルアノテーションに基づいて再編成し,エンボディド3D占有率予測タスクの評価を容易にする。
実験の結果,EmbodiedOccは既存の局所予測手法より優れており,精度が高く,拡張性も高い。
コード:https://github.com/YkiWu/EmbodiedOcc.com
関連論文リスト
- NovelGS: Consistent Novel-view Denoising via Large Gaussian Reconstruction Model [57.92709692193132]
NovelGSは、スパースビュー画像が与えられたガウススプラッティングの拡散モデルである。
我々は3Dガウスを生成するためにトランスフォーマーネットワークを経由する新しい視点を利用する。
論文 参考訳(メタデータ) (2024-11-25T07:57:17Z) - GaussianFormer: Scene as Gaussians for Vision-Based 3D Semantic Occupancy Prediction [70.65250036489128]
3Dのセマンティック占有予測は,周囲のシーンの3Dの微細な形状とセマンティックスを得ることを目的としている。
本稿では,3Dシーンを3Dセマンティック・ガウシアンで表現するオブジェクト中心表現を提案する。
GaussianFormerは17.8%から24.8%のメモリ消費しか持たない最先端のメソッドで同等のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-05-27T17:59:51Z) - HUGS: Holistic Urban 3D Scene Understanding via Gaussian Splatting [53.6394928681237]
RGB画像に基づく都市景観の全体的理解は、難しいが重要な問題である。
我々の主な考え方は、静的な3Dガウスと動的なガウスの組合せを用いた幾何学、外観、意味論、運動の合同最適化である。
提案手法は,2次元および3次元のセマンティック情報を高精度に生成し,新たな視点をリアルタイムに描画する機能を提供する。
論文 参考訳(メタデータ) (2024-03-19T13:39:05Z) - ALSTER: A Local Spatio-Temporal Expert for Online 3D Semantic
Reconstruction [62.599588577671796]
本稿では,RGB-Dフレームのストリームから3次元セマンティックマップを段階的に再構成するオンライン3次元セマンティックセマンティックセマンティクス手法を提案する。
オフラインの手法とは異なり、ロボット工学や混合現実のようなリアルタイムな制約のあるシナリオに直接適用できます。
論文 参考訳(メタデータ) (2023-11-29T20:30:18Z) - Incremental 3D Semantic Scene Graph Prediction from RGB Sequences [86.77318031029404]
RGB画像列が与えられたシーンの一貫性のある3Dセマンティックシーングラフをインクリメンタルに構築するリアルタイムフレームワークを提案する。
提案手法は,新たなインクリメンタルエンティティ推定パイプラインとシーングラフ予測ネットワークから構成される。
提案するネットワークは,シーンエンティティから抽出した多視点および幾何学的特徴を用いて,反復的メッセージパッシングを用いた3次元セマンティックシーングラフを推定する。
論文 参考訳(メタデータ) (2023-05-04T11:32:16Z) - Weakly-Supervised Action Localization and Action Recognition using
Global-Local Attention of 3D CNN [4.924442315857227]
3D Convolutional Neural Network (3D CNN)は、ビデオシーケンスなどの3Dデータの空間的および時間的情報をキャプチャします。
3D CNNの視覚的説明と分類を改善するための2つのアプローチを提案します。
論文 参考訳(メタデータ) (2020-12-17T12:29:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。