論文の概要: Occupancy World Model for Robots
- arxiv url: http://arxiv.org/abs/2505.05512v1
- Date: Wed, 07 May 2025 09:54:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-12 20:40:10.005093
- Title: Occupancy World Model for Robots
- Title(参考訳): ロボットの作業世界モデル
- Authors: Zhang Zhang, Qiang Zhang, Wei Cui, Shuai Shi, Yijie Guo, Gang Han, Wen Zhao, Jingkai Sun, Jiahang Cao, Jiaxu Wang, Hao Cheng, Xiaozhu Ju, Zhengping Che, Renjing Xu, Jian Tang,
- Abstract要約: 本稿では,シーンの進化を予測するための時間的受容場と自己回帰変換器を併用した占有型世界モデルを提案する。
実験結果から,ロボオックワールドは室内における3次元占有シーンの進化予測タスクにおいて,最先端の手法よりも優れていたことが判明した。
- 参考スコア(独自算出の注目度): 33.92017065630361
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Understanding and forecasting the scene evolutions deeply affect the exploration and decision of embodied agents. While traditional methods simulate scene evolutions through trajectory prediction of potential instances, current works use the occupancy world model as a generative framework for describing fine-grained overall scene dynamics. However, existing methods cluster on the outdoor structured road scenes, while ignoring the exploration of forecasting 3D occupancy scene evolutions for robots in indoor scenes. In this work, we explore a new framework for learning the scene evolutions of observed fine-grained occupancy and propose an occupancy world model based on the combined spatio-temporal receptive field and guided autoregressive transformer to forecast the scene evolutions, called RoboOccWorld. We propose the Conditional Causal State Attention (CCSA), which utilizes camera poses of next state as conditions to guide the autoregressive transformer to adapt and understand the indoor robotics scenarios. In order to effectively exploit the spatio-temporal cues from historical observations, Hybrid Spatio-Temporal Aggregation (HSTA) is proposed to obtain the combined spatio-temporal receptive field based on multi-scale spatio-temporal windows. In addition, we restructure the OccWorld-ScanNet benchmark based on local annotations to facilitate the evaluation of the indoor 3D occupancy scene evolution prediction task. Experimental results demonstrate that our RoboOccWorld outperforms state-of-the-art methods in indoor 3D occupancy scene evolution prediction task. The code will be released soon.
- Abstract(参考訳): シーンの進化を理解し予測することは、エンボディエージェントの探索と決定に深く影響を及ぼす。
従来の方法では、潜在的なインスタンスの軌道予測を通じてシーンの進化をシミュレートするが、現在の研究では、全体的シーンダイナミクスを詳細に記述するための生成フレームワークとして、占有世界モデルを使用している。
しかし,既存の手法は,屋内シーンにおけるロボットの3次元占有シーンの進化予測を無視しながら,屋外構成の道路シーンに集結する。
本研究では,観察された微粒な占有状況のシーン進化を学習するための新しい枠組みを探求し,空間的時間的受容場と自己回帰変換器を組み合わせた占領世界モデル(RoboOccWorld)を提案する。
室内ロボットのシナリオに適応し理解するための自己回帰トランスフォーマーを誘導するための条件として,次の状態のカメラポーズを利用する条件付き因果状態注意(CCSA)を提案する。
歴史的観測から時空間の時空間を効果的に活用するために,マルチスケール時空間窓に基づく時空間の複合受容場を得るために,Hybrid Spatio-Temporal Aggregation (HSTA)を提案する。
さらに,OccWorld-ScanNetベンチマークをローカルアノテーションに基づいて再構成し,室内の3Dシーンの進化予測タスクの評価を容易にする。
実験結果から,ロボオックワールドは室内における3次元占有シーンの進化予測タスクにおいて,最先端の手法よりも優れていたことが判明した。
コードはまもなくリリースされる。
関連論文リスト
- Semi-Supervised Vision-Centric 3D Occupancy World Model for Autonomous Driving [22.832008530490167]
2Dラベルの可能性を生かした半教師付き視覚中心型3D占有型世界モデルPreWorldを提案する。
PreWorldは、3D占有率予測、4D占有率予測、モーションプランニングタスクの競合的なパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-02-11T07:12:26Z) - GaussianWorld: Gaussian World Model for Streaming 3D Occupancy Prediction [67.81475355852997]
3次元占有予測は、周囲の包括的認識のため、自動運転にとって重要である。
本研究では、シーンの進化を知覚に利用するための世界モデルに基づくフレームワークを提案する。
我々のフレームワークは、追加の計算を導入することなく、mIoUの単一フレームの性能を2%以上向上させる。
論文 参考訳(メタデータ) (2024-12-13T18:59:54Z) - EmbodiedOcc: Embodied 3D Occupancy Prediction for Vision-based Online Scene Understanding [63.99937807085461]
3D占有予測は周囲のシーンを包括的に記述する。
既存のほとんどのメソッドは、1つか数つのビューからのオフラインの認識に焦点を当てている。
具体化された3次元占有予測タスクを定式化し,ガウスをベースとしたEmbodiedOccフレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-05T17:57:09Z) - OccSora: 4D Occupancy Generation Models as World Simulators for Autonomous Driving [62.54220021308464]
自律運転のための3次元世界開発をシミュレートするために,拡散型4次元占有率生成モデルOccSoraを提案する。
OccSoraは、正確な3Dレイアウトと時間的一貫性を備えた16sビデオを生成し、運転シーンの空間的および時間的分布を理解する能力を示す。
論文 参考訳(メタデータ) (2024-05-30T17:59:42Z) - CARFF: Conditional Auto-encoded Radiance Field for 3D Scene Forecasting [15.392692128626809]
CARFFは,過去の観測から得られた未来の3Dシーンを予測する手法である。
我々は、Pose-Conditional-VAEとNeRFの2段階のトレーニングを用いて、3D表現を学習する。
CARLA運転シミュレータを用いたシナリオにおける本手法の有用性を実証する。
論文 参考訳(メタデータ) (2024-01-31T18:56:09Z) - COPILOT: Human-Environment Collision Prediction and Localization from
Egocentric Videos [62.34712951567793]
エゴセントリックな観測から人間と環境の衝突を予測する能力は、VR、AR、ウェアラブルアシストロボットなどのアプリケーションにおける衝突回避を可能にするために不可欠である。
本稿では、ボディマウントカメラから撮影した多視点エゴセントリックビデオから、多様な環境における衝突を予測するという課題を紹介する。
衝突予測と局所化を同時に行うために,COPILOTと呼ばれるトランスフォーマーモデルを提案する。
論文 参考訳(メタデータ) (2022-10-04T17:49:23Z) - Neural Scene Representation for Locomotion on Structured Terrain [56.48607865960868]
本研究では,都市環境を横断する移動ロボットの局所的な地形を再構築する学習手法を提案する。
搭載されたカメラとロボットの軌道からの深度測定のストリームを用いて、ロボットの近傍の地形を推定する。
ノイズ測定とカメラ配置の盲点からの大量の欠落データにもかかわらず,シーンを忠実に再構築する3次元再構成モデルを提案する。
論文 参考訳(メタデータ) (2022-06-16T10:45:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。