論文の概要: Panoramic Multimodal Semantic Occupancy Prediction for Quadruped Robots
- arxiv url: http://arxiv.org/abs/2603.13108v1
- Date: Fri, 13 Mar 2026 16:04:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-16 17:38:12.171751
- Title: Panoramic Multimodal Semantic Occupancy Prediction for Quadruped Robots
- Title(参考訳): 四足歩行ロボットのパノラママルチモーダルセマンティック動作予測
- Authors: Guoqiang Zhao, Zhe Yang, Sheng Wu, Fei Teng, Mengfei Duan, Yuanfan Zheng, Kai Luo, Kailun Yang,
- Abstract要約: 四足歩行ロボットのためのパノラマ型マルチモーダル占有データセットであるPanoMMOccを提案する。
本稿では,足の移動と球面イメージングに適したパノラママルチモーダル占有感フレームワークであるVoxelHoundを提案する。
- 参考スコア(独自算出の注目度): 17.56777936131055
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Panoramic imagery provides holistic 360° visual coverage for perception in quadruped robots. However, existing occupancy prediction methods are mainly designed for wheeled autonomous driving and rely heavily on RGB cues, limiting their robustness in complex environments. To bridge this gap, (1) we present PanoMMOcc, the first real-world panoramic multimodal occupancy dataset for quadruped robots, featuring four sensing modalities across diverse scenes. (2) We propose a panoramic multimodal occupancy perception framework, VoxelHound, tailored for legged mobility and spherical imaging. Specifically, we design (i) a Vertical Jitter Compensation (VJC) module to mitigate severe viewpoint perturbations caused by body pitch and roll during mobility, enabling more consistent spatial reasoning, and (ii) an effective Multimodal Information Prompt Fusion (MIPF) module that jointly leverages panoramic visual cues and auxiliary modalities to enhance volumetric occupancy prediction. (3) We establish a benchmark based on PanoMMOcc and provide detailed data analysis to enable systematic evaluation of perception methods under challenging embodied scenarios. Extensive experiments demonstrate that VoxelHound achieves state-of-the-art performance on PanoMMOcc (+4.16%} in mIoU). The dataset and code will be publicly released to facilitate future research on panoramic multimodal 3D perception for embodied robotic systems at https://github.com/SXDR/PanoMMOcc, along with the calibration tools released at https://github.com/losehu/CameraLiDAR-Calib.
- Abstract(参考訳): パノラマ画像は四足歩行ロボットの知覚に全体視的360度映像を提供する。
しかし、既存の占有率予測手法は主に車輪付き自動運転用に設計されており、複雑な環境下での頑丈さを抑えるためにRGBキューに大きく依存している。
このギャップを埋めるために, (1) パノMMOccは, 四足歩行ロボットのための仮想パノラママルチモーダル占有データセットであり, 多様なシーンにまたがる4つの知覚モーダルを特徴とする。
2) 足の移動と球面撮影に適したパノラマ多モード占有知覚フレームワークであるVoxelHoundを提案する。
特に デザインは
一 身体ピッチ及び移動時の転動による重度の視点摂動を緩和し、より一貫した空間推論を可能にする垂直ジッタ補償モジュール
(II) パノラマ的視覚的手がかりと補助的モダリティを併用し,容積占有予測を向上する有効マルチモーダル情報プロンプトフュージョン(MIPF)モジュール。
3)PanoMMOccをベースとしたベンチマークを構築し,難解な実施シナリオ下での知覚手法の体系的評価を実現するための詳細なデータ解析を行う。
大規模な実験により、VoxelHoundはPanoMMOcc (+4.16%} in mIoU)上で最先端のパフォーマンスを達成した。
データセットとコードは、将来のパノラマ型マルチモーダル3D知覚の研究を促進するために、https://github.com/SXDR/PanoMMOccで、https://github.com/losehu/CameraLiDAR-Calibでリリースされたキャリブレーションツールとともに、公開される。
関連論文リスト
- PanoWorld-X: Generating Explorable Panoramic Worlds via Sphere-Aware Video Diffusion [87.13016347332943]
PanoWorld-Xは、多彩なカメラ軌道を持つ高忠実で制御可能なパノラマビデオ生成のための新しいフレームワークである。
動作範囲,制御精度,視覚的品質など,様々な面で優れた性能を示す実験を行った。
論文 参考訳(メタデータ) (2025-09-29T16:22:00Z) - QuaDreamer: Controllable Panoramic Video Generation for Quadruped Robots [35.458219603280995]
QuaDreamerは四足歩行ロボット用に設計された最初のパノラマデータ生成エンジンである。
ジッタ信号制御下での高品質パノラマ映像生成を容易にするために,SOC(Scene-Object Controller)を提案する。
生成されたビデオシーケンスは、四足歩行ロボットのパノラマ視覚知覚モデルのトレーニングデータとして機能する。
論文 参考訳(メタデータ) (2025-08-04T15:18:01Z) - Doracamom: Joint 3D Detection and Occupancy Prediction with Multi-view 4D Radars and Cameras for Omnidirectional Perception [9.76463525667238]
マルチビューカメラと4Dレーダを融合した最初のフレームワークであるDoracamomを提案する。
コードとモデルは公開されます。
論文 参考訳(メタデータ) (2025-01-26T04:24:07Z) - LargeAD: Large-Scale Cross-Sensor Data Pretraining for Autonomous Driving [88.85002707211777]
LargeADは多用途でスケーラブルなフレームワークで、さまざまな現実世界の運転データセットにわたる大規模3D事前トレーニング用に設計されている。
我々のフレームワークはVFMを利用して2次元画像から意味的にリッチなスーパーピクセルを抽出する。
このアライメントは、クロスモーダルな表現学習を促進し、2Dデータと3Dデータのセマンティック一貫性を高める。
論文 参考訳(メタデータ) (2025-01-07T18:59:59Z) - BEVWorld: A Multimodal World Simulator for Autonomous Driving via Scene-Level BEV Latents [56.33989853438012]
BEVWorldは,マルチモーダルセンサ入力を統一的でコンパクトなBird's Eye View潜在空間に変換し,全体的環境モデリングを行うフレームワークである。
提案する世界モデルは,多モードトークン化器と遅延BEVシーケンス拡散モデルという2つの主要成分から構成される。
論文 参考訳(メタデータ) (2024-07-08T07:26:08Z) - UniM$^2$AE: Multi-modal Masked Autoencoders with Unified 3D Representation for 3D Perception in Autonomous Driving [47.590099762244535]
Masked Autoencoders (MAE)は、強力な表現の学習において重要な役割を担い、様々な3D知覚タスクにおいて優れた結果をもたらす。
この研究は、自律運転における統一された表現空間に適したマルチモーダルのMasked Autoencodersに展開する。
画像に固有のセマンティクスとLiDAR点雲の幾何学的複雑さを複雑に結合するため,UniM$2$AEを提案する。
論文 参考訳(メタデータ) (2023-08-21T02:13:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。