Fugu-MT 論文翻訳(概要): Panoramic Multimodal Semantic Occupancy Prediction for Quadruped Robots

論文の概要: Panoramic Multimodal Semantic Occupancy Prediction for Quadruped Robots

arxiv url: http://arxiv.org/abs/2603.13108v1
Date: Fri, 13 Mar 2026 16:04:33 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-16 17:38:12.171751
Title: Panoramic Multimodal Semantic Occupancy Prediction for Quadruped Robots
Title（参考訳）: 四足歩行ロボットのパノラママルチモーダルセマンティック動作予測
Authors: Guoqiang Zhao, Zhe Yang, Sheng Wu, Fei Teng, Mengfei Duan, Yuanfan Zheng, Kai Luo, Kailun Yang,
Abstract要約: 四足歩行ロボットのためのパノラマ型マルチモーダル占有データセットであるPanoMMOccを提案する。本稿では,足の移動と球面イメージングに適したパノラママルチモーダル占有感フレームワークであるVoxelHoundを提案する。
参考スコア（独自算出の注目度）: 17.56777936131055
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Panoramic imagery provides holistic 360° visual coverage for perception in quadruped robots. However, existing occupancy prediction methods are mainly designed for wheeled autonomous driving and rely heavily on RGB cues, limiting their robustness in complex environments. To bridge this gap, (1) we present PanoMMOcc, the first real-world panoramic multimodal occupancy dataset for quadruped robots, featuring four sensing modalities across diverse scenes. (2) We propose a panoramic multimodal occupancy perception framework, VoxelHound, tailored for legged mobility and spherical imaging. Specifically, we design (i) a Vertical Jitter Compensation (VJC) module to mitigate severe viewpoint perturbations caused by body pitch and roll during mobility, enabling more consistent spatial reasoning, and (ii) an effective Multimodal Information Prompt Fusion (MIPF) module that jointly leverages panoramic visual cues and auxiliary modalities to enhance volumetric occupancy prediction. (3) We establish a benchmark based on PanoMMOcc and provide detailed data analysis to enable systematic evaluation of perception methods under challenging embodied scenarios. Extensive experiments demonstrate that VoxelHound achieves state-of-the-art performance on PanoMMOcc (+4.16%} in mIoU). The dataset and code will be publicly released to facilitate future research on panoramic multimodal 3D perception for embodied robotic systems at https://github.com/SXDR/PanoMMOcc, along with the calibration tools released at https://github.com/losehu/CameraLiDAR-Calib.
Abstract（参考訳）: パノラマ画像は四足歩行ロボットの知覚に全体視的360度映像を提供する。しかし、既存の占有率予測手法は主に車輪付き自動運転用に設計されており、複雑な環境下での頑丈さを抑えるためにRGBキューに大きく依存している。このギャップを埋めるために, (1) パノMMOccは, 四足歩行ロボットのための仮想パノラママルチモーダル占有データセットであり, 多様なシーンにまたがる4つの知覚モーダルを特徴とする。 2) 足の移動と球面撮影に適したパノラマ多モード占有知覚フレームワークであるVoxelHoundを提案する。特にデザインは一身体ピッチ及び移動時の転動による重度の視点摂動を緩和し、より一貫した空間推論を可能にする垂直ジッタ補償モジュール (II) パノラマ的視覚的手がかりと補助的モダリティを併用し,容積占有予測を向上する有効マルチモーダル情報プロンプトフュージョン(MIPF)モジュール。 3)PanoMMOccをベースとしたベンチマークを構築し,難解な実施シナリオ下での知覚手法の体系的評価を実現するための詳細なデータ解析を行う。大規模な実験により、VoxelHoundはPanoMMOcc (+4.16%} in mIoU)上で最先端のパフォーマンスを達成した。データセットとコードは、将来のパノラマ型マルチモーダル3D知覚の研究を促進するために、https://github.com/SXDR/PanoMMOccで、https://github.com/losehu/CameraLiDAR-Calibでリリースされたキャリブレーションツールとともに、公開される。

論文の概要: Panoramic Multimodal Semantic Occupancy Prediction for Quadruped Robots

関連論文リスト