論文の概要: Humanoid Occupancy: Enabling A Generalized Multimodal Occupancy Perception System on Humanoid Robots
- arxiv url: http://arxiv.org/abs/2507.20217v2
- Date: Tue, 29 Jul 2025 02:24:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-30 12:52:36.849338
- Title: Humanoid Occupancy: Enabling A Generalized Multimodal Occupancy Perception System on Humanoid Robots
- Title(参考訳): ヒューマノイド作業:ヒューマノイドロボットにおける汎用マルチモーダル作業知覚システムの実現
- Authors: Wei Cui, Haoyu Wang, Wenkang Qin, Yijie Guo, Gang Han, Wen Zhao, Jiahang Cao, Zhang Zhang, Jiaru Zhong, Jingkai Sun, Pihai Sun, Shuai Shi, Botuo Jiang, Jiahao Ma, Jiaxu Wang, Hao Cheng, Zhichao Liu, Yang Wang, Zheng Zhu, Guan Huang, Jian Tang, Qiang Zhang,
- Abstract要約: ヒューマノイドロボット技術は急速に進歩しており、メーカーは特定のシナリオに合わせて様々な視覚認識モジュールを導入している。
総合的な環境理解に不可欠なリッチなセマンティック情報と3D幾何学情報の両方を提供するため、占有率に基づく表現はヒューマノイドロボットに特に適していると広く認識されている。
本稿では,ハードウェアとソフトウェアコンポーネントを統合した汎用マルチモーダル占有認識システムであるHumanoid Occupancy,データ取得装置,専用のアノテーションパイプラインを提案する。
- 参考スコア(独自算出の注目度): 50.0783429451902
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Humanoid robot technology is advancing rapidly, with manufacturers introducing diverse heterogeneous visual perception modules tailored to specific scenarios. Among various perception paradigms, occupancy-based representation has become widely recognized as particularly suitable for humanoid robots, as it provides both rich semantic and 3D geometric information essential for comprehensive environmental understanding. In this work, we present Humanoid Occupancy, a generalized multimodal occupancy perception system that integrates hardware and software components, data acquisition devices, and a dedicated annotation pipeline. Our framework employs advanced multi-modal fusion techniques to generate grid-based occupancy outputs encoding both occupancy status and semantic labels, thereby enabling holistic environmental understanding for downstream tasks such as task planning and navigation. To address the unique challenges of humanoid robots, we overcome issues such as kinematic interference and occlusion, and establish an effective sensor layout strategy. Furthermore, we have developed the first panoramic occupancy dataset specifically for humanoid robots, offering a valuable benchmark and resource for future research and development in this domain. The network architecture incorporates multi-modal feature fusion and temporal information integration to ensure robust perception. Overall, Humanoid Occupancy delivers effective environmental perception for humanoid robots and establishes a technical foundation for standardizing universal visual modules, paving the way for the widespread deployment of humanoid robots in complex real-world scenarios.
- Abstract(参考訳): ヒューマノイドロボット技術は急速に進歩しており、メーカーは特定のシナリオに合わせて多様な異種視覚認識モジュールを導入している。
多様な知覚パラダイムの中で、総合的な環境理解に不可欠なリッチなセマンティック情報と3D幾何学情報の両方を提供するため、占有に基づく表現はヒューマノイドロボットに特に適していると広く認識されている。
本稿では,ハードウェアとソフトウェアコンポーネントを統合した汎用マルチモーダル占有認識システムであるHumanoid Occupancy,データ取得装置,専用のアノテーションパイプラインを提案する。
本フレームワークでは,マルチモーダル融合技術を用いて,作業計画やナビゲーションなどの下流タスクに対する総合的環境理解を可能にする。
ヒューマノイドロボットの独特な課題に対処するため,運動的干渉や閉塞といった問題を克服し,効果的なセンサレイアウト戦略を確立する。
さらに,ヒューマノイドロボットを対象とした最初のパノラマ占領データセットを開発し,今後の研究・開発に有用なベンチマークと資源を提供する。
ネットワークアーキテクチャにはマルチモーダルな特徴融合と時間情報統合が組み込まれ、堅牢な認識が保証される。
全体として、Humanoid Occupancyはヒューマノイドロボットに対して効果的な環境認識を提供し、普遍的な視覚モジュールを標準化するための技術基盤を確立し、複雑な現実のシナリオにヒューマノイドロボットを広く展開する道を開く。
関連論文リスト
- GRAPPA: Generalizing and Adapting Robot Policies via Online Agentic Guidance [15.774237279917594]
本稿では,ロボットによる自己指導と自己改善のためのエージェントフレームワークを提案する。
本フレームワークは,環境中の関連オブジェクトに対して,ベースロボットポリシーを反復的に適用する。
弊社のアプローチは、操作ポリシーを効果的にガイドし、成功率を大幅に向上させることを実証する。
論文 参考訳(メタデータ) (2024-10-09T02:00:37Z) - Human-centered In-building Embodied Delivery Benchmark [8.079480672302424]
本研究では,人間中心のインビルディング・インボディード・デリバリーという,特定の商業シナリオシミュレーションを提案する。
我々は,極地研究ステーションをモデルとした多層連結建築空間を構築し,スクラッチから新しい仮想環境システムを開発した。
この環境には、自律的な人間キャラクターや、つかみと移動能力を備えたロボットも含まれる。
論文 参考訳(メタデータ) (2024-06-25T19:19:10Z) - Toward General-Purpose Robots via Foundation Models: A Survey and Meta-Analysis [82.59451639072073]
汎用ロボットはどんな環境でも、どんな物体でもシームレスに動作し、様々なスキルを使って様々なタスクをこなす。
コミュニティとしては、特定のタスク用に設計し、特定のデータセットでトレーニングし、特定の環境にデプロイすることで、ほとんどのロボットシステムを制約してきました。
ウェブスケールで大規模で大容量の事前学習型モデルの優れたオープンセット性能とコンテンツ生成能力に感銘を受けて,本調査は,汎用ロボティクスに基礎モデルを適用する方法について検討した。
論文 参考訳(メタデータ) (2023-12-14T10:02:55Z) - Transferring Foundation Models for Generalizable Robotic Manipulation [82.12754319808197]
インターネット規模の基盤モデルによって生成された言語推論セグメンテーションマスクを効果的に活用する新しいパラダイムを提案する。
提案手法は,オブジェクトのポーズを効果的かつ堅牢に知覚し,サンプル効率のよい一般化学習を可能にする。
デモは提出されたビデオで見ることができ、より包括的なデモはlink1またはlink2で見ることができます。
論文 参考訳(メタデータ) (2023-06-09T07:22:12Z) - HARPS: An Online POMDP Framework for Human-Assisted Robotic Planning and
Sensing [1.3678064890824186]
HARPS(Human Assisted Robotic Planning and Sensing)フレームワークは、ロボットチームにおけるアクティブなセマンティックセンシングと計画のためのフレームワークである。
このアプローチにより、人間が不規則にモデル構造を強制し、不確実な環境で意味的なソフトデータの範囲を拡張することができる。
大規模部分構造環境におけるUAV対応ターゲット探索アプリケーションのシミュレーションは、時間と信念状態の推定において著しく改善されている。
論文 参考訳(メタデータ) (2021-10-20T00:41:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。