論文の概要: Humanoid Whole-Body Manipulation via Active Spatial Brain and Generalizable Action Cerebellum
- arxiv url: http://arxiv.org/abs/2605.21133v1
- Date: Wed, 20 May 2026 13:05:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-21 19:19:56.685514
- Title: Humanoid Whole-Body Manipulation via Active Spatial Brain and Generalizable Action Cerebellum
- Title(参考訳): アクティブな空間脳と一般化可能な行動小脳を介するヒューマノイドの全身操作
- Authors: Zhizhao Liang, Yi-Lin Wei, Xuhang Chen, Mu Lin, Yi-Xiang He, Zhexi Luo, Jun-Hui Liu, Kun-Yu Lin, Wei-Shi Zheng,
- Abstract要約: マルチエージェント大規模モデルの空間知覚と行動生成能力を活用する汎用的なヒューマノイドロコ操作フレームワークを提案する。
具体的には、アクティブな空間認識と意思決定のためのアクティブな空間脳と、実行可能なロボットアクション生成のためのジェネラライズ可能なアクション脳である。
その結果、さまざまなタスクや環境にまたがる両方の面において、強いパフォーマンスを示します。
- 参考スコア(独自算出の注目度): 43.37974049804313
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we explore spatial-aware humanoid whole-body manipulation task. Compared with tabletop settings, this task poses two key challenges: 1) Spatial understanding is challenging in complex 3D environments with diverse spatial relations. 2) Action generation is difficult to generalize, as limited and costly real-robot data restricts data-driven models generalization. To address these challenges, we propose a generalizable humanoid loco-manipulation framework that leverages the spatial perception and action generation capabilities of multi-agent large models. Specifically, our framework includes two components: Active Spatial Brain for active spatial perception and decision-making, and Generalizable Action Cerebellum for executable robot action generation. The first component actively perceives the spatial scene and makes decisions on task planning and subtask decomposition. The second component generate executable robot actions based on the decisions made by the first module without needs of task-specific real robot data. To benchmark our framework, we design a set of spatial manipulation tasks from two perspectives: evaluating spatial perception and understanding, and assessing real-robot task performance. The results demonstrate strong performance on both aspects across diverse tasks and environments.
- Abstract(参考訳): 本稿では,空間認識型ヒューマノイド全体操作タスクについて検討する。
テーブルトップ設定と比較すると、このタスクには2つの重要な課題がある。
1) 多様な空間的関係を持つ複雑な3次元環境において, 空間的理解は困難である。
2)データ駆動モデルの一般化を制限するため,アクション生成の一般化は困難である。
これらの課題に対処するために,多エージェント大規模モデルの空間知覚と行動生成能力を活用する汎用的なヒューマノイド・ロコ・マニピュレーション・フレームワークを提案する。
具体的には、アクティブな空間認識と意思決定のためのアクティブな空間脳と、実行可能なロボットアクション生成のためのジェネラライズ可能なアクション脳である。
第1のコンポーネントは、空間的なシーンを積極的に認識し、タスク計画とサブタスク分解について決定する。
第2のコンポーネントは、タスク固有の実ロボットデータを必要としない第1モジュールによる決定に基づいて実行可能なロボット動作を生成する。
本フレームワークをベンチマークするために,空間認識と理解の両面から空間操作タスクのセットを設計し,実ロボットタスクのパフォーマンスを評価する。
その結果、さまざまなタスクや環境にまたがる両方の面において、強いパフォーマンスを示します。
関連論文リスト
- EgoActor: Grounding Task Planning into Spatial-aware Egocentric Actions for Humanoid Robots via Visual-Language Models [31.768426199719816]
EgoActingは,高レベルの指示を様々な,正確に,空間的に認識されたヒューマノイド行動に直結させることが要求される。
さらに,ロコモーションプリミティブを予測可能な,統一的でスケーラブルな視覚言語モデル(VLM)であるEgoActorを導入することで,このタスクをインスタンス化する。
我々は,実世界の実演,空間的推論質問応答,シミュレートされた環境デモンストレーションから,エゴセントリックなRGBのみのデータに対する広範囲の監視を活用している。
論文 参考訳(メタデータ) (2026-02-04T13:04:56Z) - Generalizable Geometric Prior and Recurrent Spiking Feature Learning for Humanoid Robot Manipulation [90.90219129619344]
本稿では,スパイキング機能を備えたR-prior-S, Recurrent Geometric-priormodal Policyを提案する。
物理的現実の高レベル推論を基礎として、軽量な2次元幾何学的帰納バイアスを利用する。
ロボット行動生成におけるデータ効率問題に対して,再帰的適応スパイクネットワークを導入する。
論文 参考訳(メタデータ) (2026-01-13T23:36:30Z) - ODYSSEY: Open-World Quadrupeds Exploration and Manipulation for Long-Horizon Tasks [46.676862567167625]
ODYSSEYは、マニピュレータを備えたアジャイル四足ロボットのための統合モバイル操作フレームワークである。
言語条件付きタスクにおける自我中心的認識の課題に対処するために,視覚言語モデルを用いた階層型プランナを導入する。
コントロールレベルでは、新しい全身政策は、挑戦的な地形をまたいだ堅牢な協調を実現する。
論文 参考訳(メタデータ) (2025-08-11T17:54:31Z) - Recognizing Actions from Robotic View for Natural Human-Robot Interaction [52.00935005918032]
自然人-ロボットインタラクション(Natural Human-Robot Interaction, N-HRI)は、ロボット自身が動いているか静止しているかに関わらず、ロボットが様々な距離と状態で人間の行動を認識することを要求する。
N-HRIの既存のベンチマークは、限られたデータ、モダリティ、タスクカテゴリ、主題や環境の多様性のために、N-HRIのユニークな複雑さに対処できない。
モバイルサービスロボットで広く使われている知覚中心ロボットビューのための大規模データセット(Action from Robotic View)を紹介する。
論文 参考訳(メタデータ) (2025-07-30T09:48:34Z) - SpatialVLA: Exploring Spatial Representations for Visual-Language-Action Model [45.03115608632622]
空間理解はロボット操作のキーポイントです
本研究では,ロボット基盤モデルのための効果的な空間表現を探索する空間VLAを提案する。
提案したAdaptive Action Gridsは,事前学習したSpatialVLAモデルを微調整し,新しいシミュレーションと実世界のセットアップを実現するための,新しい効果的な方法を提供する。
論文 参考訳(メタデータ) (2025-01-27T07:34:33Z) - Hulk: A Universal Knowledge Translator for Human-Centric Tasks [69.8518392427151]
我々は、最初のマルチモーダルな人間中心ジェネラリストモデルであるハルクを提示する。
2Dビジョン、3Dビジョン、スケルトンベース、そしてタスク固有の微調整なしで視覚言語タスクに対処する。
Hulkは11のベンチマークで最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2023-12-04T07:36:04Z) - Transferring Foundation Models for Generalizable Robotic Manipulation [82.12754319808197]
インターネット規模の基盤モデルによって生成された言語推論セグメンテーションマスクを効果的に活用する新しいパラダイムを提案する。
提案手法は,オブジェクトのポーズを効果的かつ堅牢に知覚し,サンプル効率のよい一般化学習を可能にする。
デモは提出されたビデオで見ることができ、より包括的なデモはlink1またはlink2で見ることができます。
論文 参考訳(メタデータ) (2023-06-09T07:22:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。