論文の概要: MetaWorld-X: Hierarchical World Modeling via VLM-Orchestrated Experts for Humanoid Loco-Manipulation
- arxiv url: http://arxiv.org/abs/2603.08572v1
- Date: Mon, 09 Mar 2026 16:28:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:16.414195
- Title: MetaWorld-X: Hierarchical World Modeling via VLM-Orchestrated Experts for Humanoid Loco-Manipulation
- Title(参考訳): MetaWorld-X:Humanoid Loco-ManipulationのためのVLM-Orchestrated Expertsによる階層的世界モデリング
- Authors: Yutong Shen, Hangxu Liu, Penghui Liu, Jiashuo Luo, Yongkang Zhang, Rex Morvley, Chen Jiang, Jianwei Zhang, Lei Zhang,
- Abstract要約: 既存の強化学習アプローチは、複数のスキルを得るために単一のモノリシックなポリシーに依存している。
ヒューマノイド制御のための階層的世界モデルフレームワークであるMetaWorld-Xを提案する。
本手法は,複雑な制御問題を専門的なポリシーの集合に分解する。
- 参考スコア(独自算出の注目度): 7.721920759084426
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning natural, stable, and compositionally generalizable whole-body control policies for humanoid robots performing simultaneous locomotion and manipulation (loco-manipulation) remains a fundamental challenge in robotics. Existing reinforcement learning approaches typically rely on a single monolithic policy to acquire multiple skills, which often leads to cross-skill gradient interference and motion pattern conflicts in high-degree-of-freedom systems. As a result, generated behaviors frequently exhibit unnatural movements, limited stability, and poor generalization to complex task compositions. To address these limitations, we propose MetaWorld-X, a hierarchical world model framework for humanoid control. Guided by a divide-and-conquer principle, our method decomposes complex control problems into a set of specialized expert policies (Specialized Expert Policies, SEP). Each expert is trained under human motion priors through imitation-constrained reinforcement learning, introducing biomechanically consistent inductive biases that ensure natural and physically plausible motion generation. Building upon this foundation, we further develop an Intelligent Routing Mechanism (IRM) supervised by a Vision-Language Model (VLM), enabling semantic-driven expert composition. The VLM-guided router dynamically integrates expert policies according to high-level task semantics, facilitating compositional generalization and adaptive execution in multi-stage loco-manipulation tasks.
- Abstract(参考訳): ロボットの動作と操作(ロボット操作)を同時に行うヒューマノイドロボットに対して、自然で安定的で、構成的に一般化可能な全身制御ポリシーを学習することは、ロボット工学における根本的な課題である。
既存の強化学習アプローチは、通常、複数のスキルを獲得するために単一のモノリシックなポリシーに依存しており、しばしば高い自由度システムにおけるクロススキルな勾配干渉と動きパターンの衝突を引き起こす。
その結果、生成された行動は、しばしば不自然な動き、限られた安定性、複雑なタスク構成への一般化の欠如を示す。
これらの制約に対処するため,ヒューマノイド制御のための階層的世界モデルフレームワークであるMetaWorld-Xを提案する。
本手法は, 複雑な制御問題を専門的専門家政策(特殊専門家政策, SEP)の集合に分解する。
それぞれの専門家は、模倣制約された強化学習を通じて、自然と物理的に妥当な運動生成を保証する、生体力学的に一貫した誘導バイアスを導入することで、人間の動作の事前の下で訓練される。
この基盤を基盤として,視覚言語モデル(VLM)によって制御される知的ルーティング機構(IRM)をさらに発展させ,セマンティック・ドリブン・エキスパート・コンポジションを実現する。
VLM誘導ルータは、高レベルなタスクセマンティクスに従って専門家ポリシーを動的に統合し、多段階のロコ操作タスクにおける構成一般化と適応実行を容易にする。
関連論文リスト
- ULTRA: Unified Multimodal Control for Autonomous Humanoid Whole-Body Loco-Manipulation [55.467742403416175]
本稿では,大規模モーションキャプチャをヒューマノイドに変換する物理駆動型ニューラルネットワークを提案する。
我々は高密度参照とスパースタスク仕様の両方をサポートする統合マルチモーダルコントローラを学習する。
その結果,ULTRAは自我中心の知覚から,自律的,目標条件付き全体ロコ操作に一般化することが示された。
論文 参考訳(メタデータ) (2026-03-03T18:59:29Z) - InterPrior: Scaling Generative Control for Physics-Based Human-Object Interactions [58.329946838699044]
人間は、明示的な全身運動のレベルで、物体と全身の相互作用を計画することは滅多にない。
このような事前のスケーリングは、ヒューマノイドがロコ操作スキルの構築と一般化を可能にする鍵となる。
我々は,強化学習による大規模模倣事前学習とポストトレーニングを通じて,統合生成コントローラを学習するフレームワークであるInterPriorを紹介する。
論文 参考訳(メタデータ) (2026-02-05T18:59:27Z) - Generalizable Geometric Prior and Recurrent Spiking Feature Learning for Humanoid Robot Manipulation [90.90219129619344]
本稿では,スパイキング機能を備えたR-prior-S, Recurrent Geometric-priormodal Policyを提案する。
物理的現実の高レベル推論を基礎として、軽量な2次元幾何学的帰納バイアスを利用する。
ロボット行動生成におけるデータ効率問題に対して,再帰的適応スパイクネットワークを導入する。
論文 参考訳(メタデータ) (2026-01-13T23:36:30Z) - Executable Analytic Concepts as the Missing Link Between VLM Insight and Precise Manipulation [70.8381970762877]
VLM(Vision-Language Models)は、セマンティック推論とタスク計画において顕著な能力を示す。
本稿では,VLMに基づく推論を実行可能な解析概念を通じて基礎づける新しいフレームワークであるGRACEを紹介する。
G GRACEは高レベル命令理解と低レベルロボット制御の統一的で解釈可能なインターフェースを提供する。
論文 参考訳(メタデータ) (2025-10-09T09:08:33Z) - KungfuBot2: Learning Versatile Motion Skills for Humanoid Whole-Body Control [30.738592041595933]
ヒューマノイドロボットが単一ポリシーで多様な動的動作を学習できる統一された全身制御系VMSを提案する。
我々のフレームワークは、局所的な動きの忠実度とグローバルな軌道の整合性のバランスをとるハイブリッドな追跡目標を統合している。
シミュレーションと実世界の実験の両方においてVMSの特殊化を広範囲に検証し、ダイナミックスキルの正確な模倣、分長シーケンスでの安定した性能、そして目に見えない動作に対する強力な一般化を実証した。
論文 参考訳(メタデータ) (2025-09-20T11:31:14Z) - From Experts to a Generalist: Toward General Whole-Body Control for Humanoid Robots [35.26305396688982]
BumbleBeeは、モーションクラスタリングとsim-to-real適応を組み合わせた、専門家と一般の学習フレームワークである。
2つのシミュレーションと本物のヒューマノイドロボットの実験は、BBが最先端の全身制御を実現することを実証している。
論文 参考訳(メタデータ) (2025-06-15T09:09:34Z) - Sim-to-Real Reinforcement Learning for Vision-Based Dexterous Manipulation on Humanoids [56.892520712892804]
本稿では,ヒューマノイドロボットを訓練して3つの巧妙な操作を行う,実用的なシミュレート・トゥ・リアルなRLレシピを提案する。
未確認のオブジェクトやロバストで適応的な政策行動に対して高い成功率を示す。
論文 参考訳(メタデータ) (2025-02-27T18:59:52Z) - COMBO-Grasp: Learning Constraint-Based Manipulation for Bimanual Occluded Grasping [56.907940167333656]
集積ロボットグルーピングは、表面衝突などの環境制約により、所望のグルーピングポーズが運動的に不可能な場所である。
従来のロボット操作アプローチは、人間が一般的に使用する非包括的または双対的戦略の複雑さに苦しむ。
本稿では,2つの協調ポリシーを活用する学習ベースアプローチであるCOMBO-Grasp(Constraint-based Manipulation for Bimanual Occluded Grasping)を紹介する。
論文 参考訳(メタデータ) (2025-02-12T01:31:01Z) - Towards Natural Language-Driven Assembly Using Foundation Models [11.710022685486914]
大規模言語モデル(LLM)と強力な視覚モデルにより、ビジョン・ランゲージ・アクションモデル(英語版)の分野での迅速な研究と開発が可能となった。
本稿では,LLMをベースとしたグローバルコントロールポリシを提案する。
このフレームワークへのLLMの統合は、言語入力の解釈と処理だけでなく、多種多様な複雑なロボット操作のための制御機構の強化においても、その重要性を浮き彫りにしている。
論文 参考訳(メタデータ) (2024-06-23T12:14:37Z) - On the Emergence of Whole-body Strategies from Humanoid Robot
Push-recovery Learning [32.070068456106895]
シミュレーション環境における汎用的で堅牢なヒューマノイドプッシュリカバリポリシーのトレーニングに,モデルフリーな深層強化学習を適用する。
本手法は高次元全体ヒューマノイド制御を目標とし,iCubヒューマノイド上で検証を行った。
論文 参考訳(メタデータ) (2021-04-29T17:49:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。