論文の概要: HEX: Humanoid-Aligned Experts for Cross-Embodiment Whole-Body Manipulation
- arxiv url: http://arxiv.org/abs/2604.07993v1
- Date: Thu, 09 Apr 2026 09:01:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-10 18:34:05.818476
- Title: HEX: Humanoid-Aligned Experts for Cross-Embodiment Whole-Body Manipulation
- Title(参考訳): HEX: クロス・エボディメント(全体操)のヒューマノイド専門家
- Authors: Shuanghao Bai, Meng Li, Xinyuan Lv, Jiawei Wang, Xinhua Wang, Fei Liao, Chengkai Hou, Langzhe Gu, Wanqi Zhou, Kun Wu, Ziluo Ding, Zhiyuan Xu, Lei Sun, Shanghang Zhang, Zhengping Che, Jian Tang, Badong Chen,
- Abstract要約: HEXは、ヒューマノイドロボットの協調操作のための状態中心のフレームワークである。
ヘテロジニアスな実施形態をまたいだスケーラブルな学習のための、ヒューマノイドに整合した普遍的状態表現が組み込まれている。
タスクの成功率と一般化における最先端のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 74.34984994596813
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Humans achieve complex manipulation through coordinated whole-body control, whereas most Vision-Language-Action (VLA) models treat robot body parts largely independently, making high-DoF humanoid control challenging and often unstable. We present HEX, a state-centric framework for coordinated manipulation on full-sized bipedal humanoid robots. HEX introduces a humanoid-aligned universal state representation for scalable learning across heterogeneous embodiments, and incorporates a Mixture-of-Experts Unified Proprioceptive Predictor to model whole-body coordination and temporal motion dynamics from large-scale multi-embodiment trajectory data. To efficiently capture temporal visual context, HEX uses lightweight history tokens to summarize past observations, avoiding repeated encoding of historical images during inference. It further employs a residual-gated fusion mechanism with a flow-matching action head to adaptively integrate visual-language cues with proprioceptive dynamics for action generation. Experiments on real-world humanoid manipulation tasks show that HEX achieves state-of-the-art performance in task success rate and generalization, particularly in fast-reaction and long-horizon scenarios.
- Abstract(参考訳): 人間は、調整された全身制御によって複雑な操作を行うのに対し、ほとんどのビジョン・ランゲージ・アクション(VLA)モデルは、ロボットの身体部分を主に独立して扱うため、ハイDoFのヒューマノイド制御は困難であり、しばしば不安定である。
フルサイズの2足歩行ロボットにおける協調操作のための状態中心型フレームワークであるHEXを提案する。
HEXは、異種エボディメントをまたいだスケーラブルな学習のためのヒューマノイド整合型普遍状態表現を導入し、Mixture-of-Experts Unified Proprioceptive Predictorを組み込んで、大規模なマルチエンボディメント軌道データから全身調整と時間運動のダイナミクスをモデル化する。
HEXは、時間的視覚的コンテキストを効率的に捉えるために、過去の観測を要約するために軽量な履歴トークンを使用し、推論中に歴史的画像の繰り返し符号化を避ける。
さらに、フローマッチングアクションヘッドを備えた残留ゲート融合機構を使用して、視覚言語キューとプロプレセプティブダイナミクスを適応的に統合してアクション生成する。
実世界のヒューマノイド操作タスクの実験は、HEXがタスクの成功率と一般化における最先端のパフォーマンス、特に高速反応と長期水平シナリオにおいて達成していることを示している。
関連論文リスト
- Cross-Hand Latent Representation for Vision-Language-Action Models [49.32460749933983]
器用な操作のための信頼性の高い視覚言語アクションモデルを訓練するには、多くのロボットハンドにわたる大規模な実演が必要である。
XL-VLAは視覚・言語・アクション・フレームワークであり,多種多様な手間で共有される潜在行動空間と統合される。
論文 参考訳(メタデータ) (2026-03-10T18:50:57Z) - UniHM: Unified Dexterous Hand Manipulation with Vision Language Model [39.2419824041854]
身体的に実現可能な器用な手操作を計画することは、ロボット操作と身体的AIにおける中心的な課題である。
自由形式の言語コマンドで案内される手操作を統一する最初のフレームワークであるUniHMを紹介する。
論文 参考訳(メタデータ) (2026-02-28T16:37:11Z) - METIS: Multi-Source Egocentric Training for Integrated Dexterous Vision-Language-Action Model [36.82365894983052]
大きなボトルネックは、デクスタラススキルのための大規模でアクションアノテートされたデータの不足にある。
我々は,エゴセントリックなデータセット上で事前学習したデクスタラス操作のための視覚言語アクションモデルMETISを提案する。
提案手法は,6つの実世界のタスクにおける平均成功率を達成し,異常な操作能力を示す。
論文 参考訳(メタデータ) (2025-11-21T16:32:36Z) - Scaling Up Dynamic Human-Scene Interaction Modeling [58.032368564071895]
TRUMANSは、現在利用可能な最も包括的なモーションキャプチャーHSIデータセットである。
人体全体の動きや部分レベルの物体の動きを複雑に捉えます。
本研究では,任意の長さのHSI配列を効率的に生成する拡散型自己回帰モデルを提案する。
論文 参考訳(メタデータ) (2024-03-13T15:45:04Z) - RealDex: Towards Human-like Grasping for Robotic Dexterous Hand [64.33746404551343]
本稿では,人間の行動パターンを取り入れた手の動きを正確に把握する先駆的データセットであるRealDexを紹介する。
RealDexは、現実のシナリオにおける認識、認識、操作を自動化するためのヒューマノイドロボットを進化させる上で、大きな可能性を秘めている。
論文 参考訳(メタデータ) (2024-02-21T14:59:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。