論文の概要: FRoM-W1: Towards General Humanoid Whole-Body Control with Language Instructions
- arxiv url: http://arxiv.org/abs/2601.12799v1
- Date: Mon, 19 Jan 2026 07:59:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:22.796722
- Title: FRoM-W1: Towards General Humanoid Whole-Body Control with Language Instructions
- Title(参考訳): FRoM-W1:言語指導による汎用ヒューマノイド全体制御に向けて
- Authors: Peng Li, Zihan Zhuang, Yangfan Gao, Yi Dong, Sixian Li, Changhao Jiang, Shihan Dou, Zhiheng Xi, Enyu Zhou, Jixuan Huang, Hui Li, Jingjing Gong, Xingjun Ma, Tao Gui, Zuxuan Wu, Qi Zhang, Xuanjing Huang, Yu-Gang Jiang, Xipeng Qiu,
- Abstract要約: FRoM-W1は、自然言語を用いた一般的なヒューマノイド全体の動作制御を実現するために設計されたオープンソースのフレームワークである。
我々はUnitree H1とG1ロボット上でFRoM-W1を広範囲に評価した。
その結果,HumanML3D-Xベンチマークにおいて,人体全体の動作生成に優れた性能を示した。
- 参考スコア(独自算出の注目度): 147.04372611893032
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Humanoid robots are capable of performing various actions such as greeting, dancing and even backflipping. However, these motions are often hard-coded or specifically trained, which limits their versatility. In this work, we present FRoM-W1, an open-source framework designed to achieve general humanoid whole-body motion control using natural language. To universally understand natural language and generate corresponding motions, as well as enable various humanoid robots to stably execute these motions in the physical world under gravity, FRoM-W1 operates in two stages: (a) H-GPT: utilizing massive human data, a large-scale language-driven human whole-body motion generation model is trained to generate diverse natural behaviors. We further leverage the Chain-of-Thought technique to improve the model's generalization in instruction understanding. (b) H-ACT: After retargeting generated human whole-body motions into robot-specific actions, a motion controller that is pretrained and further fine-tuned through reinforcement learning in physical simulation enables humanoid robots to accurately and stably perform corresponding actions. It is then deployed on real robots via a modular simulation-to-reality module. We extensively evaluate FRoM-W1 on Unitree H1 and G1 robots. Results demonstrate superior performance on the HumanML3D-X benchmark for human whole-body motion generation, and our introduced reinforcement learning fine-tuning consistently improves both motion tracking accuracy and task success rates of these humanoid robots. We open-source the entire FRoM-W1 framework and hope it will advance the development of humanoid intelligence.
- Abstract(参考訳): ヒューマノイドロボットは、挨拶、ダンス、バックフリップといった様々な行動を実行することができる。
しかし、これらの動きは、しばしばハードコードされたり、特別に訓練されたものであるため、その汎用性は制限される。
本研究では,自然言語を用いた汎用ヒューマノイド全身運動制御を実現するためのオープンソースフレームワークであるFRoM-W1を提案する。
自然言語を普遍的に理解し、対応する動きを生成するとともに、様々なヒューマノイドロボットが重力下で物理的世界で安定して動作できるようにするため、FRoM-W1は2段階で動作する。
(a)H-GPT:大規模人体データを用いて,多種多様な自然行動を生成するために,大規模言語駆動型人体運動生成モデルを訓練する。
我々はさらにChain-of-Thought手法を活用し、命令理解におけるモデルの一般化を改善する。
b)H-ACT: 生成した人体の動きをロボット固有の動作に再ターゲティングした後、物理シミュレーションにおける強化学習を通じて事前訓練され、さらに微調整されたモーションコントローラにより、ヒューマノイドロボットは、対応する動作を正確かつ安定に実行することができる。
その後、モジュラー・シミュレーション・トゥ・リアル・モジュールを介して実際のロボットにデプロイされる。
我々はUnitree H1とG1ロボット上でFRoM-W1を広範囲に評価した。
人体運動生成のためのHumanML3D-Xベンチマークにおいて,動作追跡精度とタスク成功率を一貫して向上させる強化学習微調整を行った。
我々は、FRoM-W1フレームワーク全体をオープンソース化し、ヒューマノイドインテリジェンスの開発を進めることを望んでいます。
関連論文リスト
- MiVLA: Towards Generalizable Vision-Language-Action Model with Human-Robot Mutual Imitation Pre-training [102.850162490626]
人間のロボットによる相互模倣事前学習による視覚-言語-行動モデルであるMiVLAを提案する。
MiVLAは、最先端のVLAよりも優れた、強力な改良された一般化能力を実現する。
論文 参考訳(メタデータ) (2025-12-17T12:59:41Z) - Commanding Humanoid by Free-form Language: A Large Language Action Model with Unified Motion Vocabulary [59.98573566227095]
本稿では,Humanoid-LLAについて紹介する。Humanoid-LLAは,表現型言語コマンドを人型ロボットの身体的実行可能な全身動作にマッピングする,大規模言語行動モデルである。
提案手法は,人間とヒューマノイドの運動プリミティブを共有された離散空間に整合させる統一運動語彙,物理的実現性を確保するための特権ポリシーから抽出した語彙指向コントローラ,動的に認識された報酬を用いた強化学習を用いた物理インフォームド微調整ステージの3つのコアコンポーネントを統合する。
論文 参考訳(メタデータ) (2025-11-28T08:11:24Z) - GR00T N1: An Open Foundation Model for Generalist Humanoid Robots [133.23509142762356]
汎用ロボットには多目的体と知的な心が必要だ。
近年のヒューマノイドロボットの進歩は、汎用的な自律性を構築するためのハードウェアプラットフォームとして大きな可能性を秘めている。
我々はヒューマノイドロボットのオープン基盤モデルであるGR00T N1を紹介する。
論文 参考訳(メタデータ) (2025-03-18T21:06:21Z) - Learning from Massive Human Videos for Universal Humanoid Pose Control [46.417054298537195]
本稿では,2000万以上のヒューマノイドロボットの大規模データセットであるHumanoid-Xを紹介する。
我々は、テキスト命令を入力として受け取り、対応する動作を出力してヒューマノイドロボットを制御する、大きなヒューマノイドモデルUH-1を訓練する。
私たちのスケーラブルなトレーニングアプローチは、テキストベースのヒューマノイド制御の優れた一般化につながります。
論文 参考訳(メタデータ) (2024-12-18T18:59:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。