論文の概要: Commanding Humanoid by Free-form Language: A Large Language Action Model with Unified Motion Vocabulary
- arxiv url: http://arxiv.org/abs/2511.22963v1
- Date: Fri, 28 Nov 2025 08:11:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 19:47:55.814015
- Title: Commanding Humanoid by Free-form Language: A Large Language Action Model with Unified Motion Vocabulary
- Title(参考訳): 自由形言語によるコマンドヒューマノイド:一様運動語彙を持つ大規模言語行動モデル
- Authors: Zhirui Liu, Kaiyang Ji, Ke Yang, Jingyi Yu, Ye Shi, Jingya Wang,
- Abstract要約: 本稿では,Humanoid-LLAについて紹介する。Humanoid-LLAは,表現型言語コマンドを人型ロボットの身体的実行可能な全身動作にマッピングする,大規模言語行動モデルである。
提案手法は,人間とヒューマノイドの運動プリミティブを共有された離散空間に整合させる統一運動語彙,物理的実現性を確保するための特権ポリシーから抽出した語彙指向コントローラ,動的に認識された報酬を用いた強化学習を用いた物理インフォームド微調整ステージの3つのコアコンポーネントを統合する。
- 参考スコア(独自算出の注目度): 59.98573566227095
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Enabling humanoid robots to follow free-form language commands is critical for seamless human-robot interaction, collaborative task execution, and general-purpose embodied intelligence. While recent advances have improved low-level humanoid locomotion and robot manipulation, language-conditioned whole-body control remains a significant challenge. Existing methods are often limited to simple instructions and sacrifice either motion diversity or physical plausibility. To address this, we introduce Humanoid-LLA, a Large Language Action Model that maps expressive language commands to physically executable whole-body actions for humanoid robots. Our approach integrates three core components: a unified motion vocabulary that aligns human and humanoid motion primitives into a shared discrete space; a vocabulary-directed controller distilled from a privileged policy to ensure physical feasibility; and a physics-informed fine-tuning stage using reinforcement learning with dynamics-aware rewards to enhance robustness and stability. Extensive evaluations in simulation and on a real-world Unitree G1 humanoid show that Humanoid-LLA delivers strong language generalization while maintaining high physical fidelity, outperforming existing language-conditioned controllers in motion naturalness, stability, and execution success rate.
- Abstract(参考訳): 自由形式の言語コマンドに従うためのヒューマノイドロボットの開発は、シームレスな人間とロボットの相互作用、協調的なタスク実行、汎用的なインテリジェンスに不可欠である。
近年,低レベルのヒューマノイド移動とロボット操作の改善が進んでいるが,言語条件付き全身制御は依然として大きな課題である。
既存の方法はしばしば単純な指示に限られており、運動の多様性や身体的妥当性を犠牲にしている。
そこで本研究では,Humanoid-LLAを提案する。Humanoid-LLAは,表現型言語コマンドをヒューマノイドロボットのための物理的に実行可能な全身動作にマッピングする,大規模言語行動モデルである。
提案手法は,人間とヒューマノイドの運動プリミティブを共有された離散空間に整合させる統一運動語彙,物理的実現性を確保するための特権ポリシーから抽出した語彙指向コントローラ,動的に認識された報酬を用いた強化学習を用いた物理インフォームド微調整ステージの3つのコアコンポーネントを統合する。
シミュレーションおよび実世界におけるUnitree G1ヒューマノイドの大規模な評価は、Humanoid-LLAは、運動自然性、安定性、実行成功率において、既存の言語条件のコントローラよりも優れた、高い物理忠実性を維持しつつ、強力な言語一般化を提供することを示している。
関連論文リスト
- SENTINEL: A Fully End-to-End Language-Action Model for Humanoid Whole Body Control [31.180948030479797]
ヒューマノイド全身制御のためのエンドツーエンド言語-アクションモデルを提案する。
我々は,事前訓練された全身制御器を用いて人の動きを追跡することで,大規模なデータセットを構築した。
このモデルは言語コマンドと固有入力を直接中間表現なしで低レベルのアクションにマッピングする。
論文 参考訳(メタデータ) (2025-11-24T15:48:59Z) - From Language to Locomotion: Retargeting-free Humanoid Control via Motion Latent Guidance [55.31807046722006]
既存の言語誘導型ヒューマノイドパイプラインは面倒で信頼できない。
本稿では,言語を基盤とした動作潜伏者に対してヒューマノイドポリシーを規定する言語フリーフレームワークであるRoboGhostを紹介する。
我々は,RoboGhostがデプロイメントの遅延を大幅に低減し,成功率と精度を向上し,スムーズでセマンティックに整合したヒューマノイドを生成することを示す。
論文 参考訳(メタデータ) (2025-10-16T17:57:47Z) - GR00T N1: An Open Foundation Model for Generalist Humanoid Robots [133.23509142762356]
汎用ロボットには多目的体と知的な心が必要だ。
近年のヒューマノイドロボットの進歩は、汎用的な自律性を構築するためのハードウェアプラットフォームとして大きな可能性を秘めている。
我々はヒューマノイドロボットのオープン基盤モデルであるGR00T N1を紹介する。
論文 参考訳(メタデータ) (2025-03-18T21:06:21Z) - EMOTION: Expressive Motion Sequence Generation for Humanoid Robots with In-Context Learning [10.266351600604612]
本稿では,ヒューマノイドロボットにおける表現型動き列を生成するためのEMOTIONというフレームワークを提案する。
本研究では,EMOTIONが生成する動作の自然性と理解性を比較したオンラインユーザ研究を行い,その人間フィードバックバージョンであるEMOTION++について述べる。
論文 参考訳(メタデータ) (2024-10-30T17:22:45Z) - "No, to the Right" -- Online Language Corrections for Robotic
Manipulation via Shared Autonomy [70.45420918526926]
LILACは、実行中に自然言語の修正をオンラインで実施し、適応するためのフレームワークである。
LILACは人間とロボットを個別にターンテイクする代わりに、人間とロボットの間にエージェンシーを分割する。
提案手法は,タスク完了率が高く,ユーザによって主観的に好まれることを示す。
論文 参考訳(メタデータ) (2023-01-06T15:03:27Z) - LaTTe: Language Trajectory TransformEr [33.7939079214046]
本研究は、汎用的な3次元ロボット軌道を修正するための柔軟な言語ベースのフレームワークを提案する。
自然言語入力と文脈イメージを3次元軌跡の変化にマッピングするために,自動回帰変換器を用いる。
シミュレーションや実生活実験を通じて、モデルが人間の意図に従うことができることを示す。
論文 参考訳(メタデータ) (2022-08-04T22:43:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。