論文の概要: From Language to Locomotion: Retargeting-free Humanoid Control via Motion Latent Guidance
- arxiv url: http://arxiv.org/abs/2510.14952v1
- Date: Thu, 16 Oct 2025 17:57:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-17 21:15:14.992424
- Title: From Language to Locomotion: Retargeting-free Humanoid Control via Motion Latent Guidance
- Title(参考訳): 言語から移動へ:動作遅延誘導によるリターゲットフリーヒューマノイド制御
- Authors: Zhe Li, Cheng Chi, Yangyang Wei, Boan Zhu, Yibo Peng, Tao Huang, Pengwei Wang, Zhongyuan Wang, Shanghang Zhang, Chang Xu,
- Abstract要約: 既存の言語誘導型ヒューマノイドパイプラインは複雑で信頼性が低い。
本稿では,言語を基盤とした動作潜伏者に対してヒューマノイドポリシーを規定する言語フリーフレームワークであるRoboGhostを紹介する。
我々は,RoboGhostがデプロイメントの遅延を大幅に低減し,成功率と追跡精度を向上し,スムーズでセマンティックに整合したヒューマノイドを生成することを示す。
- 参考スコア(独自算出の注目度): 55.31807046722006
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Natural language offers a natural interface for humanoid robots, but existing language-guided humanoid locomotion pipelines remain cumbersome and unreliable. They typically decode human motion, retarget it to robot morphology, and then track it with a physics-based controller. However, this multi-stage process is prone to cumulative errors, introduces high latency, and yields weak coupling between semantics and control. These limitations call for a more direct pathway from language to action, one that eliminates fragile intermediate stages. Therefore, we present RoboGhost, a retargeting-free framework that directly conditions humanoid policies on language-grounded motion latents. By bypassing explicit motion decoding and retargeting, RoboGhost enables a diffusion-based policy to denoise executable actions directly from noise, preserving semantic intent and supporting fast, reactive control. A hybrid causal transformer-diffusion motion generator further ensures long-horizon consistency while maintaining stability and diversity, yielding rich latent representations for precise humanoid behavior. Extensive experiments demonstrate that RoboGhost substantially reduces deployment latency, improves success rates and tracking accuracy, and produces smooth, semantically aligned locomotion on real humanoids. Beyond text, the framework naturally extends to other modalities such as images, audio, and music, providing a general foundation for vision-language-action humanoid systems.
- Abstract(参考訳): 自然言語はヒューマノイドロボットに自然なインタフェースを提供するが、既存の言語誘導のヒューマノイド移動パイプラインは扱いにくいし信頼性も低い。
通常、人間の動きをデコードし、ロボットの形態に再ターゲティングし、物理ベースのコントローラーで追跡する。
しかし、この多段階プロセスは累積誤差を起こしやすく、高いレイテンシを導入し、セマンティクスと制御の弱い結合をもたらす。
これらの制限は、脆弱な中間段階を取り除く言語から行動へのより直接的な経路を要求する。
そこで本稿では,言語を基盤とした動作潜伏者に対して,ヒューマノイドポリシーを直接条件とするリターゲットフリーフレームワークであるRoboGhostを提案する。
明示的なモーションデコーディングと再ターゲティングをバイパスすることで、RoboGhostは拡散ベースのポリシーによって、実行可能アクションをノイズから直接識別し、セマンティックインテントを保持し、高速でリアクティブなコントロールをサポートする。
ハイブリッド因果変換器拡散運動発生器は、安定性と多様性を維持しながら、より長い水平整合性を確保し、高精度なヒューマノイド動作のためのリッチな潜伏表現を与える。
大規模な実験では、RoboGhostはデプロイメントのレイテンシを大幅に削減し、成功率と追跡精度を改善し、実際のヒューマノイド上でスムーズでセマンティックに整合した移動を生成する。
テキスト以外にも、このフレームワークは自然に画像、オーディオ、音楽などの他のモダリティにまで拡張され、視覚言語によるヒューマノイドシステムの基盤となっている。
関連論文リスト
- ResMimic: From General Motion Tracking to Humanoid Whole-body Loco-Manipulation via Residual Learning [59.64325421657381]
ヒューマノイド全体のロコ操作は、日々のサービスや倉庫のタスクにトランスフォーメーション機能を約束する。
ResMimicは、人間の動作データから正確に表現力のあるヒューマノイド制御のための2段階の残差学習フレームワークである。
結果は、強いベースラインよりもタスク成功、トレーニング効率、堅牢性が大幅に向上したことを示している。
論文 参考訳(メタデータ) (2025-10-06T17:47:02Z) - KungfuBot: Physics-Based Humanoid Whole-Body Control for Learning Highly-Dynamic Skills [50.34487144149439]
そこで本研究では,Kungfuやダンスなどの人体動作を高度に制御することを目的とした,物理学に基づくヒューマノイド制御フレームワークを提案する。
動作処理では,運動の抽出,フィルタリング,修正,再ターゲティングを行うパイプラインを設計し,物理的制約の遵守を確実にする。
動作模倣では、二段階最適化問題を定式化し、追従精度の許容度を動的に調整する。
実験では,高ダイナミックな動作のセットを模倣するために全身制御ポリシーを訓練する。
論文 参考訳(メタデータ) (2025-06-15T13:58:53Z) - HoloGest: Decoupled Diffusion and Motion Priors for Generating Holisticly Expressive Co-speech Gestures [8.50717565369252]
HoleGestは、高品質で表現力のある共同音声ジェスチャーの自動生成のための、新しいニューラルネットワークフレームワークである。
本システムでは,音声依存度が低く,モーション依存度が高く,より安定した大域的動作と詳細な指の動きが可能である。
我々のモデルは、没入感のあるユーザー体験を提供するために、真実に近い現実主義のレベルを達成する。
論文 参考訳(メタデータ) (2025-03-17T14:42:31Z) - Natural Humanoid Robot Locomotion with Generative Motion Prior [21.147249860051616]
本稿では,ヒューマノイドロボットの移動作業のきめ細かい監督を行う新しいジェネレーティブ・モーション・プライオリティ(GMP)を提案する。
我々は、条件付き変分自動エンコーダに基づいて、ロボットの将来の自然参照動作を予測するために、生成モデルをオフラインでトレーニングする。
政策訓練の間、生成運動は凍結したオンラインモーションジェネレータとして機能し、軌道レベルで正確に包括的な監視を提供する。
論文 参考訳(メタデータ) (2025-03-12T03:04:15Z) - Universal Humanoid Motion Representations for Physics-Based Control [71.46142106079292]
物理学に基づくヒューマノイド制御のための総合的な運動スキルを含む普遍的な運動表現を提案する。
まず、大きな非構造運動データセットから人間の動きをすべて模倣できる動き模倣機を学習する。
次に、模倣者から直接スキルを蒸留することで、動作表現を作成します。
論文 参考訳(メタデータ) (2023-10-06T20:48:43Z) - ImitationNet: Unsupervised Human-to-Robot Motion Retargeting via Shared Latent Space [9.806227900768926]
本稿では,ロボットの動きに対する新しいディープラーニング手法を提案する。
本手法では,新しいロボットへの翻訳を容易にする,人間とロボットのペアデータを必要としない。
我々のモデルは、効率と精度の観点から、人間とロボットの類似性に関する既存の研究よりも優れています。
論文 参考訳(メタデータ) (2023-09-11T08:55:04Z) - LaTTe: Language Trajectory TransformEr [33.7939079214046]
本研究は、汎用的な3次元ロボット軌道を修正するための柔軟な言語ベースのフレームワークを提案する。
自然言語入力と文脈イメージを3次元軌跡の変化にマッピングするために,自動回帰変換器を用いる。
シミュレーションや実生活実験を通じて、モデルが人間の意図に従うことができることを示す。
論文 参考訳(メタデータ) (2022-08-04T22:43:21Z) - Residual Force Control for Agile Human Behavior Imitation and Extended
Motion Synthesis [32.22704734791378]
強化学習は、モーションキャプチャーデータからヒューマノイド制御ポリシーを学習することで、現実的な人間の行動に大きな可能性を示してきた。
バレエダンスのような洗練された人間のスキルを再現することや、複雑な移行を伴う長期的な人間の振る舞いを安定して模倣することは、依然として非常に困難である。
動作空間に外部残留力を加えることでヒューマノイド制御ポリシーを強化する新しいアプローチである残留力制御(RFC)を提案する。
論文 参考訳(メタデータ) (2020-06-12T17:56:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。