論文の概要: ULTRA: Unified Multimodal Control for Autonomous Humanoid Whole-Body Loco-Manipulation
- arxiv url: http://arxiv.org/abs/2603.03279v1
- Date: Tue, 03 Mar 2026 18:59:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-04 21:38:10.944283
- Title: ULTRA: Unified Multimodal Control for Autonomous Humanoid Whole-Body Loco-Manipulation
- Title(参考訳): ULTRA:自律型ヒューマノイド全体ロコマニピュレーションのための統一型マルチモーダル制御
- Authors: Xialin He, Sirui Xu, Xinyao Li, Runpei Dong, Liuyu Bian, Yu-Xiong Wang, Liang-Yan Gui,
- Abstract要約: 本稿では,大規模モーションキャプチャをヒューマノイドに変換する物理駆動型ニューラルネットワークを提案する。
我々は高密度参照とスパースタスク仕様の両方をサポートする統合マルチモーダルコントローラを学習する。
その結果,ULTRAは自我中心の知覚から,自律的,目標条件付き全体ロコ操作に一般化することが示された。
- 参考スコア(独自算出の注目度): 55.467742403416175
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Achieving autonomous and versatile whole-body loco-manipulation remains a central barrier to making humanoids practically useful. Yet existing approaches are fundamentally constrained: retargeted data are often scarce or low-quality; methods struggle to scale to large skill repertoires; and, most importantly, they rely on tracking predefined motion references rather than generating behavior from perception and high-level task specifications. To address these limitations, we propose ULTRA, a unified framework with two key components. First, we introduce a physics-driven neural retargeting algorithm that translates large-scale motion capture to humanoid embodiments while preserving physical plausibility for contact-rich interactions. Second, we learn a unified multimodal controller that supports both dense references and sparse task specifications, under sensing ranging from accurate motion-capture state to noisy egocentric visual inputs. We distill a universal tracking policy into this controller, compress motor skills into a compact latent space, and apply reinforcement learning finetuning to expand coverage and improve robustness under out-of-distribution scenarios. This enables coordinated whole-body behavior from sparse intent without test-time reference motions. We evaluate ULTRA in simulation and on a real Unitree G1 humanoid. Results show that ULTRA generalizes to autonomous, goal-conditioned whole-body loco-manipulation from egocentric perception, consistently outperforming tracking-only baselines with limited skills.
- Abstract(参考訳): 自律的で多目的な全身のロコ操作を実現することは、ヒューマノイドを実用的に有用にするための中心的な障壁である。
しかし、既存のアプローチは基本的に制約されている: 再ターゲティングされたデータは、しばしば不足または低品質である; メソッドは大きなスキルレパートリーにスケールするのに苦労する; そして最も重要なことは、彼らは知覚やハイレベルなタスク仕様から振る舞いを生成するのではなく、事前に定義された動作参照を追跡することに依存する。
これらの制約に対処するため,2つのキーコンポーネントを持つ統一フレームワークULTRAを提案する。
まず, 物理駆動型ニューラルリターゲティングアルゴリズムを導入し, 大規模モーションキャプチャーをヒューマノイドに変換し, 接触に富む相互作用に対する物理的妥当性を保った。
第2に,高密度参照とスパースタスク仕様の両方をサポートする統一型マルチモーダルコントローラを,高精度なモーションキャプチャ状態からノイズ中心の視覚入力までの範囲で学習する。
我々は,このコントローラにユニバーサルトラッキングポリシを蒸留し,モータスキルをコンパクトな潜在空間に圧縮し,拡張学習ファインタニングを適用して,アウト・オブ・ディストリビューションシナリオ下でのロバスト性を向上させる。
これにより、テストタイム参照動作を使わずに、スパースインテントから全身の挙動を調整できる。
シミュレーションおよび実際のUnitree G1ヒューマノイド上でULTRAを評価する。
その結果、ULTRAは自我中心の知覚から自律的、目標条件付き全体ロコ操作に一般化し、限られたスキルで追従のみのベースラインを一貫して上回っていることがわかった。
関連論文リスト
- InterPrior: Scaling Generative Control for Physics-Based Human-Object Interactions [58.329946838699044]
人間は、明示的な全身運動のレベルで、物体と全身の相互作用を計画することは滅多にない。
このような事前のスケーリングは、ヒューマノイドがロコ操作スキルの構築と一般化を可能にする鍵となる。
我々は,強化学習による大規模模倣事前学習とポストトレーニングを通じて,統合生成コントローラを学習するフレームワークであるInterPriorを紹介する。
論文 参考訳(メタデータ) (2026-02-05T18:59:27Z) - Generalizable Geometric Prior and Recurrent Spiking Feature Learning for Humanoid Robot Manipulation [90.90219129619344]
本稿では,スパイキング機能を備えたR-prior-S, Recurrent Geometric-priormodal Policyを提案する。
物理的現実の高レベル推論を基礎として、軽量な2次元幾何学的帰納バイアスを利用する。
ロボット行動生成におけるデータ効率問題に対して,再帰的適応スパイクネットワークを導入する。
論文 参考訳(メタデータ) (2026-01-13T23:36:30Z) - UniAct: Unified Motion Generation and Action Streaming for Humanoid Robots [27.794309591475326]
ヒューマノイドロボティクスにおける長年の目標は、人間レベルの柔軟性を持つ多様なマルチモーダル命令に従うことができる汎用エージェントの実現である。
ここでは、微調整MLLMと因果ストリーミングパイプラインを統合した2段階のフレームワークであるUniActを用いて、500ms以下のレイテンシで、ヒューマノイドロボットがマルチモーダル命令を実行できることを示す。
提案手法は, ゼロショット追尾における不完全な参照動作の成功率を19%向上させる。
論文 参考訳(メタデータ) (2025-12-30T16:20:13Z) - METIS: Multi-Source Egocentric Training for Integrated Dexterous Vision-Language-Action Model [36.82365894983052]
大きなボトルネックは、デクスタラススキルのための大規模でアクションアノテートされたデータの不足にある。
我々は,エゴセントリックなデータセット上で事前学習したデクスタラス操作のための視覚言語アクションモデルMETISを提案する。
提案手法は,6つの実世界のタスクにおける平均成功率を達成し,異常な操作能力を示す。
論文 参考訳(メタデータ) (2025-11-21T16:32:36Z) - ResMimic: From General Motion Tracking to Humanoid Whole-body Loco-Manipulation via Residual Learning [59.64325421657381]
ヒューマノイド全体のロコ操作は、日々のサービスや倉庫のタスクにトランスフォーメーション機能を約束する。
ResMimicは、人間の動作データから正確に表現力のあるヒューマノイド制御のための2段階の残差学習フレームワークである。
結果は、強いベースラインよりもタスク成功、トレーニング効率、堅牢性が大幅に向上したことを示している。
論文 参考訳(メタデータ) (2025-10-06T17:47:02Z) - KungfuBot2: Learning Versatile Motion Skills for Humanoid Whole-Body Control [30.738592041595933]
ヒューマノイドロボットが単一ポリシーで多様な動的動作を学習できる統一された全身制御系VMSを提案する。
我々のフレームワークは、局所的な動きの忠実度とグローバルな軌道の整合性のバランスをとるハイブリッドな追跡目標を統合している。
シミュレーションと実世界の実験の両方においてVMSの特殊化を広範囲に検証し、ダイナミックスキルの正確な模倣、分長シーケンスでの安定した性能、そして目に見えない動作に対する強力な一般化を実証した。
論文 参考訳(メタデータ) (2025-09-20T11:31:14Z) - TrajBooster: Boosting Humanoid Whole-Body Manipulation via Trajectory-Centric Learning [79.59753528758361]
両足のVLAを促進するために、豊富な車輪付きヒューマノイドデータを活用するクロス・エボディメント・フレームワークであるTrajBoosterを提案する。
私たちのキーとなる考え方は、形態素に依存しないインターフェースとして、エンドエフェクタ・トラジェクトリを使用することです。
以上の結果から,TrajBoosterは既存の車輪付きヒューマノイドデータにより,二足歩行ヒューマノイドVLAの性能を効率的に向上させることができることがわかった。
論文 参考訳(メタデータ) (2025-09-15T12:25:39Z) - Dexplore: Scalable Neural Control for Dexterous Manipulation from Reference-Scoped Exploration [58.4036440289082]
ハンドオブジェクトモーションキャプチャ(MoCap)は、大規模でコンタクトに富んだデモと、器用なロボットスコープの約束を提供する。
Dexploreは、リポジトリとトラッキングを実行し、MoCapから直接ロボット制御ポリシーを学習する、統一された単一ループ最適化である。
論文 参考訳(メタデータ) (2025-09-11T17:59:07Z) - Nonprehensile Planar Manipulation through Reinforcement Learning with
Multimodal Categorical Exploration [8.343657309038285]
強化学習はそのようなロボットコントローラを開発するための強力なフレームワークである。
分類分布を用いたマルチモーダル探索手法を提案する。
学習したポリシは外部の障害や観測ノイズに対して堅牢であり、複数のプッシュ器でタスクにスケールできることが示される。
論文 参考訳(メタデータ) (2023-08-04T16:55:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。