論文の概要: UniAct: Unified Motion Generation and Action Streaming for Humanoid Robots
- arxiv url: http://arxiv.org/abs/2512.24321v1
- Date: Tue, 30 Dec 2025 16:20:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-01 23:27:28.424149
- Title: UniAct: Unified Motion Generation and Action Streaming for Humanoid Robots
- Title(参考訳): UniAct:ヒューマノイドロボットのための統一モーション生成とアクションストリーミング
- Authors: Nan Jiang, Zimo He, Wanhe Yu, Lexi Pang, Yunhao Li, Hongjie Li, Jieming Cui, Yuhan Li, Yizhou Wang, Yixin Zhu, Siyuan Huang,
- Abstract要約: ヒューマノイドロボティクスにおける長年の目標は、人間レベルの柔軟性を持つ多様なマルチモーダル命令に従うことができる汎用エージェントの実現である。
ここでは、微調整MLLMと因果ストリーミングパイプラインを統合した2段階のフレームワークであるUniActを用いて、500ms以下のレイテンシで、ヒューマノイドロボットがマルチモーダル命令を実行できることを示す。
提案手法は, ゼロショット追尾における不完全な参照動作の成功率を19%向上させる。
- 参考スコア(独自算出の注目度): 27.794309591475326
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A long-standing objective in humanoid robotics is the realization of versatile agents capable of following diverse multimodal instructions with human-level flexibility. Despite advances in humanoid control, bridging high-level multimodal perception with whole-body execution remains a significant bottleneck. Existing methods often struggle to translate heterogeneous instructions -- such as language, music, and trajectories -- into stable, real-time actions. Here we show that UniAct, a two-stage framework integrating a fine-tuned MLLM with a causal streaming pipeline, enables humanoid robots to execute multimodal instructions with sub-500 ms latency. By unifying inputs through a shared discrete codebook via FSQ, UniAct ensures cross-modal alignment while constraining motions to a physically grounded manifold. This approach yields a 19% improvement in the success rate of zero-shot tracking of imperfect reference motions. We validate UniAct on UniMoCap, our 20-hour humanoid motion benchmark, demonstrating robust generalization across diverse real-world scenarios. Our results mark a critical step toward responsive, general-purpose humanoid assistants capable of seamless interaction through unified perception and control.
- Abstract(参考訳): ヒューマノイドロボティクスにおける長年の目標は、人間レベルの柔軟性を持つ多様なマルチモーダル命令に従うことができる汎用エージェントの実現である。
ヒューマノイド制御の進歩にもかかわらず、全身実行による高レベルのマルチモーダル知覚をブリッジすることは、依然として重大なボトルネックとなっている。
既存の手法は、言語、音楽、軌跡などの異種命令を安定的でリアルタイムな行動に変換するのに苦労することが多い。
ここでは、微調整MLLMと因果ストリーミングパイプラインを統合した2段階のフレームワークであるUniActを用いて、500ms以下のレイテンシで、ヒューマノイドロボットがマルチモーダル命令を実行できることを示す。
FSQを介して共有離散コードブックを通じて入力を統一することにより、UniActは運動を物理的に接地された多様体に制限しながら、クロスモーダルアライメントを保証する。
提案手法は, ゼロショット追尾における不完全な参照動作の成功率を19%向上させる。
われわれは20時間のヒューマノイドモーションベンチマークであるUniMoCap上でUniActを検証する。
本研究は、統合された知覚と制御を通してシームレスな相互作用が可能な、応答性、汎用的なヒューマノイドアシスタントへの重要な一歩である。
関連論文リスト
- MiVLA: Towards Generalizable Vision-Language-Action Model with Human-Robot Mutual Imitation Pre-training [102.850162490626]
人間のロボットによる相互模倣事前学習による視覚-言語-行動モデルであるMiVLAを提案する。
MiVLAは、最先端のVLAよりも優れた、強力な改良された一般化能力を実現する。
論文 参考訳(メタデータ) (2025-12-17T12:59:41Z) - Commanding Humanoid by Free-form Language: A Large Language Action Model with Unified Motion Vocabulary [59.98573566227095]
本稿では,Humanoid-LLAについて紹介する。Humanoid-LLAは,表現型言語コマンドを人型ロボットの身体的実行可能な全身動作にマッピングする,大規模言語行動モデルである。
提案手法は,人間とヒューマノイドの運動プリミティブを共有された離散空間に整合させる統一運動語彙,物理的実現性を確保するための特権ポリシーから抽出した語彙指向コントローラ,動的に認識された報酬を用いた強化学習を用いた物理インフォームド微調整ステージの3つのコアコンポーネントを統合する。
論文 参考訳(メタデータ) (2025-11-28T08:11:24Z) - From Language to Locomotion: Retargeting-free Humanoid Control via Motion Latent Guidance [55.31807046722006]
既存の言語誘導型ヒューマノイドパイプラインは面倒で信頼できない。
本稿では,言語を基盤とした動作潜伏者に対してヒューマノイドポリシーを規定する言語フリーフレームワークであるRoboGhostを紹介する。
我々は,RoboGhostがデプロイメントの遅延を大幅に低減し,成功率と精度を向上し,スムーズでセマンティックに整合したヒューマノイドを生成することを示す。
論文 参考訳(メタデータ) (2025-10-16T17:57:47Z) - DemoHLM: From One Demonstration to Generalizable Humanoid Loco-Manipulation [29.519071338337685]
シミュレーションにおける1つのデモから,実ロボット上でのヒューマノイドロコ操作のためのフレームワークであるDemoHLMを提案する。
全身のコントローラーは、全身のモーションコマンドを関節トルクにマッピングし、ヒューマノイドロボットのための全方向移動手段を提供する。
実験では, 合成データ量と政策性能との間に正の相関が認められた。
論文 参考訳(メタデータ) (2025-10-13T10:49:40Z) - Pixel Motion Diffusion is What We Need for Robot Control [38.925028601732116]
DAWNは言語条件のロボット操作のための統合拡散ベースのフレームワークである。
高レベルの動き意図と低レベルのロボット動作を、構造化されたピクセルの動き表現を介してブリッジする。
DAWNは、挑戦的なCALVINベンチマークで最先端の結果を達成する。
論文 参考訳(メタデータ) (2025-09-26T17:59:59Z) - KungfuBot2: Learning Versatile Motion Skills for Humanoid Whole-Body Control [30.738592041595933]
ヒューマノイドロボットが単一ポリシーで多様な動的動作を学習できる統一された全身制御系VMSを提案する。
我々のフレームワークは、局所的な動きの忠実度とグローバルな軌道の整合性のバランスをとるハイブリッドな追跡目標を統合している。
シミュレーションと実世界の実験の両方においてVMSの特殊化を広範囲に検証し、ダイナミックスキルの正確な模倣、分長シーケンスでの安定した性能、そして目に見えない動作に対する強力な一般化を実証した。
論文 参考訳(メタデータ) (2025-09-20T11:31:14Z) - Learning Multi-Modal Whole-Body Control for Real-World Humanoid Robots [13.229028132036321]
Masked Humanoid Controller (MHC)は、立位、歩行、体の一部の動きの模倣をサポートする。
MHCは、立ち上がり、歩行、最適化された基準軌跡、再ターゲットされたビデオクリップ、人間のモーションキャプチャーデータにまたがる行動のライブラリから、部分的にマスクされた動きを模倣する。
実世界のDigi V3ヒューマノイドロボット上でのシミュレート・トゥ・リアルトランスファーを実演する。
論文 参考訳(メタデータ) (2024-07-30T09:10:24Z) - InterControl: Zero-shot Human Interaction Generation by Controlling Every Joint [67.6297384588837]
関節間の所望距離を維持するために,新しい制御可能な運動生成手法であるInterControlを導入する。
そこで本研究では,既成の大規模言語モデルを用いて,ヒューマンインタラクションのための結合ペア間の距離を生成できることを実証した。
論文 参考訳(メタデータ) (2023-11-27T14:32:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。