論文の概要: SONIC: Supersizing Motion Tracking for Natural Humanoid Whole-Body Control
- arxiv url: http://arxiv.org/abs/2511.07820v1
- Date: Wed, 12 Nov 2025 01:21:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-12 20:17:03.495617
- Title: SONIC: Supersizing Motion Tracking for Natural Humanoid Whole-Body Control
- Title(参考訳): SONIC:自然人体全体制御のための超小型モーショントラッキング
- Authors: Zhengyi Luo, Ye Yuan, Tingwu Wang, Chenran Li, Sirui Chen, Fernando Castañeda, Zi-Ang Cao, Jiefeng Li, David Minor, Qingwei Ben, Xingye Da, Runyu Ding, Cyrus Hogg, Lina Song, Edy Lim, Eugene Jeong, Tairan He, Haoru Xue, Wenli Xiao, Zi Wang, Simon Yuen, Jan Kautz, Yan Chang, Umar Iqbal, Linxi "Jim" Fan, Yuke Zhu,
- Abstract要約: モデルキャパシティ,データ,計算のスケールアップにより,自然かつ堅牢な体の動きを生成できる汎用的なヒューマノイドコントローラが得られることを示す。
我々は、ネットワークサイズ、データセットボリューム、計算の3つの軸に沿ってスケーリングすることで、モーショントラッキングのための基礎モデルを構築します。
本研究では,(1)動作追跡を下流タスク実行にブリッジし,自然かつインタラクティブな制御を可能にするリアルタイムユニバーサルキネマティックプランナ,(2)様々な動作入力インタフェースをサポートする統一トークン空間の2つのメカニズムにより,モデルの実用性を示す。
- 参考スコア(独自算出の注目度): 85.91101551600978
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Despite the rise of billion-parameter foundation models trained across thousands of GPUs, similar scaling gains have not been shown for humanoid control. Current neural controllers for humanoids remain modest in size, target a limited behavior set, and are trained on a handful of GPUs over several days. We show that scaling up model capacity, data, and compute yields a generalist humanoid controller capable of creating natural and robust whole-body movements. Specifically, we posit motion tracking as a natural and scalable task for humanoid control, leverageing dense supervision from diverse motion-capture data to acquire human motion priors without manual reward engineering. We build a foundation model for motion tracking by scaling along three axes: network size (from 1.2M to 42M parameters), dataset volume (over 100M frames, 700 hours of high-quality motion data), and compute (9k GPU hours). Beyond demonstrating the benefits of scale, we show the practical utility of our model through two mechanisms: (1) a real-time universal kinematic planner that bridges motion tracking to downstream task execution, enabling natural and interactive control, and (2) a unified token space that supports various motion input interfaces, such as VR teleoperation devices, human videos, and vision-language-action (VLA) models, all using the same policy. Scaling motion tracking exhibits favorable properties: performance improves steadily with increased compute and data diversity, and learned representations generalize to unseen motions, establishing motion tracking at scale as a practical foundation for humanoid control.
- Abstract(参考訳): 数千のGPUでトレーニングされた10億パラメータの基礎モデルの増加にもかかわらず、同様のスケーリングゲインはヒューマノイドコントロールには示されていない。
現在のヒューマノイド用のニューラルコントローラは、サイズがわずかであり、限られた振る舞いセットをターゲットにしており、数日間、少数のGPUでトレーニングされている。
モデルキャパシティ,データ,計算のスケールアップにより,自然かつ堅牢な体の動きを生成できる汎用的なヒューマノイドコントローラが得られることを示す。
具体的には、モーショントラッキングをヒューマノイド制御の自然でスケーラブルなタスクとみなし、多様なモーションキャプチャーデータからの密集した監視を活用して、手動の報酬工学を使わずに人間の動きの先行情報を取得する。
ネットワークサイズ(1.2Mから42Mパラメータ)、データセットボリューム(100Mフレーム以上、700時間の高品質なモーションデータ)、計算(9kGPU時間)の3つの軸に沿って、運動追跡のための基礎モデルを構築した。
1) 動作追跡を下流のタスク実行にブリッジし,自然かつインタラクティブな制御を可能にするリアルタイムユニバーサルキネマティックプランナ,(2) VR遠隔操作装置,ヒューマンビデオ,視覚言語アクション(VLA)モデルなど,さまざまな動作入力インターフェースをサポートする統一トークン空間である。
運動追跡のスケールは、計算とデータの多様性の向上によって着実に改善され、学習された表現は目に見えない動きに一般化され、ヒューマノイド制御の実践的な基盤として大規模に動き追跡を確立する。
関連論文リスト
- ResMimic: From General Motion Tracking to Humanoid Whole-body Loco-Manipulation via Residual Learning [59.64325421657381]
ヒューマノイド全体のロコ操作は、日々のサービスや倉庫のタスクにトランスフォーメーション機能を約束する。
ResMimicは、人間の動作データから正確に表現力のあるヒューマノイド制御のための2段階の残差学習フレームワークである。
結果は、強いベースラインよりもタスク成功、トレーニング効率、堅牢性が大幅に向上したことを示している。
論文 参考訳(メタデータ) (2025-10-06T17:47:02Z) - Universal Humanoid Motion Representations for Physics-Based Control [71.46142106079292]
物理学に基づくヒューマノイド制御のための総合的な運動スキルを含む普遍的な運動表現を提案する。
まず、大きな非構造運動データセットから人間の動きをすべて模倣できる動き模倣機を学習する。
次に、模倣者から直接スキルを蒸留することで、動作表現を作成します。
論文 参考訳(メタデータ) (2023-10-06T20:48:43Z) - Task-Oriented Human-Object Interactions Generation with Implicit Neural
Representations [61.659439423703155]
TOHO: 命令型ニューラル表現を用いたタスク指向型ヒューマンオブジェクトインタラクション生成
本手法は時間座標のみでパラメータ化される連続運動を生成する。
この研究は、一般的なヒューマン・シーンの相互作用シミュレーションに向けて一歩前進する。
論文 参考訳(メタデータ) (2023-03-23T09:31:56Z) - Task-Generic Hierarchical Human Motion Prior using VAEs [44.356707509079044]
人間の動きを記述する深い生成モデルは、幅広いコンピュータビジョンやグラフィックタスクに役立てることができる。
本稿では,グローバル・ローカル・ラテント・スペースの組み合わせを用いて,特定のタスクに依存しない複雑な人間の動作を学習する手法を提案する。
映像に基づく人間のポーズ推定を含む様々なタスクにおいて,階層的な動き変動自動エンコーダの有効性を実証する。
論文 参考訳(メタデータ) (2021-06-07T23:11:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。