論文の概要: HoloMotion-1 Technical Report
- arxiv url: http://arxiv.org/abs/2605.15336v2
- Date: Tue, 19 May 2026 03:46:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-20 15:03:08.363976
- Title: HoloMotion-1 Technical Report
- Title(参考訳): HoloMotion-1テクニカルレポート
- Authors: Maiyue Chen, Kaihui Wang, Bo Zhang, Xihan Ma, Zhiyuan Yang, Yi Ren, Qijun Huang, Zihao Zhu, Yucheng Wang, Zhizhong Su,
- Abstract要約: HoloMotion-1は、全身運動追跡のためのヒューマノイド運動基盤モデルである。
眼内ビデオからの映像再構成された動きは、動きの多様性の主要な源となる。
実験により、HoloMotion-1は様々な動きのタイプと捕獲条件で頑健に一般化されることが示された。
- 参考スコア(独自算出の注目度): 19.266929992597486
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this report, we present HoloMotion-1, a humanoid motion foundation model for zero-shot whole-body motion tracking. A key innovation of HoloMotion-1 is to scale control-policy training with a large-scale hybrid motion corpus, where video-reconstructed motions from in-the-wild videos provide the dominant source of motion diversity, while curated motion-capture and in-house motion data provide higher-fidelity supervision and deployment-oriented coverage. This data regime enables HoloMotion-1 to move beyond conventional MoCap-only training and exposes the policy to substantially broader behaviors, capture conditions, and motion styles. Learning from such heterogeneous data introduces new challenges, including reconstruction noise, source-domain mismatch, uneven motion quality, and the need for temporal modeling under large behavioral variation. To address these challenges, HoloMotion-1 integrates large-capacity temporal modeling, a sparsely activated Mixture-of-Experts Transformer with KV-cache inference for real-time control, and a sequence-level training strategy that improves learning efficiency on extended motion sequences. Extensive experiments on multiple unseen motion benchmarks show that HoloMotion-1 generalizes robustly across diverse motion types and capture conditions, significantly improves tracking accuracy over prior methods, and transfers directly to a real humanoid robot without task-specific fine-tuning.
- Abstract(参考訳): 本稿では,ゼロショット全身運動追跡のためのヒューマノイド運動基盤モデルであるHoloMotion-1を提案する。
HoloMotion-1の重要な革新は、大規模なハイブリッドモーションコーパスによるコントロール・ポリティクスのトレーニングをスケールすることである。
このデータレシエーションにより、HoloMotion-1は従来のMoCapのみのトレーニングを超えて、より広範な動作、キャプチャ条件、動作スタイルにポリシーを公開することができる。
このような異種データから学ぶことは、再構成ノイズ、ソースドメインミスマッチ、不均一な動きの質、大きな行動変動下での時間的モデリングの必要性など、新しい課題をもたらす。
これらの課題に対処するため、HoloMotion-1は、大容量の時間モデリング、低活性のMixture-of-Experts Transformer、リアルタイム制御のためのKV-cache推論、拡張されたモーションシーケンスでの学習効率を改善するシーケンスレベルのトレーニング戦略を統合している。
複数の未確認動作ベンチマークの広範囲な実験により、HoloMotion-1は多様な動作タイプとキャプチャ条件をまたがって堅牢に一般化し、従来の手法よりも追跡精度を大幅に向上し、タスク固有の微調整なしで実際のヒューマノイドロボットに直接転送することを示した。
関連論文リスト
- MotionRAG: Motion Retrieval-Augmented Image-to-Video Generation [44.524568858995586]
MotionRAGは、関連する参照ビデオから動きの先行を適応させることで、モーションリアリズムを強化する検索強化フレームワークである。
提案手法は,複数のドメインや様々なベースモデルに対して,推論時の計算オーバーヘッドを無視できるような大幅な改善を実現している。
論文 参考訳(メタデータ) (2025-09-30T15:26:04Z) - GENMO: A GENeralist Model for Human MOtion [64.16188966024542]
本稿では,1つのフレームワークで動作推定と生成を橋渡しする汎用人体運動モデル GENMO を提案する。
我々の重要な洞察は、出力運動が観測された条件信号を正確に満たさなければならないような制約された動き生成として運動推定を再構成することである。
我々の新しいアーキテクチャは、可変長動きと混合マルチモーダル条件(テキスト、オーディオ、ビデオ)を異なる時間間隔で処理し、柔軟な制御を提供する。
論文 参考訳(メタデータ) (2025-05-02T17:59:55Z) - A Plug-and-Play Physical Motion Restoration Approach for In-the-Wild High-Difficulty Motions [56.709280823844374]
動作コンテキストとビデオマスクを利用して、欠陥のある動作を修復するマスクベースの動作補正モジュール(MCM)を導入する。
また,運動模倣のための事前訓練および適応手法を用いた物理ベースの運動伝達モジュール (PTM) を提案する。
本手法は,高速な移動を含む映像モーションキャプチャ結果を物理的に洗練するためのプラグイン・アンド・プレイモジュールとして設計されている。
論文 参考訳(メタデータ) (2024-12-23T08:26:00Z) - Scaling Large Motion Models with Million-Level Human Motions [67.40066387326141]
我々は、モーション生成のための最初の100万レベルのデータセットであるMotionLibを紹介する。
我々は Projname という名の大きな運動モデルを訓練し、幅広い人間の活動に頑健なパフォーマンスを示す。
論文 参考訳(メタデータ) (2024-10-04T10:48:54Z) - MotionMix: Weakly-Supervised Diffusion for Controllable Motion
Generation [19.999239668765885]
MotionMixはノイズと無注釈の両方のモーションシーケンスを利用する弱い教師付き拡散モデルである。
我々のフレームワークは、テキスト・トゥ・モーション、アクション・トゥ・モーション、音楽・トゥ・ダンスのタスクにおける最先端のパフォーマンスを一貫して達成する。
論文 参考訳(メタデータ) (2024-01-20T04:58:06Z) - Universal Humanoid Motion Representations for Physics-Based Control [71.46142106079292]
物理学に基づくヒューマノイド制御のための総合的な運動スキルを含む普遍的な運動表現を提案する。
まず、大きな非構造運動データセットから人間の動きをすべて模倣できる動き模倣機を学習する。
次に、模倣者から直接スキルを蒸留することで、動作表現を作成します。
論文 参考訳(メタデータ) (2023-10-06T20:48:43Z) - Interactive Character Control with Auto-Regressive Motion Diffusion Models [18.727066177880708]
リアルタイム動作合成のためのA-MDM(Auto-Regressive Motion Diffusion Model)を提案する。
我々の条件拡散モデルは初期ポーズを入力とし、前者のフレームに条件付けられた連続した動きフレームを自動回帰的に生成する。
本稿では,タスク指向サンプリング,インペインティング,階層的強化学習など,対話型制御をA-MDMに組み込む一連の手法を紹介する。
論文 参考訳(メタデータ) (2023-06-01T07:48:34Z) - Learning Variational Motion Prior for Video-based Motion Capture [31.79649766268877]
ビデオに基づくモーションキャプチャーのための新しい変分動作先行学習手法(VMP)を提案する。
我々のフレームワークはフレームワイドポーズ推定における時間的ジッタリングと障害モードを効果的に削減できる。
公開データセットとインザワイルドビデオの両方を用いた実験により、我々のフレームワークの有効性と一般化能力が実証された。
論文 参考訳(メタデータ) (2022-10-27T02:45:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。