論文の概要: Kimodo: Scaling Controllable Human Motion Generation
- arxiv url: http://arxiv.org/abs/2603.15546v1
- Date: Mon, 16 Mar 2026 17:09:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 18:28:58.621512
- Title: Kimodo: Scaling Controllable Human Motion Generation
- Title(参考訳): キモド: 制御可能な人体運動生成のスケーリング
- Authors: Davis Rempe, Mathis Petrovich, Ye Yuan, Haotian Zhang, Xue Bin Peng, Yifeng Jiang, Tingwu Wang, Umar Iqbal, David Minor, Michael de Ruyter, Jiefeng Li, Chen Tessler, Edy Lim, Eugene Jeong, Sam Wu, Ehsan Hassani, Michael Huang, Jin-Bey Yu, Chaeyeon Chung, Lina Song, Olivier Dionne, Jan Kautz, Simon Yuen, Sanja Fidler,
- Abstract要約: キモド(Kimodo)は、700時間の光学式モーションキャプチャーデータに基づいて訓練された、制御可能な運動拡散モデルである。
本モデルでは,テキストと包括的キネマティック制約によって制御し,高品質な動作を生成する。
- 参考スコア(独自算出の注目度): 77.66868439601062
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: High-quality human motion data is becoming increasingly important for applications in robotics, simulation, and entertainment. Recent generative models offer a potential data source, enabling human motion synthesis through intuitive inputs like text prompts or kinematic constraints on poses. However, the small scale of public mocap datasets has limited the motion quality, control accuracy, and generalization of these models. In this work, we introduce Kimodo, an expressive and controllable kinematic motion diffusion model trained on 700 hours of optical motion capture data. Our model generates high-quality motions while being easily controlled through text and a comprehensive suite of kinematic constraints including full-body keyframes, sparse joint positions/rotations, 2D waypoints, and dense 2D paths. This is enabled through a carefully designed motion representation and two-stage denoiser architecture that decomposes root and body prediction to minimize motion artifacts while allowing for flexible constraint conditioning. Experiments on the large-scale mocap dataset justify key design decisions and analyze how the scaling of dataset size and model size affect performance.
- Abstract(参考訳): ロボット工学、シミュレーション、エンターテイメントの応用において、高品質な人間のモーションデータがますます重要になっている。
最近の生成モデルは潜在的なデータソースを提供し、テキストプロンプトやポーズのキネマティック制約のような直感的な入力を通じて人間のモーション合成を可能にする。
しかし、公共モキャップデータセットの小さなスケールでは、これらのモデルの運動品質、制御精度、一般化が制限されている。
本研究では,700時間の光学的モーションキャプチャデータに基づいて学習した,表現的かつ制御可能な運動拡散モデルであるKimodoを紹介する。
本モデルでは,全体キーフレーム,疎関節位置・回転,2Dウェイポイント,高密度2Dパスを含む運動制約の包括的スイートと,テキストを通じて容易に制御できる高品質な動作を生成する。
これは、ルートとボディの予測を分解し、柔軟な制約条件付けを可能にしながら、動きのアーティファクトを最小限に抑えるために、慎重に設計された動き表現と2段階のデノイザアーキテクチャによって実現される。
大規模なmocapデータセットの実験は、重要な設計決定を正当化し、データセットのサイズとモデルサイズのスケーリングがパフォーマンスに与える影響を分析する。
関連論文リスト
- Controllable Complex Human Motion Video Generation via Text-to-Skeleton Cascades [32.12940211414945]
両制約に対処する2段階のカスケードフレームワークを提案する。
自動回帰テキスト-スケルトンモデルでは、自然言語記述から2次元ポーズシーケンスを生成する。
ポーズ条件付きビデオ拡散モデルは、参照画像と生成されたスケルトンシーケンスからビデオを合成する。
論文 参考訳(メタデータ) (2026-03-09T07:04:29Z) - FoundationMotion: Auto-Labeling and Reasoning about Spatial Movement in Videos [109.99404241220039]
大規模なモーションデータセットを構築する完全自動データキュレーションパイプラインであるFoundationMotionを紹介した。
提案手法は,まずビデオ中のオブジェクトを検出してトラジェクトリを抽出し,次にこれらのトラジェクトリとビデオフレームを大規模言語モデルで活用する。
我々はNVILA-Video-15BやQwen2.5-7Bなどのオープンソースモデルを微調整し、性能を損なうことなく動作理解を大幅に改善した。
論文 参考訳(メタデータ) (2025-12-11T18:53:15Z) - SONIC: Supersizing Motion Tracking for Natural Humanoid Whole-Body Control [85.91101551600978]
モデルキャパシティ,データ,計算のスケールアップにより,自然かつ堅牢な体の動きを生成できる汎用的なヒューマノイドコントローラが得られることを示す。
我々は、ネットワークサイズ、データセットボリューム、計算の3つの軸に沿ってスケーリングすることで、モーショントラッキングのための基礎モデルを構築します。
本研究では,(1)動作追跡を下流タスク実行にブリッジし,自然かつインタラクティブな制御を可能にするリアルタイムユニバーサルキネマティックプランナ,(2)様々な動作入力インタフェースをサポートする統一トークン空間の2つのメカニズムにより,モデルの実用性を示す。
論文 参考訳(メタデータ) (2025-11-11T04:37:40Z) - Scaling Large Motion Models with Million-Level Human Motions [67.40066387326141]
我々は、モーション生成のための最初の100万レベルのデータセットであるMotionLibを紹介する。
我々は Projname という名の大きな運動モデルを訓練し、幅広い人間の活動に頑健なパフォーマンスを示す。
論文 参考訳(メタデータ) (2024-10-04T10:48:54Z) - Make-An-Animation: Large-Scale Text-conditional 3D Human Motion
Generation [47.272177594990104]
テキスト条件付き人間動作生成モデルであるMake-An-Animationを紹介する。
大規模な画像テキストデータセットから、より多様なポーズとプロンプトを学ぶ。
テキスト・トゥ・モーション・ジェネレーションの最先端のパフォーマンスに到達します。
論文 参考訳(メタデータ) (2023-05-16T17:58:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。