論文の概要: HY-Motion 1.0: Scaling Flow Matching Models for Text-To-Motion Generation
- arxiv url: http://arxiv.org/abs/2512.23464v1
- Date: Mon, 29 Dec 2025 13:46:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-30 22:37:30.517983
- Title: HY-Motion 1.0: Scaling Flow Matching Models for Text-To-Motion Generation
- Title(参考訳): HY-Motion 1.0:テキスト対運動生成のためのフローマッチングモデルのスケーリング
- Authors: Yuxin Wen, Qing Shuai, Di Kang, Jing Li, Cheng Wen, Yue Qian, Ningxin Jiao, Changhai Chen, Weijie Chen, Yiran Wang, Jinkun Guo, Dongyue An, Han Liu, Yanyu Tong, Chao Zhang, Qing Guo, Juan Chen, Qiao Zhang, Youyi Zhang, Zihao Yao, Cheng Zhang, Hong Duan, Xiaoping Wu, Qi Chen, Fei Cheng, Liang Dong, Peng He, Hao Zhang, Jiaxin Lin, Chao Zhang, Zhongyi Fan, Yifan Li, Zhichao Hu, Yuhong Liu, Linus, Jie Jiang, Xiaolong Li, Linchao Bao,
- Abstract要約: HY-Motion 1.0は、テキスト記述から人間の3D動作を生成することができる最先端の大規模モーション生成モデルである。
3000時間以上のモーションデータに対する大規模な事前トレーニングを含む、包括的なフルステージトレーニングパラダイムを導入します。
我々のモデルは6つの主要なクラスで200以上の運動カテゴリにまたがる、最も広範なカバレッジを実現している。
- 参考スコア(独自算出の注目度): 63.04826523091837
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present HY-Motion 1.0, a series of state-of-the-art, large-scale, motion generation models capable of generating 3D human motions from textual descriptions. HY-Motion 1.0 represents the first successful attempt to scale up Diffusion Transformer (DiT)-based flow matching models to the billion-parameter scale within the motion generation domain, delivering instruction-following capabilities that significantly outperform current open-source benchmarks. Uniquely, we introduce a comprehensive, full-stage training paradigm -- including large-scale pretraining on over 3,000 hours of motion data, high-quality fine-tuning on 400 hours of curated data, and reinforcement learning from both human feedback and reward models -- to ensure precise alignment with the text instruction and high motion quality. This framework is supported by our meticulous data processing pipeline, which performs rigorous motion cleaning and captioning. Consequently, our model achieves the most extensive coverage, spanning over 200 motion categories across 6 major classes. We release HY-Motion 1.0 to the open-source community to foster future research and accelerate the transition of 3D human motion generation models towards commercial maturity.
- Abstract(参考訳): 本稿では,テキスト記述から人間の3D動作を生成可能な,最先端で大規模な動作生成モデルHY-Motion 1.0を提案する。
HY-Motion 1.0 は Diffusion Transformer (DiT) ベースのフローマッチングモデルをモーション生成領域内の10億パラメータスケールにスケールアップする試みとして最初に成功した試みである。
同様に、3000時間以上のモーションデータに対する大規模な事前トレーニング、400時間以上のキュレートされたデータに対する高品質な微調整、人間のフィードバックと報酬モデルからの強化学習などを含む、包括的なフルステージトレーニングパラダイムを導入し、テキスト命令と高いモーション品質の正確な整合性を確保します。
このフレームワークは、厳密なデータ処理パイプラインによってサポートされており、厳格な動きのクリーニングとキャプションを実行する。
その結果,本モデルが最も広範な範囲を網羅し,6つの主要クラスに200以上の運動カテゴリーにまたがるモデルが得られた。
我々はHY-Motion 1.0をオープンソースコミュニティにリリースし、将来の研究を奨励し、3Dモーション生成モデルの商業的成熟への移行を加速する。
関連論文リスト
- FoundationMotion: Auto-Labeling and Reasoning about Spatial Movement in Videos [109.99404241220039]
大規模なモーションデータセットを構築する完全自動データキュレーションパイプラインであるFoundationMotionを紹介した。
提案手法は,まずビデオ中のオブジェクトを検出してトラジェクトリを抽出し,次にこれらのトラジェクトリとビデオフレームを大規模言語モデルで活用する。
我々はNVILA-Video-15BやQwen2.5-7Bなどのオープンソースモデルを微調整し、性能を損なうことなく動作理解を大幅に改善した。
論文 参考訳(メタデータ) (2025-12-11T18:53:15Z) - GenM$^3$: Generative Pretrained Multi-path Motion Model for Text Conditional Human Motion Generation [19.2804620329011]
Generative Pretrained Multi-path Motion Model (GenM(3))は、統合された動き表現を学習するための包括的なフレームワークである。
大規模なトレーニングを可能にするため、11の高品質なモーションデータセットを統合し、統合する。
GenM(3)はHumanML3Dベンチマークで0.035の最先端のFIDを達成し、最先端のメソッドを大きなマージンで上回る。
論文 参考訳(メタデータ) (2025-03-19T05:56:52Z) - Scaling Large Motion Models with Million-Level Human Motions [67.40066387326141]
我々は、モーション生成のための最初の100万レベルのデータセットであるMotionLibを紹介する。
我々は Projname という名の大きな運動モデルを訓練し、幅広い人間の活動に頑健なパフォーマンスを示す。
論文 参考訳(メタデータ) (2024-10-04T10:48:54Z) - Large Motion Model for Unified Multi-Modal Motion Generation [50.56268006354396]
Large Motion Model (LMM) は、動き中心のマルチモーダルフレームワークであり、メインストリームのモーション生成タスクをジェネラリストモデルに統合する。
LMMは3つの原則的な側面からこれらの課題に取り組む。
論文 参考訳(メタデータ) (2024-04-01T17:55:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。