論文の概要: Go to Zero: Towards Zero-shot Motion Generation with Million-scale Data
- arxiv url: http://arxiv.org/abs/2507.07095v1
- Date: Wed, 09 Jul 2025 17:52:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-10 17:37:43.717157
- Title: Go to Zero: Towards Zero-shot Motion Generation with Million-scale Data
- Title(参考訳): Go to Zero:何百万ものデータによるゼロショットモーション生成を目指す
- Authors: Ke Fan, Shunlin Lu, Minyue Dai, Runyi Yu, Lixing Xiao, Zhiyang Dou, Junting Dong, Lizhuang Ma, Jingbo Wang,
- Abstract要約: 我々は、ゼロショットの一般化能力を達成するために、テキスト・トゥ・モーションを新しい時代へと押し込む。
これまでに2000時間以上、200万以上の高品質なモーションシーケンスを備えた、人間のモーションデータセットとして最大であるMotionMillionを紹介した。
我々は、ゼロショットモーション生成を評価するための最も包括的なベンチマークであるMotionMillion-Evalを提案する。
- 参考スコア(独自算出の注目度): 26.595803661584032
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generating diverse and natural human motion sequences based on textual descriptions constitutes a fundamental and challenging research area within the domains of computer vision, graphics, and robotics. Despite significant advancements in this field, current methodologies often face challenges regarding zero-shot generalization capabilities, largely attributable to the limited size of training datasets. Moreover, the lack of a comprehensive evaluation framework impedes the advancement of this task by failing to identify directions for improvement. In this work, we aim to push text-to-motion into a new era, that is, to achieve the generalization ability of zero-shot. To this end, firstly, we develop an efficient annotation pipeline and introduce MotionMillion-the largest human motion dataset to date, featuring over 2,000 hours and 2 million high-quality motion sequences. Additionally, we propose MotionMillion-Eval, the most comprehensive benchmark for evaluating zero-shot motion generation. Leveraging a scalable architecture, we scale our model to 7B parameters and validate its performance on MotionMillion-Eval. Our results demonstrate strong generalization to out-of-domain and complex compositional motions, marking a significant step toward zero-shot human motion generation. The code is available at https://github.com/VankouF/MotionMillion-Codes.
- Abstract(参考訳): テキスト記述に基づく多種多様な自然な人間の動作シーケンスの生成は、コンピュータビジョン、グラフィックス、ロボット工学の領域における基礎的かつ挑戦的な研究領域を構成する。
この分野での大きな進歩にもかかわらず、現在の方法論は、訓練データセットの限られたサイズに起因するゼロショットの一般化能力に関する課題に直面していることが多い。
さらに,総合的な評価枠組みの欠如は,改善の方向性の特定に失敗することで,この課題の進展を阻害する。
本研究では,ゼロショットの一般化能力を実現するために,テキスト・トゥ・モーションを新たな時代へと押し上げることを目的とする。
この目的のために、まず、効率的なアノテーションパイプラインを開発し、これまでに2000時間以上、200万以上の高品質なモーションシーケンスを特徴とするモーションミリオン(MotionMillion)を導入した。
さらに、ゼロショットモーション生成を評価するための最も包括的なベンチマークであるMotionMillion-Evalを提案する。
スケーラブルなアーキテクチャを活用して、モデルを7Bパラメータに拡張し、MotionMillion-Evalのパフォーマンスを検証する。
以上の結果から, 領域外および複雑な構成運動への強い一般化が示され, ゼロショット人体運動生成への重要な一歩となった。
コードはhttps://github.com/VankouF/MotionMillion-Codesで入手できる。
関連論文リスト
- Being-H0: Vision-Language-Action Pretraining from Large-Scale Human Videos [66.62109400603394]
本稿では,大規模な人体ビデオで訓練された視覚・言語・行動モデルであるBeing-H0を紹介する。
提案手法は,人間のビデオからの大規模VLA事前学習,3次元推論のための物理空間アライメント,ロボット作業のためのポストトレーニング適応を組み合わせた,新しいトレーニングパラダイムである物理インストラクションチューニングに重点を置いている。
本研究では,手の動き生成と指示の結果としてのBeat-H0の卓越性を実証的に示すとともに,モデルやデータサイズにもよく対応している。
論文 参考訳(メタデータ) (2025-07-21T13:19:09Z) - ZeroGrasp: Zero-Shot Shape Reconstruction Enabled Robotic Grasping [40.288085021667065]
リアルタイムに3次元再構成とポーズ予測を同時に行うZeroGraspを紹介した。
我々はGraspNet-1BベンチマークでZeroGraspを実世界のロボット実験で評価した。
論文 参考訳(メタデータ) (2025-04-15T04:37:39Z) - MotionBank: A Large-scale Video Motion Benchmark with Disentangled Rule-based Annotations [85.85596165472663]
我々は、13の動画アクションデータセット、1.24Mのモーションシーケンス、132.9Mの自然な、多様な人間のモーションフレームからなるMotionBankを構築した。
私たちのMotionBankは、人間のモーション生成、モーションインコンテキスト生成、そしてモーション理解といった、一般的なモーション関連タスクに役立ちます。
論文 参考訳(メタデータ) (2024-10-17T17:31:24Z) - Scaling Large Motion Models with Million-Level Human Motions [67.40066387326141]
我々は、モーション生成のための最初の100万レベルのデータセットであるMotionLibを紹介する。
我々は Projname という名の大きな運動モデルを訓練し、幅広い人間の活動に頑健なパフォーマンスを示す。
論文 参考訳(メタデータ) (2024-10-04T10:48:54Z) - Aligning Human Motion Generation with Human Perceptions [51.831338643012444]
本研究では,大規模人間の知覚評価データセットであるMotionPerceptと,人間の動作批判モデルであるMotionCriticを導入することにより,ギャップを埋めるデータ駆動型アプローチを提案する。
我々の批評家モデルは、運動品質を評価するためのより正確な指標を提供しており、容易に運動生成パイプラインに統合することができる。
論文 参考訳(メタデータ) (2024-07-02T14:01:59Z) - Learning Generalizable Human Motion Generator with Reinforcement Learning [95.62084727984808]
テキスト駆動型ヒューマンモーション生成は、コンピュータ支援コンテンツ作成において重要なタスクの1つである。
既存の方法は訓練データ中の特定の動作表現に過度に適合することが多く、一般化する能力を妨げている。
一般化可能なヒューマンモーション生成のための強化学習において,パスとエラーのパラダイムを取り入れた textbfInstructMotion を提案する。
論文 参考訳(メタデータ) (2024-05-24T13:29:12Z) - FG-MDM: Towards Zero-Shot Human Motion Generation via ChatGPT-Refined Descriptions [19.695991127631974]
ゼロショットモーション生成のためのFG-MDM(Fin-Grained Human Motion Diffusion Model)という新しいフレームワークを提案する。
具体的には、まず従来の曖昧なテキストアノテーションを、異なる身体部分のきめ細かい記述にパースする。
FG-MDMは、動きの本質に近い記述のため、オリジナルのデータセットの範囲を超えて人間の動きを生成することができる。
論文 参考訳(メタデータ) (2023-12-05T14:01:43Z) - Universal Humanoid Motion Representations for Physics-Based Control [71.46142106079292]
物理学に基づくヒューマノイド制御のための総合的な運動スキルを含む普遍的な運動表現を提案する。
まず、大きな非構造運動データセットから人間の動きをすべて模倣できる動き模倣機を学習する。
次に、模倣者から直接スキルを蒸留することで、動作表現を作成します。
論文 参考訳(メタデータ) (2023-10-06T20:48:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。