論文の概要: Scaling Large Motion Models with Million-Level Human Motions
- arxiv url: http://arxiv.org/abs/2410.03311v2
- Date: Sun, 11 May 2025 13:16:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-13 20:21:48.686395
- Title: Scaling Large Motion Models with Million-Level Human Motions
- Title(参考訳): 百万レベル人体運動を用いた大規模運動モデルのスケーリング
- Authors: Ye Wang, Sipeng Zheng, Bin Cao, Qianshan Wei, Weishuai Zeng, Qin Jin, Zongqing Lu,
- Abstract要約: 我々は、モーション生成のための最初の100万レベルのデータセットであるMotionLibを紹介する。
我々はBeat-M0という名の大きなモーションモデルを訓練し、幅広い人間の活動において堅牢なパフォーマンスを示す。
- 参考スコア(独自算出の注目度): 67.40066387326141
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Inspired by the recent success of LLMs, the field of human motion understanding has increasingly shifted toward developing large motion models. Despite some progress, current efforts remain far from achieving truly generalist models, primarily due to the lack of massive high-quality data. To address this gap, we present MotionLib, the first million-level dataset for motion generation, which is at least 15$\times$ larger than existing counterparts and enriched with hierarchical text descriptions. Using MotionLib, we train a large motion model named Being-M0, demonstrating robust performance across a wide range of human activities, including unseen ones. Through systematic investigation, for the first time, we highlight the importance of scaling both data and model size for advancing motion generation, along with key insights to achieve this goal. To better integrate the motion modality, we propose Motionbook, an innovative motion encoding approach including (1) a compact yet lossless feature to represent motions; (2) a novel 2D lookup-free motion tokenizer that preserves fine-grained motion details while expanding codebook capacity, significantly enhancing the representational power of motion tokens. We believe this work lays the groundwork for developing more versatile and powerful motion generation models in the future. For further details, visit https://github.com/BeingBeyond/Being-M0.
- Abstract(参考訳): 近年のLLMの成功に触発されて、人間の動き理解の分野は、より大きな動きモデルの開発へと移りつつある。
いくつかの進歩にもかかわらず、現在の取り組みは、主に大量の高品質データがないために、真のジェネラリストモデルを達成するには程遠い。
このギャップに対処するために、モーション生成のための最初の100万レベルのデータセットであるMotionLibを紹介します。
MotionLibを使ってBeat-M0という名の大きなモーションモデルをトレーニングし、目に見えないものを含む幅広い人間の活動に対して堅牢なパフォーマンスを示す。
組織的な調査を通じて、私たちは初めて、この目標を達成するための重要な洞察とともに、モーション生成を進めるために、データとモデルサイズの両方をスケールすることの重要性を強調します。
動きのモダリティをよりよく統合するために,(1)動きを表現するためのコンパクトでロスレスな特徴を含む革新的な動き符号化手法であるMotionbook,(2)コードブック容量を拡大しながら細粒度な動きの詳細を保存し,動きトークンの表現力を著しく向上する2Dルックアップフリーなモーショントークンライザを提案する。
この研究は、将来的にはより汎用的で強力なモーションジェネレーションモデルを開発するための基盤となると信じている。
詳細はhttps://github.com/BeingBeyond/Being-M0.comを参照してください。
関連論文リスト
- RAGME: Retrieval Augmented Video Generation for Enhanced Motion Realism [73.38167494118746]
生成ビデオにおける動きのリアリズムを改善するための枠組みを提案する。
生成フェーズにおける検索機構の導入を提唱する。
私たちのパイプラインは、どんなテキスト間拡散モデルにも適用できるように設計されています。
論文 参考訳(メタデータ) (2025-04-09T08:14:05Z) - PartRM: Modeling Part-Level Dynamics with Large Cross-State Reconstruction Model [23.768571323272152]
PartRMは、静的オブジェクトの多視点画像から外観、幾何学、部分レベルの動きを同時にモデル化する新しい4D再構成フレームワークである。
我々はPartDrag-4Dデータセットを導入し、20,000以上の状態にまたがる部分レベルのダイナミクスを多視点で観察する。
実験結果から,PartRMはロボット工学の操作作業に応用できる部分レベルの動作学習において,新たな最先端技術を確立していることがわかった。
論文 参考訳(メタデータ) (2025-03-25T17:59:58Z) - IMUDiffusion: A Diffusion Model for Multivariate Time Series Synthetisation for Inertial Motion Capturing Systems [0.0]
本稿では,時系列生成に特化して設計された確率的拡散モデルIMUDiffusionを提案する。
提案手法は,人間の活動のダイナミクスを正確に捉えた高品質な時系列列の生成を可能にする。
一部のケースでは、マクロF1スコアを約30%改善することができる。
論文 参考訳(メタデータ) (2024-11-05T09:53:52Z) - Large Motion Model for Unified Multi-Modal Motion Generation [50.56268006354396]
Large Motion Model (LMM) は、動き中心のマルチモーダルフレームワークであり、メインストリームのモーション生成タスクをジェネラリストモデルに統合する。
LMMは3つの原則的な側面からこれらの課題に取り組む。
論文 参考訳(メタデータ) (2024-04-01T17:55:11Z) - Data-efficient Large Vision Models through Sequential Autoregression [58.26179273091461]
限られたデータセットに基づいて,効率的な自己回帰に基づく視覚モデルを構築する。
このモデルは,高レベル・低レベルのセマンティック理解の両方にまたがる視覚的タスクにおいて,その習熟度をいかに達成するかを実証する。
我々の経験的評価は、モデルが様々なタスクに適応する際の機敏さを強調し、パラメータフットプリントの大幅な削減を図った。
論文 参考訳(メタデータ) (2024-02-07T13:41:53Z) - Priority-Centric Human Motion Generation in Discrete Latent Space [59.401128190423535]
テキスト・ツー・モーション生成のための優先中心運動離散拡散モデル(M2DM)を提案する。
M2DMは、コード崩壊に対処するために、グローバルな自己注意機構と正規化用語を組み込んでいる。
また、各動きトークンの重要度から決定される革新的なノイズスケジュールを用いた動き離散拡散モデルを提案する。
論文 参考訳(メタデータ) (2023-08-28T10:40:16Z) - MotionTrack: Learning Motion Predictor for Multiple Object Tracking [68.68339102749358]
本研究では,学習可能なモーション予測器を中心に,新しいモーショントラッカーであるMotionTrackを紹介する。
実験結果から、MotionTrackはDancetrackやSportsMOTといったデータセット上での最先端のパフォーマンスを示す。
論文 参考訳(メタデータ) (2023-06-05T04:24:11Z) - Make-An-Animation: Large-Scale Text-conditional 3D Human Motion
Generation [47.272177594990104]
テキスト条件付き人間動作生成モデルであるMake-An-Animationを紹介する。
大規模な画像テキストデータセットから、より多様なポーズとプロンプトを学ぶ。
テキスト・トゥ・モーション・ジェネレーションの最先端のパフォーマンスに到達します。
論文 参考訳(メタデータ) (2023-05-16T17:58:43Z) - HuMoR: 3D Human Motion Model for Robust Pose Estimation [100.55369985297797]
HuMoRは、時間的ポーズと形状のロバスト推定のための3Dヒューマンモーションモデルです。
モーションシーケンスの各ステップにおけるポーズの変化の分布を学習する条件付き変分オートエンコーダについて紹介する。
本モデルが大規模モーションキャプチャーデータセットのトレーニング後に多様な動きや体型に一般化することを示す。
論文 参考訳(メタデータ) (2021-05-10T21:04:55Z) - Recognition and Synthesis of Object Transport Motion [0.0]
このプロジェクトでは、小さなモーションキャプチャデータセット上で、特別なデータ拡張テクニックとともに、ディープ畳み込みネットワークをどのように使用できるかを説明します。
このプロジェクトは、運動合成のより複雑なタスクのために、これらの同じ拡張テクニックをどのようにスケールアップするかを示している。
近年のGAN(Generative Adversarial Models)の概念、特にWasserstein GAN(英語版)の展開を探求することにより、このプロジェクトは生命に似た物体の移動運動をうまく生成できるモデルの概要を述べる。
論文 参考訳(メタデータ) (2020-09-27T22:13:26Z) - Dynamic Future Net: Diversified Human Motion Generation [31.987602940970888]
人間のモーションモデリングはコンピュータグラフィックス、視覚、仮想現実など多くの分野で重要である。
我々は,人間の運動力学の本質的な運動性に着目した新しい深層学習モデルであるDynamic Future Netを提案する。
我々のモデルでは、任意の時間で多数の高品質な動きを生成でき、空間と時間の両方の変動を視覚的に解析することができる。
論文 参考訳(メタデータ) (2020-08-25T02:31:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。