論文の概要: Quo Vadis, Motion Generation? From Large Language Models to Large Motion Models
- arxiv url: http://arxiv.org/abs/2410.03311v1
- Date: Fri, 4 Oct 2024 10:48:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-02 23:08:51.576242
- Title: Quo Vadis, Motion Generation? From Large Language Models to Large Motion Models
- Title(参考訳): Quo Vadis, Motion Generation? 大規模言語モデルから大規模運動モデルへ
- Authors: Ye Wang, Sipeng Zheng, Bin Cao, Qianshan Wei, Qin Jin, Zongqing Lu,
- Abstract要約: 我々は、最初の100万レベルのモーション生成ベンチマークであるMotionBaseを紹介する。
この膨大なデータセットを活用することで、我々の大きな動きモデルは幅広い動きに対して強いパフォーマンスを示す。
動作情報を保存し,コードブックの容量を拡大する,モーショントークン化のための新しい2次元ルックアップフリーアプローチを提案する。
- 参考スコア(独自算出の注目度): 70.78051873517285
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Inspired by the recent success of LLMs, the field of human motion understanding has increasingly shifted towards the development of large motion models. Despite some progress, current state-of-the-art works remain far from achieving truly generalist models, largely due to the lack of large-scale, high-quality motion data. To address this, we present MotionBase, the first million-level motion generation benchmark, offering 15 times the data volume of the previous largest dataset, and featuring multimodal data with hierarchically detailed text descriptions. By leveraging this vast dataset, our large motion model demonstrates strong performance across a broad range of motions, including unseen ones. Through systematic investigation, we underscore the importance of scaling both data and model size, with synthetic data and pseudo labels playing a crucial role in mitigating data acquisition costs. Moreover, our research reveals the limitations of existing evaluation metrics, particularly in handling out-of-domain text instructions -- an issue that has long been overlooked. In addition to these, we introduce a novel 2D lookup-free approach for motion tokenization, which preserves motion information and expands codebook capacity, further enhancing the representative ability of large motion models. The release of MotionBase and the insights gained from this study are expected to pave the way for the development of more powerful and versatile motion generation models.
- Abstract(参考訳): 近年のLLMの成功に触発されて、人間の動き理解の分野は、大きな動きモデルの開発へと移りつつある。
いくつかの進歩にもかかわらず、現在の最先端の作業は、大規模で高品質なモーションデータがないために、真のジェネラリストモデルを達成するには程遠いままである。
これを解決するために、最初の100万レベルのモーション生成ベンチマークであるMotionBaseを紹介し、前回の最大データセットの15倍のデータ量を提供し、階層的な詳細なテキスト記述を備えたマルチモーダルデータを特徴付ける。
この膨大なデータセットを活用することで、我々の大きな動きモデルは、目に見えないものを含む幅広い動きの強いパフォーマンスを示す。
組織的な調査を通じて、我々は、データ取得コストの軽減に重要な役割を果たす合成データと擬似ラベルを用いて、データサイズとモデルサイズの両方をスケールすることの重要性を強調した。
さらに,本研究では,既存の評価指標,特にドメイン外のテキスト命令を扱う際の限界を明らかにする。
さらに,動作情報を保存し,コードブックの容量を拡大し,大規模動きモデルの表現能力を向上する,動きトークン化のための新しい2次元ルックアップフリーアプローチを提案する。
MotionBaseのリリースとこの研究から得られた知見は、より強力で汎用的なモーション生成モデルを開発するための道を開くことが期待されている。
関連論文リスト
- IMUDiffusion: A Diffusion Model for Multivariate Time Series Synthetisation for Inertial Motion Capturing Systems [0.0]
本稿では,時系列生成に特化して設計された確率的拡散モデルIMUDiffusionを提案する。
提案手法は,人間の活動のダイナミクスを正確に捉えた高品質な時系列列の生成を可能にする。
一部のケースでは、マクロF1スコアを約30%改善することができる。
論文 参考訳(メタデータ) (2024-11-05T09:53:52Z) - Large Motion Model for Unified Multi-Modal Motion Generation [50.56268006354396]
Large Motion Model (LMM) は、動き中心のマルチモーダルフレームワークであり、メインストリームのモーション生成タスクをジェネラリストモデルに統合する。
LMMは3つの原則的な側面からこれらの課題に取り組む。
論文 参考訳(メタデータ) (2024-04-01T17:55:11Z) - Data-efficient Large Vision Models through Sequential Autoregression [58.26179273091461]
限られたデータセットに基づいて,効率的な自己回帰に基づく視覚モデルを構築する。
このモデルは,高レベル・低レベルのセマンティック理解の両方にまたがる視覚的タスクにおいて,その習熟度をいかに達成するかを実証する。
我々の経験的評価は、モデルが様々なタスクに適応する際の機敏さを強調し、パラメータフットプリントの大幅な削減を図った。
論文 参考訳(メタデータ) (2024-02-07T13:41:53Z) - Priority-Centric Human Motion Generation in Discrete Latent Space [59.401128190423535]
テキスト・ツー・モーション生成のための優先中心運動離散拡散モデル(M2DM)を提案する。
M2DMは、コード崩壊に対処するために、グローバルな自己注意機構と正規化用語を組み込んでいる。
また、各動きトークンの重要度から決定される革新的なノイズスケジュールを用いた動き離散拡散モデルを提案する。
論文 参考訳(メタデータ) (2023-08-28T10:40:16Z) - MotionTrack: Learning Motion Predictor for Multiple Object Tracking [68.68339102749358]
本研究では,学習可能なモーション予測器を中心に,新しいモーショントラッカーであるMotionTrackを紹介する。
実験結果から、MotionTrackはDancetrackやSportsMOTといったデータセット上での最先端のパフォーマンスを示す。
論文 参考訳(メタデータ) (2023-06-05T04:24:11Z) - Make-An-Animation: Large-Scale Text-conditional 3D Human Motion
Generation [47.272177594990104]
テキスト条件付き人間動作生成モデルであるMake-An-Animationを紹介する。
大規模な画像テキストデータセットから、より多様なポーズとプロンプトを学ぶ。
テキスト・トゥ・モーション・ジェネレーションの最先端のパフォーマンスに到達します。
論文 参考訳(メタデータ) (2023-05-16T17:58:43Z) - HuMoR: 3D Human Motion Model for Robust Pose Estimation [100.55369985297797]
HuMoRは、時間的ポーズと形状のロバスト推定のための3Dヒューマンモーションモデルです。
モーションシーケンスの各ステップにおけるポーズの変化の分布を学習する条件付き変分オートエンコーダについて紹介する。
本モデルが大規模モーションキャプチャーデータセットのトレーニング後に多様な動きや体型に一般化することを示す。
論文 参考訳(メタデータ) (2021-05-10T21:04:55Z) - Recognition and Synthesis of Object Transport Motion [0.0]
このプロジェクトでは、小さなモーションキャプチャデータセット上で、特別なデータ拡張テクニックとともに、ディープ畳み込みネットワークをどのように使用できるかを説明します。
このプロジェクトは、運動合成のより複雑なタスクのために、これらの同じ拡張テクニックをどのようにスケールアップするかを示している。
近年のGAN(Generative Adversarial Models)の概念、特にWasserstein GAN(英語版)の展開を探求することにより、このプロジェクトは生命に似た物体の移動運動をうまく生成できるモデルの概要を述べる。
論文 参考訳(メタデータ) (2020-09-27T22:13:26Z) - Dynamic Future Net: Diversified Human Motion Generation [31.987602940970888]
人間のモーションモデリングはコンピュータグラフィックス、視覚、仮想現実など多くの分野で重要である。
我々は,人間の運動力学の本質的な運動性に着目した新しい深層学習モデルであるDynamic Future Netを提案する。
我々のモデルでは、任意の時間で多数の高品質な動きを生成でき、空間と時間の両方の変動を視覚的に解析することができる。
論文 参考訳(メタデータ) (2020-08-25T02:31:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。