論文の概要: GenM$^3$: Generative Pretrained Multi-path Motion Model for Text Conditional Human Motion Generation
- arxiv url: http://arxiv.org/abs/2503.14919v1
- Date: Wed, 19 Mar 2025 05:56:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-20 15:23:45.626806
- Title: GenM$^3$: Generative Pretrained Multi-path Motion Model for Text Conditional Human Motion Generation
- Title(参考訳): GenM$^3$:テキスト・コンディショナル・ヒューマン・モーション・ジェネレーションのための生成事前学習型マルチパス・モーション・モデル
- Authors: Junyu Shi, Lijiang Liu, Yong Sun, Zhiyuan Zhang, Jinni Zhou, Qiang Nie,
- Abstract要約: Generative Pretrained Multi-path Motion Model (GenM$3$)は、統合された動き表現を学習するためのフレームワークである。
大規模なトレーニングを可能にするため、11の高品質なモーションデータセットを統合し、統合する。
GenM$3$はHumanML3Dベンチマークで0.035の最先端のFIDを実現し、最先端のメソッドを大きなマージンで上回る。
- 参考スコア(独自算出の注目度): 19.2804620329011
- License:
- Abstract: Scaling up motion datasets is crucial to enhance motion generation capabilities. However, training on large-scale multi-source datasets introduces data heterogeneity challenges due to variations in motion content. To address this, we propose Generative Pretrained Multi-path Motion Model (GenM$^3$), a comprehensive framework designed to learn unified motion representations. GenM$^3$ comprises two components: 1) a Multi-Expert VQ-VAE (MEVQ-VAE) that adapts to different dataset distributions to learn a unified discrete motion representation, and 2) a Multi-path Motion Transformer (MMT) that improves intra-modal representations by using separate modality-specific pathways, each with densely activated experts to accommodate variations within that modality, and improves inter-modal alignment by the text-motion shared pathway. To enable large-scale training, we integrate and unify 11 high-quality motion datasets (approximately 220 hours of motion data) and augment it with textual annotations (nearly 10,000 motion sequences labeled by a large language model and 300+ by human experts). After training on our integrated dataset, GenM$^3$ achieves a state-of-the-art FID of 0.035 on the HumanML3D benchmark, surpassing state-of-the-art methods by a large margin. It also demonstrates strong zero-shot generalization on IDEA400 dataset, highlighting its effectiveness and adaptability across diverse motion scenarios.
- Abstract(参考訳): モーションデータセットのスケールアップは、モーション生成機能の向上に不可欠である。
しかし、大規模マルチソースデータセットのトレーニングでは、動作内容の変化によるデータの均一性の問題が発生する。
そこで我々は,統合された動き表現を学習するための総合的なフレームワークであるGenerative Pretrained Multi-path Motion Model (GenM$^3$)を提案する。
GenM$^3$は2つのコンポーネントから構成される。
1)異なるデータセット分布に適応して統一された離散的な動き表現を学習するMulti-Expert VQ-VAE(MEVQ-VAE)
2)多経路運動変換器 (MMT) は, 個別のモダリティ特異的な経路を用いてモーダル内表現を改良し, 高度に活性化された専門家を伴い, モダリティ内での変動に適応し, テキストモーション共有経路によるモーダル間アライメントを改善する。
大規模トレーニングを実現するため,11の高品質な動作データセット(約220時間の動作データ)を統合し,テキストアノテーション(大規模言語モデルでラベル付けされた約10,000の動作シーケンスと,人手による300以上の動作シーケンス)で拡張する。
統合データセットのトレーニングの後、GenM$^3$はHumanML3Dベンチマークで0.035の最先端のFIDを達成し、最先端のメソッドを大きなマージンで上回る。
また、IDEA400データセットにゼロショットの強い一般化を示し、さまざまなモーションシナリオにおけるその有効性と適応性を強調している。
関連論文リスト
- LargeAD: Large-Scale Cross-Sensor Data Pretraining for Autonomous Driving [52.83707400688378]
LargeADは多用途でスケーラブルなフレームワークで、さまざまな現実世界の運転データセットにわたる大規模3D事前トレーニング用に設計されている。
我々のフレームワークは、VFMを利用して2次元画像から意味的にリッチなスーパーピクセルを抽出し、LiDAR点雲に整列して高品質なコントラストサンプルを生成する。
提案手法は,LDARに基づくセグメント化とオブジェクト検出の両面において,線形探索と微調整の両作業において,最先端の手法よりも大幅な性能向上を実現している。
論文 参考訳(メタデータ) (2025-01-07T18:59:59Z) - Multi-Transmotion: Pre-trained Model for Human Motion Prediction [68.87010221355223]
マルチトランスモーション(Multi-Transmotion)は、モダリティ事前トレーニング用に設計された革新的なトランスフォーマーベースのモデルである。
提案手法は,下流タスクにおける各種データセット間の競合性能を示す。
論文 参考訳(メタデータ) (2024-11-04T23:15:21Z) - MotionCraft: Crafting Whole-Body Motion with Plug-and-Play Multimodal Controls [30.487510829107908]
プラグ・アンド・プレイ・マルチモーダル制御による全身動作を実現する統合拡散変換器であるMotionCraftを提案する。
我々のフレームワークは、テキスト・ツー・モーション・セマンティック・トレーニングの第1段階から始まる粗大な訓練戦略を採用している。
本稿では,SMPL-Xフォーマットを統一したマルチモーダル全体モーション生成ベンチマークMC-Benchを紹介する。
論文 参考訳(メタデータ) (2024-07-30T18:57:06Z) - Towards Open Domain Text-Driven Synthesis of Multi-Person Motions [36.737740727883924]
我々は、大規模な画像とビデオのデータセットからポーズ情報を推定することで、人間のポーズと動きのデータセットをキュレートする。
本手法は,多種多様なテキストプロンプトから多目的運動列を多種多様な多様性と忠実度で生成する最初の方法である。
論文 参考訳(メタデータ) (2024-05-28T18:00:06Z) - Large Motion Model for Unified Multi-Modal Motion Generation [50.56268006354396]
Large Motion Model (LMM) は、動き中心のマルチモーダルフレームワークであり、メインストリームのモーション生成タスクをジェネラリストモデルに統合する。
LMMは3つの原則的な側面からこれらの課題に取り組む。
論文 参考訳(メタデータ) (2024-04-01T17:55:11Z) - Scaling Up Dynamic Human-Scene Interaction Modeling [58.032368564071895]
TRUMANSは、現在利用可能な最も包括的なモーションキャプチャーHSIデータセットである。
人体全体の動きや部分レベルの物体の動きを複雑に捉えます。
本研究では,任意の長さのHSI配列を効率的に生成する拡散型自己回帰モデルを提案する。
論文 参考訳(メタデータ) (2024-03-13T15:45:04Z) - Bi-directional Adapter for Multi-modal Tracking [67.01179868400229]
汎用の双方向アダプタを用いたマルチモーダル視覚プロンプト追跡モデルを提案する。
我々は、モーダリティ固有の情報をあるモーダリティから別のモーダリティへ転送するための、シンプルだが効果的なライト・フィーチャー・アダプタを開発した。
本モデルでは,完全微調整法と素早い学習法の両方と比較して,追跡性能が優れている。
論文 参考訳(メタデータ) (2023-12-17T05:27:31Z) - DiverseMotion: Towards Diverse Human Motion Generation via Discrete
Diffusion [70.33381660741861]
テキスト記述に基づく高品質な人間の動作を合成するための新しいアプローチであるDiverseMotionを提案する。
我々のDiverseMotionは、最先端のモーション品質と競争力の多様性を達成できることを示す。
論文 参考訳(メタデータ) (2023-09-04T05:43:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。