Fugu-MT 論文翻訳(概要): Large Motion Model for Unified Multi-Modal Motion Generation

論文の概要: Large Motion Model for Unified Multi-Modal Motion Generation

arxiv url: http://arxiv.org/abs/2404.01284v1
Date: Mon, 1 Apr 2024 17:55:11 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-03 21:26:33.399215
Title: Large Motion Model for Unified Multi-Modal Motion Generation
Title（参考訳）: 統一多モード運動生成のための大規模運動モデル
Authors: Mingyuan Zhang, Daisheng Jin, Chenyang Gu, Fangzhou Hong, Zhongang Cai, Jingfang Huang, Chongzhi Zhang, Xinying Guo, Lei Yang, Ying He, Ziwei Liu,
Abstract要約: Large Motion Model (LMM) は、動き中心のマルチモーダルフレームワークであり、メインストリームのモーション生成タスクをジェネラリストモデルに統合する。 LMMは3つの原則的な側面からこれらの課題に取り組む。
参考スコア（独自算出の注目度）: 50.56268006354396
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Human motion generation, a cornerstone technique in animation and video production, has widespread applications in various tasks like text-to-motion and music-to-dance. Previous works focus on developing specialist models tailored for each task without scalability. In this work, we present Large Motion Model (LMM), a motion-centric, multi-modal framework that unifies mainstream motion generation tasks into a generalist model. A unified motion model is appealing since it can leverage a wide range of motion data to achieve broad generalization beyond a single task. However, it is also challenging due to the heterogeneous nature of substantially different motion data and tasks. LMM tackles these challenges from three principled aspects: 1) Data: We consolidate datasets with different modalities, formats and tasks into a comprehensive yet unified motion generation dataset, MotionVerse, comprising 10 tasks, 16 datasets, a total of 320k sequences, and 100 million frames. 2) Architecture: We design an articulated attention mechanism ArtAttention that incorporates body part-aware modeling into Diffusion Transformer backbone. 3) Pre-Training: We propose a novel pre-training strategy for LMM, which employs variable frame rates and masking forms, to better exploit knowledge from diverse training data. Extensive experiments demonstrate that our generalist LMM achieves competitive performance across various standard motion generation tasks over state-of-the-art specialist models. Notably, LMM exhibits strong generalization capabilities and emerging properties across many unseen tasks. Additionally, our ablation studies reveal valuable insights about training and scaling up large motion models for future research.
Abstract（参考訳）: アニメーションやビデオ制作において基礎となる技術であるヒューマン・モーション・ジェネレーションは、テキスト・トゥ・モーションや音楽・トゥ・ダンスといった様々なタスクに広く応用されている。これまでの作業では、スケーラビリティのない各タスクに適したスペシャリストモデルの開発に重点を置いていた。本研究では,動き中心のマルチモーダルフレームワークであるLarge Motion Model (LMM)について述べる。単一のタスクを超えて広範な一般化を実現するために、広範囲のモーションデータを活用することができるため、統一されたモーションモデルが魅力的である。しかし、かなり異なる動きデータやタスクの不均一性のため、これは挑戦的でもある。 LMMは3つの原則的側面からこれらの課題に取り組む。 1) データ: 異なるモダリティ、フォーマット、タスクのデータセットを総合的に統一されたモーション生成データセットであるMotionVerseに集約する。 2) アーキテクチャ: ボディ部分認識モデリングをDiffusion Transformerのバックボーンに組み込んだアテンション機構ArtAttentionを設計する。 3)事前学習: 多様な学習データから知識をうまく活用するために,可変フレームレートとマスキング形式を用いたLMMのための新しい事前学習戦略を提案する。我々の一般LMMは、最先端のスペシャリストモデルよりも、様々な標準動作生成タスク間での競合性能を実証した。特に、LMMは、多くの目に見えないタスクにまたがる強力な一般化能力と新興特性を示す。さらに、我々のアブレーション研究は、将来の研究のために大規模な運動モデルのトレーニングとスケールアップに関する貴重な洞察を明らかにします。

関連論文リスト

GENMO: A GENeralist Model for Human MOtion [64.16188966024542]
本稿では,1つのフレームワークで動作推定と生成を橋渡しする汎用人体運動モデル GENMO を提案する。我々の重要な洞察は、出力運動が観測された条件信号を正確に満たさなければならないような制約された動き生成として運動推定を再構成することである。我々の新しいアーキテクチャは、可変長動きと混合マルチモーダル条件(テキスト、オーディオ、ビデオ)を異なる時間間隔で処理し、柔軟な制御を提供する。
論文参考訳（メタデータ） (2025-05-02T17:59:55Z)
PartRM: Modeling Part-Level Dynamics with Large Cross-State Reconstruction Model [23.768571323272152]
PartRMは、静的オブジェクトの多視点画像から外観、幾何学、部分レベルの動きを同時にモデル化する新しい4D再構成フレームワークである。我々はPartDrag-4Dデータセットを導入し、20,000以上の状態にまたがる部分レベルのダイナミクスを多視点で観察する。実験結果から,PartRMはロボット工学の操作作業に応用できる部分レベルの動作学習において,新たな最先端技術を確立していることがわかった。
論文参考訳（メタデータ） (2025-03-25T17:59:58Z)
GenM$^3$: Generative Pretrained Multi-path Motion Model for Text Conditional Human Motion Generation [19.2804620329011]
Generative Pretrained Multi-path Motion Model (GenM$3$)は、統合された動き表現を学習するためのフレームワークである。大規模なトレーニングを可能にするため、11の高品質なモーションデータセットを統合し、統合する。 GenM$3$はHumanML3Dベンチマークで0.035の最先端のFIDを実現し、最先端のメソッドを大きなマージンで上回る。
論文参考訳（メタデータ） (2025-03-19T05:56:52Z)
MoFM: A Large-Scale Human Motion Foundation Model [2.621434923709917]
ファンデーションモデル(FM)は、様々なタスクにまたがるスケーラビリティと一般化により、研究者の注目を集めている。 MoFMは、時間と空間の両方において複雑な人間の動きを意味的に理解するために設計されている。 MoFMは、ダウンストリームタスクのバックボーンを提供し、ワンショット、教師なし、教師なしタスクなどのパラダイムをサポートする。
論文参考訳（メタデータ） (2025-02-08T03:42:52Z)
SM3Det: A Unified Model for Multi-Modal Remote Sensing Object Detection [73.49799596304418]
本稿では,リモートセンシングのためのマルチモーダルデータセットとマルチタスクオブジェクト検出(M2Det)という新しいタスクを提案する。水平方向または指向方向の物体を、あらゆるセンサーから正確に検出するように設計されている。この課題は、1)マルチモーダルモデリングの管理に関わるトレードオフ、2)マルチタスク最適化の複雑さに起因する。
論文参考訳（メタデータ） (2024-12-30T02:47:51Z)
Quo Vadis, Motion Generation? From Large Language Models to Large Motion Models [70.78051873517285]
我々は、最初の100万レベルのモーション生成ベンチマークであるMotionBaseを紹介する。この膨大なデータセットを活用することで、我々の大きな動きモデルは幅広い動きに対して強いパフォーマンスを示す。動作情報を保存し,コードブックの容量を拡大する,モーショントークン化のための新しい2次元ルックアップフリーアプローチを提案する。
論文参考訳（メタデータ） (2024-10-04T10:48:54Z)
MotionCraft: Crafting Whole-Body Motion with Plug-and-Play Multimodal Controls [30.487510829107908]
プラグ・アンド・プレイ・マルチモーダル制御による全身動作を実現する統合拡散変換器であるMotionCraftを提案する。我々のフレームワークは、テキスト・ツー・モーション・セマンティック・トレーニングの第1段階から始まる粗大な訓練戦略を採用している。本稿では,SMPL-Xフォーマットを統一したマルチモーダル全体モーション生成ベンチマークMC-Benchを紹介する。
論文参考訳（メタデータ） (2024-07-30T18:57:06Z)
ProMotion: Prototypes As Motion Learners [46.08051377180652]
本稿では,基本動作タスクをモデル化するための統一プロトタイプフレームワークであるProMotionを紹介する。 ProMotionは、現在のタスク固有のパラダイムとは別の、魅力的な属性を提供する。我々は,特徴記述器と原型学習器を併用して,動作の複雑さを解読する2つのメカニズムを生かした。
論文参考訳（メタデータ） (2024-06-07T15:10:33Z)
SEED-X: Multimodal Models with Unified Multi-granularity Comprehension and Generation [61.392147185793476]
統一的で汎用的な基礎モデル、すなわちSEED-Xを提案する。 SEED-Xは、理解および生成タスクのための多粒度視覚意味論をモデル化することができる。我々の研究が、現実世界のアプリケーションで多目的なマルチモーダル基盤モデルによって達成できるものについて、将来の研究に刺激を与えることを期待しています。
論文参考訳（メタデータ） (2024-04-22T17:56:09Z)
DiverseMotion: Towards Diverse Human Motion Generation via Discrete Diffusion [70.33381660741861]
テキスト記述に基づく高品質な人間の動作を合成するための新しいアプローチであるDiverseMotionを提案する。我々のDiverseMotionは、最先端のモーション品質と競争力の多様性を達成できることを示す。
論文参考訳（メタデータ） (2023-09-04T05:43:48Z)
An Efficient General-Purpose Modular Vision Model via Multi-Task Heterogeneous Training [79.78201886156513]
本稿では、複数の視覚タスクを実行でき、他の下流タスクに効率的に適応できるモデルを提案する。提案手法は,単一タスク状態モデルに匹敵する結果を達成し,下流タスクの強力な一般化を実証する。
論文参考訳（メタデータ） (2023-06-29T17:59:57Z)
mPLUG-2: A Modularized Multi-modal Foundation Model Across Text, Image and Video [89.19867891570945]
mPLUG-2は、マルチモーダル事前訓練のためのモジュール化された設計を備えた新しい統一パラダイムである。モダリティ協力のための共通普遍加群を共有し、モダリティの絡み合いを扱うために異なるモダリティ加群を切り離す。テキスト、画像、ビデオを含むすべてのモダリティの異なる理解タスクと生成タスクのために、異なるモジュールを選択することは柔軟です。
論文参考訳（メタデータ） (2023-02-01T12:40:03Z)
Dynamic Future Net: Diversified Human Motion Generation [31.987602940970888]
人間のモーションモデリングはコンピュータグラフィックス、視覚、仮想現実など多くの分野で重要である。我々は,人間の運動力学の本質的な運動性に着目した新しい深層学習モデルであるDynamic Future Netを提案する。我々のモデルでは、任意の時間で多数の高品質な動きを生成でき、空間と時間の両方の変動を視覚的に解析することができる。
論文参考訳（メタデータ） (2020-08-25T02:31:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。