論文の概要: MG-MotionLLM: A Unified Framework for Motion Comprehension and Generation across Multiple Granularities
- arxiv url: http://arxiv.org/abs/2504.02478v1
- Date: Thu, 03 Apr 2025 10:53:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-04 12:56:26.168489
- Title: MG-MotionLLM: A Unified Framework for Motion Comprehension and Generation across Multiple Granularities
- Title(参考訳): MG-MotionLLM: 複数の粒度にわたる運動理解と生成のための統一フレームワーク
- Authors: Bizhu Wu, Jinheng Xie, Keming Shen, Zhe Kong, Jianfeng Ren, Ruibin Bai, Rong Qu, Linlin Shen,
- Abstract要約: MG-MotionLLMは多粒運動の理解と生成のための統一運動言語モデルである。
本稿では,新しい補助課題を取り入れた包括的多粒度学習手法を提案する。
MG-MotionLLMは,従来のテキスト・トゥ・モーションタスクやモーション・トゥ・テキストタスクにおいて優れた性能を発揮する。
- 参考スコア(独自算出の注目度): 36.42160163142448
- License:
- Abstract: Recent motion-aware large language models have demonstrated promising potential in unifying motion comprehension and generation. However, existing approaches primarily focus on coarse-grained motion-text modeling, where text describes the overall semantics of an entire motion sequence in just a few words. This limits their ability to handle fine-grained motion-relevant tasks, such as understanding and controlling the movements of specific body parts. To overcome this limitation, we pioneer MG-MotionLLM, a unified motion-language model for multi-granular motion comprehension and generation. We further introduce a comprehensive multi-granularity training scheme by incorporating a set of novel auxiliary tasks, such as localizing temporal boundaries of motion segments via detailed text as well as motion detailed captioning, to facilitate mutual reinforcement for motion-text modeling across various levels of granularity. Extensive experiments show that our MG-MotionLLM achieves superior performance on classical text-to-motion and motion-to-text tasks, and exhibits potential in novel fine-grained motion comprehension and editing tasks. Project page: CVI-SZU/MG-MotionLLM
- Abstract(参考訳): 最近の動き認識型大規模言語モデルは、動きの理解と生成を統一する有望な可能性を実証している。
しかし、既存のアプローチは主に粗い粒度のモーションテキストモデリングに重点を置いており、テキストはわずか数ワードで、モーションシーケンス全体の意味を記述している。
これにより、特定の身体部分の動きを理解し制御するといった、細かい運動関連タスクを処理できる能力が制限される。
この制限を克服するために、多粒運動理解と生成のための統一運動言語モデルMG-MotionLLMを考案した。
さらに、詳細なテキストによる動作セグメントの時間的境界のローカライズや、動きの詳細なキャプションといった一連の新しい補助タスクを組み込むことにより、様々なレベルの粒度をまたいだ動きテキストモデリングの相互強化を容易にすることで、総合的な多粒度訓練手法を導入する。
MG-MotionLLMは従来のテキスト・トゥ・モーションタスクやモーション・トゥ・テキストタスクにおいて優れた性能を示し,新しい微粒な動作理解タスクや編集タスクの可能性を秘めている。
プロジェクトページ:CVI-SZU/MG-MotionLLM
関連論文リスト
- KinMo: Kinematic-aware Human Motion Understanding and Generation [6.962697597686156]
現在のヒューマンモーション合成フレームワークは、グローバルなアクション記述に依存している。
単一の粗い記述は、速度の変化、手足の位置決め、運動力学などの詳細を捉えるのに失敗する。
階層的な記述可能な動作表現に基づいて構築された統合フレームワークである textbfKinMo を紹介する。
論文 参考訳(メタデータ) (2024-11-23T06:50:11Z) - MotionGPT-2: A General-Purpose Motion-Language Model for Motion Generation and Understanding [76.30210465222218]
MotionGPT-2は、MLMLM(Large Motion-Language Model)である。
LLM(Large Language Models)によるマルチモーダル制御をサポートしている。
難易度の高い3次元全体運動生成タスクに高い適応性を持つ。
論文 参考訳(メタデータ) (2024-10-29T05:25:34Z) - MotionBank: A Large-scale Video Motion Benchmark with Disentangled Rule-based Annotations [85.85596165472663]
我々は、13の動画アクションデータセット、1.24Mのモーションシーケンス、132.9Mの自然な、多様な人間のモーションフレームからなるMotionBankを構築した。
私たちのMotionBankは、人間のモーション生成、モーションインコンテキスト生成、そしてモーション理解といった、一般的なモーション関連タスクに役立ちます。
論文 参考訳(メタデータ) (2024-10-17T17:31:24Z) - Infinite Motion: Extended Motion Generation via Long Text Instructions [51.61117351997808]
『無限運動』は、長文を長文から拡張運動生成に活用する新しいアプローチである。
我々のモデルの主な革新は、任意の長さのテキストを入力として受け入れることである。
テキストのタイムスタンプ設計を取り入れ、生成されたシーケンス内のローカルセグメントの正確な編集を可能にする。
論文 参考訳(メタデータ) (2024-07-11T12:33:56Z) - Motion-Agent: A Conversational Framework for Human Motion Generation with LLMs [67.59291068131438]
Motion-Agentは、一般的な人間の動きの生成、編集、理解のために設計された会話フレームワークである。
Motion-Agentはオープンソースの事前学習言語モデルを使用して、モーションとテキストのギャップを埋める生成エージェントであるMotionLLMを開発した。
論文 参考訳(メタデータ) (2024-05-27T09:57:51Z) - CoMo: Controllable Motion Generation through Language Guided Pose Code Editing [57.882299081820626]
本稿では,制御可能なモーション生成モデルであるCoMoについて紹介する。
CoMoは、動きを離散的で意味のあるポーズコードに分解する。
自動的にポーズコードのシーケンスを生成し、それを3Dモーションにデコードする。
論文 参考訳(メタデータ) (2024-03-20T18:11:10Z) - MoConVQ: Unified Physics-Based Motion Control via Scalable Discrete
Representations [25.630268570049708]
MoConVQは、スケーラブルな離散表現を活用する物理ベースのモーションコントロールのための新しい統合フレームワークである。
提案手法は,数十時間の動作例にまたがる大規模非構造データセットから,効果的に動作埋め込みを学習する。
論文 参考訳(メタデータ) (2023-10-16T09:09:02Z) - DiverseMotion: Towards Diverse Human Motion Generation via Discrete
Diffusion [70.33381660741861]
テキスト記述に基づく高品質な人間の動作を合成するための新しいアプローチであるDiverseMotionを提案する。
我々のDiverseMotionは、最先端のモーション品質と競争力の多様性を達成できることを示す。
論文 参考訳(メタデータ) (2023-09-04T05:43:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。