論文の概要: MotionLLaMA: A Unified Framework for Motion Synthesis and Comprehension
- arxiv url: http://arxiv.org/abs/2411.17335v1
- Date: Tue, 26 Nov 2024 11:28:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-27 13:34:57.135319
- Title: MotionLLaMA: A Unified Framework for Motion Synthesis and Comprehension
- Title(参考訳): MotionLLaMA: モーション合成と理解のための統一フレームワーク
- Authors: Zeyu Ling, Bo Han, Shiyang Li, Hongdeng Shen, Jikang Cheng, Changqing Zou,
- Abstract要約: MotionLLaMAは、モーション合成と理解のための統合されたフレームワークである。
HoMi Tokenizerは、新しいフルボディモーショントークンである。
MotionLLaMAは、動作完了、双方向のテキスト・トゥ・モーションの相互作用、およびすべての理解タスクにおける最先端(SOTA)パフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 26.172040706657235
- License:
- Abstract: This paper introduces MotionLLaMA, a unified framework for motion synthesis and comprehension, along with a novel full-body motion tokenizer called the HoMi Tokenizer. MotionLLaMA is developed based on three core principles. First, it establishes a powerful unified representation space through the HoMi Tokenizer. Using a single codebook, the HoMi Tokenizer in MotionLLaMA achieves reconstruction accuracy comparable to residual vector quantization tokenizers utilizing six codebooks, outperforming all existing single-codebook tokenizers. Second, MotionLLaMA integrates a large language model to tackle various motion-related tasks. This integration bridges various modalities, facilitating both comprehensive and intricate motion synthesis and comprehension. Third, MotionLLaMA introduces the MotionHub dataset, currently the most extensive multimodal, multitask motion dataset, which enables fine-tuning of large language models. Extensive experimental results demonstrate that MotionLLaMA not only covers the widest range of motion-related tasks but also achieves state-of-the-art (SOTA) performance in motion completion, interaction dual-person text-to-motion, and all comprehension tasks while reaching performance comparable to SOTA in the remaining tasks. The code and MotionHub dataset are publicly available.
- Abstract(参考訳): 本稿では,モーション合成と理解のための統合フレームワークであるMotionLLaMAと,HoMi Tokenizerと呼ばれる新しいフルボディモーショントークンについて紹介する。
MotionLLaMAは3つの基本原理に基づいて開発されている。
まず、HoMi Tokenizerを通じて強力な統一表現空間を確立する。
MotionLLaMAのHoMi Tokenizerは、単一のコードブックを使用して、6つのコードブックを利用する残差ベクトル量子化トークン化器に匹敵する再構成精度を達成し、既存のすべてのシングルコードブックトークン化器より優れている。
第2に、MotionLLaMAは、さまざまなモーション関連タスクに取り組むために、大きな言語モデルを統合する。
この統合は様々なモダリティを橋渡しし、包括的かつ複雑な運動合成と理解を促進する。
第3に、MotionLLaMAはMotionHubデータセットを導入した。これは、現在最も広範なマルチモーダル、マルチタスクのモーションデータセットで、大きな言語モデルの微調整を可能にする。
大規模な実験結果から,MotionLLaMAは動作関連タスクの幅広い範囲をカバーするだけでなく,動作完了における最先端(SOTA)のパフォーマンス,相互対人テキスト・トゥ・モーションの相互作用,および残りのタスクにおけるSOTAに匹敵するパフォーマンスに到達しつつ,すべての理解タスクを達成できることが示された。
コードとMotionHubデータセットが公開されている。
関連論文リスト
- MotionGPT-2: A General-Purpose Motion-Language Model for Motion Generation and Understanding [76.30210465222218]
MotionGPT-2は、MLMLM(Large Motion-Language Model)である。
LLM(Large Language Models)によるマルチモーダル制御をサポートしている。
難易度の高い3次元全体運動生成タスクに高い適応性を持つ。
論文 参考訳(メタデータ) (2024-10-29T05:25:34Z) - MotionCraft: Crafting Whole-Body Motion with Plug-and-Play Multimodal Controls [30.487510829107908]
プラグ・アンド・プレイ・マルチモーダル制御による全身動作を実現する統合拡散変換器であるMotionCraftを提案する。
我々のフレームワークは、テキスト・ツー・モーション・セマンティック・トレーニングの第1段階から始まる粗大な訓練戦略を採用している。
本稿では,SMPL-Xフォーマットを統一したマルチモーダル全体モーション生成ベンチマークMC-Benchを紹介する。
論文 参考訳(メタデータ) (2024-07-30T18:57:06Z) - MASA: Motion-aware Masked Autoencoder with Semantic Alignment for Sign Language Recognition [94.56755080185732]
本研究では,リッチモーションキューとグローバルセマンティック情報を統合したセマンティックアライメント(MASA)を用いたMotion-Awareマスク付きオートエンコーダを提案する。
我々のフレームワークは,包括的手話表現のための局所的な動きの手がかりとグローバルな意味的特徴を同時に学習することができる。
論文 参考訳(メタデータ) (2024-05-31T08:06:05Z) - Motion-Agent: A Conversational Framework for Human Motion Generation with LLMs [67.59291068131438]
Motion-Agentは、一般的な人間の動きの生成、編集、理解のために設計された会話フレームワークである。
Motion-Agentはオープンソースの事前学習言語モデルを使用して、モーションとテキストのギャップを埋める生成エージェントであるMotionLLMを開発した。
論文 参考訳(メタデータ) (2024-05-27T09:57:51Z) - M$^3$GPT: An Advanced Multimodal, Multitask Framework for Motion Comprehension and Generation [78.77004913030285]
M$3$GPTは、理解と生成のための先進的な$textbfM$ultimodal, $textbfM$ultitaskフレームワークである。
我々は、テキスト、音楽、モーション/ダンスなどのマルチモーダルな条件信号に対して離散ベクトル量子化を用い、大きな言語モデルへのシームレスな統合を可能にした。
M$3$GPTは、様々な動作関連タスク間の接続とシナジーをモデル化することを学ぶ。
論文 参考訳(メタデータ) (2024-05-25T15:21:59Z) - FreeMotion: A Unified Framework for Number-free Text-to-Motion Synthesis [65.85686550683806]
そこで本稿では, 条件付き動作分布を用いて, 単独動作と多人数動作を統一する動き生成手法を提案する。
筆者らの枠組みに基づいて,現在ある一対一動作空間制御手法をシームレスに統合し,多対一動作の正確な制御を実現する。
論文 参考訳(メタデータ) (2024-05-24T17:57:57Z) - MoConVQ: Unified Physics-Based Motion Control via Scalable Discrete
Representations [25.630268570049708]
MoConVQは、スケーラブルな離散表現を活用する物理ベースのモーションコントロールのための新しい統合フレームワークである。
提案手法は,数十時間の動作例にまたがる大規模非構造データセットから,効果的に動作埋め込みを学習する。
論文 参考訳(メタデータ) (2023-10-16T09:09:02Z) - DiverseMotion: Towards Diverse Human Motion Generation via Discrete
Diffusion [70.33381660741861]
テキスト記述に基づく高品質な人間の動作を合成するための新しいアプローチであるDiverseMotionを提案する。
我々のDiverseMotionは、最先端のモーション品質と競争力の多様性を達成できることを示す。
論文 参考訳(メタデータ) (2023-09-04T05:43:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。