論文の概要: M$^3$GPT: An Advanced Multimodal, Multitask Framework for Motion Comprehension and Generation
- arxiv url: http://arxiv.org/abs/2405.16273v3
- Date: Wed, 29 May 2024 11:46:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-30 11:33:46.801043
- Title: M$^3$GPT: An Advanced Multimodal, Multitask Framework for Motion Comprehension and Generation
- Title(参考訳): M$^3$GPT:モーション理解と生成のための高度なマルチモーダルマルチタスクフレームワーク
- Authors: Mingshuang Luo, Ruibing Hou, Hong Chang, Zimo Liu, Yaowei Wang, Shiguang Shan,
- Abstract要約: M$3$GPTは、理解と生成のための先進的な$textbfM$ultimodal, $textbfM$ultitaskフレームワークである。
我々は、テキスト、音楽、モーション/ダンスなどのマルチモーダル制御および生成信号に離散ベクトル量子化を用いる。
M$3$GPTは、様々な動作関連タスク間の接続とシナジーをモデル化することを学ぶ。
- 参考スコア(独自算出の注目度): 80.20191044840564
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents M$^3$GPT, an advanced $\textbf{M}$ultimodal, $\textbf{M}$ultitask framework for $\textbf{M}$otion comprehension and generation. M$^3$GPT operates on three fundamental principles. The first focuses on creating a unified representation space for various motion-relevant modalities. We employ discrete vector quantization for multimodal control and generation signals, such as text, music and motion/dance, enabling seamless integration into a large language model (LLM) with a single vocabulary. The second involves modeling model generation directly in the raw motion space. This strategy circumvents the information loss associated with discrete tokenizer, resulting in more detailed and comprehensive model generation. Third, M$^3$GPT learns to model the connections and synergies among various motion-relevant tasks. Text, the most familiar and well-understood modality for LLMs, is utilized as a bridge to establish connections between different motion tasks, facilitating mutual reinforcement. To our knowledge, M$^3$GPT is the first model capable of comprehending and generating motions based on multiple signals. Extensive experiments highlight M$^3$GPT's superior performance across various motion-relevant tasks and its powerful zero-shot generalization capabilities for extremely challenging tasks.
- Abstract(参考訳): 本稿では、M$^3$GPT, a Advanced $\textbf{M}$ultimodal, $\textbf{M}$ultitask framework for $\textbf{M}$otion comprehension and generationについて述べる。
M$3$GPTは3つの基本原理に基づいている。
第一の焦点は、様々な動き関連モダリティのための統一表現空間を作ることである。
我々は、テキスト、音楽、モーション/ダンスなどのマルチモーダル制御および生成信号に対して離散ベクトル量子化を用い、単一の語彙で大きな言語モデル(LLM)へのシームレスな統合を可能にする。
2つ目は、原動空間でモデル生成を直接モデル化することである。
この戦略は、離散トークン化器に関連する情報損失を回避し、より詳細で包括的なモデル生成をもたらす。
第3に、M$^3$GPTは様々な動き関連タスク間の接続とシナジーをモデル化することを学ぶ。
LLMの最も親しみやすくよく理解されたモダリティであるテキストは、異なる動作タスク間の接続を確立するブリッジとして利用され、相互強化を容易にする。
我々の知る限り、M$^3$GPTは複数の信号に基づいて動きを解釈・生成できる最初のモデルである。
大規模な実験では、様々な動作関連タスクにまたがるM$^3$GPTの優れた性能と、非常に困難なタスクに対する強力なゼロショットの一般化能力を強調している。
関連論文リスト
- Discrete Multimodal Transformers with a Pretrained Large Language Model for Mixed-Supervision Speech Processing [17.92378239787507]
DMLM(Decoder-only Discrete Multimodal Language Model)を提案する。
DMLMは、複数のタスク(ASR、T2S、S2TTなど)とモダリティ(テキスト、音声、ビジョン)に柔軟に適用できる。
その結果,DMLMは複数のタスクやデータセットにまたがって,教師なしと教師なしのトレーニングの組み合わせによって大きなメリットがあることがわかった。
論文 参考訳(メタデータ) (2024-06-04T20:08:25Z) - Deciphering Movement: Unified Trajectory Generation Model for Multi-Agent [53.637837706712794]
任意の軌道をマスク入力として処理する統一軌道生成モデルUniTrajを提案する。
具体的には,空間特徴抽出のためのトランスフォーマーエンコーダ内に埋め込まれたゴースト空間マスキング(GSM)モジュールを導入する。
バスケットボール-U,サッカー-U,サッカー-Uの3つの実用的なスポーツゲームデータセットをベンチマークして評価を行った。
論文 参考訳(メタデータ) (2024-05-27T22:15:23Z) - MotionLLM: Multimodal Motion-Language Learning with Large Language Models [69.5875073447454]
我々は,シングルヒューマン,マルチヒューマンモーション生成およびモーションキャプションを実現するために,MotionLLMを提案する。
具体的には、動作を離散LLM理解可能なトークンにエンコードし、量子化し、その結果、動作トークンとテキストトークンの両方からなる統一語彙が生成される。
我々のアプローチはスケーラブルで柔軟性があり、シングルヒューマンモーションの自動回帰生成によるマルチヒューマンモーション生成を容易に拡張できる。
論文 参考訳(メタデータ) (2024-05-27T09:57:51Z) - Large Motion Model for Unified Multi-Modal Motion Generation [50.56268006354396]
Large Motion Model (LMM) は、動き中心のマルチモーダルフレームワークであり、メインストリームのモーション生成タスクをジェネラリストモデルに統合する。
LMMは3つの原則的な側面からこれらの課題に取り組む。
論文 参考訳(メタデータ) (2024-04-01T17:55:11Z) - SPHINX: The Joint Mixing of Weights, Tasks, and Visual Embeddings for
Multi-modal Large Language Models [86.478087039015]
モデル重み、チューニングタスク、視覚埋め込みを併用した多目的多モード大言語モデル(MLLM)を提案する。
提案したジョイントミキシングに基づいて,高解像度画像のきめ細かい外観をより正確に捉えるための効率的な手法を提案する。
今後のMLLM研究におけるジョイントミキシングの探求に光を当てることを願っている。
論文 参考訳(メタデータ) (2023-11-13T18:59:47Z) - MoConVQ: Unified Physics-Based Motion Control via Scalable Discrete
Representations [25.630268570049708]
MoConVQは、スケーラブルな離散表現を活用する物理ベースのモーションコントロールのための新しい統合フレームワークである。
提案手法は,数十時間の動作例にまたがる大規模非構造データセットから,効果的に動作埋め込みを学習する。
論文 参考訳(メタデータ) (2023-10-16T09:09:02Z) - All in One: Exploring Unified Vision-Language Tracking with Multi-Modal
Alignment [23.486297020327257]
現在の視覚言語追跡フレームワークは、視覚特徴抽出器、言語特徴抽出器、融合モデルという3つの部分から構成されている。
本稿では,一貫したトランスフォーマーバックボーンを採用することで,共同特徴抽出とインタラクションを学習するオールインワンフレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-07T03:51:21Z) - mPLUG-2: A Modularized Multi-modal Foundation Model Across Text, Image
and Video [89.19867891570945]
mPLUG-2は、マルチモーダル事前訓練のためのモジュール化された設計を備えた新しい統一パラダイムである。
モダリティ協力のための共通普遍加群を共有し、モダリティの絡み合いを扱うために異なるモダリティ加群を切り離す。
テキスト、画像、ビデオを含むすべてのモダリティの異なる理解タスクと生成タスクのために、異なるモジュールを選択することは柔軟です。
論文 参考訳(メタデータ) (2023-02-01T12:40:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。