Fugu-MT 論文翻訳(概要): $M^3$GPT: An Advanced Multimodal, Multitask Framework for Motion Comprehension and Generation

論文の概要: $M^3$GPT: An Advanced Multimodal, Multitask Framework for Motion Comprehension and Generation

arxiv url: http://arxiv.org/abs/2405.16273v1
Date: Sat, 25 May 2024 15:21:59 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-28 22:07:19.374255
Title: $M^3$GPT: An Advanced Multimodal, Multitask Framework for Motion Comprehension and Generation
Title（参考訳）: M^3$GPT:モーション理解と生成のための高度なマルチモーダルマルチタスクフレームワーク
Authors: Mingshuang Luo, Ruibing Hou, Hong Chang, Zimo Liu, Yaowei Wang, Shiguang Shan,
Abstract要約: M3$GPTは、理解と生成のための先進的な textbfMultimodal, textbfMultitaskフレームワークである。我々は、テキスト、音楽、モーション/ダンスなどのマルチモーダル制御および生成信号に離散ベクトル量子化を用いる。 M3$GPTは、さまざまなモーション関連タスク間の接続とシナジーをモデル化することを学ぶ。
参考スコア（独自算出の注目度）: 80.20191044840564
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This paper presents $M^3$GPT, an advanced \textbf{M}ultimodal, \textbf{M}ultitask framework for \textbf{M}otion comprehension and generation. $M^3$GPT operates on three fundamental principles. The first focuses on creating a unified representation space for various motion-relevant modalities. We employ discrete vector quantization for multimodal control and generation signals, such as text, music and motion/dance, enabling seamless integration into a large language model (LLM) with a single vocabulary. The second involves modeling model generation directly in the raw motion space. This strategy circumvents the information loss associated with discrete tokenizer, resulting in more detailed and comprehensive model generation. Third, $M^3$GPT learns to model the connections and synergies among various motion-relevant tasks. Text, the most familiar and well-understood modality for LLMs, is utilized as a bridge to establish connections between different motion tasks, facilitating mutual reinforcement. To our knowledge, $M^3$GPT is the first model capable of comprehending and generating motions based on multiple signals. Extensive experiments highlight $M^3$GPT's superior performance across various motion-relevant tasks and its powerful zero-shot generalization capabilities for extremely challenging tasks.
Abstract（参考訳）: 本稿では,先進的な \textbf{M}ultimodal, \textbf{M}ultitask framework for \textbf{M}otion comprehension and generation について述べる。 M^3$GPTは3つの基本原理で機能する。第一の焦点は、様々な動き関連モダリティのための統一表現空間を作ることである。我々は、テキスト、音楽、モーション/ダンスなどのマルチモーダル制御および生成信号に対して離散ベクトル量子化を用い、単一の語彙で大きな言語モデル(LLM)へのシームレスな統合を可能にする。 2つ目は、原動空間でモデル生成を直接モデル化することである。この戦略は、離散トークン化器に関連する情報損失を回避し、より詳細で包括的なモデル生成をもたらす。第3に、M^3$GPTは様々な動き関連タスク間の接続とシナジーをモデル化することを学ぶ。 LLMの最も親しみやすくよく理解されたモダリティであるテキストは、異なる動作タスク間の接続を確立するブリッジとして利用され、相互強化を容易にする。我々の知る限り、M^3$GPTは複数の信号に基づいて動きを解釈・生成できる最初のモデルである。大規模な実験では、様々な動作関連タスクにまたがるM^3$GPTの優れた性能と、非常に困難なタスクに対する強力なゼロショット一般化能力が強調されている。

関連論文リスト

EchoMimicV3: 1.3B Parameters are All You Need for Unified Multi-Modal and Multi-Task Human Animation [8.214084596349744]
EchoMimicV3はマルチタスクとマルチモーダルアニメーションを統合する効率的なフレームワークである。最小のモデルサイズが13億のEchoMimicV3は、定量評価と定性評価の両方で競合性能を達成する。
論文参考訳（メタデータ） (2025-07-05T05:36:26Z)
GenM$^3$: Generative Pretrained Multi-path Motion Model for Text Conditional Human Motion Generation [19.2804620329011]
Generative Pretrained Multi-path Motion Model (GenM$3$)は、統合された動き表現を学習するためのフレームワークである。大規模なトレーニングを可能にするため、11の高品質なモーションデータセットを統合し、統合する。 GenM$3$はHumanML3Dベンチマークで0.035の最先端のFIDを実現し、最先端のメソッドを大きなマージンで上回る。
論文参考訳（メタデータ） (2025-03-19T05:56:52Z)
SM3Det: A Unified Model for Multi-Modal Remote Sensing Object Detection [73.49799596304418]
本稿では,リモートセンシングのためのマルチモーダルデータセットとマルチタスクオブジェクト検出(M2Det)という新しいタスクを提案する。水平方向または指向方向の物体を、あらゆるセンサーから正確に検出するように設計されている。この課題は、1)マルチモーダルモデリングの管理に関わるトレードオフ、2)マルチタスク最適化の複雑さに起因する。
論文参考訳（メタデータ） (2024-12-30T02:47:51Z)
MotionLLaMA: A Unified Framework for Motion Synthesis and Comprehension [26.172040706657235]
MotionLLaMAは、モーション合成と理解のための統合されたフレームワークである。 HoMi Tokenizerは、新しいフルボディモーショントークンである。 MotionLLaMAは、動作完了、双方向のテキスト・トゥ・モーションの相互作用、およびすべての理解タスクにおける最先端(SOTA)パフォーマンスを達成する。
論文参考訳（メタデータ） (2024-11-26T11:28:01Z)
MotionGPT-2: A General-Purpose Motion-Language Model for Motion Generation and Understanding [76.30210465222218]
MotionGPT-2は、MLMLM(Large Motion-Language Model)である。 LLM(Large Language Models)によるマルチモーダル制御をサポートしている。難易度の高い3次元全体運動生成タスクに高い適応性を持つ。
論文参考訳（メタデータ） (2024-10-29T05:25:34Z)
MIO: A Foundation Model on Multimodal Tokens [74.85153216521945]
マルチモーダルトークン上に構築された新しい基礎モデルMIOを紹介する。 MIOは、エンドツーエンドの自己回帰的な方法で、音声、テキスト、画像、ビデオを理解し、生成することができる。
論文参考訳（メタデータ） (2024-09-26T09:57:16Z)
MotionCraft: Crafting Whole-Body Motion with Plug-and-Play Multimodal Controls [30.487510829107908]
プラグ・アンド・プレイ・マルチモーダル制御による全身動作を実現する統合拡散変換器であるMotionCraftを提案する。我々のフレームワークは、テキスト・ツー・モーション・セマンティック・トレーニングの第1段階から始まる粗大な訓練戦略を採用している。本稿では,SMPL-Xフォーマットを統一したマルチモーダル全体モーション生成ベンチマークMC-Benchを紹介する。
論文参考訳（メタデータ） (2024-07-30T18:57:06Z)
Deciphering Movement: Unified Trajectory Generation Model for Multi-Agent [53.637837706712794]
任意の軌道をマスク入力として処理する統一軌道生成モデルUniTrajを提案する。具体的には,空間特徴抽出のためのトランスフォーマーエンコーダ内に埋め込まれたゴースト空間マスキング(GSM)モジュールを導入する。バスケットボール-U,サッカー-U,サッカー-Uの3つの実用的なスポーツゲームデータセットをベンチマークして評価を行った。
論文参考訳（メタデータ） (2024-05-27T22:15:23Z)
Motion-Agent: A Conversational Framework for Human Motion Generation with LLMs [67.59291068131438]
Motion-Agentは、一般的な人間の動きの生成、編集、理解のために設計された会話フレームワークである。 Motion-Agentはオープンソースの事前学習言語モデルを使用して、モーションとテキストのギャップを埋める生成エージェントであるMotionLLMを開発した。
論文参考訳（メタデータ） (2024-05-27T09:57:51Z)
Large Motion Model for Unified Multi-Modal Motion Generation [50.56268006354396]
Large Motion Model (LMM) は、動き中心のマルチモーダルフレームワークであり、メインストリームのモーション生成タスクをジェネラリストモデルに統合する。 LMMは3つの原則的な側面からこれらの課題に取り組む。
論文参考訳（メタデータ） (2024-04-01T17:55:11Z)
MoConVQ: Unified Physics-Based Motion Control via Scalable Discrete Representations [25.630268570049708]
MoConVQは、スケーラブルな離散表現を活用する物理ベースのモーションコントロールのための新しい統合フレームワークである。提案手法は,数十時間の動作例にまたがる大規模非構造データセットから,効果的に動作埋め込みを学習する。
論文参考訳（メタデータ） (2023-10-16T09:09:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。