論文の概要: MotionGPT3: Human Motion as a Second Modality
- arxiv url: http://arxiv.org/abs/2506.24086v1
- Date: Mon, 30 Jun 2025 17:42:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-01 21:27:54.176599
- Title: MotionGPT3: Human Motion as a Second Modality
- Title(参考訳): MotionGPT3: 第2のモダリティとしての人間の動き
- Authors: Bingfan Zhu, Biao Jiang, Sunyi Wang, Shixiang Tang, Tao Chen, Linjie Luo, Youyi Zheng, Xin Chen,
- Abstract要約: 人間の動きを第2のモーダルとして扱うバイモーダルモーション言語モデルであるMotionGPT3を提案する。
言語知性を維持するために、テキストブランチは、事前訓練された言語モデルの本来の構造とパラメータを保持する。
本手法は,動作理解タスクと生成タスクの両方において,競合性能を実現する。
- 参考スコア(独自算出の注目度): 20.804747077748953
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Though recent advances in multimodal models have demonstrated strong capabilities and opportunities in unified understanding and generation, the development of unified motion-language models remains underexplored. To enable such models with high-fidelity human motion, two core challenges must be addressed. The first is the reconstruction gap between the continuous motion modality and discrete representation in an autoregressive manner, and the second is the degradation of language intelligence during unified training. Inspired by the mixture of experts, we propose MotionGPT3, a bimodal motion-language model that treats human motion as a second modality, decoupling motion modeling via separate model parameters and enabling both effective cross-modal interaction and efficient multimodal scaling training. To preserve language intelligence, the text branch retains the original structure and parameters of the pretrained language model, while a new motion branch is integrated via a shared attention mechanism, enabling bidirectional information flow between two modalities. We first employ a motion Variational Autoencoder (VAE) to encode raw human motion into latent representations. Based on this continuous latent space, the motion branch predicts motion latents directly from intermediate hidden states using a diffusion head, bypassing discrete tokenization. Extensive experiments show that our approach achieves competitive performance on both motion understanding and generation tasks while preserving strong language capabilities, establishing a unified bimodal motion diffusion framework within an autoregressive manner.
- Abstract(参考訳): 近年のマルチモーダルモデルの進歩は、統一的な理解と生成における強力な能力と機会を示してきたが、統一された運動言語モデルの開発はいまだ未定である。
高忠実な人間の動きでそのようなモデルを実現するには、2つの主要な課題に対処する必要がある。
1つ目は、連続的な動きのモダリティと離散表現の自己回帰的な再現のギャップであり、もう1つは、統一訓練中の言語知能の劣化である。
専門家の混在に触発されたMotionGPT3は、人間の動きを第2のモーダルとして扱うバイモーダル運動言語モデルであり、異なるモデルパラメータを介し、効果的なクロスモーダル相互作用と効率的なマルチモーダルスケーリングトレーニングを実現する。
言語インテリジェンスを維持するため、テキストブランチは事前訓練された言語モデルの本来の構造とパラメータを保持し、新しいモーションブランチは共有アテンション機構を介して統合され、2つのモード間の双方向情報フローを可能にする。
まず、動き変化オートエンコーダ(VAE)を用いて、人間の動きを潜在表現に符号化する。
この連続的な潜伏空間に基づいて、運動枝は拡散ヘッドを用いて中間隠れ状態から直接動き潜伏者を予測し、離散トークン化をバイパスする。
広汎な実験により, 動作理解と生成の両タスクにおいて, 強い言語能力を維持しながら競合性能を達成し, 自己回帰的な統合バイモーダル運動拡散フレームワークを構築した。
関連論文リスト
- Motion-R1: Chain-of-Thought Reasoning and Reinforcement Learning for Human Motion Generation [31.484189825477877]
Motion-R1は、Chain-of-Thoughtメカニズムを統合したモーション言語モデリングフレームワークである。
複雑なテキスト命令を論理的に構造化されたアクションパスに明示的に分解することで、モーションR1はモーション生成のための高レベルなセマンティックガイダンスを提供する。
複数のベンチマークデータセットに対する実験では、Motion-R1は最先端の手法と比較して、競争力や優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-06-12T05:21:43Z) - GENMO: A GENeralist Model for Human MOtion [64.16188966024542]
本稿では,1つのフレームワークで動作推定と生成を橋渡しする汎用人体運動モデル GENMO を提案する。
我々の重要な洞察は、出力運動が観測された条件信号を正確に満たさなければならないような制約された動き生成として運動推定を再構成することである。
我々の新しいアーキテクチャは、可変長動きと混合マルチモーダル条件(テキスト、オーディオ、ビデオ)を異なる時間間隔で処理し、柔軟な制御を提供する。
論文 参考訳(メタデータ) (2025-05-02T17:59:55Z) - M2D2M: Multi-Motion Generation from Text with Discrete Diffusion Models [18.125860678409804]
テキスト記述から人間の動きを生成するための新しいアプローチであるM2D2M(Multi-Motion Discrete Diffusion Models)を紹介する。
M2D2Mは、マルチモーションシーケンスを生成するという課題に順応的に対処し、一連のアクション間の動きとコヒーレンスをシームレスに遷移させる。
論文 参考訳(メタデータ) (2024-07-19T17:57:33Z) - DiverseMotion: Towards Diverse Human Motion Generation via Discrete
Diffusion [70.33381660741861]
テキスト記述に基づく高品質な人間の動作を合成するための新しいアプローチであるDiverseMotionを提案する。
我々のDiverseMotionは、最先端のモーション品質と競争力の多様性を達成できることを示す。
論文 参考訳(メタデータ) (2023-09-04T05:43:48Z) - Priority-Centric Human Motion Generation in Discrete Latent Space [59.401128190423535]
テキスト・ツー・モーション生成のための優先中心運動離散拡散モデル(M2DM)を提案する。
M2DMは、コード崩壊に対処するために、グローバルな自己注意機構と正規化用語を組み込んでいる。
また、各動きトークンの重要度から決定される革新的なノイズスケジュールを用いた動き離散拡散モデルを提案する。
論文 参考訳(メタデータ) (2023-08-28T10:40:16Z) - Persistent-Transient Duality: A Multi-mechanism Approach for Modeling
Human-Object Interaction [58.67761673662716]
人間は高度に適応可能で、異なるタスク、状況、状況を扱うために異なるモードを素早く切り替える。
人間と物体の相互作用(HOI)において、これらのモードは、(1)活動全体に対する大規模な一貫した計画、(2)タイムラインに沿って開始・終了する小規模の子どもの対話的行動の2つのメカニズムに起因していると考えられる。
本研究は、人間の動作を協調的に制御する2つの同時メカニズムをモデル化することを提案する。
論文 参考訳(メタデータ) (2023-07-24T12:21:33Z) - InterGen: Diffusion-based Multi-human Motion Generation under Complex Interactions [49.097973114627344]
動作拡散プロセスに人間と人間の相互作用を組み込んだ効果的な拡散ベースアプローチであるInterGenを提案する。
我々はまず、InterHumanという名前のマルチモーダルデータセットをコントリビュートする。これは、様々な2人インタラクションのための約107Mフレームで構成され、正確な骨格運動と23,337の自然言語記述を持つ。
本稿では,世界規模での2人のパフォーマーのグローバルな関係を明示的に定式化した対話拡散モデルにおける動作入力の表現を提案する。
論文 参考訳(メタデータ) (2023-04-12T08:12:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。