論文の概要: MotionVerse: A Unified Multimodal Framework for Motion Comprehension, Generation and Editing
- arxiv url: http://arxiv.org/abs/2509.23635v1
- Date: Sun, 28 Sep 2025 04:20:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.341596
- Title: MotionVerse: A Unified Multimodal Framework for Motion Comprehension, Generation and Editing
- Title(参考訳): MotionVerse: モーション理解、生成、編集のための統一されたマルチモーダルフレームワーク
- Authors: Ruibing Hou, Mingshuang Luo, Hongyu Pan, Hong Chang, Shiguang Shan,
- Abstract要約: MotionVerseは、シングルパーソンとマルチパーソンの両方のシナリオで人間の動作を理解し、生成し、編集するフレームワークである。
我々は、連続的な動き列をマルチストリーム離散トークンに変換する残差量子化を伴う動きトークン化器を用いる。
また、残留トークンストリームの符号化を時間的に停滞させる textitDelay Parallel Modeling 戦略も導入する。
- 参考スコア(独自算出の注目度): 53.98607267063729
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper proposes MotionVerse, a unified framework that harnesses the capabilities of Large Language Models (LLMs) to comprehend, generate, and edit human motion in both single-person and multi-person scenarios. To efficiently represent motion data, we employ a motion tokenizer with residual quantization, which converts continuous motion sequences into multi-stream discrete tokens. Furthermore, we introduce a \textit{Delay Parallel} Modeling strategy, which temporally staggers the encoding of residual token streams. This design enables LLMs to effectively capture inter-stream dependencies while maintaining computational efficiency comparable to single-stream modeling. Moreover, to alleviate modality interference between motion and language, we design a \textit{dual-tower architecture} with modality-specific parameters, ensuring stable integration of motion information for both comprehension and generation tasks. Comprehensive ablation studies demonstrate the effectiveness of each component in MotionVerse, and extensive experiments showcase its superior performance across a wide range of motion-relevant tasks.
- Abstract(参考訳): 本稿では,Large Language Models (LLMs) の機能を利用する統合フレームワークであるMotionVerseを提案する。
動きデータを効率よく表現するために、連続的な動き列をマルチストリーム離散トークンに変換する残量子化を用いた動きトークン化器を用いる。
さらに,残留トークンストリームの符号化を時間的に停滞させる<textit{Delay Parallel} Modeling 戦略を導入する。
この設計により、LLMはシングルストリームモデリングに匹敵する計算効率を維持しながら、ストリーム間の依存関係を効果的にキャプチャできる。
さらに,運動と言語間のモータリティ干渉を軽減するため,モータリティ固有のパラメータを持つ‘textit{dual-tower architecture} を設計し,理解タスクと生成タスクの両方において動作情報の安定した統合を確保する。
総合的アブレーション研究は、MotionVerseにおける各コンポーネントの有効性を実証し、広範囲にわたる動作関連タスクにおいて、その優れた性能を示す広範な実験を行った。
関連論文リスト
- Unified Multi-Modal Interactive & Reactive 3D Motion Generation via Rectified Flow [17.95248351806955]
マルチモーダルな2人動作生成のためのフレームワークであるDualFlowを紹介する。
テキスト、音楽、先行の動作シーケンスを含む様々な入力で動きを合成する。
時間的にコヒーレントでリズミカルに同期した動作を生成し、マルチモーダルな人間の動作生成において最先端の動作を設定する。
論文 参考訳(メタデータ) (2025-09-28T22:36:18Z) - MotionFlux: Efficient Text-Guided Motion Generation through Rectified Flow Matching and Preference Alignment [38.42799902378583]
仮想キャラクタとエンボディエージェントのアニメーションにはモーション生成が不可欠である。
TAPOとMotionFLUXは、セマンティック一貫性とモーション品質の両方において最先端のアプローチより優れている統一システムを形成する。
論文 参考訳(メタデータ) (2025-08-27T02:45:09Z) - GENMO: A GENeralist Model for Human MOtion [64.16188966024542]
本稿では,1つのフレームワークで動作推定と生成を橋渡しする汎用人体運動モデル GENMO を提案する。
我々の重要な洞察は、出力運動が観測された条件信号を正確に満たさなければならないような制約された動き生成として運動推定を再構成することである。
我々の新しいアーキテクチャは、可変長動きと混合マルチモーダル条件(テキスト、オーディオ、ビデオ)を異なる時間間隔で処理し、柔軟な制御を提供する。
論文 参考訳(メタデータ) (2025-05-02T17:59:55Z) - VersatileMotion: A Unified Framework for Motion Synthesis and Comprehension [26.172040706657235]
本稿では,VQ-VAEとフローマッチングを組み合わせた新しいモーショントークンと,自動回帰変換器のバックボーンを組み合わせた統合モーションLLMであるVersatileMotionを紹介する。
VersatileMotionは、単一のフレームワークで単一エージェントとマルチエージェントの動作を処理する最初の方法であり、7つのタスクで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-11-26T11:28:01Z) - Dynamic Motion Synthesis: Masked Audio-Text Conditioned Spatio-Temporal Transformers [13.665279127648658]
本研究は,複数モーダルに条件付き全体動き列を同時に生成する新しい動き生成フレームワークを提案する。
空間的注意機構とトークン批評家を統合することで、生成した動きの一貫性と自然性を確保することができる。
論文 参考訳(メタデータ) (2024-09-03T04:19:27Z) - FreeMotion: A Unified Framework for Number-free Text-to-Motion Synthesis [65.85686550683806]
そこで本稿では, 条件付き動作分布を用いて, 単独動作と多人数動作を統一する動き生成手法を提案する。
筆者らの枠組みに基づいて,現在ある一対一動作空間制御手法をシームレスに統合し,多対一動作の正確な制御を実現する。
論文 参考訳(メタデータ) (2024-05-24T17:57:57Z) - Motion Flow Matching for Human Motion Synthesis and Editing [75.13665467944314]
本研究では,効率的なサンプリングと効率性を備えた人体運動生成のための新しい生成モデルであるemphMotion Flow Matchingを提案する。
提案手法は, 従来の拡散モデルにおいて, サンプリングの複雑さを1000ステップから10ステップに減らし, テキスト・ツー・モーション・ジェネレーション・ベンチマークやアクション・ツー・モーション・ジェネレーション・ベンチマークで同等の性能を実現する。
論文 参考訳(メタデータ) (2023-12-14T12:57:35Z) - DiverseMotion: Towards Diverse Human Motion Generation via Discrete
Diffusion [70.33381660741861]
テキスト記述に基づく高品質な人間の動作を合成するための新しいアプローチであるDiverseMotionを提案する。
我々のDiverseMotionは、最先端のモーション品質と競争力の多様性を達成できることを示す。
論文 参考訳(メタデータ) (2023-09-04T05:43:48Z) - Interactive Character Control with Auto-Regressive Motion Diffusion Models [18.727066177880708]
リアルタイム動作合成のためのA-MDM(Auto-Regressive Motion Diffusion Model)を提案する。
我々の条件拡散モデルは初期ポーズを入力とし、前者のフレームに条件付けられた連続した動きフレームを自動回帰的に生成する。
本稿では,タスク指向サンプリング,インペインティング,階層的強化学習など,対話型制御をA-MDMに組み込む一連の手法を紹介する。
論文 参考訳(メタデータ) (2023-06-01T07:48:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。