論文の概要: OmniMotion-X: Versatile Multimodal Whole-Body Motion Generation
- arxiv url: http://arxiv.org/abs/2510.19789v1
- Date: Wed, 22 Oct 2025 17:25:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:16.228299
- Title: OmniMotion-X: Versatile Multimodal Whole-Body Motion Generation
- Title(参考訳): OmniMotion-X:Versatile Multimodal Whole-Body Motion Generation
- Authors: Guowei Xu, Yuxuan Bian, Ailing Zeng, Mingyi Shi, Shaoli Huang, Wen Li, Lixin Duan, Qiang Xu,
- Abstract要約: 本稿では,全身動作生成のための汎用フレームワークであるOmniMotion-Xを紹介する。
OmniMotion-Xは、テキスト・トゥ・モーション、音楽・トゥ・ダンス、音声・トゥ・ジェスチャなど、多様なマルチモーダルタスクを効率的にサポートする。
高品質なマルチモーダルトレーニングを実現するため,これまでで最大の統合マルチモーダルモーションデータセットであるOmniMoCap-Xを構築した。
- 参考スコア(独自算出の注目度): 52.579531290307926
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper introduces OmniMotion-X, a versatile multimodal framework for whole-body human motion generation, leveraging an autoregressive diffusion transformer in a unified sequence-to-sequence manner. OmniMotion-X efficiently supports diverse multimodal tasks, including text-to-motion, music-to-dance, speech-to-gesture, and global spatial-temporal control scenarios (e.g., motion prediction, in-betweening, completion, and joint/trajectory-guided synthesis), as well as flexible combinations of these tasks. Specifically, we propose the use of reference motion as a novel conditioning signal, substantially enhancing the consistency of generated content, style, and temporal dynamics crucial for realistic animations. To handle multimodal conflicts, we introduce a progressive weak-to-strong mixed-condition training strategy. To enable high-quality multimodal training, we construct OmniMoCap-X, the largest unified multimodal motion dataset to date, integrating 28 publicly available MoCap sources across 10 distinct tasks, standardized to the SMPL-X format at 30 fps. To ensure detailed and consistent annotations, we render sequences into videos and use GPT-4o to automatically generate structured and hierarchical captions, capturing both low-level actions and high-level semantics. Extensive experimental evaluations confirm that OmniMotion-X significantly surpasses existing methods, demonstrating state-of-the-art performance across multiple multimodal tasks and enabling the interactive generation of realistic, coherent, and controllable long-duration motions.
- Abstract(参考訳): 本稿では, 自己回帰拡散変換器を一貫したシーケンス・ツー・シーケンス方式で活用し, 全身動作生成のための汎用マルチモーダルフレームワークであるOmniMotion-Xを提案する。
OmniMotion-Xは、テキスト・トゥ・モーション、音楽・ツー・ダンス、音声・ジェスチャー、グローバルな時空間制御シナリオ(例えば、モーション予測、イン・ベントワイニング、完了、関節/軌道誘導合成)を含む多様なマルチモーダルタスクを効率的にサポートし、これらのタスクの柔軟な組み合わせもサポートする。
具体的には,レファレンスモーションを新しい条件付け信号として用いることで,現実的なアニメーションに不可欠な生成内容,スタイル,時間的ダイナミクスの一貫性を大幅に向上させる。
マルチモーダル・コンフリクトに対処するために, プログレッシブ・アンド・ストロング・ミックスコンディション・トレーニング戦略を導入する。
高品質なマルチモーダルトレーニングを実現するため,これまでで最大規模の統一マルチモーダルモーションデータセットであるOmniMoCap-Xを構築した。
詳細かつ一貫性のあるアノテーションを保証するため、ビデオにシーケンスを描画し、GPT-4oを使用して構造化された階層的なキャプションを自動的に生成し、低レベルのアクションと高レベルのセマンティクスの両方をキャプチャする。
OmniMotion-Xは既存の手法をはるかに上回り、複数のマルチモーダルタスクにまたがる最先端のパフォーマンスを示し、リアルでコヒーレントで制御可能な長期動作のインタラクティブな生成を可能にする。
関連論文リスト
- MotionVerse: A Unified Multimodal Framework for Motion Comprehension, Generation and Editing [53.98607267063729]
MotionVerseは、シングルパーソンとマルチパーソンの両方のシナリオで人間の動作を理解し、生成し、編集するフレームワークである。
我々は、連続的な動き列をマルチストリーム離散トークンに変換する残差量子化を伴う動きトークン化器を用いる。
また、残留トークンストリームの符号化を時間的に停滞させる textitDelay Parallel Modeling 戦略も導入する。
論文 参考訳(メタデータ) (2025-09-28T04:20:56Z) - GENMO: A GENeralist Model for Human MOtion [64.16188966024542]
本稿では,1つのフレームワークで動作推定と生成を橋渡しする汎用人体運動モデル GENMO を提案する。
我々の重要な洞察は、出力運動が観測された条件信号を正確に満たさなければならないような制約された動き生成として運動推定を再構成することである。
我々の新しいアーキテクチャは、可変長動きと混合マルチモーダル条件(テキスト、オーディオ、ビデオ)を異なる時間間隔で処理し、柔軟な制御を提供する。
論文 参考訳(メタデータ) (2025-05-02T17:59:55Z) - VersatileMotion: A Unified Framework for Motion Synthesis and Comprehension [26.172040706657235]
本稿では,VQ-VAEとフローマッチングを組み合わせた新しいモーショントークンと,自動回帰変換器のバックボーンを組み合わせた統合モーションLLMであるVersatileMotionを紹介する。
VersatileMotionは、単一のフレームワークで単一エージェントとマルチエージェントの動作を処理する最初の方法であり、7つのタスクで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-11-26T11:28:01Z) - MotionGPT-2: A General-Purpose Motion-Language Model for Motion Generation and Understanding [76.30210465222218]
MotionGPT-2は、MLMLM(Large Motion-Language Model)である。
LLM(Large Language Models)によるマルチモーダル制御をサポートしている。
難易度の高い3次元全体運動生成タスクに高い適応性を持つ。
論文 参考訳(メタデータ) (2024-10-29T05:25:34Z) - MotionCraft: Crafting Whole-Body Motion with Plug-and-Play Multimodal Controls [30.487510829107908]
プラグ・アンド・プレイ・マルチモーダル制御による全身動作を実現する統合拡散変換器であるMotionCraftを提案する。
我々のフレームワークは、テキスト・ツー・モーション・セマンティック・トレーニングの第1段階から始まる粗大な訓練戦略を採用している。
本稿では,SMPL-Xフォーマットを統一したマルチモーダル全体モーション生成ベンチマークMC-Benchを紹介する。
論文 参考訳(メタデータ) (2024-07-30T18:57:06Z) - DiverseMotion: Towards Diverse Human Motion Generation via Discrete
Diffusion [70.33381660741861]
テキスト記述に基づく高品質な人間の動作を合成するための新しいアプローチであるDiverseMotionを提案する。
我々のDiverseMotionは、最先端のモーション品質と競争力の多様性を達成できることを示す。
論文 参考訳(メタデータ) (2023-09-04T05:43:48Z) - Interactive Character Control with Auto-Regressive Motion Diffusion Models [18.727066177880708]
リアルタイム動作合成のためのA-MDM(Auto-Regressive Motion Diffusion Model)を提案する。
我々の条件拡散モデルは初期ポーズを入力とし、前者のフレームに条件付けられた連続した動きフレームを自動回帰的に生成する。
本稿では,タスク指向サンプリング,インペインティング,階層的強化学習など,対話型制御をA-MDMに組み込む一連の手法を紹介する。
論文 参考訳(メタデータ) (2023-06-01T07:48:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。