論文の概要: OmniMotion: Multimodal Motion Generation with Continuous Masked Autoregression
- arxiv url: http://arxiv.org/abs/2510.14954v1
- Date: Thu, 16 Oct 2025 17:57:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-17 21:15:14.993214
- Title: OmniMotion: Multimodal Motion Generation with Continuous Masked Autoregression
- Title(参考訳): OmniMotion:連続被写体自己回帰を用いたマルチモーダルモーション生成
- Authors: Zhe Li, Weihao Yuan, Weichao Shen, Siyu Zhu, Zilong Dong, Chang Xu,
- Abstract要約: 全体マルチモーダル・ヒューマン・モーション・ジェネレーションは2つの主要な課題を提起する。
我々は、効果的な動き生成機構を作成し、テキスト、音声、音楽などの様々なモダリティを結合的な枠組みに統合する。
本フレームワークは,テキスト・トゥ・モーション,音声・ジェスチャー,音楽・ダンスなど,従来の手法よりも優れていた。
- 参考スコア(独自算出の注目度): 30.795106931727158
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Whole-body multi-modal human motion generation poses two primary challenges: creating an effective motion generation mechanism and integrating various modalities, such as text, speech, and music, into a cohesive framework. Unlike previous methods that usually employ discrete masked modeling or autoregressive modeling, we develop a continuous masked autoregressive motion transformer, where a causal attention is performed considering the sequential nature within the human motion. Within this transformer, we introduce a gated linear attention and an RMSNorm module, which drive the transformer to pay attention to the key actions and suppress the instability caused by either the abnormal movements or the heterogeneous distributions within multi-modalities. To further enhance both the motion generation and the multimodal generalization, we employ the DiT structure to diffuse the conditions from the transformer towards the targets. To fuse different modalities, AdaLN and cross-attention are leveraged to inject the text, speech, and music signals. Experimental results demonstrate that our framework outperforms previous methods across all modalities, including text-to-motion, speech-to-gesture, and music-to-dance. The code of our method will be made public.
- Abstract(参考訳): 全体のマルチモーダルな人間の動作生成は、効果的なモーション生成機構の作成と、テキスト、スピーチ、音楽などの様々なモダリティを結合的なフレームワークに統合する、という2つの大きな課題を提起する。
通常、個別のマスク付きモデリングや自己回帰モデルを用いる従来の手法とは異なり、我々は連続的なマスク付き自己回帰運動変換器を開発し、人間の動きのシーケンシャルな性質を考慮して因果注意を行う。
この変圧器内では、ゲート状線形注意とRMSNormモジュールを導入し、変圧器はキー動作に注意を払い、複数モード内の異常な動きや不均一な分布に起因する不安定性を抑える。
運動生成と多モーダル一般化の両面をより高めるために、我々は、変換器から目標に向かって条件を拡散させるために、DiT構造を用いる。
異なるモダリティを融合させるために、AdaLNとクロスアテンションを利用してテキスト、音声、音楽信号の注入を行う。
実験により,本フレームワークは,テキスト・トゥ・モーション,音声・ジェスチャー,音楽・ダンスなど,すべてのモーダル性において,従来の手法よりも優れていたことがわかった。
私たちのメソッドのコードは公開されます。
関連論文リスト
- GENMO: A GENeralist Model for Human MOtion [64.16188966024542]
本稿では,1つのフレームワークで動作推定と生成を橋渡しする汎用人体運動モデル GENMO を提案する。
我々の重要な洞察は、出力運動が観測された条件信号を正確に満たさなければならないような制約された動き生成として運動推定を再構成することである。
我々の新しいアーキテクチャは、可変長動きと混合マルチモーダル条件(テキスト、オーディオ、ビデオ)を異なる時間間隔で処理し、柔軟な制御を提供する。
論文 参考訳(メタデータ) (2025-05-02T17:59:55Z) - Dita: Scaling Diffusion Transformer for Generalist Vision-Language-Action Policy [73.75271615101754]
本稿では,Transformerアーキテクチャを活用した拡張性のあるフレームワークであるDitaについて紹介する。
Ditaはコンテキスト内コンディショニング(context conditioning)を採用しており、歴史的観察から生の視覚トークンと識別されたアクションをきめ細やかなアライメントを可能にする。
Ditaは、さまざまなカメラパースペクティブ、観察シーン、タスク、アクションスペースの横断的なデータセットを効果的に統合する。
論文 参考訳(メタデータ) (2025-03-25T15:19:56Z) - Dynamic Motion Synthesis: Masked Audio-Text Conditioned Spatio-Temporal Transformers [13.665279127648658]
本研究は,複数モーダルに条件付き全体動き列を同時に生成する新しい動き生成フレームワークを提案する。
空間的注意機構とトークン批評家を統合することで、生成した動きの一貫性と自然性を確保することができる。
論文 参考訳(メタデータ) (2024-09-03T04:19:27Z) - MotionCraft: Crafting Whole-Body Motion with Plug-and-Play Multimodal Controls [30.487510829107908]
プラグ・アンド・プレイ・マルチモーダル制御による全身動作を実現する統合拡散変換器であるMotionCraftを提案する。
我々のフレームワークは、テキスト・ツー・モーション・セマンティック・トレーニングの第1段階から始まる粗大な訓練戦略を採用している。
本稿では,SMPL-Xフォーマットを統一したマルチモーダル全体モーション生成ベンチマークMC-Benchを紹介する。
論文 参考訳(メタデータ) (2024-07-30T18:57:06Z) - DiverseMotion: Towards Diverse Human Motion Generation via Discrete
Diffusion [70.33381660741861]
テキスト記述に基づく高品質な人間の動作を合成するための新しいアプローチであるDiverseMotionを提案する。
我々のDiverseMotionは、最先端のモーション品質と競争力の多様性を達成できることを示す。
論文 参考訳(メタデータ) (2023-09-04T05:43:48Z) - Priority-Centric Human Motion Generation in Discrete Latent Space [59.401128190423535]
テキスト・ツー・モーション生成のための優先中心運動離散拡散モデル(M2DM)を提案する。
M2DMは、コード崩壊に対処するために、グローバルな自己注意機構と正規化用語を組み込んでいる。
また、各動きトークンの重要度から決定される革新的なノイズスケジュールを用いた動き離散拡散モデルを提案する。
論文 参考訳(メタデータ) (2023-08-28T10:40:16Z) - Interactive Character Control with Auto-Regressive Motion Diffusion Models [18.727066177880708]
リアルタイム動作合成のためのA-MDM(Auto-Regressive Motion Diffusion Model)を提案する。
我々の条件拡散モデルは初期ポーズを入力とし、前者のフレームに条件付けられた連続した動きフレームを自動回帰的に生成する。
本稿では,タスク指向サンプリング,インペインティング,階層的強化学習など,対話型制御をA-MDMに組み込む一連の手法を紹介する。
論文 参考訳(メタデータ) (2023-06-01T07:48:34Z) - ActFormer: A GAN Transformer Framework towards General
Action-Conditioned 3D Human Motion Generation [16.1094669439815]
一般動作条件付き3次元モーション生成のためのGANトランスフォーマフレームワークを提案する。
我々のアプローチは、GANトレーニングスキームの下で強力なActFormer(ActFormer)によって構成される。
ActFormerは、時間的相関とトランスフォーマーエンコーダとのヒューマンインタラクションを交互にモデル化することで、自然にマルチパーソン動作に拡張することができる。
論文 参考訳(メタデータ) (2022-03-15T07:50:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。