論文の概要: X-MoGen: Unified Motion Generation across Humans and Animals
- arxiv url: http://arxiv.org/abs/2508.05162v1
- Date: Thu, 07 Aug 2025 08:51:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-08 21:11:55.671597
- Title: X-MoGen: Unified Motion Generation across Humans and Animals
- Title(参考訳): X-MoGen:人間と動物で統一されたモーションジェネレーション
- Authors: Xuan Wang, Kai Ruan, Liyang Qian, Zhizhi Guo, Chang Su, Gaoang Wang,
- Abstract要約: X-MoGenは、人間と動物の両方をカバーするクロス種テキスト駆動モーション生成のための最初の統一されたフレームワークである。
我々は115種の大規模データセットと119kのモーションシーケンスを構築し、共同トレーニングのための共有骨格トポロジーの下で人間と動物の動きを統合する。
UniMo4Dの実験では、X-MoGenは目に見える種と目に見えない種の両方で最先端の手法より優れていることが示されている。
- 参考スコア(独自算出の注目度): 9.967329240441844
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-driven motion generation has attracted increasing attention due to its broad applications in virtual reality, animation, and robotics. While existing methods typically model human and animal motion separately, a joint cross-species approach offers key advantages, such as a unified representation and improved generalization. However, morphological differences across species remain a key challenge, often compromising motion plausibility. To address this, we propose \textbf{X-MoGen}, the first unified framework for cross-species text-driven motion generation covering both humans and animals. X-MoGen adopts a two-stage architecture. First, a conditional graph variational autoencoder learns canonical T-pose priors, while an autoencoder encodes motion into a shared latent space regularized by morphological loss. In the second stage, we perform masked motion modeling to generate motion embeddings conditioned on textual descriptions. During training, a morphological consistency module is employed to promote skeletal plausibility across species. To support unified modeling, we construct \textbf{UniMo4D}, a large-scale dataset of 115 species and 119k motion sequences, which integrates human and animal motions under a shared skeletal topology for joint training. Extensive experiments on UniMo4D demonstrate that X-MoGen outperforms state-of-the-art methods on both seen and unseen species.
- Abstract(参考訳): テキスト駆動モーション生成は、仮想現実、アニメーション、ロボット工学に広く応用されているため、注目を集めている。
既存の手法は通常、人間と動物の運動を別々にモデル化するが、共同種交雑アプローチは、統一された表現や一般化の改善といった重要な利点を提供する。
しかし、種間の形態的差異は重要な課題であり、しばしば運動の可塑性を損なう。
そこで本研究では,人間と動物の両方を対象とするクロスタイプテキスト駆動型モーション生成のための,最初の統合フレームワークである \textbf{X-MoGen} を提案する。
X-MoGenは2段階アーキテクチャを採用している。
まず、条件付きグラフ変分オートエンコーダは、標準的T位置前処理を学習し、オートエンコーダは、形態的損失によって正規化された共有潜在空間に動きを符号化する。
第2段階では,テキスト記述に基づく動作埋め込みを生成するために,マスクを用いた動作モデリングを行う。
トレーニング中、形態的整合性モジュールは、種間の骨格の可塑性を促進するために使用される。
統合モデリングを支援するために,115種の大規模データセットと119kのモーションシーケンスを構築した。
UniMo4Dの大規模な実験は、X-MoGenが観察された種と見えない種の両方で最先端の手法より優れていることを示した。
関連論文リスト
- Behave Your Motion: Habit-preserved Cross-category Animal Motion Transfer [13.123185551606143]
動物の動きは種固有の行動習慣を具現化しており、アニメーションやバーチャルリアリティーの応用において、カテゴリー間での運動の移動が重要で複雑なタスクとなっている。
動物間移動のための新しい習慣保存型移動伝達フレームワークを提案する。
DeformingThings4D-sklデータセットは骨格結合を持つ4倍のデータセットであり、広範な実験と定量的解析を行う。
論文 参考訳(メタデータ) (2025-07-10T03:25:50Z) - SynMotion: Semantic-Visual Adaptation for Motion Customized Video Generation [56.90807453045657]
SynMotion(シンモクション)は、セマンティックガイダンスと視覚適応を併用した動画生成モデルである。
意味レベルでは、主観と動きの表現をアンタングルする二項意味理解機構を導入する。
視覚レベルでは、効率的なモーションアダプタをトレーニング済みのビデオ生成モデルに統合し、動きの忠実度と時間的コヒーレンスを高める。
論文 参考訳(メタデータ) (2025-06-30T10:09:32Z) - UniMoGen: Universal Motion Generation [1.7749928168018234]
骨格非依存運動生成のための新しいUNet拡散モデルUniMoGenを紹介する。
UniMoGenは、予め定義された最大関節数を必要とせずに、多様な文字のモーションデータに基づいてトレーニングすることができる。
UniMoGenの主な特徴は、スタイルと軌道入力による制御性、過去のフレームからの動作を継続する機能である。
論文 参考訳(メタデータ) (2025-05-28T00:03:39Z) - GENMO: A GENeralist Model for Human MOtion [64.16188966024542]
本稿では,1つのフレームワークで動作推定と生成を橋渡しする汎用人体運動モデル GENMO を提案する。
我々の重要な洞察は、出力運動が観測された条件信号を正確に満たさなければならないような制約された動き生成として運動推定を再構成することである。
我々の新しいアーキテクチャは、可変長動きと混合マルチモーダル条件(テキスト、オーディオ、ビデオ)を異なる時間間隔で処理し、柔軟な制御を提供する。
論文 参考訳(メタデータ) (2025-05-02T17:59:55Z) - How to Move Your Dragon: Text-to-Motion Synthesis for Large-Vocabulary Objects [37.10752536568922]
多様なオブジェクトカテゴリのためのモーション合成は、3Dコンテンツ作成に大きな可能性を秘めている。
我々は、広範囲の高品質なモーションやアノテーションを含む包括的なモーションデータセットの欠如に対処する。
本稿では,一貫したダイナミクスを保ちながら,多様な動作データを生成するrig拡張手法を提案する。
論文 参考訳(メタデータ) (2025-03-06T09:39:09Z) - OmniMotionGPT: Animal Motion Generation with Limited Data [70.35662376853163]
最初のテキストアニマルモーションデータセットであるAnimalML3Dを紹介した。
我々は,動物データに基づくヒトの動き生成ベースラインのトレーニング結果よりも定量的かつ質的に,高い多様性と忠実さで動物の動きを生成することができる。
論文 参考訳(メタデータ) (2023-11-30T07:14:00Z) - Priority-Centric Human Motion Generation in Discrete Latent Space [59.401128190423535]
テキスト・ツー・モーション生成のための優先中心運動離散拡散モデル(M2DM)を提案する。
M2DMは、コード崩壊に対処するために、グローバルな自己注意機構と正規化用語を組み込んでいる。
また、各動きトークンの重要度から決定される革新的なノイズスケジュールを用いた動き離散拡散モデルを提案する。
論文 参考訳(メタデータ) (2023-08-28T10:40:16Z) - Executing your Commands via Motion Diffusion in Latent Space [51.64652463205012]
本研究では,動作遅延に基づく拡散モデル(MLD)を提案し,条件付き入力に対応する鮮明な動き列を生成する。
我々のMDDは、広範囲な人体運動生成タスクにおいて、最先端の手法よりも大幅に改善されている。
論文 参考訳(メタデータ) (2022-12-08T03:07:00Z) - MoDi: Unconditional Motion Synthesis from Diverse Data [51.676055380546494]
多様な動きを合成する無条件生成モデルであるMoDiを提案する。
我々のモデルは、多様な、構造化されていない、ラベルなしのモーションデータセットから完全に教師なしの設定で訓練されている。
データセットに構造が欠けているにもかかわらず、潜在空間は意味的にクラスタ化可能であることを示す。
論文 参考訳(メタデータ) (2022-06-16T09:06:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。