論文の概要: Absolute Coordinates Make Motion Generation Easy
- arxiv url: http://arxiv.org/abs/2505.19377v1
- Date: Mon, 26 May 2025 00:36:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:43.079932
- Title: Absolute Coordinates Make Motion Generation Easy
- Title(参考訳): 運動生成が簡単になる絶対座標系
- Authors: Zichong Meng, Zeyu Han, Xiaogang Peng, Yiming Xie, Huaizu Jiang,
- Abstract要約: 最先端のテキスト・トゥ・モーション生成モデルは、HumanML3Dによって普及したキネマティック・アウェア、局所相対運動表現に依存している。
本稿では,大域空間における絶対的共同座標という,テキスト・トゥ・モーション生成の大幅な単純化と長期化の代替案を提案する。
- 参考スコア(独自算出の注目度): 8.153961351540834
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: State-of-the-art text-to-motion generation models rely on the kinematic-aware, local-relative motion representation popularized by HumanML3D, which encodes motion relative to the pelvis and to the previous frame with built-in redundancy. While this design simplifies training for earlier generation models, it introduces critical limitations for diffusion models and hinders applicability to downstream tasks. In this work, we revisit the motion representation and propose a radically simplified and long-abandoned alternative for text-to-motion generation: absolute joint coordinates in global space. Through systematic analysis of design choices, we show that this formulation achieves significantly higher motion fidelity, improved text alignment, and strong scalability, even with a simple Transformer backbone and no auxiliary kinematic-aware losses. Moreover, our formulation naturally supports downstream tasks such as text-driven motion control and temporal/spatial editing without additional task-specific reengineering and costly classifier guidance generation from control signals. Finally, we demonstrate promising generalization to directly generate SMPL-H mesh vertices in motion from text, laying a strong foundation for future research and motion-related applications.
- Abstract(参考訳): 最先端のテキスト・トゥ・モーション生成モデルは、HumanML3Dによって普及したキネマティック・アウェア(kiinematic-aware)な局所相対運動表現に依存しており、骨盤や前フレームに対する動きを冗長性で符号化している。
この設計は、初期モデルのトレーニングを単純化するが、拡散モデルの限界を導入し、下流タスクの適用性を阻害する。
本研究では, 動き表現を再考し, 大域空間における絶対的共同座標という, テキスト・ツー・モーション生成の根本的に単純化された, 長期にわたる代替案を提案する。
設計選択の体系的解析により,この定式化により,単純なトランスフォーマーバックボーンと補助的運動認識損失を伴わずとも,運動忠実度の向上,テキストアライメントの向上,拡張性の向上が図られた。
さらに,テキスト駆動型モーションコントロールや時間・空間編集などの下流タスクを,タスク固有の再設計や制御信号からのコストのかかる分類器ガイダンスを伴わずに自然にサポートしている。
最後に,テキストから動作中のSMPL-Hメッシュ頂点を直接生成する有望な一般化を示す。
関連論文リスト
- ReCoM: Realistic Co-Speech Motion Generation with Recurrent Embedded Transformer [58.49950218437718]
音声に同期した高忠実で一般化可能な人体動作を生成するための効率的なフレームワークであるReCoMを提案する。
Recurrent Embedded Transformer (RET)は、動的埋め込み正規化(DER)をViT(Vit)コアアーキテクチャに統合する。
モデルロバスト性を高めるため,ノイズ抵抗とクロスドメイン一般化の二重性を持つモデルに,提案したDER戦略を取り入れた。
論文 参考訳(メタデータ) (2025-03-27T16:39:40Z) - CASIM: Composite Aware Semantic Injection for Text to Motion Generation [15.53049009014166]
テキストとモーショントークンの動的対応を学習する複合認識型セマンティックインジェクション機構を提案する。
HumanML3DとKITベンチマークの実験では、CASIMは動きの質、テキスト・モーションアライメント、検索スコアを一貫して改善している。
論文 参考訳(メタデータ) (2025-02-04T07:22:07Z) - DartControl: A Diffusion-Based Autoregressive Motion Model for Real-Time Text-Driven Motion Control [12.465927271402442]
テキスト条件付きヒューマンモーション生成は、自然言語によるユーザインタラクションを可能にする。
DartControlは、リアルタイムテキスト駆動モーションコントロールのための拡散ベースの自動回帰モーションプリミティブモデルである。
本モデルは,動作履歴とテキスト入力を併用したコンパクトな動き原始空間を効果的に学習する。
論文 参考訳(メタデータ) (2024-10-07T17:58:22Z) - Motion Manifold Flow Primitives for Task-Conditioned Trajectory Generation under Complex Task-Motion Dependencies [13.422270806078924]
モーション・マニフォールド・フロー・プリミティブ(Motion Manifold Flow Primitives)は、タスク条件付き分布から運動多様体のトレーニングを分離するフレームワークである。
我々は、タスク条件付き分布を学習するために、流れマッチングモデル、最先端の条件付き深層生成モデルを用いる。
言語誘導トラジェクトリ生成タスクにおいて,多対多のテキスト-モーション対応が複雑なタスク-モーション依存性を導入する実験を行った。
論文 参考訳(メタデータ) (2024-07-29T03:53:14Z) - Learning Generalizable Human Motion Generator with Reinforcement Learning [95.62084727984808]
テキスト駆動型ヒューマンモーション生成は、コンピュータ支援コンテンツ作成において重要なタスクの1つである。
既存の方法は訓練データ中の特定の動作表現に過度に適合することが多く、一般化する能力を妨げている。
一般化可能なヒューマンモーション生成のための強化学習において,パスとエラーのパラダイムを取り入れた textbfInstructMotion を提案する。
論文 参考訳(メタデータ) (2024-05-24T13:29:12Z) - Motion Flow Matching for Human Motion Synthesis and Editing [75.13665467944314]
本研究では,効率的なサンプリングと効率性を備えた人体運動生成のための新しい生成モデルであるemphMotion Flow Matchingを提案する。
提案手法は, 従来の拡散モデルにおいて, サンプリングの複雑さを1000ステップから10ステップに減らし, テキスト・ツー・モーション・ジェネレーション・ベンチマークやアクション・ツー・モーション・ジェネレーション・ベンチマークで同等の性能を実現する。
論文 参考訳(メタデータ) (2023-12-14T12:57:35Z) - TLControl: Trajectory and Language Control for Human Motion Synthesis [68.09806223962323]
本稿では,人間のリアルな動き合成のための新しい手法であるTLControlを提案する。
低レベルのTrajectoryと高レベルのLanguage semanticsコントロールが組み込まれている。
インタラクティブで高品質なアニメーション生成には実用的である。
論文 参考訳(メタデータ) (2023-11-28T18:54:16Z) - Interactive Character Control with Auto-Regressive Motion Diffusion Models [18.727066177880708]
リアルタイム動作合成のためのA-MDM(Auto-Regressive Motion Diffusion Model)を提案する。
我々の条件拡散モデルは初期ポーズを入力とし、前者のフレームに条件付けられた連続した動きフレームを自動回帰的に生成する。
本稿では,タスク指向サンプリング,インペインティング,階層的強化学習など,対話型制御をA-MDMに組み込む一連の手法を紹介する。
論文 参考訳(メタデータ) (2023-06-01T07:48:34Z) - Text-driven Video Prediction [83.04845684117835]
テキスト駆動型ビデオ予測(TVP)と呼ばれる新しいタスクを提案する。
本課題は,最初のフレームとテキストキャプションを入力として,以下のフレームを合成することを目的とする。
進行動作情報に対する因果推論におけるテキストの能力を調べるため、我々のTVPフレームワークはテキスト推論モジュール(TIM)を含む。
論文 参考訳(メタデータ) (2022-10-06T12:43:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。