論文の概要: CoMA: Compositional Human Motion Generation with Multi-modal Agents
- arxiv url: http://arxiv.org/abs/2412.07320v1
- Date: Tue, 10 Dec 2024 09:08:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-11 14:37:07.012314
- Title: CoMA: Compositional Human Motion Generation with Multi-modal Agents
- Title(参考訳): CoMA:マルチモーダルエージェントを用いた構成的ヒューマンモーション生成
- Authors: Shanlin Sun, Gabriel De Araujo, Jiaqi Xu, Shenghan Zhou, Hanwen Zhang, Ziheng Huang, Chenyu You, Xiaohui Xie,
- Abstract要約: CoMAは複雑な人間の動きの生成、編集、理解のためのエージェントベースのソリューションである。
我々のフレームワークは、細かな指示、テキスト誘導モーション編集、自己補正による短い動きシーケンスと長い動きシーケンスの生成を可能にする。
- 参考スコア(独自算出の注目度): 22.151443524452876
- License:
- Abstract: 3D human motion generation has seen substantial advancement in recent years. While state-of-the-art approaches have improved performance significantly, they still struggle with complex and detailed motions unseen in training data, largely due to the scarcity of motion datasets and the prohibitive cost of generating new training examples. To address these challenges, we introduce CoMA, an agent-based solution for complex human motion generation, editing, and comprehension. CoMA leverages multiple collaborative agents powered by large language and vision models, alongside a mask transformer-based motion generator featuring body part-specific encoders and codebooks for fine-grained control. Our framework enables generation of both short and long motion sequences with detailed instructions, text-guided motion editing, and self-correction for improved quality. Evaluations on the HumanML3D dataset demonstrate competitive performance against state-of-the-art methods. Additionally, we create a set of context-rich, compositional, and long text prompts, where user studies show our method significantly outperforms existing approaches.
- Abstract(参考訳): 近年、人間の3次元運動生成は著しく進歩している。
最先端のアプローチではパフォーマンスが大幅に向上しているが、動きデータセットの不足と、新しいトレーニング例を生成するのが禁止されるコストのために、トレーニングデータに見つからない複雑で詳細な動きに苦慮している。
これらの課題に対処するために,複雑な人間の動きの生成,編集,理解のためのエージェントベースのソリューションであるCoMAを紹介する。
CoMAは、大きな言語とビジョンモデルを使った複数の協調エージェントと、ボディ部分固有のエンコーダと細かな制御のためのコードブックを備えたマスクトランスフォーマーベースのモーションジェネレータを活用している。
我々のフレームワークは、細かな指示、テキスト誘導モーション編集、品質向上のための自己補正を含む、短い動きシーケンスと長い動きシーケンスの生成を可能にする。
HumanML3Dデータセットの評価は、最先端の手法と競合する性能を示す。
さらに、コンテキストに富んだ、構成的で、長いテキストプロンプトのセットを作成します。
関連論文リスト
- Motion-Agent: A Conversational Framework for Human Motion Generation with LLMs [67.59291068131438]
Motion-Agentは、一般的な人間の動きの生成、編集、理解のために設計された会話フレームワークである。
Motion-Agentはオープンソースの事前学習言語モデルを使用して、モーションとテキストのギャップを埋める生成エージェントであるMotionLLMを開発した。
論文 参考訳(メタデータ) (2024-05-27T09:57:51Z) - Learning Generalizable Human Motion Generator with Reinforcement Learning [95.62084727984808]
テキスト駆動型ヒューマンモーション生成は、コンピュータ支援コンテンツ作成において重要なタスクの1つである。
既存の方法は訓練データ中の特定の動作表現に過度に適合することが多く、一般化する能力を妨げている。
一般化可能なヒューマンモーション生成のための強化学習において,パスとエラーのパラダイムを取り入れた textbfInstructMotion を提案する。
論文 参考訳(メタデータ) (2024-05-24T13:29:12Z) - Move as You Say, Interact as You Can: Language-guided Human Motion Generation with Scene Affordance [48.986552871497]
本稿では,シーンアベイランスを中間表現として活用する新しい2段階フレームワークを提案する。
シーンアベイランスマップを活用することで,マルチモーダルな条件下での人間の動きを再現する難しさを克服する。
我々のアプローチは、HumanML3DやHUMANISEなど、確立されたベンチマークのベースラインを一貫して上回ります。
論文 参考訳(メタデータ) (2024-03-26T18:41:07Z) - CoMo: Controllable Motion Generation through Language Guided Pose Code Editing [57.882299081820626]
本稿では,制御可能なモーション生成モデルであるCoMoについて紹介する。
CoMoは、動きを離散的で意味のあるポーズコードに分解する。
自動的にポーズコードのシーケンスを生成し、それを3Dモーションにデコードする。
論文 参考訳(メタデータ) (2024-03-20T18:11:10Z) - Motion Flow Matching for Human Motion Synthesis and Editing [75.13665467944314]
本研究では,効率的なサンプリングと効率性を備えた人体運動生成のための新しい生成モデルであるemphMotion Flow Matchingを提案する。
提案手法は, 従来の拡散モデルにおいて, サンプリングの複雑さを1000ステップから10ステップに減らし, テキスト・ツー・モーション・ジェネレーション・ベンチマークやアクション・ツー・モーション・ジェネレーション・ベンチマークで同等の性能を実現する。
論文 参考訳(メタデータ) (2023-12-14T12:57:35Z) - TEMOS: Generating diverse human motions from textual descriptions [53.85978336198444]
テキスト記述から多種多様な人間の動作を生成するという課題に対処する。
本研究では,人間の動作データを用いた可変オートエンコーダ(VAE)トレーニングを利用したテキスト条件生成モデルTEMOSを提案する。
TEMOSフレームワークは,従来のような骨格に基づくアニメーションと,より表現力のあるSMPLボディモーションの両方を生成可能であることを示す。
論文 参考訳(メタデータ) (2022-04-25T14:53:06Z) - ActFormer: A GAN Transformer Framework towards General
Action-Conditioned 3D Human Motion Generation [16.1094669439815]
一般動作条件付き3次元モーション生成のためのGANトランスフォーマフレームワークを提案する。
我々のアプローチは、GANトレーニングスキームの下で強力なActFormer(ActFormer)によって構成される。
ActFormerは、時間的相関とトランスフォーマーエンコーダとのヒューマンインタラクションを交互にモデル化することで、自然にマルチパーソン動作に拡張することができる。
論文 参考訳(メタデータ) (2022-03-15T07:50:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。