論文の概要: ParCo: Part-Coordinating Text-to-Motion Synthesis
- arxiv url: http://arxiv.org/abs/2403.18512v2
- Date: Tue, 23 Jul 2024 10:41:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-24 22:43:37.173433
- Title: ParCo: Part-Coordinating Text-to-Motion Synthesis
- Title(参考訳): ParCo:パートコーディネートテキスト間合成
- Authors: Qiran Zou, Shangyuan Yuan, Shian Du, Yu Wang, Chang Liu, Yi Xu, Jie Chen, Xiangyang Ji,
- Abstract要約: 我々はParCo(Part-Coordinating Text-to-Motion Synthesis)を提案する。
ParCoには、異なる部分モーションジェネレータ間の部分モーションと通信を理解する能力が強化されている。
提案手法は, 経済計算を用いた一般的なベンチマークにおいて, 優れた性能を示すものである。
- 参考スコア(独自算出の注目度): 48.67225204910634
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study a challenging task: text-to-motion synthesis, aiming to generate motions that align with textual descriptions and exhibit coordinated movements. Currently, the part-based methods introduce part partition into the motion synthesis process to achieve finer-grained generation. However, these methods encounter challenges such as the lack of coordination between different part motions and difficulties for networks to understand part concepts. Moreover, introducing finer-grained part concepts poses computational complexity challenges. In this paper, we propose Part-Coordinating Text-to-Motion Synthesis (ParCo), endowed with enhanced capabilities for understanding part motions and communication among different part motion generators, ensuring a coordinated and fined-grained motion synthesis. Specifically, we discretize whole-body motion into multiple part motions to establish the prior concept of different parts. Afterward, we employ multiple lightweight generators designed to synthesize different part motions and coordinate them through our part coordination module. Our approach demonstrates superior performance on common benchmarks with economic computations, including HumanML3D and KIT-ML, providing substantial evidence of its effectiveness. Code is available at https://github.com/qrzou/ParCo .
- Abstract(参考訳): 本研究では,テキスト・トゥ・モーション・シンセサイザー(テキスト・ツー・モーション・シンセサイザー)という,テキスト記述に整合した動作を生成し,協調した動作を示すことを目的とした課題について検討する。
現在、パートベースの手法は、よりきめ細かい生成を実現するために、モーション合成プロセスに部分分割を導入している。
しかし、これらの手法は、異なる部分運動間の協調の欠如や、ネットワークが部分概念を理解するのが困難といった課題に直面している。
さらに、よりきめ細かい部分の概念の導入は、計算複雑性の課題を引き起こす。
そこで本稿では,ParCo(Part-Coordinating Text-to-Motion Synthesis, ParCo)を提案する。
具体的には,全身運動を複数の部分運動に識別し,異なる部分の先行概念を確立する。
その後、複数の軽量発電機を用いて、異なる部分運動を合成し、部品調整モジュールを介してそれらを調整する。
提案手法は,HumanML3DやKIT-MLなど,経済計算の一般的なベンチマークにおいて優れた性能を示し,その有効性を示す。
コードはhttps://github.com/qrzou/ParCoで入手できる。
関連論文リスト
- FreeMotion: A Unified Framework for Number-free Text-to-Motion Synthesis [65.85686550683806]
そこで本稿では, 条件付き動作分布を用いて, 単独動作と多人数動作を統一する動き生成手法を提案する。
筆者らの枠組みに基づいて,現在ある一対一動作空間制御手法をシームレスに統合し,多対一動作の正確な制御を実現する。
論文 参考訳(メタデータ) (2024-05-24T17:57:57Z) - GUESS:GradUally Enriching SyntheSis for Text-Driven Human Motion
Generation [23.435588151215594]
そこで本研究では,テキスト駆動型人体動作合成のためのケースケード拡散に基づく新しい生成フレームワークを提案する。
このフレームワークはGradUally Enriching SyntheSis(GUESS)という戦略を略語として利用している。
GUESSは、精度、現実性、多様性において、既存の最先端手法よりも大きなマージンで優れていることを示す。
論文 参考訳(メタデータ) (2024-01-04T08:48:21Z) - AMD:Anatomical Motion Diffusion with Interpretable Motion Decomposition
and Fusion [11.689663297469945]
適応運動拡散モデルを提案する。
入力テキストを簡潔で解釈可能な解剖学的スクリプトのシーケンスにパースするために、LLM(Large Language Model)を利用する。
次に、逆拡散過程における入力テキストと解剖学的スクリプトの影響を均衡させる2分岐融合方式を考案する。
論文 参考訳(メタデータ) (2023-12-20T04:49:45Z) - SINC: Spatial Composition of 3D Human Motions for Simultaneous Action Generation [58.25766404147109]
我々のゴールは、同時動作を記述するテキスト入力を与えられた3次元人間の動作を合成することである。
我々は「空間構成」というような同時的な動きを生み出すことを指す。
論文 参考訳(メタデータ) (2023-04-20T16:01:55Z) - Locomotion-Action-Manipulation: Synthesizing Human-Scene Interactions in
Complex 3D Environments [11.87902527509297]
複雑な屋内環境下での自然および可塑性な長期的人間の運動を合成するために,LAMA, Locomotion-Action-Manipulationを提案する。
従来の3Dシーンをスキャンして「ペア化」する手法とは異なり、人間のモーションキャプチャーデータを合成にのみ使用することにより、テスト時間最適化として問題を定式化する。
論文 参考訳(メタデータ) (2023-01-09T18:59:16Z) - TEACH: Temporal Action Composition for 3D Humans [50.97135662063117]
自然言語の一連の記述を前提として,テキストに意味的に対応する3次元の人間の動作を生成する。
特に、我々のゴールは一連のアクションの合成を可能にすることであり、これは時間的アクション合成と呼ばれる。
論文 参考訳(メタデータ) (2022-09-09T00:33:40Z) - MoDi: Unconditional Motion Synthesis from Diverse Data [51.676055380546494]
多様な動きを合成する無条件生成モデルであるMoDiを提案する。
我々のモデルは、多様な、構造化されていない、ラベルなしのモーションデータセットから完全に教師なしの設定で訓練されている。
データセットに構造が欠けているにもかかわらず、潜在空間は意味的にクラスタ化可能であることを示す。
論文 参考訳(メタデータ) (2022-06-16T09:06:25Z) - TEMOS: Generating diverse human motions from textual descriptions [53.85978336198444]
テキスト記述から多種多様な人間の動作を生成するという課題に対処する。
本研究では,人間の動作データを用いた可変オートエンコーダ(VAE)トレーニングを利用したテキスト条件生成モデルTEMOSを提案する。
TEMOSフレームワークは,従来のような骨格に基づくアニメーションと,より表現力のあるSMPLボディモーションの両方を生成可能であることを示す。
論文 参考訳(メタデータ) (2022-04-25T14:53:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。