論文の概要: Contact-aware Human Motion Generation from Textual Descriptions
- arxiv url: http://arxiv.org/abs/2403.15709v1
- Date: Sat, 23 Mar 2024 04:08:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-26 21:32:08.081437
- Title: Contact-aware Human Motion Generation from Textual Descriptions
- Title(参考訳): テキスト記述による接触認識型人間動作生成
- Authors: Sihan Ma, Qiong Cao, Jing Zhang, Dacheng Tao,
- Abstract要約: 我々は、接触認識テキストを表すRICH-CATという新しいデータセットを作成する。
そこで本研究では,テキストによる対話型人間の動作合成のためのCATMOという新しい手法を提案する。
本実験は,既存のテキスト・トゥ・モーション法と比較して,提案手法の優れた性能を示すものである。
- 参考スコア(独自算出の注目度): 57.871692507044344
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper addresses the problem of generating 3D interactive human motion from text. Given a textual description depicting the actions of different body parts in contact with objects, we synthesize sequences of 3D body poses that are visually natural and physically plausible. Yet, this task poses a significant challenge due to the inadequate consideration of interactions by physical contacts in both motion and textual descriptions, leading to unnatural and implausible sequences. To tackle this challenge, we create a novel dataset named RICH-CAT, representing ``Contact-Aware Texts'' constructed from the RICH dataset. RICH-CAT comprises high-quality motion, accurate human-object contact labels, and detailed textual descriptions, encompassing over 8,500 motion-text pairs across 26 indoor/outdoor actions. Leveraging RICH-CAT, we propose a novel approach named CATMO for text-driven interactive human motion synthesis that explicitly integrates human body contacts as evidence. We employ two VQ-VAE models to encode motion and body contact sequences into distinct yet complementary latent spaces and an intertwined GPT for generating human motions and contacts in a mutually conditioned manner. Additionally, we introduce a pre-trained text encoder to learn textual embeddings that better discriminate among various contact types, allowing for more precise control over synthesized motions and contacts. Our experiments demonstrate the superior performance of our approach compared to existing text-to-motion methods, producing stable, contact-aware motion sequences. Code and data will be available for research purposes.
- Abstract(参考訳): 本稿では,テキストから3次元対話型人間の動作を生成する問題に対処する。
物体に接触する異なる身体部位の動作を記述したテキスト記述が与えられた場合、視覚的に自然で身体的にも可視な3次元身体ポーズのシーケンスを合成する。
しかし、この課題は、運動とテキスト記述の両方における物理的接触による相互作用の不十分な考慮により、不自然で不可解なシーケンスをもたらすため、重大な課題となる。
この課題に対処するために、RICHデータセットから構築された ``Contact-Aware Texts'' を表す、RICH-CAT という新しいデータセットを作成します。
RICH-CATは、高品質なモーション、正確な人物接触ラベル、詳細なテキスト記述を含み、26の屋内/屋外アクションにまたがる8,500以上のモーションテキストペアを含んでいる。
RICH-CATを活用することで,人体接触をエビデンスとして明示的に統合するテキスト駆動対話型人体動作合成のためのCATMOという新しいアプローチを提案する。
我々は2つのVQ-VAEモデルを用いて、動きと身体の接触配列を相補的な遅延空間に符号化し、人間の動きと接触を相互に条件付きで生成する。
さらに,テキストエンコーダを導入し,テキスト埋め込みを学習し,様々な種類の接触を識別し,合成された動きや接触をより正確に制御できるようにする。
本実験は,既存のテキスト・トゥ・モーション法と比較して,本手法の優れた性能を実証し,安定した接触対応動作系列を生成する。
コードとデータは研究目的で利用できる。
関連論文リスト
- ContactGen: Contact-Guided Interactive 3D Human Generation for Partners [9.13466172688693]
物理的接触の観点から3次元ヒューマンジェネレーションの新たな課題を導入する。
与えられたパートナーヒトは、相互作用の種類に応じて多様なポーズと異なる接触領域を持つことができる。
そこで本研究では,対話型3次元人間を,ガイド付き拡散フレームワークに基づいて生成する手法を提案する。
論文 参考訳(メタデータ) (2024-01-30T17:57:46Z) - BOTH2Hands: Inferring 3D Hands from Both Text Prompts and Body Dynamics [50.88842027976421]
両手動作生成のための新しいマルチモーダルデータセットBOTH57Mを提案する。
私たちのデータセットには、人体と手の動きの正確な追跡が含まれています。
また,新しいタスクのための強力なベースライン手法であるBOTH2Handsも提供する。
論文 参考訳(メタデータ) (2023-12-13T07:30:19Z) - OmniMotionGPT: Animal Motion Generation with Limited Data [70.35662376853163]
最初のテキストアニマルモーションデータセットであるAnimalML3Dを紹介した。
我々は,動物データに基づくヒトの動き生成ベースラインのトレーニング結果よりも定量的かつ質的に,高い多様性と忠実さで動物の動きを生成することができる。
論文 参考訳(メタデータ) (2023-11-30T07:14:00Z) - NIFTY: Neural Object Interaction Fields for Guided Human Motion
Synthesis [21.650091018774972]
我々は、特定の物体に付随する神経相互作用場を作成し、人間のポーズを入力として与えられた有効な相互作用多様体までの距離を出力する。
この相互作用場は、対象条件付きヒトの運動拡散モデルのサンプリングを導く。
いくつかの物体で座ったり持ち上げたりするための現実的な動きを合成し、動きの質や動作完了の成功の観点から、代替のアプローチよりも優れています。
論文 参考訳(メタデータ) (2023-07-14T17:59:38Z) - SINC: Spatial Composition of 3D Human Motions for Simultaneous Action Generation [58.25766404147109]
我々のゴールは、同時動作を記述するテキスト入力を与えられた3次元人間の動作を合成することである。
我々は「空間構成」というような同時的な動きを生み出すことを指す。
論文 参考訳(メタデータ) (2023-04-20T16:01:55Z) - IMoS: Intent-Driven Full-Body Motion Synthesis for Human-Object
Interactions [69.95820880360345]
そこで本研究では,仮想人物の全身動作を3Dオブジェクトで合成する最初のフレームワークを提案する。
本システムでは,オブジェクトと仮想文字の関連意図を入力テキストとして記述する。
その結果, 80%以上のシナリオにおいて, 合成された全身運動は参加者よりリアルに見えることがわかった。
論文 参考訳(メタデータ) (2022-12-14T23:59:24Z) - TEMOS: Generating diverse human motions from textual descriptions [53.85978336198444]
テキスト記述から多種多様な人間の動作を生成するという課題に対処する。
本研究では,人間の動作データを用いた可変オートエンコーダ(VAE)トレーニングを利用したテキスト条件生成モデルTEMOSを提案する。
TEMOSフレームワークは,従来のような骨格に基づくアニメーションと,より表現力のあるSMPLボディモーションの両方を生成可能であることを示す。
論文 参考訳(メタデータ) (2022-04-25T14:53:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。