論文の概要: Synthesis of Compositional Animations from Textual Descriptions
- arxiv url: http://arxiv.org/abs/2103.14675v1
- Date: Fri, 26 Mar 2021 18:23:29 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-30 15:22:58.166698
- Title: Synthesis of Compositional Animations from Textual Descriptions
- Title(参考訳): テキスト記述からの合成アニメーションの合成
- Authors: Anindita Ghosh, Noshaba Cheema, Cennet Oguz, Christian Theobalt,
Philipp Slusallek
- Abstract要約: 「どんなに非構造的で複雑で、文を作りながら、それからもっともらしい動きを生成できるのか。」
「映画の脚本から3Dキャラクタをアニメーションしたり、ロボットに何をしたいのかを伝えるだけで動かせるのか?」
- 参考スコア(独自算出の注目度): 54.85920052559239
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: "How can we animate 3D-characters from a movie script or move robots by
simply telling them what we would like them to do?" "How unstructured and
complex can we make a sentence and still generate plausible movements from it?"
These are questions that need to be answered in the long-run, as the field is
still in its infancy. Inspired by these problems, we present a new technique
for generating compositional actions, which handles complex input sentences.
Our output is a 3D pose sequence depicting the actions in the input sentence.
We propose a hierarchical two-stream sequential model to explore a finer
joint-level mapping between natural language sentences and 3D pose sequences
corresponding to the given motion. We learn two manifold representations of the
motion -- one each for the upper body and the lower body movements. Our model
can generate plausible pose sequences for short sentences describing single
actions as well as long compositional sentences describing multiple sequential
and superimposed actions. We evaluate our proposed model on the publicly
available KIT Motion-Language Dataset containing 3D pose data with
human-annotated sentences. Experimental results show that our model advances
the state-of-the-art on text-based motion synthesis in objective evaluations by
a margin of 50%. Qualitative evaluations based on a user study indicate that
our synthesized motions are perceived to be the closest to the ground-truth
motion captures for both short and compositional sentences.
- Abstract(参考訳): 「映画の脚本から3Dキャラクタをアニメーションしたり、ロボットに何をしたいのかを伝えるだけで動かせるのか?」
「どんなに非構造的で複雑で、文を作りながら、それからもっともらしい動きを生成できるのか。」
これらは、この分野はまだ初期段階にあるため、長期的には答える必要がある質問である。
これらの問題に触発されて,複雑な入力文を処理する合成動作を生成する新しい手法を提案する。
我々の出力は入力文中の動作を描写した3次元ポーズシーケンスである。
与えられた動きに対応する3次元ポーズ列と自然言語文のより詳細な結合レベルマッピングを探索する階層的な2ストリームシーケンシャルモデルを提案する。
運動の2つの多様体表現を学習し、それぞれが上体と下体の動きを表す。
本モデルでは,単一動作を記述した短い文と,複数の順序および重畳された動作を記述した長い合成文に対して,妥当なポーズ列を生成することができる。
我々は,人文を付加した3次元ポーズデータを含むKIT Motion-Language Datasetについて,提案モデルの評価を行った。
実験の結果,本モデルは客観的評価におけるテキストベースモーションシンセシスの最先端を50%向上させた。
ユーザ研究に基づく質的評価から, 合成された動作は, 短文と合成文の両方において, 接地的動作キャプチャに最も近いものと考えられる。
関連論文リスト
- Motion Generation from Fine-grained Textual Descriptions [29.033358642532722]
我々は,ファインヒューマンML3Dという微細なテキスト記述を専門とする大規模言語移動データセットを構築した。
新しいテキスト2モーションモデルであるFineMotionDiffuseを設計し、微細なテキスト情報をフル活用する。
FineMotionDiffuseはFinHumanML3Dで訓練し,FIDを0.38の差で改善した。
論文 参考訳(メタデータ) (2024-03-20T11:38:30Z) - Story-to-Motion: Synthesizing Infinite and Controllable Character
Animation from Long Text [14.473103773197838]
ストーリー・トゥ・モーション(Story-to-Motion)と呼ばれる新しいタスクは、文字が長いテキスト記述に基づいて特定の動作を行う必要があるときに発生する。
文字制御とテキスト・トゥ・モーションのこれまでの研究は、関連する側面に対処してきたが、包括的解決はいまだ解明されていない。
本稿では,制御可能で無限に長い動きと,入力テキストに整合した軌跡を生成する新しいシステムを提案する。
論文 参考訳(メタデータ) (2023-11-13T16:22:38Z) - SINC: Spatial Composition of 3D Human Motions for Simultaneous Action Generation [58.25766404147109]
我々のゴールは、同時動作を記述するテキスト入力を与えられた3次元人間の動作を合成することである。
我々は「空間構成」というような同時的な動きを生み出すことを指す。
論文 参考訳(メタデータ) (2023-04-20T16:01:55Z) - IMoS: Intent-Driven Full-Body Motion Synthesis for Human-Object
Interactions [69.95820880360345]
そこで本研究では,仮想人物の全身動作を3Dオブジェクトで合成する最初のフレームワークを提案する。
本システムでは,オブジェクトと仮想文字の関連意図を入力テキストとして記述する。
その結果, 80%以上のシナリオにおいて, 合成された全身運動は参加者よりリアルに見えることがわかった。
論文 参考訳(メタデータ) (2022-12-14T23:59:24Z) - Generating Holistic 3D Human Motion from Speech [97.11392166257791]
同期音声を用いた3次元全体体メッシュの高品質データセットを構築した。
次に,顔,体,手が別々にモデル化される新しい音声合成フレームワークを定義する。
論文 参考訳(メタデータ) (2022-12-08T17:25:19Z) - TEACH: Temporal Action Composition for 3D Humans [50.97135662063117]
自然言語の一連の記述を前提として,テキストに意味的に対応する3次元の人間の動作を生成する。
特に、我々のゴールは一連のアクションの合成を可能にすることであり、これは時間的アクション合成と呼ばれる。
論文 参考訳(メタデータ) (2022-09-09T00:33:40Z) - Learning Speech-driven 3D Conversational Gestures from Video [106.15628979352738]
同期3D対話体と手のジェスチャーの両方を自動的に共同合成する最初のアプローチを提案します。
本アルゴリズムは,表情と手のジェスチャーの固有相関を利用したcnnアーキテクチャを用いる。
われわれはまた、33時間以上の注釈付きボディ、手、顔データからなる大きなコーパスを作成する新しい方法にも貢献する。
論文 参考訳(メタデータ) (2021-02-13T01:05:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。