論文の概要: TEMOS: Generating diverse human motions from textual descriptions
- arxiv url: http://arxiv.org/abs/2204.14109v1
- Date: Mon, 25 Apr 2022 14:53:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-08 23:11:30.900924
- Title: TEMOS: Generating diverse human motions from textual descriptions
- Title(参考訳): TEMOS:テキスト記述から多様な人間の動作を生成する
- Authors: Mathis Petrovich, Michael J. Black, G\"ul Varol
- Abstract要約: テキスト記述から多種多様な人間の動作を生成するという課題に対処する。
本研究では,人間の動作データを用いた可変オートエンコーダ(VAE)トレーニングを利用したテキスト条件生成モデルTEMOSを提案する。
TEMOSフレームワークは,従来のような骨格に基づくアニメーションと,より表現力のあるSMPLボディモーションの両方を生成可能であることを示す。
- 参考スコア(独自算出の注目度): 53.85978336198444
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We address the problem of generating diverse 3D human motions from textual
descriptions. This challenging task requires joint modeling of both modalities:
understanding and extracting useful human-centric information from the text,
and then generating plausible and realistic sequences of human poses. In
contrast to most previous work which focuses on generating a single,
deterministic, motion from a textual description, we design a variational
approach that can produce multiple diverse human motions. We propose TEMOS, a
text-conditioned generative model leveraging variational autoencoder (VAE)
training with human motion data, in combination with a text encoder that
produces distribution parameters compatible with the VAE latent space. We show
that TEMOS framework can produce both skeleton-based animations as in prior
work, as well more expressive SMPL body motions. We evaluate our approach on
the KIT Motion-Language benchmark and, despite being relatively
straightforward, demonstrate significant improvements over the state of the
art. Code and models are available on our project page.
- Abstract(参考訳): テキスト記述から多様な3次元人間の動きを生成する問題に対処する。
この困難なタスクには、テキストから有用な人間中心の情報を理解し抽出し、人間のポーズの現実的なシーケンスを生成するという、両方のモダリティの合同モデリングが必要です。
テキスト記述から単一の決定論的動作を生成することに焦点を当てたこれまでのほとんどの作業とは対照的に、複数の多様な人間の動きを生成できる変分的アプローチをデザインする。
本研究では,変動オートエンコーダ(VAE)トレーニングと人間の動作データを組み合わせたテキスト条件生成モデルであるTEMOSと,VAE潜在空間と互換性のある分散パラメータを生成するテキストエンコーダを提案する。
TEMOSフレームワークは,従来のような骨格に基づくアニメーションと,より表現力のあるSMPLボディモーションの両方を生成可能であることを示す。
我々は,kitモーション言語ベンチマークのアプローチを評価し,比較的単純ではあるが,最先端技術に対する大幅な改善を示す。
コードとモデルは、私たちのプロジェクトページで利用可能です。
関連論文リスト
- BOTH2Hands: Inferring 3D Hands from Both Text Prompts and Body Dynamics [53.44025678720529]
両手動作生成のための新しいマルチモーダルデータセットBOTH57Mを提案する。
私たちのデータセットには、人体と手の動きの正確な追跡が含まれています。
また,新しいタスクのための強力なベースライン手法であるBOTH2Handsも提供する。
論文 参考訳(メタデータ) (2023-12-13T07:30:19Z) - HOI-Diff: Text-Driven Synthesis of 3D Human-Object Interactions using
Diffusion Models [45.16955053939174]
ひとつのモデルではなく,モジュール化された設計を採用して,複雑なタスクをシンプルなサブタスクに分解する,というのが私たちの重要な洞察です。
まず、入力テキストに条件付けされた人間と物体の両方の動きを生成するための二重分岐拡散モデル(HOI-DM)を開発する。
また,人間と物体の接触領域を予測するためのアベイランス予測拡散モデル(APDM)を開発した。
論文 参考訳(メタデータ) (2023-12-11T17:41:17Z) - Real-time Animation Generation and Control on Rigged Models via Large
Language Models [50.034712575541434]
本稿では,自然言語入力を用いたリップモデル上でのリアルタイムアニメーション制御と生成のための新しい手法を提案する。
大規模言語モデル(LLM)をUnityに組み込んで構造化テキストを出力し、多種多様なリアルなアニメーションに解析する。
論文 参考訳(メタデータ) (2023-10-27T01:36:35Z) - Fg-T2M: Fine-Grained Text-Driven Human Motion Generation via Diffusion
Model [11.873294782380984]
そこで本研究では,高精度なテキスト記述をサポートする高品質な条件付き人間の動作シーケンスを生成するための微細な手法を提案する。
本手法は,1) テキスト情報を完全に活用するための正確かつ完全な言語特徴を構築する言語構造支援モジュール,2) 多段階推論を実現するために,浅層および深層グラフニューラルネットワークから近隣および総合的な意味論的特徴を学習する文脈認識プログレッシブ推論モジュールの2つの主要な構成要素から構成される。
論文 参考訳(メタデータ) (2023-09-12T14:43:47Z) - DiverseMotion: Towards Diverse Human Motion Generation via Discrete
Diffusion [70.33381660741861]
テキスト記述に基づく高品質な人間の動作を合成するための新しいアプローチであるDiverseMotionを提案する。
我々のDiverseMotionは、最先端のモーション品質と競争力の多様性を達成できることを示す。
論文 参考訳(メタデータ) (2023-09-04T05:43:48Z) - AttT2M: Text-Driven Human Motion Generation with Multi-Perspective
Attention Mechanism [24.049207982022214]
マルチパースペクティブアテンション機構を持つ2段階手法である textbftT2M を提案する。
本手法は, 定性的, 定量的評価の観点から, 現在の最先端技術よりも優れている。
論文 参考訳(メタデータ) (2023-09-02T02:18:17Z) - Priority-Centric Human Motion Generation in Discrete Latent Space [59.401128190423535]
テキスト・ツー・モーション生成のための優先中心運動離散拡散モデル(M2DM)を提案する。
M2DMは、コード崩壊に対処するために、グローバルな自己注意機構と正規化用語を組み込んでいる。
また、各動きトークンの重要度から決定される革新的なノイズスケジュールを用いた動き離散拡散モデルを提案する。
論文 参考訳(メタデータ) (2023-08-28T10:40:16Z) - Generating Holistic 3D Human Motion from Speech [97.11392166257791]
同期音声を用いた3次元全体体メッシュの高品質データセットを構築した。
次に,顔,体,手が別々にモデル化される新しい音声合成フレームワークを定義する。
論文 参考訳(メタデータ) (2022-12-08T17:25:19Z) - MotionDiffuse: Text-Driven Human Motion Generation with Diffusion Model [35.32967411186489]
MotionDiffuseは拡散モデルに基づくテキスト駆動モーション生成フレームワークである。
複雑なデータ分散をモデル化し、鮮やかなモーションシーケンスを生成するのに優れています。
体の部分のきめ細かい指示に反応し、時間経過したテキストプロンプトで任意の長さのモーション合成を行う。
論文 参考訳(メタデータ) (2022-08-31T17:58:54Z) - TM2T: Stochastic and Tokenized Modeling for the Reciprocal Generation of
3D Human Motions and Texts [20.336481832461168]
視覚と言語との強い結びつきから着想を得た本論文は,テキストから3次元人間のフルボディ運動の生成を探求することを目的とする。
本稿では,離散的かつコンパクトな動き表現である動きトークンを提案する。
私たちのアプローチは柔軟で、text2motionと Motion2textタスクの両方に使用できます。
論文 参考訳(メタデータ) (2022-07-04T19:52:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。