論文の概要: TEMOS: Generating diverse human motions from textual descriptions
- arxiv url: http://arxiv.org/abs/2204.14109v1
- Date: Mon, 25 Apr 2022 14:53:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-08 23:11:30.900924
- Title: TEMOS: Generating diverse human motions from textual descriptions
- Title(参考訳): TEMOS:テキスト記述から多様な人間の動作を生成する
- Authors: Mathis Petrovich, Michael J. Black, G\"ul Varol
- Abstract要約: テキスト記述から多種多様な人間の動作を生成するという課題に対処する。
本研究では,人間の動作データを用いた可変オートエンコーダ(VAE)トレーニングを利用したテキスト条件生成モデルTEMOSを提案する。
TEMOSフレームワークは,従来のような骨格に基づくアニメーションと,より表現力のあるSMPLボディモーションの両方を生成可能であることを示す。
- 参考スコア(独自算出の注目度): 53.85978336198444
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We address the problem of generating diverse 3D human motions from textual
descriptions. This challenging task requires joint modeling of both modalities:
understanding and extracting useful human-centric information from the text,
and then generating plausible and realistic sequences of human poses. In
contrast to most previous work which focuses on generating a single,
deterministic, motion from a textual description, we design a variational
approach that can produce multiple diverse human motions. We propose TEMOS, a
text-conditioned generative model leveraging variational autoencoder (VAE)
training with human motion data, in combination with a text encoder that
produces distribution parameters compatible with the VAE latent space. We show
that TEMOS framework can produce both skeleton-based animations as in prior
work, as well more expressive SMPL body motions. We evaluate our approach on
the KIT Motion-Language benchmark and, despite being relatively
straightforward, demonstrate significant improvements over the state of the
art. Code and models are available on our project page.
- Abstract(参考訳): テキスト記述から多様な3次元人間の動きを生成する問題に対処する。
この困難なタスクには、テキストから有用な人間中心の情報を理解し抽出し、人間のポーズの現実的なシーケンスを生成するという、両方のモダリティの合同モデリングが必要です。
テキスト記述から単一の決定論的動作を生成することに焦点を当てたこれまでのほとんどの作業とは対照的に、複数の多様な人間の動きを生成できる変分的アプローチをデザインする。
本研究では,変動オートエンコーダ(VAE)トレーニングと人間の動作データを組み合わせたテキスト条件生成モデルであるTEMOSと,VAE潜在空間と互換性のある分散パラメータを生成するテキストエンコーダを提案する。
TEMOSフレームワークは,従来のような骨格に基づくアニメーションと,より表現力のあるSMPLボディモーションの両方を生成可能であることを示す。
我々は,kitモーション言語ベンチマークのアプローチを評価し,比較的単純ではあるが,最先端技術に対する大幅な改善を示す。
コードとモデルは、私たちのプロジェクトページで利用可能です。
関連論文リスト
- Towards Open Domain Text-Driven Synthesis of Multi-Person Motions [36.737740727883924]
我々は、大規模な画像とビデオのデータセットからポーズ情報を推定することで、人間のポーズと動きのデータセットをキュレートする。
本手法は,多種多様なテキストプロンプトから多目的運動列を多種多様な多様性と忠実度で生成する最初の方法である。
論文 参考訳(メタデータ) (2024-05-28T18:00:06Z) - Motion-Agent: A Conversational Framework for Human Motion Generation with LLMs [67.59291068131438]
Motion-Agentは、一般的な人間の動きの生成、編集、理解のために設計された会話フレームワークである。
Motion-Agentはオープンソースの事前学習言語モデルを使用して、モーションとテキストのギャップを埋める生成エージェントであるMotionLLMを開発した。
論文 参考訳(メタデータ) (2024-05-27T09:57:51Z) - Generating Human Motion in 3D Scenes from Text Descriptions [60.04976442328767]
本稿では,人間とシーンのインタラクションをテキストで記述した3次元屋内シーンにおけるヒューマンモーション生成の課題に焦点を当てた。
複雑な問題を2つのより管理可能なサブプロブレムに分解する新しい手法を提案する。
対象オブジェクトの言語グラウンド化には、大きな言語モデルのパワーを活用し、モーション生成には、オブジェクト中心のシーン表現を設計する。
論文 参考訳(メタデータ) (2024-05-13T14:30:12Z) - Move as You Say, Interact as You Can: Language-guided Human Motion Generation with Scene Affordance [48.986552871497]
本稿では,シーンアベイランスを中間表現として活用する新しい2段階フレームワークを提案する。
シーンアベイランスマップを活用することで,マルチモーダルな条件下での人間の動きを再現する難しさを克服する。
我々のアプローチは、HumanML3DやHUMANISEなど、確立されたベンチマークのベースラインを一貫して上回ります。
論文 参考訳(メタデータ) (2024-03-26T18:41:07Z) - BOTH2Hands: Inferring 3D Hands from Both Text Prompts and Body Dynamics [50.88842027976421]
両手動作生成のための新しいマルチモーダルデータセットBOTH57Mを提案する。
私たちのデータセットには、人体と手の動きの正確な追跡が含まれています。
また,新しいタスクのための強力なベースライン手法であるBOTH2Handsも提供する。
論文 参考訳(メタデータ) (2023-12-13T07:30:19Z) - HOI-Diff: Text-Driven Synthesis of 3D Human-Object Interactions using Diffusion Models [42.62823339416957]
テキストのプロンプトによって駆動される現実的な3次元物体間相互作用(HOI)を創出する問題に対処する。
まず、入力テキストに条件付けされた人間と物体の両方の動きを生成するための二重分岐拡散モデル(HOI-DM)を開発する。
また,人間と物体の接触領域を予測するためのアベイランス予測拡散モデル(APDM)を開発した。
論文 参考訳(メタデータ) (2023-12-11T17:41:17Z) - Fg-T2M: Fine-Grained Text-Driven Human Motion Generation via Diffusion
Model [11.873294782380984]
そこで本研究では,高精度なテキスト記述をサポートする高品質な条件付き人間の動作シーケンスを生成するための微細な手法を提案する。
本手法は,1) テキスト情報を完全に活用するための正確かつ完全な言語特徴を構築する言語構造支援モジュール,2) 多段階推論を実現するために,浅層および深層グラフニューラルネットワークから近隣および総合的な意味論的特徴を学習する文脈認識プログレッシブ推論モジュールの2つの主要な構成要素から構成される。
論文 参考訳(メタデータ) (2023-09-12T14:43:47Z) - DiverseMotion: Towards Diverse Human Motion Generation via Discrete
Diffusion [70.33381660741861]
テキスト記述に基づく高品質な人間の動作を合成するための新しいアプローチであるDiverseMotionを提案する。
我々のDiverseMotionは、最先端のモーション品質と競争力の多様性を達成できることを示す。
論文 参考訳(メタデータ) (2023-09-04T05:43:48Z) - TM2T: Stochastic and Tokenized Modeling for the Reciprocal Generation of
3D Human Motions and Texts [20.336481832461168]
視覚と言語との強い結びつきから着想を得た本論文は,テキストから3次元人間のフルボディ運動の生成を探求することを目的とする。
本稿では,離散的かつコンパクトな動き表現である動きトークンを提案する。
私たちのアプローチは柔軟で、text2motionと Motion2textタスクの両方に使用できます。
論文 参考訳(メタデータ) (2022-07-04T19:52:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。