論文の概要: Action-Conditioned 3D Human Motion Synthesis with Transformer VAE
- arxiv url: http://arxiv.org/abs/2104.05670v1
- Date: Mon, 12 Apr 2021 17:40:27 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-13 14:03:50.018652
- Title: Action-Conditioned 3D Human Motion Synthesis with Transformer VAE
- Title(参考訳): Transformer VAEを用いた3次元動作合成
- Authors: Mathis Petrovich, Michael J. Black, G\"ul Varol
- Abstract要約: 我々は、現実的で多様な人間の動き系列の行動条件生成の問題に取り組む。
動作シーケンスを完了または拡張する手法とは対照的に、このタスクは初期ポーズやシーケンスを必要としない。
生成的変分オートエンコーダを訓練することにより、人間の動きに対する行動認識の潜在表現を学ぶ。
- 参考スコア(独自算出の注目度): 44.523477804533364
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We tackle the problem of action-conditioned generation of realistic and
diverse human motion sequences. In contrast to methods that complete, or
extend, motion sequences, this task does not require an initial pose or
sequence. Here we learn an action-aware latent representation for human motions
by training a generative variational autoencoder (VAE). By sampling from this
latent space and querying a certain duration through a series of positional
encodings, we synthesize variable-length motion sequences conditioned on a
categorical action. Specifically, we design a Transformer-based architecture,
ACTOR, for encoding and decoding a sequence of parametric SMPL human body
models estimated from action recognition datasets. We evaluate our approach on
the NTU RGB+D, HumanAct12 and UESTC datasets and show improvements over the
state of the art. Furthermore, we present two use cases: improving action
recognition through adding our synthesized data to training, and motion
denoising. Our code and models will be made available.
- Abstract(参考訳): 我々は、現実的で多様な人間の動き系列の行動条件生成の問題に取り組む。
動作シーケンスを完了または拡張する手法とは対照的に、このタスクは初期ポーズやシーケンスを必要としない。
ここでは、生成型変分オートエンコーダ(vae)を訓練することにより、人間の動きに対する行動認識潜在表現を学ぶ。
この潜伏空間からサンプリングし、一連の位置エンコーディングを通して一定期間を問うことにより、カテゴリー的動作で条件付けられた可変長運動列を合成する。
具体的には、行動認識データセットから推定されるパラメトリックSMPL人体モデルのシーケンスを符号化し、復号するためのトランスフォーマーベースのアーキテクチャACTORを設計する。
我々は,NTU RGB+D,HumanAct12,UESTCデータセットに対するアプローチを評価し,技術状況に対する改善点を示す。
さらに,合成データをトレーニングに加えることによる行動認識の改善と,運動認知の2つのユースケースを提案する。
私たちのコードとモデルは利用可能になります。
関連論文リスト
- Text-guided 3D Human Motion Generation with Keyframe-based Parallel Skip Transformer [62.29951737214263]
既存のアルゴリズムは、コストがかかりエラーを起こしやすい全シーケンスを直接生成する。
本稿では,入力テキストに対応する人間の動作系列を生成するKeyMotionを提案する。
我々は,自動エンコーダを潜在空間に投影するために,Kullback-Leibler正規化付き変分符号器(VAE)を用いる。
逆拡散のために,デザインラテントとテキスト条件の相互参照を行う新しいパラレルスキップ変換器を提案する。
論文 参考訳(メタデータ) (2024-05-24T11:12:37Z) - Scaling Up Dynamic Human-Scene Interaction Modeling [58.032368564071895]
TRUMANSは、現在利用可能な最も包括的なモーションキャプチャーHSIデータセットである。
人体全体の動きや部分レベルの物体の動きを複雑に捉えます。
本研究では,任意の長さのHSI配列を効率的に生成する拡散型自己回帰モデルを提案する。
論文 参考訳(メタデータ) (2024-03-13T15:45:04Z) - Executing your Commands via Motion Diffusion in Latent Space [51.64652463205012]
本研究では,動作遅延に基づく拡散モデル(MLD)を提案し,条件付き入力に対応する鮮明な動き列を生成する。
我々のMDDは、広範囲な人体運動生成タスクにおいて、最先端の手法よりも大幅に改善されている。
論文 参考訳(メタデータ) (2022-12-08T03:07:00Z) - UDE: A Unified Driving Engine for Human Motion Generation [16.32286289924454]
UDEは、自然言語またはオーディオシーケンスから人間のモーションシーケンスを生成することができる最初の統合駆動エンジンである。
我々はHumanML3DciteGuo_2022_CVPRとAIST++citeli 2021learnベンチマークを用いて評価を行った。
論文 参考訳(メタデータ) (2022-11-29T08:30:52Z) - MotionBERT: A Unified Perspective on Learning Human Motion
Representations [46.67364057245364]
本研究では,大規模・異種データ資源から人の動き表現を学習することで,人間中心のビデオタスクに取り組むための統一的な視点を示す。
本研究では,ノイズのある部分的な2次元観測から基礎となる3次元運動を復元するために,モーションエンコーダを訓練する事前学習段階を提案する。
動作エンコーダをDST(Dual-stream Spatio-temporal Transformer)ニューラルネットワークで実装する。
論文 参考訳(メタデータ) (2022-10-12T19:46:25Z) - Recurrent Transformer Variational Autoencoders for Multi-Action Motion
Synthesis [17.15415641710113]
任意の長さの多動作人間の動作列を合成する問題を考察する。
既存のアプローチでは、単一のアクションシナリオでモーションシーケンス生成をマスターしているが、多アクションおよび任意の長さのシーケンスに一般化できない。
本稿では,リカレントトランスの豊かさと条件付き変分オートエンコーダの生成豊かさを活用する,新しい効率的な手法を提案する。
論文 参考訳(メタデータ) (2022-06-14T10:40:16Z) - Unsupervised Motion Representation Learning with Capsule Autoencoders [54.81628825371412]
Motion Capsule Autoencoder (MCAE) は、2レベル階層のモーションをモデル化する。
MCAEは、新しいTrajectory20モーションデータセットと、様々な現実世界の骨格に基づく人間のアクションデータセットで評価されている。
論文 参考訳(メタデータ) (2021-10-01T16:52:03Z) - Conditional Temporal Variational AutoEncoder for Action Video Prediction [66.63038712306606]
ACT-VAEは、単一の入力画像からアクションクリップのポーズシーケンスを予測する。
プラグアンドプレイのP2Iネットワークに接続すると、ACT-VAEは画像シーケンスを合成できる。
論文 参考訳(メタデータ) (2021-08-12T10:59:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。