論文の概要: HiT-DVAE: Human Motion Generation via Hierarchical Transformer Dynamical
VAE
- arxiv url: http://arxiv.org/abs/2204.01565v1
- Date: Mon, 4 Apr 2022 15:12:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-05 15:39:56.360815
- Title: HiT-DVAE: Human Motion Generation via Hierarchical Transformer Dynamical
VAE
- Title(参考訳): HiT-DVAE:階層型トランスフォーマーダイナミックVAEによる人体運動生成
- Authors: Xiaoyu Bie, Wen Guo, Simon Leglaive, Lauren Girin, Francesc
Moreno-Noguer, Xavier Alameda-Pineda
- Abstract要約: 本稿では,階層型トランスフォーマー動的変分オートエンコーダ(HiT-DVAE)を提案する。
提案手法はHumanEva-IおよびHuman3.6Mにおいて,様々な評価手法を用いて評価し,その大部分において最先端の手法よりも優れていた。
- 参考スコア(独自算出の注目度): 37.23381308240617
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Studies on the automatic processing of 3D human pose data have flourished in
the recent past. In this paper, we are interested in the generation of
plausible and diverse future human poses following an observed 3D pose
sequence. Current methods address this problem by injecting random variables
from a single latent space into a deterministic motion prediction framework,
which precludes the inherent multi-modality in human motion generation. In
addition, previous works rarely explore the use of attention to select which
frames are to be used to inform the generation process up to our knowledge. To
overcome these limitations, we propose Hierarchical Transformer Dynamical
Variational Autoencoder, HiT-DVAE, which implements auto-regressive generation
with transformer-like attention mechanisms. HiT-DVAE simultaneously learns the
evolution of data and latent space distribution with time correlated
probabilistic dependencies, thus enabling the generative model to learn a more
complex and time-varying latent space as well as diverse and realistic human
motions. Furthermore, the auto-regressive generation brings more flexibility on
observation and prediction, i.e. one can have any length of observation and
predict arbitrary large sequences of poses with a single pre-trained model. We
evaluate the proposed method on HumanEva-I and Human3.6M with various
evaluation methods, and outperform the state-of-the-art methods on most of the
metrics.
- Abstract(参考訳): 近年、3次元ポーズデータの自動処理に関する研究が盛んになっている。
本稿では,観察された3次元ポーズシーケンスに従って,多種多様な未来の人間のポーズを生成することに関心がある。
現在の手法では、1つの潜在空間から確率変数を決定論的動き予測フレームワークに注入することでこの問題に対処している。
さらに、前回の作品では、どのフレームを使って、私たちの知識まで生成プロセスに知らせるべきかの選択に注意を向けることもほとんどない。
これらの制限を克服するために, 自動回帰生成を実装した階層型トランスフォーマー動的変分自動エンコーダHiT-DVAEを提案する。
hit-dvaeはデータの進化と時間の相関した確率依存性を同時に学習し、生成モデルによりより複雑で時間のかかる潜在空間や、多様で現実的な人間の動きを学ぶことができる。
さらに、自己回帰生成は観察と予測に柔軟性をもたらし、任意の観察期間を持ち、事前訓練されたモデルで任意の大きなポーズ列を予測することができる。
提案手法は, 様々な評価手法を用いてヒューマネバ-i と human3.6m について評価し, 測定値のほとんどにおいて最先端手法を上回っている。
関連論文リスト
- Multi-Transmotion: Pre-trained Model for Human Motion Prediction [68.87010221355223]
マルチトランスモーション(Multi-Transmotion)は、モダリティ事前トレーニング用に設計された革新的なトランスフォーマーベースのモデルである。
提案手法は,下流タスクにおける各種データセット間の競合性能を示す。
論文 参考訳(メタデータ) (2024-11-04T23:15:21Z) - Synthetic location trajectory generation using categorical diffusion
models [50.809683239937584]
拡散モデル(DPM)は急速に進化し、合成データのシミュレーションにおける主要な生成モデルの一つとなっている。
本稿では,個人が訪れた物理的位置を表す変数列である合成個別位置軌跡(ILT)の生成にDPMを用いることを提案する。
論文 参考訳(メタデータ) (2024-02-19T15:57:39Z) - Hierarchical Generation of Human-Object Interactions with Diffusion
Probabilistic Models [71.64318025625833]
本稿では,対象物と相互作用する人間の3次元運動を生成するための新しいアプローチを提案する。
私たちのフレームワークはまず一連のマイルストーンを生成し、それに沿って動きを合成します。
NSM, COUCH, SAMPデータセットを用いた実験では, 従来の手法よりも品質と多様性に大きな差があることが示されている。
論文 参考訳(メタデータ) (2023-10-03T17:50:23Z) - TransFusion: A Practical and Effective Transformer-based Diffusion Model
for 3D Human Motion Prediction [1.8923948104852863]
本研究では,3次元動作予測のための革新的で実用的な拡散モデルであるTransFusionを提案する。
我々のモデルは、浅い層と深い層の間の長いスキップ接続を持つバックボーンとしてTransformerを活用している。
クロスアテンションや適応層正規化のような余分なモジュールを利用する従来の拡散モデルとは対照的に、条件を含む全ての入力をトークンとして扱い、より軽量なモデルを作成する。
論文 参考訳(メタデータ) (2023-07-30T01:52:07Z) - SPOTR: Spatio-temporal Pose Transformers for Human Motion Prediction [12.248428883804763]
3次元人間の動き予測は、コンピュータビジョンにおける高い重要性と課題を計算した研究領域である。
伝統的に、自己回帰モデルは人間の動きを予測するために用いられてきた。
人間の動作予測のための非自己回帰モデルを提案する。
論文 参考訳(メタデータ) (2023-03-11T01:44:29Z) - Gait Recognition in the Wild with Multi-hop Temporal Switch [81.35245014397759]
野生での歩行認識は、より実践的な問題であり、マルチメディアとコンピュータビジョンのコミュニティの注目を集めています。
本稿では,現実のシーンにおける歩行パターンの効果的な時間的モデリングを実現するために,新しいマルチホップ時間スイッチ方式を提案する。
論文 参考訳(メタデータ) (2022-09-01T10:46:09Z) - Generating Smooth Pose Sequences for Diverse Human Motion Prediction [90.45823619796674]
本稿では,多様な動作予測と制御可能な動作予測のための統合された深部生成ネットワークを提案する。
標準ベンチマークデータセットであるHuman3.6MとHumanEva-Iの2つの実験は、我々のアプローチがサンプルの多様性と精度の両方において最先端のベースラインより優れていることを示した。
論文 参考訳(メタデータ) (2021-08-19T00:58:00Z) - Multi-frame sequence generator of 4D human body motion [0.0]
本稿では,翻訳と回転を含むグローバルな移動をエンコードする自動エンコーダに基づく生成フレームワークと,単一遅延空間ベクトルとしての多フレーム時間運動を提案する。
本研究は,低誤差境界内でのヒト形態素の4次元配列の再構成能力について検証した。
また,最初の人間のフレームから将来のフレームの4次元動作予測を行う手法の利点についても述べる。
論文 参考訳(メタデータ) (2021-06-07T13:56:46Z) - Multimodal Deep Generative Models for Trajectory Prediction: A
Conditional Variational Autoencoder Approach [34.70843462687529]
本研究では,人間の行動予測に対する条件付き変分オートエンコーダアプローチに関する自己完結型チュートリアルを提供する。
本チュートリアルの目的は,人間の行動予測における最先端の手法の分類をレビューし,構築することである。
論文 参考訳(メタデータ) (2020-08-10T03:18:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。