論文の概要: Task-Generic Hierarchical Human Motion Prior using VAEs
- arxiv url: http://arxiv.org/abs/2106.04004v1
- Date: Mon, 7 Jun 2021 23:11:42 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-09 15:43:55.940190
- Title: Task-Generic Hierarchical Human Motion Prior using VAEs
- Title(参考訳): VAEを用いたタスクジェネリック階層型人間の動作
- Authors: Jiaman Li, Ruben Villegas, Duygu Ceylan, Jimei Yang, Zhengfei Kuang,
Hao Li, Yajie Zhao
- Abstract要約: 人間の動きを記述する深い生成モデルは、幅広いコンピュータビジョンやグラフィックタスクに役立てることができる。
本稿では,グローバル・ローカル・ラテント・スペースの組み合わせを用いて,特定のタスクに依存しない複雑な人間の動作を学習する手法を提案する。
映像に基づく人間のポーズ推定を含む様々なタスクにおいて,階層的な動き変動自動エンコーダの有効性を実証する。
- 参考スコア(独自算出の注目度): 44.356707509079044
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A deep generative model that describes human motions can benefit a wide range
of fundamental computer vision and graphics tasks, such as providing robustness
to video-based human pose estimation, predicting complete body movements for
motion capture systems during occlusions, and assisting key frame animation
with plausible movements. In this paper, we present a method for learning
complex human motions independent of specific tasks using a combined global and
local latent space to facilitate coarse and fine-grained modeling.
Specifically, we propose a hierarchical motion variational autoencoder (HM-VAE)
that consists of a 2-level hierarchical latent space. While the global latent
space captures the overall global body motion, the local latent space enables
to capture the refined poses of the different body parts. We demonstrate the
effectiveness of our hierarchical motion variational autoencoder in a variety
of tasks including video-based human pose estimation, motion completion from
partial observations, and motion synthesis from sparse key-frames. Even though,
our model has not been trained for any of these tasks specifically, it provides
superior performance than task-specific alternatives. Our general-purpose human
motion prior model can fix corrupted human body animations and generate
complete movements from incomplete observations.
- Abstract(参考訳): 人間の動きを記述する深層生成モデルは、ビデオベースの人間のポーズ推定にロバスト性を提供し、咬合中のモーションキャプチャシステムのための完全な体の動きを予測し、可算な動きでキーフレームアニメーションを支援するなど、幅広い基本的なコンピュータビジョンとグラフィックタスクに役立つ。
本稿では,大域的および局所的な潜在空間を組み合わせて,複雑な人間の動作を個別に学習し,粗くきめ細かなモデリングを容易にする手法を提案する。
具体的には,2レベル階層的潜在空間からなる階層的動き変動オートエンコーダ(hm-vae)を提案する。
グローバル潜在空間は全体の身体の動きを捉えるが、ローカル潜在空間は異なる身体部位の洗練されたポーズを捉えることができる。
本稿では,映像に基づく人間のポーズ推定,部分的な観察からの動作完了,スパースキーフレームからの動作合成など,多種多様なタスクにおける階層的動き変動オートエンコーダの有効性を示す。
しかしながら、我々のモデルはこれらのタスクに特化して訓練されておらず、タスク固有の代替よりも優れたパフォーマンスを提供する。
汎用人間の運動先行モデルでは, 破損した人体のアニメーションを固定し, 不完全な観察から完全な動きを生成することができる。
関連論文リスト
- Sitcom-Crafter: A Plot-Driven Human Motion Generation System in 3D Scenes [83.55301458112672]
Sitcom-Crafterは3D空間における人間のモーション生成システムである。
機能生成モジュールの中心は、我々の新しい3Dシーン対応ヒューマン・ヒューマン・インタラクションモジュールである。
拡張モジュールは、コマンド生成のためのプロット理解、異なるモーションタイプのシームレスな統合のためのモーション同期を含む。
論文 参考訳(メタデータ) (2024-10-14T17:56:19Z) - FreeMotion: MoCap-Free Human Motion Synthesis with Multimodal Large Language Models [19.09048969615117]
MLLMをベースとしたユーザ制御信号として自然言語命令を用いたオープンなヒューマンモーション合成について検討する。
本手法は,多くの下流タスクにおいて,一般的な人間の動作合成を実現することができる。
論文 参考訳(メタデータ) (2024-06-15T21:10:37Z) - Universal Humanoid Motion Representations for Physics-Based Control [71.46142106079292]
物理学に基づくヒューマノイド制御のための総合的な運動スキルを含む普遍的な運動表現を提案する。
まず、大きな非構造運動データセットから人間の動きをすべて模倣できる動き模倣機を学習する。
次に、模倣者から直接スキルを蒸留することで、動作表現を作成します。
論文 参考訳(メタデータ) (2023-10-06T20:48:43Z) - Object Motion Guided Human Motion Synthesis [22.08240141115053]
大規模物体の操作におけるフルボディ人体動作合成の問題点について検討する。
条件付き拡散フレームワークであるOMOMO(Object Motion Guided Human Motion synthesis)を提案する。
我々は、操作対象物にスマートフォンを装着するだけで、全身の人間の操作動作をキャプチャする新しいシステムを開発した。
論文 参考訳(メタデータ) (2023-09-28T08:22:00Z) - Task-Oriented Human-Object Interactions Generation with Implicit Neural
Representations [61.659439423703155]
TOHO: 命令型ニューラル表現を用いたタスク指向型ヒューマンオブジェクトインタラクション生成
本手法は時間座標のみでパラメータ化される連続運動を生成する。
この研究は、一般的なヒューマン・シーンの相互作用シミュレーションに向けて一歩前進する。
論文 参考訳(メタデータ) (2023-03-23T09:31:56Z) - Human MotionFormer: Transferring Human Motions with Vision Transformers [73.48118882676276]
人間の動き伝達は、運動合成のためにターゲットの動的人物からソースの静的人物に動きを伝達することを目的としている。
本稿では,世界的および地域的認識を活用して,大規模かつ微妙な動きマッチングを捉える階層型ViTフレームワークであるHuman MotionFormerを提案する。
我々のHuman MotionFormerは、定性的かつ定量的に新しい最先端のパフォーマンスをセットしている。
論文 参考訳(メタデータ) (2023-02-22T11:42:44Z) - MotionBERT: A Unified Perspective on Learning Human Motion
Representations [46.67364057245364]
本研究では,大規模・異種データ資源から人の動き表現を学習することで,人間中心のビデオタスクに取り組むための統一的な視点を示す。
本研究では,ノイズのある部分的な2次元観測から基礎となる3次元運動を復元するために,モーションエンコーダを訓練する事前学習段階を提案する。
動作エンコーダをDST(Dual-stream Spatio-temporal Transformer)ニューラルネットワークで実装する。
論文 参考訳(メタデータ) (2022-10-12T19:46:25Z) - MoDi: Unconditional Motion Synthesis from Diverse Data [51.676055380546494]
多様な動きを合成する無条件生成モデルであるMoDiを提案する。
我々のモデルは、多様な、構造化されていない、ラベルなしのモーションデータセットから完全に教師なしの設定で訓練されている。
データセットに構造が欠けているにもかかわらず、潜在空間は意味的にクラスタ化可能であることを示す。
論文 参考訳(メタデータ) (2022-06-16T09:06:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。