論文の概要: MotionBERT: Unified Pretraining for Human Motion Analysis
- arxiv url: http://arxiv.org/abs/2210.06551v1
- Date: Wed, 12 Oct 2022 19:46:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-14 16:09:17.092387
- Title: MotionBERT: Unified Pretraining for Human Motion Analysis
- Title(参考訳): MotionBERT:人間の動作分析のための統一プレトレーニング
- Authors: Wentao Zhu, Xiaoxuan Ma, Zhaoyang Liu, Libin Liu, Wayne Wu, Yizhou
Wang
- Abstract要約: 本研究では,人間の動作分析の異なるサブタスクに対処するための統合事前学習フレームワークを提案する。
提案するフレームワークは、あらゆる種類の人の動きデータ資源を利用することができる。
動作エンコーダをDST(Dual-stream S-temporal Transformer)ニューラルネットで実装する。
- 参考スコア(独自算出の注目度): 30.03793239335928
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We present MotionBERT, a unified pretraining framework, to tackle different
sub-tasks of human motion analysis including 3D pose estimation, skeleton-based
action recognition, and mesh recovery. The proposed framework is capable of
utilizing all kinds of human motion data resources, including motion capture
data and in-the-wild videos. During pretraining, the pretext task requires the
motion encoder to recover the underlying 3D motion from noisy partial 2D
observations. The pretrained motion representation thus acquires geometric,
kinematic, and physical knowledge about human motion and therefore can be
easily transferred to multiple downstream tasks. We implement the motion
encoder with a novel Dual-stream Spatio-temporal Transformer (DSTformer) neural
network. It could capture long-range spatio-temporal relationships among the
skeletal joints comprehensively and adaptively, exemplified by the lowest 3D
pose estimation error so far when trained from scratch. More importantly, the
proposed framework achieves state-of-the-art performance on all three
downstream tasks by simply finetuning the pretrained motion encoder with 1-2
linear layers, which demonstrates the versatility of the learned motion
representations.
- Abstract(参考訳): 我々は,3次元ポーズ推定,骨格に基づく行動認識,メッシュ回復など,人間の動作分析のさまざまなサブタスクに取り組むための統合事前学習フレームワークであるMotionBERTを提案する。
提案するフレームワークは,モーションキャプチャデータや眼球内ビデオなど,あらゆる種類の人体の動きデータ資源を利用することができる。
プレテキストタスクでは、ノイズのある部分的な2次元観察から基礎となる3次元の動きを復元するために、モーションエンコーダが必要となる。
事前訓練された動作表現は、人間の動作に関する幾何学的、運動的、物理的知識を取得するので、容易に複数の下流タスクに転送できる。
動作エンコーダを新しいDST(Dual-stream Spatio-temporal Transformer)ニューラルネットワークで実装する。
骨格関節の長距離時空間的関係を包括的かつ適応的に捉え、スクラッチから訓練された場合の最低3次元ポーズ推定誤差を例示する。
さらに,提案フレームワークは,学習した動作表現の汎用性を示す1-2階層の事前学習された動きエンコーダを単純に微調整することで,3つの下流タスクの最先端性能を実現する。
関連論文リスト
- Learning Human Motion from Monocular Videos via Cross-Modal Manifold Alignment [45.74813582690906]
2次元入力から人間の3D動作を学ぶことは、コンピュータビジョンとコンピュータグラフィックスの領域における基本的な課題である。
本稿では、モーダルなラテント特徴空間アライメントにより、動きの先行値を活用するビデオ・トゥ・モーション・ジェネレータ(VTM)を提案する。
VTMでは、モノクロビデオから3Dの人間の動きを再構築する、最先端のパフォーマンスが紹介されている。
論文 参考訳(メタデータ) (2024-04-15T06:38:09Z) - SurMo: Surface-based 4D Motion Modeling for Dynamic Human Rendering [45.51684124904457]
統合されたフレームワークにおける時間的ダイナミクスと人間の外見をモデル化する新しい4DモーションパラダイムであるSurMoを提案する。
効率的なコンパクトな表面ベース三面体で4次元の人間の動きをモデル化する表面ベースの動き符号化。
身体運動学習を促進するために設計された身体運動復号法。
表面条件の効率的なデコードにより、モーショントリプレーンを画像にレンダリングする4次元の外観モデリング。
論文 参考訳(メタデータ) (2024-04-01T16:34:27Z) - Universal Humanoid Motion Representations for Physics-Based Control [71.46142106079292]
物理学に基づくヒューマノイド制御のための総合的な運動スキルを含む普遍的な運動表現を提案する。
まず、大きな非構造運動データセットから人間の動きをすべて模倣できる動き模倣機を学習する。
次に、模倣者から直接スキルを蒸留することで、動作表現を作成します。
論文 参考訳(メタデータ) (2023-10-06T20:48:43Z) - MoCaNet: Motion Retargeting in-the-wild via Canonicalization Networks [77.56526918859345]
そこで本研究では,制御された環境から3次元動作タスクを実現する新しいフレームワークを提案する。
モーションキャプチャシステムや3D再構成手順を使わずに、2Dモノクロ映像のキャラクタから3Dキャラクタへの体動を可能にする。
論文 参考訳(メタデータ) (2021-12-19T07:52:05Z) - Action2video: Generating Videos of Human 3D Actions [31.665831044217363]
我々は、所定のアクションカテゴリから多様で自然な人間の動きのビデオを生成するという、興味深いが挑戦的な課題に取り組むことを目的としている。
重要な問題は、視覚的な外観で現実的な複数の異なる動き列を合成する能力にある。
Action2motionallyは、所定のアクションカテゴリのもっともらしい3Dポーズシーケンスを生成し、モーション2ビデオによって処理され、レンダリングされ、2Dビデオを形成する。
論文 参考訳(メタデータ) (2021-11-12T20:20:37Z) - High-Fidelity Neural Human Motion Transfer from Monocular Video [71.75576402562247]
ビデオベースの人間のモーション転送は、ソースモーションに従って人間のビデオアニメーションを作成します。
自然なポーズ依存非剛性変形を伴う高忠実で時間的に一貫性のある人の動き伝達を行う新しい枠組みを提案する。
実験結果では,映像リアリズムの点で最先端を著しく上回っている。
論文 参考訳(メタデータ) (2020-12-20T16:54:38Z) - Contact and Human Dynamics from Monocular Video [73.47466545178396]
既存のディープモデルは、ほぼ正確に見えるエラーを含むビデオから2Dと3Dキネマティックのポーズを予測する。
本稿では,最初の2次元と3次元のポーズ推定を入力として,映像系列から3次元の人間の動きを推定する物理に基づく手法を提案する。
論文 参考訳(メタデータ) (2020-07-22T21:09:11Z) - Motion Guided 3D Pose Estimation from Videos [81.14443206968444]
本研究では,2次元ポーズから1次元の人物ポーズ推定を行う問題に対して,運動損失と呼ばれる新たな損失関数を提案する。
運動損失の計算では、ペアワイズ・モーション・エンコーディング(ペアワイズ・モーション・エンコーディング)と呼ばれる単純なキーポイント・モーションの表現が導入された。
UGCN(U-shaped GCN)と呼ばれる新しいグラフ畳み込みネットワークアーキテクチャを設計し,短期および長期の動作情報の両方をキャプチャする。
論文 参考訳(メタデータ) (2020-04-29T06:59:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。