Fugu-MT 論文翻訳(概要): MotionBERT: A Unified Perspective on Learning Human Motion Representations

論文の概要: MotionBERT: A Unified Perspective on Learning Human Motion Representations

arxiv url: http://arxiv.org/abs/2210.06551v5
Date: Mon, 14 Aug 2023 12:11:35 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-15 23:06:18.854587
Title: MotionBERT: A Unified Perspective on Learning Human Motion Representations
Title（参考訳）: MotionBERT:人間の動きの表現を学習する統一的な視点
Authors: Wentao Zhu, Xiaoxuan Ma, Zhaoyang Liu, Libin Liu, Wayne Wu, Yizhou Wang
Abstract要約: 本研究では,大規模・異種データ資源から人の動き表現を学習することで,人間中心のビデオタスクに取り組むための統一的な視点を示す。本研究では,ノイズのある部分的な2次元観測から基礎となる3次元運動を復元するために,モーションエンコーダを訓練する事前学習段階を提案する。動作エンコーダをDST(Dual-stream Spatio-temporal Transformer)ニューラルネットワークで実装する。
参考スコア（独自算出の注目度）: 46.67364057245364
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: We present a unified perspective on tackling various human-centric video tasks by learning human motion representations from large-scale and heterogeneous data resources. Specifically, we propose a pretraining stage in which a motion encoder is trained to recover the underlying 3D motion from noisy partial 2D observations. The motion representations acquired in this way incorporate geometric, kinematic, and physical knowledge about human motion, which can be easily transferred to multiple downstream tasks. We implement the motion encoder with a Dual-stream Spatio-temporal Transformer (DSTformer) neural network. It could capture long-range spatio-temporal relationships among the skeletal joints comprehensively and adaptively, exemplified by the lowest 3D pose estimation error so far when trained from scratch. Furthermore, our proposed framework achieves state-of-the-art performance on all three downstream tasks by simply finetuning the pretrained motion encoder with a simple regression head (1-2 layers), which demonstrates the versatility of the learned motion representations. Code and models are available at https://motionbert.github.io/
Abstract（参考訳）: 本稿では,大規模・異種データ資源から人間の動作表現を学習し,人間中心のビデオ課題に取り組むための統一的な視点を提案する。具体的には,ノイズのある部分的な2次元観測から基礎となる3次元運動を復元するために,動きエンコーダを訓練する事前学習ステージを提案する。この方法で得られた運動表現は、人の動きに関する幾何学的、運動学的、物理的知識を取り入れており、容易に複数の下流タスクに転送できる。動作エンコーダをDST(Dual-stream Spatio-temporal Transformer)ニューラルネットワークで実装する。骨格関節の長距離時空間的関係を包括的かつ適応的に捉え、スクラッチから訓練された場合の最低3次元ポーズ推定誤差を例示する。さらに,提案手法は,学習した動作表現の汎用性を示す単純な回帰ヘッド(1-2層)で事前学習した動きエンコーダを微調整することで,3つの下流タスクの最先端性能を実現する。コードとモデルはhttps://motionbert.github.io/で入手できる。

関連論文リスト

Superman: Unifying Skeleton and Vision for Human Motion Perception and Generation [32.57062686780495]
Supermanは、視覚知覚を時間的、骨格に基づくモーション生成にブリッジする統合フレームワークである。このモジュールは、多種多様な時間的入力を柔軟に処理し、ビデオ(知覚)からスケルトンに基づく動き予測とin-betweening(世代)による3Dスケルトンポーズを推定する。
論文参考訳（メタデータ） (2026-02-02T17:59:01Z)
Learning to Control Physically-simulated 3D Characters via Generating and Mimicking 2D Motions [23.080971732537886]
Mimic2DMはビデオから抽出した2Dキーポイント軌跡から直接制御ポリシーを学習する新しい動作模倣フレームワークである。提案手法は多目的であり,様々な領域にわたる物理的に可塑性かつ多様な動作を効果的に学習できることを示す。
論文参考訳（メタデータ） (2025-12-09T11:30:56Z)
Object-centric 3D Motion Field for Robot Learning from Human Videos [56.9436352861611]
本稿では,人間ビデオからのロボット学習の動作を表現するために,物体中心の3次元運動場を提案する。ゼロショット制御のためのビデオからこの表現を抽出するための新しいフレームワークを提案する。実験の結果,提案手法は最新の手法に比べて3次元動作推定誤差を50%以上削減できることがわかった。
論文参考訳（メタデータ） (2025-06-04T17:59:06Z)
Mocap-2-to-3: Multi-view Lifting for Monocular Motion Recovery with 2D Pretraining [49.223455189395025]
Mocap-2-to-3は単分子入力からマルチビューリフトを実行する新しいフレームワークである。豊富な2次元データを活用するため、複雑な3次元運動を多視点合成に分解する。本手法は,カメラ空間のモーションリアリズムと世界空間の人間の位置決めの両面において,最先端のアプローチを超越した手法である。
論文参考訳（メタデータ） (2025-03-05T06:32:49Z)
Learning Human Motion from Monocular Videos via Cross-Modal Manifold Alignment [45.74813582690906]
2次元入力から人間の3D動作を学ぶことは、コンピュータビジョンとコンピュータグラフィックスの領域における基本的な課題である。本稿では、モーダルなラテント特徴空間アライメントにより、動きの先行値を活用するビデオ・トゥ・モーション・ジェネレータ(VTM)を提案する。 VTMでは、モノクロビデオから3Dの人間の動きを再構築する、最先端のパフォーマンスが紹介されている。
論文参考訳（メタデータ） (2024-04-15T06:38:09Z)
SurMo: Surface-based 4D Motion Modeling for Dynamic Human Rendering [45.51684124904457]
統合されたフレームワークにおける時間的ダイナミクスと人間の外見をモデル化する新しい4DモーションパラダイムであるSurMoを提案する。効率的なコンパクトな表面ベース三面体で4次元の人間の動きをモデル化する表面ベースの動き符号化。身体運動学習を促進するために設計された身体運動復号法。表面条件の効率的なデコードにより、モーショントリプレーンを画像にレンダリングする4次元の外観モデリング。
論文参考訳（メタデータ） (2024-04-01T16:34:27Z)
Universal Humanoid Motion Representations for Physics-Based Control [71.46142106079292]
物理学に基づくヒューマノイド制御のための総合的な運動スキルを含む普遍的な運動表現を提案する。まず、大きな非構造運動データセットから人間の動きをすべて模倣できる動き模倣機を学習する。次に、模倣者から直接スキルを蒸留することで、動作表現を作成します。
論文参考訳（メタデータ） (2023-10-06T20:48:43Z)
MoCaNet: Motion Retargeting in-the-wild via Canonicalization Networks [77.56526918859345]
そこで本研究では,制御された環境から3次元動作タスクを実現する新しいフレームワークを提案する。モーションキャプチャシステムや3D再構成手順を使わずに、2Dモノクロ映像のキャラクタから3Dキャラクタへの体動を可能にする。
論文参考訳（メタデータ） (2021-12-19T07:52:05Z)
Action2video: Generating Videos of Human 3D Actions [31.665831044217363]
我々は、所定のアクションカテゴリから多様で自然な人間の動きのビデオを生成するという、興味深いが挑戦的な課題に取り組むことを目的としている。重要な問題は、視覚的な外観で現実的な複数の異なる動き列を合成する能力にある。 Action2motionallyは、所定のアクションカテゴリのもっともらしい3Dポーズシーケンスを生成し、モーション2ビデオによって処理され、レンダリングされ、2Dビデオを形成する。
論文参考訳（メタデータ） (2021-11-12T20:20:37Z)
High-Fidelity Neural Human Motion Transfer from Monocular Video [71.75576402562247]
ビデオベースの人間のモーション転送は、ソースモーションに従って人間のビデオアニメーションを作成します。自然なポーズ依存非剛性変形を伴う高忠実で時間的に一貫性のある人の動き伝達を行う新しい枠組みを提案する。実験結果では,映像リアリズムの点で最先端を著しく上回っている。
論文参考訳（メタデータ） (2020-12-20T16:54:38Z)
Contact and Human Dynamics from Monocular Video [73.47466545178396]
既存のディープモデルは、ほぼ正確に見えるエラーを含むビデオから2Dと3Dキネマティックのポーズを予測する。本稿では,最初の2次元と3次元のポーズ推定を入力として,映像系列から3次元の人間の動きを推定する物理に基づく手法を提案する。
論文参考訳（メタデータ） (2020-07-22T21:09:11Z)
Motion Guided 3D Pose Estimation from Videos [81.14443206968444]
本研究では,2次元ポーズから1次元の人物ポーズ推定を行う問題に対して,運動損失と呼ばれる新たな損失関数を提案する。運動損失の計算では、ペアワイズ・モーション・エンコーディング(ペアワイズ・モーション・エンコーディング)と呼ばれる単純なキーポイント・モーションの表現が導入された。 UGCN(U-shaped GCN)と呼ばれる新しいグラフ畳み込みネットワークアーキテクチャを設計し,短期および長期の動作情報の両方をキャプチャする。
論文参考訳（メタデータ） (2020-04-29T06:59:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。