論文の概要: MoCaNet: Motion Retargeting in-the-wild via Canonicalization Networks
- arxiv url: http://arxiv.org/abs/2112.10082v2
- Date: Tue, 21 Dec 2021 09:16:15 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-22 12:37:34.773432
- Title: MoCaNet: Motion Retargeting in-the-wild via Canonicalization Networks
- Title(参考訳): MoCaNet: 標準化ネットワークによる移動再ターゲティング
- Authors: Wentao Zhu, Zhuoqian Yang, Ziang Di, Wayne Wu, Yizhou Wang, Chen
Change Loy
- Abstract要約: そこで本研究では,制御された環境から3次元動作タスクを実現する新しいフレームワークを提案する。
モーションキャプチャシステムや3D再構成手順を使わずに、2Dモノクロ映像のキャラクタから3Dキャラクタへの体動を可能にする。
- 参考スコア(独自算出の注目度): 77.56526918859345
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We present a novel framework that brings the 3D motion retargeting task from
controlled environments to in-the-wild scenarios. In particular, our method is
capable of retargeting body motion from a character in a 2D monocular video to
a 3D character without using any motion capture system or 3D reconstruction
procedure. It is designed to leverage massive online videos for unsupervised
training, needless of 3D annotations or motion-body pairing information. The
proposed method is built upon two novel canonicalization operations, structure
canonicalization and view canonicalization. Trained with the canonicalization
operations and the derived regularizations, our method learns to factorize a
skeleton sequence into three independent semantic subspaces, i.e., motion,
structure, and view angle. The disentangled representation enables motion
retargeting from 2D to 3D with high precision. Our method achieves superior
performance on motion transfer benchmarks with large body variations and
challenging actions. Notably, the canonicalized skeleton sequence could serve
as a disentangled and interpretable representation of human motion that
benefits action analysis and motion retrieval.
- Abstract(参考訳): 制御された環境からの3次元モーションリターゲティングタスクを現場のシナリオにもたらす新しいフレームワークを提案する。
特に,2次元モノクロ映像のキャラクタから3次元キャラクタへの体の動きを,モーションキャプチャシステムや3次元再構成手順を使わずに再ターゲットすることが可能である。
3dアノテーションやモーションボディーのペアリング情報のない、教師なしのトレーニングに巨大なオンラインビデオを活用するように設計されている。
提案手法は,2つの新しい正準化演算,構造正準化とビュー正準化に基づく。
正準化操作と導出正規化を併用して,本手法は骨格配列を3つの独立した意味空間,すなわち運動,構造,視角に分解する。
歪んだ表現は、高精度で2Dから3Dへの動き再ターゲティングを可能にする。
提案手法は, 運動伝達ベンチマークにおいて, 身体の変動が大きく, 挑戦的な動作で優れた性能を実現する。
特に、標準化された骨格配列は、行動分析と運動検索の恩恵を受ける人間の動きの歪んだ解釈可能な表現として機能する可能性がある。
関連論文リスト
- Dynamic Scene Understanding through Object-Centric Voxelization and Neural Rendering [57.895846642868904]
オブジェクト中心学習が可能な動的シーンのための3次元生成モデルDynaVol-Sを提案する。
ボキセル化は、個々の空間的位置において、物体ごとの占有確率を推定する。
提案手法は2次元セマンティックな特徴を統合して3次元セマンティック・グリッドを作成し,複数の不整合ボクセル・グリッドを通してシーンを表現する。
論文 参考訳(メタデータ) (2024-07-30T15:33:58Z) - Shape of Motion: 4D Reconstruction from a Single Video [51.04575075620677]
本稿では,全列長3D動作を特徴とする汎用動的シーンを再構築する手法を提案する。
シーン動作をコンパクトなSE3モーションベースで表現することで,3次元動作の低次元構造を利用する。
本手法は,3D/2Dの長距離動き推定と動的シーンにおける新しいビュー合成の両面において,最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-07-18T17:59:08Z) - Generating Continual Human Motion in Diverse 3D Scenes [56.70255926954609]
本研究では,3次元シーンにまたがる人間の動きを誘導するアニメーターを合成する手法を提案する。
本研究では,連続的な動作合成問題を経路に沿って歩行し,キーポイントが指定した動作の内外への遷移に分解する。
我々のモデルは、つかんだり、座ったり、傾いたりといった多様な行動の長いシーケンスを生成することができる。
論文 参考訳(メタデータ) (2023-04-04T18:24:22Z) - MotionBERT: A Unified Perspective on Learning Human Motion
Representations [46.67364057245364]
本研究では,大規模・異種データ資源から人の動き表現を学習することで,人間中心のビデオタスクに取り組むための統一的な視点を示す。
本研究では,ノイズのある部分的な2次元観測から基礎となる3次元運動を復元するために,モーションエンコーダを訓練する事前学習段階を提案する。
動作エンコーダをDST(Dual-stream Spatio-temporal Transformer)ニューラルネットワークで実装する。
論文 参考訳(メタデータ) (2022-10-12T19:46:25Z) - Action2video: Generating Videos of Human 3D Actions [31.665831044217363]
我々は、所定のアクションカテゴリから多様で自然な人間の動きのビデオを生成するという、興味深いが挑戦的な課題に取り組むことを目的としている。
重要な問題は、視覚的な外観で現実的な複数の異なる動き列を合成する能力にある。
Action2motionallyは、所定のアクションカテゴリのもっともらしい3Dポーズシーケンスを生成し、モーション2ビデオによって処理され、レンダリングされ、2Dビデオを形成する。
論文 参考訳(メタデータ) (2021-11-12T20:20:37Z) - Neural Monocular 3D Human Motion Capture with Physical Awareness [76.55971509794598]
物理的に可塑性なマーカーレス3次元モーションキャプチャのための新しいトレーニングシステムを提案する。
人間のモーションキャプチャのためのほとんどのニューラルな手法とは異なり、我々のアプローチは物理的および環境的な制約を認識している。
様々な場面でインタラクティブなフレームレートで、滑らかで物理的に原理化された3dモーションを生成する。
論文 参考訳(メタデータ) (2021-05-03T17:57:07Z) - Learning monocular 3D reconstruction of articulated categories from
motion [39.811816510186475]
ビデオの自己スーパービジョンは、動きに基づくサイクルロスによる連続した3次元再構成の一貫性を強要する。
少数の局所的学習可能なハンドルの変位を介して3D表面を制御する3Dテンプレート変形の解釈可能なモデルを紹介します。
多様な形状, 視点, テクスチャを具体化して, 複数の対象カテゴリーのテクスチャを再現する。
論文 参考訳(メタデータ) (2021-03-30T13:50:27Z) - Motion Guided 3D Pose Estimation from Videos [81.14443206968444]
本研究では,2次元ポーズから1次元の人物ポーズ推定を行う問題に対して,運動損失と呼ばれる新たな損失関数を提案する。
運動損失の計算では、ペアワイズ・モーション・エンコーディング(ペアワイズ・モーション・エンコーディング)と呼ばれる単純なキーポイント・モーションの表現が導入された。
UGCN(U-shaped GCN)と呼ばれる新しいグラフ畳み込みネットワークアーキテクチャを設計し,短期および長期の動作情報の両方をキャプチャする。
論文 参考訳(メタデータ) (2020-04-29T06:59:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。