論文の概要: MotioNet: 3D Human Motion Reconstruction from Monocular Video with
Skeleton Consistency
- arxiv url: http://arxiv.org/abs/2006.12075v1
- Date: Mon, 22 Jun 2020 08:50:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2022-11-18 05:57:18.630970
- Title: MotioNet: 3D Human Motion Reconstruction from Monocular Video with
Skeleton Consistency
- Title(参考訳): MotioNet:スケルトン一貫性を持つ単眼ビデオからの3次元モーション再構成
- Authors: Mingyi Shi, Kfir Aberman, Andreas Aristidou, Taku Komura, Dani
Lischinski, Daniel Cohen-Or, Baoquan Chen
- Abstract要約: モノクロビデオから3次元人間の骨格の動きを直接再構成するディープニューラルネットワークであるMotioNetを紹介した。
本手法は,動作表現を完全かつ一般的に使用するキネマティックスケルトンを直接出力する最初のデータ駆動型手法である。
- 参考スコア(独自算出の注目度): 72.82534577726334
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce MotioNet, a deep neural network that directly reconstructs the
motion of a 3D human skeleton from monocular video.While previous methods rely
on either rigging or inverse kinematics (IK) to associate a consistent skeleton
with temporally coherent joint rotations, our method is the first data-driven
approach that directly outputs a kinematic skeleton, which is a complete,
commonly used, motion representation. At the crux of our approach lies a deep
neural network with embedded kinematic priors, which decomposes sequences of 2D
joint positions into two separate attributes: a single, symmetric, skeleton,
encoded by bone lengths, and a sequence of 3D joint rotations associated with
global root positions and foot contact labels. These attributes are fed into an
integrated forward kinematics (FK) layer that outputs 3D positions, which are
compared to a ground truth. In addition, an adversarial loss is applied to the
velocities of the recovered rotations, to ensure that they lie on the manifold
of natural joint rotations. The key advantage of our approach is that it learns
to infer natural joint rotations directly from the training data, rather than
assuming an underlying model, or inferring them from joint positions using a
data-agnostic IK solver. We show that enforcing a single consistent skeleton
along with temporally coherent joint rotations constrains the solution space,
leading to a more robust handling of self-occlusions and depth ambiguities.
- Abstract(参考訳): motionetは,単眼映像から3次元人間の骨格の動きを直接再構築する深層ニューラルネットワークである。これまでの手法では,連続的な骨格と時間的コヒーレントな関節回転を関連付けるために,リギングあるいは逆運動学(ik)のどちらかに依存しているが,本手法は,完全に,一般的に使用される運動表現であるキネマティックスケルトンを直接出力する最初のデータ駆動アプローチである。
アプローチの要点は, 2次元関節位置の配列を, 単一の, 対称, 骨格, 骨長でエンコードされた, グローバルな根の位置と足の接触ラベルに関連付けられた3次元関節回転のシーケンスの2つの属性に分解する。
これらの属性は3d位置を出力するfk(integrated forward kinematics)層に供給され、基底真理と比較される。
さらに、逆損失は回収された回転の速度に適用され、それらが自然関節回転の多様体上にあることを保証する。
提案手法の主な利点は、基礎となるモデルを仮定するのではなく、トレーニングデータから直接自然関節回転を推定するか、データに依存しないIKソルバを用いて関節位置から推測するかである。
その結果, 時間的に連接した関節回転を伴う単一の一貫した骨格が解空間を拘束し, 自己排他性と深さの曖昧さをより強固に処理できることがわかった。
関連論文リスト
- Learning Localization of Body and Finger Animation Skeleton Joints on Three-Dimensional Models of Human Bodies [0.0]
本研究は,人体の3次元モデル内での人体と指のアニメーションの骨格関節の位置決め問題に対する,そのような解決法を提案する。
提案手法を最先端技術と比較することにより,より単純なアーキテクチャで極めて優れた結果が得られることを示す。
論文 参考訳(メタデータ) (2024-07-11T13:16:02Z) - SkelFormer: Markerless 3D Pose and Shape Estimation using Skeletal Transformers [57.46911575980854]
マルチビュー人間のポーズと形状推定のための新しいマーカーレスモーションキャプチャパイプラインであるSkelFormerを紹介する。
提案手法は,まず市販の2次元キーポイント推定器を用いて,大規模インザミルドデータに基づいて事前トレーニングを行い,3次元関節位置を求める。
次に、重雑音観測から、関節の位置をポーズと形状の表現にマッピングする回帰に基づく逆運動性骨格変換器を設計する。
論文 参考訳(メタデータ) (2024-04-19T04:51:18Z) - Unsupervised 3D Pose Estimation with Non-Rigid Structure-from-Motion
Modeling [83.76377808476039]
本研究では,人間のポーズの変形をモデル化し,それに伴う拡散に基づく動きを事前に設計する手法を提案する。
動作中の3次元人間の骨格を復元する作業は3次元基準骨格の推定に分割する。
混合時空間NASfMformerを用いて、各フレームの3次元基準骨格と骨格変形を2次元観測シーケンスから同時に推定する。
論文 参考訳(メタデータ) (2023-08-18T16:41:57Z) - A Dual-Masked Auto-Encoder for Robust Motion Capture with
Spatial-Temporal Skeletal Token Completion [13.88656793940129]
本稿では, 3次元関節を再構成し, 個々の関節を識別するための適応的, アイデンティティを意識した三角測量モジュールを提案する。
次に,D-MAE(Dual-Masked Auto-Encoder)を提案する。
重大なデータ損失シナリオを扱う上で提案するモデルの能力を実証するために,高精度で挑戦的なモーションキャプチャデータセットに貢献する。
論文 参考訳(メタデータ) (2022-07-15T10:00:43Z) - MixSTE: Seq2seq Mixed Spatio-Temporal Encoder for 3D Human Pose
Estimation in Video [75.23812405203778]
近年, 学習時間相関のため, 全フレームのボディジョイントを世界規模で考慮し, 2次元キーポイントシーケンスから3次元人間のポーズを推定する手法が提案されている。
本研究では,各関節の時間的動きを別々にモデル化する時間的変圧器ブロックと,関節間空間相関を有する変圧器ブロックを有するミキシングミキシングを提案する。
さらに、ネットワーク出力は、中央フレームから入力ビデオの全フレームに拡張され、入力と出力のベンチマーク間のコヒーレンスが改善される。
論文 参考訳(メタデータ) (2022-03-02T04:20:59Z) - 3D Skeleton-based Few-shot Action Recognition with JEANIE is not so
Na\"ive [28.720272938306692]
We propose a Few-shot Learning pipeline for 3D skeleton-based action recognition by Joint tEmporal and cAmera viewpoiNt alIgnmEnt。
論文 参考訳(メタデータ) (2021-12-23T16:09:23Z) - Attention-Driven Body Pose Encoding for Human Activity Recognition [0.0]
本稿では,人間の行動認識のための新しいアテンションベースボディポーズコーディングを提案する。
濃縮されたデータは、3次元体の関節位置データを補完し、モデル性能を向上させる。
論文 参考訳(メタデータ) (2020-09-29T22:17:17Z) - Skeleton-based Action Recognition via Spatial and Temporal Transformer
Networks [12.06555892772049]
本研究では,トランスフォーマーの自己アテンション演算子を用いて,関節間の依存関係をモデル化する空間-テンポラルトランスフォーマーネットワークを提案する。
提案したST-TRは,関節座標を入力として使用する場合のすべてのデータセットの最先端性能を達成し,骨情報を追加する場合の最先端特性と一致させる。
論文 参考訳(メタデータ) (2020-08-17T15:25:40Z) - Skeleton-Aware Networks for Deep Motion Retargeting [83.65593033474384]
骨格間のデータ駆動動作のための新しいディープラーニングフレームワークを提案する。
我々の手法は、トレーニングセットの運動間の明確なペアリングを必要とせずに、再ターゲティングの仕方を学ぶ。
論文 参考訳(メタデータ) (2020-05-12T12:51:40Z) - Anatomy-aware 3D Human Pose Estimation with Bone-based Pose
Decomposition [92.99291528676021]
3次元関節位置を直接回帰するのではなく,骨方向予測と骨長予測に分解する。
私たちのモチベーションは、人間の骨格の骨の長さが時間とともに一定であることにあります。
我々の完全なモデルは、Human3.6MとMPI-INF-3DHPデータセットにおいて、以前の最高の結果よりも優れています。
論文 参考訳(メタデータ) (2020-02-24T15:49:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。