論文の概要: Skeletor: Skeletal Transformers for Robust Body-Pose Estimation
- arxiv url: http://arxiv.org/abs/2104.11712v1
- Date: Fri, 23 Apr 2021 16:56:42 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-26 13:03:36.735864
- Title: Skeletor: Skeletal Transformers for Robust Body-Pose Estimation
- Title(参考訳): 骨格変換器 : 頑健な体温推定のための骨格変換器
- Authors: Tao Jiang, Necati Cihan Camgoz, Richard Bowden
- Abstract要約: ポーズとモーションの両方の分布を教師なしの方法で学習する新しいネットワークを提案します。
Skeletorは2500万フレームで学習し、スケルトン配列をスムーズかつ一貫して修正する。
Skeletorは、人間の3Dポーズ推定の性能を改善し、さらに手話翻訳のような下流タスクの利点を提供する。
- 参考スコア(独自算出の注目度): 45.29710323525548
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Predicting 3D human pose from a single monoscopic video can be highly
challenging due to factors such as low resolution, motion blur and occlusion,
in addition to the fundamental ambiguity in estimating 3D from 2D. Approaches
that directly regress the 3D pose from independent images can be particularly
susceptible to these factors and result in jitter, noise and/or inconsistencies
in skeletal estimation. Much of which can be overcome if the temporal evolution
of the scene and skeleton are taken into account. However, rather than tracking
body parts and trying to temporally smooth them, we propose a novel transformer
based network that can learn a distribution over both pose and motion in an
unsupervised fashion. We call our approach Skeletor. Skeletor overcomes
inaccuracies in detection and corrects partial or entire skeleton corruption.
Skeletor uses strong priors learn from on 25 million frames to correct skeleton
sequences smoothly and consistently. Skeletor can achieve this as it implicitly
learns the spatio-temporal context of human motion via a transformer based
neural network. Extensive experiments show that Skeletor achieves improved
performance on 3D human pose estimation and further provides benefits for
downstream tasks such as sign language translation.
- Abstract(参考訳): 単一単眼映像からの3次元人物ポーズの予測は,2次元からの3次元推定における基本的な曖昧さに加えて,低分解能,動きのぼかし,咬合といった要因により非常に困難である。
独立画像から直接3Dポーズを後退させるアプローチは、これらの要因に特に感受性があり、骨格推定におけるジッタ、ノイズ、および/または不整合をもたらす。
それらの多くは、シーンと骨格の時間的進化を考慮に入れれば克服できる。
しかし, 身体部位を追跡し, 時間的平滑化を図るのではなく, 姿勢と動作の両方を教師なしの方法で学習できる新しいトランスフォーマネットワークを提案する。
私たちはアプローチを骨格と呼びます。
骨格は検出における不正確さを克服し、部分的または全骨格の腐敗を是正する。
Skeletorは2500万フレームから学習し、スケルトン配列をスムーズかつ一貫して修正する。
Skeletorは、トランスフォーマーベースのニューラルネットワークを通じて人間の動きの時空間的文脈を暗黙的に学習することでこれを実現できる。
広範な実験により、skeletorは3次元人間のポーズ推定のパフォーマンスを向上し、手話翻訳のような下流タスクにも恩恵をもたらすことが示されている。
関連論文リスト
- ARTS: Semi-Analytical Regressor using Disentangled Skeletal Representations for Human Mesh Recovery from Videos [18.685856290041283]
ARTSは、一般的なベンチマークにおけるフレーム単位の精度と時間的一貫性の両方において、既存の最先端のビデオベースの手法を超越している。
ビデオから3Dスケルトンを推定するために,スケルトン推定およびアンタングルメントモジュールを提案する。
回帰器は、Temporal Inverse Kinematics (TIK), bone-guided Shape Fitting (BSF), Motion-Centric Refinement (MCR)の3つのモジュールで構成されている。
論文 参考訳(メタデータ) (2024-10-21T02:06:43Z) - Hybrid 3D Human Pose Estimation with Monocular Video and Sparse IMUs [15.017274891943162]
モノクロビデオからの時間的3Dポーズ推定は、人間中心のコンピュータビジョンにおいて難しい課題である。
情報ソースを補完するために慣性センサが導入された。
物理的に合理的な3Dポーズを生成するために、異種センサデータを統合することは依然として困難である。
論文 参考訳(メタデータ) (2024-04-27T09:02:42Z) - Cloth2Body: Generating 3D Human Body Mesh from 2D Clothing [54.29207348918216]
Cloth2Bodyは、入力の部分的な観察と出力の多様性によって引き起こされる新しい課題に対処する必要がある。
本稿では,2次元衣料品画像のポーズと形状によってパラメータ化された3Dボディメッシュを高精度に推定できるエンドツーエンドフレームワークを提案する。
実験結果から示されるように,提案手法は最先端の性能を実現し,自然および多様な3Dボディメッシュを2次元画像から効果的に回収することができる。
論文 参考訳(メタデータ) (2023-09-28T06:18:38Z) - Unsupervised 3D Pose Estimation with Non-Rigid Structure-from-Motion
Modeling [83.76377808476039]
本研究では,人間のポーズの変形をモデル化し,それに伴う拡散に基づく動きを事前に設計する手法を提案する。
動作中の3次元人間の骨格を復元する作業は3次元基準骨格の推定に分割する。
混合時空間NASfMformerを用いて、各フレームの3次元基準骨格と骨格変形を2次元観測シーケンスから同時に推定する。
論文 参考訳(メタデータ) (2023-08-18T16:41:57Z) - OSSO: Obtaining Skeletal Shape from Outside [50.47978215230605]
OSSO(Obtaining Skeletal Shape from Outside)は、実データから3次元体表面から内部骨格へのマッピングを初めて学習する。
そこで本研究では,体表面を捉えるためにパラメトリックな3次元体形モデル (STAR) と,骨を捉えるために新しい部分ベースの3次元骨格モデルを構築した。
次に、身体形状パラメータから骨格形状パラメータへ回帰器を訓練し、身体的妥当性の制約を満たすために骨格を洗練させる。
論文 参考訳(メタデータ) (2022-04-21T14:33:42Z) - 3D Skeleton-based Human Motion Prediction with Manifold-Aware GAN [3.1313293632309827]
本研究では,3次元骨格を用いた人体動作予測の新しい手法を提案する。
我々は,人間の運動の時間的および空間的依存を捉える,多様体を意識したワッサーシュタイン生成逆数モデルを構築した。
CMU MoCapとHuman 3.6Mデータセットで実験が行われた。
論文 参考訳(メタデータ) (2022-03-01T20:49:13Z) - Motion Projection Consistency Based 3D Human Pose Estimation with
Virtual Bones from Monocular Videos [16.808244226857745]
仮想骨の概念は3次元ポーズ推定における累積誤差の問題を解決するために提案される。
本稿では,実際の骨と仮想骨を同時に予測するネットワークを提案する。
ネットワークによって予測される2次元投影位置変位とカメラによるキャプチャされた実2次元変位との整合性は、3次元人間のポーズを学習するための新しい投影整合性損失として提案される。
論文 参考訳(メタデータ) (2021-06-28T13:37:57Z) - MotioNet: 3D Human Motion Reconstruction from Monocular Video with
Skeleton Consistency [72.82534577726334]
モノクロビデオから3次元人間の骨格の動きを直接再構成するディープニューラルネットワークであるMotioNetを紹介した。
本手法は,動作表現を完全かつ一般的に使用するキネマティックスケルトンを直接出力する最初のデータ駆動型手法である。
論文 参考訳(メタデータ) (2020-06-22T08:50:09Z) - Anatomy-aware 3D Human Pose Estimation with Bone-based Pose
Decomposition [92.99291528676021]
3次元関節位置を直接回帰するのではなく,骨方向予測と骨長予測に分解する。
私たちのモチベーションは、人間の骨格の骨の長さが時間とともに一定であることにあります。
我々の完全なモデルは、Human3.6MとMPI-INF-3DHPデータセットにおいて、以前の最高の結果よりも優れています。
論文 参考訳(メタデータ) (2020-02-24T15:49:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。