論文の概要: Multi-Scale Networks for 3D Human Pose Estimation with Inference Stage
Optimization
- arxiv url: http://arxiv.org/abs/2010.06844v2
- Date: Fri, 16 Oct 2020 19:42:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-08 00:15:27.619243
- Title: Multi-Scale Networks for 3D Human Pose Estimation with Inference Stage
Optimization
- Title(参考訳): 推定段階最適化による3次元ポーズ推定のためのマルチスケールネットワーク
- Authors: Cheng Yu, Bo Wang, Bo Yang, Robby T. Tan
- Abstract要約: モノクロビデオから3Dのポーズを推定することは、まだまだ難しい課題だ。
既存の多くのメソッドは、対象の人が他のオブジェクトに干渉されたり、トレーニングデータのスケールや速度に対して動きが速すぎたり、遅くなったりすると低下する。
頑健な3次元ポーズ推定のための時間的ネットワークを提案する。
- 参考スコア(独自算出の注目度): 33.02708860641971
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Estimating 3D human poses from a monocular video is still a challenging task.
Many existing methods' performance drops when the target person is occluded by
other objects, or the motion is too fast/slow relative to the scale and speed
of the training data. Moreover, many of these methods are not designed or
trained under severe occlusion explicitly, making their performance on handling
occlusion compromised. Addressing these problems, we introduce a
spatio-temporal network for robust 3D human pose estimation. As humans in
videos may appear in different scales and have various motion speeds, we apply
multi-scale spatial features for 2D joints or keypoints prediction in each
individual frame, and multi-stride temporal convolutional networks (TCNs) to
estimate 3D joints or keypoints. Furthermore, we design a spatio-temporal
discriminator based on body structures as well as limb motions to assess
whether the predicted pose forms a valid pose and a valid movement. During
training, we explicitly mask out some keypoints to simulate various occlusion
cases, from minor to severe occlusion, so that our network can learn better and
becomes robust to various degrees of occlusion. As there are limited 3D
ground-truth data, we further utilize 2D video data to inject a semi-supervised
learning capability to our network. Moreover, we observe that there is a
discrepancy between 3D pose prediction and 2D pose estimation due to different
pose variations between video and image training datasets. We, therefore
propose a confidence-based inference stage optimization to adaptively enforce
3D pose projection to match 2D pose estimation to further improve final pose
prediction accuracy. Experiments on public datasets validate the effectiveness
of our method, and our ablation studies show the strengths of our network's
individual submodules.
- Abstract(参考訳): 単眼ビデオから3d人間のポーズを推定することは依然として難しい課題である。
既存の方法の多くは、対象者が他のオブジェクトにオクルードされた場合や、トレーニングデータのスケールや速度に対して動作が速すぎる場合などに低下する。
さらに、これらの手法の多くは、厳密な閉塞下で設計や訓練が行われておらず、閉塞処理のパフォーマンスが損なわれている。
これらの問題に対処するため,ロバストな3次元ポーズ推定のための時空間ネットワークを提案する。
映像中の人間が異なるスケールで出現し、様々な動き速度を持つため、各フレームの2次元関節やキーポイント予測にマルチスケール空間特徴を適用し、マルチストライド時間畳み込みネットワーク(tcns)を用いて3次元関節やキーポイントを推定する。
さらに,身体構造に基づく時空間判別器と手足運動をデザインし,予測されたポーズが有効なポーズか有効な動きかを評価する。
訓練中,軽度咬合から重度咬合まで,様々な咬合症例をシミュレートするためのキーポイントを明示的にマスクし,ネットワークがより良く学習し,各種咬合に対して頑健になるようにした。
3次元地上データに制限があるため、2次元映像データを利用して半教師あり学習機能をネットワークに注入する。
また,映像と画像のトレーニングデータセットのポーズ変動が異なるため,3次元ポーズ予測と2次元ポーズ推定に差があることを観察した。
そこで我々は,2次元ポーズ推定に適合する3次元ポーズプロジェクションを適応的に適用し,最終的なポーズ予測精度をさらに向上する信頼性ベースの推論ステージ最適化を提案する。
提案手法の有効性を検証する公開データセット実験を行い,ネットワークの個々のサブモジュールの長所について検討した。
関連論文リスト
- UPose3D: Uncertainty-Aware 3D Human Pose Estimation with Cross-View and Temporal Cues [55.69339788566899]
UPose3Dは多視点人間のポーズ推定のための新しいアプローチである。
直接的な3Dアノテーションを必要とせずに、堅牢性と柔軟性を向上させる。
論文 参考訳(メタデータ) (2024-04-23T00:18:00Z) - Optimising 2D Pose Representation: Improve Accuracy, Stability and
Generalisability Within Unsupervised 2D-3D Human Pose Estimation [7.294965109944706]
2次元ポーズの最も最適な表現は2つの独立した部分(胴体と脚)であり、各リフトネットワーク間に共通な特徴はない。
その結果、2次元ポーズの最も最適な表現は2つの独立した部分(胴体と脚)であり、各リフトネットワーク間に共通な特徴はないことがわかった。
論文 参考訳(メタデータ) (2022-09-01T17:32:52Z) - On Triangulation as a Form of Self-Supervision for 3D Human Pose
Estimation [57.766049538913926]
ラベル付きデータが豊富である場合, 単一画像からの3次元ポーズ推定に対する改良されたアプローチは, 極めて効果的である。
最近の注目の多くは、セミと(あるいは)弱い教師付き学習に移行している。
本稿では,多視点の幾何学的制約を,識別可能な三角測量を用いて課し,ラベルがない場合の自己監督の形式として用いることを提案する。
論文 参考訳(メタデータ) (2022-03-29T19:11:54Z) - PONet: Robust 3D Human Pose Estimation via Learning Orientations Only [116.1502793612437]
本稿では,学習向きのみを用いて3次元ポーズを頑健に推定できる新しいPose Orientation Net(PONet)を提案する。
PONetは、局所的な画像証拠を利用して、これらの手足の3D方向を推定し、3Dポーズを復元する。
我々は,Human3.6M,MPII,MPI-INF-3DHP,3DPWを含む複数のデータセットについて評価を行った。
論文 参考訳(メタデータ) (2021-12-21T12:48:48Z) - Graph and Temporal Convolutional Networks for 3D Multi-person Pose
Estimation in Monocular Videos [33.974241749058585]
本稿では, グラフ畳み込みネットワーク(GCN)と時間畳み込みネットワーク(TCN)を統合し, カメラ中心のマルチパーソナライズされた3Dポーズを頑健に推定するフレームワークを提案する。
特に,姿勢推定結果を改善するために,2次元ポーズ推定器の信頼度スコアを用いたヒューマンジョイントgcnを提案する。
2つのGCNが連携して空間的なフレーム回りの3Dポーズを推定し、ターゲットフレーム内の可視関節情報と骨情報の両方を使用して、人の一部または欠落した情報を推定します。
論文 参考訳(メタデータ) (2020-12-22T03:01:19Z) - Synthetic Training for Monocular Human Mesh Recovery [100.38109761268639]
本稿では,RGB画像と大規模に異なる複数の身体部位の3次元メッシュを推定することを目的とする。
主な課題は、2D画像のすべての身体部分の3Dアノテーションを完備するトレーニングデータがないことである。
本稿では,D2S(Deep-to-scale)投影法を提案する。
論文 参考訳(メタデータ) (2020-10-27T03:31:35Z) - View-Invariant, Occlusion-Robust Probabilistic Embedding for Human Pose [36.384824115033304]
本研究では,3次元のポーズを明示的に予測することなく,2次元のボディジョイントキーポイントからコンパクトなビュー不変埋め込み空間を学習する手法を提案する。
実験の結果,異なるカメラビューで類似のポーズを検索すると,埋め込みモデルの精度が向上することがわかった。
論文 参考訳(メタデータ) (2020-10-23T17:58:35Z) - Unsupervised Cross-Modal Alignment for Multi-Person 3D Pose Estimation [52.94078950641959]
マルチパーソン・ヒューマン・ポーズ推定のためのデプロイフレンドリーで高速なボトムアップ・フレームワークを提案する。
我々は,人物の位置を対応する3Dポーズ表現と統一する,多人数の3Dポーズのニューラル表現を採用する。
ペア化された2Dまたは3Dポーズアノテーションが利用できない実用的な配置パラダイムを提案する。
論文 参考訳(メタデータ) (2020-08-04T07:54:25Z) - Self-Supervised 3D Human Pose Estimation via Part Guided Novel Image
Synthesis [72.34794624243281]
ラベルのないビデオフレームからバリエーションを分離する自己教師付き学習フレームワークを提案する。
3Dポーズと空間部分マップの表現ギャップを埋める、微分可能な形式化により、多様なカメラの動きを持つビデオで操作できる。
論文 参考訳(メタデータ) (2020-04-09T07:55:01Z) - 3D Human Pose Estimation using Spatio-Temporal Networks with Explicit
Occlusion Training [40.933783830017035]
近年の大きな進歩にもかかわらず、モノラルなタスクから3Dのポーズを推定することは依然として難しい課題である。
頑健な3次元ポーズ推定のための時間的ビデオネットワークを提案する。
本研究では,各フレームに2次元関節やキーポイントの予測,および3次元関節やキーポイントを推定するために,多段階の時間的畳み込みネットワーク(TCN)を適用した。
論文 参考訳(メタデータ) (2020-04-07T09:12:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。