論文の概要: 3D Human Pose Estimation using Spatio-Temporal Networks with Explicit
Occlusion Training
- arxiv url: http://arxiv.org/abs/2004.11822v1
- Date: Tue, 7 Apr 2020 09:12:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-16 00:34:29.888638
- Title: 3D Human Pose Estimation using Spatio-Temporal Networks with Explicit
Occlusion Training
- Title(参考訳): 時空間ネットワークを用いた明示的咬合訓練による3次元ポーズ推定
- Authors: Yu Cheng, Bo Yang, Bo Wang, Robby T. Tan
- Abstract要約: 近年の大きな進歩にもかかわらず、モノラルなタスクから3Dのポーズを推定することは依然として難しい課題である。
頑健な3次元ポーズ推定のための時間的ビデオネットワークを提案する。
本研究では,各フレームに2次元関節やキーポイントの予測,および3次元関節やキーポイントを推定するために,多段階の時間的畳み込みネットワーク(TCN)を適用した。
- 参考スコア(独自算出の注目度): 40.933783830017035
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Estimating 3D poses from a monocular video is still a challenging task,
despite the significant progress that has been made in recent years. Generally,
the performance of existing methods drops when the target person is too
small/large, or the motion is too fast/slow relative to the scale and speed of
the training data. Moreover, to our knowledge, many of these methods are not
designed or trained under severe occlusion explicitly, making their performance
on handling occlusion compromised. Addressing these problems, we introduce a
spatio-temporal network for robust 3D human pose estimation. As humans in
videos may appear in different scales and have various motion speeds, we apply
multi-scale spatial features for 2D joints or keypoints prediction in each
individual frame, and multi-stride temporal convolutional net-works (TCNs) to
estimate 3D joints or keypoints. Furthermore, we design a spatio-temporal
discriminator based on body structures as well as limb motions to assess
whether the predicted pose forms a valid pose and a valid movement. During
training, we explicitly mask out some keypoints to simulate various occlusion
cases, from minor to severe occlusion, so that our network can learn better and
becomes robust to various degrees of occlusion. As there are limited 3D
ground-truth data, we further utilize 2D video data to inject a semi-supervised
learning capability to our network. Experiments on public datasets validate the
effectiveness of our method, and our ablation studies show the strengths of our
network\'s individual submodules.
- Abstract(参考訳): 近年の大きな進歩にもかかわらず、単眼ビデオからの3dポーズの推定は依然として難しい課題である。
一般に、既存の手法の性能は、対象者が小さすぎる場合や、トレーニングデータの規模や速度に対して動きが速すぎる場合に低下する。
さらに、我々の知る限り、これらの手法の多くは厳密な隠蔽下で設計や訓練が行われておらず、隠蔽処理のパフォーマンスが損なわれている。
これらの問題に対処するため,ロバストな3次元ポーズ推定のための時空間ネットワークを提案する。
映像中の人間が異なるスケールで出現し、様々な動き速度を持つため、各フレームの2次元関節やキーポイント予測にマルチスケール空間特徴を適用し、マルチストライド時間畳み込みネットワーク(tcns)を用いて3次元関節やキーポイントを推定する。
さらに,身体構造に基づく時空間判別器と手足運動をデザインし,予測されたポーズが有効なポーズか有効な動きかを評価する。
訓練中,軽度咬合から重度咬合まで,様々な咬合症例をシミュレートするためのキーポイントを明示的にマスクし,ネットワークがより良く学習し,各種咬合に対して頑健になるようにした。
3次元地上データに制限があるため、2次元映像データを利用して半教師あり学習機能をネットワークに注入する。
公開データセットを用いた実験により,提案手法の有効性が検証され,ネットワーク\の個々のサブモジュールの長所が示唆された。
関連論文リスト
- Occlusion Resilient 3D Human Pose Estimation [52.49366182230432]
排除は、シングルカメラビデオシーケンスからの3Dボディポーズ推定における重要な課題の1つとして残されている。
単一カメラシーケンスからポーズを推測する最先端技術と比較して,このアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2024-02-16T19:29:43Z) - STRIDE: Single-video based Temporally Continuous Occlusion Robust 3D Pose Estimation [27.854074900345314]
ビデオに先立って人間の動作に適合する新しいテストタイムトレーニング(TTT)手法であるSTRIDEを提案する。
筆者らのフレームワークは,モデルに依存しない柔軟性を示し,既製の3Dポーズ推定手法を用いて,堅牢性と時間的整合性を向上させる。
我々は、Occluded Human3.6M、Human3.6M、OCMotionのような挑戦的なデータセットに関する包括的な実験を通じてSTRIDEの有効性を検証する。
論文 参考訳(メタデータ) (2023-12-24T11:05:10Z) - Decanus to Legatus: Synthetic training for 2D-3D human pose lifting [26.108023246654646]
10個の手作り3Dポーズ(Decanus)に基づく3Dポーズ分布から無限個の合成人間のポーズ(Legatus)を生成するアルゴリズムを提案する。
この結果から,特定データセットの実際のデータを用いた手法に匹敵する3次元ポーズ推定性能を,ゼロショット設定で実現し,フレームワークの可能性を示した。
論文 参考訳(メタデータ) (2022-10-05T13:10:19Z) - Occluded Human Body Capture with Self-Supervised Spatial-Temporal Motion
Prior [7.157324258813676]
私たちは、トレーニングとテストの両方に使用できる最初の3Dクローズドモーションデータセット(OcMotion)を構築します。
次に、空間時間層は、関節レベルの相関を学習するために設計される。
実験結果から,提案手法は,映像から高精度で一貫性のある人間の動きを生成できることが示唆された。
論文 参考訳(メタデータ) (2022-07-12T08:15:11Z) - On Triangulation as a Form of Self-Supervision for 3D Human Pose
Estimation [57.766049538913926]
ラベル付きデータが豊富である場合, 単一画像からの3次元ポーズ推定に対する改良されたアプローチは, 極めて効果的である。
最近の注目の多くは、セミと(あるいは)弱い教師付き学習に移行している。
本稿では,多視点の幾何学的制約を,識別可能な三角測量を用いて課し,ラベルがない場合の自己監督の形式として用いることを提案する。
論文 参考訳(メタデータ) (2022-03-29T19:11:54Z) - PONet: Robust 3D Human Pose Estimation via Learning Orientations Only [116.1502793612437]
本稿では,学習向きのみを用いて3次元ポーズを頑健に推定できる新しいPose Orientation Net(PONet)を提案する。
PONetは、局所的な画像証拠を利用して、これらの手足の3D方向を推定し、3Dポーズを復元する。
我々は,Human3.6M,MPII,MPI-INF-3DHP,3DPWを含む複数のデータセットについて評価を行った。
論文 参考訳(メタデータ) (2021-12-21T12:48:48Z) - Synthetic Training for Monocular Human Mesh Recovery [100.38109761268639]
本稿では,RGB画像と大規模に異なる複数の身体部位の3次元メッシュを推定することを目的とする。
主な課題は、2D画像のすべての身体部分の3Dアノテーションを完備するトレーニングデータがないことである。
本稿では,D2S(Deep-to-scale)投影法を提案する。
論文 参考訳(メタデータ) (2020-10-27T03:31:35Z) - Multi-Scale Networks for 3D Human Pose Estimation with Inference Stage
Optimization [33.02708860641971]
モノクロビデオから3Dのポーズを推定することは、まだまだ難しい課題だ。
既存の多くのメソッドは、対象の人が他のオブジェクトに干渉されたり、トレーニングデータのスケールや速度に対して動きが速すぎたり、遅くなったりすると低下する。
頑健な3次元ポーズ推定のための時間的ネットワークを提案する。
論文 参考訳(メタデータ) (2020-10-13T15:24:28Z) - Unsupervised Cross-Modal Alignment for Multi-Person 3D Pose Estimation [52.94078950641959]
マルチパーソン・ヒューマン・ポーズ推定のためのデプロイフレンドリーで高速なボトムアップ・フレームワークを提案する。
我々は,人物の位置を対応する3Dポーズ表現と統一する,多人数の3Dポーズのニューラル表現を採用する。
ペア化された2Dまたは3Dポーズアノテーションが利用できない実用的な配置パラダイムを提案する。
論文 参考訳(メタデータ) (2020-08-04T07:54:25Z) - A Graph Attention Spatio-temporal Convolutional Network for 3D Human
Pose Estimation in Video [7.647599484103065]
我々は,アテンション機構を用いた局所的グローバル空間情報のモデリングにより,人間の骨格における制約の学習を改善する。
提案手法は, 奥行きのあいまいさと自己閉塞性を効果的に軽減し, 半上半身推定を一般化し, 2次元から3次元映像のポーズ推定における競合性能を実現する。
論文 参考訳(メタデータ) (2020-03-11T14:54:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。