論文の概要: TriPose: A Weakly-Supervised 3D Human Pose Estimation via Triangulation
from Video
- arxiv url: http://arxiv.org/abs/2105.06599v1
- Date: Fri, 14 May 2021 00:46:48 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-17 12:44:51.665485
- Title: TriPose: A Weakly-Supervised 3D Human Pose Estimation via Triangulation
from Video
- Title(参考訳): TriPose:ビデオによる三角測量による3D人物位置推定
- Authors: Mohsen Gholami, Ahmad Rezaei, Helge Rhodin, Rabab Ward and Z. Jane
Wang
- Abstract要約: ビデオから3D人間のポーズを推定することは難しい問題です。
3Dヒューマンポーズアノテーションの欠如は、教師付きトレーニングと、見えないデータセットへの一般化の大きな障害です。
3dアノテーションやキャリブレーションカメラを必要としない弱い教師付きトレーニングスキームを提案する。
- 参考スコア(独自算出の注目度): 23.00696619207748
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Estimating 3D human poses from video is a challenging problem. The lack of 3D
human pose annotations is a major obstacle for supervised training and for
generalization to unseen datasets. In this work, we address this problem by
proposing a weakly-supervised training scheme that does not require 3D
annotations or calibrated cameras. The proposed method relies on temporal
information and triangulation. Using 2D poses from multiple views as the input,
we first estimate the relative camera orientations and then generate 3D poses
via triangulation. The triangulation is only applied to the views with high 2D
human joint confidence. The generated 3D poses are then used to train a
recurrent lifting network (RLN) that estimates 3D poses from 2D poses. We
further apply a multi-view re-projection loss to the estimated 3D poses and
enforce the 3D poses estimated from multi-views to be consistent. Therefore,
our method relaxes the constraints in practice, only multi-view videos are
required for training, and is thus convenient for in-the-wild settings. At
inference, RLN merely requires single-view videos. The proposed method
outperforms previous works on two challenging datasets, Human3.6M and
MPI-INF-3DHP. Codes and pretrained models will be publicly available.
- Abstract(参考訳): ビデオから3Dのポーズを推定することは難しい問題だ。
3Dヒューマンポーズアノテーションの欠如は、教師付きトレーニングと、目に見えないデータセットの一般化の大きな障害である。
本研究では、3Dアノテーションや校正カメラを必要としない弱教師付きトレーニングスキームを提案し,この問題に対処する。
提案手法は時間情報と三角測量に依存する。
複数のビューからの2Dポーズを入力として、まず相対カメラの向きを推定し、三角測量により3Dポーズを生成する。
三角測量は高い2次元人間の関節信頼度を持つ視点にのみ適用される。
生成された3Dポーズは、2Dポーズから3Dポーズを推定するリカレントリフトネットワーク(RLN)のトレーニングに使用される。
さらに,推定3次元ポーズに対するマルチビュー再投影損失を適用し,マルチビューから推定した3次元ポーズの一貫性を強制する。
したがって,本手法は制約を緩和し,訓練にはマルチビュービデオのみが必要となるため,実環境の設定に便利である。
推論では、rlnは単にシングルビュービデオを必要とする。
提案手法は、Human3.6M と MPI-INF-3DHP という2つの挑戦的なデータセットに関する先行研究より優れている。
コードと事前訓練されたモデルが公開される。
関連論文リスト
- VirtualPose: Learning Generalizable 3D Human Pose Models from Virtual
Data [69.64723752430244]
このタスクに特有の隠れた「フリーランチ」を活用するための2段階学習フレームワークであるVirtualPoseを紹介する。
1段目は画像を抽象幾何学表現(AGR)に変換し、2段目はそれらを3Dポーズにマッピングする。
1)第1段は多様な2次元データセットでトレーニングし、限られた外観への過度な適合のリスクを軽減し、2)多数の仮想カメラとポーズから合成された多様なAGRでトレーニングすることができる。
論文 参考訳(メタデータ) (2022-07-20T14:47:28Z) - ElePose: Unsupervised 3D Human Pose Estimation by Predicting Camera
Elevation and Learning Normalizing Flows on 2D Poses [23.554957518485324]
本研究では、1つの画像から3次元人間のポーズを予測することを学ぶ教師なしのアプローチを提案する。
ランダムなプロジェクションに最も近い3次元ポーズを推定し、2次元ポーズの正規化フローを用いて推定する。
我々は,Human3.6M と MPI-INF-3DHP のベンチマークデータセット上で,最先端の教師なしポーズ推定手法を多くの指標で上回っている。
論文 参考訳(メタデータ) (2021-12-14T01:12:45Z) - Learning Temporal 3D Human Pose Estimation with Pseudo-Labels [3.0954251281114513]
自己監督型3次元ポーズ推定のための簡易かつ効果的なアプローチを提案する。
我々は、マルチビューカメラシステムの2Dボディポーズ推定を三角測量に頼っている。
提案手法はHuman3.6MとMPI-INF-3DHPベンチマークにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2021-10-14T17:40:45Z) - MetaPose: Fast 3D Pose from Multiple Views without 3D Supervision [72.5863451123577]
正確な3Dポーズとカメラ推定が可能なニューラルモデルをトレーニングする方法を示す。
本手法は,古典的バンドル調整と弱教師付き単分子3Dベースラインの両方に優れる。
論文 参考訳(メタデータ) (2021-08-10T18:39:56Z) - VoxelTrack: Multi-Person 3D Human Pose Estimation and Tracking in the
Wild [98.69191256693703]
本稿では,VoxelTrackを用いて,多人数の3次元ポーズ推定と,広義のベースラインで分離された少数のカメラからの追跡を行う。
マルチブランチネットワークを使用して、環境中のすべての人に3Dポーズと再識別機能(Re-ID)を共同で推定する。
これは、Shelf、Campus、CMU Panopticの3つの公開データセットに対して、最先端の手法よりも大きなマージンで優れている。
論文 参考訳(メタデータ) (2021-08-05T08:35:44Z) - SVMA: A GAN-based model for Monocular 3D Human Pose Estimation [0.8379286663107844]
1枚の画像から抽出した2次元関節位置から3次元人間のポーズを復元するための教師なしGANモデルを提案する。
再投射制約を考慮すると,本モデルはカメラを推定し,推定された3次元ポーズを元の2次元ポーズに再投射することができる。
Human3.6Mの結果,本手法は最先端の手法を全て上回り,MPI-INF-3DHPの手法は最先端の手法を約15.0%上回ることがわかった。
論文 参考訳(メタデータ) (2021-06-10T09:43:57Z) - Temporal-Aware Self-Supervised Learning for 3D Hand Pose and Mesh
Estimation in Videos [32.12879364117658]
RGB画像から直接3Dハンドポーズを推定することは難しいが、注釈付き3Dポーズで深層モデルを訓練することで、近年着実に進歩している。
本稿では,RGB画像からの3Dポーズ推定モデルの訓練を行うためのフレームワークを提案する。
論文 参考訳(メタデータ) (2020-12-06T07:54:18Z) - CanonPose: Self-Supervised Monocular 3D Human Pose Estimation in the
Wild [31.334715988245748]
ラベルのないマルチビューデータから1つの画像3Dポーズ推定器を学習する自己教師型アプローチを提案する。
既存のほとんどの方法とは対照的に、校正カメラは必要とせず、移動カメラから学ぶことができる。
成功の鍵は、ビューとトレーニングサンプルの情報を混ぜ合わせた、新しく偏見のない再建目標である。
論文 参考訳(メタデータ) (2020-11-30T10:42:27Z) - Self-Supervised 3D Human Pose Estimation via Part Guided Novel Image
Synthesis [72.34794624243281]
ラベルのないビデオフレームからバリエーションを分離する自己教師付き学習フレームワークを提案する。
3Dポーズと空間部分マップの表現ギャップを埋める、微分可能な形式化により、多様なカメラの動きを持つビデオで操作できる。
論文 参考訳(メタデータ) (2020-04-09T07:55:01Z) - Exemplar Fine-Tuning for 3D Human Model Fitting Towards In-the-Wild 3D
Human Pose Estimation [107.07047303858664]
3次元の地平線アノテーションを持つ大規模な人的データセットは、野生では入手が困難である。
既存の2Dデータセットを高品質な3Dポーズマッチングで拡張することで、この問題に対処する。
結果として得られるアノテーションは、3Dのプロシージャネットワークをスクラッチからトレーニングするのに十分である。
論文 参考訳(メタデータ) (2020-04-07T20:21:18Z) - Fusing Wearable IMUs with Multi-View Images for Human Pose Estimation: A
Geometric Approach [76.10879433430466]
多視点画像と人手足に装着したIMUから3次元人間のポーズを推定する。
まず2つの信号から2Dのポーズを検出し、3D空間に持ち上げる。
単純な2段階のアプローチは、公開データセット上の大きなマージンによる最先端のエラーを低減する。
論文 参考訳(メタデータ) (2020-03-25T00:26:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。