論文の概要: TriPose: A Weakly-Supervised 3D Human Pose Estimation via Triangulation
from Video
- arxiv url: http://arxiv.org/abs/2105.06599v1
- Date: Fri, 14 May 2021 00:46:48 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-17 12:44:51.665485
- Title: TriPose: A Weakly-Supervised 3D Human Pose Estimation via Triangulation
from Video
- Title(参考訳): TriPose:ビデオによる三角測量による3D人物位置推定
- Authors: Mohsen Gholami, Ahmad Rezaei, Helge Rhodin, Rabab Ward and Z. Jane
Wang
- Abstract要約: ビデオから3D人間のポーズを推定することは難しい問題です。
3Dヒューマンポーズアノテーションの欠如は、教師付きトレーニングと、見えないデータセットへの一般化の大きな障害です。
3dアノテーションやキャリブレーションカメラを必要としない弱い教師付きトレーニングスキームを提案する。
- 参考スコア(独自算出の注目度): 23.00696619207748
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Estimating 3D human poses from video is a challenging problem. The lack of 3D
human pose annotations is a major obstacle for supervised training and for
generalization to unseen datasets. In this work, we address this problem by
proposing a weakly-supervised training scheme that does not require 3D
annotations or calibrated cameras. The proposed method relies on temporal
information and triangulation. Using 2D poses from multiple views as the input,
we first estimate the relative camera orientations and then generate 3D poses
via triangulation. The triangulation is only applied to the views with high 2D
human joint confidence. The generated 3D poses are then used to train a
recurrent lifting network (RLN) that estimates 3D poses from 2D poses. We
further apply a multi-view re-projection loss to the estimated 3D poses and
enforce the 3D poses estimated from multi-views to be consistent. Therefore,
our method relaxes the constraints in practice, only multi-view videos are
required for training, and is thus convenient for in-the-wild settings. At
inference, RLN merely requires single-view videos. The proposed method
outperforms previous works on two challenging datasets, Human3.6M and
MPI-INF-3DHP. Codes and pretrained models will be publicly available.
- Abstract(参考訳): ビデオから3Dのポーズを推定することは難しい問題だ。
3Dヒューマンポーズアノテーションの欠如は、教師付きトレーニングと、目に見えないデータセットの一般化の大きな障害である。
本研究では、3Dアノテーションや校正カメラを必要としない弱教師付きトレーニングスキームを提案し,この問題に対処する。
提案手法は時間情報と三角測量に依存する。
複数のビューからの2Dポーズを入力として、まず相対カメラの向きを推定し、三角測量により3Dポーズを生成する。
三角測量は高い2次元人間の関節信頼度を持つ視点にのみ適用される。
生成された3Dポーズは、2Dポーズから3Dポーズを推定するリカレントリフトネットワーク(RLN)のトレーニングに使用される。
さらに,推定3次元ポーズに対するマルチビュー再投影損失を適用し,マルチビューから推定した3次元ポーズの一貫性を強制する。
したがって,本手法は制約を緩和し,訓練にはマルチビュービデオのみが必要となるため,実環境の設定に便利である。
推論では、rlnは単にシングルビュービデオを必要とする。
提案手法は、Human3.6M と MPI-INF-3DHP という2つの挑戦的なデータセットに関する先行研究より優れている。
コードと事前訓練されたモデルが公開される。
関連論文リスト
- MPL: Lifting 3D Human Pose from Multi-view 2D Poses [75.26416079541723]
本稿では,大規模かつリッチなトレーニングデータセットが存在する2次元ポーズ推定と,トランスフォーマーネットワークを用いた2次元から3次元ポーズリフトを提案する。
実験の結果,MPJPEの誤差は2次元ポーズを三角測量した3次元ポーズと比較して最大45%減少することがわかった。
論文 参考訳(メタデータ) (2024-08-20T12:55:14Z) - Unsupervised Learning of Category-Level 3D Pose from Object-Centric Videos [15.532504015622159]
カテゴリーレベルの3Dポーズ推定は、コンピュータビジョンとロボット工学において基本的に重要な問題である。
カテゴリーレベルの3Dポーズを,カジュアルに撮られた対象中心の動画からのみ推定する学習の課題に取り組む。
論文 参考訳(メタデータ) (2024-07-05T09:43:05Z) - ElePose: Unsupervised 3D Human Pose Estimation by Predicting Camera
Elevation and Learning Normalizing Flows on 2D Poses [23.554957518485324]
本研究では、1つの画像から3次元人間のポーズを予測することを学ぶ教師なしのアプローチを提案する。
ランダムなプロジェクションに最も近い3次元ポーズを推定し、2次元ポーズの正規化フローを用いて推定する。
我々は,Human3.6M と MPI-INF-3DHP のベンチマークデータセット上で,最先端の教師なしポーズ推定手法を多くの指標で上回っている。
論文 参考訳(メタデータ) (2021-12-14T01:12:45Z) - MetaPose: Fast 3D Pose from Multiple Views without 3D Supervision [72.5863451123577]
正確な3Dポーズとカメラ推定が可能なニューラルモデルをトレーニングする方法を示す。
本手法は,古典的バンドル調整と弱教師付き単分子3Dベースラインの両方に優れる。
論文 参考訳(メタデータ) (2021-08-10T18:39:56Z) - VoxelTrack: Multi-Person 3D Human Pose Estimation and Tracking in the
Wild [98.69191256693703]
本稿では,VoxelTrackを用いて,多人数の3次元ポーズ推定と,広義のベースラインで分離された少数のカメラからの追跡を行う。
マルチブランチネットワークを使用して、環境中のすべての人に3Dポーズと再識別機能(Re-ID)を共同で推定する。
これは、Shelf、Campus、CMU Panopticの3つの公開データセットに対して、最先端の手法よりも大きなマージンで優れている。
論文 参考訳(メタデータ) (2021-08-05T08:35:44Z) - Temporal-Aware Self-Supervised Learning for 3D Hand Pose and Mesh
Estimation in Videos [32.12879364117658]
RGB画像から直接3Dハンドポーズを推定することは難しいが、注釈付き3Dポーズで深層モデルを訓練することで、近年着実に進歩している。
本稿では,RGB画像からの3Dポーズ推定モデルの訓練を行うためのフレームワークを提案する。
論文 参考訳(メタデータ) (2020-12-06T07:54:18Z) - CanonPose: Self-Supervised Monocular 3D Human Pose Estimation in the
Wild [31.334715988245748]
ラベルのないマルチビューデータから1つの画像3Dポーズ推定器を学習する自己教師型アプローチを提案する。
既存のほとんどの方法とは対照的に、校正カメラは必要とせず、移動カメラから学ぶことができる。
成功の鍵は、ビューとトレーニングサンプルの情報を混ぜ合わせた、新しく偏見のない再建目標である。
論文 参考訳(メタデータ) (2020-11-30T10:42:27Z) - Self-Supervised 3D Human Pose Estimation via Part Guided Novel Image
Synthesis [72.34794624243281]
ラベルのないビデオフレームからバリエーションを分離する自己教師付き学習フレームワークを提案する。
3Dポーズと空間部分マップの表現ギャップを埋める、微分可能な形式化により、多様なカメラの動きを持つビデオで操作できる。
論文 参考訳(メタデータ) (2020-04-09T07:55:01Z) - Exemplar Fine-Tuning for 3D Human Model Fitting Towards In-the-Wild 3D
Human Pose Estimation [107.07047303858664]
3次元の地平線アノテーションを持つ大規模な人的データセットは、野生では入手が困難である。
既存の2Dデータセットを高品質な3Dポーズマッチングで拡張することで、この問題に対処する。
結果として得られるアノテーションは、3Dのプロシージャネットワークをスクラッチからトレーニングするのに十分である。
論文 参考訳(メタデータ) (2020-04-07T20:21:18Z) - Fusing Wearable IMUs with Multi-View Images for Human Pose Estimation: A
Geometric Approach [76.10879433430466]
多視点画像と人手足に装着したIMUから3次元人間のポーズを推定する。
まず2つの信号から2Dのポーズを検出し、3D空間に持ち上げる。
単純な2段階のアプローチは、公開データセット上の大きなマージンによる最先端のエラーを低減する。
論文 参考訳(メタデータ) (2020-03-25T00:26:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。