論文の概要、ライセンス

# (参考訳) 3次元ポーズ推定のための同期再投影モデル [全文訳有]

A Synchronized Reprojection-based Model for 3D Human Pose Estimation ( http://arxiv.org/abs/2106.04274v1 )

ライセンス: CC0 1.0
Yicheng Deng, Cheng Sun, Yongqi Sun and Jiahui Zhu(参考訳) この分野での膨大な作業にもかかわらず、3d人間のポーズ推定は依然として難しい問題である。 一般的に、ほとんどの手法はニューラルネットワークを直接使用し、特定の制約(例えば、再投射制約、関節角、骨長制約)を無視している。 本稿では,3次元のポーズから2次元のポーズへの分布のマッピングを学習するために,3次元情報と2次元情報とを同時に考慮した3次元のポーズ推定のための弱教師付きGANモデルを提案する。 特に,再プロジェクションネットワークと生成逆ネットワークを同期的に訓練する。 さらに, 典型的なキネマティック・チェーン・スペース (KCS) 行列に着想を得て, 判別器の入力に加わった重み付きKCS行列を提案し, 関節角度と骨長の制約を課した。 Human3.6Mの実験結果から,本手法は最先端手法よりも約5.1\%優れていた。

3D human pose estimation is still a challenging problem despite the large amount of work that has been done in this field. Generally, most methods directly use neural networks and ignore certain constraints (e.g., reprojection constraints and joint angle and bone length constraints). This paper proposes a weakly supervised GAN-based model for 3D human pose estimation that considers 3D information along with 2D information simultaneously, in which a reprojection network is employed to learn the mapping of the distribution from 3D poses to 2D poses. In particular, we train the reprojection network and the generative adversarial network synchronously. Furthermore, inspired by the typical kinematic chain space (KCS) matrix, we propose a weighted KCS matrix, which is added into the discriminator's input to impose joint angle and bone length constraints. The experimental results on Human3.6M show that our method outperforms state-of-the-art methods by approximately 5.1\%.
公開日: Tue, 8 Jun 2021 12:11:56 GMT

※ 翻訳結果を表に示しています。PDFがオリジナルの論文です。翻訳結果のライセンスはCC BY-SA 4.0です。詳細はトップページをご参照ください。

翻訳結果

    Page: /      
英語(論文から抽出)日本語訳スコア
Noname manuscript No. (will be inserted by the editor) 無名の写本No。 (編集者が挿入する) 0.67
A Synchronized Reprojection-based Model for 3D Human Pose Estimation 3次元ポーズ推定のための同期再投影モデル 0.81
Yicheng Deng1 · Cheng Sun2 · Yongqi Sun1∗ · Jiahui Zhu1 Yicheng Deng1 · Cheng Sun2 · Yongqi Sun1∗ · Jiahui Zhu1 0.83
1 2 0 2 n u J 1 2 0 2 n u J 0.85
8 ] V C . 8 ] 略称はC。 0.73
s c [ 1 v 4 7 2 4 0 sc [ 1 v 4 7 2 4 0 0.68
. 6 0 1 2 : v i X r a . 6 0 1 2 : v i X r a 0.85
Received: date / Accepted: date 受信年月日/受理年月日 0.47
Abstract 3D human pose estimation is still a challenging problem despite the large amount of work that has been done in this field. 抽象的な3Dポーズ推定は、この分野で行われている膨大な作業にもかかわらず、依然として難しい問題である。 0.63
Generally, most methods directly use neural networks and ignore certain constraints (e g , reprojection constraints and joint angle and bone length constraints). 一般的に、ほとんどのメソッドはニューラルネットワークを直接使用し、特定の制約(例えば、再投影の制約、関節角と骨長の制約)を無視します。 0.58
This paper proposes a weakly supervised GAN-based model for 3D human pose estimation that considers 3D information along with 2D information simultaneously, in which a reprojection network is employed to learn the mapping of the distribution from 3D poses to 2D poses. 本稿では,3次元のポーズから2次元のポーズへの分布のマッピングを学習するために,3次元情報と2次元情報とを同時に考慮した3次元のポーズ推定のための弱教師付きGANモデルを提案する。 0.75
In particular, we train the reprojection network and the generative adversarial network synchronously. 特に,再プロジェクションネットワークと生成逆ネットワークを同期的に訓練する。 0.71
Furthermore, inspired by the typical kinematic chain space (KCS) matrix, we propose a weighted KCS matrix, which is added into the discriminator’s input to impose joint angle and bone length constraints. さらに, 典型的なキネマティック・チェーン・スペース (KCS) 行列に着想を得て, 判別器の入力に加わった重み付きKCS行列を提案し, 関節角度と骨長の制約を課した。 0.80
The experimental results on Human3.6M show that our method outperforms state-of-the-art methods by approximately 5.1%. human3.6mの実験結果から,本手法は最先端手法を約5.1%上回っている。 0.60
Keywords Human pose estimation · reprojection network · generative adversarial network · kinematic chain space キーワード ヒューマンポーズ推定 · reprojection network · generative adversarial network · kinematic chain space 0.86
1 Introduction 3D human pose estimation from monocular images has always been a problem in computer vision. はじめに 単眼画像からの3次元ポーズ推定はコンピュータビジョンにおいて常に問題となっている。 0.63
It can Yicheng Deng · Yongqi Sun · Jiahui Zhu 1School of Computer and Information Technology, Beijing Jiaotong University, Beijing 100044, P. R. China E-mail: yqsun@bjtu.edu.cn Cheng Sun 2School of Information Science and Electrical Engineering, Kyushu University, Fukuoka 8190395, Japan E-mail: sun.cheng.736@s.kyus hu-u.ac.jp It can can Yicheng Deng · Yongqi Sun · Jiahui Zhu 1School of Computer and Information Technology, Beijing 100044, P. R. China E-mail: yqsun@bjtu.edu.cn Cheng Sun 2School of Information Science and Electric Engineering, Kyushu University, Fukuoka 8190395, Japan E-mail: sun.cheng.736@s.kyus hu-u.jp. 0.83
be applied in multiple fields, such as motion recognition, virtual reality, and human-computer interaction. モーション認識、仮想現実、人間とコンピュータのインタラクションなど、複数の分野に適用できる。 0.71
Over the past three decades, there has been a dramatic increase in the field of 3D human pose estimation. 過去30年間で、3d人間のポーズ推定の分野は劇的に増加している。 0.64
Various methods can be divided into two main categories. 様々な方法が2つの主なカテゴリーに分けられる。 0.79
One category first obtains the 2D joint coordinates from an image[4][5][6][24][26][29][31] and then estimates the 3D pose according to the 2D joint coordinates [15][16][20][33]. 1つのカテゴリは、まず画像[4][5][6][24][26][29][31]から2dジョイント座標を取得し、2dジョイント座標[15][16][20][33]に従って3dポーズを推定する。 0.65
The other directly processes the image and estimates the 3D pose through a deep learning method. 他方は画像を直接処理し、深層学習手法により3Dのポーズを推定する。 0.72
This paper focuses on the second stage of the first category, which estimates the 3D coordinates of a human pose from the 2D joint coordinates[8][11][17][22][23][35]. 本稿では、2次元関節座標[8][11][17][22][23][35]から人間のポーズの3d座標を推定する第1のカテゴリの第2段階に焦点を当てる。 0.70
Although these methods have achieved good performance, they often ignore the fact that a well-estimated 3D pose should be able to be reprojected back to a plausible 2D pose. これらの手法は良好な性能を得られるが、よく見積もられた3dポーズは、妥当な2dポーズに再投影できるという事実をしばしば無視する。 0.65
Wandt et al [33] first proposed a model named RepNet to consider the reprojection loss, however, RepNet needs to estimate the camera parameters with deep learning methods, and the training process is somewhat complicated. Wandtら[33]は、最初にRepNetという名前のモデルを提案して、再投射損失を検討するが、RepNetはディープラーニングメソッドでカメラパラメータを見積もる必要があり、トレーニングプロセスはやや複雑である。 0.63
This paper proposes a weaklysupervised adversarial training method to estimate a 3D human pose. 本稿では,3次元姿勢推定のための弱教師付き逆訓練法を提案する。 0.65
Considering the reprojection constraints and the limitations on bone lengths and joint angles, our estimation results are more accurate and interpretable. 再投影の制約と骨長と関節角度の制限を考えると, 推定結果はより正確かつ解釈可能である。 0.79
In our method, we employ a generative adversarial network (GAN) to learn the distribution of 3D human poses. 提案手法では,GAN(Generative Adversarial Network)を用いて3次元人間のポーズの分布を学習する。 0.77
First, we set up a generator to generate the depth (the z-component of the 3D coordinates) with the input 2D joint coordinates. まず,入力された2次元関節座標を用いて深度(3次元座標のz成分)を生成するジェネレータを設置した。 0.85
Synchronously, we construct a discriminator, whose part of the input is a real 3D pose or a 3D pose generated by the generator, to determine whether the input is from real distribution. 同時に、入力の一部が実際の3Dポーズか、ジェネレータによって生成された3Dポーズである判別器を構築し、実際の分布から入力が決定される。 0.73
Then, we add a network, which does not require extra information such as camera parameters, to reproject the 3D poses そして、カメラパラメータなどの余分な情報を必要としないネットワークを追加して、3Dポーズを再計画する。 0.76
英語(論文から抽出)日本語訳スコア
2 Yicheng Deng1 et al 2 Yicheng Deng1 et al 0.92
generated by the generator. And we use the reprojection network’s output as our discriminator’s second part of input. 発電機が生成します そして、リプロジェクションネットワークの出力を、差別者の入力の第2部として使用します。 0.79
Finally, we transform the 3D pose to the weighted kinematic chain space and make it the discriminator’s third part of the input to impose constraints on bone lengths and joint angles. 最後に、重み付けされたキネマティックチェイン空間に3Dのポーズを変換し、骨の長さと関節角度に制約を加えるために、入力の判別器の第3部とする。 0.67
We test our method on three public datasets: Human3.6M[14], MPI-INF-3DHP[21], and MPII[1]. 我々は,Human3.6M[14],MPI-INF-3DHP[21],MPII[1]の3つの公開データセット上で実験を行った。 0.59
The results of our method outperform those of state-of-the-art methods. 本手法の結果は最先端手法に匹敵する。 0.61
Our contributions are as follows: 私たちの貢献は次のとおりです。 0.61
– We propose an adversarial training structure, which contains a reprojection network without camera parameter requirements, for 3D human pose estimation by simultaneously utilizing the 2D and 3D information. カメラパラメータを必要とせずに再投射ネットワークを組み込んだ対角的トレーニング構造を,2次元情報と3次元情報とを同時に利用して3次元ポーズ推定を行う。 0.72
– We train the generator, the reprojection network and the discriminator synchronously to learn the mapping of the distribution from 2D poses to 3D poses and the inverse mapping. 本研究では,2次元ポーズから3次元ポーズへの分布のマッピングと逆マッピングを同期的に学習するために,ジェネレータ,再投影ネットワーク,識別器を訓練する。 0.68
– We propose an elaborate improved kinematic chain space that transforms a 3D pose into a weighted kinematic chain space to impose constraints on bone lengths and joint angles. 骨長と関節角度の制約を課すため、3次元のポーズを重み付きキネマティックチェイン空間に変換する精巧な改良キネマティックチェイン空間を提案する。 0.72
2.1 Fully supervised methods 2.1 完全な監督方法 0.62
There have been several fully supervised 3D estimation methods that make full use of both 2D and 3D ground truths. 2dと3dの両方の地上真理をフルに利用する、完全に監督された3d推定方法がいくつか存在する。 0.59
These fully supervised methods aim to learn the relationship between 2D and 3D data with the help of given paired 2D and 3D data. これらの完全教師付き手法は、与えられた2次元データと3次元データの助けを借りて、2次元データと3次元データの関係を学習することを目的としている。
訳抜け防止モード: 完全に監督された方法が 与えられたペア2dおよび3dデータの助けを借りて、2dデータと3dデータの関係を学ぶ。
0.58
Sun et al [30] propose an end-to-end integral regression model to extract 3D poses from 2D heat maps. Sunら[30]は、2次元熱マップから3次元ポーズを抽出するエンドツーエンドの積分回帰モデルを提案する。 0.63
Madadi et al [19] use CNN-based 3D joint predictions as an intermediate representation to regress SMPL pose and shape parameters, and then reconstruct 3D joints in the SMPL output. madadiら[19]はcnnベースの3d関節予測をsmplポーズと形状パラメータの中間表現として使用し、smpl出力で3d関節を再構築する。
訳抜け防止モード: Madadi et al [19 ] using CNN- based 3D joint predictions as a intermediate representation SMPLのポーズと形状パラメータを復元し、SMPL出力で3D関節を再構築する。
0.89
Dushyant et al [22] propose a method utilizing a fully CNN, which regresses 2D and 3D joint positions and motion skeleton to produce a real-time stable 3D reconstruction of motion. Dushyant et al [22] は2次元と3次元の関節位置と運動骨格を後退させてリアルタイムに安定な3次元運動再構成を行う完全CNNを利用する方法を提案する。 0.71
Different from the end-to-end methods, Martinez et al [20] use a simple but effective regression network to learn the correspondences from 2D poses to 3D poses without using any image information. エンド・ツー・エンドの手法と異なり、Martinezら[20]は単純だが効果的な回帰ネットワークを使用して、2Dポーズから3Dポーズへの対応を画像情報を用いることなく学習する。 0.62
Moreno-Noguer[23] implements an approach to learn the correspondence between the 2D distance matrix and 3D distance matrix with a regression model. Moreno-Noguer[23]は回帰モデルを用いて2次元距離行列と3次元距離行列の対応性を学ぶアプローチを実装している。 0.75
Wang et al [34] use 3D data to train an intermediate ranking network and estimate 3D poses from 2D poses by predicting the depth rankings of human joints. Wangら[34]は、中間ランキングネットワークをトレーニングするために3Dデータを使用し、人間の関節の深さランキングを予測して2Dポーズから3Dポーズを推定する。 0.66
2 Related work 2.2 Unsupervised methods 2関連作品 2.2 教師なしの方法 0.55
At present, due to large-scale datasets for supervised training and powerful deep neural networks, significant progress has been made in 3D human pose estimation from a monocular image. 現在,教師付きトレーニングのための大規模データセットと強力な深層ニューラルネットワークにより,単眼画像からの3次元ポーズ推定において有意な進歩を遂げている。 0.75
We can summarize the estimation methods into two categories: end-to-end methods and two-stage methods. 評価手法を,エンドツーエンド法と2段階法という2つのカテゴリにまとめる。 0.64
The end-to-end methods estimate the 3D joint point position directly from a monocular image and compare it with the 3D annotation to optimize the network. エンドツーエンドの手法では, 単眼画像から直接3次元関節位置を推定し, ネットワーク最適化のための3次元アノテーションと比較する。
訳抜け防止モード: 終端 - 終端法 単眼像から直接3次元関節点位置を推定する 3dアノテーションと比較すると ネットワークを最適化することです
0.79
The two-stage methods divide the pose estimation into two stages. 2段階の手法はポーズ推定を2段階に分ける。 0.79
The first stage performs 2D pose detection on a single image and predicts its 2D joint coordinates; the second stage predicts 3D joint coordinates from the 2D joint coordinates through regression analysis or model fitting. 第1段は、単一の画像上で2Dポーズ検出を行い、その2D関節座標を予測し、第2段は回帰分析またはモデルフィッティングにより2D関節座標から3D関節座標を予測する。
訳抜け防止モード: 1段目は1枚の画像上で2次元ポーズ検出を行い、2次元関節座標を予測する The second stage predicts 3D joint coordinates from the 2D joint coordinates through through regression analysis or model fit。
0.90
In this paper, we focus on the second stage of the two-stage methods. 本稿では,2段階法の第2段階に焦点をあてる。 0.72
From another perspective, we can further classify 3D estimation methods into three classes: fully supervised methods, unsupervised methods, and weakly supervised methods. 別の観点から、3次元推定法をさらに3つのクラスに分類することができる:完全教師あり法、教師なし法、弱い教師なし法。
訳抜け防止モード: 別の観点からは、3次元推定法をさらに3つのクラスに分類することができる。 教師なしメソッド、弱い教師なしメソッド。
0.62
In recent years, the GAN proposed by Goodfellow et al [10] has been a major hit in deep learning, and its application in 3D human pose estimation is also quite extensive. 近年,Goodfellowらによって提案されたGANは,ディープラーニングにおいて大きな影響を受けており,人間の3次元ポーズ推定にも応用されている。 0.70
Unlike supervised methods, unsupervised 3D estimation methods do not involve the 3D ground truth during the training process. 教師付き手法とは異なり、教師なし3次元推定法はトレーニングプロセス中に3次元基底真理を含まない。 0.56
Rhodin et al [27] propose an encoder-decoder to estimate 3D poses based on unsupervised geometry-aware representations. Rhodin et al [27] は教師なし幾何認識表現に基づいて3次元ポーズを推定するエンコーダデコーダを提案する。 0.59
It requires multiple 2D projections to apply a multiview consistency constraint to learn the appearance representation. 外観表現の学習には多視点一貫性制約を適用するために複数の2次元プロジェクションが必要である。 0.63
Yasunori Kudo et al [16] design a GAN whose generator uses the x and y coordinates of important joint points as input, and outputs the predicted value of the z-direction component. 工藤安則ら[16]は,重要な関節点のx,y座標を入力とするganの設計を行い,z方向成分の予測値を出力する。 0.64
They assume that if the predicted 3D human body is correct, the 2D reprojection should not collapse even if the 3D human body is rotated at any angle around the y-axis and then projected onto the x-z plane. 予測された3d人体が正しい場合、3d人体がy軸の任意の角度で回転した後、x-z平面に投影されたとしても、2d再投影は崩壊してはならないと仮定している。 0.67
Chen et al [7] also design an unsupervised GAN to estimate 3D poses; half of their model is based on a similar strategy and reprojects the generator’s output 3D estimation back to the 2D reprojection, which is used as the input of the discriminator. chenら[7]はまた、3dポーズを推定するために教師なしのganを設計する。モデルの半数は同様の戦略に基づいており、ジェネレータの出力3d推定を2d再投影に再投影し、判別器の入力として使用される。 0.66
The other half of their model lifts the 2D reprojection to a 3D pose again and reprojects this 3D pose back to 2D once more. 残りの半分は再び3Dのポーズに2Dの再投影を持ち上げ、この3Dのポーズを再び2Dに戻します。 0.80
英語(論文から抽出)日本語訳スコア
A Synchronized Reprojection-based Model for 3D Human Pose Estimation 3次元ポーズ推定のための同期再投影モデル 0.81
3 Fig. 1 The main structure of our proposed adversarial training framework, which contains 4 parts: (1) generator, (2) discriminator, (3) reprojection network, and (4) three loss functions. 3 フィギュア。 1 提案手法は,(1) ジェネレータ,(2) 識別器,(3) 再投射ネットワーク,(4) 損失関数の4つの部分から構成される。
訳抜け防止モード: 3 フィギュア。 1 提案した対向訓練フレームワークの主構造は, 4 つの部分 : ( 1 ) ジェネレータを含む。 (2)識別器、(3)再投影ネットワーク および (4 ) 3 つの損失関数。
0.69
Our structure takes 2D reprojected poses and 3D generated poses into consideration simultaneously. 2次元再投影ポーズと3次元生成ポーズを同時に考慮する。 0.58
In pratice, the generator, discriminator and reprojection network will be trained synchronously. praticeでは、ジェネレータ、判別器、再投影ネットワークは同期的に訓練される。 0.52
2.3 Weakly supervised methods 2.3 弱々しい監督方法 0.70
Weak supervision only requires limited 3D labels or an unpaired 2D-3D correspondence. 弱みの監督は、限られた3Dラベルや2D-3D対応を必要とする。 0.48
Zhou et al [38] propose a two-stage transfer model to generate 2D heat maps and regress the joint depths to estimate 3D poses. Zhou et al [38] は2次元熱マップを生成するための2段階移動モデルを提案し、3次元ポーズを推定するために関節深度を回帰する。
訳抜け防止モード: Zhou et al [ 38 ] propose a two-stage transfer model 2次元熱マップを生成し、関節深度を下げて3次元ポーズを推定する。
0.78
The 2D and 3D data are mixed during the training process. 2Dおよび3Dデータは、トレーニングプロセス中に混合される。 0.80
Hsiao-Yu Fish Tung et al [32] propose an adversarial inverse graph network model. Hsiao-Yu Fish Tung et al [32] は逆逆グラフネットワークモデルを提案する。 0.82
This model uses the presentation feedback of the prediction results to map the image to the latent factors and matches the distribution between the predicted results and the ground truth latent factors. このモデルは、予測結果の提示フィードバックを用いて、画像を潜在要因にマッピングし、予測結果と基底真理潜在要因の分布を一致させる。 0.67
Recently some weakly supervised methods have been proposed based on adversarial architectures and reprojection constraints, that is, an estimated 3D pose should be correctly projected back to the 2D pose. 近年,敵対的構造と再投射制約に基づく弱教師付き手法が提案されており,推定された3次元ポーズを2次元ポーズに正しく投影する必要がある。 0.75
Yang et al. [35] implement an adversarial architecture based on multiple representations, including RGB images, geometric representations and heat maps to estimate 3D poses from in-the-wild 2D images. Yangら。 [35]RGB画像,幾何表現,熱マップなど,複数の表現に基づく対角的アーキテクチャを実装し,線内2次元画像から3次元ポーズを推定する。 0.65
Bastian Wandt et al. Bastian Wandt et al 0.65
[33] propose a GAN-based model named RepNet to learn a mapping from a distribution of 2D poses to a [33]2Dポーズの分布からマッピングを学ぶためにRepNetというGANベースのモデルを提案する。 0.77
distribution of 3D poses with an adversarial training approach, in which a camera estimation network is a part of the generator. 3dの分布は、カメラ推定ネットワークがジェネレータの一部である敵のトレーニングアプローチでポーズする。 0.63
In summary, most recent unsupervised and weakly supervised methods involving adversarial structures only consider the consistency constraints between 2D poses and 2D reprojections or among several lifted 3D poses[7]. 要約すると、直近の非教師的・弱監督的手法は、2Dポーズと2Dリプロジェクションの整合性制約、あるいはいくつかの持ち上げられた3Dポーズ[7]しか考慮していない。 0.45
In this paper, we propose a weakly supervised method that considers 3D estimations along with 2D reprojections simultaneously and train a reprojection network with a GAN synchronously. 本稿では、3次元推定と2次元再投影を同時に考慮し、GAN同期で再投影ネットワークを訓練する弱教師付き手法を提案する。 0.72
We also propose a weighted KCS matrix and use it as one part of the discriminator’s input to improve the 3D pose estimation accuracy. また,重み付きkcs行列を提案し,判別器の入力の一部として使用することで,3次元ポーズ推定精度を向上させる。 0.74
The experimental results show that our model outperforms state-of-the-art methods. 実験の結果,本モデルは最先端手法よりも優れていた。 0.53
3 Methods For a given 2D pose, our goal is to estimate its corresponding 3D pose. 3つの方法 与えられた2Dポーズに対して、我々のゴールは対応する3Dポーズを推定することである。 0.59
The framework we use can be formulated as a GAN. 私たちが使用するフレームワークは、GANとして定式化できます。 0.57
In standard GAN training, the generator’s input is a Gaussian distribution or a uniform 標準的なGANトレーニングでは、ジェネレータの入力はガウス分布または一様である 0.75
英語(論文から抽出)日本語訳スコア
4 Yicheng Deng1 et al 4 Yicheng Deng1 et al 0.92
Fig. 2 The structure of our generator and reprojection network is roughly the same as Martinez[20]. フィギュア。 2 ジェネレータと再プロジェクションネットワークの構造はMartinez[20]とほぼ同じである。 0.53
The generator has two residual blocks, and the reprojection network has only one residual block. ジェネレータは2つの残留ブロックを持ち、再投射ネットワークは1つの残留ブロックしか持たない。 0.65
The generator’s input is a 2D pose, and the output is the corresponding z-direction component. ジェネレータの入力は2dのポーズであり、出力は対応するz方向成分である。 0.69
In contrast, the reprojection network’s input is a 3D pose, and the output is the related reprojected 2D pose. 対照的に、再投影ネットワークの入力は3Dポーズであり、出力は関連する2Dポーズである。 0.63
distribution. The discriminator is used to determine whether the input data are from the real distribution or generated by the generator. 流通。 判別器は、入力データが実分布からであるか、発生器によって生成されたかを決定するために使用される。
訳抜け防止モード: 流通。 識別器が使用される 入力データが実際の分布からか、ジェネレータによって生成されるかを決定する。
0.65
The generator and discriminator are trained alternately. 発電機と識別器は交互に訓練される。 0.57
Finally, alternate training makes the generator’s output increasingly closer to the distribution of the real data. 最後に、代替トレーニングにより、ジェネレータの出力が実際のデータの分布にますます近づく。 0.63
Unlike a standard GAN, in our network architecture, the generator’s input is sampled from a distribution of 2D joint locations in human poses (including the x and y coordinates) obtained from the RGB images. 標準的なGANとは異なり、我々のネットワークアーキテクチャでは、RGB画像から得られた人間のポーズ(x座標とy座標を含む)の2次元関節位置の分布からジェネレータの入力をサンプリングする。 0.82
The generator generates reasonable z-components of the 3D human poses without the camera parameters. ジェネレータは、カメラパラメータなしで3次元人間のポーズの適切なz成分を生成する。 0.61
However, due to its randomness, it is highly probable that the generated 3D pose is far from the real 3D pose. しかし、ランダム性のため、生成した3dポーズが実際の3dポーズから遠く離れている可能性が高い。 0.76
Hence, we employ more constraints to improve the generator’s performance to produce a more realistic 3D pose. したがって、我々はより現実的な3Dポーズを生成するために、ジェネレータの性能を改善するためにより多くの制約を採用する。
訳抜け防止モード: それゆえ我々はより多くの制約を ジェネレータの性能を向上させるため、より現実的な3dポーズを生成する。
0.65
Our network architecture is shown in Figure 1. ネットワークアーキテクチャは図1に示します。 0.72
3.2 Reprojection net 3.2リプロジェクションネット 0.81
To produce a more realistic 3D pose, we impose reprojection constraints on it; that is, the generator’s 3D pose can still be reprojected back to the original 2D pose. より現実的な3Dポーズを生成するために、私たちは再投影の制約を課します。
訳抜け防止モード: より現実的な3dポーズを作り出すために、私たちは再投影の制約を課します つまり、ジェネレータの3dポーズは元の2dポーズに戻ることができる。
0.72
Our reprojection network’s input is the generated 3D pose Ypred ∈ R3N, and the output is the reprojected 2D pose Xrep ∈ R2N. 我々の再射ネットワークの入力は生成された3次元ポーズ Ypred ∈ R3N であり、出力は再射された2次元ポーズ Xrep ∈ R2N である。 0.66
Instead of training it alone, we use the generated 3D pose together with the reprojected 2D pose as two parts of the discriminator’s input and train the three networks synchronously so that our reprojection net can learn the mapping from the distribution of 3D poses to 2D poses instead of a simple correspondence. 単独でトレーニングする代わりに、生成した3Dポーズと再投影された2Dポーズを識別器の入力の2つの部分として使用し、3つのネットワークを同期的にトレーニングし、再投影ネットが単純な対応ではなく、3Dポーズの分布から2Dポーズへのマッピングを学習できるようにします。 0.70
In this way, our reprojection net can provide more reliable weakly supervised information to train the generator. このようにして、リジェクションネットは、より信頼性の高い教師付き情報を提供し、ジェネレータを訓練することができる。 0.40
Through many experiments, we find that the result of this synchronous training strategy is better than the result obtained by training the reprojection network alone. 多くの実験を通して、この同期トレーニング戦略の結果は、リジェクションネットワーク単独でトレーニングした結果よりも優れていることがわかった。 0.75
The structure of our reprojection network is shown in Figure 2. 再計画ネットワークの構造は図2に示します。 0.67
It is similar to the structure of our generator but only includes one residual block. 発生器の構造に似ていますが、残るブロックは1つだけです。 0.76
3.1 Generator 3.1 ジェネレータ 0.60
The input of our generator is 2D joint coordinates Xreal ∈ R2N, where N represents the number of joints. ジェネレータの入力は2次元関節座標 Xreal ∈ R2N であり、N は関節の数を表す。 0.74
The generator’s output Z ∈ RN represents the z-components corresponding to the 2D input, and then, we can obtain the corresponding 3D poses Ypred ∈ R3N. 生成子の出力 Z ∈ RN は 2D 入力に対応する z-成分を表し、それに対応する 3D ポーズ Ypred ∈ R3N を得ることができる。 0.85
The neural network input is written as a 2N-dimensional vector, and the output is an N-dimensional vector. ニューラルネットワーク入力は2N次元ベクトルとして記述され、出力はN次元ベクトルである。 0.86
Our generator is designed to learn the mapping from a 2D distribution to a 3D distribution. 本生成装置は2次元分布から3次元分布へのマッピングを学習するために設計されている。 0.65
Its network architecture is shown in Figure 2 and is similar to Martinez’s architecture[20], which has two residual blocks[12], each of which contains two hidden layers, batch norms[13], Leaky-RELU[2], dropout[28], etc. ネットワークアーキテクチャは図2に示され、Martinez氏のアーキテクチャ[20]に似ていて、2つの残留ブロック[12]があり、それぞれが2つの隠れたレイヤ、バッチノルム[13]、Leaky-RELU[2]、ドロップアウト[28]などを含んでいる。 0.69
3.3 Discriminator Our discriminator network architecture is shown in Figure 3, and its input has three parts: the 3D pose, 2D pose, and weighted KCS matrix. 3.3 識別器 我々の識別器ネットワークアーキテクチャは図3に示され、入力は3Dポーズ、2Dポーズ、重み付きCS行列の3つの部分を持つ。 0.58
The 3D pose part is the generated or the ground truth 3D poses, and the 2D pose part is the reprojected or ground truth 2D locations. 3dポーズ部は、生成又はグランド真理3dポーズであり、2dポーズ部は、再投影又はグランド真理2dロケーションである。 0.70
In the following, we describe the weighted KCS matrix. 以下に、重み付きKCS行列について述べる。 0.67
Inspired by the work of Wandt et al [33], we design a novel matrix for the bone lengths and joint angles based on the kinematic chain space (KCS) matrix. wandt et al [33] の研究に触発されて,キネマティック・チェーン・スペース (kcs) 行列に基づく骨の長さと関節角度の新しいマトリックスをデザインした。 0.72
Unlike the original KCS, we adopt a weighted KCS by considering each bone’s angle information with any 元のKCSとは異なり、各骨の角度情報を一切考慮して重み付けされたKCSを採用する。 0.75
英語(論文から抽出)日本語訳スコア
A Synchronized Reprojection-based Model for 3D Human Pose Estimation 3次元ポーズ推定のための同期再投影モデル 0.81
5 Fig. 3 The structure of the discriminator. 5 フィギュア。 3 判別器の構造。 0.60
other bone. The main idea is that for the human pose estimation, the closer the distance between two bones, the more critical their angle information. 他の骨だ 主な考え方は、人間のポーズ推定では、2つの骨の間の距離が近ければ近いほど、角度の情報がより重要になるということである。
訳抜け防止モード: 他の骨だ 主な考え方は、人間のポーズ推定では、2つの骨の間の距離が近いことである。 より批判的な角度情報です
0.75
In practice, we transform the 3D human poses into a weighted KCS and make it one part of discriminator’s input. 実際には、人間の3Dポーズを重み付きCSに変換し、それを識別者の入力の一部にします。 0.63
In the following, we describe the calculation method for the weighted KCS matrix. 次に、重み付きKCS行列の計算方法について述べる。 0.62
First, similar to[33], we define a piece of bone bk as the vector between the r-th joint and the t-th joint, まず、[33]と同様に、骨bkをr番目の関節とt番目の関節の間のベクトルとして定義する。 0.69
bk = pr − pt = Y c, bk = pr − pt = y c である。 0.94
where c = (0, . どこに c = (0, 。 0.73
. . , 0, 1, 0, . . . , 0, 1, 0, . 0.85
. . , 0,−1, 0, . . . , 0,−1, 0, . 0.85
. . , 0)T . (1) . . ,0)T。 (1) 0.78
(2) c has j terms, and the terms 1 and -1 represent the start and end indexes of a bone vector, respectively. (2) c は j 項を持ち、用語 1 と -1 はそれぞれ骨ベクトルの開始指数と終了指数を表す。 0.79
Let C ∈ Rj×b contain the start and end indexes of all bones, where b represents a 3D pose with b bones. C ∈ Rj×b はすべての骨の始点と終点の指数を含み、b はb 個の骨を持つ3次元のポーズを表す。 0.75
Hence, we have B = (b1, b2, . したがって、我々は B = (b1, b2, )。 0.85
. . , bb) = Y C, and we obtain the following KCS matrix: . . , bb) = Y C であり、以下の KCS 行列を得る。 0.81
KCS = BT B. KCS = BT B。 0.82
(3) (4) Next, we determine the weight wij of each element of the KCS. (3) (4) 次に、KCSの各要素の重量wijを決定する。 0.79
We define a bone distance dij to represent the distance between the i-th bone and the j-th bone. i-th 骨と j-th 骨の間の距離を表す骨距離 dij を定義する。 0.79
For example, as shown in Figure 4, we give the bone distances from the right hip bone, where the distance to itself is defined to be 0. 例えば、図4に示すように、右股関節からの距離は0である。
訳抜け防止モード: 例えば、図4に示すように、右の股関節から骨距離を指定します。 距離は 0 と定義されている。
0.64
There are three bones whose distances are 1, and two bones whose distances are 5. 距離が1の3つの骨と、距離が5の2つの骨がある。 0.82
By the bone distances of each bone to any other bone, the weight wij of the KCS matrix is calculated as follows: 各骨と他の骨との骨距離により、KCSマトリックスの重量wijを次のように算出する。 0.75
 1, wij =  1, wij = 0.85
1, tanh( i = j dij = 1 (dij−1) ), dij > 1 1段(たん) i = j dij = 1 (dij−1) ), dij > 1 0.77
1 Fig. 4 The bone distances dij from the right hip bone. 1 フィギュア。 4) 骨距離は右股関節から2。 0.63
weights. For each bone’s adjacent bones, i.e., dij = 1, their knowledge of the joint angles did not change. ウエイト。 各骨の隣接した骨、すなわち dij = 1 に対して、関節角度に関する知識は変化しなかった。 0.68
Let W ∈ Rb×b contain all the items of wij; then, we obtain the following weighted KCS matrix: wKCS = W ∗ KCS. W ∈ Rb×b が wij のすべての項目を含むとすると、以下の重み付き KCS 行列が得られる: wKCS = W ∗ KCS。 0.88
(6) In practice, the weighted KCS matrix is easy to calculate. (6) 実際には、重み付き KCS 行列は計算が容易である。 0.79
Since the wKCS contains information on bone lengths and joint angles, it is more convenient for optimizing the generator to obtain a more proper 3D human pose. wKCSは骨の長さや関節角度に関する情報を含んでいるため、ジェネレータを最適化してより適切な3D人間のポーズを得るのがより便利である。 0.67
Back to our discriminator’s input, the 3D pose part can create a feature vector through a fully connected layer and a residual block, the 2D pose part generates a feature vector through a fully connected layer, and the weighted KCS part also generates a feature vector through a fully connected layer. 判別器の入力により、3Dポーズ部は、完全連結層と残留ブロックを介して特徴ベクトルを生成することができ、2Dポーズ部は、完全連結層を介して特徴ベクトルを生成するとともに、重み付きCS部は、完全連結層を介して特徴ベクトルを生成する。 0.78
The three feature vectors have the same dimension. 3つの特徴ベクトルは同じ次元を持つ。 0.85
They are then concatenated and fed into a fully connected layer, which generates the discriminator’s output. それらが結合されて完全に接続された層に供給され、識別器の出力が生成される。 0.67
Let preal = D∗(Yreal, Xreal, wKCSreal), pf ake = D∗(Ypred, Xrep, wKCSpred), いくぞ preal = D∗(Yreal, Xreal, wKCSreal), pf ake = D∗(Ypred, Xrep, wKCSpred) 0.62
(8) where wKCSpred represents the weighted KCS matrix of the generated 3D pose, and wKCSreal represents the weighted KCS matrix of the ground-truth 3D pose. (8)wKCSpredは生成した3Dポーズの重み付きKCS行列を表し、wKCSrealは3Dポーズの重み付きKCS行列を表す。 0.67
preal is the discriminator’s output when the ground truth 3D poses and the ground truth 2D locations are fed to the discriminator and pf ake is the discriminator’s output when the generated 3D poses and the reprojected 2D locations are the input. プリアルは、基底真理3Dがポーズし、基底真理2D位置が判別器に供給されたときの判別器の出力であり、生成された3Dポーズと再投影された2D位置とが入力されたときの判別器の出力である。
訳抜け防止モード: prealは、識別器の出力である 地上の真実の3Dポーズ 2D位置は識別器に供給され、pf akeは識別器の出力となる。 生成された3Dポーズと再投影された2Dロケーションが入力です。
0.73
(7) In the definition, for the matrix’s diagonal elements, i.e., i = j, we keep the bone length information without the (7) 定義において、行列の対角要素、すなわち i = j に対して、骨の長さ情報は、その情報なしで保持する。 0.79
First, for the GAN, we use the Wasserstein loss function[18], i.e., まず、GAN に対して、ワッサーシュタイン損失関数[18]、すなわち、 0.49
Ldis = pf ake − preal. ldis = pf ake − preal。 0.74
(9) (5) 3.4 Loss functions (9) (5) 3.4 損失関数 0.80
英語(論文から抽出)日本語訳スコア
6 Yicheng Deng1 et al 6 Yicheng Deng1 et al 0.92
To train our three networks sychronously, the loss function of the generator is the same as that of the reprojection network, 3つのネットワークを同期的にトレーニングするには、ジェネレータの損失関数は再投射ネットワークと同じである。 0.73
Lgen = Lrep = −pf ake. Lgen = Lrep = −pf ake。 0.92
(10) Then, we impose another constraint Langle, which guarantees that the z-components of the generated 3D pose will not be inverted, by referring to Yasunori[16]. (10) 次に、生成した3dポーズのz成分が反転しないことを保証する別の制約ラングルを、保則[16]を参照して課す。 0.76
Similarly, we define the face orientation vector v = [vx, vy, vz] = jnose − jneck ∈ R3 and shoulder orientation vector w = [wx, wy, wz] = jls−jrs ∈ R3, where jnose, jneck, jls, jrs ∈ R3 represent the 3D coordinates of the nose, neck, left shoulder and right shoulder respectively. 同様に、面配向ベクトル v = [vx, vy, vz] = jnose − jneck ∈ R3 と肩配向ベクトル w = [wx, wy, wz] = jls−jrs ∈ R3 を定義する。
訳抜け防止モード: 同様に、面向きベクトル v = [ vx, ) を定義する。 vy, vz ] = jnose − jneck ∈ r3 と肩方向ベクトル w = [ wx, wy, wz ] = jls−jrs ∈ r3 ここで jnose, jneck, jls, jrs ∈ r3 は鼻の3d座標を表す。 それぞれ、首、左肩、右肩。
0.86
According to the above mentioned constraints, the angle β between v and w on the z − x plane should satisfy vzwx − vxwz (cid:107)v(cid:107)( cid:107)w(cid:107) ≥ 0. 上記の制約によれば、z − x 平面上の v と w の間の角 β は vzwx − vxwz (cid:107)v(cid:107)( cid:107)w(cid:107) ≥ 0 を満たす。 0.87
sin β = (11) sin β = (11) 0.85
To satisfy this inequality, let この不平等を満たすには 0.69
Langle = max(0,− sin β) = max(0, Langle = max(0,− sin β) = max(0, 0.80
vxwz − vzwx vxwz − vzwx 0.85
(cid:107)v(cid:107)( cid:107)w(cid:107) (cid:107)v(cid:107)( cid:107)w(cid:107) 0.77
). (12) Finally, through equations (10) and (12), we obtain ). (12)最後に、方程式(10)と(12)を通して得られる 0.86
the final loss function of the generator as follows: ジェネレータの最終損失関数は以下の通りである。 0.77
Lgen = −pf ake + λLangle, Lgen = −pf ake + λLangle 0.91
(13) where λ represent the weight coefficients of the loss terms Langle, respectively. (13) ここで λ はそれぞれ損失項 Langle の重み係数を表す。 0.80
3.5 Data processing We performed data preprocessing on the data before training. 3.5 データ処理 トレーニング前にデータの事前処理を行いました。 0.73
Like most pose estimation methods, we use the human hip joint as the root joint and subtract the coordinates of the other joint points from the root joint by translating them relative to the root node. 多くのポーズ推定法と同様に、人間の股関節を根節として使用し、根節に対して翻訳することで他の関節点の座標を根節から抽出する。 0.71
Then, we divide the value of all joint coordinates by the corresponding ratio, which is the average of the Euclidean distances from all joints to the root joint. 次に、すべてのジョイント座標の値は、すべてのジョイントからルートジョイントへのユークリッド距離の平均である対応する比率で割る。 0.63
In the training and testing phases, we use these coordinates to represent each joint’s position. トレーニングとテストのフェーズでは、各関節の位置を表すためにこれらの座標を使用します。 0.69
3.6 Training details As mentioned above, we use the standard Wasserstein GAN (WGAN) loss function and our loss function Langle to train our generator, reprojection network, and discriminator synchronously during each iteration. 3.6 研修内容 上述したように、我々は標準のWasserstein GAN(WGAN)損失関数と損失関数Langleを使用して、各イテレーション中にジェネレータ、再投射ネットワーク、識別器を同期的にトレーニングする。
訳抜け防止モード: 3.6 研修内容 上述したように、標準ワッサーシュタインGAN(WGAN)損失関数を用いる。 損失関数 Langle は ジェネレータ、再投射ネットワーク、および判別器を各イテレーション中に同期的に訓練します。
0.68
We use the Adam optimizer for all three networks with a learning rate of 8e-5, beta1 = 0.0 and beta2 = 0.9. 学習速度は8e-5, beta1 = 0.0, beta2 = 0.9である。 0.53
The loss weights are set as λ = 1. 損失重みは λ = 1 に設定される。 0.78
4 Experiments Dataset We perform experiments on the three datasets, Human3.6M[14], MPI-INF-3DHP[21] and MPII[1]. 4つの実験 データセット 我々は3つのデータセット、Human3.6M[14]、MPI-INF-3DHP[21]、MPII[1]で実験を行う。 0.65
Human3.6M is the most popular benchmark dataset for 3D human pose estimation and contains over 3.6 million 3D human poses and the corresponding images. Human3.6Mは3D人間のポーズ推定のための最も人気のあるベンチマークデータセットであり、360万以上の人間のポーズと対応する画像を含んでいる。 0.56
To compare our results with the results of the state-ofthe-art methods in related fields, we also use the 2D locations estimated by the stacked hourglass[24] method on the Human3.6M[14] dataset to perform 3D estimation experiments. 関連分野における最先端手法の結果と比較するために、human3.6m[14]データセットに積み重ねられたhourglass[24]法によって推定された2次元位置を用いて3次元推定実験を行った。 0.72
Finally, we test our model on the MPII dataset, and the experimental results show that our model performs well, even on the dataset whose images are captured from a monocular camera. 最後に,MPIIデータセット上で実験を行い,実験結果から,モノクラーカメラから画像を取り出すデータセットにおいても,そのモデルが良好に動作することを示した。 0.79
4.1 Quantitative evaluation on Human3.6M 4.1 Human3.6Mの定量的評価 0.52
Protocols For the Human3.6M dataset, we use S1, S5, S6, S7, and S8 as the training sets and S9 and S11 as the testing sets. プロトコル Human3.6Mデータセットでは、トレーニングセットとしてS1、S5、S6、S7、S8、テストセットとしてS9、S11を使用します。 0.65
The evaluation standard is the mean per joint positioning error (MPJPE). 評価基準は関節位置決め誤差平均(MPJPE)である。 0.66
The MPJPE calculates the average Euclidean distance between the estimated 3D pose and the ground truth 3D pose. MPJPEは、推定された3Dポーズと地上真実3Dポーズとの間の平均ユークリッド距離を算出する。
訳抜け防止モード: MPJPEは推定3次元ポーズの平均ユークリッド距離を算出する そして、地上の真実の3Dポーズ。
0.72
In the experiments, there are two main protocols to follow: protocol #1 calculates the MPJPE directly and protocol #2 calculates the MPJPE after aligning the estimation with the ground truth via a rigid transformation[3][23]. 実験では、プロトコル#1がMPJPEを直接計算し、プロトコル#2が厳密な変換[3][23]を介して、推定と地上の真実を整列した後、MPJPEを計算する。
訳抜け防止モード: 実験では、2つの主要なプロトコルが従う。プロトコル#1はMPJPEを直接計算する。 プロトコル # 2 は MPJPE の後に計算します 厳密な変換[3][23]によって、推定を基底真理と整合させる。
0.77
Results under protocol #1 The experimental results obtained following protocol #1 are shown in Table 1, where the effects of 3D pose estimation, marked as GT, are obtained using ground truth 2D locations for both training and testing. プロトコル#1で得られた実験結果は表1に示され、GTとマークされた3Dポーズ推定の効果は、トレーニングとテストの両方において地上の真理2D位置を用いて得られる。 0.82
It is shown that our model can obtain stable and balanced pose estimations, and the results outperform the best comparison results by approximately 5.1%. その結果,安定な姿勢推定とバランスの取れた姿勢推定が得られ,結果が比較結果の約5.1%を上回った。 0.79
The results, marked as SH-SH, are obtained from 2D locations detected by stacked hourglass for training and testing. SH-SHとマークされた結果は、積み重ねられた砂時計で検出された2D位置から得られる。 0.67
We can find that the average MPJPE is 102.2 mm. 平均MPJPEは102.2mmである。 0.57
This error contains two parts: one is from the z-component estimated by our generator, and the other is from the x-y component detected by stacked hourglass instead of our model. この誤差には2つの部分が含まれる: 1つはジェネレータによって推定されるz成分からであり、もう1つはモデルの代わりに積み重ねられた砂時計によって検出されるx-y成分からである。 0.53
To evaluate the error of the z-component estimated by our generator, we use the 2D locations detected by stacked hourglass for training and testing but only calculate the error of the z-component of the 3D pose, marked as SH-SH-z in Table 1. 生成器で推定されるz成分の誤差を評価するために,砂時計の積み重ねによって検出された2次元位置をトレーニングとテストに使用するが,テーブル1ではsh-sh-zとしてマークされた3次元ポーズのz成分の誤差のみを計算する。
訳抜け防止モード: 生成器で推定したz成分の誤差を評価する。 積み重ねられた砂時計で検出された2D位置をトレーニングとテストに利用 しかし 3D ポーズの z - 成分の誤差だけを計算します SH - SH - z in Table 1 とマークされている。
0.72
To evaluate the model more precisely, we implement the SH-GT experiment. モデルをより正確に評価するために,SH-GT実験を実施している。 0.62
Its training set is the 2D locations detected by stacked hourglass, and the testing set is the ground truth 2D locations. そのトレーニングセットは、積み重ねられた砂時計で検出された2D位置であり、テストセットは地上の真理2D位置である。 0.70
The results of 結果 0.35
英語(論文から抽出)日本語訳スコア
A Synchronized Reprojection-based Model for 3D Human Pose Estimation 3次元ポーズ推定のための同期再投影モデル 0.81
7 Table 1 The results of 3D human pose estimation of the Human3.6M dataset compared to other state-of-the-art methods following Protocol #1, all referred results come from the related papers. 7 表1 ヒューマン3.6mデータセットの3次元人物ポーズ推定の結果は、プロトコル#1に続く他の最先端手法と比較すると、関連論文から引用される。 0.77
GT Direct Discuss Eating Greet Phone Photo Pose Purch Sitting SittingD Smoke Wait WalkD Walk WalkT Avg gt direct discussion eating greet phone photo pose purch sittingd smoke wait walkd walkt avg 0.57
Protocol #1 132.7 183.6 LinKDE[14] 85.1 112.7 Du et al [8] 109.3 87.4 Zhou et al [37] (cid:88) 53.7 71.5 Tang et al [32] 53.3 60.8 Martinez et al [20] 125.0 137.9 Kudo et al [16] (cid:88) 54.8 60.7 Zhou et al [38] Yang et al [35] 58.9 51.5 67.4 71.9 Pavlakos et al [25] B.Wandt et al [33] (cid:88) 50.0 53.5 (cid:88) 43.3 52.9 Ours (GT) 102.7 93.7 Ours (SH-SH) 64.9 57.9 Ours (SH-GT) Ours (SH-SH-z) 43.9 52.6 議定書 #1 132.7 183.6 LinKDE[14] 85.1 112.7 Du et al [8] 109.3 87.4 Zhou et al [37] (cid:88) 53.7 71.5 Tang et al [32] 53.3 60.8 Martinez et al [20] 125.0 137.9 Kudo et al [88] (cid:88) 54.8 60.7 Zhou et al [38] Yang et al [35] 58.9 51.5 67.4 71.9 Pavlakos et al [25] B.Wandt et al [33] (cid:88) 50.03.5 (cid:88) 43.3 52.3 53.7 ^ ^ ^ 72-9 ^ ^ ^ ^ ^ ^ ^ ^ ^ ^ ^ ^ ^ ^ 0.71
132.3 104.9 87.1 82.3 62.9 107.2 58.2 50.4 66.7 44.7 42.5 95.8 60.1 46.4 132.3 104.9 87.1 82.3 62.9 107.2 58.2 50.4 66.7 44.7 42.5 95.8 60.1 46.4 0.41
57.6 57.8 98.4 82.4 57.6 57.8 98.4 82.4 0.50
86.9 86.4 164.4 162.1 205.9 150.6 171.3 151.6 122.1 139.1 135.9 105.9 166.2 117.5 124.5 103.2 116.2 143.3 106.9 99.8 104.2 100.0 58.6 62.7 58.7 81.9 130.8 115.1 127.3 147.7 128.7 134.7 62.0 71.4 75.2 62.1 69.2 57.1 83.7 72.0 69.1 51.6 49.0 51.1 44.9 45.9 49.5 48.7 45.9 103.1 111.5 103.8 117.9 113.7 93.7 67.5 68.6 62.5 64.4 53.4 48.0 50.5 60.0 86.9 86.4 164.4 162.1 205.9 150.6 171.3 151.6 122.1 139.1 135.9 105.9 166.2 117.5 124.5 103.2 116.2 143.3 106.9 99.8 104.2 100.0 58.6 62.7 58.7 81.9 130.8 115.1 127.3 147.7 128.7 134.7 62.0 71.4 75.2 62.1 69.2 57.1 83.7 72.0 69.1 51.6 49.0 51.1 44.9 45.9 49.5 48.7 45.9 103.1 111.5 103.8 117.9 113.7 93.7 67.5 68.6 62.5 64.4 53.4 48.0 50.5 60.0 0.45
53.8 65.5 49.8 65.4 77.0 65.0 58.7 48.8 59.8 53.8 65.5 49.8 65.4 77.0 65.0 58.7 48.8 59.8 0.42
55.6 52.7 68.3 51.3 55.6 52.7 68.3 51.3 0.45
74.4 63.8 68.0 64.9 74.4 63.8 68.0 64.9 0.50
243.0 226.9 199.2 112.5 99.8 139.8 111.6 85.2 96.5 66.0 55.9 133.6 87.3 84.7 243.0 226.9 199.2 112.5 99.8 139.8 111.6 85.2 96.5 66.0 55.9 133.6 87.3 84.7 0.41
162.1 120.0 107.4 83.3 69.1 114.5 64.1 57.4 71.7 46.6 44.9 104.4 59.9 52.5 162.1 120.0 107.4 83.3 69.1 114.5 64.1 57.4 71.7 46.6 44.9 104.4 59.9 52.5 0.41
170.7 177.1 117.7 137.4 118.1 114.268.9 63.9 50.9 147.1 130.8 66.0 63.2 60.1 58.4 65.8 74.9 50.6 42.5 49.6 51.3 106.5 99.9 63.1 65.3 51.8 56.2 170.7 177.1 117.7 137.4 118.1 114.268.9 63.9 50.9 147.1 130.8 66.0 63.2 60.1 58.4 65.8 74.9 50.6 42.5 49.6 51.3 106.5 99.9 63.1 65.3 51.8 56.2 0.39
127.9 96.6 106.5 99.3 97.7 79.457.0 67.1 54.8 125.6 151.1 51.4 55.3 47.7 43.6 59.1 63.2 38.8 60.4 43.0 45.9 97.5 94.1 61.6 55.7 41.7 45.6 127.9 96.6 106.5 99.3 97.7 79.457.0 67.1 54.8 125.6 151.1 51.4 55.3 47.7 43.6 59.1 63.2 38.8 60.4 43.0 45.9 97.5 94.1 61.6 55.7 41.7 45.6 0.39
162.1 126.5 113.0 79.0 67.5 130.9 64.9 58.6 71.9 50.9 48.3 104.8 65.4 54.4 162.1 126.5 113.0 79.0 67.5 130.9 64.9 58.6 71.9 50.9 48.3 104.8 65.4 54.4 0.41
Fig. 5 Some reconstruction results on the Human3.6M dataset. フィギュア。 5 Human3.6Mデータセットの復元結果。 0.56
The first row is ground truth 2D poses, the second row is ground truth 3D poses, and the third row is the reconstructed 3D pose predicted by our model. 第1行は接地真理2Dポーズ、第2行は接地真理3Dポーズ、第3行は我々のモデルによって予測された再構成された3Dポーズである。 0.61
Table 2 The results of 3D human pose estimation of the Human3.6M dataset compared with other state-of-the-art methods following Protocol #2, all referred results come from the related papers. 表2 ヒューマン3.6mデータセットの3次元人物ポーズ推定の結果は、プロトコル#2に続く他の最先端手法と比較すると、関連論文から引用される。 0.66
GT Direct Discuss Eating Greet Phone Photo Pose Purch Sitting SittingD Smoke Wait WalkD Walk WalkT Avg Protocol #2 99.7 Zhou et al [36] (cid:88) 36.9 Sun et al [30] 62.0 Bogo et al [3] 39.5 Martinez et al [20] 38.2 Fang et al [9] B.Wandt et al [33] (cid:88) 33.6 (cid:88) 32.1 Ours (GT) 70.8 Ours (SH-SH) 41.5 Ours (SH-GT) Ours (SH-SH-z) 31.6 GT Direct Discuss Eating Greet Phone Photo Pose Purch SittingD Smoke Wait WalkD WalkD Avg Protocol #2 99.7 Zhou et al [36] (cid:88) 36.9 Sun et al [30] 62.0 Bogo et al [3] 39.5 Martinez et al [20] 38.2 Fang et al [9] B.Wandt et al [33] (cid:88) 33.6 (cid:88) 32.1 Ours (GT) 70.8 Ours (SH-SH) 41.5 Ours (SH-GT) Ours (SH-GT) 31.6 0.87
116.8 108.3 107.3 93.5 95.3 35.7 50.1 40.4 41.9 73.0 75.3 76.5 92.1 41.4 40.6 47.0 51.0 40.2 38.2 44.9 48.5 37.5 37.8 34.9 36.0 36.3 31.4 88.0 78.2 46.4 45.5 36.8 40.0 116.8 108.3 107.3 93.5 95.3 35.7 50.1 40.4 41.9 73.0 75.3 76.5 92.1 41.4 40.6 47.0 51.0 40.2 38.2 44.9 48.5 37.5 37.8 34.9 36.0 36.3 31.4 88.0 78.2 46.4 45.5 36.8 40.0 0.40
109.1 34.9 59.4 77.0 100.3 56.0 56.5 55.3 54.5 44.1 39.2 39.6 33.4 31.4 34.5 86.3 80.1 46.5 49.9 39.5 41.3 109.1 34.9 59.4 77.0 100.3 56.0 56.5 55.3 54.5 44.1 39.2 39.6 33.4 31.4 34.5 86.3 80.1 46.5 49.9 39.5 41.3 0.40
106.5 115.2 36.7 39.8 87.7 86.8 43.1 38.0 36.7 41.7 40.3 34.9 30.9 34.7 79.1 74.5 43.9 39.6 30.0 33.9 106.5 115.2 36.7 39.8 87.7 86.8 43.1 38.0 36.7 41.7 40.3 34.9 30.9 34.7 79.1 74.5 43.9 39.6 30.0 33.9 0.41
102.2 110.4 30.8 39.0 79.7 77.3 49.5 45.0 44.3 47.3 39.8 34.1 34.8 36.1 79.6 72.3 45.4 45.0 34.4 37.8 102.2 110.4 30.8 39.0 79.7 77.3 49.5 45.0 44.3 47.3 39.8 34.1 34.8 36.1 79.6 72.3 45.4 45.0 34.4 37.8 0.41
137.5 40.4 137.3 69.4 64.4 52.0 40.8 98.8 67.2 50.3 137.5 40.4 137.3 69.4 64.4 52.0 40.8 98.8 67.2 50.3 0.42
106.0 44.9 83.4 49.2 47.2 37.5 33.5 82.4 44.2 38.4 106.0 44.9 83.4 49.2 47.2 37.5 33.5 82.4 44.2 38.4 0.42
95.8 36.2 60.2 43.2 41.7 38.8 36.6 75.2 43.6 35.4 95.8 36.2 60.2 43.2 41.7 38.8 36.6 75.2 43.6 35.4 0.42
87.9 40.6 67.8 46.4 43.7 32.6 30.1 73.4 39.9 31.9 87.9 40.6 67.8 46.4 43.7 32.6 30.1 73.4 39.9 31.9 0.42
106.7 40.6 82.3 47.7 45.7 38.2 34.4 78.7 45.9 36.5 106.7 40.6 82.3 47.7 45.7 38.2 34.4 78.7 45.9 36.5 0.42
70.3 71.3 44.4 44.8 33.5 32.8 70.3 71.3 44.4 44.8 33.5 32.8 0.43
these experiments show that our model works well for estimating the depth of human poses. これらの実験により,我々のモデルが人間のポーズの深さを推定するのに有効であることが示された。
訳抜け防止モード: これらの実験は 我々のモデルは 人間のポーズの深さを推定するのに役立つ
0.74
Results under protocol #2 The experimental results under protocol #2, which uses a rigid alignment with the ground truth, are shown in Table 2. プロトコル#2による結果 地上の真実と厳密なアライメントを使用するプロトコル#2による実験結果は、表2に示されています。 0.86
We find that our results are better than those of other state-ofthe-art methods. 我々の結果は、他の最先端の手法よりも優れている。 0.68
Robustness to detector noise Similar to[23], we add Gaussian noise to the ground truth 2D locations to train and test our model. 検出ノイズのロバスト性は[23]に類似し,ガウスノイズを地上の真理2D位置に加え,モデルの訓練と試験を行う。 0.80
The mean value of the Gaussian noise is 0, and its standard deviation values are 5, 10, 15, and 20. ガウス雑音の平均値は0であり、標準偏差値は5,10,15,20である。 0.64
We perform three groups of experiments as shown in Table 3. 表3に示すように、実験の3つのグループを実行する。 0.68
The top part includes the results obtained by applying Gaussian noise to training and testing and then calculating the MPJPE. トップ部は、ガウスノイズをトレーニングとテストに適用し、MPJPEを計算することで得られる結果を含む。 0.69
The middle 中間 0.43
英語(論文から抽出)日本語訳スコア
8 Yicheng Deng1 et al 8 Yicheng Deng1 et al 0.92
Table 3 Robustness to detector noise of our model on the Human3.6M dataset following protocol #2. 表3 プロトコル#2に続くhuman3.6mデータセットにおけるモデル検出ノイズに対するロバスト性。 0.72
Protocol #2 test GT Error Direct Discuss Eating Greet Phone Photo Pose Purch Sitting SittingD Smoke Wait WalkD Walk WalkT Avg 36.6 MPJPE 32.1 34.4 GT 34.8 36.1 33.5 51.6 MPJPE 50.7 GT+N(0, 5) 52.1 51.1 54.4 51.8 73.9 MPJPE 72.3 75.7 78.0 GT+N(0, 10) 75.7 75.3 MPJPE 96.3 97.1 97.5 GT+N(0, 15) 97.6 101.4 95.8 100.4 98.8 GT+N(0, 20) 117.2 120.4 120.6 119.9 121.2 120.1 MPJPE 115.7 116.3 (cid:88) MPJPE 37.5 GT+N(0, 5) 39.0 38.9 38.2 GT+N(0, 10) (cid:88) MPJPE 42.2 45.8 45.2 43.1 GT+N(0, 15) (cid:88) MPJPE 45.9 50.4 49.4 48.0 GT+N(0, 20) (cid:88) MPJPE 51.8 50.7 51.9 56.1 33.3 34.1 32.8 only z 30.9 GT+N(0, 5) 40.6 40.8 38.7 only z 36.3 GT+N(0, 10) 45.8 45.1 43.9 only z 42.3 GT+N(0, 15) GT+N(0, 20) only z 43.9 45.3 47.4 49.4 Protocol #2 test GT Error Direct Discuss Eating Greet Phone Photo Pose Purch Sitting SittingD Smoke Wait WalkD Walk WalkT Avg 36.6 MPJPE 32.1 34.4 GT 34.8 36.1 33.5 51.6 MPJPE 50.7 GT+N(0, 5) 52.1 51.1 54.4 51.8 73.9 MPJPE 72.3 75.7 78.0 GT+N(0, 10) 75.7 75.3 MPJPE 96.3 97.1 97.5 GT+N(0, 15) 97.6 101.4 95.8 100.4 98.8 GT+N(0, 20) 117.2 120.4 120.6 119.9 121.2 120.1 MPJPE 115.7 116.3 (cid:88) MPJPE 37.5 GT+N(0, 5) 39.0 38.9 38.2 GT+N(0, 10) (cid:88) MPJPE 42.2 45.8 45.2 43.1 GT+N(0, 15) (cid:88) MPJPE 45.9 50.4 49.4 48.0 GT+N(0, 20) (cid:88) MPJPE 51.8 50.7 51.9 56.1 33.3 34.1 32.8 only z 30.9 GT+N(0, 5) 40.6 40.8 38.7 only z 36.3 GT+N(0, 10) 45.8 45.1 43.9 only z 42.3 GT+N(0, 15) GT+N(0, 20) only z 43.9 45.3 47.4 49.4 0.63
40.8 30.1 55.7 48.9 83.7 71.6 95.8 106.9 119.9 120.9 118.0 125.3 116.5 116.9 120.7 132.0 41.9 35.6 53.7 40.7 58.5 46.3 55.1 70.5 36.7 30.4 47.9 36.1 53.6 41.7 48.8 63.4 40.8 30.1 55.7 48.9 83.7 71.6 95.8 106.9 119.9 120.9 118.0 125.3 116.5 116.9 120.7 132.0 41.9 35.6 53.7 40.7 58.5 46.3 55.1 70.5 36.7 30.4 47.9 36.1 53.6 41.7 48.8 63.4 0.40
42.9 38.3 48.5 45.4 52.1 50.8 58.3 53.9 35.4 33.9 42.2 40.1 46.8 45.1 49.8 49.0 42.9 38.3 48.5 45.4 52.1 50.8 58.3 53.9 35.4 33.9 42.2 40.1 46.8 45.1 49.8 49.0 0.41
33.7 38.5 42.9 46.7 44.4 52.7 57.2 58.9 29.1 32.1 38.2 40.0 42.9 46.6 40.0 48.1 33.7 38.5 42.9 46.7 44.4 52.7 57.2 58.9 29.1 32.1 38.2 40.0 42.9 46.6 40.0 48.1 0.41
38.1 41.6 44.9 47.5 48.1 54.6 56.9 56.9 33.1 35.3 41.1 42.7 45.6 48.3 50.8 49.5 38.1 41.6 44.9 47.5 48.1 54.6 56.9 56.9 33.1 35.3 41.1 42.7 45.6 48.3 50.8 49.5 0.41
36.3 31.4 55.1 51.3 77.8 74.3 100.7 97.1 36.3 31.4 55.1 51.3 77.8 74.3 100.7 97.1 0.42
33.4 31.4 39.6 51.8 49.3 57.5 80.0 74.6 73.5 102.5 96.5 97.1 33.4 31.4 39.6 51.8 49.3 57.5 80.0 74.6 73.5 102.5 96.5 97.1 0.41
46.4 52.9 58.2 63.1 37.6 44.8 48.8 54.5 46.4 52.9 58.2 63.1 37.6 44.8 48.8 54.5 0.42
38.9 34.9 45.9 41.2 48.8 46.9 52.6 49.8 34.3 30.6 40.6 38.7 45.1 44.6 44.8 44.9 38.9 34.9 45.9 41.2 48.8 46.9 52.6 49.8 34.3 30.6 40.6 38.7 45.1 44.6 44.8 44.9 0.41
34.5 51.9 75.4 98.5 34.5 51.9 75.4 98.5 0.45
39.5 45.6 51.5 54.5 33.8 40.5 46.0 51.9 39.5 45.6 51.5 54.5 33.8 40.5 46.0 51.9 0.42
30.9 34.7 47.7 51.9 73.7 76.1 30.9 34.7 47.7 51.9 73.7 76.1 0.43
part contains the results obtained by applying Gaussian noise only to training but testing on ground-truth then calculating the MPJPE. 一部は、ガウスノイズをトレーニングにのみ適用して得られた結果を含むが、地上でのテストを行い、MPJPEを計算する。 0.61
The bottom part includes the results obtained by applying Gaussian noise to training and testing and then calculating the z-component error only. 底部は、トレーニングおよびテストにガウス雑音を適用して得られた結果を含み、z成分誤差のみを計算する。 0.72
Because our generator estimates only the z component of a 3D pose, the distance between the x-y coordinates increases when we use the noise-applied 2D locations for testing. 生成器は3次元ポーズのz成分のみを推定するため、ノイズ適応2次元位置を用いた場合、x-y座標間の距離は増加する。 0.77
Therefore, we use the second and third experiments to evaluate our model and to verify its reliability. そこで,本モデルの評価と信頼性の検証には,第2および第3の実験を用いた。 0.76
The experimental results show that our model can still perform well in estimating the human pose depth even if the 2D detector produces noise. 実験の結果,2次元検出器がノイズを発生しても,人間のポーズ深度を推定できることがわかった。 0.75
4.2 Quantitative evaluation on MPI-INF-3DHP 4.2 MPI-INF-3DHPの定量的評価 0.48
We also perform experiments on the MPI-INF-3DHP dataset[21], and the experimental results are shown in Table 4. また,mpi-inf-3dhpデータセット[21]の実験を行い,実験結果を表4に示す。 0.84
The higher the PCK value or the lower the MPJPE value is, the better the model performs. PCK値が高いほど、MPJPE値が低いほど、モデルの性能が向上する。 0.63
The results show that our model has achieved the best 3DPCK and a good ranking for MPJPE among all existing methods. 以上の結果から,提案手法はMPJPEで最高の3DPCKを達成でき,MPJPEのランキングも良好であることが示唆された。
訳抜け防止モード: その結果は 我々のモデルは,既存のすべての手法の中で,最高の3DPCKと優れたMPJPEを達成している。
0.69
Hence, our model can be applied to multiple datasets and achieves better performance in human pose estimation. したがって、このモデルは複数のデータセットに適用でき、人間のポーズ推定の性能が向上する。 0.68
Table 4 The results of 3D human pose estimation on the MPI-INF-3DHP dataset. 表4 MPI-INF-3DHPデータセットの3次元ポーズ推定結果 0.73
Methods Mehta et al [21] VNect[22] Zhou et al [38] OriNet[17] Yang et al [35] RepNet[33] Ours Mehta et al [21] VNect[22] Zhou et al [38] OriNet[17] Yang et al [35] RepNet[33] Ours 0.78
3D PCK 76.5 76.6 69.2 81.8 69.0 82.5 86.0 3D PCK 76.5 76.6 69.2 81.8 69.0 82.5 86.0 0.47
MPJPE 117.6 124.7 137.1 89.497.8 94.9 MPJPE 117.6 124.7 137.1 89.497.8 94.9 0.43
Table 5 Ablation studies. 表5 アブレーション研究。 0.69
Human3.6M MPI-INF-3DHP 3DPCK / MPJPE Human3.6M MPI-INF-3DHP 3DPCK / MPJPE 0.44
MPJPE Methods Sep + KCS Sep + wKCS Syn + KCS Syn + wKCS MPJPE Sep + KCS Sep + wKCS Syn + KCS Syn + wKCS 0.81
50.6 49.9 49.6 48.3 50.6 49.9 49.6 48.3 0.45
84.4 / 98.9 84.8 / 98.1 84.5 / 98.2 86.0 / 94.9 84.4 / 98.9 84.8 / 98.1 84.5 / 98.2 86.0 / 94.9 0.53
4.3 Ablation studies 4.3 アブレーション研究 0.72
In this section, we conduct ablation studies to evaluate the effectiveness of our synchronous training strategy and the weighted KCS. 本稿では,同期トレーニング戦略と重み付きKCSの有効性を評価するためのアブレーション研究を行う。 0.80
The experimental results on Human3.6M and MPI-INF-3DHP are shown in Table 5, where Sep and Syn represent our separate and synchronous training strategies, respectively. The experimental results on Human3.6M and MPI-INF-3DHP are shown in Table 5, where Sep and Syn each represented our separate and synchronous training strategy。 0.88
Sep+wKCS represents our experimental results when we train the GAN and the reprojection network separately and use the wKCS as one part of our discriminator’s input. Sep+wKCSは、GANと再投射ネットワークを個別に訓練し、wKCSを識別器の入力の一部として使用する際の実験結果を表す。 0.74
We find that the estimation accuracy in such experiments is worse, and the training process is unstable. このような実験では, 推定精度が悪く, トレーニングプロセスが不安定であることがわかった。 0.79
In contrast, our strategy that trains them synchronously works well; it obtains more accurate and stable pose estimations. 対照的に、同期的に訓練する我々の戦略はうまく機能し、より正確で安定したポーズ推定が得られる。 0.59
Syn+KCS represents our experimental results when we train our model synchronously and use the common KCS instead of our wKCS. Syn+KCSは、モデルを同期的にトレーニングし、wKCSの代わりに共通のKCSを使用する場合の実験結果を表す。 0.72
The results show that our wKCS can make the generator concentrate on more critical joint angle information, i.e., the angle information between bones with a smaller bone distance. その結果,我々のwKCSは,より重要な関節角度情報,すなわち骨距離の小さい骨間の角度情報に集中させることができることがわかった。 0.82
4.4 Qualitative evaluation on MPII 4.4 MPIIの質的評価 0.79
We finally conduct experiments on the MPII dataset[1], which has only 2D annotations. 最終的に2次元アノテーションしか持たないMPIIデータセット[1]で実験を行う。 0.67
The experimental results are shown in Figure 6. 実験結果は図6に示します。 0.78
It can be seen that our model performs well with a standard 2D pose dataset, which contains more complicated in-the-wild poses. 我々のモデルは、より複雑な2Dポーズを含む標準的な2Dポーズデータセットでうまく機能する。 0.68
英語(論文から抽出)日本語訳スコア
A Synchronized Reprojection-based Model for 3D Human Pose Estimation 3次元ポーズ推定のための同期再投影モデル 0.81
9 Fig. 6 Some reconstruction results on the MPII dataset. 9 フィギュア。 6MPIIデータセットの再構成結果。 0.62
Each of 2D Pose is the ground truth 2D coordinates, and each of Predict 3D Pose is the 3D pose predicted using our model. 2D Pose のそれぞれが基底真理2D座標であり、予測3D Pose のそれぞれがモデルを用いて予測された3Dポーズである。 0.80
英語(論文から抽出)日本語訳スコア
10 5 Conclusion Many effective models have been developed to estimate 3D human poses. 10 5 結論 3d人間のポーズを推定するために多くの効果的なモデルが開発されている。 0.69
However, most of them only focus on the consistency between 2D poses and 2D reprojections or among several lifted 3D poses to perform this task. しかし、そのほとんどは、2Dのポーズと2Dのリプロジェクションの一貫性にのみ焦点を当てている。 0.52
This paper proposes a synchronized adversarial architecture that utilizes 2D and 3D information simultaneously to estimate 3D human poses from monocular images. 本稿では,2次元と3次元の情報を同時に利用し,モノクロ画像から3次元のポーズを推定する。 0.63
Based on a GAN, we add a reprojection network to learn the mapping of the distribution from 3D human poses to 2D reprojections and synchronously train the reprojection network with the generator as well as the discriminator. GANに基づいて、3次元のポーズから2次元のリプロジェクションへの分布のマッピングを学習し、ジェネレータや識別器と同期的に再プロジェクションネットワークを訓練する。
訳抜け防止モード: GANに基づいて,3次元のポーズから2次元のリプロジェクションへの分布のマッピングを学習するための再プロジェクションネットワークを追加する。 ジェネレータとディスクリミネータでリジェクションネットワークを同期的にトレーニングする。
0.70
We also design a improved space that transforms a 3D pose into a weighted kinematic chain space to impose the constraints on joint angles and bone lengths. また、3次元のポーズを重み付きキネマティックチェイン空間に変換し、関節角度や骨長に制約を加える改良空間を設計する。 0.74
The experimental results show that our method outperforms the state-of-the-art methods by approximately 5.1% on Human3.6M and achieves more accurate estimation performance than those methods on MPI-INF-3DHP and MPII. 実験の結果,本手法はHuman3.6Mで5.1%向上し,MPI-INF-3DHPやMPIIよりも精度の高い推定性能が得られた。 0.74
In the future, we plan to improve the model’s performance by applying it to multiview images or videos. 将来的には、マルチビュー画像やビデオに適用することで、モデルのパフォーマンスを向上させる予定です。 0.79
Acknowledgment This research is supported by the National Natural Science Foundation of China (NSFC 61572005, 61672086, 61702030, 61771058). 承認 この研究は中国国立自然科学財団(nsfc 61572005, 61672086, 61702030, 61771058)が支援している。 0.65
References 1. Mykhaylo Andriluka, Leonid Pishchulin, Peter Gehler, and Bernt Schiele. 参考文献 1. Mykhaylo Andriluka、Leonid Pishchulin、Peter Gehler、Bernt Schiele。 0.71
Human pose estimation: New benchmark and state-of-the-art analysis. 人間のポーズ推定:新しいベンチマークと最先端の分析。 0.62
In Computer Vision and Pattern Recognition (CVPR), 2014. コンピュータビジョンとパターン認識(CVPR) 2014年。 0.69
2. B Xu, N Wang, T Chen, M Li. 2. B Xu、N Wang、T Chen、M Li。 0.80
Empirical evaluation of rectified activations in convolutional network. 実証的評価 畳み込みネットワークにおける整流活性化 0.70
2015. 3. Federica Bogo, Angjoo Kanazawa, Christoph Lassner, Peter Gehler, Javier Romero, and Michael J. 2015. 3. Federica Bogo、Angjoo Kanazawa、Christoph Lassner、Peter Gehler、Javier Romero、Michael J。 0.80
Black. Keep it smpl: Automatic estimation of 3d human pose and shape from a single image. 黒。 smpl: 1枚の画像から3d人間のポーズと形状を自動的に推定する。 0.77
In European Conference on Computer Vision, 2016. 2016年、欧州コンピュータビジョン会議に参加。 0.80
4. Adrian Bulat and Georgios Tzimiropoulos. 4. Adrian BulatとGeorgios Tzimiropoulos。 0.80
Human pose estimation via convolutional part heatmap regression. 畳み込み部分熱マップ回帰による人間のポーズ推定 0.73
In European Conference on Computer Vision, 2016. 2016年、欧州コンピュータビジョン会議に参加。 0.80
5. Zhe Cao, Tomas Simon, Shih En Wei, and Yaser Sheikh. 5. Zhe Cao、Tomas Simon、Shih En Wei、Yaser Sheikh。 0.77
Realtime multi-person 2d pose estimation using part affinity fields. 部分親和性場を用いた実時間多人数2dポーズ推定 0.57
In 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2017. 2017年、IEEE Conference on Computer Vision and Pattern Recognition (CVPR) に参加。 0.78
6. Joao Carreira, Pulkit Agrawal, Katerina Fragkiadaki, and Jitendra Malik. 6. Joao Carreira, Pulkit Agrawal, Katerina Fragkiadaki, Jitendra Malik 0.75
Human Pose Estimation with Iterative Error Feedback. 反復誤差フィードバックによる人間のポーズ推定。 0.79
In 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pages 4733– 4742, Las Vegas, NV, USA, June 2016. 2016年のIEEE Conference on Computer Vision and Pattern Recognition (CVPR), page 4733–4742, Las Vegas, NV, USA, June 2016
訳抜け防止モード: 2016年IEEE Conference on Computer Vision and Pattern Recognition (CVPR)に参加して 4733 - 4742, Las Vegas, NV, USA, 2016年6月。
0.90
IEEE. 7. Ching Hang Chen, Ambrish Tyagi, Amit Agrawal, Dylan Drover, M. V. Rohith, Stefan Stojanov, and James M. IEEE。 7. Ching Hang Chen, Ambrish Tyagi, Amit Agrawal, Dylan Drover, M. V. Rohith, Stefan Stojanov, James M 0.83
Yicheng Deng1 et al Yicheng Deng1 et al 0.98
Rehg. Unsupervised 3d pose estimation with geometric self-supervision. Rehg 幾何学的自己スーパービジョンを用いた教師なし3次元ポーズ推定 0.46
In 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2020. 2019年、IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) 2020。 0.87
8. Yu Du, Yongkang Wong, Yonghao Liu, Feilin Han, and Weidong Geng. 8. Yu Du, Yongkong Wong, Yonghao Liu, Feilin Han, Weidong Geng 0.73
Marker-less 3d human motion capture with monocular image sequence and height-maps. 単眼画像と高さマップを用いたマーカーレス3次元モーションキャプチャ 0.67
In European Conference on Computer Vision, 2016. 2016年、欧州コンピュータビジョン会議に参加。 0.80
9. Haoshu Fang, Yuanlu Xu, Wenguan Wang, Xiaobai Liu, and Song Chun Zhu. 9. Haoshu Fang, Yuanlu Xu, Wenguan Wang, Xiaobai Liu, Song Chun Zhu 0.77
Learning pose grammar to encode human body configuration for 3d pose estimation. 3次元ポーズ推定のための人体構成をエンコードするポーズ文法の学習 0.69
2017. 10. Goodfellow, I, Pouget-Abadie, J, Mirza, M, Xu, B, WardeFarley, D, Ozair, S, Courville, A, and Bengio, Y. Generative adversarial nets. 2017. 10. Goodfellow, I, Pouget-Abadie, J, Mirza, M, Xu, B, WardeFarley, D, Ozair, S, Courville, A, and Bengio, Y。 0.82
2014. 11. H.-Y. 2014. 11. h.-y. 0.78
Tung, H.-W. Tung, E. Yumer, and K. Fragkiadaki. Tung, H.-W. Tung, E. Yumer, K. Fragkiadaki 0.90
Self-supervised learning of motion capture. モーションキャプチャの自己教師型学習。 0.54
Advances in Neural Information Processing Systems 30, pages 5236–5246. ニューラル情報処理システムの進歩 30ページ5236-5246。 0.69
Curran Associates, Inc, 2017. Curran Associates, Inc. 2017年。 0.87
12. Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun. 12. he、xiangyu zhang、shaoqing ren、jian sunの開明。 0.69
Deep residual learning for image recognition. 画像認識のための深い残差学習 0.81
In IEEE Conference on Computer Vision and Pattern Recognition, 2016. 2016年のIEEE Conference on Computer Vision and Pattern Recognitionで発表された。 0.71
13. Sergey Ioffe and Christian Szegedy. 13. セルゲイ・ヨッフェと クリスチャン・セゲディ 0.66
Batch normalization: Accelerating deep network training by reducing internal covariate shift. バッチ正規化: 内部共変量シフトの低減によるディープネットワークトレーニングの高速化。 0.65
In ICML, 2015. 2015年、ICML。 0.73
14. C Ionescu, D Papava, V Olaru, and C Sminchisescu. 14. C Ionescu、D Papava、V Olaru、C Sminchisescu。 0.78
Human3.6m: Large scale datasets and predictive methods for 3d human sensing in natural environments. Human3.6m: 大規模データセットと自然環境における3Dヒューマンセンシングの予測方法。 0.70
IEEE Transactions on Pattern Analysis and Machine Intelligence, 36(7):1325–1339, 2014. IEEE Transactions on Pattern Analysis and Machine Intelligence, 36(7):1325–1339, 2014 0.91
15. Yeonho Kim and Daijin Kim. 15. キム・ヨンホとキム大臣 0.64
A cnn-based 3d human pose estimation based on projection of depth and ridge data. cnn-based 3d human pose Estimation based on projection of depth and ridge data。 0.84
Pattern Recognition, 106:107462, 2020. パターン認識, 106:107462, 2020。 0.85
16. Yasunori Kudo, Keisuke Ogaki, Yusuke Matsui, and Yuri Odagiri. 16. 工藤康則、大垣敬介、松井祐介、小田霧有里。 0.64
Unsupervised adversarial learning of 3d human pose from 2d joint locations. 2次元関節位置からの3次元ポーズの教師なし対人学習 0.65
2018. 17. Chenxu Luo, Xiao Chu, and Alan Yuille. 2018. 17. Chenxu Luo、Xiao Chu、Alan Yuille。 0.77
Orinet: A fully convolutional network for 3d human pose estimation. Orinet: 3D人間のポーズ推定のための完全な畳み込みネットワーク。 0.75
In BMVC, 2018. 2018年、BMVCに入社。 0.52
18. M. Arjovsky, S. Chintala, and L. Bottou. 18. M. Arjovsky、S. Chintala、L. Bottou。 0.84
Wasserstein generative adversarial networks. wassersteingenerativ e adversarial networks(英語) 0.72
In D. Precup and Y. W. Teh, editors, Proceedings of the 34th International Conference on Machine Learning, volume 70 of Proceedings of Machine Learning Research, pages 214–223, International Convention Centre, Sydney, Australia, 06–11 Aug 2017. D. Precup and Y. W. Teh, editors, Proceedings of the 34th International Conference on Machine Learning, Volume 70 of Proceedings of Machine Learning Research, page 214–223, International Convention Centre, Sydney, Australia, 06–11 Aug 2017 0.93
PMLR. 19. Meysam Madadi, Hugo Bertiche, and Sergio Escalera. PMLR。 19. Meysam Madadi、Hugo Bertiche、Sergio Escalera。 0.74
Smplr: Deep learning based smpl reverse for 3d human pose and shape recovery. Smplr: 深層学習に基づく3D人間のポーズと形状回復のためのスランプリバース。 0.74
Pattern Recognition, 106:107472, 2020. パターン認識, 106:107472, 2020。 0.83
20. Julieta Martinez, Rayat Hossain, Javier Romero, and James J. 20. Julieta Martinez、Rayat Hossain、Javier Romero、James J。 0.77
Little. A simple yet effective baseline for 3d human pose estimation. 小さい。 3次元ポーズ推定のためのシンプルで効果的なベースライン 0.68
In 2017 IEEE International Conference on Computer Vision (ICCV), 2017. 2017年、IEEE International Conference on Computer Vision (ICCV) に参加。 0.78
21. Dushyant Mehta, Helge Rhodin, Dan Casas, Pascal Fua, Oleksandr Sotnychenko, Weipeng Xu, and Christian Theobalt. 21. Dushyant Mehta, Helge Rhodin, Dan Casas, Pascal Fua, Oleksandr Sotnychenko, Weipeng Xu, Christian Theobalt。 0.81
Monocular 3d human pose estimation in the wild using improved cnn supervision. cnn監視の改善による野生個体の3次元人物ポーズ推定 0.64
In 3D Vision(3DV), 2017. 3d vision(3dv) 2017年。 0.79
22. Dushyant Mehta, Srinath Sridhar, Oleksandr Sotnychenko, Helge Rhodin, and Christian Theobalt. 22. Dushyant Mehta, Srinath Sridhar, Oleksandr Sotnychenko, Helge Rhodin, Christian Theobalt 0.76
Vnect: Real-time 3d human pose estimation with a single rgb camera. Vnect: 単一のrgbカメラによるリアルタイム3Dポーズ推定。 0.80
ACM Transactions on Graphics, 36(4), 2017. acm transactions on graphics, 36(4), 2017を参照。 0.70
23. Francesc Moreno-Noguer. 23. Francesc Moreno-Noguer 0.86
3d human pose estimation from a single image via distance matrix regression. 距離行列回帰による1つの画像からの3次元人間のポーズ推定 0.72
In Computer Vision and Pattern Recognition, 2017. コンピュータビジョンとパターン認識、2017年。 0.70
24. Alejandro Newell, Kaiyu Yang, and Jia Deng. 24. Alejandro Newell, Kaiyu Yang, Jia Deng 0.73
Stacked hourglass networks for human pose estimation. 人間のポーズ推定のための重畳時間ガラスネットワーク 0.63
In ECCV, 2016. 2016年、ECCV。 0.69
英語(論文から抽出)日本語訳スコア
A Synchronized Reprojection-based Model for 3D Human Pose Estimation 3次元ポーズ推定のための同期再投影モデル 0.81
11 38. Xingyi Zhou, Qixing Huang, Xiao Sun, Xiangyang Xue, and Yichen Wei. 11 38. Xingyi Zhou, Qixing Huang, Xiao Sun, Xiangyang Xue, Yichen Wei 0.79
Towards 3d human pose estimation in the wild: a weakly-supervised approach. 野生における3次元ポーズ推定に向けて:弱い教師付きアプローチ 0.70
In 2017 IEEE International Conference on Computer Vision (ICCV), 2017. 2017年、IEEE International Conference on Computer Vision (ICCV) に参加。 0.78
25. Georgios Pavlakos, Xiaowei Zhou, Konstantinos G Derpanis, and Kostas Daniilidis. 25. Georgios Pavlakos, Xiaowei Zhou, Konstantinos G Derpanis, Kostas Daniilidis 0.75
Coarse-to-fine volumetric prediction for single-image 3d human pose. 単像3次元人物ポーズの粗大から細かな体積予測 0.56
In IEEE Conference on Computer Vision and Pattern Recognition, 2017. ieee conference on computer vision and pattern recognition 2017で発表された。 0.73
26. Leonid Pishchulin, Eldar Insafutdinov, Siyu Tang, Bjoern Andres, Mykhaylo Andriluka, Peter Gehler, and Bernt Schiele. 26. Leonid Pishchulin, Eldar Insafutdinov, Siyu Tang, Bjoern Andres, Mykhaylo Andriluka, Peter Gehler, Bernt Schiele 0.78
Deepcut: Joint subset partition and labeling for multi person pose estimation. Deepcut: 複数人のポーズ推定のための共同サブセットパーティションとラベリング。 0.78
In Computer Vision and Pattern Recognition, 2016. コンピュータビジョンとパターン認識、2016年。 0.72
27. Helge Rhodin, Mathieu Salzmann, and Pascal Fua. 27. Helge Rhodin、Mathieu Salzmann、Pascal Fua。 0.74
Unsupervised geometry-aware representation for 3d human pose estimation. 3次元ポーズ推定のための教師なし形状認識表現 0.57
In European Conference on Computer Vision, 2018. 2018年、欧州コンピュータビジョン会議に参加。 0.78
28. Nitish Srivastava, Geoffrey Hinton, Alex Krizhevsky, Ilya Sutskever, and Ruslan Salakhutdinov. 28. Nitish Srivastava、Geoffrey Hinton、Alex Krizhevsky、Ilya Sutskever、Ruslan Salakhutdinov。 0.73
Dropout: A simple way to prevent neural networks from overfitting. dropout: ニューラルネットワークの過剰フィットを防ぐシンプルな方法。 0.74
Journal of Machine Learning Research, 15(1):1929–1958, 2014. Journal of Machine Learning Research, 15(1):1929–1958, 2014 0.91
29. Ke Sun, Bin Xiao, Dong Liu, and Jingdong Wang. 29. Ke Sun、Bin Xiao、Dong Liu、Jingdong Wang。 0.76
Deep high-resolution representation learning for human pose estimation. 人間のポーズ推定のための深い高分解能表現学習 0.66
In 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2019. 2019年、IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) 2019。 0.88
30. Xiao Sun, Bin Xiao, Fangyin Wei, Shuang Liang, and Yichen Wei. 30. Xiao Sun, Bin Xiao, Fangyin Wei, Shuang Liang, Yichen Wei 0.75
Integral Human Pose Regression. 統合的な人間のポーズ回帰。 0.55
In Vittorio Ferrari, Martial Hebert, Cristian Sminchisescu, and Yair Weiss, editors, Computer Vision – ECCV 2018, volume 11210, pages 536–553. vittorio ferrari, martial hebert, cristian sminchisescu, yair weiss, editors, computer vision – eccv 2018, volume 11210, pages 536–553。 0.69
Springer International Publishing, Cham, 2018. Springer International Publishing, Cham, 2018。 0.82
Series Title: Lecture Notes in Computer Science. シリーズタイトル:コンピュータサイエンスの講義ノート。 0.69
31. Alexander Toshev and Christian Szegedy. 31. アレクサンドル・トシェフと クリスチャン・セゲディ 0.77
DeepPose: Human Pose Estimation via Deep Neural Networks. deeppose: ディープニューラルネットワークによる人間のポーズ推定。 0.80
In 2014 IEEE Conference on Computer Vision and Pattern Recognition, pages 1653–1660, Columbus, OH, USA, June 2014. 2014年IEEE Conference on Computer Vision and Pattern Recognition, page 1653–1660, Columbus, OH, USA, June 2014 0.81
IEEE. 32. Hsiao Yu Fish Tung, Adam W. Harley, William Seto, and Katerina Fragkiadaki. IEEE。 32. Hsiao Yu Fish Tung, Adam W. Harley, William Seto, Katerina Fragkiadaki 0.80
Adversarial inverse graphics networks: Learning 2d-to-3d lifting and image-to-image translation from unpaired supervision. 逆逆グラフィックスネットワーク: 2d-to-3dリフトとイメージ・ツー・イメージ翻訳の学習。 0.65
In 2017 IEEE International Conference on Computer Vision (ICCV), 2017. 2017年、IEEE International Conference on Computer Vision (ICCV) に参加。 0.78
33. Bastian Wandt and Bodo Rosenhahn. 33. Bastian WandtとBodo Rosenhahn。 0.82
Repnet: Weakly supervised training of an adversarial reprojection network for 3d human pose estimation. Repnet: 3次元ポーズ推定のための対向的リジェクションネットワークの訓練を弱く監督する。 0.76
IEEE Conf. IEEE Confの略。 0.68
Computer Vision and Pattern Recognition (CVPR), 2019. コンピュータビジョンとパターン認識(CVPR)、2019年。 0.79
34. Min Wang, Xipeng Chen, Wentao Liu, Chen Qian, Liang Lin, and Lizhuang Ma. 34. ミン・ワン、シン・チェン、ウェンタオ・リウ、チェン・チャン、リー・リン、リズ・マ。 0.68
Drpose3d: Depth ranking in 3d human pose estimation. drpose3d: 3次元ポーズ推定における深さランキング。 0.62
In Proceedings of the TwentySeventh International Joint Conference on Artificial Intelligence, IJCAI-18, pages 978–984. 第27回人工知能国際合同会議(ijcai-18)の議事録978-984頁。 0.66
International Joint Conferences on Artificial Intelligence Organization, 7 2018. International Joint Conferences on Artificial Intelligence Organization, 2018 0.65
35. Wei Yang, Wanli Ouyang, Xiaolong Wang, Jimmy Ren, Hongsheng Li, and Xiaogang Wang. 35. Wei Yang、Wanli Ouyang、Xiaolong Wang、Jimmy Ren、Hongsheng Li、Xiaogang Wang。 0.77
3D Human Pose Estimation in the Wild by Adversarial Learning. 逆学習による野生生物の3次元姿勢推定 0.57
In 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 5255–5264, Salt Lake City, UT, USA, June 2018. 2018年IEEE/CVF Conference on Computer Vision and Pattern Recognition, page 5255–5264, Salt Lake City, UT, USA, June 2018 0.89
IEEE. 36. Xiaowei Zhou, Menglong Zhu, Spyridon Leonardos, and Kostas Daniilidis. IEEE。 36. Xiaowei Zhou, Menglong Zhu, Spyridon Leonardos, Kostas Daniilidis 0.77
Sparse representation for 3d shape estimation: A convex relaxation approach. 3次元形状推定のためのスパース表現:凸緩和アプローチ 0.73
IEEE Transactions on Pattern Analysis and Machine Intelligence, pages 1–1, 2016. IEEE Transactions on Pattern Analysis and Machine Intelligence, page 1–1, 2016 0.87
37. Xiaowei Zhou, Menglong Zhu, Spyridon Leonardos, Konstantinos G. Derpanis, and Kostas Daniilidis. 37. Xiaowei Zhou, Menglong Zhu, Spyridon Leonardos, Konstantinos G. Derpanis, Kostas Daniilidis 0.78
Sparseness Meets Deepness: 3D Human Pose Estimation from Monocular Video. Sparseness Meets Deepness: 3D Human Pose Estimation from Monocular Video (英語) 0.83
In 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pages 4966–4975, Las Vegas, NV, USA, June 2016. 2016年のIEEE Conference on Computer Vision and Pattern Recognition (CVPR), page 4966–4975, Las Vegas, NV, USA, June 2016 0.82
IEEE. IEEE。 0.83
                       ページの最初に戻る

翻訳にはFugu-Machine Translatorを利用しています。