論文の概要、ライセンス

# (参考訳) 独立部分の個別学習(TIPSy-GAN) : 教師なし対人2次元から3次元姿勢推定における精度と安定性の向上 [全文訳有]

"Teaching Independent Parts Separately"(TIPSy-GAN) : Improving Accuracy and Stability in Unsupervised Adversarial 2D to 3D Human Pose Estimation ( http://arxiv.org/abs/2205.05980v2 )

ライセンス: CC BY 4.0
Peter Hardy and Srinandan Dasmahapatra and Hansung Kim(参考訳) 教師なし対人2次元から3次元のポーズ推定における精度と安定性を改善するための新しいアプローチであるTIPSy-GANを提案する。 本研究では,人間の運動骨格を空間的共依存構造として捉えるべきではないことを実証する。 実際、トレーニング中に完全な2Dポーズが提供されると、キーポイントの3D座標が他のすべてのキーポイントの2D位置と空間的に共依存していることが学習される固有のバイアスがある。 この理論を解明するために, 先行するアプローチを踏襲するが, 運動骨格, 背骨, 脚の空間的に独立した部位で2つの生成器を訓練する。 評価誤差を低減し,トレーニング中に新たな一貫性制約を導入するためには,2次元再投影自己矛盾サイクルの改善が鍵となる。 TIPSyはこれらのジェネレータからの知識蒸留によって生成され、2次元のポーズ全体の3次元座標を予測できる。 さらに,教師なしシナリオのトレーニングに要する時間について,先行研究で未解決の疑問に対処する。 本研究では,2つの独立発電機の安定性が,対向ネットワークの不安定化により崩壊する単独発電機よりも向上したことを示す。 TIPSyは、ベースラインのソロジェネレータと比べて平均誤差を18%減少させる。 TIPSyは他の教師なしアプローチを改善し、Human3.6MとMPI-INF-3DHPデータセットの評価において、教師なしアプローチと弱教師付きアプローチに強く反対する。

We present TIPSy-GAN, a new approach to improve the accuracy and stability in unsupervised adversarial 2D to 3D human pose estimation. In our work we demonstrate that the human kinematic skeleton should not be assumed as one spatially codependent structure. In fact, we believe when a full 2D pose is provided during training, there is an inherent bias learned where the 3D coordinate of a keypoint is spatially codependent on the 2D locations of all other keypoints. To investigate our theory we follow previous adversarial approaches but train two generators on spatially independent parts of the kinematic skeleton, the torso and the legs. We find that improving the 2D reprojection self-consistency cycle is key to lowering the evaluation error and therefore introduce new consistency constraints during training. A TIPSy is produced model via knowledge distillation from these generators which can predict the 3D coordinates for the entire 2D pose with improved results. Furthermore, we address the question left unanswered in prior work detailing how long to train for a truly unsupervised scenario. We show that two independent generators training adversarially has improved stability than that of a solo generator which will collapse due to the adversarial network becoming unstable. TIPSy decreases the average error by 18% when compared to that of a baseline solo generator. TIPSy improves upon other unsupervised approaches while also performing strongly against supervised and weakly-supervised approaches during evaluation on both the Human3.6M and MPI-INF-3DHP dataset.
公開日: Mon, 16 May 2022 12:39:44 GMT

※ 翻訳結果を表に示しています。PDFがオリジナルの論文です。翻訳結果のライセンスはCC BY-SA 4.0です。詳細はトップページをご参照ください。

翻訳結果

    Page: /      
英語(論文から抽出)日本語訳スコア
2 2 0 2 y a M 6 1 2 2 0 2 y a m 6 1 である。 0.54
] V C . s c [ ] 略称はC。 sc [ 0.39
2 v 0 8 9 5 0 2 v 0 8 9 5 0 0.43
. 5 0 2 2 : v i X r a . 5 0 2 2 : v i X r a 0.42
"Teaching Independent Parts Separately" 「独立した部分を別々に教える」 0.59
(TIPSy-GAN) : Improving Accuracy and Stability in Unsupervised Adversarial 2D to 3D Pose Estimation (TIPSy-GAN) : 教師なし2次元から3次元の姿勢推定における精度と安定性の改善 0.61
Vision Learning and Control Research Group ビジョン学習・制御研究グループ 0.80
Vision Learning and Control Research Group ビジョン学習・制御研究グループ 0.80
Srinandan Dasmahapatra スリナンダン・ダマハパトラ(Srinandan Dasmahapatra) 0.30
University of Southampton Hampshire, UK サウサンプトン大学 ハンプシャー、イギリス 0.59
sd@ecs.soton.ac.uk sd@ecs.soton.ac.uk 0.24
Peter Hardy∗ ピーター・ハーディ∗ 0.51
University of Southampton Hampshire, UK サウサンプトン大学 ハンプシャー、イギリス 0.59
p.t.d.hardy@soton.ac .uk p.t.d.hardy@soton.ac .uk 0.34
Vision Learning and Control Research Group ビジョン学習・制御研究グループ 0.80
Hansung Kim University of Southampton ハンソン・キム サウサンプトン大学 0.52
Hampshire, UK ハンプシャー、イギリス 0.66
h.kim@soton.ac.uk h.kim@soton.ac.uk 0.24
Abstract We present TIPSy-GAN, a new approach to improve the accuracy and stability in unsupervised adversarial 2D to 3D human pose estimation. 概要 教師なし対人2次元から3次元のポーズ推定における精度と安定性を改善するための新しいアプローチであるTIPSy-GANを提案する。 0.53
In our work we demonstrate that the human kinematic skeleton should not be assumed as one spatially codependent structure. 本研究では,人間の運動骨格を空間的共依存構造として捉えるべきではないことを実証する。 0.66
In fact, we believe when a full 2D pose is provided during training, there is an inherent bias learned where the 3D coordinate of a keypoint is spatially codependent on the 2D locations of all other keypoints. 実際、トレーニング中に完全な2Dポーズが提供されると、キーポイントの3D座標が他のすべてのキーポイントの2D位置と空間的に共依存していることが学習される固有のバイアスがある。 0.76
To investigate our theory we follow previous adversarial approaches but train two generators on spatially independent parts of the kinematic skeleton, the torso and the legs. この理論を解明するために, 先行するアプローチを踏襲するが, 運動骨格, 背骨, 脚の空間的に独立した部位で2つの生成器を訓練する。
訳抜け防止モード: 我々の理論を調査するために 以前の敵対的アプローチに従っていますが 運動骨格と胴体と脚の 空間的に独立した部分に2つの発電機を訓練します
0.62
We find that improving the 2D reprojection self-consistency cycle is key to lowering the evaluation error and therefore introduce new consistency constraints during training. 評価誤差を低減し,トレーニング中に新たな一貫性制約を導入するためには,2次元再投影自己矛盾サイクルの改善が鍵となる。 0.69
A TIPSy is produced model via knowledge distillation from these generators which can predict the 3D coordinates for the entire 2D pose with improved results. TIPSyはこれらのジェネレータからの知識蒸留によって生成され、2次元のポーズ全体の3次元座標を予測できる。 0.70
Furthermore, we address the question left unanswered in prior work detailing how long to train for a truly unsupervised scenario. さらに,教師なしシナリオのトレーニングに要する時間について,先行研究で未解決の疑問に対処する。 0.62
We show that two independent generators training adversarially has improved stability than that of a solo generator which will collapse due to the adversarial network becoming unstable. 本研究では,2つの独立発電機の安定性が,対向ネットワークの不安定化により崩壊する単独発電機よりも向上したことを示す。 0.76
TIPSy decreases the average error by 18% when compared to that of a baseline solo generator. TIPSyは、ベースラインのソロジェネレータと比べて平均誤差を18%減少させる。 0.64
TIPSy improves upon other unsupervised approaches while also performing strongly against supervised and weakly-supervised approaches during evaluation on both the Human3.6M and MPI-INF-3DHP dataset. TIPSyは他の教師なしアプローチを改善し、Human3.6MとMPI-INF-3DHPデータセットの評価において、教師なしアプローチと弱教師付きアプローチに強く反対する。 0.42
Code and weights of our model will be made available 私たちのモデルのコードと重み付けが利用可能になる 0.79
1 Introduction The ability to generate accurate 3D human skeletons from images and video has extensive applications in security, human-robot interaction, interactive media and healthcare [41] [8] [22]. 1 はじめに 画像やビデオから正確な3D人間の骨格を生成する能力は、セキュリティ、人間とロボットのインタラクション、インタラクティブメディア、医療に広く応用されている [41] [8] [22]。 0.56
Estimating a 3D pose from a single monocular image however, is an ill-posed inverse problem as multiple different 2D poses can correspond to the same 3D pose. しかし、単一の単眼像から3dポーズを推定することは、複数の異なる2dポーズが同じ3dポーズに対応できるため、逆問題である。 0.66
Additionally, many state-of-the-art 3D human pose 加えて、多くの最先端の3D人間のポーズ 0.55
∗https://www.ecs.soto n.ac.uk/people/ptdh1 c20 ∗https://www.ecs.soto n.ac.uk/people/ptdh1 c20 0.11
Preprint. Under review. プレプリント。 レビュー中。 0.63
英語(論文から抽出)日本語訳スコア
estimation (HPE) approaches [23] [4] [45] [14] [25] [21] [7] [31] [39] [48], utilise ground truth 3D pose data during training. 推定 (hpe) アプローチ [23] [4] [45] [14] [25] [21] [7] [31] [39] [48] では、トレーニング中に基底真理3dポーズデータを利用する。 0.78
The problem being, that the most popular 3D datasets contain few subjects, within a controlled environment and performing a limited number of actions. 問題は、最も人気のある3dデータセットは、制御された環境内で、限られた数のアクションを実行して、少数の被験者を含むことだ。 0.57
Unsupervised adversarial approaches [5] [16] [47] have sought to remedy this by exploiting the abundance of readily available 2D image and video data of humans. 教師なしの敵対的アプローチ [5] [16] [47] は、人間が手軽に利用できる2D画像とビデオデータの豊富さを活用して、これを改善しようと試みている。
訳抜け防止モード: 教師なし敵対的アプローチ [5 ] [ 16 ] [ 47 ] 利用可能な2D画像と人間のビデオデータの豊富さを活用することで、この問題を解決する。
0.72
Through the use of self or temporal consistency and a 2D pose discriminator, they help to reduce the barrier of entry for 3D HPE while improving generability to in the wild scenarios. 自己あるいは時間的一貫性と2Dポーズ判別器を使用することで、3D HPEの参入障壁を減らし、野生のシナリオへの生成性を向上させる。 0.70
However, most unsupervised approaches perform sub-par during evaluation on 3D HPE datasets when compared against their supervised counterparts. しかしながら、ほとんどの教師なしアプローチは、教師付きアプローチと比較して3次元HPEデータセットの評価中にサブパーを実行する。 0.45
Our research aims to reduce this discrepancy and address what we believe is a flaw in all adversarial 2D to 3D HPE models, that the human kinematic skeleton should be treated as one independent structure. 我々の研究は、この違いを減らし、2Dから3DのHPEモデルに欠陥があると信じている問題に対処することを目的としており、ヒトのキネマティック骨格は1つの独立した構造として扱われるべきである。 0.60
We believe that minimising the predictive error on the entire 2D skeleton induces correlations between a keypoints 3D coordinate and all of the skeletons other 2D keypoint coordinates. 2次元骨格全体の予測誤差を最小化することは、キーポイント3次元座標と他の全てのキーポイント座標との相関を誘導する。 0.79
Thus, for example, the 3D prediction for the left wrist would contain some component correlating to the 2D coordinate of the right knee. 例えば、左手首の3d予測には、右膝の2d座標に関連するいくつかの成分が含まれている。 0.69
We instead train multiple generators on spatially independent parts of the 2D kinematic skeleton. 代わりに、2Dキネマティック骨格の空間的に独立な部分に複数の発電機を訓練する。 0.53
The knowledge acquired is then distilled to an end-to-end model which can predict the 3D coordinates for an entire 2D pose, giving the framework its name "Teaching Independent Parts Seperately" (TIPSy). 得られた知識はエンドツーエンドのモデルに蒸留され、2次元のポーズ全体の3D座標を予測し、フレームワークに"Teaching Independent Parts Seperately" (TIPSy) という名前を与える。 0.80
In this paper we build upon [5] and [48] as well as show the stability of our model during training, highlighting that in a truly unsupervised scenario using spatially independent generators would allow for more optimum model to be created, even when no 3D data is accessible. 本稿では, [5] と [48] の上に構築し, トレーニング中のモデルの安定性を示すとともに, 空間的に独立なジェネレータを用いた真の教師なしシナリオでは, 3次元データにアクセスできない場合でも, より最適なモデルを作成することができることを強調する。 0.75
Additionally we introduce three new self-consistency constraints during the adversarial learning cycle which we found to help improve evaluation metrics. さらに,評価指標の改善に役立てる対人学習サイクルにおいて,新たな自己整合性制約を3つ導入した。 0.75
2 Related Work 2.1 2 関連作業 2.1 0.54
3D Human Pose Estimation 人間の3次元姿勢推定 0.67
There currently exists two main avenues of deep-learning for 3D HPE. 現在、3D HPEのためのディープラーニングの道は2つある。 0.58
The first avenue learns the mapping of 3D joints directly from a 2D image [29] [19] [24] [18] [35] [36] [37]. 第1の通りは、2D画像[29][19][24][18][35][36][37]から直接3D関節のマッピングを学習する。 0.69
The other builds upon an accurate intermediate 2D pose estimate and learns how to lift a 3D pose it. もう一方は正確な中間2Dポーズの見積もりの上に構築され、3Dポーズの持ち上げ方を学ぶ。 0.64
The 2D pose being obtained from an image through techniques such as Stack-Hourglass Architectures [26] or Part Affinity Fields [3]. Stack-Hourglass Architectures [26] や Part Affinity Fields [3] などの技術を用いて画像から得られた2Dポーズ。 0.79
Our work focuses on the latter 2D to 3D lifting approach which can be organised into the following categories: 我々の研究は後者の2Dから3Dへのリフトアプローチに焦点を当てており、以下のカテゴリにまとめることができる。 0.55
2.2 Fully Supervised Fully supervised approaches seek to learn mappings from paired 2D-3D data which contain ground truth 2D locations of keypoints and their corresponding 3D coordinates. 2.2 完全監督。 完全教師付きアプローチは、キーポイントと対応する3d座標の基底真理2d位置を含む対の2d-3dデータからマッピングを学ぶことを求める。 0.57
Martinez et al [23] introduced a baseline fully connected regression model which learned 3D coordinates from their relative 2D locations. Martinezら[23]は、相対的な2D位置から3D座標を学習するベースライン完全連結回帰モデルを導入した。 0.79
Exemplar approaches such as [4] [45] use large dictionaries/databas es of 3D poses with a nearest-neighbour search to determine an optimal 3D pose. 4] [45]のような例題的なアプローチでは、最適な3dポーズを決定するために、3dポーズの大きな辞書/データベースを使用します。 0.63
Jiang et al [14] introduced an exemplar approach that split their 3D dictionary into torso and legs aiming to speed up the nearest-neighbour search process, whereas we split up our poses during training to reduce bias and learn a better 3D mapping. jiangら[14]は、彼らの3d辞書を胴体と脚に分割して、最寄りの検索プロセスをスピードアップする、という例証的アプローチを導入しました。
訳抜け防止モード: jiangら[14]は、彼らの3d辞書を胴体と脚に分けて、近くの探索プロセスをスピードアップする、例のアプローチを導入した。 トレーニング中にポーズを分割してバイアスを減らし、より良い3dマッピングを学びます。
0.63
Pavllo et al [31] used temporal convolutions over 2D keypoints in order to predict the pose of the central or end frame in a time series, whereas Mehta et al [25] utilised multi-task learning to combine a convolutional pose regressor with kinematic skeleton fitting for real time 3D pose estimation. pavllo et al [31] は2dキーポイント上の時間的畳み込みを用いて時系列における中央または終端フレームのポーズを予測するが、mehtaらはマルチタスク学習を用いて畳み込みポーズ回帰器とキネマティックスケルトンフィッティングを組み合わせてリアルタイム3dポーズ推定を行った。 0.83
Luo et al [21] introduced a fully convolutional approach which modelled 3D joint orientations with 2D keypoint detections. luoら[21]は、2dキーポイント検出を伴う3d関節方向をモデル化する完全畳み込みアプローチを導入した。 0.65
Park et al [28] and Zeng et al [48] introduced the concept of splitting a pose into localised groups during learning, where they assume that an unseen pose may be compose of local joint configurations that appear in different poses within a training set. Park et al [28] と Zeng et al [48] は、学習中にポーズを局所化されたグループに分割するという概念を導入した。
訳抜け防止モード: park et al [28 ]とzeng et al [48 ]は、学習中にポーズを局所的なグループに分割するという概念を導入した。 彼らはこう考えています 見えないポーズは、トレーニングセット内で異なるポーズで現れるローカルなジョイント構成で構成されてもよい。
0.67
Unlike our approach however, they still maintain that an entire 2D pose is one independent structure via feature sharing or averaging between localised groups throughout their network. しかし、我々のアプローチとは異なり、2Dのポーズ全体は、ネットワーク全体にわたる局所的なグループ間の特徴共有や平均化による1つの独立した構造である。 0.63
We argue that no feature sharing is required and these localised groups can be assumed to be completely independent from one another. 機能共有は不要であり、これらの局所化グループは互いに完全に独立していると考えることができる。 0.71
Additionally, we distill the knowledge from our sub-networks to an end-to-end network which is both more computationally efficient and our approach better generalises to unseen poses. さらに、我々のサブネットワークからエンド・ツー・エンドのネットワークに知識を蒸留し、計算効率が良く、我々のアプローチは見当たらないポーズをより一般化する。 0.59
2 2 0.42
英語(論文から抽出)日本語訳スコア
2.3 Weakly Supervised Weakly-Supervised approaches do not use explicit 2D-3D correspondences but use either augmented 3D data during training or unpaired 2D-3D data to learn human body priors (shape or articulation). 2.3 弱監督 弱い教師付きアプローチでは、明示的な2d-3d対応は使用せず、トレーニング中に拡張された3dデータか、2d-3dデータを使用して人体(形状や調音)を学習する。 0.57
Pavlakos [30] et al and Ronchi et al [33] proposed the learning of 3D poses from 2D with ordinal depth relationships between keypoints (e g the right wrist is behind the right elbow). Pavlakos [30] et al と Ronchi et al [33] はキーポイント間(例えば右手首は右肘の後ろ)の順序的深度関係を持つ2Dから3Dポーズを学ぶことを提案した。 0.84
Wandt et al [39] introduced a weakly-supervised adversarial approach which transformed their predicted and ground truth 3D poses into a kinematic space chain prior to being seen by a Wasserstein critic [10]. Wandt et al [39] は、Wasserstein 批判者[10] が見る前に、予測的および基底的真理 3D のポーズをキネマティックな空間連鎖に変換する弱教師付き対向アプローチを導入した。 0.68
Yang et al [46] lifted wild 2D poses where no ground truth data is available with a critic network that compared these against existing 3D skeletons. Yang et al [46]は、既存の3Dスケルトンと比較した批評家ネットワークで、根拠となる真実データを入手できない野生の2Dポーズを持ち上げた。
訳抜け防止モード: Yang et al [46 ] lifted wild 2D poses where 既存の3Dスケルトンと 比較する 批評家ネットワークで 真実のデータを入手できない
0.71
Zhou et al [49] utilised transfer learning, using mixed 2D and 3D labels in a unified network. Zhou et al [49]は、2Dラベルと3Dラベルを混在したネットワークを用いてトランスファー学習を行った。 0.68
Drover et al [6] investigated if 3D poses can be learned through 2D self-consistency alone, where they found a 2D pose critic network was also needed. Drover et al [6]は、2Dの自己整合だけで3Dのポーズが学べるかどうかを調査し、そこでは2Dのポーズ批判ネットワークも必要だった。 0.61
2.4 Unsupervised Unsupervised approaches do not utilise any 3D data during training, unpaired or otherwise. 2.4 監督なし 教師なしのアプローチでは、トレーニング中の3Dデータを使用しない。 0.58
Kudo et al. [16] introduced one of the first unsupervised adversarial networks utilising random re-projections and a 2D critic network, under the assumption that any predicted 3D pose once rotated and reprojected should still produce a believable 2D pose. 工藤ら。 16] ランダムな再投影と2d批判ネットワークを利用した最初の教師なしの敵対ネットワークの1つを導入し、予測された3dポーズが一度回転して再投影されたとしても、信じられない2dポーズを生成するべきであると仮定した。 0.35
Chen et al [5] expanded this work and that of [6] by introducing an unsupervised adversarial approach with a self-consistency cycle. Chenら[5]は、自己整合サイクルを備えた教師なしの敵アプローチを導入して、[6]のこの仕事とそれを拡張しました。
訳抜け防止モード: Chen et al [ 5 ] はこの作業と [ 6 ] の作業を拡張した。 自己整合性サイクルによる教師なしの敵アプローチの導入。
0.67
They also provided ablation studies highlighting a 7% improvement found when using temporal cues during training. また、トレーニング中に時間的手がかりを使用した場合の7%の改善が強調されたアブレーション研究も提供した。 0.57
Yu et al [47] built upon Chen et al [5] highlighting that temporal constraints may hinder a models performance due to balancing multiple training objectives simultaneously and proposed splitting the problem into both a lifting and scale estimation module. Yu et al [47] built on Chen et al [5] では、複数のトレーニング目標を同時にバランスさせることによって、時間的制約がモデルのパフォーマンスを妨げる可能性があることを強調し、問題をリフトとスケールの両方の見積モジュールに分割することを提案した。
訳抜け防止モード: Yu et al [47 ] built on Chen et al [ 5 ] highlighting temporal constraints may hinder a model performance due due due by the multiple training objectives。 問題をリフトとスケールの両方に分割することを提案したのです
0.79
They also found that adding temporal motion consistency can boost the performance of their model by 6%. また、時間的動きの一貫性を加えることで、モデルの性能が6%向上することを示した。 0.66
Similar to [47] we highlight that another issue may lie within the lifting network which could also benefit from being split into two sub-networks that predict upper and lower body keypoints. 47]と同様に、上と下にあるキーポイントを予測する2つのサブネットワークに分割されるというメリットもある、リフトネットワーク内の別の問題も強調します。 0.73
2.5 Knowledge Distillation Knowledge distillation is a model compression technique where knowledge is transferred from multiple or one large model (teacher) to a smaller model (student) [11]. 2.5 知識蒸留 知識蒸留は、知識を複数のまたは1つの大きなモデル(教師)からより小さなモデル(学生)に伝達するモデル圧縮技術である [11]。 0.77
Wang et al [40] proposed distilling knowledge from a Non-Rigid Structure from Motion method based on examplar learning to predict 3D poses. Wang et al [40] は3次元ポーズ予測のための試験的学習に基づく運動法から非剛体構造からの知識の抽出を提案した。 0.70
Weinzaepfel et al [42] distilled knowledge from a 3D body, hand and facial pose estimators to a final model to predict the whole-body 3D pose. Weinzaepfel et al[42]は3D体、手、顔のポーズ推定器から最終モデルに知識を抽出し、全身の3Dポーズを予測する。 0.74
Their 3D body estimator however still assumed the entire body as one codependent structure during the training which we argue is sub-optimal. しかし、3dボディ推定器は、我々が準最適と考えるトレーニングの間、身体全体を1つの共依存構造として捉えていた。 0.60
Additionally their model requires paired 2D-3D data during training whereas TIPSy achieves improved results when trained completely unsupervised. さらに、トレーニング中にペアの2d-3dデータを必要とする一方で、tiptyは完全に教師なしのトレーニングで結果が向上する。 0.42
Tripathi et al [38] investigated if knowledge could be distilled across 3D representations, where a teacher network would learn 3D kinematic skeletons from 2D poses, then distill this knowledge to a student network that would predict skinned multi-person linear model (SMPL) [20] representations of 3D poses. Tripathi et al [38]は、教師ネットワークが2Dポーズから3Dキネマティック骨格を学習し、その知識を3Dポーズのスキン付き多人線形モデル(SMPL)[20]表現を予測する学生ネットワークに蒸留する3D表現で知識を蒸留できるかどうかを調査した。 0.83
Lastly, Xu et al. [44] proposed an unsupervised approach where a self-consistent teacher with 2D pose-dictionary based modelling would distill knowledge to a student utilising graphical convolutions to improve estimation accuracy and flexibility. 最後に、Xuら。 [44]2次元ポーズディクショナリーモデルを持つ教師が,グラフィカル畳み込みを利用した知識を留学生に蒸留し,推定精度と柔軟性を向上させるための教師なしアプローチを提案した。 0.60
3 Method In this section we describe both our adversarial approach to train our 2D to 3D generators, as well as our knowledge distillation approach for our final TIPSy model. 3方法 本稿では,2次元から3次元のジェネレータを訓練するための敵対的アプローチと,最終TIPSyモデルの知識蒸留アプローチについて述べる。 0.77
Our 2D poses consist of N key-points (xi, yi), i = 1.. 我々の2Dポーズは N 個のキーポイント (xi, yi), i = 1 である。 0.72
.N, with the root key-point, the midpoint between the left and right hip joint, being located at the origin (0, 0). 根のキーポイントを持つ.nは、左股関節と右股関節の中間点であり、原点(0, 0)にある。 0.62
Because of the fundamental scale ambiguity associated with monocular images, it is impossible to infer absolute depth from a single view alone [27]. 単眼像に付随する基本スケールの曖昧さのため、単一の視点だけで絶対深度を推測することは不可能である [27]。 0.78
Therefore, we used max-normalisation on each of our 2D poses to scale their 2D coordinates between -1 and 1. そこで,各2次元ポーズの最大正規化を用いて,2次元座標を-1から1に拡張した。 0.67
This also constrains the range of possible 3D coordinates for these keypoints between -1 and 1, allowing the final function of our generators to be a bounded activation function which helps improve adversarial learning [32]. これはまた、これらのキーポイントの可能な3D座標の範囲を-1から1の間で制限し、ジェネレータの最終関数を有界活性化関数とし、対角学習の改善に役立つ[32]。 0.76
Though feature selection [12] [43] can be used to find an optimal amount of spatially independent segments to split a 2D pose into, for simplicity we split our pose up into two during training, the torso and legs. 特徴選択[12][43]は、2次元のポーズを分割するために空間的に独立なセグメントの最適な量を見つけるために用いられるが、単純さのために、ポーズをトレーニング中に2つに分割する。 0.73
Therefore, two generators will be trained using our adversarial approach それゆえ 2つの発電機は 敵のアプローチで訓練され 0.66
3 3 0.42
英語(論文から抽出)日本語訳スコア
and one final generator will be trained using knowledge distillation. そして最後の1つの発電機は 知識蒸留で訓練される 0.70
The full end-to-end training process of our adversarial approach can be seen in Figure 1. 敵のアプローチのエンドツーエンドのトレーニングプロセスは図1に示されている。 0.71
Figure 1: Figure showing the adversarial learning process of the leg and torso generator. 図1:脚と胴体発生器の逆学習過程を示す図。 0.70
3.1 Generator Architecture 3.1 ジェネレータアーキテクチャ 0.67
Our generators (G) were fully connected neural networks whose architecture was based on [23] and can be seen in Appendix A.1. 我々のジェネレータ (g) は [23] に基づくアーキテクチャを持つ完全連結ニューラルネットワークであり、付録 a.1 で見ることができる。 0.76
These predicted one 3D coordinate for each pair of 2D keypoints: これらは2dキーポイントのペアごとに1つの3d座標を予測した。 0.48
G(xi, yi, w) = ˆzi G(xi, yi, w) = szi 0.41
(1) where w are the weights of our model learned during training. (1) wはトレーニング中に学習したモデルの重みです。 0.55
The torso generator took a vector of 2D keypoints as input consisting of the wrists, elbows, shoulders, neck, spine, head and site keypoint. 胴体ジェネレータは、手首、肘、肩、首、背、頭、および部位のキーポイントからなる入力として、2Dキーポイントのベクトルを取り込んだ。 0.61
The leg generator similarly accepted a vector of 2D keypoints consisting of the ankles, knees and hips, with the root keypoint omitted during training as this was a constant. 脚発生器も同様に足首、膝、股関節からなる2dキーポイントのベクトルを受け入れ、トレーニング中にルートキーポイントを省略した。 0.66
Once both of our generators had made their predictions they were concatenated and combined with the original 2D keypoints to create our final predicted 3D pose (x, y, ˆz). 両方のジェネレータが予測を下すと、元の2Dキーポイントと結合して、最終的な予測された3Dポーズ(x, y, yz)を作成しました。 0.70
Our final TIPSy generator by contrast accepts all N keypoints as input and would predict the 3D locations for the full human pose. 我々の最後のTIPSyジェネレータは、すべてのNキーポイントを入力として受け入れ、完全な人間のポーズの3D位置を予測する。 0.65
3.2 Geometric Consistency Losses 3.2 幾何学的整合性損失 0.25
3.2.1 Reprojection Consistency 3.2.1 リジェクション一貫性 0.46
Similar to prior work [5] [6] [47], we utilise a self-consistency cycle through random 3D rotations to reproject our predicted 3D poses to new synthetic 2D viewpoints. 先行研究[5][6][47]と同様に、予測された3dポーズを新しい合成2次元視点に再投影するためにランダムな3d回転を通じて自己一貫性サイクルを利用する。 0.72
Let Y ∈ RN×2 be a matrix containing the 2D keypoints from which our generators G will predict. Y ∈ RN×2 を生成元 G が予測する 2D 鍵点を含む行列とする。 0.75
Once a prediction G(Y) is made and 3D pose obtained, a random rotation matrix R will be created by uniformly sampling an azimuth angle between [−π, π] and an elevation angle between [−π 18]. 予測g(y)が作成され、3dポーズが得られると、[−π, π]と[−π18]の間の高度角との方位角を均一にサンプリングしてランダム回転行列rが生成される。 0.76
The predicted 3D pose will be rotated by this matrix and reprojected back via projection P into a new synthetic viewpoint, obtaining the new 2D matrix ˜Y where ˜Y = PR[G(Y)]. 予測された3Dのポーズは、この行列によって回転し、射影 P を介して新たな合成視点に再投影され、新しい 2D 行列 >Y を得る。 0.70
Providing our model is consistent, if we now provide ˜Y as input to our generators, perform the inverse rotation R−1 on the newly predicted 3D pose G( ˜Y) and reproject it back into 2D, we should obtain our original matrix of 2D keypoints Y. This cycle allows our model to learn self-consistency during training where it seeks to minimise the following component in the loss function: 我々のモデルが一貫したものであること、もし我々がジェネレータへの入力として >Y を提供し、新たに予測された3次元ポーズ G( >Y) 上の逆回転 R−1 を実行し、2次元のキーポイント Y の元の行列を得る必要があるならば、このサイクルにより、損失関数の次の成分を最小化しようとする訓練中に自己整合性を学ぶことができる。
訳抜け防止モード: モデルの提供は一貫性があります。 新たに予測された3次元ポーズ G ( ~Y ) 上で逆回転 R−1 を実行する。 2Dに再プロジェクションし、元の2Dキーポイントの行列Yを得るべきです。このサイクルにより、トレーニング中の一貫性を学習することができます。 損失関数の以下の要素を最小化しようとしています
0.81
18 , π L2D = 18 , π L2D = 0.39
1 N ||Y − PR−1[G( ˜Y)]||2 1N ||Y − PR−1[G( >Y)]||2 0.41
(2) Where ||. (2) 場所は || である。 0.41
||2 is the sum of the squares of all matrix entries and N is the amount of keypoints predicted. ||2 はすべての行列成分の平方の和であり、N は予測されるキーポイントの量である。 0.71
Note that as we are training two generators independently from one another, both generators will receive their own L2D loss based on the error between the keypoints that they predicted for. 2つのジェネレータを互いに独立してトレーニングしているため、予測したキーポイント間のエラーに基づいて、どちらのジェネレータも独自のL2Dロスを受け取ります。 0.63
As an example, part of the L2D loss for our torso generator would include the difference between the original 2D keypoint location of the right wrist, and its 2D location once ˜Y3D was inversely rotated 例えば、torsoジェネレータのl2d損失の一部は、右手首の元々の2dキーポイント位置と、逆回転した後に2d位置との違いを含んでいます。
訳抜け防止モード: 例えば、torsoジェネレータのl2d損失の一部には、右手首の元の2dキーポイント位置の違いが含まれます。 y3dが逆回転すると 2dの位置は
0.80
4 4 0.42
英語(論文から抽出)日本語訳スコア
and reprojected. This error would not be included in the L2D loss of the leg generator as it did not predict the 3D location for this keypoint. 再計画しました このエラーは、脚ジェネレータのL2D損失には含まれず、このキーポイントの3D位置を予測しなかった。 0.57
3.2.2 90 Degree Consistency 3.2.290 Degree Consistency 0.28
During our study we found that increasing self-consistency was key to reduce the evaluation error (see Appendix A.3). 調査の結果,自己整合性の増大が評価誤差の低減の鍵であることが判明した(Appendix A.3)。 0.63
Therefore, we introduce new self-consistency constraints during training based on rotations around the y axis at 90◦ increments. そこで本研究では,y軸まわりの回転を90分のインクリメントとして,トレーニング中の新たな自己一貫性制約を導入する。 0.58
Let (x, y, ˆz) be the predicted 3D pose from our model. x, y, z) をモデルから予測された3dポーズとする。 0.73
If we assume a fixed camera position and rotate our pose 90◦, then the depth component of our pose (ˆz) prior to rotation will now lie on the x axis from our cameras viewpoint. 固定されたカメラの位置を仮定してポーズを90度回転させると、回転前のポーズの深さ成分はカメラの視点から x 軸上に置かれる。 0.74
A visual example of this can be seen in Figure 2. この視覚的な例を図2に示します。 0.70
Figure 2: Showing that a 90◦ rotation of a 3D pose around the y axis with a fixed camera position, will result in the x axis values of the pose prior to rotation representing the z axis values of the pose after the rotation and vice versa. 図2: 固定カメラ位置のy軸に3Dの回転が90度回転すると、回転後のポーズのz軸値を表す回転前のポーズのx軸値と、その逆となることが示される。 0.73
As we have normalised the axis of our poses between -1 and 1, a 90◦ clockwise rotation of the 3D pose (x, y, ˆz) will produce the pose (ˆz, y,−x). -1 と 1 の間のポーズの軸を正規化しているので、3D のポーズ (x, y, yz) の時計回りの回転は 90 度(z, y, −x) になる。 0.72
Therefore, providing (ˆz, y) as input to our generators should result in −x as its predictions. したがって、生成器への入力として (z, y) を与えると、その予測として −x となる。 0.65
This fact allows for the inclusion of three additional consistency constraints in the loss function of our generators which are as follows: この事実は、ジェネレータの損失関数に以下の3つの追加の一貫性制約を組み込むことを可能にします。 0.72
90◦ clockwise rotation consistency: 1 N 時計回りの回転一貫性:1N 0.76
ΣN i=1(G( ˆzi, yi) + xi)2 = 0 ΣN i=1(G(yzi, yi) + xi)2 = 0 0.44
90◦ counterclockwise rotation consistency: 1 N 90 反時計回りの回転一貫性:1N 0.70
i=1(G(− ˆzi, yi) − xi)2 = 0 ΣN i=1(G(− シュジ, yi) − xi)2 = 0 ΣN 0.98
180◦ rotation consistency: 1 N i=1(G(xi, yi) + G(−xi, yi))2 = 0 ΣN 回転整合度:1N i=1(G(xi, yi) + G(−xi, yi))2 = 0 ΣN 0.59
(3) (4) (5) (3) (4) (5) 0.43
These constraints are summed in the final loss function to produce L90◦. これらの制約は最終損失関数にまとめて L90 を生成する。 0.80
Similar to reprojection consistency, as our generators are making predictions independent from one another, each will receive its own version of L90◦ based on the keypoints that they predicted for. リプロジェクションの一貫性と同様に、ジェネレータは互いに独立して予測を行うので、それぞれが予測したキーポイントに基づいて、独自のバージョンのL90を受信する。 0.64
Although we could have included three similar constraints for 90◦ rotations around the x axis, we found that these hinder the performance of the model. x軸まわりの90度回転に対する3つの同様の制約を含めることができたが、これらの制約がモデルの性能を妨げていることがわかった。 0.68
This is due to 90◦ x axis rotations producing a birds eye and ground up view of a 2D pose, which contain little variation between their 2D keypoints. これは、鳥の目と2次元のポーズのグラウンドアップビューを生成する90 × 軸の回転によるもので、2次元のキーポイント間の変化はほとんどない。 0.70
3.3 Discriminator Loss Although self-consistency is important, alone it is not a sufficient enough constraint to generate realistic 3D skeletons [5]. 3.3 識別器損失 自己整合性は重要であるが、現実的な3D骨格を生成するのに十分な制約はない[5]。 0.49
Therefore we utilise a 2D discriminator D, that takes as input a 2D pose and outputs a value between 0 and 1, representing the probability of the pose being believable. そこで、入力a2Dのポーズとして2D判別器Dを利用し、そのポーズの確率を表す0〜1の値を出力する。 0.68
The architecture of our discriminator was a fully connected neural network with the same structure as our generators, but containing one fewer residual blocks and a softmax function in place of Tanh. 判別器のアーキテクチャは、ジェネレータと同じ構造を持つ完全に接続されたニューラルネットワークであったが、Tanhの代わりに1つの残差ブロックとソフトマックス関数を含んでいる。 0.65
It learns to discriminate between the real 2D poses within our data (Y), and our reprojected 2D pose ( ˜Y). データ(Y)内の実際の2Dポーズと再プロジェクションされた2Dポーズ(Y)を区別することを学ぶ。 0.75
This provides feedback to our generators during training, enabling the learning of geometric priors such as joint angles and limb length ratios. これにより、トレーニング中にジェネレータにフィードバックを与え、関節角や手足の長さ比といった幾何学的先行点の学習を可能にします。 0.50
Our discriminator utilised the standard GAN loss [9]: 我々の識別器は標準GAN損失[9]を利用した。 0.62
5 5 0.42
英語(論文から抽出)日本語訳スコア
min G max D ミン G マックス D 0.51
Ladv = E(log(D(Y))) + E(log(1 − D( ˜Y))) Ladv = E(log(D(Y))) + E(log(1 − D( >Y))) 0.44
(6) Unlike the consistency constraints, we do not provide a unique version of Ladv to the torso and leg generator and instead provide the same loss (with a different weight) to both generators. (6) 一貫性の制約とは異なり、私たちは、胴体と脚のジェネレータにLadvのユニークなバージョンを提供しず、代わりに両方のジェネレータに(異なる重みを持つ)同じ損失を与える。
訳抜け防止モード: (6) 一貫性の制約とは異なり、私たちはtorsoとlegジェネレータにladvのユニークなバージョンを提供しません。 その代わり、両方の発電機に同じ損失(異なる重量)を与える。
0.57
This is due to two reasons; Firstly we wanted our generators to produce a believable pose together which would in turn allow TIPSy to produce a believable pose by itself when knowledge was distilled. これは2つの理由によるもので、まず、私たちは生成元が信頼できるポーズを一緒に作りたかったので、TIPSyは知識を蒸留した時に自分自身で信じられないポーズを作れました。 0.56
Having one discriminator see the entire 2D pose would provide this feedback during training. 1人の差別者が2Dのポーズ全体を見ると、トレーニング中にこのフィードバックが得られます。 0.50
Secondly, we found that multiple discriminators would struggle to provide any useful feedback during training. 第二に、複数の差別者がトレーニング中に有用なフィードバックを提供するのに苦労することを発見した。
訳抜け防止モード: 第二に 複数の識別者がトレーニング中に有用なフィードバックを提供するのに苦労するでしょう。
0.56
An example being that 2D legs are normally represented as two straight or bent lines, making it hard for a discriminator to tell apart real from fake. 例えば、2Dの脚は通常2本の直線または曲がった線で表現されるため、判別器が偽物と区別するのは困難である。 0.76
3.4 Knowledge Distillation In the final step of our process, and the production of our TIPSy model, is to distill the knowledge of our leg and torso generator to an end-to-end generator. 3.4 知識蒸留 私たちのプロセスの最終段階、そしてチップスモデルの作成は、私たちの脚と胴体ジェネレータの知識をエンドツーエンドジェネレータに絞り込むことです。 0.66
This new generator (GT IP Sy) will accept the entire 2D pose as input and predict the 3D coordinates of the whole pose. この新しいジェネレータ(GT IP Sy)は入力として2Dのポーズ全体を受け入れ、ポーズ全体の3D座標を予測する。 0.79
GT IP Sy was trained to minimise the mean-squared error (MSE) between its own predictions and that of the leg and torso generator as shown: GT IP Syは、平均二乗誤差(MSE)を自身の予測と脚と胴体ジェネレータの誤差の最小化のために訓練された。 0.74
1 N i=1(GT IP Sy(xi, yi) − ˆzi)2 = 0 ΣN 1N i=1(GT IP Sy(xi, yi) − szi)2 = 0 ΣN 0.44
(7) where ˆzi is the predicted 3D location of the keypoint (xi, yi) made by either the leg or torso generator. (7) シュジは、脚または胴体ジェネレータによって作られたキーポイント(xi, yi)の予測された3D位置である。 0.55
We use MSE for knowledge distillation as we found that training GT IP Sy adversarially while including a divergence metric as an additional constraint, would lead to worse performance than if it simply tried to match the leg and torso generators’ predictions. 我々は知識蒸留にMSEを用い、GT IP Syのトレーニングを逆向きに行うが、分岐距離を追加の制約として含めれば、単に脚や胴体発生器の予測に合致させようとするよりもパフォーマンスが悪くなることを示した。 0.69
3.5 Training As discussed, our torso and leg generators were trained adversarially with rotational and 90◦ consistency and our TIPSy generator was trained using knowledge distillation. 3.5 トレーニング後,我々の胴体と脚のジェネレータは回転と90 の整合性で逆向きに訓練され,TIPSy ジェネレータは知識蒸留を用いて訓練された。 0.60
The network parameters are then updated to optimise the total loss for each generator given by: 次にネットワークパラメータが更新され、次のジェネレータの合計損失を最適化する。 0.79
Lleg = w1Ladv + w2Lleg2D + w3Lleg90◦ Lleg = w1Ladv + w2Lleg2D + w3Lleg90 0.28
Ltorso = w4Ladv + w2Ltorso2D + w3Ltorso90◦ ltorso = w4ladv + w2ltorso2d + w3ltorso90 である。 0.35
LT IP Sy = LT IP Sy = 0.42
1 N i=1(GT IP Sy(xi, yi) − ˆzi)2 ΣN 1N i=1(GT IP Sy(xi, yi) − szi)2 ΣN 0.44
(8) (9) (10) (8) (9) (10) 0.42
where, w1 = 0.05, w2 = 10, w3 = 3 and w4 = 0.08 are the relative weights for the leg generators adversarial loss, both generators self-consistency loss, both generators 90◦ consistency loss and torso generators adversarial loss respectively. ここで、w1 = 0.05, w2 = 10, w3 = 3 と w4 = 0.08 は、レッグジェネレータの対向損失の相対重みであり、両方のジェネレータは自己整合損失、両方のジェネレータは 90 の整合損失、トルソジェネレータは対向損失である。
訳抜け防止モード: ここで w1 = 0.05, w2 = 10, w3 = 3 w4 = 0.08はレッグジェネレータの相対重みである。 両方のジェネレータは自己整合損失、両方のジェネレータは90~ トーソジェネレータは それぞれ 逆転損失です。
0.65
The discrepancy between w1 and w4 was due to how many points each generator predicted. w1とw4の差は、各発電機が予測した点数による。 0.69
Our torso generator predicted 10 z values out of the 16 in the full pose, meaning they predicted 10 16 of the entire pose. 私たちのトルソ発生器は16のうち10のz値を全ポーズで予測し、全ポーズの10の16を予測しました。 0.70
Therefore any change in adversarial loss would be more likely due to the torso generator than the leg generator and its weight is higher to reflect this. したがって、対向的な損失の変化は、脚発生器よりも胴体発生器が原因で起こり、その重みが反映される。 0.70
We trained our model completely unsupervised following [5]. 私たちは[5]に従って完全に教師なしのモデルを訓練した。 0.46
For all models we used a batch size of 8192 and the Adam optimiser with a learning rate of 0.0002. すべてのモデルでバッチサイズは8192で、Adamオプティマイザは0.0002で学習しました。 0.64
Our experiments use N = 16 keypoints. 実験では、N = 16キーポイントを使用します。 0.58
For evaluation we show results of a solo generator as a baseline, both the leg and torso generator working together, and our final TIPSy model trained via knowledge distillation. 評価には, 単体発電機をベースラインとして, 脚と胴体ジェネレータを併用し, 知識蒸留によりトレーニングした最終TIPSyモデルについて検討した。 0.74
4 Evaluation and Experiments 4.1 Quantitative Results On Human3.6M 4 評価と実験 4.1 ヒト3.6mの定量的研究 0.63
Human3.6M [13] is one of the largest and most widely used 3D human pose datasets, containing 3.6 million 3D human poses. ヒト3.6M[13]は360万個の人間のポーズを含む、最も大きく最も広く使われている3Dポーズデータセットの1つである。 0.63
It consists of both video and motion capture (MoCap) data from 4 ビデオとモーションキャプチャー(MoCap)のデータからできています。 0.68
6 6 0.43
英語(論文から抽出)日本語訳スコア
viewpoints of 5 female and 6 male subjects performing specific actions (e g talking on the phone, taking a photo, eating, etc.). 特定の行動を行う5人の女性と6人の男性の視点(例えば、電話で話したり、写真を撮る、食べる、など)。 0.80
There are two main evaluation protocols for the Human3.6M dataset, which use subjects 1, 5, 6, 7 and 8 for training and subject 9 and 11 for evaluation. Human3.6Mデータセットには、トレーニングに1, 5, 6, 7, 8、評価に9, 11の2つの主要な評価プロトコルがある。 0.73
Both protocols report the Mean Per Joint Position Error (MPJPE), which is the Euclidean distance in millimeters between the predicted and ground truth 3D coordinates. どちらのプロトコルも、予測された真理3d座標と基底真理3d座標の間の軌道距離である平均平均関節位置誤差(mpjpe)を報告している。 0.66
We report the protocol-II performance of our model which employs rigid alignment between the ground truth and predicted pose prior to evaluation. 基礎的真理と予測的ポーズの厳密な整合を用いたモデルprotocol-iiの性能を評価前に報告する。 0.66
Our results can be seen in Table 1. 結果が表1で確認できます。 0.65
As we can see, by interpreting a 2D pose as multiple spatially independent sections for the purpose of 3D pose estimation, we can significantly improves results. このように、3次元ポーズ推定のために2次元ポーズを複数の空間的に独立なセクションとして解釈することにより、結果を著しく改善することができる。
訳抜け防止モード: ご覧の通り 3次元ポーズ推定のための複数の空間独立セクションとしての2次元ポーズの解釈 結果を大幅に改善できます。
0.72
This is highlighted by the 18% decrease in MPJPE between TIPSy and our baseline solo generator model. このことは、TIPSyとベースラインのソロジェネレータモデルの間のMPJPEの18%減少によって強調される。 0.66
TIPSy also performed well against several fully supervised models and improved upon [5] which utilised temporal information. TIPSyはまた、いくつかの完全に教師されたモデルに対してよく機能し、時間情報を利用した[5]上で改善した。 0.45
Additionally, TIPSy managed to achieve the highest performance in both the photo taking and sitting down action as well as joint second highest in the sitting action. さらに、ティピーは、撮影と着席動作の両方で最高のパフォーマンスを達成し、また、着席動作で2番目に高いジョイントパフォーマンスを達成した。 0.61
By analysing videos of these actions, we believe that TIPSy improved these scenarios specifically due to the subjects moving their arms freely throughout the scene but having a fairly neutral stance for their legs (examples of this can be seen in Appendix A.2) highlighting the benefit of treating them as independent from one another. これらの行動のビデオを分析することで、TIPSyはシーン全体を通して自由に腕を動かしている被験者のためにこれらのシナリオを改善したと信じている(この例はAppendix A.2で見ることができる)。
訳抜け防止モード: これらのアクションのビデオを分析して、TIPSyがこれらのシナリオを改善したと信じている。 足に中立な姿勢をとっています この例は Appendix A.2 で見ることができる。 ) 互いに独立して扱うことの利点を強調している。
0.73
Table 1: Showing the reconstruction error (MPJPE) on Human3.6M. 表1:Human3.6Mの復元誤差(MPJPE)を示す。 0.77
Legend: (+) denotes extra data[46] [30] use 2D annotations from the MPII dataset, [6] increased the amount of Human3.6M training data by 8. 伝説: (+)は追加のデータ[46][30]はMPIIデータセットからの2Dアノテーションを使用し、[6]はHuman3.6Mのトレーニングデータを8.6倍に増やした。
訳抜け防止モード: legend : ( + ) 追加のデータ [46 ] [30 ] は mpii データセットから 2d アノテーションを使用する。 [6]人間3.6mのトレーニングデータ量を8。
0.83
(GT) denotes providing 2D ground truth keypoints to a lifting model. (GT)は、リフトモデルに2次元の真理キーポイントを提供することを意味する。 0.62
(T) denotes the use of temporal information. (T)は時間情報の使用を意味する。 0.85
All results are taking from their respective papers. 結果はそれぞれの論文から取っています。 0.81
Lower is better, best in bold, second best underlined. 低い方が良く、大胆で、二番目に下品です。 0.62
Method Approach Martinez et al [23] Supervised Pavllo et al [31] (GT) Supervised Cai et al [2] (GT) Supervised Yang et al [46] (+) Weakly-Supervised Pavlakos et al [30] (+) Weakly-Supervised Ronchi et al [33] Weakly-Supervised Wandt et al [39] (GT) Weakly-Supervised Drover et al [6] (GT)(+) Weakly-Supervised Kudo et al [16] (GT) Unsupervised Chen et al [5] (T) Unsupervised Solo Generator (Ours)(GT) Unsupervised Leg and Torso Generator (Ours)(GT) Unsupervised TIPSy (Ours)(GT) Method Approach Martinez et al [23] Supervised Pavllo et al [31] (GT) Supervised Cai et al [2] (GT) Supervised Yang et al [46] (+) Weakly-Supervised Pavlakos et al [30] (+) Weakly-Supervised Ronchi et al [33] Weakly-Supervised Wandt et al [39] (GT)(+) Weakly-Supervised Drover et al [6] (GT)(+) Weakly-Supervised Kudo et al [16] (GT) Unsupervised Chen et al [5] (T) Unsupervised Solo Generator (Ours (GT)(GT)(GT)() Unsupervised Sollo Generators (Our Legs (Ours (GT)(GT)() Unsupervised) Unsuperviseded Tors (Ours (GT)(T)(T) 0.46
Knowledge Distillation Direct. 知識蒸留 ダイレクト。 0.64
Discuss 39.5 36.0 36.8 26.9 34.7 43.6 33.6 33.5 125.0 Discuss 39.5 36.0 36.8 26.9 34.7 43.6 33.6 33.5 125.0 0.22
43.2 38.7 38.7 30.9 39.8 45.3 38.8 39.3 137.9 43.2 38.7 38.7 30.9 39.8 45.3 38.8 39.3 137.9 0.21
- - 53.3 38.7 38.3 - - 53.3 38.7 38.3 0.36
48.9 39.6 39.4 48.9 39.6 39.4 0.24
Eat 46.4 38.0 38.2 36.3 41.8 45.8 32.6 32.9 107.2 Eat 46.4 38.0 38.2 36.3 41.8 45.8 32.6 32.9 107.2 0.22
- 56.2 44.7 44.7 - 56.2 44.7 44.7 0.33
Greet 47.0 41.7 41.7 39.9 38.6 50.9 37.5 37.0 130.8 Greet 47.0 41.7 41.7 39.9 38.6 50.9 37.5 37.0 130.8 0.22
- 51.6 44.9 43.1 - 51.6 44.9 43.1 0.33
Phone 51.0 40.1 40.7 43.9 42.5 46.6 36.0 35.8 115.1 Phone 51.0 40.1 40.7 43.9 42.5 46.6 36.0 35.8 115.1 0.22
- 58.1 49.4 48.1 - 58.1 49.4 48.1 0.33
Photo 56.0 45.9 46.8 47.4 47.5 55.3 44.1 42.7 127.3 Photo 56.0 45.9 46.8 47.4 47.5 55.3 44.1 42.7 127.3 0.22
- 47.6 40.7 39.7 - 47.6 40.7 39.7 0.33
Posing 41.4 37.1 37.9 28.8 38.0 43.3 37.8 39.0 147.7 Posing 41.4 37.1 37.9 28.8 38.0 43.3 37.8 39.0 147.7 0.22
- 52.8 46.4 46.2 - 52.8 46.4 46.2 0.33
Purchase 40.6 35.4 35.6 29.4 36.6 47.3 34.9 38.2 128.7 購入 40.6 35.4 35.6 29.4 36.6 47.3 34.9 38.2 128.7 0.29
- 50.4 37.2 37.5 - 50.4 37.2 37.5 0.33
Approach Method Martinez et al [23] Supervised Pavllo et al [31] (GT) Supervised Cai et al [2] (GT) Supervised Yang et al [46] (+) Weakly-Supervised Pavlakos et al [30] (+) Weakly-Supervised Ronchi et al [33] Weakly-Supervised Wandt et al [39] (GT) Weakly-Supervised Drover et al [6] (GT)(+) Weakly-Supervised Kudo et al [16] (GT) Unsupervised Chen et al [5] (GT)(T) Unsupervised Solo Generator (Ours)(GT) Unsupervised Leg and Torso Generator (Ours)(GT) Unsupervised TIPSy (Ours)(GT) Approach Method Martinez et al [23] Supervised Pavllo et al [31] (GT) Supervised Cai et al [2] (GT) Supervised Yang et al [46] (+) Weakly-Supervised Pavlakos et al [30] (+) Weakly-Supervised Ronchi et al [33] Weakly-Supervised Wandt et al [39] (GT) Weakly-Supervised Drover et al [6] (GT)(+) Weakly-Supervised Kudo et al [16] (GT) Unsupervised Chen et al [5] (GT)(GT)( Unsupervised Solo Generator (Ourgelos (Ourges (GT)(Ourget)(Ourge) and Unsupervised Generators (Ourges(GT)(GT)()) 0.46
Knowledge Distillation Sit 56.5 46.8 47.6 36.9 50.7 56.6 39.2 42.1 134.7 知識蒸留 Sit 56.5 46.8 47.6 36.9 50.7 56.6 39.2 42.1 134.7 0.46
- 46.7 39.5 39.2 - 46.7 39.5 39.2 0.33
4.2 Quantitative Results On MPI-INF-3DHP 4.2 MPI-INF-3DHPの定量化 0.47
SitD Smoke Wait Walk WalkD. SitDスモークウォークウォークD。 0.53
WalkT. Avg. ウォーク。 avgだ 0.53
47.7 69.4 53.4 40.0 40.2 51.7 37.7 58.4 41.8 56.8 50.3 74.3 38.2 52.0 52.3 38.2 130.9 139.8 47.7 69.4 53.4 40.0 40.2 51.7 37.7 58.4 41.8 56.8 50.3 74.3 38.2 52.0 52.3 38.2 130.9 139.8 0.20
49.2 41.4 41.3 41.5 42.6 47.1 37.5 36.9 114.5 49.2 41.4 41.3 41.5 42.6 47.1 37.5 36.9 114.5 0.21
45.0 36.9 36.8 30.5 39.6 48.5 39.8 39.4 147.1 45.0 36.9 36.8 30.5 39.6 48.5 39.8 39.4 147.1 0.21
38.0 30.3 31.0 42.5 32.1 48.5 40.3 33.2 125.6 38.0 30.3 31.0 42.5 32.1 48.5 40.3 33.2 125.6 0.21
49.5 43.1 42.7 29.5 43.9 52.1 34.1 36.8 130.8 49.5 43.1 42.7 29.5 43.9 52.1 34.1 36.8 130.8 0.21
- 43.1 34.8 34.7 32.2 36.5 49.8 34.9 34.9 151.1 - 43.1 34.8 34.7 32.2 36.5 49.8 34.9 34.9 151.1 0.32
- - - - - 44.6 39.4 39.2 - - - - - 44.6 39.4 39.2 0.39
49.8 43.2 43.3 49.8 43.2 43.3 0.24
72.7 54.6 53.1 72.7 54.6 53.1 0.24
55.3 52.0 51.3 55.3 52.0 51.3 0.24
49.5 41.1 40.5 49.5 41.1 40.5 0.24
51.5 45.4 44.7 51.5 45.4 44.7 0.24
51 52.6 43.8 43.2 51 52.6 43.8 43.2 0.27
MPI-INF-3DHP [24] is a markerless MoCap dataset containing the 3D human poses of 8 actors performing 8 different activities. MPI-INF-3DHP [24]は、8人のアクターの3D人間のポーズを含むマーカーのないMoCapデータセットである。 0.59
To highlight the generability of TIPSy to unseen poses, we show the evaluation results on MPI-INF-3DHP when TIPSy is trained on the Human3.6M. TIPSyがHuman3.6Mでトレーニングされた場合、MPI-INF-3DHPで評価結果を示す。 0.60
The evaluation metrics used are the percentage of correctly positioned keypoints (PCK3D) and area under the curve (AUC) as defined by [24]. 使用する評価指標は,[24]で定義される, 正確な位置決めキーポイント(PCK3D)と曲線下領域(AUC)の比率である。 0.84
As our predicted poses are normalised, we scale them up by their original normalising factor prior to evaluation. 予測されたポーズが正規化されると、評価の前に元の正規化係数でそれらをスケールアップします。 0.60
Additionally [39] found there are ambiguities between multiple cameras and 3D pose rotations, causing the potential for inverted predictions as seen in [16]. さらに[39]は、複数のカメラと3Dポーズの回転の間に曖昧さがあることを発見し、[16]で見られる反転予測の可能性をもたらした。 0.68
To remove this ambiguity we assume that the direction the person is facing with respect to the camera is known. この曖昧さを取り除くために、カメラに対して人が直面している方向が分かっていると仮定する。 0.73
Our results can be seen in Table 2. 結果は第2表で確認できます。 0.66
7 7 0.42
英語(論文から抽出)日本語訳スコア
Comparing TIPSy against [48] we can see that although the PCK3D at a threshold of 150mm is similar, TIPSy has achieved an 11% improvement in AUC (threshold 0mm-150mm). TIPSy と [48] を比較すると、PCK3D の閾値は 150mm と似ているが、TIPSy は AUC (threshold 0mm-150mm) で 11% 改善していることがわかる。 0.75
Highlighting that feature sharing between localised groups during training may dampen the generability of a model and that we may achieve improved results by treating them as independent. トレーニング中の局所的なグループ間の特徴共有はモデルの生成性を損なう可能性があり,独立して扱うことで改善される可能性がある。 0.70
Similarly TIPSy achieves a higher performance than other unsupervised approaches and supervised approaches even when trained on the MPI-INF-3DHP dataset. 同様にTIPSyは、MPI-INF-3DHPデータセットでトレーニングされた場合でも、他の教師なしアプローチや教師なしアプローチよりも高いパフォーマンスを達成する。 0.43
Table 2: Results for the MPI-INF-3DHP dataset. 表2: MPI-INF-3DHPデータセットの結果。 0.68
Legend: (3DHP) denotes the model being trained on the MPI-INF-3DHP dataset. 伝説: (3DHP)は、MPI-INF-3DHPデータセットでトレーニングされているモデルを表す。 0.60
(H36M) denotes the model being trained on the Human3.6M dataset. (H36M)は、Human3.6Mデータセットでトレーニングされているモデルを指す。 0.57
(+) denotes additional training data. (+)は追加の訓練データを表す。 0.73
(*) uses transfer learning during from 2Dposenet. (*)2dposenetからの転送学習を用いる。 0.81
(T) denotes the use of temporal information during training. (T)は、訓練中の時間的情報の使用を指す。 0.73
All results are taking from their respective papers. 結果はそれぞれの論文から取っています。 0.81
Higher is better, best in bold, second best underlined. より高い方が良い 大胆で 2番目に良い下線だ 0.75
Approach Method Mehta et al [24] (3DHP + H36M)(*) Supervised Zeng et al [48] (H36M) Supervised Yang et al [46] (H36M)(+) Weakly-Supervised Wandt et al [39] (H36M) Weakly-Supervised Kanazawa et al [15] (3DHP) Weakly-Supervised Chen et al [5] (3DHP)(T) Unsupervised Kundo et al [17] (H36M) Unsupervised Solo Generator (Ours)(H36M) Unsupervised Leg and Torso Generator (Ours)(H36M) Unsupervised TIPSy (Ours)(H36M) アプローチ方法 Mehta et al [24] (3DHP + H36M)(*) Supervised Zeng et al [48] (H36M) Supervised Yang et al [46] (H36M)(+) Weakly-Supervised Wandt et al [39] (H36M) Weakly-Supervised Kanazawa et al [15] (3DHP)(T) Weakly-Supervised Chen et al [5] (3DHP)(T) Unsupervised Kundo et al [17] (H36M) Unsupervised Solo Generator (Ours)(H36M) Unsupervised Leg and Torso Generator (Ours)(H36M) Unsupervised TIPS (Ours)(H36M) 0.47
Knowledge Distillation PCK3D AUC 40.8 43.8 32.0 54.8 40.7 36.3 39.8 47.0 47.9 48.8 知識蒸留 PCK3D AUC 40.8 43.8 32.0 54.8 40.7 36.3 39.8 47.0 47.9 48.8 0.45
76.5 77.6 69.0 81.8 77.1 71.1 76.5 75.7 77.1 78.0 76.5 77.6 69.0 81.8 77.1 71.1 76.5 75.7 77.1 78.0 0.21
4.3 Improved GAN Training Stability 4.3 GAN訓練の安定性の向上 0.46
One fundamental question when utilising unsupervised networks is when to stop training. 教師なしネットワークを利用する場合の基本的問題は、いつトレーニングを止めるかである。 0.52
However, we find a lack of information within prior work detailing how long authors have trained their models for. しかしながら、著者がモデルのトレーニングに要した期間を詳述した以前の作業では、情報が不足していることが分かりました。 0.49
Therefore, we assume that prior work, including ourselves, trained for a set amount of epochs and picked the weights across these epochs which performed best on an evaluation set. したがって, 自己を含む先行研究は, 一定量のエポックを訓練し, 評価セットにおいて最善を尽くしたエポック全体の重みを抽出したと仮定する。 0.61
Though fine from an evaluation viewpoint, in practice it would not work if we had no ground truth data. 評価の観点からは問題ありませんが、基礎的な真理のデータがなければ、実際にはうまくいきません。 0.61
In a truly unsupervised scenario there would be three approaches one could use to decide when to stop training. 真の教師なしのシナリオでは、いつトレーニングを中止するかを決めるために使用できる3つのアプローチがあります。 0.60
Firstly, we could monitor the discriminators loss and stop training when it too weak or strong. まず、差別者の損失を監視し、弱すぎるか強すぎるかのトレーニングを中止できる。 0.69
Though there is intuition for this approach, in practice a strong discriminator can cause a generator to fail due to vanishing gradients [1] and a weak discriminator provides poor feedback to a generator reducing its performance. このアプローチには直感があるが、実際には強い判別器は勾配の消失によってジェネレータを故障させ、弱い判別器はジェネレータの性能を低下させる。
訳抜け防止モード: このアプローチには直感があるが、実際には強い差別者が引き起こすことがある。 勾配が消えて失敗する発電機[1] 弱い判別器は 発電機に 悪いフィードバックを与える 性能を低下させる
0.69
Secondly, we could visualise the predictions per epoch and decide by eye which pose is the best. 第二に、時代ごとの予測を可視化し、どのポーズがベストかを目で判断できる。 0.62
Though having potentially hundreds of epochs and thousands of poses, this is not an efficient solution. 数百のエポックと数千のポーズを持つ可能性があるが、これは効率的なソリューションではない。 0.60
Lastly, and more realistically, we could pick the final weight during the training of our model or average the weights between a certain range of epochs to use. 最後に、より現実的に、モデルのトレーニング中に最終的な重量を選択したり、使用すべき特定のエポック間の重量を平均したりできます。 0.68
For this scenario we show the stability of our leg and torso generators during adversarial training when compared against a solo generator which can be seen in Figure 3. このシナリオでは、図3に示すようなソロジェネレータと比較して、逆行訓練中の脚と胴体の安定性を示す。 0.60
As shown, by having a leg and torso generator training together not only is the MPJPE lower, but it is stable over a longer period of time. 示すように、脚と胴体ジェネレータを一緒に訓練することで、MPJPEが低下するだけでなく、長期間にわたって安定している。 0.65
This is especially apparent at epoch 500 where a solo generator’s error increased drastically before settling around the 70mm mark. これは、ソロジェネレータのエラーが70ミリメートル前後に沈む前に劇的に増加するエポック500で特に顕著である。 0.67
Furthermore, these models were trained for 800 epoch’s. さらに、これらのモデルは800エポックで訓練された。 0.74
By choosing the last epochs weights to evaluate the average error of the leg and torso generators’ would have been 45.2mm and the solo generator’s average error would have been 70.2mm. 脚と胴体発電機の平均誤差を評価するための最後のエポック重量を45.2mmとし、単独発電機の平均誤差を70.2mmとした。 0.77
If we had trained for 400 epochs then the average error of the leg and torso generators’ would have been 45.4mm and the solo generator’s 55.7mm. もし私たちが400エポックの訓練を受けたなら、脚と胴体発電機の平均誤差は45.4mm、単独発電機は55.7mmであっただろう。 0.70
From epoch 400 to 800 the average error and standard deviation of our leg and torso generator was 45.4 ± 1.1mm, the average error and standard deviation of a solo generator by comparison was 64.3 ± 6.2mm. エポック400から800までの脚と胴体の標準偏差は45.4 ± 1.1mmであり、ソロ発電機の平均誤差と標準偏差は64.3 ± 6.2mmであった。 0.83
This shows that in a truly unsupervised scenario our model would allow for both better and more consistent results. これは、真の教師なしのシナリオでは、我々のモデルはより良い結果とより一貫性のある結果の両方を可能にします。 0.44
5 Conclusions This paper presented TIPSy, an unsupervised training method for 3D human pose estimation which learns improved 3D poses by learning how to lift independent segments of the 2D kinematic skeleton separately. 結論5 本稿では,2次元骨格の独立セグメントを個別に持ち上げる方法を学ぶことによって,改良された3次元ポーズを学習する3次元ポーズ推定のための教師なしトレーニング手法であるTIPSyについて述べる。 0.62
We proposed using additional constraints to improve the adversarial self-consistency cycle and highlighted that in a truly unsupervised scenario TIPSy would allow for a more optimum 我々は、敵の自己整合性サイクルを改善するために追加の制約を用いることを提案し、真に教師なしのシナリオでTIPSyがより最適なものにすることを強調した。 0.47
8 8 0.42
英語(論文から抽出)日本語訳スコア
Figure 3: Figure showing the evaluation error (MPJPE) of the leg and torso generators compared against a solo generator on the Human3.6M dataset for each training epoch. 図3: 脚と胴体ジェネレータの評価誤差(MPJPE)を示す図は、トレーニングエポック毎にHuman3.6Mデータセット上の単独ジェネレータと比較される。 0.74
model to be created through increase GAN stability. GAN安定性を高めて作成するモデル。 0.71
By exploiting the spatial independence of the torso and legs we are able to reduce the evaluation error by 18% and although we achieve the best performance in certain actions, we are aware that currently TIPSy is unable to completely beat supervised and weakly-supervised approaches. 胴体と脚の空間的独立性を利用して評価誤差を18%削減でき、特定の動作において最高の性能を達成できるが、現在、TIPSyは教師付きおよび弱教師付きアプローチを完全に打ち負かせない。
訳抜け防止モード: 胴体と脚の空間的独立性を利用して 評価エラーを18%減らすことができます 我々は特定の行動で最高のパフォーマンスを 達成していますが 現在tiptyは、監視されたアプローチと弱いアプローチを完全に打ち負かすことができない。
0.74
We do believe however that a TIPSy training approach may carry over to other supervised and weakly-supervised approaches which could improve their results. しかし、TIPSyのトレーニングアプローチは、他の教師付きおよび弱教師付きアプローチに受け継がれ、その結果が向上すると考えている。 0.49
Additionally, our high AUC performance in the MPI-INF-3DHP dataset demonstrates that TIPSy can generalise well to unseen poses, improving upon prior supervised models that assume a 2D pose should be treated as codependent localised groups. さらに,MPI-INF-3DHPデータセットにおける高いAUC性能は,TIPSyが未知のポーズにうまく一般化できることを示し,2Dポーズを前提とした事前教師付きモデルの改善は,共依存型局所群として扱うべきであることを示した。 0.60
References [1] Martín Arjovsky and Léon Bottou. マルティン・アルヨフスキー(Martín Arjovsky)とレオン・ボトウ(Léon Bottou)。 0.45
Towards principled methods for training generative adver- ジェネレーティブ・アドバーの訓練の原理化に向けて- 0.56
sarial networks. サリアルネットワーク 0.54
ArXiv, abs/1701.04862, 2017. arxiv、abs/1701.04862、2017年。 0.56
[2] Yujun Cai, Liuhao Ge, Jun Liu, Jianfei Cai, Tat-Jen Cham, Junsong Yuan, and Nadia Magnenat Thalmann. [2]ユジュン・カイ、リューハウ・ゲ、ジュン・リュー、ジャンフェイ・カイ、タット・ジェン・チャム、ジュンソン・ユアン、ナディア・マグネナート・タルマン。
訳抜け防止モード: [2 ) 遊順 カイ、リョーゲ、ジュン・リュー Jianfei Cai, Tat - Jen Cham, Junsong Yuan そして、Nadia Magnenat Thalmann。
0.67
Exploiting spatial-temporal relationships for 3d pose estimation via graph convolutional networks. グラフ畳み込みネットワークによる3次元ポーズ推定のための時空間関係の展開 0.66
In 2019 IEEE/CVF International Conference on Computer Vision (ICCV), pages 2272–2281, 2019. 2019年、IEEE/CVF International Conference on Computer Vision (ICCV)、2272-2281頁。 0.82
doi: 10.1109/ICCV.2019.00 236. doi: 10.1109/iccv.2019.00 236。 0.40
[3] Z. Cao, G. Hidalgo, T. Simon, S. Wei, and Y. Sheikh. [3]Z. Cao、G. Hidalgo、T. Simon、S. Wei、Y. Sheikh。 0.42
Openpose: Realtime multi-person 2d pose estimation using part affinity fields. Openpose: 部分親和性フィールドを用いたリアルタイム多人数2dポーズ推定。 0.62
IEEE Transactions on Pattern Analysis and Machine Intelligence, 43(01):172–186, jan 2021. IEEE Transactions on Pattern Analysis and Machine Intelligence, 43(01):172–186, jan 2021。 0.47
ISSN 1939-3539. ISSN 1939-3539。 0.36
doi: 10.1109/TPAMI.2019.2 929257. doi: 10.1109/tpami.2019.2 929257。 0.39
[4] Ching-Hang Chen and Deva Ramanan. [4]Ching-Hang ChenとDeva Ramanan。 0.44
3d human pose estimation = 2d pose estimation + matching. 3d 人のポーズ推定 = 2d ポーズ推定 + マッチング。 0.70
2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pages 5759–5767, 2017. 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), page 5759–5767, 2017 0.41
[5] Ching-Hang Chen, Ambrish Tyagi, Amit Agrawal, Dylan Drover, M. V. Rohith, Stefan Stojanov, and James M. Rehg. 5]Cing-Hang Chen, Ambrish Tyagi, Amit Agrawal, Dylan Drover, M. V. Rohith, Stefan Stojanov, James M. Rehg
訳抜け防止モード: [5]清]-張陳,アンブリッシュ・タイギ,アミット・アグラワル, Dylan Drover, M. V. Rohith, Stefan Stojanov, James M. Rehg
0.72
Unsupervised 3d pose estimation with geometric self-supervision. 幾何学的自己スーパービジョンを用いた教師なし3次元ポーズ推定 0.41
2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pages 5707–5717, 2019. 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), page 5707–5717, 2019 0.46
[6] Dylan Drover, Rohith M. V, Ching-Hang Chen, Amit Agrawal, Ambrish Tyagi, and Cong Phuoc Huynh. 6]Dylan Drover,Rohith M. V,Ching-Hang Chen,Amit Agrawal,Ambrish Tyagi,Cong Phuoc Huynh。 0.36
Can 3d pose be learned from 2d projections alone? 3dイメージは2dプロジェクションだけで学べるのか? 0.68
In Laura Leal-Taixé and Stefan Roth, editors, Computer Vision – ECCV 2018 Workshops, pages 78–94, Cham, 2019. laura leal-taixé と stefan roth, editors, computer vision – eccv 2018 workshops, pages 78-94, cham, 2019 において。 0.80
Springer International Publishing. Springer International Publishing(英語) 0.71
ISBN 978-3-030-11018-5. ISBN 978-3-030-11018-5。 0.19
[7] Haoshu Fang, Yuanlu Xu, Wenguan Wang, Xiaobai Liu, and Song-Chun Zhu. [7]黄州ファン、元ルー・チ、ウェングアン・ワン、Xiaobai Liu、Song-Chun Zhu。 0.58
Learning pose grammar to encode human body configuration for 3d pose estimation. 学習ポーズ 3次元ポーズ推定のための人体構成を符号化する文法 0.68
In AAAI, 2018. 2018年、AAAI。 0.59
9 9 0.43
英語(論文から抽出)日本語訳スコア
[8] David A Forsyth, Okan Arikan, Leslie Ikemoto, Deva Ramanan, and James O’Brien. David A Forsyth, Okan Arikan, Leslie Ikemoto, Deva Ramanan, James O’Brien ] 0.29
Computa- tional studies of human motion: Tracking and motion synthesis. コンプタ ヒトの運動のオプティカル研究: 追跡と運動合成 0.56
2006. [9] Ian Goodfellow, Jean Pouget-Abadie, Mehdi Mirza, Bing Xu, David Warde-Farley, Sherjil Ozair, Aaron Courville, and Yoshua Bengio. 2006. Ian Goodfellow氏、Jean Pouget-Abadie氏、Mehdi Mirza氏、Bing Xu氏、David Warde-Farley氏、Sherjil Ozair氏、Aaron Courville氏、Yoshua Bengio氏。 0.57
Generative adversarial nets. In Z. Ghahramani, M. Welling, C. Cortes, N. Lawrence, and K. Q. Weinberger, editors, Advances in Neural Information Processing Systems, volume 27. 敵ネットの生成。 Z. Ghahramani, M. Welling, C. Cortes, N. Lawrence, K. Q. Weinberger, editors, Advances in Neural Information Processing Systems, Volume 27。 0.55
Curran Associates, Inc., 2014. curran associates, inc., 2014年。 0.64
URL https://proceedings. URL https://proceedings. com 0.68
neurips.cc/paper/201 4/file/5ca3e9b122f61 f8f06494c97b1afccf3- Paper.pdf. neurips.cc/paper/201 4/file/5ca3e9b122f61 f8f06494c97b1afccf3- Paper.pdf 0.05
[10] Ishaan Gulrajani, Faruk Ahmed, Martin Arjovsky, Vincent Dumoulin, and Aaron C Courville. Ishaan Gulrajani氏、Faruk Ahmed氏、Martin Arjovsky氏、Vincent Dumoulin氏、Aaron C Courville氏。 0.35
Improved training of wasserstein gans. ワッサースタイン・ガンズの訓練改善 0.49
In I. Guyon, U. V. Luxburg, S. Bengio, H. Wallach, R. Fergus, S. Vishwanathan, and R. Garnett, editors, Advances in Neural Information Processing Systems, volume 30. I. Guyon, U.V. Luxburg, S. Bengio, H. Wallach, R. Fergus, S. Vishwanathan, R. Garnett, editors, Advances in Neural Information Processing Systems, Volume 30。
訳抜け防止モード: I. Guyon, U.V. Luxburg, S. Bengio, H. Wallach R. Fergus、S. Vishwanathan、R. Garnett、編集者。 ニューラル情報処理システムの進歩 -第30巻-
0.82
Curran Associates, Inc., 2017. curran associates, inc., 2017年。 0.57
URL https://proceedings. neurips. URL https://proceedings. neurips 0.38
cc/paper/2017/file/8 92c3b1c6dccd52936e27 cbd0ff683d6-Paper.pd f. cc/paper/2017/file/8 92c3b1c6dccd52936e27 cd0ff683d6-Paper.pdf 0.06
[11] Geoffrey E. Hinton, Oriol Vinyals, and Jeffrey Dean. ジェフリー・E・ヒントン(Geoffrey E. Hinton)、オリオール・ヴィニアルズ(Oriol Vinyals)、ジェフリー・ディーン(Jeffrey Dean)。 0.42
Distilling the knowledge in a neural 神経に知識を蒸留する. 0.67
network. ArXiv, abs/1503.02531, 2015. ネットワーク arxiv、abs/1503.02531、2015年。 0.47
[12] Yingkun Huang, Weidong Jin, Zhibin Yu, and Bing Li. [12]黄陽君、平東晋、比企元、ビン・リー。 0.59
Supervised feature selection through deep neural networks with pairwise connected structure. ペア接続構造を持つディープニューラルネットワークによる特徴選択の監督。 0.74
Knowledge-Based Systems, 204: 106202, 07 2020. 知識ベースシステム 204: 106202, 07 2020。 0.76
doi: 10.1016/j.knosys.202 0.106202. doi: 10.1016/j.knosys.202 0.106202。 0.19
[13] Catalin Ionescu, Dragos Papava, Vlad Olaru, and Cristian Sminchisescu. [13]カタリン・イオネスク、ドラゴス・パパヴァ、ヴラド・オラル、クリスティアン・スミンチセスク。 0.46
Human3.6m: Large scale datasets and predictive methods for 3d human sensing in natural environments. Human3.6m: 大規模データセットと自然環境における3Dヒューマンセンシングの予測方法。 0.70
IEEE Transactions on Pattern Analysis and Machine Intelligence, 36(7):1325–1339, jul 2014. ieee transactions on pattern analysis and machine intelligence, 36(7):1325–1339, jul 2014 を参照。 0.74
[14] Hao Jiang. 14] ホー・ジアン 0.37
3d human pose reconstruction using millions of exemplars. 何百万もの例を用いた3次元人間のポーズ再構成 0.53
In 2010 20th International Conference on Pattern Recognition, pages 1674–1677, 2010. 2010年の第20回パターン認識国際会議、1674-1677頁。 0.77
doi: 10.1109/ICPR.2010. 10.1109/ICPR.2010 0.27
414. [15] Angjoo Kanazawa, Michael J. Black, David W. Jacobs, and Jitendra Malik. 414. [15]金沢安丈、マイケル・J・ブラック、デイヴィッド・W・ジェイコブス、ジテンドラ・マリク。 0.48
End-to-end recovery of human shape and pose. 人間の形とポーズのエンドツーエンド回復。 0.61
In 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 7122–7131, 2018. 2018年、IEEE/CVF Conference on Computer Vision and Pattern Recognition, page 7122–7131, 2018。 0.42
doi: 10.1109/CVPR.2018.00 744. 10.1109/CVPR.2018.00 744 0.22
[16] Yasunori Kudo, Keisuke Ogaki, Yusuke Matsui, and Yuri Odagiri. 【16】工藤保則・大垣敬助・松井祐助・小田切由利 0.40
Unsupervised adversarial learning of 3d human pose from 2d joint locations, 2018. 教師なし敵 2018年 2d 関節の場所から 3d 人のポーズを 0.58
[17] Jogendra Nath Kundu, Siddharth Seth, Mayur Rahul, M. Rakesh, Venkatesh Babu Radhakrishnan, and Anirban Chakraborty. Jogendra Nath Kundu, Siddharth Seth, Mayur Rahul, M. Rakesh, Venkatesh Babu Radhakrishnan, Anirban Chakraborty.
訳抜け防止モード: 【17】ヨゲンドラ・ナト・クンドゥ、シダース・セス、マウル・ラウル m. rakesh, venkatesh babu radhakrishnan, anirban chakrabortyなど。
0.59
Kinematic-structure- preserved representation for unsupervised 3d human pose estimation. 教師なし3次元ポーズ推定のための運動構造保存表現 0.54
In AAAI, 2020. AAAI、2020年。 0.69
[18] Sijin Li, Weichen Zhang, and Antoni B. Chan. [18]シジン・リー、ワイチェン・チャン、アントニ・B・チャン 0.46
Maximum-margin structured learning with deep networks for 3d human pose estimation. 深層ネットワークを用いた最大マージン構造学習による3次元ポーズ推定 0.72
International Journal of Computer Vision, 122: 149–168, 2015. International Journal of Computer Vision, 122: 149–168, 2015 0.44
[19] Wen-Nung Lie, Guan-Han Lin, Lung-Sheng Shih, Yuling Hsu, Thang Huu Nguyen, and Quynh Nguyen Quang Nhu. [19]ウェン・ウン・リー、ガン・ハン・リン、肺・シェン・シー、ユリング・hsu、タン・フ・グエン、クイン・ングエン・クンヌー。
訳抜け防止モード: [19 ]ウェン-ナン・リー、グアン-ハン・リン、ロン-シェン・シー、 Yuling Hsu, Thang Huu Nguyen, Quynh Nguyen Quang Nhu
0.72
Fully convolutional network for 3d human skeleton estimation from a single view for action analysis. 行動分析のための単一視点による3次元人体骨格推定のための完全畳み込みネットワーク 0.78
In 2019 IEEE International Conference on Multimedia Expo Workshops (ICMEW), pages 1–6, 2019. 2019年、IEEE International Conference on Multimedia Expo Workshops (ICMEW)、1-6頁。 0.74
doi: 10.1109/ICMEW.2019.0 -120. 10.1109/ICMEW.2019.0 -120。 0.39
[20] Matthew Loper, Naureen Mahmood, Javier Romero, Gerard Pons-Moll, and Michael J. Black. 20]Matthew Loper, Naureen Mahmood, Javier Romero, Gerard Pons-Moll, Michael J. Black。 0.39
SMPL: A skinned multi-person linear model. SMPL:スキン付き多人線形モデル。 0.78
ACM Trans. Graphics (Proc. SIGGRAPH Asia), 34(6):248:1–248:16, October 2015. ACMトランス。 グラフィック (proc. siggraph asia), 34(6):248:1–248:16, 2015年10月。 0.72
[21] Chenxu Luo, Xiao Chu, and Alan Loddon Yuille. 【21】チェンクス・ルー、シャオ・チュ、アラン・ロドン・ユイユ 0.34
Orinet: A fully convolutional network for 3d orinet: 3dのための完全畳み込みネットワーク 0.80
human pose estimation. ArXiv, abs/1811.04989, 2018. 人間のポーズ推定。 arxiv、abs/1811.04989、2018年。 0.65
[22] D. Luvizon, H. Tabia, and David Picard. D. Luvizon, H. Tabia, David Picard] 0.30
Multi-task deep learning for real-time 3d human pose estimation and action recognition. リアルタイム3次元ポーズ推定と行動認識のためのマルチタスク深層学習 0.74
IEEE transactions on pattern analysis and machine intelligence, 2020. IEEEはパターン分析とマシンインテリジェンスに関するトランザクションを2020年に発表した。 0.56
[23] Julieta Martinez, Mir Rayat Imtiaz Hossain, Javier Romero, and J.J. Little. ジュリータ・マルティネス、ミール・レイアット・イムティアス・ホセイン、ハビエル・ロメロ、J・J・リトル。 0.39
A simple yet effective baseline for 3d human pose estimation. 3次元ポーズ推定のためのシンプルで効果的なベースライン 0.69
pages 2659–2668, 10 2017. 第2659-2668頁、2017年。 0.51
doi: 10.1109/ ICCV.2017.288. doi: 10.1109/iccv.2017.28 8。 0.46
10 10 0.42
英語(論文から抽出)日本語訳スコア
[24] Dushyant Mehta, Helge Rhodin, Dan Casas, Pascal Fua, Oleksandr Sotnychenko, Weipeng Xu, and Christian Theobalt. [24]Dushyant Mehta, Helge Rhodin, Dan Casas, Pascal Fua, Oleksandr Sotnychenko, Weipeng Xu, Christian Theobalt。 0.38
Monocular 3d human pose estimation in the wild using improved cnn supervision. cnn監視の改善による野生個体の3次元人物ポーズ推定 0.64
In 3D Vision (3DV), 2017 Fifth International Conference on. 2017年、第5回国際会議(3DV)に参加。 0.69
IEEE, 2017. 2017年、IEEE。 0.63
doi: 10.1109/3dv.2017.000 64. doi: 10.1109/3dv.2017.000 64。 0.41
URL http://gvv.mpi-inf.m pg.de/3dhp_dataset. URL http://gv.mpi-inf.mp g.de/3dhp_dataset 0.17
[25] Dushyant Mehta, Srinath Sridhar, Oleksandr Sotnychenko, Helge Rhodin, Mohammad Shafiei, Hans-Peter Seidel, Weipeng Xu, Dan Casas, and Christian Theobalt. [25]Dushyant Mehta, Srinath Sridhar, Oleksandr Sotnychenko, Helge Rhodin, Mohammad Shafiei, Hans-Peter Seidel, Weipeng Xu, Dan Casas, Christian Theobalt。
訳抜け防止モード: [25 ]Dushyant Mehta, Srinath Sridhar, Oleksandr Sotnychenko, Helge Rhodin, Mohammad Shafiei, Hans - Peter Seidel, Weipeng Xu ダン・カサス(Dan Casas)、クリスチャン・テオバルト(Christian Theobalt)。
0.75
Vnect: Real-time 3d human pose estimation with a single rgb camera. Vnect: 単一のrgbカメラによるリアルタイム3Dポーズ推定。 0.80
volume 36, 2017. 2017年、36巻。 0.62
doi: 10.1145/3072959.3073 596. doi: 10.1145/3072959.3073 596。 0.52
URL http://gvv.mpi-inf.m pg.de/projects/VNect /. URL http://gv.mpi-inf.mp g.de/projects/VNect/ 。 0.16
[26] Alejandro Newell, Kaiyu Yang, and Jia Deng. [26]アレハンドロ・ニューウェル、カイユ・ヤン、ジーア・デン 0.46
Stacked hourglass networks for human pose estimation. 人間のポーズ推定のための重畳時間ガラスネットワーク 0.63
In Bastian Leibe, Jiri Matas, Nicu Sebe, and Max Welling, editors, Computer Vision – ECCV 2016, pages 483–499, Cham, 2016. Bastian Leibe, Jiri Matas, Nicu Sebe, Max Welling, editors, Computer Vision – ECCV 2016 page 483–499, Cham, 2016
訳抜け防止モード: バスチャン・ライベでは、ジリ・マタス、ニク・セベ、マックス・ウェリング。 編集部: computer vision – eccv 2016 pages 483-499, cham, 2016。
0.59
Springer International Publishing. Springer International Publishing(英語) 0.71
ISBN 978-3-319-46484-8. ISBN 978-3-19-46484-8。 0.17
[27] Mark Nishimura, David B. Lindell, Christopher Metzler, and Gordon Wetzstein. Mark Nishimura氏、David B. Lindell氏、Christopher Metzler氏、Gordon Wetzstein氏。 0.71
Disambiguating monocular depth estimation with a single transient. 単一過渡波による単眼深度推定の曖昧化 0.65
In Andrea Vedaldi, Horst Bischof, Thomas Brox, and Jan-Michael Frahm, editors, Computer Vision – ECCV 2020, pages 139–155, Cham, 2020. Andrea Vedaldi, Horst Bischof, Thomas Brox, Jan-Michael Frahm, editors, Computer Vision – ECCV 2020, page 139–155, Cham, 2020。
訳抜け防止モード: アンドレア・ヴェダルディ、ホルスト・ビショフ、トマス・ブロックス、ヤン - マイケル・フラム 編集部: computer vision – eccv 2020, pages 139–155, cham, 2020。
0.70
Springer International Publishing. Springer International Publishing(英語) 0.71
ISBN 978-3-030-58589-1. ISBN 978-3-030-58589-1。 0.18
[28] Sungheon Park and Nojun Kwak. 28] ソンヒョン・パークと ノジュン・クァク 0.45
3d human pose estimation with relational networks. 関係ネットワークを用いた3次元人物ポーズ推定 0.71
In BMVC, 2018. bmvc で。 2018. 0.44
[29] Georgios Pavlakos, Xiaowei Zhou, Konstantinos G. Derpanis, and Kostas Daniilidis. Georgios Pavlakos, Xiaowei Zhou, Konstantinos G. Derpanis, Kostas Daniilidis 0.27
Coarseto-fine volumetric prediction for single-image 3d human pose. 単像3次元人物ポーズの粗視から微視的な体積予測 0.48
2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pages 1263–1272, 2017. 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), page 1263–1272, 2017 0.41
[30] Georgios Pavlakos, Xiaowei Zhou, and Kostas Daniilidis. [30]Georgios Pavlakos、Xiaowei Zhou、Kostas Daniilidis。 0.27
Ordinal depth supervision for 3d 3次元の経時的深度モニタリング 0.65
human pose estimation. pages 7307–7316, 06 2018. 人間のポーズ推定。 7307-7316, 06 2018。 0.70
doi: 10.1109/CVPR.2018.00 763. 10.1109/CVPR.2018.00 763 0.23
[31] Dario Pavllo, Christoph Feichtenhofer, David Grangier, and Michael Auli. Dario Pavllo氏、Christoph Feichtenhofer氏、David Grangier氏、Michael Auli氏。 0.67
3d human pose estimation in video with temporal convolutions and semi-supervised training. 時間的畳み込みと半教師あり訓練による映像中の3次元ポーズ推定 0.67
pages 7745–7754, 06 2019. 7745-7754, 06 2019 頁。 0.36
doi: 10.1109/CVPR.2019.00 794. 10.1109/CVPR.2019.00 794 0.22
[32] Alec Radford, Luke Metz, and Soumith Chintala. 32] アレク・ラドフォード、ルーク・メッツ、スーミス・チンガラ 0.39
Unsupervised representation learning with deep convolutional generative adversarial networks. 教師なし表現学習 deep convolutional generative adversarial network(英語) 0.64
CoRR, abs/1511.06434, 2016. corr、abs/1511.06434、2016年。 0.50
[33] Matteo Ruggero Ronchi, Oisin Mac Aodha, Robert Eng, and Pietro Perona. [33]Matteo Ruggero Ronchi、Oisin Mac Aodha、Robert Eng、Pietro Perona。 0.32
It’s all relative: Monocular 3d human pose estimation from weakly supervised data. それはすべて相対的だ:弱い教師付きデータから単眼の3d人間のポーズを推定する。 0.59
In British Machine Vision Conference 2018, BMVC 2018, Northumbria University, Newcastle, UK, September 3-6, 2018, page 300, 2018. British Machine Vision Conference 2018, BMVC 2018, Northumbria University, Newcastle, 2018, September 3-6, 2018, page 300, 2018
訳抜け防止モード: british machine vision conference 2018, bmvc 2018, northumbria university, イギリス、ニューカッスル、2018年9月3日 - 6日、300ページ、2018年。
0.84
URL http://bmvc2018.org/ contents/papers/0182 .pdf. URL http://bmvc2018.org/ contents/papers/0182 .pdf 0.19
[34] Shibani Santurkar, Dimitris Tsipras, Andrew Ilyas, and Aleksander Madry. 34]シバニ・サントゥルカル、ディミトリス・ティプラス、アンドリュー・イリャス、アレクサンデル・マドリー。 0.45
How does batch normalization help optimization? バッチ正規化は最適化にどのように役立つのか? 0.46
In S. Bengio, H. Wallach, H. Larochelle, K. Grauman, N. CesaBianchi, and R. Garnett, editors, Advances in Neural Information Processing Systems, volume 31. S. Bengio, H. Wallach, H. Larochelle, K. Grauman, N. CesaBianchi, R. Garnett, editors, Advances in Neural Information Processing Systems, Volume 31。
訳抜け防止モード: s. bengio, h. wallach, h. larochelle, k. grauman, n. cesabianchi, and r. garnett, editors, advances in neural information processing systems (特集 ニューラル・インフォメーション・プロセッシング) 第31巻。
0.64
Curran Associates, Inc., 2018. curran associates, inc.、2018年。 0.45
URL https://proceedings. neurips.cc/paper/201 8/ file/905056c1ac1dad1 41560467e0a99e1cf-Pa per.pdf. URL https://proceedings. neurips.cc/paper/201 8/ file/905056c1ac1dad1 41560467e0a99e1cf-Pa per.pdf 0.11
[35] X. Sun, J. Shang, S. Liang, and Y. Wei. [35]X. Sun, J. Shang, S. Liang, Y. Wei。 0.43
Compositional human pose regression. 構成的人間のポーズ回帰。 0.63
In 2017 IEEE International Conference on Computer Vision (ICCV), pages 2621–2630, Los Alamitos, CA, USA, oct 2017. 2017年、ieee international conference on computer vision (iccv)、ページ2621-2630、ロスアラミトス、ca、usa、2017年10月。
訳抜け防止モード: 2017年、IEEE International Conference on Computer Vision (ICCV) に参加。 公式サイト 2621–2630, Los Alamitos, CA, USA, oct 2017
0.89
IEEE Computer Society. IEEE Computer Society所属。 0.90
doi: 10.1109/ICCV.2017.28 4. doi: 10.1109/iccv.2017.28 4。 0.40
URL https: //doi.ieeecomputerso ciety.org/10.1109/IC CV.2017.284. URL https: //doi.ieee computersociety.org/ 10.1109/ICCV.2017.28 4 0.15
[36] Bugra Tekin, Isinsu Katircioglu, Mathieu Salzmann, Vincent Lepetit, and Pascal Fua. [36]Bugra Tekin, Isinsu Katircioglu, Mathieu Salzmann, Vincent Lepetit, Pascal Fua。 0.37
Structured prediction of 3d human pose with deep neural networks. ディープニューラルネットワークを用いた3次元ポーズの構造化予測 0.77
In Edwin R. Hancock Richard C. Wilson and William A. P. Smith, editors, Proceedings of the British Machine Vision Conference (BMVC), pages 130.1–130.11. Edwin R. Hancock Richard C. Wilson and William A. P. Smith, editors, Proceedings of the British Machine Vision Conference (BMVC), page 130.1–130.11
訳抜け防止モード: エドウィン・R・ハンコック・リチャード・C・ウィルソンとウィリアム・A・P・スミス。 編集者、英国機械ビジョン会議(BMVC)の主催者。 130.1-130.11頁。
0.55
BMVA Press, September 2016. bmva、2016年9月。 0.62
ISBN 1-901725-59-6. ISBN 1-901725-59-6。 0.23
doi: 10.5244/C.30.130. doi: 10.5244/c.30.130。 0.43
URL https://dx.doi.org/1 0.5244/C.30.130. URL https://dx.doi.org/1 0.5244/C.30.130 0.17
[37] D Tome, Christopher Russell, and L Agapito. D Tome氏、Christopher Russell氏、L Agapito氏。 0.53
Lifting from the deep: Convolutional 3d pose 深部からのリフティング:畳み込み型3dポーズ 0.80
estimation from a single image, 2017. 一つの画像からの推定は2017年です 0.68
11 11 0.43
英語(論文から抽出)日本語訳スコア
[38] S. Tripathi, S. Ranade, A. Tyagi, and A. Agrawal. [38]S. Tripathi、S. Ranade、A. Tyagi、A. Agrawal。 0.41
Posenet3d: Learning temporally consistent 3d human pose via knowledge distillation. Posenet3d: 知識蒸留による時間的に一貫した3次元ポーズの学習。 0.58
In 2020 International Conference on 3D Vision (3DV), pages 311–321, Los Alamitos, CA, USA, nov 2020. 2020年、International Conference on 3D Vision (3DV), page 311–321, Los Alamitos, CA, USA, nov 2020。 0.94
IEEE Computer Society. IEEE Computer Society所属。 0.90
doi: 10. 1109/3DV50981.2020.0 0041. ドイ:10です 1109/3DV50981.2020.0 0041 0.31
URL https://doi.ieeecomp utersociety.org/10.1 109/ 3DV50981.2020.00041. URL https://doi.ieee computersociety.org/ 10.1109/ 3DV50981.2020.00041 0.16
[39] Bastian Wandt and Bodo Rosenhahn. [39]バスチャン・ワントとボド・ローゼンハーン。 0.52
Repnet: Weakly supervised training of an adversarial reprojection network for 3d human pose estimation. Repnet: 3次元ポーズ推定のための対向的リジェクションネットワークの訓練を弱く監督する。 0.76
In 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pages 7774–7783, 2019. 2019年、IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), page 7774–7783, 2019。 0.45
doi: 10.1109/CVPR.2019. 10.1109/CVPR.2019 0.28
00797. [40] Chaoyang Wang, Chen Kong, and Simon Lucey. 00797. 40] チョウヤン・ワン、チェン・コン、サイモン・ルーシー 0.47
Distill knowledge from nrsfm for weakly supervised 3d pose learning. 弱教師付き3次元ポーズ学習のためのnrsfmからの知識の抽出 0.56
2019 IEEE/CVF International Conference on Computer Vision (ICCV), pages 743–752, 2019. 2019 IEEE/CVF International Conference on Computer Vision (ICCV) 743–752, 2019 0.43
[41] Jinbao Wang, Shujie Tan, Xiantong Zhen, Shuo Xu, Feng Zheng, Zhenyu He, and Ling Shao. 〔41〕仁法王、周江丹、西宗宗、周宗、風宗、禅融、林舎王。
訳抜け防止モード: [41 ]仁博王、周江丹、Xiantong Zhen、 周雄、Feng Zheng、Zhenyu He、Ling Shao。
0.31
Deep 3d human pose estimation: A review. deep 3d human pose estimation: a review (英語) 0.77
Computer Vision and Image Understanding, 210:103225, 2021. コンピュータビジョンとイメージ理解 210:103225, 2021。 0.85
ISSN 1077-3142. ISSN 1077-3142。 0.73
doi: https://doi.org/10.1 016/j.cviu.2021.1032 25. doi: https://doi.org/10.1 016/j.cviu.2021.1032 25。 0.17
URL https://www.scienced irect.com/science/ar ticle/pii/S107731422 1000692. URL https://www.scienced irect.com/science/ar ticle/pii/S107731422 1000692 0.17
[42] Philippe Weinzaepfel, Romain Brégier, Hadrien Combaluzier, Vincent Leroy, and Grégory Rogez. Philippe Weinzaepfel, Romain Brégier, Hadrien Combaluzier, Vincent Leroy, Grégory Rogez 0.27
Dope: Distillation of part experts for whole-body 3d pose estimation in the wild. dope: 野生の全身3dポーズ推定のための部分専門家の蒸留。 0.72
In Computer Vision – ECCV 2020: 16th European Conference, Glasgow, UK, August 23–28, 2020, Proceedings, Part XXVI, page 380–397, Berlin, Heidelberg, 2020. In Computer Vision – ECCV 2020: 16th European Conference, Glasgow, UK, August 23–28, 2020, Proceedings, Part XXVI, page 380–397, Berlin, Heidelberg, 2020
訳抜け防止モード: コンピュータビジョン - ECCV 2020 : 16th European Conference, Glasgow UK, August 23–28, 2020, Proceedings, Part XXVI 380-397頁、ベルリン、ハイデルベルク、2020年。
0.84
Springer-Verlag. Springer-Verlag 0.41
ISBN 9783-030-58573-0. ISBN9783-030-58573-0 。 0.38
doi: 10.1007/978-3-030-58 574-7_23. doi: 10.1007/978-3-030-58 574-7_23。 0.15
URL https://doi.org/10.1 007/ 978-3-030-58574-7_23 . URL https://doi.org/10.1 007/978-3-030-58574- 7_23。 0.12
[43] Maksymilian Wojtas and Ke Chen. [43]Maksymilian Wojtas氏とKe Chen氏。 0.85
Feature importance ranking for deep learning. 深層学習における重要度ランキング。 0.72
In Advances in Neural Information Processing Systems 33, Advances in Neural Information Processing Systems. ニューラル情報処理システム33の進歩において、ニューラル情報処理システムの進歩。 0.75
Morgan Kaufmann Publishers, September 2020. モーガン・カウフマン、2020年9月。 0.49
34th Conference on Neural Information Processing Systems, NeurIPS 2020 ; Conference date: 06-12-2020 Through 12-12-2020. 34th Conference on Neural Information Processing Systems, NeurIPS 2020; Conference date: 06-12-2020 - 12-12-2020 0.40
[44] Chenxin Xu, Siheng Chen, Maosen Li, and Ya Zhang. 44] チェンシン・クウ、シェン・チェン、マオセン・リー、ヤ・ジン 0.47
Invariant teacher and equivariant student for unsupervised 3d human pose estimation. 非教師付き3次元ポーズ推定のための不変教師と等変学生 0.59
In Proceedings of the AAAI Conference on Artificial Intelligence, volume 35, pages 3013–3021, 2021. aaai conference on artificial intelligence』第35巻、3013-3021頁、2021年。 0.57
[45] Jingjing Yang, Lili Wan, Wanru Xu, and Shenghui Wang. [45]ジンジン・ヤン、リリ・ワン、ワン・ク、深海王。 0.54
3d human pose estimation from a single image via exemplar augmentation. 3次元人間のポーズ推定は、例え拡大による単一の画像から行う。 0.60
Journal of Visual Communication and Image Representation, 59:371–379, 2019. Journal of Visual Communication and Image Representation, 59:371–379, 2019 0.45
ISSN 1047-3203. ISSN 1047-3203。 0.74
doi: https://doi.org/10.1 016/j.jvcir.2019.01. 033. doi: https://doi.org/10.1 016/j.jvcir.2019.01. 033。 0.16
URL https://www.scienced irect.com/science/ar ticle/pii/S104732031 9300446. url https://www.scienced irect.com/science/ar ticle/pii/s104732031 9300446。 0.16
[46] Wei Yang, Wanli Ouyang, X. Wang, Jimmy S. J. Ren, Hongsheng Li, and Xiaogang Wang. [46]ワイ・ヤン、ワンリ・ウーヤン、X・ワン、ジミー・S・J・レン、香港・リー、Xiaogang Wang。 0.69
3d human pose estimation in the wild by adversarial learning. 対人学習による野生における3次元ポーズ推定 0.66
2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 5255–5264, 2018. 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition, page 5255–5264, 2018 0.48
[47] Zhenbo Yu, Bingbing Ni, Jingwei Xu, Junjie Wang, Chenglong Zhao, and Wenjun Zhang. [47]Zhenbo Yu,Bingbing Ni,Jingwei Xu,Junjie Wang,Chenglong Zhao,Wenjun Zhang 0.34
Towards alleviating the modeling ambiguity of unsupervised monocular 3d human pose estimation. 教師なし単眼3次元ポーズ推定の曖昧さのモデル化緩和に向けて 0.62
In Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV), pages 8651–8660, October 2021. In Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV), page 8651–8660, October 2021。
訳抜け防止モード: IEEE / CVF International Conference on Computer Vision (ICCV) に参加して 8651-8660、2021年10月。
0.83
[48] Ailing Zeng, Xiao Sun, Fuyang Huang, Minhao Liu, Qiang Xu, and Stephen Lin. [48] アイリング・ゼン、シャオ・サン、フヤン・フアン、ミンハオ・リウ、チアン・クウ、スティーブン・リン 0.54
Srnet: Improving generalization in 3d human pose estimation with a split-and-recombine approach. Srnet: 分割組換えアプローチによる3次元ポーズ推定の一般化の改善。 0.74
In Andrea Vedaldi, Horst Bischof, Thomas Brox, and Jan-Michael Frahm, editors, Computer Vision – ECCV 2020, pages 507–523, Cham, 2020. Andrea Vedaldi, Horst Bischof, Thomas Brox, Jan-Michael Frahm, editors, Computer Vision – ECCV 2020, page 507–523, Cham, 2020
訳抜け防止モード: アンドレア・ヴェダルディ、ホルスト・ビショフ、トマス・ブロックス、ヤン - マイケル・フラム 編集部: computer vision – eccv 2020, pages 507–523, cham, 2020。
0.72
Springer International Publishing. Springer International Publishing(英語) 0.71
ISBN 978-3-030-58568-6. ISBN 978-3-030-58568-6。 0.19
[49] Xingyi Zhou, Qixing Huang, Xiao Sun, Xiangyang Xue, and Yichen Wei. [49]Xingyi Zhou、Qixing Huang、Xiao Sun、Xiangyang Xue、Yichen Wei。 0.35
Towards 3d human In The IEEE International IEEE Internationalにおける3D人間を目指して 0.68
pose estimation in the wild: A weakly-supervised approach. 野生でのポーズ推定:弱い監督されたアプローチ。 0.65
Conference on Computer Vision (ICCV), Oct 2017. コンピュータビジョン会議(ICCV) 2017年10月。 0.74
12 12 0.42
英語(論文から抽出)日本語訳スコア
A Appendix appendix (複数形 appendixs) 0.35
A.1 Additional Figures Figure 4: Showing the architecture of the Generators. A.1 追加図 図4: ジェネレータのアーキテクチャを示します。 0.56
The network consists of one linear, batch normalisation and activation layer followed by 4 residual blocks. ネットワークは1つの線形、バッチ正規化とアクティベーション層で構成され、4つの残留ブロックが続く。 0.68
A hyperbolic tangent function would then predict the Z values between -1 and 1. 双曲的接関数は -1 から 1 の間の Z の値を予測する。 0.73
A.2 Additional Images Figure 5: Example images from the Human3.6M dataset showing someone taking a photo (left) and sitting down (right). A.2 追加画像 図5: 写真を撮る人(左)と座っている人(右)を示すHuman3.6Mデータセットの例。 0.60
Note that the arms are performing a specific movement where as the legs in both images are taking a neutral stance for there particular action. 両画像の両脚が特定のアクションに対して中立的な姿勢を取るように、腕は特定の動きをしている。 0.81
A.3 Improving the consistency cycle A.3 一貫性サイクルを改善する 0.67
As self-consistency is a constrained optimisation problem, we are able to achieve a better quantitative error by minimising this even if this leads to pose that is easy to discriminate against. 自己整合性(self-consistency)は制約付き最適化問題であるため、識別が容易なポーズにつながるとしても、これを最小化することで、より定量的な誤りを実現できる。 0.59
This can be seen clearly in Table 3 where we see a noticeable decrease in MPJPE between the results in [6] and our recreation with the additional consistency constraints mentioned within our work. 表3では、[6]の結果とレクリエーションの間のMPJPEの顕著な減少と、作業の中で言及された追加的な一貫性の制約が見られます。 0.67
13 13 0.85
英語(論文から抽出)日本語訳スコア
Model Drover et al [6] Ours (Improved Consistency) Model Drover et al [6] Ours (Improved Consistency) 0.42
Direct. Discuss 33.5 28.3 ダイレクト。 ディスク33.5 28.3 0.53
39.3 30.6 Eat Greet 32.9 37.0 35.7 37.1 39.3 30.6 挨拶32.9 37.0 35.7 37.1 0.24
Phone 35.8 41.7 電話 35.8 41.7 0.56
Photo 42.7 33.0 写真42.7 33.0 0.56
Pose 39.0 38.1 ポーズ39.0 38.1 0.50
Purchase 38.2 30.5 購入 38.2 30.5 0.31
Model Drover et al [6] Ours (Improved Consistency) Model Drover et al [6] Ours (Improved Consistency) 0.42
Sit 42.1 31.1 背番号42.131.1 0.32
SitDown 52.3 30.6 座る 52.3 30.6 0.36
Smoke Wait Walk WalkD. スモークウェイトウォークが散歩します。 0.44
WalkT. Avg. ウォーク。 avgだ 0.53
36.9 38.2 33.5 34.9 36.9 38.2 33.5 34.9 0.23
39.4 46.2 36.8 40.2 39.4 46.2 36.8 40.2 0.25
33.2 32.7 34.9 33.9 33.2 32.7 34.9 33.9 0.25
Table 3: Table showing the results of [6] and our recreation with additional consistency constraints. 表3: [6]の結果を示す表と、さらなる一貫性の制約を伴うレクリエーション。 0.79
Because of this, we sought to replace the random rotation self-consistency cycle with something more efficient. このため, ランダム回転自己整合サイクルをより効率的なものに置き換えようとした。 0.73
This was due to a random rotation lending itself to long training times, where the longer a model is trained the more random rotations it will see and therefore the more consistent it will become. これは、長い訓練時間に自作するランダムな回転が原因で、モデルがより長くトレーニングされるほど、よりランダムな回転が見られ、従ってより一貫性のあるものになる。 0.77
However, this could be a problem as highlighted in Figure 3 where a longer training period may lead to GAN instability. しかし、長いトレーニング期間がgan不安定につながる可能性がある図3で強調されるように、これは問題となる可能性がある。
訳抜け防止モード: しかし、これは問題になり得る。 長いトレーニング期間がgan不安定につながる可能性がある図3で強調される。
0.61
By contrast our 90◦ consistency constraints allows for 3 specified angles of consistency to be learned per training iteration, while also being more computational efficient then randomly rotation a 3D object and re-projecting it. それとは対照的に、90 の一貫性の制約により、トレーニングイテレーション毎に3つの特定の一貫性の角度を学習できると同時に、3Dオブジェクトをランダムに回転させて再投影する計算効率も向上する。 0.64
These by themselves however aren’t sufficient to learn self-consistency as the model only learns 3 specific angles during training and in the wild many more viewpoints exist. しかしながら、モデルはトレーニング中に3つの特定の角度しか学ばず、さらに多くの視点が存在するため、これらは自己整合性を学ぶには不十分です。 0.66
We therefore sought an optimisation formula similar to our 90◦ consistency that would satisfy all possible viewpoints around the y axis. したがって、y軸の周りのすべての可能な視点を満たす、我々の90度一貫性に似た最適化公式を求めた。 0.63
First let us determine the end position of the points (xi, yi, ˆzi) after a random 3D rotation along the y axis: まず、y軸に沿ったランダムな3次元回転の後、点(xi, yi, yzi)の終点位置を決定する。 0.74
R(θ) = (cid:34)xi R(θ) = (cid:34)xi 0.42
(cid:35) (cid:35) (cid:35) (cid:35) (cid:35)(cid:35) 0.38
(cid:34)cos(θ) (cid:34)xicos(θ) − ˆzisin(θ) (cid:34)cos(θ) (cid:34)xicos(θ) − szisin(θ) 0.49
0 −sin(θ) 1 0 0 −sin(θ) 1 0 である。 0.72
sin(θ) sin (複数形 sins) 0.64
cos(θ) cos (複数形 coss) 0.67
0 0 (11) (12) 0 0 (11) (12) 0.43
(13) R(θ) = (13) R(θ) = 0.57
yi ˆzi yi xisin(θ) + ˆzicos(θ) イイ・シジ ユイ キシシン(θ)+ジコス(θ) 0.58
we substitute these new positions within our original generator function: これらの新しい位置を 元の生成関数で置き換えます 0.77
xisin(θ) + ˆzicos(θ) = G(xicos(θ) − ˆzisin(θ), yi, w) キシシン(θ) + ジコス(θ) = g(キシコス(θ) − ジシン(θ, yi, w) 0.66
for θ << 1: θ << 1: に対して 0.82
xiθ + ˆzi = G(xi − ˆziθ, yi, w) xiθ + szi = G(xi − sziθ, yi, w) 0.47
perform Taylor series expansion while ignoring terms of power 2 and above for the small angle θ: 小さい角度 θ に対して、パワー 2 以上の項を無視しながらテイラー級数展開を行う。 0.73
cancel zi with G(xi, yiw) and remove θ: g(xi, yiw) で zi をキャンセルし、θ: を削除する。 0.74
xiθ + ˆzi = G(xi, yiw) − ˆziθ xiθ + シュジ = G(xi, yiw) − シュジθ 0.86
∂ ∂xi ∂xi (複数形 ∂xis) 0.27
G(xi, yi, w) G(xi, yi, w) 0.42
this leaves us with our final consistency constraint which must be true for all angles: これは全ての角度で真でなければならない 最終的な一貫性の制約を残します 0.66
xi = − ˆzi xi = − シュジ 0.79
∂ ∂xi ∂xi (複数形 ∂xis) 0.27
G(xi, yi, w) G(xi, yi, w) 0.42
xi + ˆzi ∂ ∂xi xi + イジ ∂xi (複数形 ∂xis) 0.44
G(xi, yi, w) = 0 G(xi, yi, w) = 0 0.43
(14) (15) (16) (14) (15) (16) 0.43
In practice however implementing the above is difficult. しかし、実際には実現は困難である。 0.62
This is due to two factors; firstly zi multiplied by the derivative component provides a Jacobian matrix, which to calculate numerically within current deep learning languages is computationally inefficient, requiring over 100 minutes to train one epoch まず、微分成分に乗じたziはヤコビ行列(jacobian matrix)を提供し、現在のディープラーニング言語内で数値計算は計算効率が悪く、1つのエポックを訓練するのに100分以上を要する。 0.68
14 14 0.42
英語(論文から抽出)日本語訳スコア
on an RTX-8000 GPU. RTX-8000 GPU搭載。 0.91
Secondly as we are finding the derivative with respect to the inputs, to maintain gradient independence all batch-norm layers have to be removed from our model as these normalises across the batch dimension. 第二に、入力に関するデリバティブを見つけるため、勾配の独立性を維持するためには、バッチ次元をまたいだこれらの正規化をモデルから排除する必要があります。 0.59
This has the effect of lowering the rate at which our model learns and decreasing its stability while training ([34]). これは、モデルが学習する速度を下げ、トレーニング中の安定性を低下させる効果があります([34])。 0.70
15 15 0.42
                               ページの最初に戻る

翻訳にはFugu-Machine Translatorを利用しています。