論文の概要: "Teaching Independent Parts Separately"(TIPSy-GAN) : Improving Accuracy
and Stability in Unsupervised Adversarial 2D to 3D Human Pose Estimation
- arxiv url: http://arxiv.org/abs/2205.05980v2
- Date: Mon, 16 May 2022 12:39:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-17 12:49:09.959342
- Title: "Teaching Independent Parts Separately"(TIPSy-GAN) : Improving Accuracy
and Stability in Unsupervised Adversarial 2D to 3D Human Pose Estimation
- Title(参考訳): 独立部分の個別学習(TIPSy-GAN) : 教師なし対人2次元から3次元姿勢推定における精度と安定性の向上
- Authors: Peter Hardy and Srinandan Dasmahapatra and Hansung Kim
- Abstract要約: 教師なし対人2次元から3次元のポーズ推定における精度と安定性を改善するための新しいアプローチであるTIPSy-GANを提案する。
我々の研究では、ヒトのキネマティック骨格は1つの空間的相互依存構造として想定されるべきでないことを示した。
- 参考スコア(独自算出の注目度): 7.294965109944706
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present TIPSy-GAN, a new approach to improve the accuracy and stability in
unsupervised adversarial 2D to 3D human pose estimation. In our work we
demonstrate that the human kinematic skeleton should not be assumed as one
spatially codependent structure. In fact, we believe when a full 2D pose is
provided during training, there is an inherent bias learned where the 3D
coordinate of a keypoint is spatially codependent on the 2D locations of all
other keypoints. To investigate our theory we follow previous adversarial
approaches but train two generators on spatially independent parts of the
kinematic skeleton, the torso and the legs. We find that improving the 2D
reprojection self-consistency cycle is key to lowering the evaluation error and
therefore introduce new consistency constraints during training. A TIPSy is
produced model via knowledge distillation from these generators which can
predict the 3D coordinates for the entire 2D pose with improved results.
Furthermore, we address the question left unanswered in prior work detailing
how long to train for a truly unsupervised scenario. We show that two
independent generators training adversarially has improved stability than that
of a solo generator which will collapse due to the adversarial network becoming
unstable. TIPSy decreases the average error by 18% when compared to that of a
baseline solo generator. TIPSy improves upon other unsupervised approaches
while also performing strongly against supervised and weakly-supervised
approaches during evaluation on both the Human3.6M and MPI-INF-3DHP dataset.
- Abstract(参考訳): 教師なし対人2次元から3次元のポーズ推定における精度と安定性を改善するための新しいアプローチであるTIPSy-GANを提案する。
本研究では,人間の運動骨格を空間的共依存構造として捉えるべきではないことを実証する。
実際、トレーニング中に完全な2Dポーズが提供されると、キーポイントの3D座標が他のすべてのキーポイントの2D位置と空間的に共依存していることが学習される固有のバイアスがある。
この理論を解明するために, 先行するアプローチを踏襲するが, 運動骨格, 背骨, 脚の空間的に独立した部位で2つの生成器を訓練する。
評価誤差を低減し,トレーニング中に新たな一貫性制約を導入するためには,2次元再投影自己矛盾サイクルの改善が鍵となる。
TIPSyはこれらのジェネレータからの知識蒸留によって生成され、2次元のポーズ全体の3次元座標を予測できる。
さらに,教師なしシナリオのトレーニングに要する時間について,先行研究で未解決の疑問に対処する。
本研究では,2つの独立発電機の安定性が,対向ネットワークの不安定化により崩壊する単独発電機よりも向上したことを示す。
TIPSyは、ベースラインのソロジェネレータと比べて平均誤差を18%減少させる。
TIPSyは他の教師なしアプローチを改善し、Human3.6MとMPI-INF-3DHPデータセットの評価において、教師なしアプローチと弱教師付きアプローチに強く反対する。
関連論文リスト
- Hybrid 3D Human Pose Estimation with Monocular Video and Sparse IMUs [15.017274891943162]
モノクロビデオからの時間的3Dポーズ推定は、人間中心のコンピュータビジョンにおいて難しい課題である。
情報ソースを補完するために慣性センサが導入された。
物理的に合理的な3Dポーズを生成するために、異種センサデータを統合することは依然として困難である。
論文 参考訳(メタデータ) (2024-04-27T09:02:42Z) - UPose3D: Uncertainty-Aware 3D Human Pose Estimation with Cross-View and Temporal Cues [55.69339788566899]
UPose3Dは多視点人間のポーズ推定のための新しいアプローチである。
直接的な3Dアノテーションを必要とせずに、堅牢性と柔軟性を向上させる。
論文 参考訳(メタデータ) (2024-04-23T00:18:00Z) - LInKs "Lifting Independent Keypoints" -- Partial Pose Lifting for
Occlusion Handling with Improved Accuracy in 2D-3D Human Pose Estimation [4.648549457266638]
2Dキネマティックスケルトンから3D人間のポーズを復元する新しい教師なし学習法であるLInKsを提案する。
提案手法は,まず3次元領域に隠された2次元のポーズを持ち上げるという,ユニークな2段階のプロセスに従う。
このリフト・テン・フィルのアプローチは、2次元空間でのみポーズを完了したモデルよりもはるかに正確な結果をもたらす。
論文 参考訳(メタデータ) (2023-09-13T18:28:04Z) - Optimising 2D Pose Representation: Improve Accuracy, Stability and
Generalisability Within Unsupervised 2D-3D Human Pose Estimation [7.294965109944706]
2次元ポーズの最も最適な表現は2つの独立した部分(胴体と脚)であり、各リフトネットワーク間に共通な特徴はない。
その結果、2次元ポーズの最も最適な表現は2つの独立した部分(胴体と脚)であり、各リフトネットワーク間に共通な特徴はないことがわかった。
論文 参考訳(メタデータ) (2022-09-01T17:32:52Z) - Non-Local Latent Relation Distillation for Self-Adaptive 3D Human Pose
Estimation [63.199549837604444]
3次元ポーズ推定アプローチは、強い(2D/3Dポーズ)または弱い(複数ビューまたは深さ)ペアによる監督の異なる形態を利用する。
我々は3Dポーズ学習を,ラベル付きソースドメインから完全に損なわれないターゲットへのタスク知識の転送を目的とした,自己指導型適応問題として捉えた。
我々は、異なる自己適応設定を評価し、標準ベンチマークで最先端の3Dポーズ推定性能を示す。
論文 参考訳(メタデータ) (2022-04-05T03:52:57Z) - Homography Loss for Monocular 3D Object Detection [54.04870007473932]
ホログラフィーロス(Homography Loss)と呼ばれる,2次元情報と3次元情報の両方を利用する識別可能なロス関数を提案する。
提案手法は,KITTI 3Dデータセットにおいて,他の最先端技術と比較して高い性能を示す。
論文 参考訳(メタデータ) (2022-04-02T03:48:03Z) - PoseTriplet: Co-evolving 3D Human Pose Estimation, Imitation, and
Hallucination under Self-supervision [102.48681650013698]
既存の自己監督型3次元ポーズ推定スキームは、学習を導くための弱い監督に大きく依存している。
そこで我々は,2D-3Dのポーズペアを明示的に生成し,監督を増強する,新しい自己監督手法を提案する。
これは、ポーズ推定器とポーズ幻覚器を併用して学習する強化学習ベースの模倣器を導入することで可能となる。
論文 参考訳(メタデータ) (2022-03-29T14:45:53Z) - Synthetic Training for Monocular Human Mesh Recovery [100.38109761268639]
本稿では,RGB画像と大規模に異なる複数の身体部位の3次元メッシュを推定することを目的とする。
主な課題は、2D画像のすべての身体部分の3Dアノテーションを完備するトレーニングデータがないことである。
本稿では,D2S(Deep-to-scale)投影法を提案する。
論文 参考訳(メタデータ) (2020-10-27T03:31:35Z) - Multi-Scale Networks for 3D Human Pose Estimation with Inference Stage
Optimization [33.02708860641971]
モノクロビデオから3Dのポーズを推定することは、まだまだ難しい課題だ。
既存の多くのメソッドは、対象の人が他のオブジェクトに干渉されたり、トレーニングデータのスケールや速度に対して動きが速すぎたり、遅くなったりすると低下する。
頑健な3次元ポーズ推定のための時間的ネットワークを提案する。
論文 参考訳(メタデータ) (2020-10-13T15:24:28Z) - Kinematic-Structure-Preserved Representation for Unsupervised 3D Human
Pose Estimation [58.72192168935338]
大規模インスタディオデータセットの監視を用いて開発された人間のポーズ推定モデルの一般化可能性については疑問が残る。
本稿では,2対あるいは2対の弱い監督者によって抑制されない,新しいキネマティック構造保存型非教師付き3次元ポーズ推定フレームワークを提案する。
提案モデルでは,前方運動学,カメラ投影,空間マップ変換という3つの連続的な微分可能変換を用いる。
論文 参考訳(メタデータ) (2020-06-24T23:56:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。