論文の概要: PersPose: 3D Human Pose Estimation with Perspective Encoding and Perspective Rotation
- arxiv url: http://arxiv.org/abs/2508.17239v2
- Date: Tue, 26 Aug 2025 05:19:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-27 13:17:04.060387
- Title: PersPose: 3D Human Pose Estimation with Perspective Encoding and Perspective Rotation
- Title(参考訳): PersPose: パースペクティブエンコーディングとパースペクティブローテーションによる3次元人物位置推定
- Authors: Xiaoyang Hao, Han Li,
- Abstract要約: 本稿では,新しい3次元ヒューマンポーズ推定(HPE)フレームワークPersPoseを提案する。
PersPoseは3DPW、MPI-INF-3DHP、Human3.6Mデータセット上での最先端(SOTA)パフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 8.604338422941712
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Monocular 3D human pose estimation (HPE) methods estimate the 3D positions of joints from individual images. Existing 3D HPE approaches often use the cropped image alone as input for their models. However, the relative depths of joints cannot be accurately estimated from cropped images without the corresponding camera intrinsics, which determine the perspective relationship between 3D objects and the cropped images. In this work, we introduce Perspective Encoding (PE) to encode the camera intrinsics of the cropped images. Moreover, since the human subject can appear anywhere within the original image, the perspective relationship between the 3D scene and the cropped image differs significantly, which complicates model fitting. Additionally, the further the human subject deviates from the image center, the greater the perspective distortions in the cropped image. To address these issues, we propose Perspective Rotation (PR), a transformation applied to the original image that centers the human subject, thereby reducing perspective distortions and alleviating the difficulty of model fitting. By incorporating PE and PR, we propose a novel 3D HPE framework, PersPose. Experimental results demonstrate that PersPose achieves state-of-the-art (SOTA) performance on the 3DPW, MPI-INF-3DHP, and Human3.6M datasets. For example, on the in-the-wild dataset 3DPW, PersPose achieves an MPJPE of 60.1 mm, 7.54% lower than the previous SOTA approach. Code is available at: https://github.com/KenAdamsJoseph/PersPose.
- Abstract(参考訳): HPE法は個々の画像から関節の3次元位置を推定する。
既存の3D HPEアプローチでは、トリミングされたイメージをモデルへの入力として使用することが多い。
しかし、3Dオブジェクトと収穫画像との視点関係を決定するカメラ内在性を持たずに、収穫画像から相対的な継手の深さを正確に推定することはできない。
本研究では、収穫画像のカメラ内在を符号化するパースペクティブエンコーディング(PE)を導入する。
さらに、人間の被写体は元の画像のどこにでも現れるので、3Dシーンと収穫画像の視点関係は、モデルフィッティングを複雑にし、大きく異なる。
さらに、人体が画像中心から逸脱するほど、収穫された画像の視点歪みが大きくなる。
これらの課題に対処するために,人間の対象を中心とするオリジナル画像に適用したパースペクティブ・ローテーション(PR)を提案する。
PEとPRを取り入れた新しい3D HPEフレームワークPersPoseを提案する。
実験の結果、PersPoseは3DPW、MPI-INF-3DHP、Human3.6Mデータセット上での最先端(SOTA)性能を達成した。
例えば、アプリ内データセット3DPWでは、PersPoseは以前のSOTAアプローチよりも7.54%低い60.1mmのMPJPEを達成している。
コードは、https://github.com/KenAdamsJoseph/PersPose.comで入手できる。
関連論文リスト
- SpaRP: Fast 3D Object Reconstruction and Pose Estimation from Sparse Views [36.02533658048349]
本研究では,3次元テクスチャメッシュを再構成し,スパースビュー画像に対する相対カメラのポーズを推定する新しい手法であるSpaRPを提案する。
SpaRPは2次元拡散モデルから知識を抽出し、それらを微調整し、スパースビュー間の3次元空間関係を暗黙的に推論する。
テクスチャ化されたメッシュを生成するのに、わずか20秒しかかからず、カメラは入力ビューにポーズする。
論文 参考訳(メタデータ) (2024-08-19T17:53:10Z) - Mitigating Perspective Distortion-induced Shape Ambiguity in Image Crops [17.074716363691294]
単一の画像から3Dを予測するためのモデルは、しばしば関心の対象の周りの作物と連動し、カメラの視野内の物体の位置を無視する。
内在性を考慮した位置推定法を提案する。
ベンチマーク(KPE)は、画像とカメラの形状における作物の位置に関する情報を組み込んだベンチマークである。
NYUの深度予測、KITTIとnuScenesの3Dオブジェクト検出、ARCTICの3Dオブジェクトの予測という3つの人気のある3D画像ベンチマークの実験は、KPEの利点を示している。
論文 参考訳(メタデータ) (2023-12-11T18:28:55Z) - Co-Evolution of Pose and Mesh for 3D Human Body Estimation from Video [23.93644678238666]
ビデオから3次元の人間の動きを復元するPose and Mesh Co-Evolution Network (PMCE)を提案する。
提案したPMCEは、フレーム単位の精度と時間的一貫性の両方の観点から、従来の最先端手法よりも優れている。
論文 参考訳(メタデータ) (2023-08-20T16:03:21Z) - Zolly: Zoom Focal Length Correctly for Perspective-Distorted Human Mesh
Reconstruction [66.10717041384625]
Zollyは、視点歪みの画像に焦点を当てた最初の3DHMR法である。
人体の2次元密度ゆらぎスケールを記述した新しいカメラモデルと新しい2次元歪み画像を提案する。
このタスク用に調整された2つの現実世界のデータセットを拡張します。
論文 参考訳(メタデータ) (2023-03-24T04:22:41Z) - Depth-based 6DoF Object Pose Estimation using Swin Transformer [1.14219428942199]
オブジェクトの6Dポーズを正確に推定することは、ロボットの把握、自律運転、拡張現実など、多くのアプリケーションにとって不可欠である。
深度画像からの幾何情報のみを用いて正確な6次元ポーズ推定を行うSwinDePoseという新しいフレームワークを提案する。
LineModおよびOcclusion LineModデータセットの実験において、SwinDePoseは深度画像を用いた6Dオブジェクトのポーズ推定のための既存の最先端手法よりも優れている。
論文 参考訳(メタデータ) (2023-03-03T18:25:07Z) - Shape and Viewpoint without Keypoints [63.26977130704171]
本研究では,1枚の画像から3次元形状,ポーズ,テクスチャを復元する学習フレームワークを提案する。
我々は,3次元形状,マルチビュー,カメラ視点,キーポイントの監督なしに画像収集を訓練した。
我々は、最先端のカメラ予測結果を取得し、オブジェクト間の多様な形状やテクスチャを予測することを学べることを示す。
論文 参考訳(メタデータ) (2020-07-21T17:58:28Z) - Towards Generalization of 3D Human Pose Estimation In The Wild [73.19542580408971]
3DBodyTex.Poseは、3Dの人間のポーズ推定のタスクに対処するデータセットである。
3DBodyTex.Poseは、さまざまな衣服やポーズで405種類の実際の被写体を含む高品質でリッチなデータを提供する。
論文 参考訳(メタデータ) (2020-04-21T13:31:58Z) - Self-Supervised 3D Human Pose Estimation via Part Guided Novel Image
Synthesis [72.34794624243281]
ラベルのないビデオフレームからバリエーションを分離する自己教師付き学習フレームワークを提案する。
3Dポーズと空間部分マップの表現ギャップを埋める、微分可能な形式化により、多様なカメラの動きを持つビデオで操作できる。
論文 参考訳(メタデータ) (2020-04-09T07:55:01Z) - Fusing Wearable IMUs with Multi-View Images for Human Pose Estimation: A
Geometric Approach [76.10879433430466]
多視点画像と人手足に装着したIMUから3次元人間のポーズを推定する。
まず2つの信号から2Dのポーズを検出し、3D空間に持ち上げる。
単純な2段階のアプローチは、公開データセット上の大きなマージンによる最先端のエラーを低減する。
論文 参考訳(メタデータ) (2020-03-25T00:26:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。