論文の概要: BLADE: Single-view Body Mesh Learning through Accurate Depth Estimation
- arxiv url: http://arxiv.org/abs/2412.08640v1
- Date: Wed, 11 Dec 2024 18:59:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-12 14:02:04.159605
- Title: BLADE: Single-view Body Mesh Learning through Accurate Depth Estimation
- Title(参考訳): BLADE: 正確な深さ推定によるシングルビューボディーメッシュ学習
- Authors: Shengze Wang, Jiefeng Li, Tianye Li, Ye Yuan, Henry Fuchs, Koki Nagano, Shalini De Mello, Michael Stengel,
- Abstract要約: シングルイメージのヒューマンメッシュリカバリは、同時体型、ポーズ、カメラ推定といった特徴が欠如しているため、困難な作業である。
本研究では,仮定なしで単一の画像から視点パラメータを正確に復元するBLADE法を提案する。
提案手法は,3次元ポーズ推定と2次元アライメントの高精度化を実現する。
- 参考スコア(独自算出の注目度): 29.468164164082363
- License:
- Abstract: Single-image human mesh recovery is a challenging task due to the ill-posed nature of simultaneous body shape, pose, and camera estimation. Existing estimators work well on images taken from afar, but they break down as the person moves close to the camera. Moreover, current methods fail to achieve both accurate 3D pose and 2D alignment at the same time. Error is mainly introduced by inaccurate perspective projection heuristically derived from orthographic parameters. To resolve this long-standing challenge, we present our method BLADE which accurately recovers perspective parameters from a single image without heuristic assumptions. We start from the inverse relationship between perspective distortion and the person's Z-translation Tz, and we show that Tz can be reliably estimated from the image. We then discuss the important role of Tz for accurate human mesh recovery estimated from close-range images. Finally, we show that, once Tz and the 3D human mesh are estimated, one can accurately recover the focal length and full 3D translation. Extensive experiments on standard benchmarks and real-world close-range images show that our method is the first to accurately recover projection parameters from a single image, and consequently attain state-of-the-art accuracy on 3D pose estimation and 2D alignment for a wide range of images. https://research.nvidia.com/labs/amri/projects/blade/
- Abstract(参考訳): シングルイメージのヒューマンメッシュリカバリは、ボディ形状、ポーズ、カメラ推定の異常な性質のため、困難な作業である。
既存の推定器は遠方から撮影した画像でうまく機能するが、カメラの近くを移動すると故障する。
さらに、現在の手法では正確な3Dポーズと2Dアライメントを同時に達成できない。
誤差は主に、直交パラメータからヒューリスティックに導かれる不正確な視点射影によって引き起こされる。
この長年にわたる課題を解決するため、ヒューリスティックな仮定を伴わずに単一の画像から視点パラメータを正確に復元するBLADE法を提案する。
まず、視点歪みと人物のZ-翻訳Tzの逆関係から始め、画像から確実にTzを推定できることを示す。
次に、近距離画像から推定した正確な人間のメッシュ回復におけるTzの重要性について論じる。
最後に、Tzと3Dのメッシュを推定すると、焦点長と全3D翻訳を正確に復元できることを示す。
提案手法は,1つの画像から投影パラメータを精度良く復元し,その結果,3次元ポーズ推定と2次元アライメントの高精度化を実現した最初の手法であることを示す。
https://research.nvidia.com/labs/amri/projects/blade/
関連論文リスト
- Unsupervised Multi-Person 3D Human Pose Estimation From 2D Poses Alone [4.648549457266638]
本研究は,教師なし多人数2D-3Dポーズ推定の実現可能性について検討した最初の研究の1つである。
本手法では,各被験者の2次元ポーズを3次元に独立に持ち上げ,それらを共有3次元座標系で組み合わせる。
これにより、ポーズの正確な3D再構成を検索することができる。
論文 参考訳(メタデータ) (2023-09-26T11:42:56Z) - FrozenRecon: Pose-free 3D Scene Reconstruction with Frozen Depth Models [67.96827539201071]
本稿では,3次元シーン再構成のための新しいテスト時間最適化手法を提案する。
本手法は5つのゼロショットテストデータセット上で,最先端のクロスデータセット再構築を実現する。
論文 参考訳(メタデータ) (2023-08-10T17:55:02Z) - Zolly: Zoom Focal Length Correctly for Perspective-Distorted Human Mesh
Reconstruction [66.10717041384625]
Zollyは、視点歪みの画像に焦点を当てた最初の3DHMR法である。
人体の2次元密度ゆらぎスケールを記述した新しいカメラモデルと新しい2次元歪み画像を提案する。
このタスク用に調整された2つの現実世界のデータセットを拡張します。
論文 参考訳(メタデータ) (2023-03-24T04:22:41Z) - Monocular 3D Object Detection with Depth from Motion [74.29588921594853]
我々は、正確な物体深度推定と検出にカメラエゴモーションを利用する。
我々のフレームワークはDfM(Depth from Motion)と呼ばれ、2D画像の特徴を3D空間に持ち上げて3Dオブジェクトを検出する。
我々のフレームワークは、KITTIベンチマークにおいて最先端の手法よりも大きなマージンで優れている。
論文 参考訳(メタデータ) (2022-07-26T15:48:46Z) - PONet: Robust 3D Human Pose Estimation via Learning Orientations Only [116.1502793612437]
本稿では,学習向きのみを用いて3次元ポーズを頑健に推定できる新しいPose Orientation Net(PONet)を提案する。
PONetは、局所的な画像証拠を利用して、これらの手足の3D方向を推定し、3Dポーズを復元する。
我々は,Human3.6M,MPII,MPI-INF-3DHP,3DPWを含む複数のデータセットについて評価を行った。
論文 参考訳(メタデータ) (2021-12-21T12:48:48Z) - Probabilistic Monocular 3D Human Pose Estimation with Normalizing Flows [24.0966076588569]
本稿では,不明瞭な逆2D-to-3D問題を解くために,決定論的3D-to-2Dマッピングを利用する正規化フローベース手法を提案する。
我々は、Human3.6MとMPI-INF-3DHPの2つのベンチマークデータセットに対するアプローチを評価し、ほとんどの指標において同等の手法を上回りました。
論文 参考訳(メタデータ) (2021-07-29T07:33:14Z) - Learning to Recover 3D Scene Shape from a Single Image [98.20106822614392]
まず,未知のスケールまで深さを予測し,単一の単眼画像からシフトする2段階フレームワークを提案する。
そして、3dポイントクラウドエンコーダを使って深度シフトと焦点距離を予測し、リアルな3dシーンの形状を復元します。
論文 参考訳(メタデータ) (2020-12-17T02:35:13Z) - Residual Pose: A Decoupled Approach for Depth-based 3D Human Pose
Estimation [18.103595280706593]
我々は,CNNによる信頼度の高い2次元ポーズ推定の最近の進歩を活用し,深度画像から人物の3次元ポーズを推定する。
提案手法は2つの公開データセットの精度と速度の両面で非常に競争力のある結果が得られる。
論文 参考訳(メタデータ) (2020-11-10T10:08:13Z) - Synthetic Training for Monocular Human Mesh Recovery [100.38109761268639]
本稿では,RGB画像と大規模に異なる複数の身体部位の3次元メッシュを推定することを目的とする。
主な課題は、2D画像のすべての身体部分の3Dアノテーションを完備するトレーニングデータがないことである。
本稿では,D2S(Deep-to-scale)投影法を提案する。
論文 参考訳(メタデータ) (2020-10-27T03:31:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。