論文の概要: Putting People in their Place: Monocular Regression of 3D People in
Depth
- arxiv url: http://arxiv.org/abs/2112.08274v1
- Date: Wed, 15 Dec 2021 17:08:17 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-16 14:35:37.848298
- Title: Putting People in their Place: Monocular Regression of 3D People in
Depth
- Title(参考訳): 人をその場所に置く:奥深くの3D人物の単眼的回帰
- Authors: Yu Sun, Wu Liu, Qian Bao, Yili Fu, Tao Mei, Michael J. Black
- Abstract要約: 複数の人のイメージが与えられた場合、私たちのゴールは、すべての人々のポーズと形を、相対的な深さだけでなく、直接的に遅らせることです。
本研究では,複数の人物のポーズと深さを1つの画像で推定する新しい手法を開発した。
私たちは、BEVが幼児から大人まで形状を推測できる3Dボディモデルスペースを活用しています。
- 参考スコア(独自算出の注目度): 93.70564469697095
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Given an image with multiple people, our goal is to directly regress the pose
and shape of all the people as well as their relative depth. Inferring the
depth of a person in an image, however, is fundamentally ambiguous without
knowing their height. This is particularly problematic when the scene contains
people of very different sizes, e.g. from infants to adults. To solve this, we
need several things. First, we develop a novel method to infer the poses and
depth of multiple people in a single image. While previous work that estimates
multiple people does so by reasoning in the image plane, our method, called
BEV, adds an additional imaginary Bird's-Eye-View representation to explicitly
reason about depth. BEV reasons simultaneously about body centers in the image
and in depth and, by combing these, estimates 3D body position. Unlike prior
work, BEV is a single-shot method that is end-to-end differentiable. Second,
height varies with age, making it impossible to resolve depth without also
estimating the age of people in the image. To do so, we exploit a 3D body model
space that lets BEV infer shapes from infants to adults. Third, to train BEV,
we need a new dataset. Specifically, we create a "Relative Human" (RH) dataset
that includes age labels and relative depth relationships between the people in
the images. Extensive experiments on RH and AGORA demonstrate the effectiveness
of the model and training scheme. BEV outperforms existing methods on depth
reasoning, child shape estimation, and robustness to occlusion. The code and
dataset will be released for research purposes.
- Abstract(参考訳): 複数の人のイメージが与えられた場合、私たちの目標は、すべての人々のポーズと形、そしてその相対的な深さを直接後退させることです。
しかし、画像中の人物の深さを推定することは、身長を知らずに基本的に曖昧である。
これは、幼児から大人まで、非常に異なるサイズの人々を含む場面において特に問題となる。
これを解決するには、いくつかのことが必要です。
まず,複数の人物のポーズと深さを1つの画像で推定する新しい手法を開発した。
複数の人物を推定する以前の作業は、画像平面を推論することでそうするが、bevと呼ばれるこの手法は、深度を明示的に推論するために、想像上の鳥の視点表現を追加する。
BEVは画像中の体の中心と深度を同時に考慮し、それらを組み合わせることで3Dの体の位置を推定する。
以前の作業とは異なり、bevはエンドツーエンドで微分可能なシングルショットメソッドである。
第二に、身長は年齢によって異なり、画像中の人物の年齢を推定することなく深度を解明することは不可能である。
そのために、BEVが幼児から大人まで形状を推測できる3Dボディモデル空間を利用する。
第3に,BEVのトレーニングには,新たなデータセットが必要です。
具体的には、年齢ラベルと画像内の人々間の相対的な深さ関係を含む「相対的人間」(Relative Human)データセットを作成する。
RHとAGORAに関する大規模な実験は、モデルとトレーニングスキームの有効性を示した。
BEVは、深度推論、子供の形状推定、閉塞に対する堅牢性において、既存の手法よりも優れている。
コードとデータセットは研究目的でリリースされる予定だ。
関連論文リスト
- Zolly: Zoom Focal Length Correctly for Perspective-Distorted Human Mesh
Reconstruction [66.10717041384625]
Zollyは、視点歪みの画像に焦点を当てた最初の3DHMR法である。
人体の2次元密度ゆらぎスケールを記述した新しいカメラモデルと新しい2次元歪み画像を提案する。
このタスク用に調整された2つの現実世界のデータセットを拡張します。
論文 参考訳(メタデータ) (2023-03-24T04:22:41Z) - Learning to Estimate 3D Human Pose from Point Cloud [13.27496851711973]
本稿では,複雑な人体構造物の表面をモデル化するための入力データとして,点雲データを用いた3次元ポーズ推定のための深層人体ポーズネットワークを提案する。
2つの公開データセットに対する実験により,従来の最先端手法よりも精度が高いことを示す。
論文 参考訳(メタデータ) (2022-12-25T14:22:01Z) - Scene-aware Egocentric 3D Human Pose Estimation [72.57527706631964]
頭部に1台の魚眼カメラを装着したエゴセントリックな3Dポーズ推定は、仮想現実や拡張現実における多くの応用により、近年注目を集めている。
既存の方法はまだ、人間の体が非常に隠蔽されている、あるいはシーンと密接な相互作用がある、挑戦的なポーズに苦慮している。
本研究では,シーン制約による自己中心型ポーズの予測を導くシーン認識型自己中心型ポーズ推定手法を提案する。
論文 参考訳(メタデータ) (2022-12-20T21:35:39Z) - Towards Accurate Reconstruction of 3D Scene Shape from A Single
Monocular Image [91.71077190961688]
まず、未知のスケールまで深さを予測し、単一の単眼画像からシフトする2段階のフレームワークを提案する。
次に、3Dポイントの雲のデータを利用して、奥行きの変化とカメラの焦点距離を予測し、3Dシーンの形状を復元します。
我々は9つの未知のデータセットで深度モデルを検証し、ゼロショット評価で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-08-28T16:20:14Z) - Dual networks based 3D Multi-Person Pose Estimation from Monocular Video [42.01876518017639]
複数人の3Dポーズ推定はシングルポーズ推定よりも難しい。
既存のトップダウンとボトムアップのアプローチでは、推定が検出エラーに悩まされる。
我々は,トップダウンアプローチとボトムアップアプローチを統合して,その強みを活用することを提案する。
論文 参考訳(メタデータ) (2022-05-02T08:53:38Z) - Body Size and Depth Disambiguation in Multi-Person Reconstruction from
Single Images [44.96633481495911]
複数人物の身体ポーズと1枚の画像からの形状推定の問題に対処する。
我々は,すべての人の足が1階に残るように強制することで,適切な身体規模と相対カメラのポーズを学習する新しい最適化手法を考案した。
MuPoTS-3D と 3DPW データセットの徹底的な評価により,本手法は空間配置を検索しながら,複数の人物の身体翻訳と形状を確実に推定できることが示されている。
論文 参考訳(メタデータ) (2021-11-02T20:42:41Z) - Learning Realistic Human Reposing using Cyclic Self-Supervision with 3D
Shape, Pose, and Appearance Consistency [55.94908688207493]
画像品質のギャップを教師付き手法で埋める自己教師型フレームワークSPICEを提案する。
自己超越を可能にする重要な洞察は、様々な方法で人体に関する3D情報を活用することである。
SPICEはDeepFashionデータセット上で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2021-10-11T17:48:50Z) - AGORA: Avatars in Geography Optimized for Regression Analysis [35.22486186509372]
AGORAは、高いリアリズムと高精度な地上真実を持つ合成データセットである。
SMPL-Xのボディモデル(顔と手)を3Dスキャンに合わせることで、参照3Dポーズと体形を作成する。
このデータセットを用いて既存の3次元ポーズ推定手法の評価を行い、ほとんどの手法が子供の画像に悪影響を及ぼすことを見出した。
論文 参考訳(メタデータ) (2021-04-29T20:33:25Z) - Coherent Reconstruction of Multiple Humans from a Single Image [68.3319089392548]
本研究では,1枚の画像から多人数の3Dポーズ推定を行う問題に対処する。
この問題のトップダウン設定における典型的な回帰アプローチは、まずすべての人間を検出し、それぞれを独立して再構築する。
我々のゴールは、これらの問題を回避し、現場のすべての人間のコヒーレントな3D再構成を生成するために学習する単一のネットワークをトレーニングすることである。
論文 参考訳(メタデータ) (2020-06-15T17:51:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。