論文の概要: Zolly: Zoom Focal Length Correctly for Perspective-Distorted Human Mesh
Reconstruction
- arxiv url: http://arxiv.org/abs/2303.13796v3
- Date: Thu, 24 Aug 2023 16:18:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-25 18:11:50.314978
- Title: Zolly: Zoom Focal Length Correctly for Perspective-Distorted Human Mesh
Reconstruction
- Title(参考訳): Zolly:人間のメッシュ再建のためのズーム焦点長の補正
- Authors: Wenjia Wang, Yongtao Ge, Haiyi Mei, Zhongang Cai, Qingping Sun, Yanjun
Wang, Chunhua Shen, Lei Yang, Taku Komura
- Abstract要約: Zollyは、視点歪みの画像に焦点を当てた最初の3DHMR法である。
人体の2次元密度ゆらぎスケールを記述した新しいカメラモデルと新しい2次元歪み画像を提案する。
このタスク用に調整された2つの現実世界のデータセットを拡張します。
- 参考スコア(独自算出の注目度): 66.10717041384625
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As it is hard to calibrate single-view RGB images in the wild, existing 3D
human mesh reconstruction (3DHMR) methods either use a constant large focal
length or estimate one based on the background environment context, which can
not tackle the problem of the torso, limb, hand or face distortion caused by
perspective camera projection when the camera is close to the human body. The
naive focal length assumptions can harm this task with the incorrectly
formulated projection matrices. To solve this, we propose Zolly, the first
3DHMR method focusing on perspective-distorted images. Our approach begins with
analysing the reason for perspective distortion, which we find is mainly caused
by the relative location of the human body to the camera center. We propose a
new camera model and a novel 2D representation, termed distortion image, which
describes the 2D dense distortion scale of the human body. We then estimate the
distance from distortion scale features rather than environment context
features. Afterwards, we integrate the distortion feature with image features
to reconstruct the body mesh. To formulate the correct projection matrix and
locate the human body position, we simultaneously use perspective and
weak-perspective projection loss. Since existing datasets could not handle this
task, we propose the first synthetic dataset PDHuman and extend two real-world
datasets tailored for this task, all containing perspective-distorted human
images. Extensive experiments show that Zolly outperforms existing
state-of-the-art methods on both perspective-distorted datasets and the
standard benchmark (3DPW).
- Abstract(参考訳): 野生での単視RGB画像のキャリブレーションが難しいため、既存の3次元メッシュ再構成(3DHMR)手法では、焦点距離が一定であり、背景環境の文脈に基づいて推定することは困難であり、カメラが人体に近づいたときの視界カメラ投影による胴体、手、顔の歪みの問題に対処できない。
単純焦点距離の仮定は、不正確な定式化された射影行列でこの課題を害することができる。
そこで本稿では,遠近像に着目した最初の3dhmr法であるzollyを提案する。
私たちのアプローチは、主に人体のカメラセンターへの相対的な位置によって引き起こされる遠近的歪みの理由を分析することから始まります。
本研究では,人体の2次元密歪スケールを記述する新しいカメラモデルと,新しい2次元表現である歪み画像を提案する。
次に,環境文脈特徴よりも歪みスケール特徴から距離を推定する。
その後、歪み特徴と画像特徴を統合し、ボディメッシュを再構築する。
正しい投影行列を定式化し、人体の位置を特定するために、遠近法と弱視投影損失を同時に利用する。
既存のデータセットは、このタスクを処理できないため、最初の合成データセットPDHumanを提案し、このタスクに適した2つの実世界のデータセットを拡張する。
広範な実験により、zollyはパースペクティブディストリクトデータセットと標準ベンチマーク(3dpw)の両方において、既存の最先端のメソッドよりも優れていることが示されている。
関連論文リスト
- Parametric Depth Based Feature Representation Learning for Object
Detection and Segmentation in Bird's Eye View [44.78243406441798]
本稿では,このような特徴変換をモデル化するために,深度などの幾何学的情報を活用することに焦点を当てる。
まず2次元画像の特徴を,各ビューの画素ごとのパラメトリック深度分布を予測して,エゴ車に定義された3次元空間に引き上げる。
次に、深度からBEVフレームへの3次元空間占有度に基づいて、3次元特徴体積を集約する。
論文 参考訳(メタデータ) (2023-07-09T06:07:22Z) - Tame a Wild Camera: In-the-Wild Monocular Camera Calibration [12.55056916519563]
以前のモノクロカメラのキャリブレーション法は、特定の3Dオブジェクトやそれ以前の強力な幾何学に依存していた。
提案手法は仮定フリーであり,Def(Degree-of-Freedom)固有のパラメータを4ドル(約4,400円)で校正する。
画像操作検出と復元,2次元ポーズ推定,3次元センシングにおける下流の応用を実証する。
論文 参考訳(メタデータ) (2023-06-19T14:55:26Z) - Towards Hard-pose Virtual Try-on via 3D-aware Global Correspondence
Learning [70.75369367311897]
3D対応のグローバルな対応は、グローバルな意味的相関、局所的な変形、および3D人体の幾何学的先行を共同でエンコードする信頼性のあるフローである。
対向ジェネレータは、3D認識フローによって歪んだ衣服と、対象者の画像とを入力として、フォトリアリスティックな試着結果を合成する。
論文 参考訳(メタデータ) (2022-11-25T12:16:21Z) - Learning to Recover 3D Scene Shape from a Single Image [98.20106822614392]
まず,未知のスケールまで深さを予測し,単一の単眼画像からシフトする2段階フレームワークを提案する。
そして、3dポイントクラウドエンコーダを使って深度シフトと焦点距離を予測し、リアルな3dシーンの形状を復元します。
論文 参考訳(メタデータ) (2020-12-17T02:35:13Z) - SelfPose: 3D Egocentric Pose Estimation from a Headset Mounted Camera [97.0162841635425]
頭部装着型VR装置の縁に設置した下向きの魚眼カメラから撮影した単眼画像から,エゴセントリックな3Dボディポーズ推定法を提案する。
この特異な視点は、厳密な自己閉塞と視点歪みを伴う、独特の視覚的な外観のイメージに繋がる。
本稿では,2次元予測の不確実性を考慮した新しいマルチブランチデコーダを用いたエンコーダデコーダアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-11-02T16:18:06Z) - Synthetic Training for Monocular Human Mesh Recovery [100.38109761268639]
本稿では,RGB画像と大規模に異なる複数の身体部位の3次元メッシュを推定することを目的とする。
主な課題は、2D画像のすべての身体部分の3Dアノテーションを完備するトレーニングデータがないことである。
本稿では,D2S(Deep-to-scale)投影法を提案する。
論文 参考訳(メタデータ) (2020-10-27T03:31:35Z) - Beyond Weak Perspective for Monocular 3D Human Pose Estimation [6.883305568568084]
単眼映像からの3次元関節位置と方向予測の課題を考察する。
まず,市販のポーズ推定アルゴリズムを用いて2次元関節位置を推定する。
次に、初期パラメータを受信するSMPLifyアルゴリズムに準拠する。
論文 参考訳(メタデータ) (2020-09-14T16:23:14Z) - Coherent Reconstruction of Multiple Humans from a Single Image [68.3319089392548]
本研究では,1枚の画像から多人数の3Dポーズ推定を行う問題に対処する。
この問題のトップダウン設定における典型的な回帰アプローチは、まずすべての人間を検出し、それぞれを独立して再構築する。
我々のゴールは、これらの問題を回避し、現場のすべての人間のコヒーレントな3D再構成を生成するために学習する単一のネットワークをトレーニングすることである。
論文 参考訳(メタデータ) (2020-06-15T17:51:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。