論文の概要: Human Mesh Recovery from Arbitrary Multi-view Images
- arxiv url: http://arxiv.org/abs/2403.12434v3
- Date: Sun, 7 Apr 2024 07:37:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-10 00:37:15.806063
- Title: Human Mesh Recovery from Arbitrary Multi-view Images
- Title(参考訳): 任意多視点画像からの人間のメッシュ復元
- Authors: Xiaoben Li, Mancheng Meng, Ziyan Wu, Terrence Chen, Fan Yang, Dinggang Shen,
- Abstract要約: 任意の多視点画像からU-HMR(Unified Human Mesh Recovery)を分離・征服する枠組みを提案する。
特にU-HMRは、分離された構造と、カメラとボディーデカップリング(CBD)、カメラポーズ推定(CPE)、任意のビューフュージョン(AVF)の2つの主要コンポーネントから構成されている。
我々は、Human3.6M、MPI-INF-3DHP、TotalCaptureの3つの公開データセットについて広範な実験を行った。
- 参考スコア(独自算出の注目度): 57.969696744428475
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Human mesh recovery from arbitrary multi-view images involves two characteristics: the arbitrary camera poses and arbitrary number of camera views. Because of the variability, designing a unified framework to tackle this task is challenging. The challenges can be summarized as the dilemma of being able to simultaneously estimate arbitrary camera poses and recover human mesh from arbitrary multi-view images while maintaining flexibility. To solve this dilemma, we propose a divide and conquer framework for Unified Human Mesh Recovery (U-HMR) from arbitrary multi-view images. In particular, U-HMR consists of a decoupled structure and two main components: camera and body decoupling (CBD), camera pose estimation (CPE), and arbitrary view fusion (AVF). As camera poses and human body mesh are independent of each other, CBD splits the estimation of them into two sub-tasks for two individual sub-networks (ie, CPE and AVF) to handle respectively, thus the two sub-tasks are disentangled. In CPE, since each camera pose is unrelated to the others, we adopt a shared MLP to process all views in a parallel way. In AVF, in order to fuse multi-view information and make the fusion operation independent of the number of views, we introduce a transformer decoder with a SMPL parameters query token to extract cross-view features for mesh recovery. To demonstrate the efficacy and flexibility of the proposed framework and effect of each component, we conduct extensive experiments on three public datasets: Human3.6M, MPI-INF-3DHP, and TotalCapture.
- Abstract(参考訳): 任意のマルチビュー画像からのヒューマンメッシュリカバリには、任意のカメラポーズと、任意の数のカメラビューの2つの特徴がある。
可変性のため、このタスクに取り組むために統一されたフレームワークを設計することは困難である。
この課題は、フレキシビリティを維持しつつ、任意のカメラのポーズを同時に推定し、任意のマルチビューイメージから人間のメッシュを復元できるというジレンマとして要約できる。
このジレンマを解決するために、任意の多視点画像から統一人間メッシュ回復(U-HMR)を分離・征服するフレームワークを提案する。
特にU-HMRは、分離された構造と、カメラとボディーデカップリング(CBD)、カメラポーズ推定(CPE)、任意のビュー融合(AVF)の2つの主要コンポーネントから構成される。
カメラのポーズと人体メッシュが互いに独立しているため、CBDはそれらを2つのサブタスクに分割し、2つのサブネットワーク(ie, CPE, AVF)でそれぞれ処理する。
CPEでは、各カメラのポーズは他のカメラと無関係であるため、すべてのビューを並列に処理するために共有MLPを採用する。
AVFでは、マルチビュー情報を融合して融合操作をビュー数に依存しないものにするため、SMPLパラメータクエリトークンを用いたトランスフォーマーデコーダを導入し、メッシュリカバリのためのクロスビュー機能を抽出する。
提案するフレームワークの有効性と各コンポーネントの効果を実証するため,Human3.6M,MPI-INF-3DHP,TotalCaptureの3つの公開データセットに対して広範な実験を行った。
関連論文リスト
- One Diffusion to Generate Them All [54.82732533013014]
OneDiffusionは双方向画像合成と理解をサポートする汎用的で大規模な拡散モデルである。
テキスト、深さ、ポーズ、レイアウト、セマンティックマップなどの入力から条件生成を可能にする。
OneDiffusionは、シーケンシャルな画像入力を使用して、マルチビュー生成、カメラポーズ推定、即時パーソナライズを可能にする。
論文 参考訳(メタデータ) (2024-11-25T12:11:05Z) - Self-learning Canonical Space for Multi-view 3D Human Pose Estimation [57.969696744428475]
マルチビュー3次元人間のポーズ推定は、自然に単一ビューのポーズ推定よりも優れている。
これらの情報の正確な注釈を得るのは難しい。
完全自己管理型多視点アグリゲーションネットワーク(CMANet)を提案する。
CMANetは、大規模で質的な分析において最先端の手法よりも優れている。
論文 参考訳(メタデータ) (2024-03-19T04:54:59Z) - MUC: Mixture of Uncalibrated Cameras for Robust 3D Human Body Reconstruction [12.942635715952525]
複数のカメラは、人物の包括的なマルチビュービデオカバレッジを提供することができる。
以前の研究では、複数の視点の下で自己排除によって生じる課題を見落としていた。
複数のカメラビューから3次元人体を再構築する手法を提案する。
論文 参考訳(メタデータ) (2024-03-08T05:03:25Z) - Multi-HMR: Multi-Person Whole-Body Human Mesh Recovery in a Single Shot [22.848563931757962]
単一のRGB画像から多人数で3Dメッシュを回収するための強力なシグルショットモデルであるMulti-HMRを提案する。
SMPL-Xパラメトリックモデルを用いて、手や表情を含む全身を予測する。
トレーニングデータに組み込むことで,特に手に対する予測がさらに向上することを示す。
論文 参考訳(メタデータ) (2024-02-22T16:05:13Z) - Direct Multi-view Multi-person 3D Pose Estimation [138.48139701871213]
マルチビュー画像からマルチパーソン3Dポーズを推定するためのMulti-view Pose Transformer(MvP)を提案する。
MvPは、中間タスクに頼ることなく、複数の人物の3Dポーズを直接クリーンで効率的な方法で回帰する。
我々は,MvPモデルがより効率的でありながら,いくつかのベンチマークにおいて最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-11-07T13:09:20Z) - Multi-View Multi-Person 3D Pose Estimation with Plane Sweep Stereo [71.59494156155309]
既存のマルチビュー3Dポーズ推定手法は、複数のカメラビューからグループ2Dポーズ検出に対するクロスビュー対応を明確に確立する。
平面スイープステレオに基づくマルチビュー3Dポーズ推定手法を提案し、クロスビュー融合と3Dポーズ再構築を1ショットで共同で解決します。
論文 参考訳(メタデータ) (2021-04-06T03:49:35Z) - AdaFuse: Adaptive Multiview Fusion for Accurate Human Pose Estimation in
the Wild [77.43884383743872]
本稿では,アダプティブなマルチビュー融合手法であるAdaFuseについて述べる。
我々は、Human3.6M、Total Capture、CMU Panopticの3つの公開データセットに対するアプローチを広く評価した。
また,大規模合成データセットOcclusion-Personを作成し,咬合関節の数値評価を行う。
論文 参考訳(メタデータ) (2020-10-26T03:19:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。