論文の概要: One-Stage 3D Whole-Body Mesh Recovery with Component Aware Transformer
- arxiv url: http://arxiv.org/abs/2303.16160v1
- Date: Tue, 28 Mar 2023 17:24:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-29 14:15:04.040848
- Title: One-Stage 3D Whole-Body Mesh Recovery with Component Aware Transformer
- Title(参考訳): コンポーネント認識トランスフォーマによる1段3次元メッシュリカバリ
- Authors: Jing Lin, Ailing Zeng, Haoqian Wang, Lei Zhang, Yu Li
- Abstract要約: 全体メッシュリカバリは、単一の画像から3次元の人体、顔、手のパラメータを推定することを目的としている。
既存の作業は通常、手と顔を検出し、解像度を拡大して特定のネットワークに供給し、パラメータを予測する。
我々は,各部分のネットワークを分離することなく,OSXという表現力のある全体メッシュリカバリのためのワンステージパイプラインを提案する。
- 参考スコア(独自算出の注目度): 26.71851957060985
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Whole-body mesh recovery aims to estimate the 3D human body, face, and hands
parameters from a single image. It is challenging to perform this task with a
single network due to resolution issues, i.e., the face and hands are usually
located in extremely small regions. Existing works usually detect hands and
faces, enlarge their resolution to feed in a specific network to predict the
parameter, and finally fuse the results. While this copy-paste pipeline can
capture the fine-grained details of the face and hands, the connections between
different parts cannot be easily recovered in late fusion, leading to
implausible 3D rotation and unnatural pose. In this work, we propose a
one-stage pipeline for expressive whole-body mesh recovery, named OSX, without
separate networks for each part. Specifically, we design a Component Aware
Transformer (CAT) composed of a global body encoder and a local face/hand
decoder. The encoder predicts the body parameters and provides a high-quality
feature map for the decoder, which performs a feature-level upsample-crop
scheme to extract high-resolution part-specific features and adopt
keypoint-guided deformable attention to estimate hand and face precisely. The
whole pipeline is simple yet effective without any manual post-processing and
naturally avoids implausible prediction. Comprehensive experiments demonstrate
the effectiveness of OSX. Lastly, we build a large-scale Upper-Body dataset
(UBody) with high-quality 2D and 3D whole-body annotations. It contains persons
with partially visible bodies in diverse real-life scenarios to bridge the gap
between the basic task and downstream applications.
- Abstract(参考訳): 全身メッシュリカバリは、人体、顔、手のパラメータを1つの画像から推定することを目的としている。
解決の問題、すなわち、顔と手は、通常、非常に小さな領域に置かれているため、単一のネットワークでこのタスクを実行するのは困難である。
既存の作業は通常、手と顔を検出し、解像度を拡大して特定のネットワークに供給し、パラメータを予測する。
このコピーペーストパイプラインは、顔と手の細かな詳細を捉えることができるが、後期融合では異なる部品間の接続が容易には回復できず、目立たない3d回転と不自然なポーズに繋がる。
そこで本研究では,各部分のネットワークを分離することなく,OSXという表現力のある全体メッシュリカバリを実現する一段階パイプラインを提案する。
具体的には、グローバルボディエンコーダとローカルフェイス/ハンドデコーダからなるコンポーネント意識変換器(CAT)を設計する。
エンコーダは、身体パラメータを予測し、特徴レベルアップサンプルクロップスキームを実行し、高分解能部分特徴を抽出し、キーポイント誘導変形可能な注意を推定手と顔に正確に適用する、デコーダの高品質な特徴マップを提供する。
パイプライン全体は単純だが,手作業による後処理が不要である。
総合的な実験はOSXの有効性を示す。
最後に,高品質な2Dおよび3D全身アノテーションを備えた大規模アッパーボディデータセット(UBody)を構築した。
基本的なタスクと下流アプリケーションの間のギャップを埋めるために、さまざまな現実のシナリオで部分的に見えるボディを持つ人が含まれています。
関連論文リスト
- CondiMen: Conditional Multi-Person Mesh Recovery [0.0]
本研究ではコンディメン(CondiMen)を提案する。コンディメン(CondiMen)は、カメラへのポーズ、体形、内在性、距離に関する共同パラメトリック分布を出力する手法である。
私たちのモデルは、最先端技術と同等以上のパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2024-12-17T16:22:56Z) - Multi-HMR: Multi-Person Whole-Body Human Mesh Recovery in a Single Shot [22.848563931757962]
単一のRGB画像から多人数で3Dメッシュを回収するための強力なシグルショットモデルであるMulti-HMRを提案する。
SMPL-Xパラメトリックモデルを用いて、手や表情を含む全身を予測する。
トレーニングデータに組み込むことで,特に手に対する予測がさらに向上することを示す。
論文 参考訳(メタデータ) (2024-02-22T16:05:13Z) - Vision Transformer for NeRF-Based View Synthesis from a Single Input
Image [49.956005709863355]
本稿では,グローバルな特徴と局所的な特徴を両立させ,表現力のある3D表現を実現することを提案する。
新たなビューを合成するために,学習した3次元表現に条件付き多層パーセプトロン(MLP)ネットワークを訓練し,ボリュームレンダリングを行う。
提案手法は,1つの入力画像のみから新しいビューを描画し,複数のオブジェクトカテゴリを1つのモデルで一般化することができる。
論文 参考訳(メタデータ) (2022-07-12T17:52:04Z) - End-to-end Weakly-supervised Single-stage Multiple 3D Hand Mesh
Reconstruction from a Single RGB Image [9.238322841389994]
複数手再構成のための単一段パイプラインを提案する。
具体的には,複数ヘッドのオートエンコーダ構造を設計し,各ヘッドネットワークが同じ特徴マップを共有し,ハンドセンター,ポーズ,テクスチャを出力する。
本手法は,弱教師付き手法と完全教師付き手法の両方において,最先端のモデルベース手法よりも優れる。
論文 参考訳(メタデータ) (2022-04-18T03:57:14Z) - Weakly-Supervised Multi-Face 3D Reconstruction [45.864415499303405]
多面的3D再構築のための効果的なエンドツーエンドフレームワークを提案する。
各画像の再構成された顔に対して、同じグローバルカメラモデルを採用し、3dシーンにおける相対的な頭部位置と向きを復元することができる。
論文 参考訳(メタデータ) (2021-01-06T13:15:21Z) - Synthetic Training for Monocular Human Mesh Recovery [100.38109761268639]
本稿では,RGB画像と大規模に異なる複数の身体部位の3次元メッシュを推定することを目的とする。
主な課題は、2D画像のすべての身体部分の3Dアノテーションを完備するトレーニングデータがないことである。
本稿では,D2S(Deep-to-scale)投影法を提案する。
論文 参考訳(メタデータ) (2020-10-27T03:31:35Z) - Monocular, One-stage, Regression of Multiple 3D People [105.3143785498094]
我々は、複数の3D人物(ROMP)のための1段階方式で全てのメッシュを回帰することを提案する。
本手法は,体温マップとメッシュマップを同時に予測し,画素レベルの3Dボディメッシュを共同で記述する。
最先端の手法と比較して、ROMPは挑戦的なマルチパーソンベンチマークよりも優れた性能を示した。
論文 参考訳(メタデータ) (2020-08-27T17:21:47Z) - DOPE: Distillation Of Part Experts for whole-body 3D pose estimation in
the wild [13.326154235579954]
そこで本研究では,体,手,顔を含む身体全体の3Dポーズを野生で検出し,推定する最初の方法であるDOPEを紹介した。
DOPEは専門家のアンサンブルよりも計算量が少なく、リアルタイムのパフォーマンスを実現することができる。
論文 参考訳(メタデータ) (2020-08-21T12:54:26Z) - Combining Implicit Function Learning and Parametric Models for 3D Human
Reconstruction [123.62341095156611]
深層学習近似として表される暗黙の関数は、3次元曲面の再構成に強力である。
このような機能は、コンピュータグラフィックスとコンピュータビジョンの両方に柔軟なモデルを構築するのに不可欠である。
詳細に富んだ暗黙関数とパラメトリック表現を組み合わせた方法論を提案する。
論文 参考訳(メタデータ) (2020-07-22T13:46:14Z) - Coherent Reconstruction of Multiple Humans from a Single Image [68.3319089392548]
本研究では,1枚の画像から多人数の3Dポーズ推定を行う問題に対処する。
この問題のトップダウン設定における典型的な回帰アプローチは、まずすべての人間を検出し、それぞれを独立して再構築する。
我々のゴールは、これらの問題を回避し、現場のすべての人間のコヒーレントな3D再構成を生成するために学習する単一のネットワークをトレーニングすることである。
論文 参考訳(メタデータ) (2020-06-15T17:51:45Z) - AutoSweep: Recovering 3D Editable Objectsfrom a Single Photograph [54.701098964773756]
セマンティックな部分で3Dオブジェクトを復元し、直接編集することを目的としている。
我々の研究は、一般化された立方体と一般化されたシリンダーという、2種類の原始的な形状の物体を回収する試みである。
提案アルゴリズムは,高品質な3Dモデルを復元し,既存手法のインスタンスセグメンテーションと3D再構成の両方で性能を向上する。
論文 参考訳(メタデータ) (2020-05-27T12:16:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。