論文の概要: MEGA: Masked Generative Autoencoder for Human Mesh Recovery
- arxiv url: http://arxiv.org/abs/2405.18839v2
- Date: Fri, 31 May 2024 14:03:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-03 18:54:00.302108
- Title: MEGA: Masked Generative Autoencoder for Human Mesh Recovery
- Title(参考訳): MEGA:人間のメッシュ回復のためのマスケ生成オートエンコーダ
- Authors: Guénolé Fiche, Simon Leglaive, Xavier Alameda-Pineda, Francesc Moreno-Noguer,
- Abstract要約: 単一のRGB画像からのHuman Mesh Recovery(HMR)は非常に曖昧な問題である。
ほとんどのHMR法はこの曖昧さを無視し、関連する不確実性を考慮せずに単一の予測を行う。
我々は、画像と部分的な人間のメッシュシーケンスから人間のメッシュを復元するために訓練されたMaskEd生成自動エンコーダMEGAを紹介する。
- 参考スコア(独自算出の注目度): 33.26995842920877
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human Mesh Recovery (HMR) from a single RGB image is a highly ambiguous problem, as similar 2D projections can correspond to multiple 3D interpretations. Nevertheless, most HMR methods overlook this ambiguity and make a single prediction without accounting for the associated uncertainty. A few approaches generate a distribution of human meshes, enabling the sampling of multiple predictions; however, none of them is competitive with the latest single-output model when making a single prediction. This work proposes a new approach based on masked generative modeling. By tokenizing the human pose and shape, we formulate the HMR task as generating a sequence of discrete tokens conditioned on an input image. We introduce MEGA, a MaskEd Generative Autoencoder trained to recover human meshes from images and partial human mesh token sequences. Given an image, our flexible generation scheme allows us to predict a single human mesh in deterministic mode or to generate multiple human meshes in stochastic mode. MEGA enables us to propose multiple outputs and to evaluate the uncertainty of the predictions. Experiments on in-the-wild benchmarks show that MEGA achieves state-of-the-art performance in deterministic and stochastic modes, outperforming single-output and multi-output approaches.
- Abstract(参考訳): 単一のRGB画像からのHuman Mesh Recovery(HMR)は、類似した2D投影が複数の3D解釈に対応できるため、非常に曖昧な問題である。
しかしながら、ほとんどのHMR法はこの曖昧さを無視し、関連する不確実性を考慮せずに単一の予測を行う。
いくつかのアプローチは、人間のメッシュの分布を生成し、複数の予測のサンプリングを可能にするが、それらのうちの1つの予測を行う際に、最新の単一出力モデルと競合するものは存在しない。
本研究は,マスク生成モデルに基づく新しい手法を提案する。
人間のポーズと形状をトークン化することにより、HMRタスクを入力画像に条件付けられた離散トークンのシーケンスを生成するものとして定式化する。
画像と部分的ヒューマンメッシュトークンシーケンスから人間のメッシュを復元するために訓練された MaskEd Generative Autoencoder であるMEGA を紹介する。
画像が与えられた場合、フレキシブルな生成方式により、決定論的モードで1つの人間のメッシュを予測したり、確率論的モードで複数の人間のメッシュを生成できる。
MEGAにより、複数の出力を提案し、予測の不確実性を評価することができる。
In-the-wildベンチマークの実験により、MEGAは決定論的および確率的モードにおける最先端のパフォーマンスを達成し、単一出力および複数出力のアプローチより優れていることが示された。
関連論文リスト
- OFER: Occluded Face Expression Reconstruction [16.06622406877353]
OFERは,多彩で表現力に富んだ3次元顔を生成することのできる,単一画像の3次元顔再構成のための新しいアプローチである。
本稿では,予測された形状精度スコアに基づいて形状拡散ネットワークの出力をソートし,最適マッチングを選択する新しいランキング機構を提案する。
論文 参考訳(メタデータ) (2024-10-29T00:21:26Z) - Generalizable Human Gaussians from Single-View Image [52.100234836129786]
単視点一般化可能なHuman Gaussian Model(HGM)を導入する。
提案手法では, 粗い予測されたヒトガウスの背景画像を改良するために, ControlNet を用いる。
非現実的な人間のポーズや形状の潜在的な発生を緩和するために、SMPL-Xモデルからの人間の先行を二重分岐として組み込む。
論文 参考訳(メタデータ) (2024-06-10T06:38:11Z) - Score-Guided Diffusion for 3D Human Recovery [10.562998991986102]
Score-Guided Human Mesh Recovery (ScoreHMR)を提案する。
ScoreHMRはモデルフィッティングアプローチを模倣するが、拡散モデルの潜在空間におけるスコアガイダンスによって画像観察との整合が達成される。
提案手法は, (i) 単フレームモデルフィッティング, (ii) 複数視点からの再構成, (iii) ビデオシーケンスで人間を再構成することである。
論文 参考訳(メタデータ) (2024-03-14T17:56:14Z) - Generative Approach for Probabilistic Human Mesh Recovery using
Diffusion Models [33.2565018922113]
本研究は、与えられた2次元画像から3次元人体メッシュを再構築する問題に焦点を当てる。
拡散に基づくヒューマンメッシュ回復(Diff-HMR)と呼ばれる生成的アプローチフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-05T22:23:04Z) - Dynamic Prototype Mask for Occluded Person Re-Identification [88.7782299372656]
既存の手法では、目に見える部分を識別するために、余分なネットワークによって提供される身体の手がかりを利用することで、この問題に対処している。
2つの自己明快な事前知識に基づく新しい動的プロトタイプマスク(DPM)を提案する。
この条件下では、隠蔽された表現は、選択された部分空間において自然にうまく整列することができる。
論文 参考訳(メタデータ) (2022-07-19T03:31:13Z) - MUG: Multi-human Graph Network for 3D Mesh Reconstruction from 2D Pose [20.099670445427964]
単一の単分子画像からマルチヒューマンボディメッシュを再構築することは重要な問題であるが、コンピュータビジョンの問題である。
本研究では,単一グラフニューラルネットワークを用いて,マルチヒューマン2次元ポーズのみを入力として,コヒーレントなマルチヒューマンメッシュを構築する。
論文 参考訳(メタデータ) (2022-05-25T08:54:52Z) - Probabilistic Modeling for Human Mesh Recovery [73.11532990173441]
本稿では,2次元の証拠から3次元の人体復元の問題に焦点を当てた。
我々は,この問題を,入力から3Dポーズの分布へのマッピング学習として再考した。
論文 参考訳(メタデータ) (2021-08-26T17:55:11Z) - 3D Multi-bodies: Fitting Sets of Plausible 3D Human Models to Ambiguous
Image Data [77.57798334776353]
単眼・部分閉塞視からヒトの高密度3次元再構成を実現することの問題点を考察する。
身体の形状やポーズをパラメータ化することで、あいまいさをより効果的にモデル化できることを示唆する。
提案手法は, 3次元人間の標準ベンチマークにおいて, あいまいなポーズ回復において, 代替手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-11-02T13:55:31Z) - Monocular, One-stage, Regression of Multiple 3D People [105.3143785498094]
我々は、複数の3D人物(ROMP)のための1段階方式で全てのメッシュを回帰することを提案する。
本手法は,体温マップとメッシュマップを同時に予測し,画素レベルの3Dボディメッシュを共同で記述する。
最先端の手法と比較して、ROMPは挑戦的なマルチパーソンベンチマークよりも優れた性能を示した。
論文 参考訳(メタデータ) (2020-08-27T17:21:47Z) - Coherent Reconstruction of Multiple Humans from a Single Image [68.3319089392548]
本研究では,1枚の画像から多人数の3Dポーズ推定を行う問題に対処する。
この問題のトップダウン設定における典型的な回帰アプローチは、まずすべての人間を検出し、それぞれを独立して再構築する。
我々のゴールは、これらの問題を回避し、現場のすべての人間のコヒーレントな3D再構成を生成するために学習する単一のネットワークをトレーニングすることである。
論文 参考訳(メタデータ) (2020-06-15T17:51:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。