論文の概要: GenHMR: Generative Human Mesh Recovery
- arxiv url: http://arxiv.org/abs/2412.14444v1
- Date: Thu, 19 Dec 2024 01:45:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-20 13:33:43.564461
- Title: GenHMR: Generative Human Mesh Recovery
- Title(参考訳): GenHMR: ジェネレーティブなヒューマンメッシュリカバリ
- Authors: Muhammad Usama Saleem, Ekkasit Pinyoanuntapong, Pu Wang, Hongfei Xue, Srijan Das, Chen Chen,
- Abstract要約: GenHMRは、単分子HMRを画像条件による生成タスクとして再構成する新しい生成フレームワークである。
ベンチマークデータセットの実験では、GenHMRが最先端のメソッドよりも大幅に優れていることが示されている。
- 参考スコア(独自算出の注目度): 14.708444067294325
- License:
- Abstract: Human mesh recovery (HMR) is crucial in many computer vision applications; from health to arts and entertainment. HMR from monocular images has predominantly been addressed by deterministic methods that output a single prediction for a given 2D image. However, HMR from a single image is an ill-posed problem due to depth ambiguity and occlusions. Probabilistic methods have attempted to address this by generating and fusing multiple plausible 3D reconstructions, but their performance has often lagged behind deterministic approaches. In this paper, we introduce GenHMR, a novel generative framework that reformulates monocular HMR as an image-conditioned generative task, explicitly modeling and mitigating uncertainties in the 2D-to-3D mapping process. GenHMR comprises two key components: (1) a pose tokenizer to convert 3D human poses into a sequence of discrete tokens in a latent space, and (2) an image-conditional masked transformer to learn the probabilistic distributions of the pose tokens, conditioned on the input image prompt along with randomly masked token sequence. During inference, the model samples from the learned conditional distribution to iteratively decode high-confidence pose tokens, thereby reducing 3D reconstruction uncertainties. To further refine the reconstruction, a 2D pose-guided refinement technique is proposed to directly fine-tune the decoded pose tokens in the latent space, which forces the projected 3D body mesh to align with the 2D pose clues. Experiments on benchmark datasets demonstrate that GenHMR significantly outperforms state-of-the-art methods. Project website can be found at https://m-usamasaleem.github.io/publication/GenHMR/GenHMR.html
- Abstract(参考訳): ヒューマンメッシュリカバリ(HMR)は、健康から芸術、エンターテイメントに至るまで、多くのコンピュータビジョンアプリケーションにおいて不可欠である。
単眼画像からのHMRは、与えられた2次元画像の1つの予測を出力する決定論的手法によって主に解決されてきた。
しかし,1枚の画像から得られたHMRは,奥行きのあいまいさと閉塞性に起因する問題である。
確率論的手法は、複数の可算な3次元再構成を生成し、融合させることによってこの問題に対処しようとするが、その性能は決定論的アプローチに遅れを取っていることが多い。
本稿では、2D-3Dマッピングプロセスにおける不確実性を明示的にモデル化し緩和する、単分子HMRを画像条件付き生成タスクとして再構成する新しい生成フレームワークであるGenHMRを紹介する。
GenHMRは,(1)3次元人間のポーズを潜在空間内の離散トークンの列に変換するポーズトークンライザ,(2)ランダムにマスキングされたトークンシーケンスとともに入力画像プロンプトに条件付されたポーズトークンの確率分布を学習する画像条件マスキングトランスフォーマー,の2つのキーコンポーネントから構成される。
推論中、学習条件分布からモデルサンプルを抽出し、高信頼なポーズトークンを反復的に復号し、3次元再構成の不確かさを低減する。
再構成をさらに高度化するため,2次元ポーズガイドによる改良手法が提案され,遅延空間におけるデコードされたポーズトークンを直接微調整することで,投影された3次元ボディメッシュを2次元ポーズヒントと整合させることができた。
ベンチマークデータセットの実験では、GenHMRが最先端のメソッドよりも大幅に優れていることが示されている。
プロジェクトのWebサイトはhttps://m-usamasaleem.github.io/publication/GenHMR/GenHMR.htmlにある。
関連論文リスト
- No Pose, No Problem: Surprisingly Simple 3D Gaussian Splats from Sparse Unposed Images [100.80376573969045]
NoPoSplatは、多視点画像から3Dガウスアンによってパラメータ化された3Dシーンを再構成できるフィードフォワードモデルである。
提案手法は,推定時にリアルタイムな3次元ガウス再構成を実現する。
この研究は、ポーズフリーの一般化可能な3次元再構成において大きな進歩をもたらし、実世界のシナリオに適用可能であることを示す。
論文 参考訳(メタデータ) (2024-10-31T17:58:22Z) - MEGA: Masked Generative Autoencoder for Human Mesh Recovery [33.26995842920877]
単一のRGB画像からのヒューマンメッシュの回復は、非常にあいまいな問題である。
ほとんどのHMR手法はこの問題を見逃し、曖昧さを考慮せずに単一の予測を行う。
本研究は,マスク生成モデルに基づく新しい手法を提案する。
論文 参考訳(メタデータ) (2024-05-29T07:40:31Z) - PostoMETRO: Pose Token Enhanced Mesh Transformer for Robust 3D Human Mesh Recovery [20.763457281944834]
本稿では,2次元ポーズ表現をトークン的に変換器に統合するPostoMETROを提案する。
閉塞のような極端なシナリオの下でも、より正確な3D座標を生成することができます。
論文 参考訳(メタデータ) (2024-03-19T06:18:25Z) - CheckerPose: Progressive Dense Keypoint Localization for Object Pose
Estimation with Graph Neural Network [66.24726878647543]
単一のRGB画像から固い物体の6-DoFのポーズを推定することは、非常に難しい課題である。
近年の研究では、高密度対応型解の大きな可能性を示している。
そこで本研究では,CheckerPoseというポーズ推定アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-03-29T17:30:53Z) - SparseFusion: Distilling View-conditioned Diffusion for 3D
Reconstruction [26.165314261806603]
ニューラルレンダリングと確率的画像生成の最近の進歩を統一したスパースビュー3次元再構成手法であるスパースフュージョンを提案する。
既存のアプローチは、通常、再プロジェクションされた機能を持つニューラルレンダリングの上に構築されるが、目に見えない領域を生成したり、大きな視点の変化の下で不確実性に対処できない。
論文 参考訳(メタデータ) (2022-12-01T18:59:55Z) - Permutation-Invariant Relational Network for Multi-person 3D Pose
Estimation [46.38290735670527]
単一のRGB画像から複数の人物の3Dポーズを復元することは、非常に不適切な問題である。
近年の研究では、異なる人物の推論を同時に行うことで、地域内のすべての事例において有望な成果を上げている。
PI-Netは、画像中のすべての人を同時に推論するための自己注意ブロックを導入し、ノイズの多い最初の3Dポーズを洗練します。
本稿では,集合変換器上に構築された置換不変な手法を用いて,人間同士の相互作用全体を,その数と独立にモデル化する。
論文 参考訳(メタデータ) (2022-04-11T07:23:54Z) - Multi-initialization Optimization Network for Accurate 3D Human Pose and
Shape Estimation [75.44912541912252]
我々はMulti-Initialization Optimization Network(MION)という3段階のフレームワークを提案する。
第1段階では,入力サンプルの2次元キーポイントに適合する粗い3次元再構成候補を戦略的に選択する。
第2段階では, メッシュ改質トランス (MRT) を設計し, 自己保持機構を用いて粗い再構成結果をそれぞれ洗練する。
最後に,RGB画像の視覚的証拠が与えられた3次元再構成と一致するかどうかを評価することで,複数の候補から最高の結果を得るために,一貫性推定ネットワーク(CEN)を提案する。
論文 参考訳(メタデータ) (2021-12-24T02:43:58Z) - Probabilistic Monocular 3D Human Pose Estimation with Normalizing Flows [24.0966076588569]
本稿では,不明瞭な逆2D-to-3D問題を解くために,決定論的3D-to-2Dマッピングを利用する正規化フローベース手法を提案する。
我々は、Human3.6MとMPI-INF-3DHPの2つのベンチマークデータセットに対するアプローチを評価し、ほとんどの指標において同等の手法を上回りました。
論文 参考訳(メタデータ) (2021-07-29T07:33:14Z) - OSTeC: One-Shot Texture Completion [86.23018402732748]
ワンショット3D顔テクスチャ補完のための教師なしアプローチを提案する。
提案手法では,2次元フェースジェネレータで回転画像を再構成することにより,入力画像を3次元で回転させ,見えない領域を埋め込む。
完成したテクスチャーをジェネレーターに投影することで、ターゲットイメージを先取りします。
論文 参考訳(メタデータ) (2020-12-30T23:53:26Z) - Weakly Supervised Generative Network for Multiple 3D Human Pose
Hypotheses [74.48263583706712]
単一画像からの3次元ポーズ推定は、欠落した深さのあいまいさに起因する逆問題である。
逆問題に対処するために,弱い教師付き深層生成ネットワークを提案する。
論文 参考訳(メタデータ) (2020-08-13T09:26:01Z) - Coherent Reconstruction of Multiple Humans from a Single Image [68.3319089392548]
本研究では,1枚の画像から多人数の3Dポーズ推定を行う問題に対処する。
この問題のトップダウン設定における典型的な回帰アプローチは、まずすべての人間を検出し、それぞれを独立して再構築する。
我々のゴールは、これらの問題を回避し、現場のすべての人間のコヒーレントな3D再構成を生成するために学習する単一のネットワークをトレーニングすることである。
論文 参考訳(メタデータ) (2020-06-15T17:51:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。