論文の概要: MMHMR: Generative Masked Modeling for Hand Mesh Recovery
- arxiv url: http://arxiv.org/abs/2412.13393v1
- Date: Wed, 18 Dec 2024 00:10:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-19 16:49:50.084057
- Title: MMHMR: Generative Masked Modeling for Hand Mesh Recovery
- Title(参考訳): MMHMR: ハンドメッシュ回復のための生成的マスケプドモデリング
- Authors: Muhammad Usama Saleem, Ekkasit Pinyoanuntapong, Mayur Jagdishbhai Patel, Hongfei Xue, Ahmed Helmy, Srijan Das, Pu Wang,
- Abstract要約: MMHMRは手メッシュ回復のための新しい生成マスクモデルである。
あいまいな2D-to-3Dマッピングプロセスの確率分布から学習とサンプリングにより、可塑性3Dハンドメッシュを合成する。
3Dハンドメッシュ再構築において,最先端の精度,堅牢性,現実性を実現する。
- 参考スコア(独自算出の注目度): 11.39213280304101
- License:
- Abstract: Reconstructing a 3D hand mesh from a single RGB image is challenging due to complex articulations, self-occlusions, and depth ambiguities. Traditional discriminative methods, which learn a deterministic mapping from a 2D image to a single 3D mesh, often struggle with the inherent ambiguities in 2D-to-3D mapping. To address this challenge, we propose MMHMR, a novel generative masked model for hand mesh recovery that synthesizes plausible 3D hand meshes by learning and sampling from the probabilistic distribution of the ambiguous 2D-to-3D mapping process. MMHMR consists of two key components: (1) a VQ-MANO, which encodes 3D hand articulations as discrete pose tokens in a latent space, and (2) a Context-Guided Masked Transformer that randomly masks out pose tokens and learns their joint distribution, conditioned on corrupted token sequences, image context, and 2D pose cues. This learned distribution facilitates confidence-guided sampling during inference, producing mesh reconstructions with low uncertainty and high precision. Extensive evaluations on benchmark and real-world datasets demonstrate that MMHMR achieves state-of-the-art accuracy, robustness, and realism in 3D hand mesh reconstruction. Project website: https://m-usamasaleem.github.io/publication/MMHMR/mmhmr.html
- Abstract(参考訳): 単一のRGB画像から3Dハンドメッシュを再構築することは、複雑な調音、自己閉塞、深さのあいまいさのために困難である。
2次元画像から1つの3次元メッシュへの決定論的マッピングを学習する従来の識別法は、2次元から3次元のマッピングにおいて固有の曖昧さに悩まされることが多い。
この課題に対処するために,不明瞭な2D-to-3Dマッピングプロセスの確率分布から学習とサンプリングにより,可塑性3Dハンドメッシュを合成する,手メッシュ復元のための新しい生成マスクモデルMMHMRを提案する。
MMHMR は,(1) 3次元手話を離散的なポーズトークンとして符号化する VQ-MANO と,(2) ランダムにポーズトークンを隠蔽し,それらの共同分布を学習するコンテキストガイド仮面変換器,(2) の2つの重要な構成要素から構成される。
この学習分布は、推論中の信頼誘導サンプリングを促進し、不確実性が低く高精度なメッシュ再構成を生成する。
ベンチマークと実世界のデータセットの大規模な評価は、MMHMRが3Dハンドメッシュ再構築における最先端の精度、堅牢性、リアリズムを達成することを示す。
プロジェクトウェブサイト:https://m-usamasaleem.github.io/publication/MMHMR/mmhmr.html
関連論文リスト
- In-Hand 3D Object Reconstruction from a Monocular RGB Video [17.31419675163019]
我々の研究は、静止RGBカメラの前で手で保持・回転する3Dオブジェクトを再構築することを目的としている。
暗黙の神経表現を用いて、多視点画像からジェネリックハンドヘルドオブジェクトの形状を復元する従来の手法は、オブジェクトの可視部分において魅力的な結果を得た。
論文 参考訳(メタデータ) (2023-12-27T06:19:25Z) - 3DStyle-Diffusion: Pursuing Fine-grained Text-driven 3D Stylization with
2D Diffusion Models [102.75875255071246]
テキスト駆動型スタイリングによる3Dコンテンツ作成は、マルチメディアとグラフィックコミュニティにとって根本的な課題となっている。
2次元拡散モデルから制御可能な外観と幾何学的ガイダンスを付加した3次元メッシュのきめ細かいスタイリングをトリガーする新しい3DStyle-Diffusionモデルを提案する。
論文 参考訳(メタデータ) (2023-11-09T15:51:27Z) - Sampling is Matter: Point-guided 3D Human Mesh Reconstruction [0.0]
本稿では,1枚のRGB画像から3次元メッシュ再構成を行うための簡易かつ強力な手法を提案する。
評価実験の結果,提案手法は3次元メッシュ再構成の性能を効率よく向上することが示された。
論文 参考訳(メタデータ) (2023-04-19T08:45:26Z) - Joint-MAE: 2D-3D Joint Masked Autoencoders for 3D Point Cloud
Pre-training [65.75399500494343]
Masked Autoencoders (MAE) は、2Dおよび3Dコンピュータビジョンのための自己教師型学習において有望な性能を示した。
自己監督型3次元点雲事前学習のための2D-3DジョイントMAEフレームワークであるJoint-MAEを提案する。
論文 参考訳(メタデータ) (2023-02-27T17:56:18Z) - Controllable Face Manipulation and UV Map Generation by Self-supervised
Learning [20.10160338724354]
近年の手法は2次元生成モデルと3DMMを組み合わせることで2次元画像の明示的な制御を実現する。
3DMMによるテクスチャ再構築における現実性と明瞭さの欠如により,合成画像と3DMMの描画画像との間には領域ギャップがある。
本研究では,3DMMのパラメータを制御して,事前学習したStyleGANの潜在空間を明示的に編集することを提案する。
論文 参考訳(メタデータ) (2022-09-24T16:49:25Z) - Consistent 3D Hand Reconstruction in Video via self-supervised Learning [67.55449194046996]
本稿では,モノクロ映像から高精度で一貫した3Dハンドを再構築する手法を提案する。
検出された2次元手指キーポイントと画像テクスチャは、3次元手の形状とテクスチャに関する重要な手がかりを提供する。
自己監督型3Dハンド再構成モデルであるS2HAND$を提案する。
論文 参考訳(メタデータ) (2022-01-24T09:44:11Z) - Multi-initialization Optimization Network for Accurate 3D Human Pose and
Shape Estimation [75.44912541912252]
我々はMulti-Initialization Optimization Network(MION)という3段階のフレームワークを提案する。
第1段階では,入力サンプルの2次元キーポイントに適合する粗い3次元再構成候補を戦略的に選択する。
第2段階では, メッシュ改質トランス (MRT) を設計し, 自己保持機構を用いて粗い再構成結果をそれぞれ洗練する。
最後に,RGB画像の視覚的証拠が与えられた3次元再構成と一致するかどうかを評価することで,複数の候補から最高の結果を得るために,一貫性推定ネットワーク(CEN)を提案する。
論文 参考訳(メタデータ) (2021-12-24T02:43:58Z) - Model-based 3D Hand Reconstruction via Self-Supervised Learning [72.0817813032385]
シングルビューのRGB画像から3Dハンドを再構成することは、様々な手構成と深さのあいまいさのために困難である。
ポーズ, 形状, テクスチャ, カメラ視点を共同で推定できる, 自己教師型3Dハンド再構成ネットワークであるS2HANDを提案する。
初めて手動アノテーションを使わずに、正確な3D手の再構築ネットワークを訓練できることを実証しました。
論文 参考訳(メタデータ) (2021-03-22T10:12:43Z) - PC-HMR: Pose Calibration for 3D Human Mesh Recovery from 2D
Images/Videos [47.601288796052714]
我々は2つの新しいPoseフレームワーク、すなわちSerial PC-HMRとParallel PC-HMRを開発した。
当社のフレームワークは、データ駆動学習と幾何学的モデリングの汎用的かつ補完的な統合に基づいています。
我々は一般的なベンチマーク(Human3.6M, 3DPW, SURREAL)について広範な実験を行い、PC-HMRフレームワークがSOTA結果を達成する。
論文 参考訳(メタデータ) (2021-03-16T12:12:45Z) - Im2Mesh GAN: Accurate 3D Hand Mesh Recovery from a Single RGB Image [31.371190180801452]
入力画像から直接ハンドメッシュを学習できることが示される。
我々は、エンドツーエンドの学習を通してメッシュを学習するための新しいタイプのGANIm2Mesh GANを提案する。
論文 参考訳(メタデータ) (2021-01-27T07:38:01Z) - MM-Hand: 3D-Aware Multi-Modal Guided Hand Generative Network for 3D Hand
Pose Synthesis [81.40640219844197]
モノラルなRGB画像から3Dハンドポーズを推定することは重要だが難しい。
解決策は、高精度な3D手指キーポイントアノテーションを用いた大規模RGB手指画像のトレーニングである。
我々は,現実的で多様な3次元ポーズ保存ハンドイメージを合成する学習ベースアプローチを開発した。
論文 参考訳(メタデータ) (2020-10-02T18:27:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。