論文の概要: PEAR: Pixel-aligned Expressive humAn mesh Recovery
- arxiv url: http://arxiv.org/abs/2601.22693v2
- Date: Thu, 05 Feb 2026 06:25:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 14:11:23.812026
- Title: PEAR: Pixel-aligned Expressive humAn mesh Recovery
- Title(参考訳): PEAR: ピクセル対応の表現型HumAnメッシュリカバリ
- Authors: Jiahao Wu, Yunfei Liu, Lijian Lin, Ye Zhu, Lei Zhu, Jingyi Li, Yu Li,
- Abstract要約: ワイヤード画像から詳細な3Dメッシュを再構築することは、コンピュータビジョンの根本的な課題である。
既存のSMPLXベースの手法は、しばしば推論が遅くなり、粗い身体のポーズしか生成せず、顔や手などの細粒な領域で不規則や不自然な人工物が現れる。
PEARは,高速でロバストな画素配列表現型ヒューマンメッシュリカバリのためのフレームワークである。
- 参考スコア(独自算出の注目度): 32.39994094033293
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Reconstructing detailed 3D human meshes from a single in-the-wild image remains a fundamental challenge in computer vision. Existing SMPLX-based methods often suffer from slow inference, produce only coarse body poses, and exhibit misalignments or unnatural artifacts in fine-grained regions such as the face and hands. These issues make current approaches difficult to apply to downstream tasks. To address these challenges, we propose PEAR-a fast and robust framework for pixel-aligned expressive human mesh recovery. PEAR explicitly tackles three major limitations of existing methods: slow inference, inaccurate localization of fine-grained human pose details, and insufficient facial expression capture. Specifically, to enable real-time SMPLX parameter inference, we depart from prior designs that rely on high resolution inputs or multi-branch architectures. Instead, we adopt a clean and unified ViT-based model capable of recovering coarse 3D human geometry. To compensate for the loss of fine-grained details caused by this simplified architecture, we introduce pixel-level supervision to optimize the geometry, significantly improving the reconstruction accuracy of fine-grained human details. To make this approach practical, we further propose a modular data annotation strategy that enriches the training data and enhances the robustness of the model. Overall, PEAR is a preprocessing-free framework that can simultaneously infer EHM-s (SMPLX and scaled-FLAME) parameters at over 100 FPS. Extensive experiments on multiple benchmark datasets demonstrate that our method achieves substantial improvements in pose estimation accuracy compared to previous SMPLX-based approaches. Project page: https://wujh2001.github.io/PEAR
- Abstract(参考訳): ワイヤード画像から詳細な3Dメッシュを再構築することは、コンピュータビジョンの根本的な課題である。
既存のSMPLXベースの手法は、しばしば推論が遅くなり、粗い身体のポーズしか生成せず、顔や手などの細粒な領域で不規則や不自然な人工物が現れる。
これらの問題は、下流のタスクに現在のアプローチを適用するのを難しくしている。
これらの課題に対処するため,PEARは高速で堅牢な,画素に整合した表現力のあるヒューマンメッシュリカバリのためのフレームワークである。
PEARは既存の方法の3つの大きな制限に明示的に対応している。
具体的には、リアルタイムSMPLXパラメータ推論を可能にするために、高解像度入力やマルチブランチアーキテクチャに依存する事前設計から離脱する。
代わりに、粗い3次元の人間の幾何を復元できるクリーンで統一されたViTモデルを採用する。
この単純化されたアーキテクチャによる細かな詳細の喪失を補うため、幾何学を最適化するためのピクセルレベルの監督を導入し、細かな人間の詳細の再現精度を大幅に向上させる。
このアプローチを実用的なものにするために,トレーニングデータを強化し,モデルの堅牢性を高めるモジュール型データアノテーション戦略を提案する。
PEARは、EHM-s(SMPLX と Scaled-FLAME)パラメータを100 FPS以上で同時に推論できる、前処理なしのフレームワークである。
複数のベンチマークデータセットに対する大規模な実験により,提案手法は従来のSMPLX手法と比較して,ポーズ推定精度を大幅に向上することを示した。
プロジェクトページ:https://wujh 2001.github.io/PEAR
関連論文リスト
- MoE3D: A Mixture-of-Experts Module for 3D Reconstruction [25.58837319169964]
本稿では,複数のスムーズな深度予測を組み合わせることで,深度境界の不確かさに対処する実験式を提案する。
我々のアプローチは計算効率が高く、訓練データの小さなサブセットを微調整しても、一般化可能な改善を提供する。
論文 参考訳(メタデータ) (2026-01-08T18:33:52Z) - Intern-GS: Vision Model Guided Sparse-View 3D Gaussian Splatting [95.61137026932062]
Intern-GSはスパースビューガウススプラッティングのプロセスを強化する新しいアプローチである。
Intern-GSは多様なデータセットにまたがって最先端のレンダリング品質を実現する。
論文 参考訳(メタデータ) (2025-05-27T05:17:49Z) - USP-Gaussian: Unifying Spike-based Image Reconstruction, Pose Correction and Gaussian Splatting [45.246178004823534]
スパイクカメラは、0-1ビットストリームを40kHzで撮影する革新的なニューロモルフィックカメラとして、ますます3D再構成タスクに採用されている。
以前のスパイクベースの3D再構成アプローチでは、ケースケースのパイプラインを使うことが多い。
本稿では,スパイクに基づく画像再構成,ポーズ補正,ガウス的スプラッティングをエンドツーエンドのフレームワークに統一する,相乗的最適化フレームワーク textbfUSP-Gaussian を提案する。
論文 参考訳(メタデータ) (2024-11-15T14:15:16Z) - Back to MLP: A Simple Baseline for Human Motion Prediction [59.18776744541904]
本稿では、歴史的に観察されたシーケンスから将来の身体のポーズを予測することによる、人間の動作予測の課題に取り組む。
これらの手法の性能は、0.14Mパラメータしか持たない軽量で純粋にアーキテクチャアーキテクチャによって超えることができることを示す。
Human3.6M, AMASS, 3DPWデータセットの徹底的な評価は, siMLPeをダブした我々の手法が, 他のアプローチよりも一貫して優れていることを示している。
論文 参考訳(メタデータ) (2022-07-04T16:35:58Z) - Adversarial Parametric Pose Prior [106.12437086990853]
我々は、SMPLパラメータを現実的なポーズを生成する値に制限する事前学習を行う。
得られた先行学習は実データ分布の多様性をカバーし、2次元キーポイントからの3次元再構成の最適化を容易にし、画像からの回帰に使用する場合のポーズ推定精度を向上することを示す。
論文 参考訳(メタデータ) (2021-12-08T10:05:32Z) - 3D Human Pose and Shape Regression with Pyramidal Mesh Alignment
Feedback Loop [128.07841893637337]
回帰に基づく手法は最近、単眼画像からヒトのメッシュを再構成する有望な結果を示した。
パラメータの小さな偏差は、推定メッシュと画像のエビデンスの間に顕著な不一致を引き起こす可能性がある。
本稿では,特徴ピラミッドを活用し,予測パラメータを補正するために,ピラミッドメッシュアライメントフィードバック(pymaf)ループを提案する。
論文 参考訳(メタデータ) (2021-03-30T17:07:49Z) - Monocular Real-Time Volumetric Performance Capture [28.481131687883256]
本稿では,モノクロ映像から実時間速度でボリューム・パフォーマンス・キャプチャとノベル・ビュー・レンダリングを行うための最初のアプローチを提案する。
このシステムは,Pixel-Aligned Implicit Function (PIFu)を活用して,各フレームから完全にテクスチャ化された3次元人体を再構成する。
また,オンラインハード・サンプル・マイニング(OHEM)技術を導入し,難題の稀な発生により,障害モードを効果的に抑制する手法を提案する。
論文 参考訳(メタデータ) (2020-07-28T04:45:13Z) - PaMIR: Parametric Model-Conditioned Implicit Representation for
Image-based Human Reconstruction [67.08350202974434]
本研究では,パラメトリックボディモデルと自由形深部暗黙関数を組み合わせたパラメトリックモデル記述型暗黙表現(PaMIR)を提案する。
本手法は, 挑戦的なポーズや衣料品のタイプにおいて, 画像に基づく3次元再構築のための最先端性能を実現する。
論文 参考訳(メタデータ) (2020-07-08T02:26:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。