論文の概要: HumanSplatHMR: Closing the Loop Between Human Mesh Recovery and Gaussian Splatting Avatar
- arxiv url: http://arxiv.org/abs/2605.02784v1
- Date: Mon, 04 May 2026 16:26:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:50.406197
- Title: HumanSplatHMR: Closing the Loop Between Human Mesh Recovery and Gaussian Splatting Avatar
- Title(参考訳): HumanSplatHMR:人間のメッシュ回復とガウススプティングアバターのループを閉じる
- Authors: Yeheng Zong, Pou-Chun Kung, Yike Pan, Seth Isaacson, Yizhou Chen, Ram Vasudevan, Katherine A. Skinner,
- Abstract要約: 映像から人間のポーズや外観を正確に復元することは、シーン再構築の重要な要素である。
本稿では3次元人間のポーズを洗練する共同最適化フレームワークであるHumanSplatHMRを提案する。
アバター復元からポーズ推定を分離したポーズ回復ベースラインに対して、実験により一貫した改善が示された。
- 参考スコア(独自算出の注目度): 19.538398405782996
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Accurately recovering human pose and appearance from video is an essential component of scene reconstruction, with applications to motion capture, motion prediction, virtual reality, and digital twinning. Despite significant interest in building realistic human avatars from video, this paper demonstrates that existing methods do not accurately recover the 3D geometry of humans. ViT-based approaches are not consistently reliable and can overfit to 2D views, while NeRF- and Gaussian Splatting-based avatars treat pose and appearance separately, limiting rendering generalization to new poses. To resolve these shortcomings, this paper proposes HumanSplatHMR, a joint optimization framework that refines 3D human poses while simultaneously learning a high-fidelity avatar for novel-view and novel-pose synthesis. Our key insight is to close the loop between geometric pose estimation and differentiable rendering. Unlike prior human avatar methods that rely on accurate human pose obtained through motion capture systems or offline refinement, which are impractical in in-the-wild scenarios, our approach uses only human mesh estimates from a state-of-the-art human pose estimator to better reflect real-world conditions. Therefore, instead of using the human pose only as a deformation prior, HumanSplatHMR backpropagates photometric, segmentation, and depth losses through a differentiable renderer to the pose parameters and global position. This coupling refines the global 3D pose over time, improving accuracy and alignment while producing better renderings from novel views. Experiments show consistent improvements over pose recovery baselines that omit image-level refinement and avatar baselines that decouple pose estimation from avatar reconstruction.
- Abstract(参考訳): 映像から人間のポーズや外観を正確に復元することは、モーションキャプチャー、モーション予測、バーチャルリアリティー、デジタルツインニングなど、シーン再構築の重要な要素である。
ビデオからリアルな人間のアバターを構築することへの大きな関心にもかかわらず、既存の手法が人間の3次元形状を正確に復元していないことを示す。
ViTベースのアプローチは一貫して信頼性がなく、2Dビューに過度に適合するが、NeRFとガウススプラッティングベースのアバターはポーズと外観を別々に扱い、レンダリングの一般化を新しいポーズに制限する。
これらの欠点を解決するために,新しい視点と新規目的合成のための高忠実度アバターを同時に学習しながら3次元人間のポーズを洗練する共同最適化フレームワークであるHumanSplatHMRを提案する。
私たちの重要な洞察は、幾何学的ポーズ推定と微分可能レンダリングの間のループを閉じることです。
従来の人間のアバター法では、モーションキャプチャシステムやオフラインのリファインメントによって得られた正確な人間のポーズに頼っていたが、我々のアプローチでは、最先端の人間のポーズ推定器による人間のメッシュ推定のみを使用して、現実世界の状況をよりよく反映している。
したがって、人間のポーズを前の変形としてのみ使用する代わりに、HumanSplatHMRは、ポーズパラメータとグローバル位置への微分可能なレンダラーを通して、測光、セグメンテーション、深さ損失を逆伝搬する。
この結合は、時間とともにグローバルな3Dポーズを洗練し、精度とアライメントを改善し、新しいビューからより良いレンダリングを生成する。
画像レベルの改善を省略するポーズ回復ベースラインと、アバター再構成からポーズ推定を分離するアバターベースラインに対して、実験により一貫した改善が示された。
関連論文リスト
- F3G-Avatar : Face Focused Full-body Gaussian Avatar [5.5263731799099425]
F3G-アバター(F3G-Avatar)は、顔を認識するフルボディアバター合成法である。
マルチビューRGBビデオと回帰ポーズ/形状パラメータから、アニマタブルな人間の表現を再構成する。
AvatarReXデータセットでは、PSNR/SSIM/LPIPSが26.243/0.964/0.084に達した。
論文 参考訳(メタデータ) (2026-04-10T19:08:46Z) - PF-LHM: 3D Animatable Avatar Reconstruction from Pose-free Articulated Human Images [23.745241278910946]
PF-LHMは、1つまたは複数のカジュアルにキャプチャされたポーズレス画像から、高品質な3Dアバターを秒間に生成する大規模な人間再構成モデルである。
カメラや人間のポーズアノテーションを必要とせず、高忠実でアニマタブルな3次元アバターを実現する。
論文 参考訳(メタデータ) (2025-06-16T17:59:56Z) - HumanRAM: Feed-forward Human Reconstruction and Animation Model using Transformers [60.86393841247567]
HumanRAMは、モノクル画像やスパース画像から人間の再構築とアニメーションを一般化するための、新しいフィードフォワードアプローチである。
提案手法は,人間の再構築とアニメーションを,明示的なポーズ条件を導入することによって統合された枠組みに統合する。
実験の結果,HumanRAMは再現精度,アニメーション忠実度,実世界のデータセット上での一般化性能において,従来の手法をはるかに上回っていることがわかった。
論文 参考訳(メタデータ) (2025-06-03T17:50:05Z) - FRESA: Feedforward Reconstruction of Personalized Skinned Avatars from Few Images [74.86864398919467]
数枚の画像からリアルなアニメーションで、パーソナライズされた3Dアバターを再構成する新しい手法を提案する。
我々は、1000人以上の服を着た人間から普遍的な事前学習を行い、即時フィードフォワード生成とゼロショット一般化を実現する。
提案手法は, 最新技術よりも忠実な再構築とアニメーションを生成し, カジュアルに撮影された携帯電話写真からの入力に直接一般化することができる。
論文 参考訳(メタデータ) (2025-03-24T23:20:47Z) - Better Together: Unified Motion Capture and 3D Avatar Reconstruction [6.329917162442801]
マルチビュービデオから3次元アバターを再構成しながら,人間のポーズ推定問題を同時に解決する手法を提案する。
パーソナライズされたメッシュ上に3Dガウシアンを組み込んだアニマタブルアバターを新たに導入した。
我々はまず,高度に挑戦するヨガポーズについて評価し,多視点人間のポーズ推定における最先端の精度を示す。
論文 参考訳(メタデータ) (2025-03-12T11:39:43Z) - AvatarPose: Avatar-guided 3D Pose Estimation of Close Human Interaction from Sparse Multi-view Videos [31.904839609743448]
既存のマルチビュー手法は、複数の密接な対話の人々の3Dポーズと形状を推定する上で、しばしば課題に直面します。
個人ごとのパーソナライズされた暗黙的神経アバターを前者として活用する新しい手法を提案する。
実験により、いくつかの公開データセット上での最先端の性能を示す。
論文 参考訳(メタデータ) (2024-08-04T18:41:35Z) - GVA: Reconstructing Vivid 3D Gaussian Avatars from Monocular Videos [56.40776739573832]
モノクロビデオ入力(GVA)から鮮明な3Dガウスアバターの作成を容易にする新しい手法を提案する。
私たちのイノベーションは、高忠実な人体再構築を実現するという、複雑な課題に対処することにあります。
通常の地図とシルエットを整列させて手足のポーズ精度を向上させるためにポーズ改善手法を提案する。
論文 参考訳(メタデータ) (2024-02-26T14:40:15Z) - LatentHuman: Shape-and-Pose Disentangled Latent Representation for Human
Bodies [78.17425779503047]
本稿では,人体に対する新しい暗黙の表現法を提案する。
完全に微分可能で、非交叉形状で最適化可能であり、潜在空間を映し出す。
我々のモデルは、よく設計された損失を伴う、水密でない生データを直接訓練し、微調整することができる。
論文 参考訳(メタデータ) (2021-11-30T04:10:57Z) - Animatable Neural Radiance Fields from Monocular RGB Video [72.6101766407013]
単眼ビデオからの詳細な人体アバター作成のためのアニマタブル神経放射場について述べる。
我々のアプローチは、明示的なポーズ誘導変形を導入することで、人間の動きを伴う動的シーンに神経放射場を拡大する。
実験の結果, 提案手法は, 1) 質の高い細部を持つ暗黙の人間の形状と外観の復元, 2) 任意の視点からの人間の写真リアルなレンダリング, 3) 任意のポーズを持つ人間のアニメーションを実現する。
論文 参考訳(メタデータ) (2021-06-25T13:32:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。