論文の概要: PF-LHM: 3D Animatable Avatar Reconstruction from Pose-free Articulated Human Images
- arxiv url: http://arxiv.org/abs/2506.13766v1
- Date: Mon, 16 Jun 2025 17:59:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-17 17:28:49.281191
- Title: PF-LHM: 3D Animatable Avatar Reconstruction from Pose-free Articulated Human Images
- Title(参考訳): PF-LHM:pose-free Articulated Human Imagesを用いた3次元アニマタブルアバター再構成
- Authors: Lingteng Qiu, Peihao Li, Qi Zuo, Xiaodong Gu, Yuan Dong, Weihao Yuan, Siyu Zhu, Xiaoguang Han, Guanying Chen, Zilong Dong,
- Abstract要約: PF-LHMは、1つまたは複数のカジュアルにキャプチャされたポーズレス画像から、高品質な3Dアバターを秒間に生成する大規模な人間再構成モデルである。
カメラや人間のポーズアノテーションを必要とせず、高忠実でアニマタブルな3次元アバターを実現する。
- 参考スコア(独自算出の注目度): 23.745241278910946
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reconstructing an animatable 3D human from casually captured images of an articulated subject without camera or human pose information is a practical yet challenging task due to view misalignment, occlusions, and the absence of structural priors. While optimization-based methods can produce high-fidelity results from monocular or multi-view videos, they require accurate pose estimation and slow iterative optimization, limiting scalability in unconstrained scenarios. Recent feed-forward approaches enable efficient single-image reconstruction but struggle to effectively leverage multiple input images to reduce ambiguity and improve reconstruction accuracy. To address these challenges, we propose PF-LHM, a large human reconstruction model that generates high-quality 3D avatars in seconds from one or multiple casually captured pose-free images. Our approach introduces an efficient Encoder-Decoder Point-Image Transformer architecture, which fuses hierarchical geometric point features and multi-view image features through multimodal attention. The fused features are decoded to recover detailed geometry and appearance, represented using 3D Gaussian splats. Extensive experiments on both real and synthetic datasets demonstrate that our method unifies single- and multi-image 3D human reconstruction, achieving high-fidelity and animatable 3D human avatars without requiring camera and human pose annotations. Code and models will be released to the public.
- Abstract(参考訳): カメラや人物のポーズ情報のない、手軽に捉えられた被写体の画像から、アニメーション可能な3D人間を再構成することは、視線不一致、閉塞、構造的先行点の欠如などにより、実用的かつ困難な課題である。
最適化に基づく手法はモノクロビデオやマルチビュービデオから高忠実度な結果が得られるが、正確なポーズ推定と反復最適化を遅くし、制約のないシナリオでのスケーラビリティを制限する必要がある。
最近のフィードフォワードアプローチでは、効率的な単一画像再構成が可能だが、複数の入力イメージを効果的に活用してあいまいさを低減し、再構成精度を向上させるのに苦労している。
PF-LHMは1枚または複数のカジュアルにキャプチャされたポーズレス画像から、高品質な3Dアバターを数秒で生成する大規模な人体再構成モデルである。
提案手法では,階層的幾何点特徴と多視点像特徴を融合した効率的なエンコーダ・デコーダ・ポイント・イメージ・トランスフォーマアーキテクチャを提案する。
融合した特徴は、詳細な幾何学と外観を復元するためにデコードされ、3Dガウススプラットを用いて表現される。
実画像と合成画像の両方のデータセットに対する大規模な実験により、カメラや人間のポーズアノテーションを必要とせず、高忠実でアニマタブルな3Dアバターを実現できることが実証された。
コードとモデルは一般に公開される。
関連論文リスト
- AdaHuman: Animatable Detailed 3D Human Generation with Compositional Multiview Diffusion [56.12859795754579]
AdaHumanは、単一のアプリ内画像から高忠実でアニマタブルな3Dアバターを生成する新しいフレームワークである。
AdaHumanはポーズ条件付き3D共同拡散モデルと合成3DGS精製モジュールという2つの重要なイノベーションを取り入れている。
論文 参考訳(メタデータ) (2025-05-30T17:59:54Z) - SIGMAN:Scaling 3D Human Gaussian Generation with Millions of Assets [72.26350984924129]
本稿では,3次元デジタル化のための潜在空間生成パラダイムを提案する。
我々は,不適切な低次元から高次元のマッピング問題を学習可能な分布シフトに変換する。
我々は、HGS-1Mデータセットを構築するために、合成データと組み合わせた多視点最適化アプローチを採用する。
論文 参考訳(メタデータ) (2025-04-09T15:38:18Z) - HumanDreamer-X: Photorealistic Single-image Human Avatars Reconstruction via Gaussian Restoration [29.03216532351979]
textbfHumanDreamer-Xは、マルチビューのヒューマン生成と再構築を統合パイプラインに統合する新しいフレームワークである。
このフレームワークでは、初期幾何学と外観優先を提供するために、3Dガウススプラッティングが明示的な3D表現として機能する。
また,多視点にわたる幾何的細部アイデンティティの整合性を効果的に向上するアテンション変調戦略を提案する。
論文 参考訳(メタデータ) (2025-04-04T15:35:14Z) - HORT: Monocular Hand-held Objects Reconstruction with Transformers [61.36376511119355]
モノクロ画像から手持ちの物体を3Dで再構成することは、コンピュータビジョンにおいて重要な課題である。
ハンドヘルドオブジェクトの高密度な3次元点群を効率的に再構成するトランスフォーマーモデルを提案する。
提案手法は,高速な推測速度で最先端の精度を達成し,画像の幅を最適化する。
論文 参考訳(メタデータ) (2025-03-27T09:45:09Z) - FRESA: Feedforward Reconstruction of Personalized Skinned Avatars from Few Images [74.86864398919467]
数枚の画像からリアルなアニメーションで、パーソナライズされた3Dアバターを再構成する新しい手法を提案する。
我々は、1000人以上の服を着た人間から普遍的な事前学習を行い、即時フィードフォワード生成とゼロショット一般化を実現する。
提案手法は, 最新技術よりも忠実な再構築とアニメーションを生成し, カジュアルに撮影された携帯電話写真からの入力に直接一般化することができる。
論文 参考訳(メタデータ) (2025-03-24T23:20:47Z) - LHM: Large Animatable Human Reconstruction Model from a Single Image in Seconds [21.99354901986186]
フィードフォワードパスで3次元ガウススプラッティングを表現した高忠実度アバターを推定するためのLHM(Large Animatable Human Reconstruction Model)を提案する。
本モデルでは,マルチモーダルトランスフォーマーアーキテクチャを用いて,人体の位置や画像の特徴を効果的に符号化する。
我々のLHMは、顔と手を後処理することなく、数秒で可塑性アニマタブルな人間を生成し、再現精度と一般化能力の両方において既存の手法より優れています。
論文 参考訳(メタデータ) (2025-03-13T17:59:21Z) - MVD-HuGaS: Human Gaussians from a Single Image via 3D Human Multi-view Diffusion Prior [35.704591162502375]
EmphMVD-HuGaSは,複数視点の人体拡散モデルを用いて,単一の画像から自由視点の3Dレンダリングを可能にする。
T Human2.0と2K2Kデータセットの実験により、提案されたMVD-HuGaSは、単一ビューの3Dレンダリングで最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2025-03-11T09:37:15Z) - AniGS: Animatable Gaussian Avatar from a Single Image with Inconsistent Gaussian Reconstruction [26.82525451095629]
本稿では,不整合画像の3次元再構成のためのロバストな手法を提案し,推論中のリアルタイムレンダリングを実現する。
再建問題を4次元課題として再検討し, 4次元ガウススプラッティングを用いた効率的な3次元モデリング手法を提案する。
実験により,本手法は3次元人体アバターの光実写・リアルタイムアニメーションを実現する。
論文 参考訳(メタデータ) (2024-12-03T18:55:39Z) - SHERF: Generalizable Human NeRF from a Single Image [59.10589479808622]
SHERFは、単一の入力画像からアニマタブルな3D人間を復元するための、最初の一般化可能なヒトNeRFモデルである。
本稿では,情報符号化を容易にするために,グローバル,ポイントレベル,ピクセルアライン機能など3D対応の階層的特徴バンクを提案する。
論文 参考訳(メタデータ) (2023-03-22T17:59:12Z) - Multi-person Implicit Reconstruction from a Single Image [37.6877421030774]
本稿では,1つの画像から複数の人物の詳細な空間的コヒーレントな再構築を実現するための新しいエンドツーエンド学習フレームワークを提案する。
既存のマルチパーソンメソッドは、モデルベースで、ゆるい服と髪の人々の正確な3dモデルをキャプチャできないことが多いという、2つの大きな欠点を抱えている。
論文 参考訳(メタデータ) (2021-04-19T13:21:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。