論文の概要: HART: Human Aligned Reconstruction Transformer
- arxiv url: http://arxiv.org/abs/2509.26621v1
- Date: Tue, 30 Sep 2025 17:56:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 14:45:00.240496
- Title: HART: Human Aligned Reconstruction Transformer
- Title(参考訳): HART:人間のアライメントリコンストラクタ
- Authors: Xiyi Chen, Shaofei Wang, Marko Mihajlovic, Taewon Kang, Sergey Prokudin, Ming Lin,
- Abstract要約: HARTはスパースビュー人間の再構築のための統一されたフレームワークである。
水密な布メッシュ、整列SMPL-Xボディーメッシュ、ノベルビューレンダリングのためのガウスプレート表現を出力する。
以上の結果から,フィードフォワードトランスフォーマーは実環境における堅牢な人間の再構築のためのスケーラブルなモデルとして機能することが示唆された。
- 参考スコア(独自算出の注目度): 17.065147884544853
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We introduce HART, a unified framework for sparse-view human reconstruction. Given a small set of uncalibrated RGB images of a person as input, it outputs a watertight clothed mesh, the aligned SMPL-X body mesh, and a Gaussian-splat representation for photorealistic novel-view rendering. Prior methods for clothed human reconstruction either optimize parametric templates, which overlook loose garments and human-object interactions, or train implicit functions under simplified camera assumptions, limiting applicability in real scenes. In contrast, HART predicts per-pixel 3D point maps, normals, and body correspondences, and employs an occlusion-aware Poisson reconstruction to recover complete geometry, even in self-occluded regions. These predictions also align with a parametric SMPL-X body model, ensuring that reconstructed geometry remains consistent with human structure while capturing loose clothing and interactions. These human-aligned meshes initialize Gaussian splats to further enable sparse-view rendering. While trained on only 2.3K synthetic scans, HART achieves state-of-the-art results: Chamfer Distance improves by 18-23 percent for clothed-mesh reconstruction, PA-V2V drops by 6-27 percent for SMPL-X estimation, LPIPS decreases by 15-27 percent for novel-view synthesis on a wide range of datasets. These results suggest that feed-forward transformers can serve as a scalable model for robust human reconstruction in real-world settings. Code and models will be released.
- Abstract(参考訳): スパース・ビュー・ヒューマン・リストラクションのための統一的フレームワークであるHARTを紹介する。
入力として人物の小さな補正されていないRGB画像が与えられた場合、水密な布張りメッシュ、整列SMPL-Xボディーメッシュ、フォトリアリスティックなノベルビューレンダリングのためのガウス版表現を出力する。
以前の人間の再構築方法は、ゆるい服や人間と物体の相互作用を見渡すパラメトリックテンプレートを最適化するか、カメラの仮定を単純化して暗黙の機能を訓練し、実際のシーンでの適用性を制限するかのどちらかであった。
対照的にHARTは、ピクセルごとの3Dポイントマップ、ノーマル、およびボディ対応を予測し、隠蔽型ポアソン再構成を用いて、自閉領域でも完全な幾何学を復元する。
これらの予測はパラメトリックSMPL-Xのボディモデルとも一致し、復元された幾何学が、ゆるやかな衣服や相互作用を捉えながら、人間の構造と一致し続けることを保証する。
これらのヒューマンアライメントメッシュはガウススプラッターを初期化してスパースビューレンダリングを可能にする。
HARTは2.3Kの合成スキャンしか訓練していないが、最先端の結果を達成している: チャンファー距離は18~23%向上し、PA-V2Vは6~27%減少し、SMPL-X推定では6~27%減少し、LPIPSは15~27%減少し、幅広いデータセットで新規ビュー合成を行う。
これらの結果から, フィードフォワードトランスフォーマーは, 実環境における堅牢な人体再構築のためのスケーラブルなモデルとして機能することが示唆された。
コードとモデルはリリースされる。
関連論文リスト
- RoGSplat: Learning Robust Generalizable Human Gaussian Splatting from Sparse Multi-View Images [39.03889696169877]
RoGSplatは、スパースマルチビュー画像から見えない人間の高忠実な新しいビューを合成するための新しいアプローチである。
提案手法は,新しいビュー合成とクロスデータセットの一般化において,最先端の手法よりも優れている。
論文 参考訳(メタデータ) (2025-03-18T12:18:34Z) - InstantSplat: Sparse-view Gaussian Splatting in Seconds [91.77050739918037]
InstantSplatは,光速でスパークビュー3Dシーンを再現する新しい手法である。
InstantSplatでは,3Dシーン表現とカメラポーズを最適化する,自己管理フレームワークを採用している。
3D-GSの従来のSfMと比較して、30倍以上の再現を達成し、視覚的品質(SSIM)を0.3755から0.7624に改善する。
論文 参考訳(メタデータ) (2024-03-29T17:29:58Z) - GVA: Reconstructing Vivid 3D Gaussian Avatars from Monocular Videos [56.40776739573832]
モノクロビデオ入力(GVA)から鮮明な3Dガウスアバターの作成を容易にする新しい手法を提案する。
私たちのイノベーションは、高忠実な人体再構築を実現するという、複雑な課題に対処することにあります。
通常の地図とシルエットを整列させて手足のポーズ精度を向上させるためにポーズ改善手法を提案する。
論文 参考訳(メタデータ) (2024-02-26T14:40:15Z) - PLIKS: A Pseudo-Linear Inverse Kinematic Solver for 3D Human Body
Estimation [10.50175010474078]
1枚の2次元画像から人体の3次元メッシュを再構築するためのPLIKSを提案する。
PLIKSはパラメトリックSMPLモデルの線形化された定式化に基づいている。
PLIKSは10%以上の精度で再現可能であることを確認した。
論文 参考訳(メタデータ) (2022-11-21T18:54:12Z) - Adversarial Parametric Pose Prior [106.12437086990853]
我々は、SMPLパラメータを現実的なポーズを生成する値に制限する事前学習を行う。
得られた先行学習は実データ分布の多様性をカバーし、2次元キーポイントからの3次元再構成の最適化を容易にし、画像からの回帰に使用する場合のポーズ推定精度を向上することを示す。
論文 参考訳(メタデータ) (2021-12-08T10:05:32Z) - A Lightweight Graph Transformer Network for Human Mesh Reconstruction
from 2D Human Pose [8.816462200869445]
GTRSは2次元の人間のポーズから人間のメッシュを再構築する。
我々は、Human3.6Mと3DPWデータセットの広範囲な評価により、GTRSの効率性と一般化を実証する。
論文 参考訳(メタデータ) (2021-11-24T18:48:03Z) - SparseFusion: Dynamic Human Avatar Modeling from Sparse RGBD Images [49.52782544649703]
本稿では,RGBDフレームのスパース集合に基づく3次元人体形状の再構築手法を提案する。
主な課題は、これらのスパースフレームを標準的な3Dモデルにしっかりと融合させる方法だ。
私たちのフレームワークは柔軟で、潜在的なアプリケーションは形状の再構築を超えています。
論文 参考訳(メタデータ) (2020-06-05T18:53:36Z) - Learning Nonparametric Human Mesh Reconstruction from a Single Image
without Ground Truth Meshes [56.27436157101251]
そこで本研究では,人間のメッシュ再構築を基礎となる真理メッシュを使わずに学習する手法を提案する。
これはグラフ畳み込みニューラルネットワーク(Graph CNN)の損失関数に2つの新しい用語を導入することで実現される。
論文 参考訳(メタデータ) (2020-02-28T20:30:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。