論文の概要: UP2You: Fast Reconstruction of Yourself from Unconstrained Photo Collections
- arxiv url: http://arxiv.org/abs/2509.24817v1
- Date: Mon, 29 Sep 2025 14:06:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:20.035667
- Title: UP2You: Fast Reconstruction of Yourself from Unconstrained Photo Collections
- Title(参考訳): UP2You:制約なしの写真コレクションから自分自身を高速に再構築する
- Authors: Zeyu Cai, Ziyang Li, Xiaoben Li, Boqian Li, Zeyu Wang, Zhenyu Zhang, Yuliang Xiu,
- Abstract要約: UP2Youは、非拘束の2D写真から高精細度の3D肖像画を再構築するためのチューニング不要のソリューションだ。
UP2Youの中心は、ポーズ関連フィーチャーアグリゲーションモジュールである。
4D-Dress, PuzzleIOI, in-the-wild captures の実験では、UP2You は幾何学的精度とテクスチャ忠実度の両方において、従来手法を一貫して上回っている。
- 参考スコア(独自算出の注目度): 21.55668740343458
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present UP2You, the first tuning-free solution for reconstructing high-fidelity 3D clothed portraits from extremely unconstrained in-the-wild 2D photos. Unlike previous approaches that require "clean" inputs (e.g., full-body images with minimal occlusions, or well-calibrated cross-view captures), UP2You directly processes raw, unstructured photographs, which may vary significantly in pose, viewpoint, cropping, and occlusion. Instead of compressing data into tokens for slow online text-to-3D optimization, we introduce a data rectifier paradigm that efficiently converts unconstrained inputs into clean, orthogonal multi-view images in a single forward pass within seconds, simplifying the 3D reconstruction. Central to UP2You is a pose-correlated feature aggregation module (PCFA), that selectively fuses information from multiple reference images w.r.t. target poses, enabling better identity preservation and nearly constant memory footprint, with more observations. We also introduce a perceiver-based multi-reference shape predictor, removing the need for pre-captured body templates. Extensive experiments on 4D-Dress, PuzzleIOI, and in-the-wild captures demonstrate that UP2You consistently surpasses previous methods in both geometric accuracy (Chamfer-15%, P2S-18% on PuzzleIOI) and texture fidelity (PSNR-21%, LPIPS-46% on 4D-Dress). UP2You is efficient (1.5 minutes per person), and versatile (supports arbitrary pose control, and training-free multi-garment 3D virtual try-on), making it practical for real-world scenarios where humans are casually captured. Both models and code will be released to facilitate future research on this underexplored task. Project Page: https://zcai0612.github.io/UP2You
- Abstract(参考訳): UP2Youは、非常に制約のない2D写真から高精細度3D衣料品の肖像画を再構築するための、最初のチューニング不要のソリューションだ。
従来の「クリーン」な入力を必要とするアプローチとは違って、UP2Youは、ポーズ、視点、トリミング、オクルージョンに大きく異なる生写真を直接処理する。
オンラインのテキストから3Dまでの速度を遅くするためにトークンにデータを圧縮する代わりに、制約のない入力を1秒以内でクリーンで直交する多視点画像に効率よく変換し、3D再構成を簡素化するデータ整形処理パラダイムを導入する。
UP2Youの中心はポーズ関連機能集約モジュール(PCFA)で、複数の参照画像w.r.t.ターゲットのポーズから情報を選択的に融合し、より優れたアイデンティティ保存とほぼ一定のメモリフットプリントを可能にする。
また,認識器をベースとしたマルチ参照形状予測器を導入し,プリキャプチャボディテンプレートの必要性を解消する。
4D-Dress, PuzzleIOI, in-the-wild capturesの広範囲にわたる実験により、UP2Youは幾何精度(Chamfer-15%, P2S-18%, PuzzleIOI)とテクスチャ忠実度(PSNR-21%, LPIPS-46%, 4D-Dress)の両方で従来手法を一貫して上回っていることが示された。
UP2Youは効率が良く(人当たり1.5分)、多目的性(任意のポーズ制御とトレーニング不要なマルチガーメント3Dバーチャルトライオンをサポートする)があり、人間がカジュアルに捕獲される現実世界のシナリオで実用的である。
この未調査のタスクに関する将来の研究を促進するため、モデルとコードの両方がリリースされる予定だ。
Project Page: https://zcai0612.github.io/UP2You
関連論文リスト
- SPAR3D: Stable Point-Aware Reconstruction of 3D Objects from Single Images [49.7344030427291]
単一画像の3Dオブジェクト再構成の問題点について検討する。
最近の研究は回帰モデルと生成モデルという2つの方向に分かれている。
両方向を最大限に活用するための新しい2段階アプローチであるSPAR3Dを提案する。
論文 参考訳(メタデータ) (2025-01-08T18:52:03Z) - Dust to Tower: Coarse-to-Fine Photo-Realistic Scene Reconstruction from Sparse Uncalibrated Images [11.1039786318131]
Dust to Tower (D2T)は、3DGSと画像をスパース画像とアンキャリブレーション画像から同時にポーズする効率的なフレームワークである。
我々のキーとなる考え方は、まずまず効率よく粗いモデルを構築し、その後、新しい視点で歪んだり塗られたりすることでそれを洗練することである。
実験およびアブレーション実験は、D2Tとその設計選択の有効性を示す。
論文 参考訳(メタデータ) (2024-12-27T08:19:34Z) - UPose3D: Uncertainty-Aware 3D Human Pose Estimation with Cross-View and Temporal Cues [55.69339788566899]
UPose3Dは多視点人間のポーズ推定のための新しいアプローチである。
直接的な3Dアノテーションを必要とせずに、堅牢性と柔軟性を向上させる。
論文 参考訳(メタデータ) (2024-04-23T00:18:00Z) - Lifting by Image -- Leveraging Image Cues for Accurate 3D Human Pose
Estimation [10.374944534302234]
2次元ポーズからのリフト」法が3Dヒューマンポーズ推定の主流となっている(3DHPE)
画像中のリッチな意味とテクスチャ情報は、より正確な「リフト」手順に寄与する。
本稿では, 一般化問題の原因と画像特徴の有効性について, 新たな知見を与える。
論文 参考訳(メタデータ) (2023-12-25T07:50:58Z) - Two Views Are Better than One: Monocular 3D Pose Estimation with Multiview Consistency [0.493599216374976]
2つの同期ビューで動作する新しい損失関数、一貫性損失を導入する。
我々の整合性喪失は、3Dデータを必要としない微調整の性能を著しく向上させる。
半教師付き方式でモデルをスクラッチからトレーニングする場合,一貫性損失を用いることで最先端の性能が得られることを示す。
論文 参考訳(メタデータ) (2023-11-21T08:21:55Z) - Hi-LASSIE: High-Fidelity Articulated Shape and Skeleton Discovery from
Sparse Image Ensemble [72.3681707384754]
Hi-LASSIEは、ユーザーが定義した形状やスケルトンテンプレートを使わずに、野生の20~30のオンライン画像から3Dで再現する。
まず,手動でアノテートした3Dスケルトンに頼る代わりに,選択した基準画像からクラス固有のスケルトンを自動的に推定する。
第二に、各インスタンスに忠実に適合する新しいインスタンス固有の最適化戦略により、形状再構成を改善する。
論文 参考訳(メタデータ) (2022-12-21T14:31:33Z) - VirtualPose: Learning Generalizable 3D Human Pose Models from Virtual
Data [69.64723752430244]
このタスクに特有の隠れた「フリーランチ」を活用するための2段階学習フレームワークであるVirtualPoseを紹介する。
1段目は画像を抽象幾何学表現(AGR)に変換し、2段目はそれらを3Dポーズにマッピングする。
1)第1段は多様な2次元データセットでトレーニングし、限られた外観への過度な適合のリスクを軽減し、2)多数の仮想カメラとポーズから合成された多様なAGRでトレーニングすることができる。
論文 参考訳(メタデータ) (2022-07-20T14:47:28Z) - Shape-aware Multi-Person Pose Estimation from Multi-View Images [47.13919147134315]
提案した粗大なパイプラインは、まず複数のカメラビューからノイズの多い2次元の観測結果を3次元空間に集約する。
最終的なポーズ推定は、高信頼度多視点2次元観測と3次元関節候補をリンクする新しい最適化スキームから得られる。
論文 参考訳(メタデータ) (2021-10-05T20:04:21Z) - Synthetic Training for Monocular Human Mesh Recovery [100.38109761268639]
本稿では,RGB画像と大規模に異なる複数の身体部位の3次元メッシュを推定することを目的とする。
主な課題は、2D画像のすべての身体部分の3Dアノテーションを完備するトレーニングデータがないことである。
本稿では,D2S(Deep-to-scale)投影法を提案する。
論文 参考訳(メタデータ) (2020-10-27T03:31:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。