論文の概要: InpaintHuman: Reconstructing Occluded Humans with Multi-Scale UV Mapping and Identity-Preserving Diffusion Inpainting
- arxiv url: http://arxiv.org/abs/2601.02098v1
- Date: Mon, 05 Jan 2026 13:26:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-06 16:25:23.147151
- Title: InpaintHuman: Reconstructing Occluded Humans with Multi-Scale UV Mapping and Identity-Preserving Diffusion Inpainting
- Title(参考訳): InpaintHuman:マルチスケールUVマッピングとID保存拡散塗布による集積ヒトの再構築
- Authors: Jinlong Fan, Shanshan Zhao, Liang Zheng, Jing Zhang, Yuxiang Yang, Mingming Gong,
- Abstract要約: InpaintHumanは、モノクロビデオから高忠実で完全でアニマタブルなアバターを生成する新しい方法である。
我々のアプローチは、アイデンティティの忠実性を保証するために、直接ピクセルレベルの監視を採用する。
- 参考スコア(独自算出の注目度): 64.42884719282323
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reconstructing complete and animatable 3D human avatars from monocular videos remains challenging, particularly under severe occlusions. While 3D Gaussian Splatting has enabled photorealistic human rendering, existing methods struggle with incomplete observations, often producing corrupted geometry and temporal inconsistencies. We present InpaintHuman, a novel method for generating high-fidelity, complete, and animatable avatars from occluded monocular videos. Our approach introduces two key innovations: (i) a multi-scale UV-parameterized representation with hierarchical coarse-to-fine feature interpolation, enabling robust reconstruction of occluded regions while preserving geometric details; and (ii) an identity-preserving diffusion inpainting module that integrates textual inversion with semantic-conditioned guidance for subject-specific, temporally coherent completion. Unlike SDS-based methods, our approach employs direct pixel-level supervision to ensure identity fidelity. Experiments on synthetic benchmarks (PeopleSnapshot, ZJU-MoCap) and real-world scenarios (OcMotion) demonstrate competitive performance with consistent improvements in reconstruction quality across diverse poses and viewpoints.
- Abstract(参考訳): モノクローナルビデオから完全でアニマブルな3Dアバターを再構築することは、特に重篤な閉塞下では難しい。
3Dガウススプラッティングは、フォトリアリスティックな人間のレンダリングを可能にしたが、既存の手法は不完全な観察に苦慮し、しばしば腐敗した幾何学と時間的不整合を生み出す。
InpaintHumanはモノクロビデオから高忠実で完全でアニマタブルなアバターを生成する新しい方法である。
このアプローチには2つの重要なイノベーションがあります。
(i)階層的粗い特徴補間を有するマルチスケールUVパラメーター表現であって、幾何学的詳細を保存しつつ、閉鎖領域の堅牢な再構築を可能にすること。
(II) テキストインバージョンと意味条件付きガイダンスを統合した個人性保存拡散塗装モジュール。
SDS法とは違って,本手法では,個人認証の正確性を確保するために,画素レベルの直接監視を用いる。
合成ベンチマーク(PeopleSnapshot、ZJU-MoCap)と実世界のシナリオ(OcMotion)の実験は、さまざまなポーズや視点で再現品質を一貫した改善で競合性能を実証している。
関連論文リスト
- Bringing Your Portrait to 3D Presence [46.11577347349078]
本研究では,頭部,半体,全体にまたがる単一のポートレートから,アニマタブルな3次元アバターを再構築するための統一的な枠組みを提案する。
提案手法は,ポーズやフレーミングに敏感な特徴表現,拡張性に制限のあるデータ,信頼できないプロキシ・メシュ推定という3つのボトルネックに対処する。
論文 参考訳(メタデータ) (2025-11-27T15:42:07Z) - PF-LHM: 3D Animatable Avatar Reconstruction from Pose-free Articulated Human Images [23.745241278910946]
PF-LHMは、1つまたは複数のカジュアルにキャプチャされたポーズレス画像から、高品質な3Dアバターを秒間に生成する大規模な人間再構成モデルである。
カメラや人間のポーズアノテーションを必要とせず、高忠実でアニマタブルな3次元アバターを実現する。
論文 参考訳(メタデータ) (2025-06-16T17:59:56Z) - CHROME: Clothed Human Reconstruction with Occlusion-Resilience and Multiview-Consistency from a Single Image [37.16845070245751]
我々は,1つの隠蔽画像から複数視点の整合性を持つ3次元人体を再構成するための新しいパイプラインを提案する。
そして、3次元再構成モデルを用いて、隠蔽された入力と合成されたビューの両方に条件付き3次元ガウスの集合を予測する。
新規なビュー合成(最大3dbPSNR)と、挑戦的な条件下での幾何学的再構成の両方において、大幅な改善が達成されている。
論文 参考訳(メタデータ) (2025-03-19T19:56:18Z) - GAS: Generative Avatar Synthesis from a Single Image [54.95198111659466]
本研究では,1枚の画像から一対一かつ時間的にコヒーレントなアバターを合成する枠組みを提案する。
提案手法は, 回帰に基づく3次元再構成と拡散モデルの生成能力を組み合わせたものである。
論文 参考訳(メタデータ) (2025-02-10T19:00:39Z) - DiHuR: Diffusion-Guided Generalizable Human Reconstruction [51.31232435994026]
一般化可能なヒト3次元再構成のための拡散誘導モデルであるDiHuRを導入し,スパース・ミニマル・オーバーラップ画像からのビュー合成について述べる。
提案手法は, 一般化可能なフィードフォワードモデルと2次元拡散モデルとの2つのキー前処理をコヒーレントな方法で統合する。
論文 参考訳(メタデータ) (2024-11-16T03:52:23Z) - MagicMan: Generative Novel View Synthesis of Humans with 3D-Aware Diffusion and Iterative Refinement [23.707586182294932]
単一画像再構成における既存の作業は、訓練データ不足や総合的な多視点知識の欠如による3次元不整合により、弱い一般化性に悩まされている。
単一の参照画像から高品質な新規ビュー画像を生成するために設計された,人間固有の多視点拡散モデルであるMagicManを紹介する。
論文 参考訳(メタデータ) (2024-08-26T12:10:52Z) - Progressive Multi-view Human Mesh Recovery with Self-Supervision [68.60019434498703]
既存のソリューションは通常、新しい設定への一般化性能の低下に悩まされる。
マルチビューヒューマンメッシュリカバリのためのシミュレーションに基づく新しいトレーニングパイプラインを提案する。
論文 参考訳(メタデータ) (2022-12-10T06:28:29Z) - DeepMultiCap: Performance Capture of Multiple Characters Using Sparse
Multiview Cameras [63.186486240525554]
deep multicapは、スパースマルチビューカメラを用いたマルチパーソンパフォーマンスキャプチャのための新しい手法である。
本手法では,事前走査型テンプレートモデルを用いることなく,時間変化した表面の詳細をキャプチャできる。
論文 参考訳(メタデータ) (2021-05-01T14:32:13Z) - Multi-person Implicit Reconstruction from a Single Image [37.6877421030774]
本稿では,1つの画像から複数の人物の詳細な空間的コヒーレントな再構築を実現するための新しいエンドツーエンド学習フレームワークを提案する。
既存のマルチパーソンメソッドは、モデルベースで、ゆるい服と髪の人々の正確な3dモデルをキャプチャできないことが多いという、2つの大きな欠点を抱えている。
論文 参考訳(メタデータ) (2021-04-19T13:21:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。