論文の概要: Snap-Snap: Taking Two Images to Reconstruct 3D Human Gaussians in Milliseconds
- arxiv url: http://arxiv.org/abs/2508.14892v1
- Date: Wed, 20 Aug 2025 17:59:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-21 16:52:41.546166
- Title: Snap-Snap: Taking Two Images to Reconstruct 3D Human Gaussians in Milliseconds
- Title(参考訳): 数ミリ秒で3Dのガウス像を再現するSnap-Snap
- Authors: Jia Lu, Taoran Yi, Jiemin Fang, Chen Yang, Chuiyun Wu, Wei Shen, Wenyu Liu, Qi Tian, Xinggang Wang,
- Abstract要約: 本稿では,2つの画像から人体を再構築する上で,課題だが価値のある課題を提案する。
主な課題は、3D一貫性の構築の難しさと、高度にスパースな入力から欠落した情報を回復することにある。
実験の結果,1個のNVIDIA GTX 4090上で190msで人体全体を再構築できることがわかった。
- 参考スコア(独自算出の注目度): 71.22182851672314
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reconstructing 3D human bodies from sparse views has been an appealing topic, which is crucial to broader the related applications. In this paper, we propose a quite challenging but valuable task to reconstruct the human body from only two images, i.e., the front and back view, which can largely lower the barrier for users to create their own 3D digital humans. The main challenges lie in the difficulty of building 3D consistency and recovering missing information from the highly sparse input. We redesign a geometry reconstruction model based on foundation reconstruction models to predict consistent point clouds even input images have scarce overlaps with extensive human data training. Furthermore, an enhancement algorithm is applied to supplement the missing color information, and then the complete human point clouds with colors can be obtained, which are directly transformed into 3D Gaussians for better rendering quality. Experiments show that our method can reconstruct the entire human in 190 ms on a single NVIDIA RTX 4090, with two images at a resolution of 1024x1024, demonstrating state-of-the-art performance on the THuman2.0 and cross-domain datasets. Additionally, our method can complete human reconstruction even with images captured by low-cost mobile devices, reducing the requirements for data collection. Demos and code are available at https://hustvl.github.io/Snap-Snap/.
- Abstract(参考訳): まばらな視点から3次元の人体を再構築することは魅力的なトピックであり、関連する応用を広げる上で重要である。
本稿では,人体を2つの画像,すなわち正面と後方の視点から再構築する上で,非常に困難だが価値のある課題を提案する。
主な課題は、3D一貫性の構築の難しさと、高度にスパースな入力から欠落した情報を回復することにある。
基礎再構成モデルに基づく幾何再構成モデルを再設計し, 入力画像においても, 広範囲なデータトレーニングとの重なりがほとんどない点雲を推定する。
さらに、色情報不足を補うために拡張アルゴリズムを適用し、色付き完全人点雲を得ることができ、直接3Dガウス変換によりレンダリング品質が向上する。
実験の結果,1台のNVIDIA RTX 4090上で190msで190msで再構築でき,解像度1024×1024の2枚の画像でTHuman2.0およびクロスデータセットデータセット上での最先端性能を示すことができた。
さらに,低コストなモバイルデバイスで撮影された画像であっても,人間の再構築を完了し,データ収集の要求を低減できる。
デモとコードはhttps://hustvl.github.io/Snap-Snap/.comで公開されている。
関連論文リスト
- Canonical Pose Reconstruction from Single Depth Image for 3D Non-rigid Pose Recovery on Limited Datasets [55.84702107871358]
2Dインプットからの3D再構成、特に人間のような非剛体オブジェクトは、ユニークな課題を提示する。
従来の手法は、変形空間全体をカバーするために広範囲なトレーニングデータを必要とする非剛体形状に苦しむことが多い。
本研究では,変形可能な形状の単一視点深度画像を標準形に変換する正準ポーズ再構成モデルを提案する。
論文 参考訳(メタデータ) (2025-05-23T14:58:34Z) - FAMOUS: High-Fidelity Monocular 3D Human Digitization Using View Synthesis [51.193297565630886]
テクスチャを正確に推測することの難しさは、特に正面視画像の人物の背中のような不明瞭な領域に残る。
このテクスチャ予測の制限は、大規模で多様な3Dデータセットの不足に起因する。
本稿では,3次元デジタル化におけるテクスチャと形状予測の両立を図るために,広範囲な2次元ファッションデータセットを活用することを提案する。
論文 参考訳(メタデータ) (2024-10-13T01:25:05Z) - UV Gaussians: Joint Learning of Mesh Deformation and Gaussian Textures for Human Avatar Modeling [71.87807614875497]
メッシュ変形と2次元UV空間のガウステクスチャを共同学習することで3次元人体をモデル化するUVガウスアンを提案する。
我々は,多視点画像,走査モデル,パラメトリックモデル登録,およびそれに対応するテクスチャマップを含む,人間の動作の新たなデータセットを収集し,処理する。
論文 参考訳(メタデータ) (2024-03-18T09:03:56Z) - SiTH: Single-view Textured Human Reconstruction with Image-Conditioned Diffusion [35.73448283467723]
SiTHは、イメージ条件付き拡散モデルと3Dメッシュ再構築ワークフローを統合する、新しいパイプラインである。
我々は、入力画像に基づいて、見えないバックビューの外観を幻覚させるために、強力な生成拡散モデルを用いる。
後者では,入力画像とバックビュー画像から全身のテクスチャメッシュを復元するためのガイダンスとして,肌付きボディーメッシュを利用する。
論文 参考訳(メタデータ) (2023-11-27T14:22:07Z) - High-fidelity 3D Human Digitization from Single 2K Resolution Images [16.29087820634057]
大規模な2K人間のデータセットを構築し、2K解像度画像から3次元人間のモデルを推定する2K2Kを提案する。
また, テクスチャマップ, 3Dジョイント, SMPLパラメータなど, 2,050個の人体モデルも提供する。
論文 参考訳(メタデータ) (2023-03-27T11:22:54Z) - NeuralReshaper: Single-image Human-body Retouching with Deep Neural
Networks [50.40798258968408]
本稿では,深部生成ネットワークを用いた単一画像における人体の意味的再構成手法であるNeuralReshaperを提案する。
われわれのアプローチは、まずパラメトリックな3次元人間モデルと元の人間の画像とを適合させるフィッティング・セイン・リフォーム・パイプラインに従う。
ペアデータが存在しないデータ不足に対処するために,ネットワークをトレーニングするための新たな自己教師型戦略を導入する。
論文 参考訳(メタデータ) (2022-03-20T09:02:13Z) - RIN: Textured Human Model Recovery and Imitation with a Single Image [4.87676530016726]
本稿では,1枚の画像からテクスチャ化された3Dモデルを構築するための新しいボリュームベースフレームワークを提案する。
具体的には、人間のテクスチャのほとんどを推定するために、U-Netのようなフロントエンド翻訳ネットワークを提案する。
実験の結果,人間の模倣には容積モデルが適切であることが示され,バックビューはネットワークを用いて確実に推定できることがわかった。
論文 参考訳(メタデータ) (2020-11-24T11:04:35Z) - Pose2Mesh: Graph Convolutional Network for 3D Human Pose and Mesh
Recovery from a 2D Human Pose [70.23652933572647]
本稿では,人間のメッシュ頂点の3次元座標を直接推定するグラフ畳み込みニューラルネットワーク(GraphCNN)を提案する。
我々のPose2Meshは、様々なベンチマークデータセットにおいて、以前の3次元人間のポーズとメッシュ推定方法よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-08-20T16:01:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。