論文の概要: Single-View 3D Human Digitalization with Large Reconstruction Models
- arxiv url: http://arxiv.org/abs/2401.12175v1
- Date: Mon, 22 Jan 2024 18:08:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-23 13:01:23.424491
- Title: Single-View 3D Human Digitalization with Large Reconstruction Models
- Title(参考訳): 大規模再構成モデルを用いた1次元人体デジタル化
- Authors: Zhenzhen Weng, Jingyuan Liu, Hao Tan, Zhan Xu, Yang Zhou, Serena
Yeung-Levy, Jimei Yang
- Abstract要約: 我々は,1つの画像から人間のニューラルレージアンス場(NeRF)を予測するために設計された,単一段階のフィードフォワード大再構成モデルであるHuman-LRMを紹介する。
提案手法は3次元スキャンとマルチビューキャプチャを含む広範囲なデータセットを用いたトレーニングにおける顕著な適応性を示す。
- 参考スコア(独自算出の注目度): 30.59507183521878
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we introduce Human-LRM, a single-stage feed-forward Large
Reconstruction Model designed to predict human Neural Radiance Fields (NeRF)
from a single image. Our approach demonstrates remarkable adaptability in
training using extensive datasets containing 3D scans and multi-view capture.
Furthermore, to enhance the model's applicability for in-the-wild scenarios
especially with occlusions, we propose a novel strategy that distills
multi-view reconstruction into single-view via a conditional triplane diffusion
model. This generative extension addresses the inherent variations in human
body shapes when observed from a single view, and makes it possible to
reconstruct the full body human from an occluded image. Through extensive
experiments, we show that Human-LRM surpasses previous methods by a significant
margin on several benchmarks.
- Abstract(参考訳): 本稿では,1つの画像から人間のニューラルレージアンス場(NeRF)を予測するために設計された1段階フィードフォワード大再構成モデルであるHuman-LRMを紹介する。
3dスキャンとマルチビューキャプチャを含む広範なデータセットを用いて,トレーニングにおいて顕著な適応性を示す。
さらに,オクルージョンにおいて特にワイルドシナリオに対するモデルの適用性を高めるため,条件付き三面拡散モデルを用いて多視点再構成を単一視点に蒸留する新しい手法を提案する。
この生成的拡張は、1つの視点から観察すると、人体の形状に固有の変化に対処し、オクルードされた画像から全身の人体を再構築することができる。
大規模な実験により,Human-LRMはいくつかのベンチマークにおいて,従来の手法をはるかに上回っていることがわかった。
関連論文リスト
- 3D Human Reconstruction in the Wild with Synthetic Data Using Generative Models [52.96248836582542]
本稿では,人間の画像とそれに対応する3Dメッシュアノテーションをシームレスに生成できるHumanWildという,最近の拡散モデルに基づく効果的なアプローチを提案する。
生成モデルを排他的に活用することにより,大規模な人体画像と高品質なアノテーションを生成し,実世界のデータ収集の必要性を解消する。
論文 参考訳(メタデータ) (2024-03-17T06:31:16Z) - CRM: Single Image to 3D Textured Mesh with Convolutional Reconstruction
Model [37.75256020559125]
本稿では,高忠実度フィードフォワード画像から3次元画像生成モデルを提案する。
ネットワーク設計に幾何学的事前情報を統合する必要性を強調した。
我々のモデルは、テストタイムの最適化なしに、画像から10秒で高忠実なテクスチャメッシュを提供する。
論文 参考訳(メタデータ) (2024-03-08T04:25:29Z) - Deceptive-Human: Prompt-to-NeRF 3D Human Generation with 3D-Consistent
Synthetic Images [67.31920821192323]
Deceptive-Humanは、最先端の制御拡散モデル(ControlNetなど)を利用して高品質な制御可能な3D NeRFを生成する新しいフレームワークである。
提案手法は,テキストプロンプトや3Dメッシュ,ポーズ,シード画像などの付加データを含む,汎用的で容易に収容できる。
結果として得られる3D人間のNeRFモデルは、360度の視点から高光写実性ビューの合成を促進する。
論文 参考訳(メタデータ) (2023-11-27T15:49:41Z) - Single-Stage Diffusion NeRF: A Unified Approach to 3D Generation and
Reconstruction [77.69363640021503]
3D対応画像合成は、シーン生成や画像からの新規ビュー合成など、様々なタスクを含む。
本稿では,様々な物体の多視点画像から,ニューラルラディアンス場(NeRF)の一般化可能な事前学習を行うために,表現拡散モデルを用いた統一的アプローチであるSSDNeRFを提案する。
論文 参考訳(メタデータ) (2023-04-13T17:59:01Z) - GM-NeRF: Learning Generalizable Model-based Neural Radiance Fields from
Multi-view Images [79.39247661907397]
本稿では,自由視点画像の合成に有効なフレームワークであるGeneralizable Model-based Neural Radiance Fieldsを提案する。
具体的には、多視点2D画像からの出現コードを幾何学的プロキシに登録するための幾何学誘導型アテンション機構を提案する。
論文 参考訳(メタデータ) (2023-03-24T03:32:02Z) - NeRDi: Single-View NeRF Synthesis with Language-Guided Diffusion as
General Image Priors [24.05480789681139]
本研究では,2次元拡散モデルから一般的な画像の事前処理が可能な単一視点NeRF合成フレームワークNeRDiを提案する。
市販の視覚言語モデルを活用し、拡散モデルに条件付け入力として2節言語ガイダンスを導入する。
In-the-wild画像に対するゼロショットNeRF合成における一般化可能性も示す。
論文 参考訳(メタデータ) (2022-12-06T19:00:07Z) - NeuralReshaper: Single-image Human-body Retouching with Deep Neural
Networks [50.40798258968408]
本稿では,深部生成ネットワークを用いた単一画像における人体の意味的再構成手法であるNeuralReshaperを提案する。
われわれのアプローチは、まずパラメトリックな3次元人間モデルと元の人間の画像とを適合させるフィッティング・セイン・リフォーム・パイプラインに従う。
ペアデータが存在しないデータ不足に対処するために,ネットワークをトレーニングするための新たな自己教師型戦略を導入する。
論文 参考訳(メタデータ) (2022-03-20T09:02:13Z) - Multi-person Implicit Reconstruction from a Single Image [37.6877421030774]
本稿では,1つの画像から複数の人物の詳細な空間的コヒーレントな再構築を実現するための新しいエンドツーエンド学習フレームワークを提案する。
既存のマルチパーソンメソッドは、モデルベースで、ゆるい服と髪の人々の正確な3dモデルをキャプチャできないことが多いという、2つの大きな欠点を抱えている。
論文 参考訳(メタデータ) (2021-04-19T13:21:55Z) - 3D Multi-bodies: Fitting Sets of Plausible 3D Human Models to Ambiguous
Image Data [77.57798334776353]
単眼・部分閉塞視からヒトの高密度3次元再構成を実現することの問題点を考察する。
身体の形状やポーズをパラメータ化することで、あいまいさをより効果的にモデル化できることを示唆する。
提案手法は, 3次元人間の標準ベンチマークにおいて, あいまいなポーズ回復において, 代替手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-11-02T13:55:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。