Fugu-MT 論文翻訳(概要): Single-View 3D Human Digitalization with Large Reconstruction Models

論文の概要: Single-View 3D Human Digitalization with Large Reconstruction Models

arxiv url: http://arxiv.org/abs/2401.12175v1
Date: Mon, 22 Jan 2024 18:08:22 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-23 13:01:23.424491
Title: Single-View 3D Human Digitalization with Large Reconstruction Models
Title（参考訳）: 大規模再構成モデルを用いた1次元人体デジタル化
Authors: Zhenzhen Weng, Jingyuan Liu, Hao Tan, Zhan Xu, Yang Zhou, Serena Yeung-Levy, Jimei Yang
Abstract要約: 我々は,1つの画像から人間のニューラルレージアンス場(NeRF)を予測するために設計された,単一段階のフィードフォワード大再構成モデルであるHuman-LRMを紹介する。提案手法は3次元スキャンとマルチビューキャプチャを含む広範囲なデータセットを用いたトレーニングにおける顕著な適応性を示す。
参考スコア（独自算出の注目度）: 30.59507183521878
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this paper, we introduce Human-LRM, a single-stage feed-forward Large Reconstruction Model designed to predict human Neural Radiance Fields (NeRF) from a single image. Our approach demonstrates remarkable adaptability in training using extensive datasets containing 3D scans and multi-view capture. Furthermore, to enhance the model's applicability for in-the-wild scenarios especially with occlusions, we propose a novel strategy that distills multi-view reconstruction into single-view via a conditional triplane diffusion model. This generative extension addresses the inherent variations in human body shapes when observed from a single view, and makes it possible to reconstruct the full body human from an occluded image. Through extensive experiments, we show that Human-LRM surpasses previous methods by a significant margin on several benchmarks.
Abstract（参考訳）: 本稿では,1つの画像から人間のニューラルレージアンス場(NeRF)を予測するために設計された1段階フィードフォワード大再構成モデルであるHuman-LRMを紹介する。 3dスキャンとマルチビューキャプチャを含む広範なデータセットを用いて,トレーニングにおいて顕著な適応性を示す。さらに,オクルージョンにおいて特にワイルドシナリオに対するモデルの適用性を高めるため,条件付き三面拡散モデルを用いて多視点再構成を単一視点に蒸留する新しい手法を提案する。この生成的拡張は、1つの視点から観察すると、人体の形状に固有の変化に対処し、オクルードされた画像から全身の人体を再構築することができる。大規模な実験により,Human-LRMはいくつかのベンチマークにおいて,従来の手法をはるかに上回っていることがわかった。

関連論文リスト

HumanDreamer-X: Photorealistic Single-image Human Avatars Reconstruction via Gaussian Restoration [29.03216532351979]
textbfHumanDreamer-Xは、マルチビューのヒューマン生成と再構築を統合パイプラインに統合する新しいフレームワークである。このフレームワークでは、初期幾何学と外観優先を提供するために、3Dガウススプラッティングが明示的な3D表現として機能する。また,多視点にわたる幾何的細部アイデンティティの整合性を効果的に向上するアテンション変調戦略を提案する。
論文参考訳（メタデータ） (2025-04-04T15:35:14Z)
MVD-HuGaS: Human Gaussians from a Single Image via 3D Human Multi-view Diffusion Prior [35.704591162502375]
EmphMVD-HuGaSは,複数視点の人体拡散モデルを用いて,単一の画像から自由視点の3Dレンダリングを可能にする。 T Human2.0と2K2Kデータセットの実験により、提案されたMVD-HuGaSは、単一ビューの3Dレンダリングで最先端のパフォーマンスを達成することが示された。
論文参考訳（メタデータ） (2025-03-11T09:37:15Z)
GAS: Generative Avatar Synthesis from a Single Image [54.95198111659466]
一つの画像からビュー一貫性と時間的コヒーレントなアバターを合成するための、一般化可能で統一されたフレームワークを導入する。提案手法は, 回帰に基づく3次元再構成と拡散モデルの生成能力を組み合わせることで, このギャップを埋めるものである。
論文参考訳（メタデータ） (2025-02-10T19:00:39Z)
DiHuR: Diffusion-Guided Generalizable Human Reconstruction [51.31232435994026]
一般化可能なヒト3次元再構成のための拡散誘導モデルであるDiHuRを導入し,スパース・ミニマル・オーバーラップ画像からのビュー合成について述べる。提案手法は, 一般化可能なフィードフォワードモデルと2次元拡散モデルとの2つのキー前処理をコヒーレントな方法で統合する。
論文参考訳（メタデータ） (2024-11-16T03:52:23Z)
PSHuman: Photorealistic Single-view Human Reconstruction using Cross-Scale Diffusion [43.850899288337025]
PSHumanは、マルチビュー拡散モデルから事前情報を利用した人間のメッシュを明示的に再構築する新しいフレームワークである。単視点の人間の画像に直接多視点拡散を適用すると、厳密な幾何学的歪みが生じることが判明した。そこで我々は, SMPL-Xのようなパラメトリックモデルを用いて, 人間のポーズの断面形状の整合性を高めるために, 生成モデルを定式化した。
論文参考訳（メタデータ） (2024-09-16T10:13:06Z)
MagicMan: Generative Novel View Synthesis of Humans with 3D-Aware Diffusion and Iterative Refinement [23.707586182294932]
単一画像再構成における既存の作業は、訓練データ不足や総合的な多視点知識の欠如による3次元不整合により、弱い一般化性に悩まされている。単一の参照画像から高品質な新規ビュー画像を生成するために設計された,人間固有の多視点拡散モデルであるMagicManを紹介する。
論文参考訳（メタデータ） (2024-08-26T12:10:52Z)
Generalizable Human Gaussians from Single-View Image [52.100234836129786]
単視点一般化可能なHuman Gaussian Model(HGM)を導入する。提案手法では, 粗い予測されたヒトガウスの背景画像を改良するために, ControlNet を用いる。非現実的な人間のポーズや形状の潜在的な発生を緩和するために、SMPL-Xモデルからの人間の先行を二重分岐として組み込む。
論文参考訳（メタデータ） (2024-06-10T06:38:11Z)
Single-Stage Diffusion NeRF: A Unified Approach to 3D Generation and Reconstruction [77.69363640021503]
3D対応画像合成は、シーン生成や画像からの新規ビュー合成など、様々なタスクを含む。本稿では,様々な物体の多視点画像から,ニューラルラディアンス場(NeRF)の一般化可能な事前学習を行うために,表現拡散モデルを用いた統一的アプローチであるSSDNeRFを提案する。
論文参考訳（メタデータ） (2023-04-13T17:59:01Z)
GM-NeRF: Learning Generalizable Model-based Neural Radiance Fields from Multi-view Images [79.39247661907397]
本稿では,自由視点画像の合成に有効なフレームワークであるGeneralizable Model-based Neural Radiance Fieldsを提案する。具体的には、多視点2D画像からの出現コードを幾何学的プロキシに登録するための幾何学誘導型アテンション機構を提案する。
論文参考訳（メタデータ） (2023-03-24T03:32:02Z)
NeRDi: Single-View NeRF Synthesis with Language-Guided Diffusion as General Image Priors [24.05480789681139]
本研究では,2次元拡散モデルから一般的な画像の事前処理が可能な単一視点NeRF合成フレームワークNeRDiを提案する。市販の視覚言語モデルを活用し、拡散モデルに条件付け入力として2節言語ガイダンスを導入する。 In-the-wild画像に対するゼロショットNeRF合成における一般化可能性も示す。
論文参考訳（メタデータ） (2022-12-06T19:00:07Z)
NeuralReshaper: Single-image Human-body Retouching with Deep Neural Networks [50.40798258968408]
本稿では,深部生成ネットワークを用いた単一画像における人体の意味的再構成手法であるNeuralReshaperを提案する。われわれのアプローチは、まずパラメトリックな3次元人間モデルと元の人間の画像とを適合させるフィッティング・セイン・リフォーム・パイプラインに従う。ペアデータが存在しないデータ不足に対処するために,ネットワークをトレーニングするための新たな自己教師型戦略を導入する。
論文参考訳（メタデータ） (2022-03-20T09:02:13Z)
3D Multi-bodies: Fitting Sets of Plausible 3D Human Models to Ambiguous Image Data [77.57798334776353]
単眼・部分閉塞視からヒトの高密度3次元再構成を実現することの問題点を考察する。身体の形状やポーズをパラメータ化することで、あいまいさをより効果的にモデル化できることを示唆する。提案手法は, 3次元人間の標準ベンチマークにおいて, あいまいなポーズ回復において, 代替手法よりも優れていることを示す。
論文参考訳（メタデータ） (2020-11-02T13:55:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。