論文の概要: InceptionHuman: Controllable Prompt-to-NeRF for Photorealistic 3D Human Generation
- arxiv url: http://arxiv.org/abs/2311.16499v2
- Date: Tue, 6 Aug 2024 06:31:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-07 19:31:50.240954
- Title: InceptionHuman: Controllable Prompt-to-NeRF for Photorealistic 3D Human Generation
- Title(参考訳): InceptionHuman:フォトリアリスティックな3Dヒューマンジェネレーションのための制御可能なPrompt-to-NeRF
- Authors: Shiu-hong Kao, Xinhang Liu, Yu-Wing Tai, Chi-Keung Tang,
- Abstract要約: InceptionHumanは、異なるモードのプロンプトの組み合わせで簡単にコントロールでき、フォトリアリスティックな3D人間を生成することができるプロンプト・トゥ・NeRFフレームワークである。
InceptionHumanは、徐々に洗練されたNeRF空間内で、一貫した3Dヒューマン生成を実現する。
- 参考スコア(独自算出の注目度): 61.62346472443454
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents InceptionHuman, a prompt-to-NeRF framework that allows easy control via a combination of prompts in different modalities (e.g., text, poses, edge, segmentation map, etc) as inputs to generate photorealistic 3D humans. While many works have focused on generating 3D human models, they suffer one or more of the following: lack of distinctive features, unnatural shading/shadows, unnatural poses/clothes, limited views, etc. InceptionHuman achieves consistent 3D human generation within a progressively refined NeRF space with two novel modules, Iterative Pose-Aware Refinement (IPAR) and Progressive-Augmented Reconstruction (PAR). IPAR iteratively refines the diffusion-generated images and synthesizes high-quality 3D-aware views considering the close-pose RGB values. PAR employs a pretrained diffusion prior to augment the generated synthetic views and adds regularization for view-independent appearance. Overall, the synthesis of photorealistic novel views empowers the resulting 3D human NeRF from 360-degree perspectives. Extensive qualitative and quantitative experimental comparison show that our InceptionHuman models achieve state-of-the-art application quality.
- Abstract(参考訳): 本稿では,テキスト,ポーズ,エッジ,セグメンテーションマップなど)のプロンプトを入力として組み合わせて,フォトリアリスティックな3次元人間を生成することで,容易に制御できるインセプション・トゥ・NeRFフレームワークであるInceptionHumanについて述べる。
多くの作品では3Dモデルの作成に重点を置いているが、特徴の欠如、非自然的なシェーディング/シャドウ、非自然的なポーズ/衣服、限られたビューなど、ひとつ以上の問題に悩まされている。
InceptionHumanは、2つの新しいモジュール、Iterative Pose-Aware Refinement(IPAR)とProgressive-Augmented Restruction(PAR)で、高度に洗練されたNeRF空間内で一貫した3Dヒューマン生成を実現する。
IPARは拡散生成画像を反復的に洗練し、RGBの近接値を考慮した高品質な3D認識ビューを合成する。
PARは生成した合成ビューを増やす前に事前訓練された拡散を使用し、ビューに依存しない外観の正規化を追加する。
全体として、フォトリアリスティック・ノベルビューの合成は、360度の視点から得られる3D人間のNeRFを促進する。
我々のInceptionHumanモデルが最先端のアプリケーション品質を実現していることを示す。
関連論文リスト
- Progress and Prospects in 3D Generative AI: A Technical Overview
including 3D human [51.58094069317723]
本稿は,2023年後半に主に刊行された関連論文の概要と概要を概説することを目的とする。
最初は、AIが生成したオブジェクトモデルを3Dで議論し、続いて生成された3Dの人間モデル、そして最後に生成された3Dの人間の動きを、決定的な要約と未来へのビジョンで結論付ける。
論文 参考訳(メタデータ) (2024-01-05T03:41:38Z) - HumanRef: Single Image to 3D Human Generation via Reference-Guided
Diffusion [53.1558345421646]
単一ビュー入力から3次元のヒューマン生成フレームワークであるHumanRefを提案する。
生成した3Dモデルが入力画像と光写実的に整合していることを保証するため、HumanRefは参照誘導スコア蒸留サンプリングと呼ばれる新しい手法を導入した。
実験結果から,HumanRefは3D衣服を製作する上で,最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2023-11-28T17:06:28Z) - Single-Image 3D Human Digitization with Shape-Guided Diffusion [31.99621159464388]
NeRFとその変種は通常、異なる視点からのビデオや画像を必要とする。
単一入力画像から一貫した高解像度の外観を持つ人物の360度映像を生成する手法を提案する。
論文 参考訳(メタデータ) (2023-11-15T18:59:56Z) - SHERF: Generalizable Human NeRF from a Single Image [59.10589479808622]
SHERFは、単一の入力画像からアニマタブルな3D人間を復元するための、最初の一般化可能なヒトNeRFモデルである。
本稿では,情報符号化を容易にするために,グローバル,ポイントレベル,ピクセルアライン機能など3D対応の階層的特徴バンクを提案する。
論文 参考訳(メタデータ) (2023-03-22T17:59:12Z) - Refining 3D Human Texture Estimation from a Single Image [3.8761064607384195]
1枚の画像から3次元の人間のテクスチャを推定することは、グラフィックと視覚に不可欠である。
本稿では,オフセットが深層ニューラルネットワークを介して学習される変形可能な畳み込みによって,入力を適応的にサンプリングするフレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-06T19:53:50Z) - HDHumans: A Hybrid Approach for High-fidelity Digital Humans [107.19426606778808]
HDHumansは、正確な時間的コヒーレントな3D変形面を共同で生成する、HDヒューマン文字合成の最初の方法である。
我々の手法は、古典的表面変形とニューラル放射場(NeRF)の相乗効果を達成するために慎重に設計されている。
論文 参考訳(メタデータ) (2022-10-21T14:42:11Z) - Human View Synthesis using a Single Sparse RGB-D Input [16.764379184593256]
本稿では,RGB-Dが疎い単一ビューセンサから取得した映像からリアルなレンダリングを生成するための,新しいビュー合成フレームワークを提案する。
エンハンサーネットワークは、元のビューから隠された領域でも全体の忠実さを活用し、細部まで細部までクリップレンダリングを生成する。
論文 参考訳(メタデータ) (2021-12-27T20:13:53Z) - 3D-Aware Semantic-Guided Generative Model for Human Synthesis [67.86621343494998]
本稿では,人間の画像合成のための3D-SGAN(Semantic-Guided Generative Model)を提案する。
DeepFashionデータセットに関する我々の実験は、3D-SGANが最新のベースラインを大きく上回っていることを示している。
論文 参考訳(メタデータ) (2021-12-02T17:10:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。