論文の概要: SHERF: Generalizable Human NeRF from a Single Image
- arxiv url: http://arxiv.org/abs/2303.12791v1
- Date: Wed, 22 Mar 2023 17:59:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-23 13:11:40.322836
- Title: SHERF: Generalizable Human NeRF from a Single Image
- Title(参考訳): SHERF:1枚の画像から一般化可能なヒトのNeRF
- Authors: Shoukang Hu, Fangzhou Hong, Liang Pan, Haiyi Mei, Lei Yang, Ziwei Liu
- Abstract要約: SHERFは、単一の入力画像からアニマタブルな3D人間を復元するための、最初の一般化可能なヒトNeRFモデルである。
本稿では,情報符号化を容易にするために,グローバル,ポイントレベル,ピクセルアライン機能など3D対応の階層的特徴バンクを提案する。
- 参考スコア(独自算出の注目度): 36.951740574044074
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing Human NeRF methods for reconstructing 3D humans typically rely on
multiple 2D images from multi-view cameras or monocular videos captured from
fixed camera views. However, in real-world scenarios, human images are often
captured from random camera angles, presenting challenges for high-quality 3D
human reconstruction. In this paper, we propose SHERF, the first generalizable
Human NeRF model for recovering animatable 3D humans from a single input image.
SHERF extracts and encodes 3D human representations in canonical space,
enabling rendering and animation from free views and poses. To achieve
high-fidelity novel view and pose synthesis, the encoded 3D human
representations should capture both global appearance and local fine-grained
textures. To this end, we propose a bank of 3D-aware hierarchical features,
including global, point-level, and pixel-aligned features, to facilitate
informative encoding. Global features enhance the information extracted from
the single input image and complement the information missing from the partial
2D observation. Point-level features provide strong clues of 3D human
structure, while pixel-aligned features preserve more fine-grained details. To
effectively integrate the 3D-aware hierarchical feature bank, we design a
feature fusion transformer. Extensive experiments on THuman, RenderPeople,
ZJU_MoCap, and HuMMan datasets demonstrate that SHERF achieves state-of-the-art
performance, with better generalizability for novel view and pose synthesis.
- Abstract(参考訳): 既存の3D人間を再構築するためのNeRF法は、通常、複数のビューカメラからの複数の2D画像や固定カメラビューから撮影されたモノクロビデオに依存している。
しかし、現実のシナリオでは、人間の画像はしばしばランダムなカメラアングルから捉えられ、高品質な3d人間の再構築に挑戦する。
本稿では,1つの入力画像からアニマタブルな3D人間を復元するための,最初の一般化可能なヒトNeRFモデルであるSHERFを提案する。
SHERFは、標準空間における3D人間の表現を抽出し、符号化し、自由なビューとポーズからレンダリングとアニメーションを可能にする。
高忠実なノベルビューとポーズ合成を実現するために、符号化された3次元人間の表現は、グローバルな外観と局所的なきめ細かいテクスチャの両方を捉える必要がある。
そこで本稿では,情報エンコーディングを容易にするために,グローバル,ポイントレベル,ピクセルアライメントなどの3d対応階層的特徴のバンクを提案する。
グローバル特徴は、単一入力画像から抽出された情報を強化し、部分2次元観測から欠落した情報を補完する。
ポイントレベルの特徴は、人間の3D構造の強力な手がかりとなる。
3D対応の階層的特徴バンクを効果的に統合するために,特徴融合変換器を設計する。
THuman, RenderPeople, ZJU_MoCap, HuMManデータセットの大規模な実験は、SHERFが最先端のパフォーマンスを達成し、新しいビューやポーズ合成の一般化性が向上していることを示している。
関連論文リスト
- Guess The Unseen: Dynamic 3D Scene Reconstruction from Partial 2D Glimpses [9.529416246409355]
本研究では,モノクロ映像から世界と複数の動的人間を3次元に再構成する手法を提案する。
キーとなるアイデアとして、最近出現した3Dガウススプラッティング(3D-GS)表現を通じて、世界と複数の人間の両方を表現します。
論文 参考訳(メタデータ) (2024-04-22T17:59:50Z) - InceptionHuman: Controllable Prompt-to-NeRF for Photorealistic 3D Human Generation [61.62346472443454]
InceptionHumanは、異なるモードのプロンプトの組み合わせで簡単にコントロールでき、フォトリアリスティックな3D人間を生成することができるプロンプト・トゥ・NeRFフレームワークである。
InceptionHumanは、徐々に洗練されたNeRF空間内で、一貫した3Dヒューマン生成を実現する。
論文 参考訳(メタデータ) (2023-11-27T15:49:41Z) - Single-Image 3D Human Digitization with Shape-Guided Diffusion [31.99621159464388]
NeRFとその変種は通常、異なる視点からのビデオや画像を必要とする。
単一入力画像から一貫した高解像度の外観を持つ人物の360度映像を生成する手法を提案する。
論文 参考訳(メタデータ) (2023-11-15T18:59:56Z) - DreamAvatar: Text-and-Shape Guided 3D Human Avatar Generation via
Diffusion Models [55.71306021041785]
高品質な3Dアバターを作成するためのテキスト・アンド・シェイプ・ガイドフレームワークであるDreamAvatarについて紹介する。
SMPLモデルを利用して、生成のための形状とポーズのガイダンスを提供する。
また、全体とズームインした3Dヘッドから計算した損失を共同で最適化し、一般的なマルチフェイス「Janus」問題を緩和する。
論文 参考訳(メタデータ) (2023-04-03T12:11:51Z) - 3DHumanGAN: 3D-Aware Human Image Generation with 3D Pose Mapping [37.14866512377012]
3DHumanGAN(3DHumanGAN)は、全身の人間の写実的な画像を合成する3D対応の対向ネットワークである。
本稿では,3次元ポーズマッピングネットワークによって2次元畳み込みバックボーンを変調する新しいジェネレータアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-12-14T17:59:03Z) - Vision Transformer for NeRF-Based View Synthesis from a Single Input
Image [49.956005709863355]
本稿では,グローバルな特徴と局所的な特徴を両立させ,表現力のある3D表現を実現することを提案する。
新たなビューを合成するために,学習した3次元表現に条件付き多層パーセプトロン(MLP)ネットワークを訓練し,ボリュームレンダリングを行う。
提案手法は,1つの入力画像のみから新しいビューを描画し,複数のオブジェクトカテゴリを1つのモデルで一般化することができる。
論文 参考訳(メタデータ) (2022-07-12T17:52:04Z) - DRaCoN -- Differentiable Rasterization Conditioned Neural Radiance
Fields for Articulated Avatars [92.37436369781692]
フルボディの体積アバターを学習するためのフレームワークであるDRaCoNを提案する。
2Dと3Dのニューラルレンダリング技術の利点を利用する。
挑戦的なZJU-MoCapとHuman3.6Mデータセットの実験は、DRaCoNが最先端の手法より優れていることを示している。
論文 参考訳(メタデータ) (2022-03-29T17:59:15Z) - 3D-Aware Semantic-Guided Generative Model for Human Synthesis [67.86621343494998]
本稿では,人間の画像合成のための3D-SGAN(Semantic-Guided Generative Model)を提案する。
DeepFashionデータセットに関する我々の実験は、3D-SGANが最新のベースラインを大きく上回っていることを示している。
論文 参考訳(メタデータ) (2021-12-02T17:10:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。