論文の概要: HumanGif: Single-View Human Diffusion with Generative Prior
- arxiv url: http://arxiv.org/abs/2502.12080v2
- Date: Fri, 21 Feb 2025 16:03:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-24 12:50:06.792643
- Title: HumanGif: Single-View Human Diffusion with Generative Prior
- Title(参考訳): HumanGif: 生成優先の単一ビューヒューマン拡散
- Authors: Shoukang Hu, Takuya Narihira, Kazumi Fukuda, Ryosuke Sawata, Takashi Shibuya, Yuki Mitsufuji,
- Abstract要約: 本稿では, 先行生成に基づく単一ビューヒト拡散モデルであるHumanGifを提案する。
具体的には、単一ビューに基づく3次元人間の新しいビューを定式化し、単一ビュー条件のヒト拡散過程として合成する。
我々は,HumanGifが最高の知覚性能を達成し,新しい視点とポーズ合成の一般化性が向上したことを示す。
- 参考スコア(独自算出の注目度): 25.516544735593087
- License:
- Abstract: Previous 3D human creation methods have made significant progress in synthesizing view-consistent and temporally aligned results from sparse-view images or monocular videos. However, it remains challenging to produce perpetually realistic, view-consistent, and temporally coherent human avatars from a single image, as limited information is available in the single-view input setting. Motivated by the success of 2D character animation, we propose HumanGif, a single-view human diffusion model with generative prior. Specifically, we formulate the single-view-based 3D human novel view and pose synthesis as a single-view-conditioned human diffusion process, utilizing generative priors from foundational diffusion models to complement the missing information. To ensure fine-grained and consistent novel view and pose synthesis, we introduce a Human NeRF module in HumanGif to learn spatially aligned features from the input image, implicitly capturing the relative camera and human pose transformation. Furthermore, we introduce an image-level loss during optimization to bridge the gap between latent and image spaces in diffusion models. Extensive experiments on RenderPeople and DNA-Rendering datasets demonstrate that HumanGif achieves the best perceptual performance, with better generalizability for novel view and pose synthesis.
- Abstract(参考訳): 従来の3次元人体生成法は、スパースビュー画像やモノクラービデオから、ビュー一貫性と時間的に整合した結果を合成する上で大きな進歩を遂げてきた。
しかし、単一ビューの入力設定で限られた情報が得られるため、単一の画像から永久的に現実的で、視点に一貫性があり、時間的に一貫性のある人間のアバターを作成することは依然として困難である。
2次元キャラクタアニメーションの成功に触発され、生成前の単一ビューヒト拡散モデルであるHumanGifを提案する。
具体的には、単一視点に基づく3次元人間の新しいビューを定式化し、基本拡散モデルから生成した先行情報を利用して、不足情報を補完する単一ビュー条件のヒト拡散プロセスとして合成する。
そこで我々はHumanGifにHuman NeRFモジュールを導入し、入力画像から空間的に整列した特徴を学習し、相対カメラと人間のポーズ変換を暗黙的に捉えた。
さらに,拡散モデルにおける潜在空間と画像空間のギャップを埋めるために,最適化中の画像レベルの損失を導入する。
RenderPeople と DNA-Rendering データセットの大規模な実験により、HumanGif は、新しいビューやポーズ合成をより一般化し、最高の知覚性能を達成できることを示した。
関連論文リスト
- GAS: Generative Avatar Synthesis from a Single Image [54.95198111659466]
一つの画像からビュー一貫性と時間的コヒーレントなアバターを合成するための、一般化可能で統一されたフレームワークを導入する。
提案手法は, 回帰に基づく3次元再構成と拡散モデルの生成能力を組み合わせることで, このギャップを埋めるものである。
論文 参考訳(メタデータ) (2025-02-10T19:00:39Z) - WonderHuman: Hallucinating Unseen Parts in Dynamic 3D Human Reconstruction [51.22641018932625]
我々はWonderHumanをモノクラービデオから再構成し、高忠実なノベルビューの合成を行う。
提案手法は,与えられたモノクロ映像からフォトリアリスティックなレンダリングを生成する場合のSOTA性能を実現する。
論文 参考訳(メタデータ) (2025-02-03T04:43:41Z) - Human Multi-View Synthesis from a Single-View Model:Transferred Body and Face Representations [7.448124739584319]
人体と顔の表現を多視点合成に活用する革新的枠組みを提案する。
具体的には、大規模人間のデータセットに事前訓練された単一ビューモデルを用いて、多視点ボディ表現を開発する。
提案手法は現状の手法よりも優れており,多視点人間合成において優れた性能を発揮する。
論文 参考訳(メタデータ) (2024-12-04T04:02:17Z) - GeneMAN: Generalizable Single-Image 3D Human Reconstruction from Multi-Source Human Data [61.05815629606135]
高忠実度3Dモデルを構築するのが難しい課題です。
GeneMANは高品質な人間のデータを総合的に収集する。
GeneMANは、単一の画像入力から高品質な3Dモデルを生成することができ、最先端の手法よりも優れている。
論文 参考訳(メタデータ) (2024-11-27T18:59:54Z) - HumanSplat: Generalizable Single-Image Human Gaussian Splatting with Structure Priors [47.62426718293504]
HumanSplatは、単一の入力画像から、任意の人間の3次元ガウススプティング特性を予測する。
HumanSplatは、フォトリアリスティックなノベルビュー合成を実現するために、既存の最先端の手法を超越している。
論文 参考訳(メタデータ) (2024-06-18T10:05:33Z) - InceptionHuman: Controllable Prompt-to-NeRF for Photorealistic 3D Human Generation [61.62346472443454]
InceptionHumanは、異なるモードのプロンプトの組み合わせで簡単にコントロールでき、フォトリアリスティックな3D人間を生成することができるプロンプト・トゥ・NeRFフレームワークである。
InceptionHumanは、徐々に洗練されたNeRF空間内で、一貫した3Dヒューマン生成を実現する。
論文 参考訳(メタデータ) (2023-11-27T15:49:41Z) - Novel View Synthesis of Humans using Differentiable Rendering [50.57718384229912]
我々は新しいポーズで人々の新しい視点を合成するための新しいアプローチを提案する。
我々の合成はヒトの骨格構造を表す拡散ガウス原始体を用いる。
これらのプリミティブをレンダリングすると、高次元の潜像が得られ、デコーダネットワークによってRGBイメージに変換される。
論文 参考訳(メタデータ) (2023-03-28T10:48:33Z) - Human Pose Manipulation and Novel View Synthesis using Differentiable
Rendering [46.04980667824064]
我々は新しいポーズで人々の新しい視点を合成するための新しいアプローチを提案する。
我々の合成はヒトの骨格構造を表す拡散ガウス原始体を用いる。
これらのプリミティブをレンダリングすると、高次元の潜像が得られ、デコーダネットワークによってRGBイメージに変換される。
論文 参考訳(メタデータ) (2021-11-24T19:00:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。