論文の概要: HyperHuman: Hyper-Realistic Human Generation with Latent Structural
Diffusion
- arxiv url: http://arxiv.org/abs/2310.08579v1
- Date: Thu, 12 Oct 2023 17:59:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-14 08:14:07.125423
- Title: HyperHuman: Hyper-Realistic Human Generation with Latent Structural
Diffusion
- Title(参考訳): HyperHuman: 潜在構造拡散を伴う超現実的ヒューマンジェネレーション
- Authors: Xian Liu, Jian Ren, Aliaksandr Siarohin, Ivan Skorokhodov, Yanyu Li,
Dahua Lin, Xihui Liu, Ziwei Liu, Sergey Tulyakov
- Abstract要約: 本稿では,高リアリズムと多彩なレイアウトの人体画像を生成する統一的なフレームワークHyperHumanを提案する。
本モデルは,統合ネットワークにおける画像の外観,空間的関係,幾何学の連成学習を強制する。
我々のフレームワークは最先端の性能を生み出し、多様なシナリオ下で超現実的な人間の画像を生成する。
- 参考スコア(独自算出の注目度): 117.95224531331142
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite significant advances in large-scale text-to-image models, achieving
hyper-realistic human image generation remains a desirable yet unsolved task.
Existing models like Stable Diffusion and DALL-E 2 tend to generate human
images with incoherent parts or unnatural poses. To tackle these challenges,
our key insight is that human image is inherently structural over multiple
granularities, from the coarse-level body skeleton to fine-grained spatial
geometry. Therefore, capturing such correlations between the explicit
appearance and latent structure in one model is essential to generate coherent
and natural human images. To this end, we propose a unified framework,
HyperHuman, that generates in-the-wild human images of high realism and diverse
layouts. Specifically, 1) we first build a large-scale human-centric dataset,
named HumanVerse, which consists of 340M images with comprehensive annotations
like human pose, depth, and surface normal. 2) Next, we propose a Latent
Structural Diffusion Model that simultaneously denoises the depth and surface
normal along with the synthesized RGB image. Our model enforces the joint
learning of image appearance, spatial relationship, and geometry in a unified
network, where each branch in the model complements to each other with both
structural awareness and textural richness. 3) Finally, to further boost the
visual quality, we propose a Structure-Guided Refiner to compose the predicted
conditions for more detailed generation of higher resolution. Extensive
experiments demonstrate that our framework yields the state-of-the-art
performance, generating hyper-realistic human images under diverse scenarios.
Project Page: https://snap-research.github.io/HyperHuman/
- Abstract(参考訳): 大規模テキストから画像へのモデルの大幅な進歩にもかかわらず、超現実主義的な人間の画像生成は望ましいが未解決の課題である。
安定拡散やDALL-E 2のような既存のモデルは、不整合部分や不自然なポーズを持つ人間の画像を生成する傾向がある。
これらの課題に取り組むために、私たちの重要な洞察は、人間のイメージは本質的に、粗いボディスケルトンからきめ細かい空間幾何学まで、複数の粒度にまたがる構造であるということです。
したがって、1つのモデルにおける明示的な外観と潜伏構造との相関を捉えることは、コヒーレントで自然な人間の画像を生成するのに不可欠である。
そこで本研究では,高リアリズムと多彩なレイアウトの人体画像を生成する統一的なフレームワークHyperHumanを提案する。
具体的には
1)人間中心の大規模なデータセット、HumanVerseは、人間のポーズ、深さ、表面正常といった包括的なアノテーションを備えた3億4000万の画像で構成されています。
2) 次に,合成したrgb画像と共に深さと表面正規値を同時に発声する潜在構造拡散モデルを提案する。
本モデルでは,画像の出現,空間的関係,幾何の共学習を統一ネットワークで実施し,モデル内の各ブランチが構造認識とテクスチャ豊かさの両方で相互補完する。
3) さらに視覚的品質を高めるために,より詳細な高分解能発生のための予測条件を構成する構造ガイド精錬機を提案する。
大規模な実験により、我々のフレームワークは最先端の性能を示し、多様なシナリオ下で超現実的な人間の画像を生成する。
プロジェクトページ: https://snap-research.github.io/hyperhuman/
関連論文リスト
- Single Image, Any Face: Generalisable 3D Face Generation [59.9369171926757]
我々は,制約のない単一画像入力を伴う3次元顔を生成する新しいモデルGen3D-Faceを提案する。
私たちの知る限りでは、これは1枚の画像からフォトリアリスティックな3D顔アバターを作るための最初の試みであり、ベンチマークである。
論文 参考訳(メタデータ) (2024-09-25T14:56:37Z) - PSHuman: Photorealistic Single-view Human Reconstruction using Cross-Scale Diffusion [43.850899288337025]
PSHumanは、マルチビュー拡散モデルから事前情報を利用した人間のメッシュを明示的に再構築する新しいフレームワークである。
単視点の人間の画像に直接多視点拡散を適用すると、厳密な幾何学的歪みが生じることが判明した。
そこで我々は, SMPL-Xのようなパラメトリックモデルを用いて, 人間のポーズの断面形状の整合性を高めるために, 生成モデルを定式化した。
論文 参考訳(メタデータ) (2024-09-16T10:13:06Z) - HumanSplat: Generalizable Single-Image Human Gaussian Splatting with Structure Priors [47.62426718293504]
HumanSplatは、単一の入力画像から、任意の人間の3次元ガウススプティング特性を予測する。
HumanSplatは、フォトリアリスティックなノベルビュー合成を実現するために、既存の最先端の手法を超越している。
論文 参考訳(メタデータ) (2024-06-18T10:05:33Z) - StructLDM: Structured Latent Diffusion for 3D Human Generation [45.51684124904457]
StructLDMは2次元画像から学習した拡散に基づく非条件の人間の生成モデルである。
ポーズ/ビュー/シェイプコントロールや、合成世代、部品認識の衣服編集、3Dバーチャルトライオンなどのハイレベルなタスクなど、さまざまなレベルのコントロール可能な3Dヒューマン生成と編集を可能にする。
論文 参考訳(メタデータ) (2024-04-01T17:00:18Z) - Towards Effective Usage of Human-Centric Priors in Diffusion Models for
Text-based Human Image Generation [24.49857926071974]
バニラテキスト画像拡散モデルでは、正確な人間の画像を生成するのに苦労する。
既存のメソッドは、主に余分なイメージでモデルを微調整したり、追加のコントロールを追加することでこの問題に対処する。
本稿では,人間中心の先行概念のモデル微調整段階への直接統合について検討する。
論文 参考訳(メタデータ) (2024-03-08T11:59:32Z) - InceptionHuman: Controllable Prompt-to-NeRF for Photorealistic 3D Human Generation [61.62346472443454]
InceptionHumanは、異なるモードのプロンプトの組み合わせで簡単にコントロールでき、フォトリアリスティックな3D人間を生成することができるプロンプト・トゥ・NeRFフレームワークである。
InceptionHumanは、徐々に洗練されたNeRF空間内で、一貫した3Dヒューマン生成を実現する。
論文 参考訳(メタデータ) (2023-11-27T15:49:41Z) - Pose Guided Human Image Synthesis with Partially Decoupled GAN [25.800174118151638]
Pose Guided Human Image Synthesis (PGHIS) は、人間のイメージを基準ポーズから目標ポーズへ変換する難しいタスクである。
本研究では,人体を複数の部分に分解し,現実的な人物像の合成を誘導する手法を提案する。
さらに,PGHISのためのマルチヘッドアテンションベースモジュールを設計する。
論文 参考訳(メタデータ) (2022-10-07T15:31:37Z) - Generalizable Neural Performer: Learning Robust Radiance Fields for
Human Novel View Synthesis [52.720314035084215]
この研究は、一般のディープラーニングフレームワークを使用して、任意の人間の演奏者の自由視点画像を合成することを目的としている。
我々は、汎用的で堅牢な神経体表現を学習するシンプルな、かつ強力なフレームワーク、Generalizable Neural Performer(GNR)を提案する。
GeneBody-1.0とZJU-Mocapの実験は、最近の最先端の一般化可能な手法よりも、我々の手法の堅牢性を示している。
論文 参考訳(メタデータ) (2022-04-25T17:14:22Z) - SparseFusion: Dynamic Human Avatar Modeling from Sparse RGBD Images [49.52782544649703]
本稿では,RGBDフレームのスパース集合に基づく3次元人体形状の再構築手法を提案する。
主な課題は、これらのスパースフレームを標準的な3Dモデルにしっかりと融合させる方法だ。
私たちのフレームワークは柔軟で、潜在的なアプリケーションは形状の再構築を超えています。
論文 参考訳(メタデータ) (2020-06-05T18:53:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。