論文の概要: MVHuman: Tailoring 2D Diffusion with Multi-view Sampling For Realistic
3D Human Generation
- arxiv url: http://arxiv.org/abs/2312.10120v1
- Date: Fri, 15 Dec 2023 11:56:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-19 18:22:23.968462
- Title: MVHuman: Tailoring 2D Diffusion with Multi-view Sampling For Realistic
3D Human Generation
- Title(参考訳): MVHuman:リアルな3Dヒューマンジェネレーションのためのマルチビューサンプリングによる2次元拡散
- Authors: Suyi Jiang, Haimin Luo, Haoran Jiang, Ziyu Wang, Jingyi Yu, Lan Xu
- Abstract要約: テキスト誘導から人間の放射界を生成するためのMVHumanという代替スキームを提案する。
我々のコアは、一貫したマルチビュー画像を生成するための事前学習されたネットワークのデノイングプロセスを調整するためのマルチビューサンプリング戦略である。
- 参考スコア(独自算出の注目度): 45.88714821939144
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent months have witnessed rapid progress in 3D generation based on
diffusion models. Most advances require fine-tuning existing 2D Stable
Diffsuions into multi-view settings or tedious distilling operations and hence
fall short of 3D human generation due to the lack of diverse 3D human datasets.
We present an alternative scheme named MVHuman to generate human radiance
fields from text guidance, with consistent multi-view images directly sampled
from pre-trained Stable Diffsuions without any fine-tuning or distilling. Our
core is a multi-view sampling strategy to tailor the denoising processes of the
pre-trained network for generating consistent multi-view images. It encompasses
view-consistent conditioning, replacing the original noises with
``consistency-guided noises'', optimizing latent codes, as well as utilizing
cross-view attention layers. With the multi-view images through the sampling
process, we adopt geometry refinement and 3D radiance field generation followed
by a subsequent neural blending scheme for free-view rendering. Extensive
experiments demonstrate the efficacy of our method, as well as its superiority
to state-of-the-art 3D human generation methods.
- Abstract(参考訳): 近年,拡散モデルに基づく3次元生成が急速に進展している。
ほとんどの進歩は、既存の2D安定ディフュージョンをマルチビュー設定や退屈な蒸留操作に微調整する必要があるため、多様な3Dデータセットが欠如しているため、人間の生成には欠落している。
MVHuman はテキスト誘導から人間の放射界を生成するための代替手法であり, 微調整や蒸留を行わずに, 予め訓練した安定なディフュージョンから直接, 連続した多視点画像を生成する。
我々のコアは、一貫したマルチビュー画像を生成するための事前学習されたネットワークのデノイングプロセスを調整するためのマルチビューサンプリング戦略である。
ビュー一貫性のあるコンディショニングを包含し、元のノイズを`consistency-guided noises''に置き換え、潜在コードを最適化し、クロスビューの注意層を利用する。
サンプリング処理を通したマルチビュー画像を用いて,幾何補正と3次元ラミアンスフィールド生成を行い,その後,自由視点レンダリングのためのニューラルブレンディングスキームを適用する。
本手法の有効性と, 最先端の3次元人為的生成法に優れていることの実証実験を行った。
関連論文リスト
- MagicMan: Generative Novel View Synthesis of Humans with 3D-Aware Diffusion and Iterative Refinement [23.707586182294932]
単一画像再構成における既存の作業は、訓練データ不足や総合的な多視点知識の欠如による3次元不整合により、弱い一般化性に悩まされている。
単一の参照画像から高品質な新規ビュー画像を生成するために設計された,人間固有の多視点拡散モデルであるMagicManを紹介する。
論文 参考訳(メタデータ) (2024-08-26T12:10:52Z) - Bootstrap3D: Improving Multi-view Diffusion Model with Synthetic Data [80.92268916571712]
重要なボトルネックは、詳細なキャプションを持つ高品質な3Dオブジェクトの不足である。
本稿では,任意の量のマルチビュー画像を自動的に生成する新しいフレームワークBootstrap3Dを提案する。
我々は高画質合成多視点画像100万枚を高密度記述キャプションで生成した。
論文 参考訳(メタデータ) (2024-05-31T17:59:56Z) - MVD-Fusion: Single-view 3D via Depth-consistent Multi-view Generation [54.27399121779011]
本稿では,多視点RGB-D画像の生成モデルを用いて,単視点3次元推論を行うMVD-Fusionを提案する。
提案手法は,蒸留に基づく3D推論や先行多視点生成手法など,最近の最先端技術と比較して,より正確な合成を実現することができることを示す。
論文 参考訳(メタデータ) (2024-04-04T17:59:57Z) - Envision3D: One Image to 3D with Anchor Views Interpolation [18.31796952040799]
本研究では,1枚の画像から高品質な3Dコンテンツを効率よく生成する新しい手法であるEnvision3Dを提案する。
テクスチャと幾何学の観点から高品質な3Dコンテンツを生成することができ、従来の画像から3Dのベースライン法を超越している。
論文 参考訳(メタデータ) (2024-03-13T18:46:33Z) - CAD: Photorealistic 3D Generation via Adversarial Distillation [28.07049413820128]
本稿では,事前学習した拡散モデルを用いた3次元合成のための新しい学習パラダイムを提案する。
提案手法は,1つの画像に条件付された高忠実かつ光リアルな3Dコンテンツの生成を解放し,プロンプトを行う。
論文 参考訳(メタデータ) (2023-12-11T18:59:58Z) - StableDreamer: Taming Noisy Score Distillation Sampling for Text-to-3D [88.66678730537777]
本稿では3つの進歩を取り入れた方法論であるStableDreamerを紹介する。
まず、SDS生成前の等価性と、簡単な教師付きL2再構成損失を定式化する。
第2に,画像空間拡散は幾何学的精度に寄与するが,色調の鮮明化には潜時空間拡散が不可欠であることを示す。
論文 参考訳(メタデータ) (2023-12-02T02:27:58Z) - HumanRef: Single Image to 3D Human Generation via Reference-Guided
Diffusion [53.1558345421646]
単一ビュー入力から3次元のヒューマン生成フレームワークであるHumanRefを提案する。
生成した3Dモデルが入力画像と光写実的に整合していることを保証するため、HumanRefは参照誘導スコア蒸留サンプリングと呼ばれる新しい手法を導入した。
実験結果から,HumanRefは3D衣服を製作する上で,最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2023-11-28T17:06:28Z) - Sparse3D: Distilling Multiview-Consistent Diffusion for Object
Reconstruction from Sparse Views [47.215089338101066]
スパースビュー入力に適した新しい3D再構成手法であるスパース3Dを提案する。
提案手法は,多視点拡散モデルから頑健な先行情報を抽出し,ニューラルラディアンス場を改良する。
強力な画像拡散モデルから2Dプリエントをタップすることで、我々の統合モデルは、常に高品質な結果をもたらす。
論文 参考訳(メタデータ) (2023-08-27T11:52:00Z) - Deceptive-NeRF/3DGS: Diffusion-Generated Pseudo-Observations for High-Quality Sparse-View Reconstruction [60.52716381465063]
我々は,限られた入力画像のみを用いて,スパースビュー再構成を改善するために,Deceptive-NeRF/3DGSを導入した。
具体的には,少数視点再構成によるノイズ画像から高品質な擬似観測へ変換する,偽拡散モデルを提案する。
本システムでは,拡散生成擬似観測をトレーニング画像集合に徐々に組み込んで,スパース入力観測を5倍から10倍に高めている。
論文 参考訳(メタデータ) (2023-05-24T14:00:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。