論文の概要: Human-VDM: Learning Single-Image 3D Human Gaussian Splatting from Video Diffusion Models
- arxiv url: http://arxiv.org/abs/2409.02851v1
- Date: Wed, 4 Sep 2024 16:21:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-05 16:52:09.868219
- Title: Human-VDM: Learning Single-Image 3D Human Gaussian Splatting from Video Diffusion Models
- Title(参考訳): 人間-VDM:ビデオ拡散モデルによる1次元人間のガウススプレイティングの学習
- Authors: Zhibin Liu, Haoye Dong, Aviral Chharia, Hefeng Wu,
- Abstract要約: Human-VDMは、ビデオ拡散モデルを用いて、単一のRGB画像から3次元人間を生成する新しい方法である。
ビュー一貫性のある人間のビデオ拡散モジュール、ビデオ拡張モジュール、ガウススプラッティングモジュールの3つのモジュールで構成されている。
実験により,人間のVDMは1つの画像から高品質な3D人間を達成し,生成品質と量の両方において最先端の手法より優れていることが示された。
- 参考スコア(独自算出の注目度): 10.647657645952266
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Generating lifelike 3D humans from a single RGB image remains a challenging task in computer vision, as it requires accurate modeling of geometry, high-quality texture, and plausible unseen parts. Existing methods typically use multi-view diffusion models for 3D generation, but they often face inconsistent view issues, which hinder high-quality 3D human generation. To address this, we propose Human-VDM, a novel method for generating 3D human from a single RGB image using Video Diffusion Models. Human-VDM provides temporally consistent views for 3D human generation using Gaussian Splatting. It consists of three modules: a view-consistent human video diffusion module, a video augmentation module, and a Gaussian Splatting module. First, a single image is fed into a human video diffusion module to generate a coherent human video. Next, the video augmentation module applies super-resolution and video interpolation to enhance the textures and geometric smoothness of the generated video. Finally, the 3D Human Gaussian Splatting module learns lifelike humans under the guidance of these high-resolution and view-consistent images. Experiments demonstrate that Human-VDM achieves high-quality 3D human from a single image, outperforming state-of-the-art methods in both generation quality and quantity. Project page: https://human-vdm.github.io/Human-VDM/
- Abstract(参考訳): 1枚のRGB画像から生命のような3D人間を生成することは、幾何学、高品質なテクスチャ、そして可視性のない部品の正確なモデリングを必要とするため、コンピュータビジョンにおいて難しい課題である。
既存の方法は、通常3D生成に多視点拡散モデルを使用するが、しばしば不整合なビュー問題に直面し、高品質な3D生成を妨げている。
そこで我々は,ビデオ拡散モデルを用いて,単一のRGB画像から3次元人間を生成する新しい手法であるHuman-VDMを提案する。
人間-VDMはガウススプラッティングを用いた3次元人間生成のための時間的一貫したビューを提供する。
ビュー一貫性のある人間のビデオ拡散モジュール、ビデオ拡張モジュール、ガウススプラッティングモジュールの3つのモジュールで構成されている。
まず、人間のビデオ拡散モジュールに1枚の画像を送り込み、一貫性のある人間のビデオを生成する。
次に、ビデオ拡張モジュールは、生成したビデオのテクスチャと幾何学的滑らかさを高めるために、超解像およびビデオ補間を適用する。
最後に、3D Human Gaussian Splattingモジュールは、高解像度で視界に一貫性のある画像のガイダンスにより、生物のような人間を学習する。
実験により,人間のVDMは1つの画像から高品質な3D人間を達成し,生成品質と量の両方において最先端の手法より優れていることが示された。
プロジェクトページ: https://human-vdm.github.io/Human-VDM/
関連論文リスト
- iHuman: Instant Animatable Digital Humans From Monocular Videos [16.98924995658091]
モノクロビデオからアニマタブルな3Dデジタル人間を作るための,迅速かつシンプルで効果的な方法を提案する。
この研究は、人間の身体の正確な3Dメッシュ型モデリングの必要性を達成し、説明します。
我々の手法は(訓練時間の観点から)最も近い競合相手よりも桁違いに高速である。
論文 参考訳(メタデータ) (2024-07-15T18:51:51Z) - SuperGaussian: Repurposing Video Models for 3D Super Resolution [67.19266415499139]
本稿では,幾何学的および外観的詳細を付加することにより,粗い3次元モデルをアップサンプルする,単純でモジュラーで汎用的な手法を提案する。
既存の3次元超解像モデルを直接再利用できることを実証する。
論文 参考訳(メタデータ) (2024-06-02T03:44:50Z) - UV Gaussians: Joint Learning of Mesh Deformation and Gaussian Textures for Human Avatar Modeling [71.87807614875497]
メッシュ変形と2次元UV空間のガウステクスチャを共同学習することで3次元人体をモデル化するUVガウスアンを提案する。
我々は,多視点画像,走査モデル,パラメトリックモデル登録,およびそれに対応するテクスチャマップを含む,人間の動作の新たなデータセットを収集し,処理する。
論文 参考訳(メタデータ) (2024-03-18T09:03:56Z) - V3D: Video Diffusion Models are Effective 3D Generators [19.33837029942662]
本稿では、事前学習したビデオ拡散モデルの世界シミュレーション能力を活用して、3D生成を容易にするV3Dを紹介する。
これを利用して、最先端のビデオ拡散モデルを微調整して、1つの画像が与えられた物体を囲む360度軌道フレームを生成することができる。
提案手法はシーンレベルの新規ビュー合成に拡張可能であり,スパース・インプット・ビューによるカメラ・パスの正確な制御を実現する。
論文 参考訳(メタデータ) (2024-03-11T14:03:36Z) - Deformable 3D Gaussian Splatting for Animatable Human Avatars [50.61374254699761]
本稿では,デジタルアバターを単一単分子配列で構築する手法を提案する。
ParDy-Humanは、リアルなダイナミックな人間のアバターの明示的なモデルを構成する。
当社のアバター学習には,Splatマスクなどの追加アノテーションが不要であり,ユーザのハードウェア上でも,フル解像度の画像を効率的に推測しながら,さまざまなバックグラウンドでトレーニングすることが可能である。
論文 参考訳(メタデータ) (2023-12-22T20:56:46Z) - GaussianDreamer: Fast Generation from Text to 3D Gaussians by Bridging 2D and 3D Diffusion Models [102.22388340738536]
2Dおよび3D拡散モデルは、プロンプトに基づいて適切な3Dオブジェクトを生成することができる。
3次元拡散モデルには優れた3次元整合性があるが、トレーニング可能な3次元データは高価で入手が難しいため、その品質と一般化は制限されている。
本稿では,2種類の拡散モデルから近年の明示的かつ効率的な3次元ガウススプラッティング表現を通じて電力を橋渡ししようとする。
論文 参考訳(メタデータ) (2023-10-12T17:22:24Z) - HumanNorm: Learning Normal Diffusion Model for High-quality and
Realistic 3D Human Generation [41.82589219009301]
我々は,高品質でリアルな3Dヒューマンジェネレーションのための新しいアプローチであるHumanNormを提案する。
モデルの主な考え方は、正規適応拡散モデルと正規整合拡散モデルを学ぶことによって、3次元幾何学の2次元知覚を強化することである。
HumanNormは、テクスチャとテクスチャの質の両方において、既存のテキストから3Dメソッドよりも優れています。
論文 参考訳(メタデータ) (2023-10-02T17:59:17Z) - 3D-Aware Semantic-Guided Generative Model for Human Synthesis [67.86621343494998]
本稿では,人間の画像合成のための3D-SGAN(Semantic-Guided Generative Model)を提案する。
DeepFashionデータセットに関する我々の実験は、3D-SGANが最新のベースラインを大きく上回っていることを示している。
論文 参考訳(メタデータ) (2021-12-02T17:10:53Z) - Human Performance Capture from Monocular Video in the Wild [50.34917313325813]
本研究では,挑戦的な身体ポーズを特徴とするモノクロ映像から動的3次元人体形状をキャプチャする手法を提案する。
本手法は,現在開発中の3DPWビデオデータセットにおいて,最先端の手法よりも優れる。
論文 参考訳(メタデータ) (2021-11-29T16:32:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。