論文の概要: Hi3D: Pursuing High-Resolution Image-to-3D Generation with Video Diffusion Models
- arxiv url: http://arxiv.org/abs/2409.07452v1
- Date: Wed, 11 Sep 2024 17:58:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-12 13:26:57.767790
- Title: Hi3D: Pursuing High-Resolution Image-to-3D Generation with Video Diffusion Models
- Title(参考訳): Hi3D:ビデオ拡散モデルによる高分解能画像-3D生成
- Authors: Haibo Yang, Yang Chen, Yingwei Pan, Ting Yao, Zhineng Chen, Chong-Wah Ngo, Tao Mei,
- Abstract要約: High- resolution Image-to-3D model (Hi3D) はビデオ拡散に基づく新しいパラダイムであり、単一の画像を3D対応シーケンシャル画像生成としてマルチビュー画像に再定義する。
Hi3Dは事前に学習した映像拡散モデルを3D対応で強化し、低解像度のテクスチャディテールを持つマルチビュー画像を生成する。
- 参考スコア(独自算出の注目度): 112.2625368640425
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite having tremendous progress in image-to-3D generation, existing methods still struggle to produce multi-view consistent images with high-resolution textures in detail, especially in the paradigm of 2D diffusion that lacks 3D awareness. In this work, we present High-resolution Image-to-3D model (Hi3D), a new video diffusion based paradigm that redefines a single image to multi-view images as 3D-aware sequential image generation (i.e., orbital video generation). This methodology delves into the underlying temporal consistency knowledge in video diffusion model that generalizes well to geometry consistency across multiple views in 3D generation. Technically, Hi3D first empowers the pre-trained video diffusion model with 3D-aware prior (camera pose condition), yielding multi-view images with low-resolution texture details. A 3D-aware video-to-video refiner is learnt to further scale up the multi-view images with high-resolution texture details. Such high-resolution multi-view images are further augmented with novel views through 3D Gaussian Splatting, which are finally leveraged to obtain high-fidelity meshes via 3D reconstruction. Extensive experiments on both novel view synthesis and single view reconstruction demonstrate that our Hi3D manages to produce superior multi-view consistency images with highly-detailed textures. Source code and data are available at \url{https://github.com/yanghb22-fdu/Hi3D-Official}.
- Abstract(参考訳): イメージ・ツー・3D生成の進歩にもかかわらず、既存の手法は高解像度のテクスチャを持つ多視点一貫したイメージを細部まで作り出すのに苦慮している。
本研究では,ハイレゾリューション・イメージ・ツー・3Dモデル(Hi3D)を提案する。
この方法論は,映像拡散モデルにおける時間的整合性に関する基礎的知識を,三次元生成における複数の視点にわたる幾何的整合性によく一般化するものである。
技術的には、Hi3Dは事前に訓練された3D対応ビデオ拡散モデル(カメラポーズ条件)を最初に強化し、低解像度テクスチャディテールのマルチビュー画像を生成する。
高精細なテクスチャでマルチビュー画像をさらにスケールアップするために、3D対応ビデオ・ツー・ビデオ精細機を学習する。
このような高解像度のマルチビュー画像は、3Dガウススプラッティングによって新しいビューでさらに拡張され、最終的に3D再構成によって高忠実度メッシュを得るために活用される。
新規なビュー合成と単一ビュー再構成の両方に関する大規模な実験により、高精細なテクスチャで優れたマルチビュー整合性画像を生成することができた。
ソースコードとデータは \url{https://github.com/yanghb22-fdu/Hi3D-Official} で公開されている。
関連論文リスト
- Enhancing Single Image to 3D Generation using Gaussian Splatting and Hybrid Diffusion Priors [17.544733016978928]
単一の画像から3Dオブジェクトを生成するには、野生で撮影された未ポーズのRGB画像から、目に見えない景色の完全な3D形状とテクスチャを推定する必要がある。
3次元オブジェクト生成の最近の進歩は、物体の形状とテクスチャを再構築する技術を導入している。
本稿では, この限界に対応するために, 2次元拡散モデルと3次元拡散モデルとのギャップを埋めることを提案する。
論文 参考訳(メタデータ) (2024-10-12T10:14:11Z) - Unique3D: High-Quality and Efficient 3D Mesh Generation from a Single Image [28.759158325097093]
Unique3Dは、シングルビュー画像から高品質な3Dメッシュを効率的に生成するための、新しい画像間3Dフレームワークである。
我々のフレームワークは、最先端世代の忠実さと強力な一般化性を備えている。
論文 参考訳(メタデータ) (2024-05-30T17:59:54Z) - MVD-Fusion: Single-view 3D via Depth-consistent Multi-view Generation [54.27399121779011]
本稿では,多視点RGB-D画像の生成モデルを用いて,単視点3次元推論を行うMVD-Fusionを提案する。
提案手法は,蒸留に基づく3D推論や先行多視点生成手法など,最近の最先端技術と比較して,より正確な合成を実現することができることを示す。
論文 参考訳(メタデータ) (2024-04-04T17:59:57Z) - SV3D: Novel Multi-view Synthesis and 3D Generation from a Single Image using Latent Video Diffusion [33.69006364120861]
安定ビデオ3D(SV3D) - 3Dオブジェクトの周囲の高解像度・画像・マルチビュー生成のための潜時ビデオ拡散モデルを提案する。
論文 参考訳(メタデータ) (2024-03-18T17:46:06Z) - 3D-SceneDreamer: Text-Driven 3D-Consistent Scene Generation [51.64796781728106]
本稿では,2次元拡散モデル以前の自然画像と,現在のシーンのグローバルな3次元情報を利用して,高品質で新しいコンテンツを合成する生成的精細化ネットワークを提案する。
提案手法は,視覚的品質と3次元の整合性を改善した多種多様なシーン生成と任意のカメラトラジェクトリをサポートする。
論文 参考訳(メタデータ) (2024-03-14T14:31:22Z) - Sculpt3D: Multi-View Consistent Text-to-3D Generation with Sparse 3D Prior [57.986512832738704]
本稿では,2次元拡散モデルを再学習することなく,抽出した参照オブジェクトから3次元先行を明示的に注入する,電流パイプラインを備えた新しいフレームワークSculpt3Dを提案する。
具体的には、スパース線サンプリングによるキーポイントの監督により、高品質で多様な3次元形状を保証できることを実証する。
これら2つの分離された設計は、参照オブジェクトからの3D情報を利用して、2D拡散モデルの生成品質を保ちながら、3Dオブジェクトを生成する。
論文 参考訳(メタデータ) (2024-03-14T07:39:59Z) - One-2-3-45++: Fast Single Image to 3D Objects with Consistent Multi-View
Generation and 3D Diffusion [32.29687304798145]
One-2-3-45++は、1つの画像を1分で詳細な3Dテクスチャメッシュに変換する革新的な方法である。
提案手法は,2次元拡散モデルに埋め込まれた広範囲な知識を,貴重な3次元データから活用することを目的としている。
論文 参考訳(メタデータ) (2023-11-14T03:40:25Z) - HoloFusion: Towards Photo-realistic 3D Generative Modeling [77.03830223281787]
拡散に基づく画像生成装置は、高品質で多様なサンプルを作成できるようになったが、その成功はまだ3D生成に完全に変換されていない。
提案するHoloFusionは,高忠実度,高可塑性,多種多様な3Dサンプルを作成するために,これらのアプローチを最大限に組み合わせた手法である。
論文 参考訳(メタデータ) (2023-08-28T01:19:33Z) - Guide3D: Create 3D Avatars from Text and Image Guidance [55.71306021041785]
Guide3Dは拡散モデルに基づく3Dアバター生成のためのテキスト・画像誘導生成モデルである。
我々のフレームワークは、トポロジカルかつ構造的に正しい幾何と高分解能なテクスチャを生成する。
論文 参考訳(メタデータ) (2023-08-18T17:55:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。