論文の概要: Ouroboros3D: Image-to-3D Generation via 3D-aware Recursive Diffusion
- arxiv url: http://arxiv.org/abs/2406.03184v1
- Date: Wed, 5 Jun 2024 12:15:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-06 18:30:28.171816
- Title: Ouroboros3D: Image-to-3D Generation via 3D-aware Recursive Diffusion
- Title(参考訳): Ouroboros3D: 3D-Aware Recursive Diffusionによる画像から3D生成
- Authors: Hao Wen, Zehuan Huang, Yaohui Wang, Xinyuan Chen, Yu Qiao, Lu Sheng,
- Abstract要約: 既存のイメージ・ツー・3D作成手法では、2段階のプロセスが一般的である。
マルチビュー画像生成と3D再構成を統合した,Ouroboros3Dという統合された3D生成フレームワークを導入する。
- 参考スコア(独自算出の注目度): 43.07285784556328
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing single image-to-3D creation methods typically involve a two-stage process, first generating multi-view images, and then using these images for 3D reconstruction. However, training these two stages separately leads to significant data bias in the inference phase, thus affecting the quality of reconstructed results. We introduce a unified 3D generation framework, named Ouroboros3D, which integrates diffusion-based multi-view image generation and 3D reconstruction into a recursive diffusion process. In our framework, these two modules are jointly trained through a self-conditioning mechanism, allowing them to adapt to each other's characteristics for robust inference. During the multi-view denoising process, the multi-view diffusion model uses the 3D-aware maps rendered by the reconstruction module at the previous timestep as additional conditions. The recursive diffusion framework with 3D-aware feedback unites the entire process and improves geometric consistency.Experiments show that our framework outperforms separation of these two stages and existing methods that combine them at the inference phase. Project page: https://costwen.github.io/Ouroboros3D/
- Abstract(参考訳): 既存のイメージ・ツー・3D生成法は、通常、2段階のプロセスで、まず複数のビュー画像を生成し、3次元再構成にこれらの画像を使用する。
しかし、これら2つの段階を個別にトレーニングすると、推論フェーズにおいて重要なデータバイアスが発生し、結果として再構成結果の品質に影響を及ぼす。
拡散に基づく多視点画像生成と3次元再構成を再帰的拡散プロセスに統合する,Ouroboros3Dという統合された3D生成フレームワークを導入する。
本フレームワークでは,これらの2つのモジュールは自己条件付け機構によって協調的に訓練され,頑健な推論のために互いの特性に適応することができる。
マルチビューデノナイズプロセスでは, 複数ビュー拡散モデルでは, 以前の時刻に再現モジュールが描画した3D対応マップを追加条件として利用する。
3Dフィードバックによる再帰的拡散フレームワークはプロセス全体を統一し,幾何的整合性を向上させる。
プロジェクトページ:https://costwen.github.io/Ouroboros3D/
関連論文リスト
- Hi3D: Pursuing High-Resolution Image-to-3D Generation with Video Diffusion Models [112.2625368640425]
High- resolution Image-to-3D model (Hi3D) はビデオ拡散に基づく新しいパラダイムであり、単一の画像を3D対応シーケンシャル画像生成としてマルチビュー画像に再定義する。
Hi3Dは事前に学習した映像拡散モデルを3D対応で強化し、低解像度のテクスチャディテールを持つマルチビュー画像を生成する。
論文 参考訳(メタデータ) (2024-09-11T17:58:57Z) - GSD: View-Guided Gaussian Splatting Diffusion for 3D Reconstruction [52.04103235260539]
単一視点からの3次元オブジェクト再構成のためのガウススプティング表現に基づく拡散モデル手法を提案する。
モデルはGS楕円体の集合で表される3Dオブジェクトを生成することを学習する。
最終的な再構成されたオブジェクトは、高品質な3D構造とテクスチャを持ち、任意のビューで効率的にレンダリングできる。
論文 参考訳(メタデータ) (2024-07-05T03:43:08Z) - MVDiff: Scalable and Flexible Multi-View Diffusion for 3D Object Reconstruction from Single-View [0.0]
本稿では,単一画像から一貫した多視点画像を生成するための一般的なフレームワークを提案する。
提案モデルは,PSNR,SSIM,LPIPSなどの評価指標において,ベースライン法を超える3Dメッシュを生成することができる。
論文 参考訳(メタデータ) (2024-05-06T22:55:53Z) - MVD-Fusion: Single-view 3D via Depth-consistent Multi-view Generation [54.27399121779011]
本稿では,多視点RGB-D画像の生成モデルを用いて,単視点3次元推論を行うMVD-Fusionを提案する。
提案手法は,蒸留に基づく3D推論や先行多視点生成手法など,最近の最先端技術と比較して,より正確な合成を実現することができることを示す。
論文 参考訳(メタデータ) (2024-04-04T17:59:57Z) - Isotropic3D: Image-to-3D Generation Based on a Single CLIP Embedding [16.50466940644004]
入力としてCLIPを埋め込んだ画像のみを取り込む画像から3D生成パイプラインであるIsotropic3Dを提案する。
等方性3Dは、最適化をSDS損失のみを静止させることで、方位角の等方性w.r.t.にすることができる。
論文 参考訳(メタデータ) (2024-03-15T15:27:58Z) - Sculpt3D: Multi-View Consistent Text-to-3D Generation with Sparse 3D Prior [57.986512832738704]
本稿では,2次元拡散モデルを再学習することなく,抽出した参照オブジェクトから3次元先行を明示的に注入する,電流パイプラインを備えた新しいフレームワークSculpt3Dを提案する。
具体的には、スパース線サンプリングによるキーポイントの監督により、高品質で多様な3次元形状を保証できることを実証する。
これら2つの分離された設計は、参照オブジェクトからの3D情報を利用して、2D拡散モデルの生成品質を保ちながら、3Dオブジェクトを生成する。
論文 参考訳(メタデータ) (2024-03-14T07:39:59Z) - RenderDiffusion: Image Diffusion for 3D Reconstruction, Inpainting and
Generation [68.06991943974195]
単分子2次元観察のみを用いて学習した3次元生成と推論のための最初の拡散モデルであるRenderDiffusionを提案する。
FFHQ,AFHQ,ShapeNet,CLEVRのデータセット上でRenderDiffusionを評価し,3Dシーンの生成と2D画像からの3Dシーンの推測の競合性能を示した。
論文 参考訳(メタデータ) (2022-11-17T20:17:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。