論文の概要: GeoWizard: Unleashing the Diffusion Priors for 3D Geometry Estimation from a Single Image
- arxiv url: http://arxiv.org/abs/2403.12013v1
- Date: Mon, 18 Mar 2024 17:50:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-20 19:11:08.252873
- Title: GeoWizard: Unleashing the Diffusion Priors for 3D Geometry Estimation from a Single Image
- Title(参考訳): GeoWizard: 単一画像からの3次元幾何推定のための拡散優先事項の解放
- Authors: Xiao Fu, Wei Yin, Mu Hu, Kaixuan Wang, Yuexin Ma, Ping Tan, Shaojie Shen, Dahua Lin, Xiaoxiao Long,
- Abstract要約: 単一画像から幾何学的属性を推定するための新しい生成基盤モデルであるGeoWizardを紹介する。
拡散前処理の活用は,資源利用における一般化,詳細な保存,効率性を著しく向上させることが示唆された。
本稿では,様々なシーンの複雑なデータ分布を,個別のサブディストリビューションに分離する,シンプルかつ効果的な戦略を提案する。
- 参考スコア(独自算出の注目度): 94.56927147492738
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce GeoWizard, a new generative foundation model designed for estimating geometric attributes, e.g., depth and normals, from single images. While significant research has already been conducted in this area, the progress has been substantially limited by the low diversity and poor quality of publicly available datasets. As a result, the prior works either are constrained to limited scenarios or suffer from the inability to capture geometric details. In this paper, we demonstrate that generative models, as opposed to traditional discriminative models (e.g., CNNs and Transformers), can effectively address the inherently ill-posed problem. We further show that leveraging diffusion priors can markedly improve generalization, detail preservation, and efficiency in resource usage. Specifically, we extend the original stable diffusion model to jointly predict depth and normal, allowing mutual information exchange and high consistency between the two representations. More importantly, we propose a simple yet effective strategy to segregate the complex data distribution of various scenes into distinct sub-distributions. This strategy enables our model to recognize different scene layouts, capturing 3D geometry with remarkable fidelity. GeoWizard sets new benchmarks for zero-shot depth and normal prediction, significantly enhancing many downstream applications such as 3D reconstruction, 2D content creation, and novel viewpoint synthesis.
- Abstract(参考訳): 幾何学的属性,例えば深さ,正規度を単一画像から推定するための新しい生成基盤モデルであるGeoWizardを紹介する。
この領域ではすでに重要な研究が行われているが、公開データセットの多様性と品質の低さにより、進歩は著しく制限されている。
結果として、以前の作品は限られたシナリオに制約されるか、幾何学的詳細を捉えることができないことに悩まされる。
本稿では、従来の識別モデル(例えば、CNN、トランスフォーマー)とは対照的に、生成モデルは本質的に不適切な問題に効果的に対処できることを実証する。
さらに,拡散前処理の活用により,資源利用の一般化,詳細な保存,効率性が著しく向上することが示唆された。
具体的には,従来の安定拡散モデルを拡張して,両表現間の相互情報交換と高整合性を実現する。
より重要なことは、様々なシーンの複雑なデータ分布を異なるサブディストリビューションに分離する、単純かつ効果的な戦略を提案することである。
この戦略により,我々のモデルは異なるシーンレイアウトを認識でき,顕著な忠実さで3次元幾何学を捉えることができる。
GeoWizardは、ゼロショット深度と通常の予測のための新しいベンチマークを設定し、3D再構成、2Dコンテンツ作成、新しい視点合成など、多くの下流アプリケーションを大幅に強化した。
関連論文リスト
- FDGaussian: Fast Gaussian Splatting from Single Image via Geometric-aware Diffusion Model [81.03553265684184]
FDGaussianは、シングルイメージ3D再構成のための新しい2段階フレームワークである。
最近の手法では、通常、事前訓練された2次元拡散モデルを用いて、入力画像から可塑性な新しいビューを生成する。
我々は,FDGaussianが様々な視点で高一貫性の画像を生成し,高品質な3Dオブジェクトを再構成することを示した。
論文 参考訳(メタデータ) (2024-03-15T12:24:36Z) - Pushing Auto-regressive Models for 3D Shape Generation at Capacity and Scalability [118.26563926533517]
自己回帰モデルでは,格子空間における関節分布をモデル化することにより,2次元画像生成において顕著な結果が得られた。
自動回帰モデルを3次元領域に拡張し,キャパシティとスケーラビリティを同時に向上することにより,3次元形状生成の強力な能力を求める。
論文 参考訳(メタデータ) (2024-02-19T15:33:09Z) - Retrieval-Augmented Score Distillation for Text-to-3D Generation [30.57225047257049]
テキストから3D生成における検索に基づく品質向上のための新しいフレームワークを提案する。
我々はReDreamが幾何整合性を高めて優れた品質を示すことを示すために広範な実験を行った。
論文 参考訳(メタデータ) (2024-02-05T12:50:30Z) - Wonder3D: Single Image to 3D using Cross-Domain Diffusion [105.16622018766236]
Wonder3Dは、単一視点画像から高忠実なテクスチャメッシュを効率的に生成する新しい手法である。
画像から3Dまでのタスクの品質,一貫性,効率性を総括的に改善するため,領域間拡散モデルを提案する。
論文 参考訳(メタデータ) (2023-10-23T15:02:23Z) - Robust Geometry-Preserving Depth Estimation Using Differentiable
Rendering [93.94371335579321]
我々は、余分なデータやアノテーションを必要とせずに、幾何学保存深度を予測するためにモデルを訓練する学習フレームワークを提案する。
包括的な実験は、我々のフレームワークの優れた一般化能力を強調します。
我々の革新的な損失関数は、ドメイン固有のスケール・アンド・シフト係数を自律的に復元するモデルを可能にします。
論文 参考訳(メタデータ) (2023-09-18T12:36:39Z) - H3D-Net: Few-Shot High-Fidelity 3D Head Reconstruction [27.66008315400462]
表面形状を暗黙的に表現する最近の学習手法は、多視点3次元再構成の問題において顕著な結果を示している。
我々はこれらの制限を,数発のフル3次元頭部再構成の特定の問題に対処する。
暗黙の表現を用いて,数千個の不完全な生スキャンから3次元頭部形状モデルを学習する。
論文 参考訳(メタデータ) (2021-07-26T23:04:18Z) - Weakly-Supervised Multi-Face 3D Reconstruction [45.864415499303405]
多面的3D再構築のための効果的なエンドツーエンドフレームワークを提案する。
各画像の再構成された顔に対して、同じグローバルカメラモデルを採用し、3dシーンにおける相対的な頭部位置と向きを復元することができる。
論文 参考訳(メタデータ) (2021-01-06T13:15:21Z) - Multi-view Depth Estimation using Epipolar Spatio-Temporal Networks [87.50632573601283]
一つのビデオから多視点深度を推定する新しい手法を提案する。
提案手法は,新しいEpipolar Spatio-Temporal Transformer(EST)を用いて時間的コヒーレントな深度推定を行う。
最近のMixture-of-Expertsモデルにインスパイアされた計算コストを削減するため、我々はコンパクトなハイブリッドネットワークを設計する。
論文 参考訳(メタデータ) (2020-11-26T04:04:21Z) - Monocular 3D Detection with Geometric Constraints Embedding and
Semi-supervised Training [3.8073142980733]
我々は,KM3D-Netと呼ばれる,RGB画像のみを用いたモノクル3Dオブジェクト検出のための新しいフレームワークを提案する。
我々は、対象のキーポイント、次元、方向を予測するための完全な畳み込みモデルを設計し、これらの推定を視点幾何学的制約と組み合わせて位置属性を計算する。
論文 参考訳(メタデータ) (2020-09-02T00:51:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。