論文の概要: GeoWorld: Unlocking the Potential of Geometry Models to Facilitate High-Fidelity 3D Scene Generation
- arxiv url: http://arxiv.org/abs/2511.23191v1
- Date: Fri, 28 Nov 2025 13:55:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 19:47:55.915081
- Title: GeoWorld: Unlocking the Potential of Geometry Models to Facilitate High-Fidelity 3D Scene Generation
- Title(参考訳): GeoWorld:高忠実度3Dシーン生成を支援する幾何学モデルの可能性を解き放つ
- Authors: Yuhao Wan, Lijuan Liu, Jingzhi Zhou, Zihan Zhou, Xuying Zhang, Dongbo Zhang, Shaohui Jiao, Qibin Hou, Ming-Ming Cheng,
- Abstract要約: 画像から3Dのシーン生成にビデオモデルを利用する以前の研究は、幾何学的歪みやぼやけた内容に悩まされる傾向にある。
本稿では,幾何学モデルの可能性を解き放つことにより,画像から3次元のシーン生成のパイプラインを再構築する。
我々のGeoWorldは、1つの画像と所定のカメラ軌道から高忠実度3Dシーンを生成することができ、定性的かつ定量的に先行手法より優れている。
- 参考スコア(独自算出の注目度): 68.02988074681427
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Previous works leveraging video models for image-to-3D scene generation tend to suffer from geometric distortions and blurry content. In this paper, we renovate the pipeline of image-to-3D scene generation by unlocking the potential of geometry models and present our GeoWorld. Instead of exploiting geometric information obtained from a single-frame input, we propose to first generate consecutive video frames and then take advantage of the geometry model to provide full-frame geometry features, which contain richer information than single-frame depth maps or camera embeddings used in previous methods, and use these geometry features as geometrical conditions to aid the video generation model. To enhance the consistency of geometric structures, we further propose a geometry alignment loss to provide the model with real-world geometric constraints and a geometry adaptation module to ensure the effective utilization of geometry features. Extensive experiments show that our GeoWorld can generate high-fidelity 3D scenes from a single image and a given camera trajectory, outperforming prior methods both qualitatively and quantitatively. Project Page: https://peaes.github.io/GeoWorld/.
- Abstract(参考訳): 画像から3Dのシーン生成にビデオモデルを利用する以前の研究は、幾何学的歪みやぼやけた内容に悩まされる傾向にある。
本稿では,幾何学モデルの可能性を解き明かし,GeoWorldを提示することで,画像から3次元のシーン生成のパイプラインを再構築する。
単一フレームの入力から得られる幾何情報を利用する代わりに、まず連続したビデオフレームを生成し、次に、一フレームの深度マップやカメラ埋め込みよりもリッチな情報を含む全フレームの幾何学的特徴を提供する幾何学的モデルを提案し、これらの幾何学的特徴をビデオ生成モデルを支援する幾何学的条件として利用する。
さらに,幾何構造の整合性を高めるために,実世界の幾何制約を持つモデルを提供する幾何アライメント損失と,幾何特徴の有効利用を保証する幾何適応モジュールを提案する。
大規模な実験により、GeoWorldは1枚の画像と所定のカメラ軌跡から高忠実度3Dシーンを生成でき、定性的かつ定量的に先行手法より優れていることが示された。
Project Page: https://peaes.github.io/GeoWorld/.com
関連論文リスト
- Hi3DGen: High-fidelity 3D Geometry Generation from Images via Normal Bridging [15.36983068580743]
Hi3DGenは、画像から通常のブリッジを通して高忠実度3D幾何を生成するための新しいフレームワークである。
本研究は,中間表現として正規写像を利用することにより,画像から高忠実度3次元幾何を生成するための新たな方向を提供する。
論文 参考訳(メタデータ) (2025-03-28T08:39:20Z) - Geometry-guided Feature Learning and Fusion for Indoor Scene Reconstruction [14.225228781008209]
本稿では3次元シーン再構成のための新しい幾何学的統合機構を提案する。
提案手法は,特徴学習,特徴融合,ネットワーク監視という3段階の3次元幾何学を取り入れている。
論文 参考訳(メタデータ) (2024-08-28T08:02:47Z) - GeoLRM: Geometry-Aware Large Reconstruction Model for High-Quality 3D Gaussian Generation [65.33726478659304]
GeoLRM(Geometry-Aware Large Restruction Model)は、512kガウスと21の入力画像で11GBのGPUメモリで高品質な資産を予測できる手法である。
従来の作品では、3D構造の本質的な空間性は無視されており、3D画像と2D画像の間の明示的な幾何学的関係は利用されていない。
GeoLRMは、3Dポイントを直接処理し、変形可能なクロスアテンション機構を使用する新しい3D対応トランスフォーマー構造を導入することで、これらの問題に対処する。
論文 参考訳(メタデータ) (2024-06-21T17:49:31Z) - G-NeRF: Geometry-enhanced Novel View Synthesis from Single-View Images [45.66479596827045]
我々は,幾何誘導多視点合成手法により,幾何先行性を高めるための幾何強調型NeRF(G-NeRF)を提案する。
単一視点画像に対する多視点監視の欠如に対処するために,深度認識型トレーニングアプローチを設計する。
論文 参考訳(メタデータ) (2024-04-11T04:58:18Z) - GeoGS3D: Single-view 3D Reconstruction via Geometric-aware Diffusion Model and Gaussian Splatting [81.03553265684184]
単視点画像から詳細な3Dオブジェクトを再構成するフレームワークであるGeoGS3Dを紹介する。
本稿では,GDS(Gaussian Divergence Significance)という新しい指標を提案する。
実験により、GeoGS3Dはビュー間で高い一貫性を持つ画像を生成し、高品質な3Dオブジェクトを再構成することを示した。
論文 参考訳(メタデータ) (2024-03-15T12:24:36Z) - DSG-Net: Learning Disentangled Structure and Geometry for 3D Shape
Generation [98.96086261213578]
DSG-Netは3次元形状の非交叉構造と幾何学的メッシュ表現を学習するディープニューラルネットワークである。
これは、幾何(構造)を不変に保ちながら構造(幾何学)のような不整合制御を持つ新しい形状生成アプリケーションの範囲をサポートする。
本手法は,制御可能な生成アプリケーションだけでなく,高品質な合成形状を生成できる。
論文 参考訳(メタデータ) (2020-08-12T17:06:51Z) - Deep Geometric Texture Synthesis [83.9404865744028]
幾何学的テクスチャを合成するための新しい枠組みを提案する。
単一の参照3Dモデルの局所的な近傍からテクスチャ統計を学習する。
我々のネットワークはメッシュ頂点を任意の方向に変位させ、幾何学的テクスチャの合成を可能にする。
論文 参考訳(メタデータ) (2020-06-30T19:36:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。