論文の概要: GeoDiff3D: Self-Supervised 3D Scene Generation with Geometry-Constrained 2D Diffusion Guidance
- arxiv url: http://arxiv.org/abs/2601.19785v1
- Date: Tue, 27 Jan 2026 16:47:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-28 15:26:51.401125
- Title: GeoDiff3D: Self-Supervised 3D Scene Generation with Geometry-Constrained 2D Diffusion Guidance
- Title(参考訳): GeoDiff3D:幾何学制約付き2次元拡散誘導による自己監督型3次元シーン生成
- Authors: Haozhi Zhu, Miaomiao Zhao, Dingyao Liu, Runze Tian, Yan Zhang, Jie Guo, Fenggen Yu,
- Abstract要約: 3Dシーン生成は、ゲーム、フィルム/VFX、VR/ARのコア技術である。
既存の手法は、間接的な2D-to-3D再構成と直接的な3D生成という2つのパラダイムに大きく従っている。
構造的アンカーとして粗い幾何学と幾何学制約付き2次元拡散モデルを用いてテクスチャリッチな参照画像を提供する,効率的な自己教師型フレームワークGeoDiff3Dを提案する。
- 参考スコア(独自算出の注目度): 8.625308061265754
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: 3D scene generation is a core technology for gaming, film/VFX, and VR/AR. Growing demand for rapid iteration, high-fidelity detail, and accessible content creation has further increased interest in this area. Existing methods broadly follow two paradigms - indirect 2D-to-3D reconstruction and direct 3D generation - but both are limited by weak structural modeling and heavy reliance on large-scale ground-truth supervision, often producing structural artifacts, geometric inconsistencies, and degraded high-frequency details in complex scenes. We propose GeoDiff3D, an efficient self-supervised framework that uses coarse geometry as a structural anchor and a geometry-constrained 2D diffusion model to provide texture-rich reference images. Importantly, GeoDiff3D does not require strict multi-view consistency of the diffusion-generated references and remains robust to the resulting noisy, inconsistent guidance. We further introduce voxel-aligned 3D feature aggregation and dual self-supervision to maintain scene coherence and fine details while substantially reducing dependence on labeled data. GeoDiff3D also trains with low computational cost and enables fast, high-quality 3D scene generation. Extensive experiments on challenging scenes show improved generalization and generation quality over existing baselines, offering a practical solution for accessible and efficient 3D scene construction.
- Abstract(参考訳): 3Dシーン生成は、ゲーム、フィルム/VFX、VR/ARのコア技術である。
急速な反復、高忠実度の詳細、アクセス可能なコンテンツ作成に対する需要が増大し、この分野への関心が高まっている。
既存の手法は2つのパラダイム – 間接的な2次元から3次元の再構築と3次元の直接生成 – に大きく従っているが、どちらも弱い構造モデリングと大規模な地下構造監視への強い依存によって制限されており、しばしば構造的アーティファクト、幾何学的不整合、複雑なシーンにおける高周波詳細の劣化などを生み出している。
構造的アンカーとして粗い幾何学と幾何学制約付き2次元拡散モデルを用いてテクスチャリッチな参照画像を提供する,効率的な自己教師型フレームワークGeoDiff3Dを提案する。
重要なことに、GeoDiff3Dは拡散生成参照の厳密なマルチビュー一貫性を必要としない。
さらに, ラベル付きデータへの依存性を大幅に低減しつつ, シーンのコヒーレンスと細部を保ちながら, ボクセルに整合した3次元特徴集合と二重自己スーパービジョンを導入する。
GeoDiff3Dは計算コストも低く、高速で高品質な3Dシーン生成を可能にする。
挑戦シーンの大規模な実験により、既存のベースラインよりも一般化と生成品質が向上し、アクセシブルで効率的な3Dシーン構築のための実用的なソリューションが提供される。
関連論文リスト
- Photo3D: Advancing Photorealistic 3D Generation through Structure-Aligned Detail Enhancement [12.855027334688382]
Photo3Dは、GPT-4o画像モデル画像データによって駆動される3D生成を促進するためのフレームワークである。
本稿では,知覚的特徴適応とセマンティック構造マッチングを利用して外観整合性を強制する,現実的な詳細強化手法を提案する。
提案手法は,異なる3Dネイティブジェネレータに対して汎用的であり,幾何学的テクスチャ結合とデカップリングされた3Dネイティブジェネレータの最適化を容易にするための専用トレーニング戦略を提案する。
論文 参考訳(メタデータ) (2025-12-09T12:33:48Z) - LATTICE: Democratize High-Fidelity 3D Generation at Scale [27.310104395842075]
LATTICEは高忠実度3Dアセット生成のための新しいフレームワークである。
VoxSetは、3Dの資産を粗いボクセル格子に固定された潜在ベクトルのコンパクトな集合に圧縮する半構造化表現である。
提案手法のコアは単純だが,任意の解像度復号化,低コストトレーニング,フレキシブル推論スキームをサポートする。
論文 参考訳(メタデータ) (2025-11-24T03:22:19Z) - IGGT: Instance-Grounded Geometry Transformer for Semantic 3D Reconstruction [82.53307702809606]
人間は自然に3次元世界の幾何学的構造と意味的内容を中間次元として知覚する。
本稿では,空間再構成とインスタンスレベルの文脈理解の両面での知識を統合するために,IGGT (InstanceGrounded Geometry Transformer) を提案する。
論文 参考訳(メタデータ) (2025-10-26T14:57:44Z) - WorldGrow: Generating Infinite 3D World [75.81531067447203]
我々は、無限に拡張可能な3D世界、すなわちコヒーレントな幾何学と現実的な外観を持つ大規模で連続的な環境を生み出すという課題に取り組む。
本研究では,非有界な3次元シーン合成のための階層的フレームワークWorldGrowを提案する。
提案手法は,(1)高品質なシーンブロックを抽出し,シーン生成に適した3D構造化潜在表現を作成するデータキュレーションパイプライン,(2)コンテキスト認識シーン拡張を可能にする3Dブロックインペイント機構,(3)グローバルなレイアウトの妥当性と局所幾何学的/音声的忠実性の両立を保証する粗大かつ微細な生成戦略,の3つのコアコンポーネントを特徴とする。
論文 参考訳(メタデータ) (2025-10-24T17:39:52Z) - Constructing a 3D Scene from a Single Image [31.11317559252235]
SceneFuse-3Dは、単一のトップダウンビューからコヒーレントな3Dシーンを合成するために設計されたトレーニング不要のフレームワークである。
入力画像を重なり合う領域に分解し、事前訓練された3Dオブジェクトジェネレータを用いてそれぞれを生成する。
このモジュラー設計により、3次元の監督や微調整を必要とせず、解像度のボトルネックを克服し、空間構造を維持できる。
論文 参考訳(メタデータ) (2025-05-21T17:10:47Z) - GeoLRM: Geometry-Aware Large Reconstruction Model for High-Quality 3D Gaussian Generation [65.33726478659304]
GeoLRM(Geometry-Aware Large Restruction Model)は、512kガウスと21の入力画像で11GBのGPUメモリで高品質な資産を予測できる手法である。
従来の作品では、3D構造の本質的な空間性は無視されており、3D画像と2D画像の間の明示的な幾何学的関係は利用されていない。
GeoLRMは、3Dポイントを直接処理し、変形可能なクロスアテンション機構を使用する新しい3D対応トランスフォーマー構造を導入することで、これらの問題に対処する。
論文 参考訳(メタデータ) (2024-06-21T17:49:31Z) - 3D-SceneDreamer: Text-Driven 3D-Consistent Scene Generation [51.64796781728106]
本稿では,2次元拡散モデル以前の自然画像と,現在のシーンのグローバルな3次元情報を利用して,高品質で新しいコンテンツを合成する生成的精細化ネットワークを提案する。
提案手法は,視覚的品質と3次元の整合性を改善した多種多様なシーン生成と任意のカメラトラジェクトリをサポートする。
論文 参考訳(メタデータ) (2024-03-14T14:31:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。