論文の概要: GTA: Advancing Image-to-3D World Generation via Geometry Then Appearance Video Diffusion
- arxiv url: http://arxiv.org/abs/2605.12957v1
- Date: Wed, 13 May 2026 03:43:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-14 23:30:27.793358
- Title: GTA: Advancing Image-to-3D World Generation via Geometry Then Appearance Video Diffusion
- Title(参考訳): GTA:画像から3Dのワールドジェネレーションを幾何学的手法で改善し、映像の拡散を促進
- Authors: Hanxin Zhu, Cong Wang, Peiyan Tu, Jiayi Luo, Tianyu He, Xin Jin, Zhibo Chen,
- Abstract要約: GTAは幾何学的手法に基づく新しい画像から3次元世界生成手法である。
具体的には、単一の入力画像が与えられた場合、GTAは2つの専用ビデオ拡散モデルを持つ2段階のフレームワークを採用する。
広汎な実験により,提案手法は忠実度,視覚的品質,幾何学的精度で既存手法より一貫して優れていた。
- 参考スコア(独自算出の注目度): 29.999238067855245
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent developments in generative models and large-scale datasets have substantially advanced 3D world generation, facilitating a broad range of domains including spatial intelligence, embodied intelligence, and autonomous driving. While achieving remarkable progress, existing approaches to 3D world generation typically prioritize appearance prediction with limited modeling of the underlying geometry, leading to issues such as unreliable scene structure estimation and degraded cross-view consistency. To address these limitations, motivated by the coarse-to-fine nature of human visual perception, we propose GTA, a novel image-to-3D world generation method following a Geometry-Then-Appearance paradigm. Specifically, given a single input image, to improve the structural fidelity of synthesized 3D scenes, GTA adopts a two-stage framework with two dedicated video diffusion models, which first generate coarse geometric structure from novel viewpoints and then synthesize fine-grained appearance conditioned on the predicted geometry. To further enhance cross-view appearance consistency, we introduce a random latent shuffle strategy during the training process, along with a test-time scaling scheme that improves perceptual quality without compromising quantitative performance. Extensive experiments have demonstrated that our proposed method consistently outperforms existing approaches in terms of fidelity, visual quality, and geometric accuracy. Moreover, GTA is shown to be effective as a general enhancement module that further improves the generation quality of existing image-to-3D world pipelines, as well as supporting multiple downstream applications and exhibiting favorable data efficiency during model training, highlighting its versatility and broad applicability. Project page: https://hanxinzhu-lab.github.io/GTA/.
- Abstract(参考訳): 生成モデルと大規模データセットの最近の発展は、空間知能、エンボディインテリジェンス、自律運転など幅広い領域を容易にし、3Dワールドジェネレーションを大幅に進歩させてきた。
既存の3Dワールドジェネレーションへのアプローチは、目覚ましい進歩を遂げつつも、基礎となる幾何学の限られたモデリングによって外観予測を優先し、信頼できないシーン構造推定や劣化したクロスビュー整合性といった問題を引き起こす。
人間の視覚知覚の粗大な性質に動機づけられたこれらの制約に対処するため,幾何学的・視覚的パラダイムに従う新しい画像から3D世界生成法であるGTAを提案する。
具体的には、合成された3Dシーンの構造忠実度を改善するために、GTAは、2つの専用ビデオ拡散モデルを持つ2段階のフレームワークを採用し、まず、新しい視点から粗い幾何学構造を生成し、次に予測された幾何学に基づく微細な外観条件を合成する。
クロスビューな外観の整合性をさらに向上するため、トレーニングプロセス中にランダムな潜伏シャッフル戦略を導入するとともに、定量的性能を損なうことなく知覚品質を向上させるテストタイムスケーリングスキームを導入する。
広汎な実験により,提案手法は忠実度,視覚的品質,幾何学的精度で既存手法より一貫して優れていた。
さらに、GTAは、既存の画像から3Dの世界パイプラインの生成品質をさらに向上し、複数のダウンストリームアプリケーションをサポートし、モデルのトレーニング中に良好なデータ効率を示し、その汎用性と幅広い適用性を強調した汎用的な拡張モジュールとして有効であることが示されている。
プロジェクトページ: https://hanxinzhu-lab.github.io/GTA/。
関連論文リスト
- World-R1: Reinforcing 3D Constraints for Text-to-Video Generation [36.18760315762835]
本稿では,強化学習による映像生成を3次元制約に整合させるフレームワーク World-R1 を提案する。
事前学習した3D基礎モデルと視覚言語モデルからのフィードバックを用いてモデルを最適化する。
提案手法は,基礎モデルの本来の視覚的品質を保ちながら,3次元の一貫性を著しく向上させる。
論文 参考訳(メタデータ) (2026-04-27T17:59:56Z) - Feed-Forward 3D Scene Modeling: A Problem-Driven Perspective [91.23306722968509]
汎用的なフィードフォワード3D再構築は近年急速に進展している。
既存のフィードフォワードアプローチも同様に高いレベルのアーキテクチャパターンを共有している。
本稿では,出力形式に依存しないモデル設計戦略を中心とした新しい分類法を提案する。
論文 参考訳(メタデータ) (2026-04-15T16:07:18Z) - Towards Realistic and Consistent Orbital Video Generation via 3D Foundation Priors [61.34273238077091]
本稿では,物体の単一画像からオービタルビデオを生成する新しい手法を提案する。
本手法は,最先端の手法と比較して,視覚的品質,形状リアリズム,多視点整合性を実現している。
論文 参考訳(メタデータ) (2026-04-14T05:35:46Z) - TripoSG: High-Fidelity 3D Shape Synthesis using Large-Scale Rectified Flow Models [69.0220314849478]
TripoSGは、入力画像に正確に対応した高忠実度3Dメッシュを生成することができる新しい合理化形状拡散パラダイムである。
結果として得られた3D形状は、高解像度の能力によって細部が強化され、入力画像に異常な忠実さを示す。
3Dジェネレーションの分野における進歩と革新を促進するため、我々はモデルを一般公開する。
論文 参考訳(メタデータ) (2025-02-10T16:07:54Z) - DreamPolish: Domain Score Distillation With Progressive Geometry Generation [66.94803919328815]
本稿では,高精細な幾何学と高品質なテクスチャの創出に優れたテキスト・ツー・3D生成モデルであるDreamPolishを紹介する。
幾何構成フェーズでは, 合成過程の安定性を高めるために, 複数のニューラル表現を利用する。
テクスチャ生成フェーズでは、そのような領域に向けて神経表現を導くために、新しいスコア蒸留、すなわちドメインスコア蒸留(DSD)を導入する。
論文 参考訳(メタデータ) (2024-11-03T15:15:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。