論文の概要: Pano3DComposer: Feed-Forward Compositional 3D Scene Generation from Single Panoramic Image
- arxiv url: http://arxiv.org/abs/2603.05908v1
- Date: Fri, 06 Mar 2026 04:54:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-09 13:17:45.093458
- Title: Pano3DComposer: Feed-Forward Compositional 3D Scene Generation from Single Panoramic Image
- Title(参考訳): Pano3DComposer:単一パノラマ画像からのフィードフォワード構成3Dシーン生成
- Authors: Zidian Qiu, Ancong Wu,
- Abstract要約: Pano3DComposerはパノラマ画像のための効率的なフィードフォワードフレームワークである。
このモジュールは、オフザシェルフ画像から3Dモデルに生成された3Dオブジェクトを、局所座標から世界座標に変換する。
- 参考スコア(独自算出の注目度): 13.55946265213768
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current compositional image-to-3D scene generation approaches construct 3D scenes by time-consuming iterative layout optimization or inflexible joint object-layout generation. Moreover, most methods rely on limited field-of-view perspective images, hindering the creation of complete 360-degree environments. To address these limitations, we design Pano3DComposer, an efficient feed-forward framework for panoramic images. To decouple object generation from layout estimation, we propose a plug-and-play Object-World Transformation Predictor. This module converts the 3D objects generated by off-the-shelf image-to-3D models from local to world coordinates. To achieve this, we adapt the VGGT architecture to Alignment-VGGT by using target object crop, multi-view object renderings and camera parameters to predict the transformation. The predictor is trained using pseudo-geometric supervision to address the shape discrepancy between generated and ground-truth objects. For input images from unseen domains, we further introduce a Coarse-to-Fine (C2F) alignment mechanism for Pano3DComposer that iteratively refines geometric consistency with feedback of scene rendering. Our method achieves superior geometric accuracy for image/text-to-3D tasks on synthetic and real-world datasets. It can generate a high-fidelity 3D scene in approximately 20 seconds on an RTX 4090 GPU. Project page: https://qiuzidian.github.io/pano3dcomposer-page/.
- Abstract(参考訳): 現在のコンポジション画像から3Dシーン生成手法は、時間を要する反復的なレイアウト最適化や、非フレキシブルなジョイントオブジェクトレイアウト生成によって、3Dシーンを構築する。
さらに、ほとんどの手法は視野の限られた画像に依存しており、完全な360度環境の作成を妨げる。
これらの制約に対処するため、パノラマ画像の効率的なフィードフォワードフレームワークであるPano3DComposerを設計する。
レイアウト推定からオブジェクト生成を分離するために,プラグアンドプレイのオブジェクト-ワールド変換予測器を提案する。
このモジュールは、オフザシェルフ画像から3Dモデルに生成された3Dオブジェクトを、局所座標から世界座標に変換する。
これを実現するために、ターゲットオブジェクトのクロップ、マルチビューオブジェクトレンダリング、カメラパラメータを用いて、VGGTアーキテクチャをアライメント-VGGTに適応させ、変換を予測する。
予測器は擬似幾何学的監視を用いて訓練され、生成した物体と接地した物体の形状の相違に対処する。
未確認領域からの入力画像に対しては、Pano3DComposerのC2F(Coarse-to-Fine)アライメント機構を導入し、シーンレンダリングのフィードバックによって幾何的一貫性を反復的に改善する。
本手法は,合成および実世界のデータセット上での画像/テキスト間3D処理において,より優れた幾何学的精度を実現する。
RTX 4090 GPUで約20秒で高忠実な3Dシーンを生成することができる。
プロジェクトページ: https://qiuzidian.github.io/pano3dcomposer-page/。
関連論文リスト
- Drag4D: Align Your Motion with Text-Driven 3D Scene Generation [77.79131321983677]
Drag4Dはインタラクティブなフレームワークで、テキスト駆動の3Dシーン生成にオブジェクトの動き制御を統合する。
このフレームワークにより、ユーザーは単一の画像から生成された3Dオブジェクトに対して3Dトラジェクトリを定義し、それらを高品質な3D背景にシームレスに統合することができる。
論文 参考訳(メタデータ) (2025-09-26T05:23:45Z) - Constructing a 3D Scene from a Single Image [31.11317559252235]
SceneFuse-3Dは、単一のトップダウンビューからコヒーレントな3Dシーンを合成するために設計されたトレーニング不要のフレームワークである。
入力画像を重なり合う領域に分解し、事前訓練された3Dオブジェクトジェネレータを用いてそれぞれを生成する。
このモジュラー設計により、3次元の監督や微調整を必要とせず、解像度のボトルネックを克服し、空間構造を維持できる。
論文 参考訳(メタデータ) (2025-05-21T17:10:47Z) - Disentangled 3D Scene Generation with Layout Learning [109.03233745767062]
本稿では,コンポーネントオブジェクトに絡み合った3Dシーンを生成する手法を提案する。
私たちの重要な洞察は、オブジェクトは空間的に再構成された場合、同じシーンの有効な構成を生成する3Dシーンの一部を見つけることで発見できるということです。
単純さにもかかわらず、我々のアプローチは個々のオブジェクトに3Dシーンを生成することに成功している。
論文 参考訳(メタデータ) (2024-02-26T18:54:15Z) - GALA3D: Towards Text-to-3D Complex Scene Generation via Layout-guided Generative Gaussian Splatting [52.150502668874495]
GALA3D, GALA3D, 生成3D GAussian, LAyout-guided control, for effective compositional text-to-3D generation。
GALA3Dは、最先端のシーンレベルの3Dコンテンツ生成と制御可能な編集のための、ユーザフレンドリーでエンドツーエンドのフレームワークである。
論文 参考訳(メタデータ) (2024-02-11T13:40:08Z) - SceneWiz3D: Towards Text-guided 3D Scene Composition [134.71933134180782]
既存のアプローチでは、大規模なテキスト・ツー・イメージモデルを使用して3D表現を最適化するか、オブジェクト中心のデータセット上で3Dジェネレータをトレーニングする。
テキストから高忠実度3Dシーンを合成する新しい手法であるSceneWiz3Dを紹介する。
論文 参考訳(メタデータ) (2023-12-13T18:59:30Z) - CC3D: Layout-Conditioned Generation of Compositional 3D Scenes [49.281006972028194]
本稿では,複雑な3次元シーンを2次元セマンティックなシーンレイアウトで合成する条件生成モデルであるCC3Dを紹介する。
合成3D-FRONTと実世界のKITTI-360データセットに対する評価は、我々のモデルが視覚的および幾何学的品質を改善したシーンを生成することを示す。
論文 参考訳(メタデータ) (2023-03-21T17:59:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。