論文の概要: SceneGen: Single-Image 3D Scene Generation in One Feedforward Pass
- arxiv url: http://arxiv.org/abs/2508.15769v1
- Date: Thu, 21 Aug 2025 17:59:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-22 16:26:46.444248
- Title: SceneGen: Single-Image 3D Scene Generation in One Feedforward Pass
- Title(参考訳): 1回のフィードフォワードパスで1枚の3D画像を生成するSceneGen
- Authors: Yanxu Meng, Haoning Wu, Ya Zhang, Weidi Xie,
- Abstract要約: 3Dコンテンツ生成は、VR/ARとAIの具体化によって、大きな研究関心を集めている。
シーンイメージと対応するオブジェクトマスクを入力として,同時に複数の3Dアセットを生成する新しいフレームワークであるSceneGenを提案する。
このパラダイムは、高品質な3Dコンテンツ生成のための新しいソリューションを提供し、下流タスクにおける実践的応用を推し進める可能性があると考えています。
- 参考スコア(独自算出の注目度): 44.087747627571716
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: 3D content generation has recently attracted significant research interest due to its applications in VR/AR and embodied AI. In this work, we address the challenging task of synthesizing multiple 3D assets within a single scene image. Concretely, our contributions are fourfold: (i) we present SceneGen, a novel framework that takes a scene image and corresponding object masks as input, simultaneously producing multiple 3D assets with geometry and texture. Notably, SceneGen operates with no need for optimization or asset retrieval; (ii) we introduce a novel feature aggregation module that integrates local and global scene information from visual and geometric encoders within the feature extraction module. Coupled with a position head, this enables the generation of 3D assets and their relative spatial positions in a single feedforward pass; (iii) we demonstrate SceneGen's direct extensibility to multi-image input scenarios. Despite being trained solely on single-image inputs, our architectural design enables improved generation performance with multi-image inputs; and (iv) extensive quantitative and qualitative evaluations confirm the efficiency and robust generation abilities of our approach. We believe this paradigm offers a novel solution for high-quality 3D content generation, potentially advancing its practical applications in downstream tasks. The code and model will be publicly available at: https://mengmouxu.github.io/SceneGen.
- Abstract(参考訳): 3Dコンテンツ生成は、VR/ARと組み込みAIに応用されているため、最近、大きな研究関心を集めている。
本研究では,複数の3Dアセットを単一のシーンイメージ内に合成する上での課題に対処する。
具体的には、私たちの貢献は4倍です。
i)SceneGenはシーンイメージと対応するオブジェクトマスクを入力として、幾何学とテクスチャを備えた複数の3Dアセットを同時に生成する新しいフレームワークである。
特に、SceneGenは最適化やアセット検索を必要とせずに動作します。
(2)特徴抽出モジュール内の視覚的および幾何学的エンコーダから局所的およびグローバルなシーン情報を統合した特徴集約モジュールを提案する。
位置ヘッドと組み合わせることで、単一のフィードフォワードパスにおける3Dアセットとその相対空間位置の生成を可能にする。
(iii)マルチイメージ入力シナリオへのSceneGenの直接拡張性を実証する。
シングルイメージ入力のみにトレーニングされているにもかかわらず、アーキテクチャ設計は、マルチイメージ入力による生成性能の向上を可能にします。
(4) 定量的, 定性的評価により, 提案手法の効率性とロバストな生成能力が確認された。
このパラダイムは、高品質な3Dコンテンツ生成のための新しいソリューションを提供し、下流タスクにおける実践的応用を推し進める可能性があると考えています。
コードとモデルは、https://mengmouxu.github.io/SceneGen.comで公開される。
関連論文リスト
- Towards Geometric and Textural Consistency 3D Scene Generation via Single Image-guided Model Generation and Layout Optimization [14.673302810271219]
幾何学的表現と高品質なテクスチャ情報を用いた3次元シーン生成のための新しい3段階フレームワークを提案する。
提案手法は, 個々の3次元モデルの幾何学的精度とテクスチャ忠実度の観点から, 最先端の手法よりも優れているだけでなく, シーンレイアウト合成において大きな利点がある。
論文 参考訳(メタデータ) (2025-07-20T06:59:42Z) - Agentic 3D Scene Generation with Spatially Contextualized VLMs [67.31920821192323]
本稿では,複雑な3D環境の生成,理解,編集を可能にする新しいパラダイムを提案する。
我々は,VLMが空間コンテキストから反復的に読み取って更新するエージェント型3Dシーン生成パイプラインを開発した。
その結果,我々のフレームワークは多様かつ困難な入力を処理でき,事前の作業では観測できないような一般化のレベルを達成することができることがわかった。
論文 参考訳(メタデータ) (2025-05-26T15:28:17Z) - HiScene: Creating Hierarchical 3D Scenes with Isometric View Generation [50.206100327643284]
HiSceneは、2D画像生成と3Dオブジェクト生成のギャップを埋める新しい階層的なフレームワークである。
構成構造を維持しながら2次元表現に整合した3次元コンテンツを生成する。
論文 参考訳(メタデータ) (2025-04-17T16:33:39Z) - Interactive Scene Authoring with Specialized Generative Primitives [25.378818867764323]
Specialized Generative Primitivesは、熟練していないユーザーが高品質な3Dシーンを作成できる生成フレームワークである。
各プリミティブは、実世界から1つの例の分布をキャプチャする効率的な生成モデルである。
実世界のシーンから様々なプリミティブを抽出し、3Dアセットやシーンを数分で作成できるように制御するインタラクティブセッションを紹介する。
論文 参考訳(メタデータ) (2024-12-20T04:39:50Z) - StdGEN: Semantic-Decomposed 3D Character Generation from Single Images [28.302030751098354]
StdGENは、単一の画像から意味的に高品質な3D文字を生成する革新的なパイプラインである。
3分で体、衣服、毛髪などの分離した意味成分を持つ複雑な3D文字を生成する。
StdGENは、使えるセマンティック分解された3D文字を提供し、幅広いアプリケーションに対して柔軟なカスタマイズを可能にする。
論文 参考訳(メタデータ) (2024-11-08T17:54:18Z) - High-fidelity 3D GAN Inversion by Pseudo-multi-view Optimization [51.878078860524795]
フォトリアリスティック・ノベルビューを合成可能な高忠実度3次元生成対向ネットワーク(GAN)インバージョン・フレームワークを提案する。
提案手法は,1枚の画像から高忠実度3Dレンダリングを可能にし,AI生成3Dコンテンツの様々な応用に期待できる。
論文 参考訳(メタデータ) (2022-11-28T18:59:52Z) - Simple and Effective Synthesis of Indoor 3D Scenes [78.95697556834536]
1枚以上の画像から3D屋内シーンを没入する問題について検討する。
我々の狙いは、新しい視点から高解像度の画像とビデオを作成することである。
本稿では,不完全点雲の再投影から高解像度のRGB-D画像へ直接マップするイメージ・ツー・イメージのGANを提案する。
論文 参考訳(メタデータ) (2022-04-06T17:54:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。