Fugu-MT 論文翻訳(概要): Constructing a 3D Scene from a Single Image

論文の概要: Constructing a 3D Scene from a Single Image

arxiv url: http://arxiv.org/abs/2505.15765v2
Date: Sat, 04 Oct 2025 02:17:54 GMT
ステータス: 翻訳完了
システム内更新日: 2025-10-07 14:28:09.857136
Title: Constructing a 3D Scene from a Single Image
Title（参考訳）: 単一画像からの3次元シーンの構築
Authors: Kaizhi Zheng, Ruijian Zha, Zishuo Xu, Jing Gu, Jie Yang, Xin Eric Wang,
Abstract要約: SceneFuse-3Dは、単一のトップダウンビューからコヒーレントな3Dシーンを合成するために設計されたトレーニング不要のフレームワークである。入力画像を重なり合う領域に分解し、事前訓練された3Dオブジェクトジェネレータを用いてそれぞれを生成する。このモジュラー設計により、3次元の監督や微調整を必要とせず、解像度のボトルネックを克服し、空間構造を維持できる。
参考スコア（独自算出の注目度）: 31.11317559252235
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Acquiring detailed 3D scenes typically demands costly equipment, multi-view data, or labor-intensive modeling. Therefore, a lightweight alternative, generating complex 3D scenes from a single top-down image, plays an essential role in real-world applications. While recent 3D generative models have achieved remarkable results at the object level, their extension to full-scene generation often leads to inconsistent geometry, layout hallucinations, and low-quality meshes. In this work, we introduce SceneFuse-3D, a training-free framework designed to synthesize coherent 3D scenes from a single top-down view. Our method is grounded in two principles: region-based generation to improve image-to-3D alignment and resolution, and spatial-aware 3D inpainting to ensure global scene coherence and high-quality geometry generation. Specifically, we decompose the input image into overlapping regions and generate each using a pretrained 3D object generator, followed by a masked rectified flow inpainting process that fills in missing geometry while maintaining structural continuity. This modular design allows us to overcome resolution bottlenecks and preserve spatial structure without requiring 3D supervision or fine-tuning. Extensive experiments across diverse scenes show that SceneFuse-3D outperforms state-of-the-art baselines, including Trellis, Hunyuan3D-2, TripoSG, and LGM, in terms of geometry quality, spatial coherence, and texture fidelity. Our results demonstrate that high-quality coherent 3D scene-level asset generation is achievable from a single top-down image using a principled, training-free pipeline.
Abstract（参考訳）: 詳細な3Dシーンの取得は通常、高価な機器、多視点データ、労働集約的なモデリングを必要とする。したがって、単一のトップダウン画像から複雑な3Dシーンを生成する軽量な代替手段が、現実世界のアプリケーションにおいて重要な役割を果たす。最近の3D生成モデルは、オブジェクトレベルでは顕著な結果を得たが、フルシーン生成への拡張は、しばしば不整合幾何学、レイアウト幻覚、低品質メッシュにつながる。本研究では,1つのトップダウンビューからコヒーレントな3Dシーンを合成するためのトレーニングフリーフレームワークであるSceneFuse-3Dを紹介する。提案手法は,画像から3次元のアライメントと解像度を改善する領域ベース生成と,グローバルなシーンコヒーレンスと高品質な幾何学生成を保証する空間認識型3Dインパインティングの2つの原理を基礎とする。具体的には、入力画像を重なり合う領域に分解し、事前訓練された3Dオブジェクトジェネレータを用いてそれぞれを生成する。このモジュラー設計により、3次元の監督や微調整を必要とせず、解像度のボトルネックを克服し、空間構造を維持できる。 SceneFuse-3Dは、Trellis、Hunyuan3D-2、TripoSG、LGMといった最先端のベースラインよりも、幾何学的品質、空間的コヒーレンス、テクスチャの忠実さに優れていた。以上の結果から,高画質な3Dシーンレベルのアセット生成は,1つのトップダウン画像から,原則的,トレーニング不要なパイプラインを用いて実現可能であることが示された。

関連論文リスト

Self-Evolving 3D Scene Generation from a Single Image [44.87957263540352]
EvoSceneはトレーニング不要のフレームワークで、単一の画像から完全な3Dシーンを徐々に再構築する。 EvoSceneは2Dドメインと3Dドメインを交互に交換し、構造と外観の両方を徐々に改善する。
論文参考訳（メタデータ） (2025-12-09T18:44:21Z)
Photo3D: Advancing Photorealistic 3D Generation through Structure-Aligned Detail Enhancement [12.855027334688382]
Photo3Dは、GPT-4o画像モデル画像データによって駆動される3D生成を促進するためのフレームワークである。本稿では,知覚的特徴適応とセマンティック構造マッチングを利用して外観整合性を強制する,現実的な詳細強化手法を提案する。提案手法は,異なる3Dネイティブジェネレータに対して汎用的であり,幾何学的テクスチャ結合とデカップリングされた3Dネイティブジェネレータの最適化を容易にするための専用トレーニング戦略を提案する。
論文参考訳（メタデータ） (2025-12-09T12:33:48Z)
WorldGrow: Generating Infinite 3D World [75.81531067447203]
我々は、無限に拡張可能な3D世界、すなわちコヒーレントな幾何学と現実的な外観を持つ大規模で連続的な環境を生み出すという課題に取り組む。本研究では,非有界な3次元シーン合成のための階層的フレームワークWorldGrowを提案する。提案手法は,(1)高品質なシーンブロックを抽出し,シーン生成に適した3D構造化潜在表現を作成するデータキュレーションパイプライン,(2)コンテキスト認識シーン拡張を可能にする3Dブロックインペイント機構,(3)グローバルなレイアウトの妥当性と局所幾何学的/音声的忠実性の両立を保証する粗大かつ微細な生成戦略,の3つのコアコンポーネントを特徴とする。
論文参考訳（メタデータ） (2025-10-24T17:39:52Z)
Drag4D: Align Your Motion with Text-Driven 3D Scene Generation [77.79131321983677]
Drag4Dはインタラクティブなフレームワークで、テキスト駆動の3Dシーン生成にオブジェクトの動き制御を統合する。このフレームワークにより、ユーザーは単一の画像から生成された3Dオブジェクトに対して3Dトラジェクトリを定義し、それらを高品質な3D背景にシームレスに統合することができる。
論文参考訳（メタデータ） (2025-09-26T05:23:45Z)
Towards Geometric and Textural Consistency 3D Scene Generation via Single Image-guided Model Generation and Layout Optimization [14.673302810271219]
幾何学的表現と高品質なテクスチャ情報を用いた3次元シーン生成のための新しい3段階フレームワークを提案する。提案手法は, 個々の3次元モデルの幾何学的精度とテクスチャ忠実度の観点から, 最先端の手法よりも優れているだけでなく, シーンレイアウト合成において大きな利点がある。
論文参考訳（メタデータ） (2025-07-20T06:59:42Z)
WonderVerse: Extendable 3D Scene Generation with Video Generative Models [28.002645364066005]
拡張可能な3Dシーンを生成するフレームワークであるWonderVerseを紹介する。 WonderVerseは、ビデオ生成基盤モデルに埋め込まれた強力な世界レベルの事前情報を活用する。様々な3D再構成手法と互換性があり、効率的かつ高品質な生成を可能にする。
論文参考訳（メタデータ） (2025-03-12T08:44:51Z)
ScalingGaussian: Enhancing 3D Content Creation with Generative Gaussian Splatting [30.99112626706754]
高品質な3Dアセットの作成は、デジタル遺産、エンターテイメント、ロボット工学の応用において最重要である。伝統的に、このプロセスはモデリングに熟練した専門家と専門的なソフトウェアを必要とする。本稿では,3Dテクスチャを効率的に生成する新しい3Dコンテンツ作成フレームワークを提案する。
論文参考訳（メタデータ） (2024-07-26T18:26:01Z)
LAM3D: Large Image-Point-Cloud Alignment Model for 3D Reconstruction from Single Image [64.94932577552458]
大規模再構成モデルは、単一または複数入力画像から自動3Dコンテンツ生成の領域において大きな進歩を遂げている。彼らの成功にもかかわらず、これらのモデルはしばしば幾何学的不正確な3Dメッシュを生成し、画像データからのみ3D形状を推論する固有の課題から生まれた。生成した3Dメッシュの忠実度を高めるために3Dポイントクラウドデータを利用する新しいフレームワークであるLarge Image and Point Cloud Alignment Model (LAM3D)を導入する。
論文参考訳（メタデータ） (2024-05-24T15:09:12Z)
3D-SceneDreamer: Text-Driven 3D-Consistent Scene Generation [51.64796781728106]
本稿では,2次元拡散モデル以前の自然画像と,現在のシーンのグローバルな3次元情報を利用して,高品質で新しいコンテンツを合成する生成的精細化ネットワークを提案する。提案手法は,視覚的品質と3次元の整合性を改善した多種多様なシーン生成と任意のカメラトラジェクトリをサポートする。
論文参考訳（メタデータ） (2024-03-14T14:31:22Z)
SceneWiz3D: Towards Text-guided 3D Scene Composition [134.71933134180782]
既存のアプローチでは、大規模なテキスト・ツー・イメージモデルを使用して3D表現を最適化するか、オブジェクト中心のデータセット上で3Dジェネレータをトレーニングする。テキストから高忠実度3Dシーンを合成する新しい手法であるSceneWiz3Dを紹介する。
論文参考訳（メタデータ） (2023-12-13T18:59:30Z)
CC3D: Layout-Conditioned Generation of Compositional 3D Scenes [49.281006972028194]
本稿では,複雑な3次元シーンを2次元セマンティックなシーンレイアウトで合成する条件生成モデルであるCC3Dを紹介する。合成3D-FRONTと実世界のKITTI-360データセットに対する評価は、我々のモデルが視覚的および幾何学的品質を改善したシーンを生成することを示す。
論文参考訳（メタデータ） (2023-03-21T17:59:02Z)
XDGAN: Multi-Modal 3D Shape Generation in 2D Space [60.46777591995821]
本稿では,3次元形状をコンパクトな1チャネル幾何画像に変換し,StyleGAN3と画像間翻訳ネットワークを利用して2次元空間で3次元オブジェクトを生成する手法を提案する。生成された幾何学画像は素早く3Dメッシュに変換し、リアルタイムな3Dオブジェクト合成、可視化、インタラクティブな編集を可能にする。近年の3次元生成モデルと比較して,より高速かつ柔軟な3次元形状生成,単一ビュー再構成,形状操作などの様々なタスクにおいて,本手法が有効であることを示す。
論文参考訳（メタデータ） (2022-10-06T15:54:01Z)
GET3D: A Generative Model of High Quality 3D Textured Shapes Learned from Images [72.15855070133425]
本稿では,複雑なトポロジ,リッチな幾何学的ディテール,高忠実度テクスチャを備えたExplicit Textured 3Dメッシュを直接生成する生成モデルであるGET3Dを紹介する。 GET3Dは、車、椅子、動物、バイク、人間キャラクターから建物まで、高品質な3Dテクスチャメッシュを生成することができる。
論文参考訳（メタデータ） (2022-09-22T17:16:19Z)
Efficient Geometry-aware 3D Generative Adversarial Networks [50.68436093869381]
既存の3D GANは計算集約的であるか、3D一貫性のない近似を行う。本研究では、3D GANの計算効率と画質をこれらの近似に頼らずに改善する。本稿では,高解像度のマルチビュー一貫性画像だけでなく,高品質な3次元形状をリアルタイムに合成する,表現型ハイブリッド・明示型ネットワークアーキテクチャを提案する。
論文参考訳（メタデータ） (2021-12-15T08:01:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。