論文の概要: 3D-Fixer: Coarse-to-Fine In-place Completion for 3D Scenes from a Single Image
- arxiv url: http://arxiv.org/abs/2604.04406v1
- Date: Mon, 06 Apr 2026 04:11:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-07 15:49:19.086014
- Title: 3D-Fixer: Coarse-to-Fine In-place Completion for 3D Scenes from a Single Image
- Title(参考訳): 3D-Fixer:1枚の画像から3Dシーンのインプレース・コンプリート
- Authors: Ze-Xin Yin, Liu Liu, Xinjie Wang, Wei Sui, Zhizhong Su, Jian Yang, Jin Xie,
- Abstract要約: 合成3Dシーン生成のための新しいインプレース・コンプリート・パラダイムである3D-Fixerを紹介する。
明示的なポーズアライメントを必要とする以前の作品とは異なり、3D-Fixerはレイアウトの忠実さを維持するために空間アンカーとして断片化された幾何学を使用している。
これまでで最大のシーンレベルのデータセットであるARSG-110Kについて述べる。
- 参考スコア(独自算出の注目度): 26.04490259188974
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Compositional 3D scene generation from a single view requires the simultaneous recovery of scene layout and 3D assets. Existing approaches mainly fall into two categories: feed-forward generation methods and per-instance generation methods. The former directly predict 3D assets with explicit 6DoF poses through efficient network inference, but they generalize poorly to complex scenes. The latter improve generalization through a divide-and-conquer strategy, but suffer from time-consuming pose optimization. To bridge this gap, we introduce 3D-Fixer, a novel in-place completion paradigm. Specifically, 3D-Fixer extends 3D object generative priors to generate complete 3D assets conditioned on the partially visible point cloud at the original locations, which are cropped from the fragmented geometry obtained from the geometry estimation methods. Unlike prior works that require explicit pose alignment, 3D-Fixer uses fragmented geometry as a spatial anchor to preserve layout fidelity. At its core, we propose a coarse-to-fine generation scheme to resolve boundary ambiguity under occlusion, supported by a dual-branch conditioning network and an Occlusion-Robust Feature Alignment (ORFA) strategy for stable training. Furthermore, to address the data scarcity bottleneck, we present ARSG-110K, the largest scene-level dataset to date, comprising over 110K diverse scenes and 3M annotated images with high-fidelity 3D ground truth. Extensive experiments show that 3D-Fixer achieves state-of-the-art geometric accuracy, which significantly outperforms baselines such as MIDI and Gen3DSR, while maintaining the efficiency of the diffusion process. Code and data will be publicly available at https://zx-yin.github.io/3dfixer.
- Abstract(参考訳): 1つのビューから構成的な3Dシーンを生成するには、シーンレイアウトと3Dアセットの同時回復が必要である。
既存のアプローチは主に、フィードフォワード生成方法とインスタンス単位生成方法の2つのカテゴリに分類される。
前者は、6DoFを明確にした3Dアセットを、効率的なネットワーク推論によって直接予測するが、複雑なシーンにはあまり一般化しない。
後者は分割・対数戦略によって一般化を改善するが、時間を要するポーズ最適化に悩まされる。
このギャップを埋めるために、3D-Fixerという新しいインプレース・コンプリート・パラダイムを導入する。
具体的には、3D-Fixerは、3Dオブジェクト生成先行を拡張して、元の位置で部分的に見える点雲に条件付けられた完全な3Dアセットを生成し、幾何学的推定法から得られた断片化された幾何学から抽出する。
明示的なポーズアライメントを必要とする以前の作品とは異なり、3D-Fixerはレイアウトの忠実さを維持するために空間アンカーとして断片化された幾何学を使用している。
そこで本研究では,両分岐条件付きネットワークとOcclusion-Robust Feature Alignment(ORFA)戦略を併用して,オクルージョン下での境界曖昧性を解決するための粗大な粒度生成手法を提案する。
さらに,データ不足のボトルネックに対処するため,これまでで最大のシーンレベルのデータセットであるARSG-110Kを提示する。
広汎な実験により、3D-Fixerは、拡散過程の効率を維持しながら、MIDIやGen3DSRなどのベースラインを大幅に上回る、最先端の幾何学的精度を達成することが示された。
コードとデータはhttps://zx-yin.github.io/3dfixerで公開される。
関連論文リスト
- Extend3D: Town-Scale 3D Generation [31.052455723067684]
1枚の画像から3Dシーンを生成するためのトレーニング不要パイプラインであるExtended3Dを提案する。
拡張潜在空間を重なり合うパッチに分割することにより、各パッチにオブジェクト中心の3D生成モデルを適用し、各ステップで結合する。
3次元リファインメントにおける3次元構造の不完全さをノイズとして扱うことにより,低騒音という概念による3次元合成が可能となる。
論文 参考訳(メタデータ) (2026-03-31T07:55:04Z) - OneWorld: Taming Scene Generation with 3D Unified Representation Autoencoder [90.8453349494245]
本研究では,コヒーレントな3次元表現空間内で直接拡散を行うOneWorldを提案する。
OneWorldは、最先端の2Dベースの方法と比較して、クロスビューの一貫性に優れた高品質な3Dシーンを生成する。
論文 参考訳(メタデータ) (2026-03-17T03:43:37Z) - RnG: A Unified Transformer for Complete 3D Modeling from Partial Observations [70.83499963694238]
RnG(Reconstruction and Generation)は、再構成と生成を統合する新しいフィードフォワードトランスである。
可視的幾何学を再構築し、可視的でコヒーレントな不明瞭な幾何学と外観を生成する。
提案手法は, 一般化可能な3次元再構成と新しいビュー生成の両方において, 最先端の性能を実現する。
論文 参考訳(メタデータ) (2026-03-01T17:25:32Z) - Interp3D: Correspondence-aware Interpolation for Generative Textured 3D Morphing [63.141976759536625]
テクスチャ化された3DモーフィングのためのトレーニングフリーフレームワークであるInterp3Dを提案する。
生成的先行性を利用し、幾何学的忠実さとテクスチャコヒーレンスの両方を保証するために、プログレッシブアライメント原理を採用する。
包括的評価のために, 難易度の高い専用データセットInterp3DDataを構築し, 忠実度, 遷移滑らか度, 可視性から生成結果を評価する。
論文 参考訳(メタデータ) (2026-01-20T16:03:22Z) - WorldWarp: Propagating 3D Geometry with Asynchronous Video Diffusion [78.20778143251171]
WorldWarpは、3D構造アンカーと2D生成ファインダを結合するフレームワークだ。
WorldWarpは、各ステップで3Dキャッシュを動的に更新することで、ビデオチャンク間の一貫性を維持する。
3Dロジックが構造をガイドし、拡散ロジックがテクスチャを完璧にすることで、最先端の忠実さを実現する。
論文 参考訳(メタデータ) (2025-12-22T18:53:50Z) - Constructing a 3D Scene from a Single Image [31.11317559252235]
SceneFuse-3Dは、単一のトップダウンビューからコヒーレントな3Dシーンを合成するために設計されたトレーニング不要のフレームワークである。
入力画像を重なり合う領域に分解し、事前訓練された3Dオブジェクトジェネレータを用いてそれぞれを生成する。
このモジュラー設計により、3次元の監督や微調整を必要とせず、解像度のボトルネックを克服し、空間構造を維持できる。
論文 参考訳(メタデータ) (2025-05-21T17:10:47Z) - SceneWiz3D: Towards Text-guided 3D Scene Composition [134.71933134180782]
既存のアプローチでは、大規模なテキスト・ツー・イメージモデルを使用して3D表現を最適化するか、オブジェクト中心のデータセット上で3Dジェネレータをトレーニングする。
テキストから高忠実度3Dシーンを合成する新しい手法であるSceneWiz3Dを紹介する。
論文 参考訳(メタデータ) (2023-12-13T18:59:30Z) - Neural 3D Scene Reconstruction with the Manhattan-world Assumption [58.90559966227361]
本稿では,多視点画像から3次元屋内シーンを再構築する課題について述べる。
平面的制約は、最近の暗黙の神経表現に基づく再構成手法に便利に組み込むことができる。
提案手法は, 従来の手法よりも3次元再構成品質に優れていた。
論文 参考訳(メタデータ) (2022-05-05T17:59:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。