論文の概要: Training-Free Instance-Aware 3D Scene Reconstruction and Diffusion-Based View Synthesis from Sparse Images
- arxiv url: http://arxiv.org/abs/2603.21166v1
- Date: Sun, 22 Mar 2026 10:56:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-24 19:11:39.269524
- Title: Training-Free Instance-Aware 3D Scene Reconstruction and Diffusion-Based View Synthesis from Sparse Images
- Title(参考訳): スパース画像からの3次元シーン再構成と拡散に基づく画像合成
- Authors: Jiatong Xia, Lingqiao Liu,
- Abstract要約: 未提示のRGB画像から3次元屋内シーンを再構成・理解・レンダリングする訓練自由システムを提案する。
密度の高いビューとシーンごとの最適化を必要とする従来のラディアンスフィールドアプローチとは異なり、パイプラインはトレーニングやポーズ前処理なしで高忠実度な結果が得られる。
- 参考スコア(独自算出の注目度): 27.013348160823828
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce a novel, training-free system for reconstructing, understanding, and rendering 3D indoor scenes from a sparse set of unposed RGB images. Unlike traditional radiance field approaches that require dense views and per-scene optimization, our pipeline achieves high-fidelity results without any training or pose preprocessing. The system integrates three key innovations: (1) A robust point cloud reconstruction module that filters unreliable geometry using a warping-based anomaly removal strategy; (2) A warping-guided 2D-to-3D instance lifting mechanism that propagates 2D segmentation masks into a consistent, instance-aware 3D representation; and (3) A novel rendering approach that projects the point cloud into new views and refines the renderings with a 3D-aware diffusion model. Our method leverages the generative power of diffusion to compensate for missing geometry and enhances realism, especially under sparse input conditions. We further demonstrate that object-level scene editing such as instance removal can be naturally supported in our pipeline by modifying only the point cloud, enabling the synthesis of consistent, edited views without retraining. Our results establish a new direction for efficient, editable 3D content generation without relying on scene-specific optimization. Project page: https://jiatongxia.github.io/TID3R/
- Abstract(参考訳): 未提示RGB画像のスパース集合から3次元屋内シーンを再構成・理解・レンダリングする新しい学習自由システムを提案する。
密度の高いビューとシーンごとの最適化を必要とする従来のラディアンスフィールドアプローチとは異なり、パイプラインはトレーニングやポーズ前処理なしで高忠実度な結果が得られる。
本システムは,(1)ワーピングに基づく異常除去戦略を用いて信頼性の低い幾何をフィルタリングするロバストポイントクラウド再構築モジュール,(2)2次元分割マスクを一貫したインスタンス認識3D表現に伝播するワーピング誘導2D-to-3Dインスタンスリフト機構,(3)ポイントクラウドを新たなビューに投影し,3次元認識拡散モデルでレンダリングを洗練する新しいレンダリングアプローチ,の3つの重要なイノベーションを統合する。
提案手法は拡散の生成力を生かして,幾何学の欠如を補うとともに,特にスパース入力条件下でのリアリズムを向上する。
さらに、インスタンス削除のようなオブジェクトレベルのシーン編集は、ポイントクラウドだけを変更することで、パイプライン内で自然にサポートできることを示し、一貫した編集されたビューを、再トレーニングせずに生成できるようにする。
本結果は,シーン固有の最適化に頼ることなく,効率よく編集可能な3Dコンテンツ生成のための新たな方向性を確立する。
プロジェクトページ: https://jiatongxia.github.io/TID3R/
関連論文リスト
- S2D: Sparse to Dense Lifting for 3D Reconstruction with Minimal Inputs [53.597239706600455]
Sparse to Dense lifting (S2D)は、2つの表現をブリッジし、最小限の入力で高品質な3DGS再構成を実現するパイプラインである。
実験により、S2Dは、異なる入力空間下で、新しいビューガイダンスと第1階層のスパースビュー再構成品質を生成する際に、最良の整合性を達成することが示された。
論文 参考訳(メタデータ) (2026-03-11T15:37:20Z) - HORT: Monocular Hand-held Objects Reconstruction with Transformers [61.36376511119355]
モノクロ画像から手持ちの物体を3Dで再構成することは、コンピュータビジョンにおいて重要な課題である。
ハンドヘルドオブジェクトの高密度な3次元点群を効率的に再構成するトランスフォーマーモデルを提案する。
提案手法は,高速な推測速度で最先端の精度を達成し,画像の幅を最適化する。
論文 参考訳(メタデータ) (2025-03-27T09:45:09Z) - Localized Gaussian Splatting Editing with Contextual Awareness [16.035101459765627]
本稿では,3Dガウススプラッティング(3DGS)表現のための照明対応3Dシーン編集パイプラインを提案する。
最先端条件付き2次元拡散モデルによる塗装は、照明の背景と一致している。
提案手法は,光輸送を明示的にモデル化することなく,局所的な照明の整合性を効果的に実現している。
論文 参考訳(メタデータ) (2024-07-31T18:00:45Z) - Denoising Diffusion via Image-Based Rendering [54.20828696348574]
実世界の3Dシーンの高速かつ詳細な再構築と生成を可能にする最初の拡散モデルを提案する。
まず、大きな3Dシーンを効率よく正確に表現できる新しいニューラルシーン表現であるIBプレーンを導入する。
第二に,2次元画像のみを用いて,この新たな3次元シーン表現の事前学習を行うためのデノイング拡散フレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-05T19:00:45Z) - Self-Supervised Geometry-Aware Encoder for Style-Based 3D GAN Inversion [115.82306502822412]
StyleGANは、画像インバージョンと潜時編集による2次元顔再構成とセマンティック編集において大きな進歩を遂げている。
対応する汎用的な3D GANインバージョンフレームワークがまだ欠けており、3D顔再構成とセマンティック編集の応用が制限されている。
本研究では,その3次元形状と詳細なテクスチャを忠実に復元するために,単一の顔画像から潜伏コードを予測する3D GAN逆変換の課題について検討する。
論文 参考訳(メタデータ) (2022-12-14T18:49:50Z) - An Effective Loss Function for Generating 3D Models from Single 2D Image
without Rendering [0.0]
微分レンダリングは、シングルビュー3Dレコンストラクションに適用できる非常に成功した技術である。
電流は、ある3d再構成対象のレンダリング画像と、与えられたマッチング視点からの接地画像との間のピクセルによる損失を利用して、3d形状のパラメータを最適化する。
再構成された3次元点群の投影が地上真理物体のシルエットをどの程度覆うかを評価する新しい効果的な損失関数を提案する。
論文 参考訳(メタデータ) (2021-03-05T00:02:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。