論文の概要: UniForward: Unified 3D Scene and Semantic Field Reconstruction via Feed-Forward Gaussian Splatting from Only Sparse-View Images
- arxiv url: http://arxiv.org/abs/2506.09378v1
- Date: Wed, 11 Jun 2025 04:01:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 06:35:02.356947
- Title: UniForward: Unified 3D Scene and Semantic Field Reconstruction via Feed-Forward Gaussian Splatting from Only Sparse-View Images
- Title(参考訳): UniForward:Sparse-View画像のみからのフィードフォワードガウススプレイティングによる統一3次元シーンとセマンティックフィールド再構築
- Authors: Qijian Tian, Xin Tan, Jingyu Gong, Yuan Xie, Lizhuang Ma,
- Abstract要約: 本稿では,3次元シーンとセマンティックフィールドの再構成を統一したフィードフォワードモデルを提案する。
我々のUniForwardは、スパースビュー画像のみから、3Dシーンと対応するセマンティックフィールドをリアルタイムで再構築することができる。
新規なビュー合成と新規なビューセグメンテーションの実験により,本手法が最先端の性能を達成することを示す。
- 参考スコア(独自算出の注目度): 43.40816438003861
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a feed-forward Gaussian Splatting model that unifies 3D scene and semantic field reconstruction. Combining 3D scenes with semantic fields facilitates the perception and understanding of the surrounding environment. However, key challenges include embedding semantics into 3D representations, achieving generalizable real-time reconstruction, and ensuring practical applicability by using only images as input without camera parameters or ground truth depth. To this end, we propose UniForward, a feed-forward model to predict 3D Gaussians with anisotropic semantic features from only uncalibrated and unposed sparse-view images. To enable the unified representation of the 3D scene and semantic field, we embed semantic features into 3D Gaussians and predict them through a dual-branch decoupled decoder. During training, we propose a loss-guided view sampler to sample views from easy to hard, eliminating the need for ground truth depth or masks required by previous methods and stabilizing the training process. The whole model can be trained end-to-end using a photometric loss and a distillation loss that leverages semantic features from a pre-trained 2D semantic model. At the inference stage, our UniForward can reconstruct 3D scenes and the corresponding semantic fields in real time from only sparse-view images. The reconstructed 3D scenes achieve high-quality rendering, and the reconstructed 3D semantic field enables the rendering of view-consistent semantic features from arbitrary views, which can be further decoded into dense segmentation masks in an open-vocabulary manner. Experiments on novel view synthesis and novel view segmentation demonstrate that our method achieves state-of-the-art performances for unifying 3D scene and semantic field reconstruction.
- Abstract(参考訳): 本稿では,3次元シーンとセマンティックフィールドの再構成を統一したフィードフォワードガウススプラッティングモデルを提案する。
3Dシーンとセマンティックフィールドを組み合わせることで、周囲の環境の認識と理解が容易になる。
しかし、重要な課題は、セマンティクスを3D表現に埋め込み、一般化可能なリアルタイム再構成を実現し、画像のみをカメラパラメータや地底真理深さのない入力として使用することにより、実用的な適用性を確保することである。
この目的のために、UniForwardというフィードフォワードモデルを提案する。
3Dシーンとセマンティックフィールドの統一表現を可能にするために,セマンティックな特徴を3Dガウスアンに組み込んで,二分岐デカップリングデコーダを用いて予測する。
トレーニング中,従来手法で求められていた真理深度やマスクの必要性を解消し,トレーニングプロセスの安定化を図る。
モデル全体は、予め訓練された2Dセマンティックモデルから意味的特徴を利用する、測光損失と蒸留損失を用いて、エンドツーエンドで訓練することができる。
推論の段階では、スパースビュー画像のみから3Dシーンと対応するセマンティックフィールドをリアルタイムで再構築することができる。
再構成された3Dシーンは高品質なレンダリングを実現し、再構成された3Dセマンティックフィールドは、任意のビューからビュー一貫性のあるセマンティックな特徴のレンダリングを可能にする。
新規なビュー合成と新規なビューセグメンテーションの実験により,本手法が3次元シーンの統合とセマンティックフィールド再構成を実現することを示す。
関連論文リスト
- SemanticSplat: Feed-Forward 3D Scene Understanding with Language-Aware Gaussian Fields [33.113865514268085]
ホロスティックな3Dシーン理解は、拡張現実やロボットインタラクションといったアプリケーションには不可欠だ。
既存のフィードフォワード3Dシーン理解手法(例えば、LSM)は、シーンから言語ベースのセマンティクスを抽出することに限定されている。
フィードフォワード型セマンティック3D再構成手法であるSemanticSplatを提案する。
論文 参考訳(メタデータ) (2025-06-11T09:56:39Z) - MOSE: Monocular Semantic Reconstruction Using NeRF-Lifted Noisy Priors [11.118490283303407]
画像レベルの雑音を3次元に引き上げるニューラルネットワークセマンティック・リコンストラクション手法を提案する。
本手法は3次元空間と2次元空間の両方で正確な意味論と幾何学を生成する。
論文 参考訳(メタデータ) (2024-09-21T05:12:13Z) - DistillNeRF: Perceiving 3D Scenes from Single-Glance Images by Distilling Neural Fields and Foundation Model Features [65.8738034806085]
DistillNeRFは、自動運転シーンにおける3D環境を理解するための自己教師型学習フレームワークである。
本手法は,スパースで単一フレームのマルチビューカメラ入力からリッチなニューラルシーン表現を予測する一般化可能なフィードフォワードモデルである。
論文 参考訳(メタデータ) (2024-06-17T21:15:13Z) - Denoising Diffusion via Image-Based Rendering [54.20828696348574]
実世界の3Dシーンの高速かつ詳細な再構築と生成を可能にする最初の拡散モデルを提案する。
まず、大きな3Dシーンを効率よく正確に表現できる新しいニューラルシーン表現であるIBプレーンを導入する。
第二に,2次元画像のみを用いて,この新たな3次元シーン表現の事前学習を行うためのデノイング拡散フレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-05T19:00:45Z) - SSR-2D: Semantic 3D Scene Reconstruction from 2D Images [54.46126685716471]
本研究では,3Dアノテーションを使わずにセマンティックなシーン再構成を行う中心的な3Dシーンモデリングタスクについて検討する。
提案手法の鍵となる考え方は,不完全な3次元再構成と対応するRGB-D画像の両方を用いたトレーニング可能なモデルの設計である。
本研究では,2つの大規模ベンチマークデータセットであるMatterPort3DとScanNetに対して,セマンティックシーン補完の最先端性能を実現する。
論文 参考訳(メタデータ) (2023-02-07T17:47:52Z) - NeSF: Neural Semantic Fields for Generalizable Semantic Segmentation of
3D Scenes [25.26518805603798]
NeSFは、ポーズされたRGB画像のみから3Dセマンティックフィールドを生成する方法である。
本手法は,訓練に2次元の監督しか必要としない,真に密集した3次元シーンセグメンテーションを提供する最初の方法である。
論文 参考訳(メタデータ) (2021-11-25T21:44:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。