論文の概要: First Shape, Then Meaning: Efficient Geometry and Semantics Learning for Indoor Reconstruction
- arxiv url: http://arxiv.org/abs/2605.03463v1
- Date: Tue, 05 May 2026 07:50:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-06 19:35:43.826039
- Title: First Shape, Then Meaning: Efficient Geometry and Semantics Learning for Indoor Reconstruction
- Title(参考訳): 初形状と意味:室内再建のための効率的な幾何学と意味学習
- Authors: Remi Chierchia, Léo Lebrat, David Ahmedt-Aristizabal, Olivier Salvado, Clinton Fookes, Rodrigo Santa Cruz,
- Abstract要約: FSTMは2段階のプロセスを通して幾何学と意味学を学習するための統一的なアプローチである。
合成および実世界の屋内データセットを用いた実験により,本手法がマルチSDF手法より優れていることが示された。
- 参考スコア(独自算出の注目度): 23.174056594526494
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Neural Surface Reconstruction has become a standard methodology for indoor 3D reconstruction, with Signed Distance Functions (SDFs) proving particularly effective for representing scene geometry. A variety of applications require a detailed understanding of the scene context, driving the need for object-level semantic signals. While recent methods successfully integrate semantic labels, they often inherit the slow training time and limited scalability of multi-SDF learning. In this paper, we introduce FSTM, a unified approach for learning geometry and semantics through a two-step process: a geometry warm-up using RGB inputs and geometric cues, followed by semantic field estimation. By first optimising geometry without semantic supervision, we observe substantial improvements compared to the standard joint optimisation. Rather than relying on specialised modules or complex multi-SDF designs, FSTM shows that a streamlined formulation is sufficient to achieve strong geometric and semantic reconstructions. Experiments on both synthetic and real-world indoor datasets show that our method outperforms multi-SDF approaches. It trains 2.3x faster on Replica, improves robustness to real-world imperfections on ScanNet++, and achieves higher recall by recovering the surfaces of more objects in the scene. The code will be made available at https://remichierchia.github.io/FSTM.
- Abstract(参考訳): ニューラル・サーフェス・リコンストラクションは屋内3次元再構成の標準手法となり、SDF(Signed Distance Function)は特にシーン幾何学の表現に有効であることが証明されている。
さまざまなアプリケーションがシーンコンテキストの詳細な理解を必要としており、オブジェクトレベルのセマンティックな信号を必要としている。
最近の手法はセマンティックラベルをうまく統合するが、遅いトレーニング時間とマルチSDF学習の限られたスケーラビリティを継承することが多い。
本稿では,RGB入力と幾何学的手がかりを用いた幾何ウォームアップとそれに続くセマンティックフィールド推定という,2段階のプロセスを通じて幾何学と意味学を学習するための統一的なアプローチであるFSTMを紹介する。
まず、意味的な監督なしに幾何を最適化することにより、標準的な関節の最適化と比較して大幅に改善される。
FSTMは、特別なモジュールや複雑なマルチSDF設計に頼るのではなく、合理化された定式化が強力な幾何学的および意味的再構成を実現するのに十分であることを示す。
合成および実世界の屋内データセットを用いた実験により,本手法がマルチSDF手法より優れていることが示された。
Replicaで2.3倍高速にトレーニングし、ScanNet++の現実世界の欠陥に対する堅牢性を改善し、シーン内のより多くのオブジェクトの表面を復元することで高いリコールを実現する。
コードはhttps://remichierchia.github.io/FSTMで公開される。
関連論文リスト
- GAP-MLLM: Geometry-Aligned Pre-training for Activating 3D Spatial Perception in Multimodal Large Language Models [70.61152292499737]
このギャップは、幾何学的事前の不足から生じるものではなく、訓練パラダイムの誤った調整から生じるものである、と我々は主張する。
既存のアプローチでは、通常、特徴の結合を示唆し、幾何学的な監督なしに下流のタスクを直接最適化する。
本稿では,下流適応前の構造知覚を明示的に活性化する幾何学的事前学習パラダイムであるGAP-MLLMを提案する。
論文 参考訳(メタデータ) (2026-03-17T12:43:48Z) - AlignGS: Aligning Geometry and Semantics for Robust Indoor Reconstruction from Sparse Views [18.361136390711415]
屋内シーンのセマンティックにリッチな3Dモデルへの需要は急速に増加しており、拡張現実、仮想現実、ロボット工学の応用によって推進されている。
既存の手法は、しばしば意味論を、既に形成され、潜在的に欠陥のある幾何学に描かれた受動的特徴として扱う。
本稿では、このビジョンを実現する新しいフレームワークであるAlignGSを紹介し、幾何学と意味論の相乗的でエンドツーエンドの最適化を開拓する。
論文 参考訳(メタデータ) (2025-10-09T06:30:20Z) - Seeing 3D Through 2D Lenses: 3D Few-Shot Class-Incremental Learning via Cross-Modal Geometric Rectification [59.17489431187807]
本稿では,CLIPの階層的空間意味論を活用することで3次元幾何学的忠実度を高めるフレームワークを提案する。
本手法は3次元のクラスインクリメンタル学習を著しく改善し,テクスチャバイアスに対して優れた幾何コヒーレンスとロバスト性を実現する。
論文 参考訳(メタデータ) (2025-09-18T13:45:08Z) - GSFF-SLAM: 3D Semantic Gaussian Splatting SLAM via Feature Field [17.57215792490409]
GSFF-SLAMは3次元ガウススプラッティングに基づく新しい意味論的SLAMシステムである。
提案手法は, 様々な2次元先行情報, 特にスパース信号と雑音信号を用いた意味的再構成を支援する。
2D基底真理を利用する場合、GSFF-SLAMは95.03% mIoUで最先端のセマンティックセグメンテーション性能を達成する。
論文 参考訳(メタデータ) (2025-04-28T01:21:35Z) - Large Spatial Model: End-to-end Unposed Images to Semantic 3D [79.94479633598102]
大空間モデル(LSM)は、RGB画像を直接意味的放射場に処理する。
LSMは、単一のフィードフォワード操作における幾何学、外観、意味を同時に推定する。
新しい視点で言語と対話することで、多目的ラベルマップを生成することができる。
論文 参考訳(メタデータ) (2024-10-24T17:54:42Z) - Voxurf: Voxel-based Efficient and Accurate Neural Surface Reconstruction [142.61256012419562]
本稿では,ボクセルをベースとした表面再構成手法であるVoxurfを提案する。
ボクサーフは,(1)コヒーレントな粗い形状を達成し,細部を連続的に再現する2段階の訓練手順,2)色-幾何学的依存性を維持する2色ネットワーク,3)ボクセル間の情報伝達を促進する階層的幾何学的特徴などを通じて,上記の課題に対処する。
論文 参考訳(メタデータ) (2022-08-26T14:48:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。