論文の概要: SemGS: Feed-Forward Semantic 3D Gaussian Splatting from Sparse Views for Generalizable Scene Understanding
- arxiv url: http://arxiv.org/abs/2603.02548v1
- Date: Tue, 03 Mar 2026 03:06:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-04 21:38:10.61316
- Title: SemGS: Feed-Forward Semantic 3D Gaussian Splatting from Sparse Views for Generalizable Scene Understanding
- Title(参考訳): SemGS: 一般化可能なシーン理解のためのスパース視点からのフィードフォワード・セマンティック3Dガウススティング
- Authors: Sheng Ye, Zhen-Hui Dong, Ruoyu Fan, Tian Lv, Yong-Jin Liu,
- Abstract要約: SemGSは画像入力から一般化可能なセマンティックフィールドを再構築するためのフィードフォワードフレームワークである。
カメラ視点間の幾何学的関係を明示的にモデル化するために,特徴抽出器にカメラ対応アテンション機構を導入する。
実験により、SemGSはベンチマークデータセット上で最先端のパフォーマンスを達成することが示された。
- 参考スコア(独自算出の注目度): 18.889530477440793
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Semantic understanding of 3D scenes is essential for robots to operate effectively and safely in complex environments. Existing methods for semantic scene reconstruction and semantic-aware novel view synthesis often rely on dense multi-view inputs and require scene-specific optimization, limiting their practicality and scalability in real-world applications. To address these challenges, we propose SemGS, a feed-forward framework for reconstructing generalizable semantic fields from sparse image inputs. SemGS uses a dual-branch architecture to extract color and semantic features, where the two branches share shallow CNN layers, allowing semantic reasoning to leverage textural and structural cues in color appearance. We also incorporate a camera-aware attention mechanism into the feature extractor to explicitly model geometric relationships between camera viewpoints. The extracted features are decoded into dual-Gaussians that share geometric consistency while preserving branch-specific attributes, and further rasterized to synthesize semantic maps under novel viewpoints. Additionally, we introduce a regional smoothness loss to enhance semantic coherence. Experiments show that SemGS achieves state-of-the-art performance on benchmark datasets, while providing rapid inference and strong generalization capabilities across diverse synthetic and real-world scenarios.
- Abstract(参考訳): 3Dシーンのセマンティック理解は、ロボットが複雑な環境で効果的かつ安全に操作するために不可欠である。
既存のセマンティックシーン再構成とセマンティック・アウェア・ノベルビュー合成の方法は、しばしば密集したマルチビュー入力に依存し、シーン固有の最適化を必要とし、現実のアプリケーションにおける実用性とスケーラビリティを制限している。
これらの課題に対処するために、スパース画像入力から一般化可能なセマンティックフィールドを再構築するためのフィードフォワードフレームワークであるSemGSを提案する。
SemGSはカラーとセマンティックの特徴を抽出するためにデュアルブランチアーキテクチャを使用しており、2つのブランチは浅いCNN層を共有する。
また,カメラ視点間の幾何学的関係を明示的にモデル化するために,特徴抽出器にカメラ対応アテンション機構を組み込んだ。
抽出された特徴は、分岐特化属性を保存しながら幾何学的整合性を共有する双対ガウスアンに復号化され、さらに新しい視点の下で意味マップを合成するためにラスタライズされる。
さらに,セマンティック・コヒーレンスを高めるために,局所的な滑らかさ損失を導入する。
実験によると、SemGSはベンチマークデータセット上で最先端のパフォーマンスを実現し、多様な合成シナリオと実世界のシナリオにまたがる高速な推論と強力な一般化機能を提供する。
関連論文リスト
- StdGEN++: A Comprehensive System for Semantic-Decomposed 3D Character Generation [57.06461272772509]
StdGEN++は、多種多様な入力から高忠実で意味的に分解された3D文字を生成するための、新しく包括的なシステムである。
最先端の性能を達成し、幾何学的精度と意味的絡み合いにおいて既存の手法を著しく上回っている。
結果として、非破壊的な編集、物理学に準拠したアニメーション、視線追跡など、より進んだ下流の機能をアンロックする。
論文 参考訳(メタデータ) (2026-01-12T15:41:27Z) - SegSplat: Feed-forward Gaussian Splatting and Open-Set Semantic Segmentation [114.57192386025373]
SegSplatは、高速でフィードフォワードな3D再構成とリッチでオープンなセマンティック理解のギャップを埋めるために設計された、新しいフレームワークである。
この研究は、意味的に認識された3D環境の実践的でオンザフライな生成に向けた重要なステップである。
論文 参考訳(メタデータ) (2025-11-23T10:26:38Z) - OpenInsGaussian: Open-vocabulary Instance Gaussian Segmentation with Context-aware Cross-view Fusion [89.98812408058336]
textbfOpenInsGaussian, textbfOpen-vocabulary textbfInstance textbfGaussian segmentation framework with Context-aware Cross-view Fusion。
OpenInsGaussianは、オープン語彙の3Dガウスのセグメンテーションにおける最先端の結果を達成し、既存のベースラインを大きなマージンで上回る。
論文 参考訳(メタデータ) (2025-10-21T03:24:12Z) - IGFuse: Interactive 3D Gaussian Scene Reconstruction via Multi-Scans Fusion [15.837932667195037]
IGFuseは対話型ガウスシーンを複数のスキャンから観測することで再構成する新しいフレームワークである。
本手法は,ガウス場を意識したセグメンテーションを構築し,スキャン間の双方向光度・セマンティック一貫性を実現する。
IGFuseは、密度の高い観測や複雑なパイプラインを使わずに、高忠実なレンダリングとオブジェクトレベルのシーン操作を可能にする。
論文 参考訳(メタデータ) (2025-08-18T17:59:47Z) - SemanticSplat: Feed-Forward 3D Scene Understanding with Language-Aware Gaussian Fields [33.113865514268085]
ホロスティックな3Dシーン理解は、拡張現実やロボットインタラクションといったアプリケーションには不可欠だ。
既存のフィードフォワード3Dシーン理解手法(例えば、LSM)は、シーンから言語ベースのセマンティクスを抽出することに限定されている。
フィードフォワード型セマンティック3D再構成手法であるSemanticSplatを提案する。
論文 参考訳(メタデータ) (2025-06-11T09:56:39Z) - OGGSplat: Open Gaussian Growing for Generalizable Reconstruction with Expanded Field-of-View [74.58230239274123]
一般化可能な3次元再構成において視野を拡大するオープンガウス成長法であるOGGSplatを提案する。
我々の重要な洞察は、オープンガウスのセマンティックな属性が、画像外挿の強い先行性を提供するということである。
OGGSplatはまた、スマートフォンカメラから直接撮影される2つのビューイメージを備えた場合、有望なセマンティック・アウェア・シーン再構築機能を示す。
論文 参考訳(メタデータ) (2025-06-05T16:17:18Z) - GSFF-SLAM: 3D Semantic Gaussian Splatting SLAM via Feature Field [17.57215792490409]
GSFF-SLAMは3次元ガウススプラッティングに基づく新しい意味論的SLAMシステムである。
提案手法は, 様々な2次元先行情報, 特にスパース信号と雑音信号を用いた意味的再構成を支援する。
2D基底真理を利用する場合、GSFF-SLAMは95.03% mIoUで最先端のセマンティックセグメンテーション性能を達成する。
論文 参考訳(メタデータ) (2025-04-28T01:21:35Z) - InstanceGaussian: Appearance-Semantic Joint Gaussian Representation for 3D Instance-Level Perception [17.530797215534456]
3Dシーンの理解は、自動運転、ロボティクス、拡張現実の応用において重要な研究領域となっている。
本稿では,インスタンスを適応的に集約しながら外観や意味的特徴を共同学習する InstanceGaussian を提案する。
提案手法は,カテゴリーに依存しないオープンボキャブラリ3次元点分割における最先端性能を実現する。
論文 参考訳(メタデータ) (2024-11-28T16:08:36Z) - Large Spatial Model: End-to-end Unposed Images to Semantic 3D [79.94479633598102]
大空間モデル(LSM)は、RGB画像を直接意味的放射場に処理する。
LSMは、単一のフィードフォワード操作における幾何学、外観、意味を同時に推定する。
新しい視点で言語と対話することで、多目的ラベルマップを生成することができる。
論文 参考訳(メタデータ) (2024-10-24T17:54:42Z) - GP-NeRF: Generalized Perception NeRF for Context-Aware 3D Scene Understanding [101.32590239809113]
Generalized Perception NeRF (GP-NeRF) は、広く使われているセグメンテーションモデルとNeRFを統一されたフレームワークで相互に動作させる新しいパイプラインである。
本稿では,セマンティック蒸留損失(Semantic Distill Loss)とDepth-Guided Semantic Distill Loss(Depth-Guided Semantic Distill Loss)という2つの自己蒸留機構を提案する。
論文 参考訳(メタデータ) (2023-11-20T15:59:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。