論文の概要: UniSem: Generalizable Semantic 3D Reconstruction from Sparse Unposed Images
- arxiv url: http://arxiv.org/abs/2603.17519v1
- Date: Wed, 18 Mar 2026 09:26:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-19 18:32:57.599207
- Title: UniSem: Generalizable Semantic 3D Reconstruction from Sparse Unposed Images
- Title(参考訳): UniSem:スパース・アンポーズ画像から汎用的なセマンティックな3D再構成
- Authors: Guibiao Liao, Qian Ren, Kaimin Liao, Hua Wang, Zhi Chen, Luchao Wang, Yaohua Tang,
- Abstract要約: 2つのキーコンポーネントによる深度精度とセマンティックな一般化を改善する統合フレームワークUniSemを提案する。
Error-aware Gaussian Dropout (EGD) は冗長性のあるGaussianを抑えることでエラー誘導容量制御を行う。
第2に、2Dセグメンタリフトセマンティクスと、モデル独自の創発的な3DセマンティクスをブレンドするMix-training Curriculum(MTC)を導入する。
- 参考スコア(独自算出の注目度): 10.080087958100552
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Semantic-aware 3D reconstruction from sparse, unposed images remains challenging for feed-forward 3D Gaussian Splatting (3DGS). Existing methods often predict an over-complete set of Gaussian primitives under sparse-view supervision, leading to unstable geometry and inferior depth quality. Meanwhile, they rely solely on 2D segmenter features for semantic lifting, which provides weak 3D-level and limited generalizable supervision, resulting in incomplete 3D semantics in novel scenes. To address these issues, we propose UniSem, a unified framework that jointly improves depth accuracy and semantic generalization via two key components. First, Error-aware Gaussian Dropout (EGD) performs error-guided capacity control by suppressing redundancy-prone Gaussians using rendering error cues, producing meaningful, geometrically stable Gaussian representations for improved depth estimation. Second, we introduce a Mix-training Curriculum (MTC) that progressively blends 2D segmenter-lifted semantics with the model's own emergent 3D semantic priors, implemented with object-level prototype alignment to enhance semantic coherence and completeness. Extensive experiments on ScanNet and Replica show that UniSem achieves superior performance in depth prediction and open-vocabulary 3D segmentation across varying numbers of input views. Notably, with 16-view inputs, UniSem reduces depth Rel by 15.2% and improves open-vocabulary segmentation mAcc by 3.7% over strong baselines.
- Abstract(参考訳): フィードフォワード3Dガウススプラッティング(3DGS)では,スパース画像からのセマンティック3D再構成が困難である。
既存の手法はしばしばスパースビューの監督の下でガウス原始体の過剰完全集合を予測し、不安定な幾何学と下層の深さ品質をもたらす。
一方、セマンティックリフティングには2次元セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティクスのみに依存しており、3次元レベルの弱さと限定的な汎用性を提供し、新しいシーンでは不完全な3次元セマンティクスをもたらす。
これらの問題に対処するために,2つのキーコンポーネントによる深度精度とセマンティック・ジェネリゼーションを共同で改善する統合フレームワークUniSemを提案する。
まず,誤差を意識したガウス落下(EGD)は,レンダリングエラーキューを用いて冗長性の高いガウスを抑え,意味のある幾何的に安定なガウス表現を生成し,深度推定を改善することによって誤差誘導容量制御を行う。
第2に、2Dセグメンタリフトセマンティクスとモデル独自の創発的3Dセマンティクスを段階的にブレンドする混合学習カリキュラム(MTC)を導入し、セマンティクスの一貫性と完全性を高めるためにオブジェクトレベルのプロトタイプアライメントを実装した。
ScanNetとReplicaの大規模な実験により、UniSemは様々な入力ビューに対して深度予測とオープンボキャブラリ3Dセグメンテーションにおいて優れた性能を発揮することが示された。
特に16ビューの入力では、UniSemは深さRelを15.2%減らし、オープン語彙のセグメンテーションmAccを3.7%改善する。
関連論文リスト
- Joint Semantic and Rendering Enhancements in 3D Gaussian Modeling with Anisotropic Local Encoding [86.55824709875598]
本稿では,セマンティックとレンダリングの両方を相乗化する3次元セマンティックガウスモデリングのための統合拡張フレームワークを提案する。
従来の点雲形状符号化とは異なり、細粒度3次元形状を捉えるために異方性3次元ガウシアン・チェビシェフ記述子を導入する。
我々は、学習した形状パターンを継続的に更新するために、クロスシーンの知識伝達モジュールを使用し、より高速な収束と堅牢な表現を可能にします。
論文 参考訳(メタデータ) (2026-01-05T18:33:50Z) - GauSSmart: Enhanced 3D Reconstruction through 2D Foundation Models and Geometric Filtering [50.675710727721786]
2次元基礎モデルと3次元ガウススプラッティング再構成をブリッジするハイブリッド手法であるGauSSmartを提案する。
提案手法は,凸フィルタリングや意味的特徴監視など,確立した2次元コンピュータビジョン技術を統合している。
GauSSmartは既存のGaussian Splattingよりも一貫して優れています。
論文 参考訳(メタデータ) (2025-10-16T03:38:26Z) - Interpretable Single-View 3D Gaussian Splatting using Unsupervised Hierarchical Disentangled Representation Learning [46.85417907244265]
本稿では,粗い3Dセマンティクスと微粒な3Dセマンティクスの両方を発見するために,3DisGSと呼ばれる解釈可能な単一ビュー3DGSフレームワークを提案する。
本モデルでは,高品質かつ高速な再構成を保ちながら3次元のアンタングル化を実現する。
論文 参考訳(メタデータ) (2025-04-05T14:42:13Z) - TSGaussian: Semantic and Depth-Guided Target-Specific Gaussian Splatting from Sparse Views [18.050257821756148]
TSGaussianは、新しいビュー合成タスクにおける幾何学的劣化を避けるために、意味的制約と深さ事前の制約を組み合わせる新しいフレームワークである。
提案手法は,バックグラウンドアロケーションを最小化しながら,指定された目標に対する計算資源の優先順位付けを行う。
大規模な実験により、TSGaussianは3つの標準データセット上で最先端の手法より優れていることが示された。
論文 参考訳(メタデータ) (2024-12-13T11:26:38Z) - PF3plat: Pose-Free Feed-Forward 3D Gaussian Splatting [54.7468067660037]
PF3platは、設計選択を検証した包括的なアブレーション研究によってサポートされた、すべてのベンチマークに新しい最先端を設定します。
本フレームワークは,3DGSの高速,スケーラビリティ,高品質な3D再構成とビュー合成機能を活用している。
論文 参考訳(メタデータ) (2024-10-29T15:28:15Z) - GEOcc: Geometrically Enhanced 3D Occupancy Network with Implicit-Explicit Depth Fusion and Contextual Self-Supervision [49.839374549646884]
本稿では,視覚のみのサラウンドビュー知覚に適したジオメトリ強化OccupancyネットワークであるGEOccについて述べる。
提案手法は,Occ3D-nuScenesデータセット上で,画像解像度が最小で,画像バックボーンが最大である状態-Of-The-Art性能を実現する。
論文 参考訳(メタデータ) (2024-05-17T07:31:20Z) - CLIP-GS: CLIP-Informed Gaussian Splatting for View-Consistent 3D Indoor Semantic Understanding [17.440124130814166]
室内シーンのオープンな3Dセマンティック理解のためのCLIPモデルを用いた3Dガウススティング(3DGS)が注目されている。
提案するセマンティック属性コンパクト性(SAC)と3Dコヒーレント正規化(3DCR)を用いて、3次元屋内シーンのコヒーレントな意味理解を効率的に実現するCLIP-GSを提案する。
ScanNetとReplicaのデータセット上で,mIoUの21.20%と13.05%の改善を実現し,既存の最先端手法を著しく抑制する。
論文 参考訳(メタデータ) (2024-04-22T15:01:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。