論文の概要: SpatialSplat: Efficient Semantic 3D from Sparse Unposed Images
- arxiv url: http://arxiv.org/abs/2505.23044v1
- Date: Thu, 29 May 2025 03:40:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 18:14:07.656415
- Title: SpatialSplat: Efficient Semantic 3D from Sparse Unposed Images
- Title(参考訳): SpaceSplat:スパース・アンポーズ画像からの効率的なセマンティック3D
- Authors: Yu Sheng, Jiajun Deng, Xinran Zhang, Yu Zhang, Bei Hua, Yanyong Zhang, Jianmin Ji,
- Abstract要約: 冗長性を意識したガウス語を生成するフィードフォワードフレームワークである textbfSpatialSplat を紹介する。
本研究では,シーン表現パラメータの60%削減を図り,最先端手法よりも優れた性能を実現した。
- 参考スコア(独自算出の注目度): 28.63933585033451
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A major breakthrough in 3D reconstruction is the feedforward paradigm to generate pixel-wise 3D points or Gaussian primitives from sparse, unposed images. To further incorporate semantics while avoiding the significant memory and storage costs of high-dimensional semantic features, existing methods extend this paradigm by associating each primitive with a compressed semantic feature vector. However, these methods have two major limitations: (a) the naively compressed feature compromises expressiveness, affecting the model's ability to capture fine-grained semantics, and (b) the pixel-wise primitive prediction introduces redundancy in overlapping areas, causing unnecessary memory overhead. To this end, we introduce \textbf{SpatialSplat}, a feedforward framework that produces redundancy-aware Gaussians and capitalizes on a dual-field semantic representation. Particularly, with the insight that primitives within the same instance exhibit high semantic consistency, we decompose the semantic representation into a coarse feature field that encodes uncompressed semantics with minimal primitives, and a fine-grained yet low-dimensional feature field that captures detailed inter-instance relationships. Moreover, we propose a selective Gaussian mechanism, which retains only essential Gaussians in the scene, effectively eliminating redundant primitives. Our proposed Spatialsplat learns accurate semantic information and detailed instances prior with more compact 3D Gaussians, making semantic 3D reconstruction more applicable. We conduct extensive experiments to evaluate our method, demonstrating a remarkable 60\% reduction in scene representation parameters while achieving superior performance over state-of-the-art methods. The code will be made available for future investigation.
- Abstract(参考訳): 3D再構成における大きなブレークスルーは、ピクセルワイドな3Dポイントやガウスのプリミティブをスパースで未ポーズの画像から生成するフィードフォワードパラダイムである。
セマンティクスをさらに取り入れつつ、高次元セマンティクスの特徴の重要な記憶と記憶コストを回避するため、既存の手法では、各プリミティブを圧縮セマンティクス特徴ベクトルに関連付けることにより、このパラダイムを拡張している。
しかし、これらの手法には2つの大きな制限がある。
(a) 感情的に圧縮された特徴が表現性を損なうことにより、モデルが微粒な意味論を捉える能力に影響を及ぼし、
b) 画素単位のプリミティブ予測は重なり合う領域の冗長性を導入し、不必要なメモリオーバーヘッドを引き起こす。
そこで本稿では,冗長性を意識したガウス語を生成するフィードフォワードフレームワークである \textbf{SpatialSplat} を紹介する。
特に、同じインスタンス内のプリミティブが高いセマンティック一貫性を示すという知見により、セマンティック表現を、最小のプリミティブで圧縮されていないセマンティクスを符号化する粗い機能フィールドと、詳細なインスタンス間関係をキャプチャする細粒度で低次元の特徴フィールドに分解する。
さらに,シーンにおいて重要なガウスのみを保持する選択的ガウス機構を提案し,冗長なプリミティブを効果的に排除する。
提案手法は,よりコンパクトな3次元ガウシアンを用いて,より正確な意味情報と詳細な事例を学習し,セマンティックな3次元再構成をより適用できるようにする。
提案手法を評価するために広範囲な実験を行い,シーン表現パラメータの60倍の低下を示すとともに,最先端の手法よりも優れた性能を実現した。
コードは今後の調査のために利用可能になる。
関連論文リスト
- FHGS: Feature-Homogenized Gaussian Splatting [7.238124816235862]
$textitFHGS$は物理モデルにインスパイアされた新しい3D機能融合フレームワークである。
3DGSのリアルタイムレンダリング効率を保ちながら、事前訓練されたモデルから3Dシーンへの任意の2D特徴の高精度マッピングを実現することができる。
論文 参考訳(メタデータ) (2025-05-25T14:08:49Z) - CompGS++: Compressed Gaussian Splatting for Static and Dynamic Scene Representation [60.712165339762116]
CompGS++はコンパクトガウスプリミティブを活用して正確な3Dモデリングを実現する新しいフレームワークである。
私たちの設計は、プリミティブ間の冗長性をなくすという原則に基づいている。
私たちの実装は、さらなる研究を促進するためにGitHubで公開されます。
論文 参考訳(メタデータ) (2025-04-17T15:33:01Z) - Large Spatial Model: End-to-end Unposed Images to Semantic 3D [79.94479633598102]
大空間モデル(LSM)は、RGB画像を直接意味的放射場に処理する。
LSMは、単一のフィードフォワード操作における幾何学、外観、意味を同時に推定する。
新しい視点で言語と対話することで、多目的ラベルマップを生成することができる。
論文 参考訳(メタデータ) (2024-10-24T17:54:42Z) - MCGS: Multiview Consistency Enhancement for Sparse-View 3D Gaussian Radiance Fields [73.49548565633123]
3Dガウシアンによって表現される放射場は、高いトレーニング効率と高速レンダリングの両方を提供する、新しいビューの合成に優れている。
既存の手法では、高密度推定ネットワークからの奥行き先を組み込むことが多いが、入力画像に固有の多視点一貫性を見落としている。
本稿では,3次元ガウス・スプレイティング(MCGS)に基づくビュー・フレームワークを提案し,スパークス・インプット・ビューからシーンを再構築する。
論文 参考訳(メタデータ) (2024-10-15T08:39:05Z) - CLIP-GS: CLIP-Informed Gaussian Splatting for Real-time and View-consistent 3D Semantic Understanding [32.76277160013881]
コントラスト言語画像事前学習(CLIP)のセマンティクスをガウススプラッティングに統合するCLIP-GSを提案する。
SACはオブジェクト内の固有の統一意味論を利用して、3Dガウスのコンパクトで効果的な意味表現を学ぶ。
また,3次元モデルから得られた多視点一貫性を利用して,3次元コヒーレント自己学習(3DCS)戦略を導入する。
論文 参考訳(メタデータ) (2024-04-22T15:01:32Z) - CompGS: Efficient 3D Scene Representation via Compressed Gaussian Splatting [68.94594215660473]
Compressed Gaussian Splatting (CompGS) という,効率的な3次元シーン表現を提案する。
我々は少数のアンカープリミティブを予測に利用し、プリミティブの大多数を非常にコンパクトな残留形にカプセル化することができる。
実験の結果,提案手法は既存の手法よりも優れており,モデル精度とレンダリング品質を損なうことなく,3次元シーン表現のコンパクト性に優れていた。
論文 参考訳(メタデータ) (2024-04-15T04:50:39Z) - latentSplat: Autoencoding Variational Gaussians for Fast Generalizable 3D Reconstruction [48.86083272054711]
latentSplatは3D潜在空間における意味ガウスを予測し、軽量な生成型2Dアーキテクチャで切り落としてデコードする手法である。
latentSplatは、高速でスケーラブルで高解像度なデータでありながら、復元品質と一般化におけるこれまでの成果よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-03-24T20:48:36Z) - Semantic Gaussians: Open-Vocabulary Scene Understanding with 3D Gaussian Splatting [27.974762304763694]
セマンティック・ガウシアン(Semantic Gaussians)は,3次元ガウシアン・スプレイティングをベースとした,新しいオープン語彙シーン理解手法である。
既存の手法とは異なり、様々な2次元意味的特徴を3次元ガウスの新たな意味的構成要素にマッピングする多目的投影手法を設計する。
我々は,高速な推論のために,生の3Dガウスから意味成分を直接予測する3Dセマンティックネットワークを構築した。
論文 参考訳(メタデータ) (2024-03-22T21:28:19Z) - SwIPE: Efficient and Robust Medical Image Segmentation with Implicit Patch Embeddings [12.79344668998054]
正確な局所境界線とグローバルな形状コヒーレンスを実現するために,SwIPE(Segmentation with Implicit Patch Embeddings)を提案する。
その結果,最近の暗黙的アプローチよりもSwIPEは大幅に改善され,パラメータが10倍以上の最先端の離散手法よりも優れていた。
論文 参考訳(メタデータ) (2023-07-23T20:55:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。