論文の概要: SparseLGS: Sparse View Language Embedded Gaussian Splatting
- arxiv url: http://arxiv.org/abs/2412.02245v1
- Date: Tue, 03 Dec 2024 08:18:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-04 15:44:32.896201
- Title: SparseLGS: Sparse View Language Embedded Gaussian Splatting
- Title(参考訳): SparseLGS: ガウススプラッティングを組み込んだスパースビュー言語
- Authors: Jun Hu, Zhang Chen, Zhong Li, Yi Xu, Juyong Zhang,
- Abstract要約: 本研究では,3次元シーン理解の課題に対して,ポーズレスでスパースなビュー入力画像を用いたSparseLGSを提案する。
提案手法は,ポーズレスおよびスパース入力を扱うための学習ベース密度ステレオモデルと,セマンティック不整合問題に対処する3段階領域マッチング手法を利用する。
- 参考スコア(独自算出の注目度): 49.187761358726675
- License:
- Abstract: Recently, several studies have combined Gaussian Splatting to obtain scene representations with language embeddings for open-vocabulary 3D scene understanding. While these methods perform well, they essentially require very dense multi-view inputs, limiting their applicability in real-world scenarios. In this work, we propose SparseLGS to address the challenge of 3D scene understanding with pose-free and sparse view input images. Our method leverages a learning-based dense stereo model to handle pose-free and sparse inputs, and a three-step region matching approach to address the multi-view semantic inconsistency problem, which is especially important for sparse inputs. Different from directly learning high-dimensional CLIP features, we extract low-dimensional information and build bijections to avoid excessive learning and storage costs. We introduce a reconstruction loss during semantic training to improve Gaussian positions and shapes. To the best of our knowledge, we are the first to address the 3D semantic field problem with sparse pose-free inputs. Experimental results show that SparseLGS achieves comparable quality when reconstructing semantic fields with fewer inputs (3-4 views) compared to previous SOTA methods with dense input. Besides, when using the same sparse input, SparseLGS leads significantly in quality and heavily improves the computation speed (5$\times$ speedup). Project page: {\tt\small \url{https://ustc3dv.github.io/SparseLGS}}
- Abstract(参考訳): 近年,Gussian SplattingとLanguage Embeddingsを併用して,オープンな3Dシーン理解を実現している。
これらの手法はよく機能するが、基本的に非常に密集したマルチビュー入力を必要とし、現実のシナリオにおける適用性を制限する。
本研究では,ポーズレスでスパースな視点入力画像を用いた3次元シーン理解の課題を解決するために,SparseLGSを提案する。
提案手法は,多視点セマンティック不整合問題に対処する3段階の領域マッチング手法を,特にスパース入力において重要である。
高次元CLIP機能を直接学習するのと異なり、過剰な学習や記憶コストを回避するため、低次元情報を抽出し、ビジェクションを構築する。
セマンティックトレーニング中にガウスの位置と形状を改善するために再構築損失を導入する。
我々の知る限りでは、我々はスパースなポーズフリー入力で3Dセマンティックフィールド問題に最初に対処した人物である。
実験結果から,SparseLGSはより少ない入力(3-4ビュー)でセマンティックフィールドを再構築する際に,従来のSOTA法に比べて高い品質が得られることがわかった。
さらに、同じスパース入力を使用する場合、SparseLGSは品質が著しく向上し、計算速度が大幅に向上する(5$\times$ speedup)。
プロジェクトページ: {\tt\small \url{https://ustc3dv.github.io/SparseLGS}}
関連論文リスト
- SLGaussian: Fast Language Gaussian Splatting in Sparse Views [15.0280871846496]
スパース視点から3次元意味体を構築するフィードフォワード手法であるSLGaussianを提案する。
SLGaussianは、3D空間に言語情報を効率よく埋め込むことができ、スパースビュー条件下で正確な3Dシーン理解のための堅牢なソリューションを提供する。
論文 参考訳(メタデータ) (2024-12-11T12:18:30Z) - SparseGrasp: Robotic Grasping via 3D Semantic Gaussian Splatting from Sparse Multi-View RGB Images [125.66499135980344]
オープンボキャブラリ型ロボットグリップシステムであるSparseGraspを提案する。
SparseGraspはスパースビューのRGBイメージで効率的に動作し、シーン更新を高速に処理する。
SparseGraspは, 高速化と適応性の両方の観点から, 最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-12-03T03:56:01Z) - Occam's LGS: A Simple Approach for Language Gaussian Splatting [57.00354758206751]
言語接地型3次元ガウススプラッティングの高度な技術は、単に不要であることを示す。
オッカムのカミソリを手作業に適用し、重み付けされた多視点特徴集計を行う。
我々の結果は2桁のスピードアップによる最先端の結果を提供する。
論文 参考訳(メタデータ) (2024-12-02T18:50:37Z) - No Pose, No Problem: Surprisingly Simple 3D Gaussian Splats from Sparse Unposed Images [100.80376573969045]
NoPoSplatは、多視点画像から3Dガウスアンによってパラメータ化された3Dシーンを再構成できるフィードフォワードモデルである。
提案手法は,推定時にリアルタイムな3次元ガウス再構成を実現する。
この研究は、ポーズフリーの一般化可能な3次元再構成において大きな進歩をもたらし、実世界のシナリオに適用可能であることを示す。
論文 参考訳(メタデータ) (2024-10-31T17:58:22Z) - Semantic Gaussians: Open-Vocabulary Scene Understanding with 3D Gaussian Splatting [27.974762304763694]
セマンティック・ガウシアン(Semantic Gaussians)は,3次元ガウシアン・スプレイティングをベースとした,新しいオープン語彙シーン理解手法である。
既存の手法とは異なり、様々な2次元意味的特徴を3次元ガウスの新たな意味的構成要素にマッピングする多目的投影手法を設計する。
我々は,高速な推論のために,生の3Dガウスから意味成分を直接予測する3Dセマンティックネットワークを構築した。
論文 参考訳(メタデータ) (2024-03-22T21:28:19Z) - Language Embedded 3D Gaussians for Open-Vocabulary Scene Understanding [2.517953665531978]
オープン語彙クエリタスクのための新しいシーン表現であるLanguage Embedded 3D Gaussiansを紹介する。
我々の表現は、現在の言語埋め込み表現において、最高の視覚的品質と言語クエリの精度を達成する。
論文 参考訳(メタデータ) (2023-11-30T11:50:07Z) - Distilling Coarse-to-Fine Semantic Matching Knowledge for Weakly
Supervised 3D Visual Grounding [58.924180772480504]
3Dビジュアルグラウンドリングは、所定の文クエリに対応する3Dシーンでターゲットオブジェクトを見つけることを含む。
弱教師付きアノテーションを利用して3次元視覚的接地モデルを学ぶことを提案する。
オブジェクトの提案と文のセマンティックな類似性を粗大な方法で解析する新しいセマンティックマッチングモデルを設計する。
論文 参考訳(メタデータ) (2023-07-18T13:49:49Z) - Focal Sparse Convolutional Networks for 3D Object Detection [121.45950754511021]
我々はスパースCNNの能力を高めるために2つの新しいモジュールを導入する。
焦点スパース・コンボリューション(Focals Conv)であり、焦点スパース・コンボリューションの多様変種である。
スパース・コンボリューションにおける空間的に学習可能な空間空間性は,高度な3次元物体検出に不可欠であることを示す。
論文 参考訳(メタデータ) (2022-04-26T17:34:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。