論文の概要: Tackling View-Dependent Semantics in 3D Language Gaussian Splatting
- arxiv url: http://arxiv.org/abs/2505.24746v1
- Date: Fri, 30 May 2025 16:06:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-02 19:47:53.06043
- Title: Tackling View-Dependent Semantics in 3D Language Gaussian Splatting
- Title(参考訳): 3次元言語ガウススプレイティングにおけるビュー依存セマンティクスの対応
- Authors: Jiazhong Cen, Xudong Zhou, Jiemin Fang, Changsong Wen, Lingxi Xie, Xiaopeng Zhang, Wei Shen, Qi Tian,
- Abstract要約: LaGaは、3Dシーンをオブジェクトに分解することで、ビュー間のセマンティック接続を確立する。
セマンティック記述子をクラスタリングし、多視点セマンティックスに基づいてそれらを重み付けすることで、ビュー集約セマンティック表現を構築する。
同じ設定で、LaGaはLERF-OVSデータセットの以前のSOTAよりも+18.7% mIoUを大幅に改善した。
- 参考スコア(独自算出の注目度): 80.88015191411714
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advancements in 3D Gaussian Splatting (3D-GS) enable high-quality 3D scene reconstruction from RGB images. Many studies extend this paradigm for language-driven open-vocabulary scene understanding. However, most of them simply project 2D semantic features onto 3D Gaussians and overlook a fundamental gap between 2D and 3D understanding: a 3D object may exhibit various semantics from different viewpoints--a phenomenon we term view-dependent semantics. To address this challenge, we propose LaGa (Language Gaussians), which establishes cross-view semantic connections by decomposing the 3D scene into objects. Then, it constructs view-aggregated semantic representations by clustering semantic descriptors and reweighting them based on multi-view semantics. Extensive experiments demonstrate that LaGa effectively captures key information from view-dependent semantics, enabling a more comprehensive understanding of 3D scenes. Notably, under the same settings, LaGa achieves a significant improvement of +18.7% mIoU over the previous SOTA on the LERF-OVS dataset. Our code is available at: https://github.com/SJTU-DeepVisionLab/LaGa.
- Abstract(参考訳): 近年の3Dガウススプラッティング(3D-GS)により,RGB画像からの高品質な3Dシーン再構成が可能となった。
多くの研究は、言語駆動のオープン語彙シーン理解のためにこのパラダイムを拡張している。
しかし、それらの多くは単に2Dのセマンティックな特徴を3Dガウスに投影し、2Dと3Dの理解の根本的なギャップを見落としている。
この課題に対処するため、我々は3Dシーンをオブジェクトに分解することで、横断的なセマンティック接続を確立するLaGa(Language Gaussian)を提案する。
次に、セマンティック記述子をクラスタリングし、多視点セマンティックスに基づいてそれらを重み付けすることで、ビュー集約セマンティック表現を構築する。
大規模な実験により、LaGaはビューに依存したセマンティクスから重要な情報を効果的に捉え、より包括的な3Dシーンの理解を可能にした。
特に、同じ設定で、LaGaはLERF-OVSデータセットの以前のSOTAよりも+18.7% mIoUを大幅に改善した。
私たちのコードは、https://github.com/SJTU-DeepVisionLab/LaGaで利用可能です。
関連論文リスト
- Training-Free Hierarchical Scene Understanding for Gaussian Splatting with Superpoint Graphs [16.153129392697885]
ガウス原始体から直接スーパーポイントグラフを構築する訓練自由フレームワークを導入する。
スーパーポイントグラフはシーンを空間的にコンパクトでセマンティックなコヒーレントな領域に分割し、ビュー一貫性の3Dエンティティを形成する。
提案手法は,30時間以上のセグメンテーションを高速化し,最先端のオープン語彙セグメンテーション性能を実現する。
論文 参考訳(メタデータ) (2025-04-17T17:56:07Z) - PanoGS: Gaussian-based Panoptic Segmentation for 3D Open Vocabulary Scene Understanding [8.72555461868951]
3D Gaussian Splatting (3DGS) はオープンな語彙シーン理解タスクの促進効果を示した。
従来の方法では3Dインスタンスレベルの情報は識別できないが、通常はシーンの特徴とテキストクエリ間のヒートマップを予測する。
新規かつ効果的な3次元パノプティカルオープンなシーン理解手法であるPanoGSを提案する。
論文 参考訳(メタデータ) (2025-03-23T15:27:29Z) - UniGS: Unified Language-Image-3D Pretraining with Gaussian Splatting [68.37013525040891]
マルチモーダルプレトレーニングに3Dガウススティング(3DGS)を組み込んだUniGSを提案する。
より汎用的で強力なマルチモーダル表現の学習におけるUniGSの有効性を実証する。
論文 参考訳(メタデータ) (2025-02-25T05:10:22Z) - AugRefer: Advancing 3D Visual Grounding via Cross-Modal Augmentation and Spatial Relation-based Referring [49.78120051062641]
3Dビジュアルグラウンドティングは、自然言語記述と対象物とを3Dシーン内で関連付けることを目的としている。
既存のアプローチでは、トレーニング用に利用可能なテキスト3Dペアが不足しているのが一般的である。
AugReferは3次元視覚的接地を前進させる新しい手法である。
論文 参考訳(メタデータ) (2025-01-16T09:57:40Z) - OVGaussian: Generalizable 3D Gaussian Segmentation with Open Vocabularies [112.80292725951921]
textbfOVGaussianは3D textbfGaussian表現に基づいた、一般化可能なtextbfOpen-textbfVocabulary 3Dセマンティックセマンティックセグメンテーションフレームワークである。
まず,3DGSをベースとした大規模3Dシーンデータセット(textbfSegGaussian)を構築し,ガウス点とマルチビュー画像の両方に対して詳細なセマンティックおよびインスタンスアノテーションを提供する。
シーン間のセマンティック・一般化を促進するために,ジェネリック・セマンティック・ラスタライゼーション(GSR)を導入する。
論文 参考訳(メタデータ) (2024-12-31T07:55:35Z) - Bootstraping Clustering of Gaussians for View-consistent 3D Scene Understanding [59.51535163599723]
FreeGSは、教師なしセマンティック組み込み3DGSフレームワークで、2Dラベルを必要とせずに、ビュー一貫性のある3Dシーン理解を実現する。
FreeGSは複雑なデータ前処理のワークロードを避けながら、最先端のメソッドと互換性がある。
論文 参考訳(メタデータ) (2024-11-29T08:52:32Z) - Semantic Gaussians: Open-Vocabulary Scene Understanding with 3D Gaussian Splatting [27.974762304763694]
セマンティック・ガウシアン(Semantic Gaussians)は,3次元ガウシアン・スプレイティングをベースとした,新しいオープン語彙シーン理解手法である。
既存の手法とは異なり、様々な2次元意味的特徴を3次元ガウスの新たな意味的構成要素にマッピングする多目的投影手法を設計する。
我々は,高速な推論のために,生の3Dガウスから意味成分を直接予測する3Dセマンティックネットワークを構築した。
論文 参考訳(メタデータ) (2024-03-22T21:28:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。