論文の概要: Beyond Averages: Open-Vocabulary 3D Scene Understanding with Gaussian Splatting and Bag of Embeddings
- arxiv url: http://arxiv.org/abs/2509.12938v1
- Date: Tue, 16 Sep 2025 10:39:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-17 17:50:53.038354
- Title: Beyond Averages: Open-Vocabulary 3D Scene Understanding with Gaussian Splatting and Bag of Embeddings
- Title(参考訳): 平均を超える - ガウススプレイティングと埋め込みの袋による3次元オープンボキャブラリのシーン理解
- Authors: Abdalla Arafa, Didier Stricker,
- Abstract要約: 本稿では,意味論における微分可能レンダリングを完全に回避するパラダイムシフト方式を提案する。
私たちの重要な洞察は、事前分解されたオブジェクトレベルのガウスを利用して、マルチビューCLIP機能アグリゲーションを通じて各オブジェクトを表現することです。
これにより、(1)テキストクエリをオブジェクトレベル(ガウスレベルではない)の埋め込みと比較することにより、正確なオープン語彙オブジェクトの検索が可能となり、(2)シームレスなタスク適応:2次元セグメンテーションや3次元抽出のためのガウスアンにオブジェクトIDを伝搬する。
- 参考スコア(独自算出の注目度): 17.855913571198013
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Novel view synthesis has seen significant advancements with 3D Gaussian Splatting (3DGS), enabling real-time photorealistic rendering. However, the inherent fuzziness of Gaussian Splatting presents challenges for 3D scene understanding, restricting its broader applications in AR/VR and robotics. While recent works attempt to learn semantics via 2D foundation model distillation, they inherit fundamental limitations: alpha blending averages semantics across objects, making 3D-level understanding impossible. We propose a paradigm-shifting alternative that bypasses differentiable rendering for semantics entirely. Our key insight is to leverage predecomposed object-level Gaussians and represent each object through multiview CLIP feature aggregation, creating comprehensive "bags of embeddings" that holistically describe objects. This allows: (1) accurate open-vocabulary object retrieval by comparing text queries to object-level (not Gaussian-level) embeddings, and (2) seamless task adaptation: propagating object IDs to pixels for 2D segmentation or to Gaussians for 3D extraction. Experiments demonstrate that our method effectively overcomes the challenges of 3D open-vocabulary object extraction while remaining comparable to state-of-the-art performance in 2D open-vocabulary segmentation, ensuring minimal compromise.
- Abstract(参考訳): 新たなビュー合成は3Dガウススプラッティング(3DGS)によって大幅に進歩し、リアルタイムのフォトリアリスティックレンダリングを可能にした。
しかし、ガウシアン・スプレイティングの本質的なファジィネスは、3Dシーン理解の課題を示し、AR/VRおよびロボット工学における幅広い応用を制限する。
最近の研究は、2Dファンデーションモデルの蒸留を通じて意味学を学ぼうとしているが、それらは基本的な制限を継承している。
本稿では,意味論における微分可能レンダリングを完全に回避するパラダイムシフト方式を提案する。
私たちの重要な洞察は、事前分解されたオブジェクトレベルのガウシアンを活用し、マルチビューCLIP機能アグリゲーションを通じて各オブジェクトを表現することです。
これにより、(1)テキストクエリをオブジェクトレベル(ガウスレベルではない)の埋め込みと比較することにより、正確なオープン語彙オブジェクトの検索が可能となり、(2)シームレスなタスク適応:2次元セグメンテーションや3次元抽出のためのガウスアンにオブジェクトIDを伝搬する。
実験により,本手法は2次元オープン語彙セグメンテーションにおける最先端性能に匹敵する性能を維持しつつ,3次元オープン語彙オブジェクト抽出の課題を効果的に克服し,最小限の妥協を確保できることを示した。
関連論文リスト
- GALA: Guided Attention with Language Alignment for Open Vocabulary Gaussian Splatting [74.56128224977279]
GALAは3次元ガウススプラッティングを用いたオープンな3次元シーン理解のための新しいフレームワークである(3DGS)。
GALAは、自己教師付きコントラスト学習を通じてシーン固有の3Dインスタンス特徴フィールドを蒸留する。
シームレスな2Dおよび3Dオープン語彙クエリをサポートし、ガウス単位の高次元特徴学習を回避してメモリ消費を削減する。
論文 参考訳(メタデータ) (2025-08-19T21:26:49Z) - Tackling View-Dependent Semantics in 3D Language Gaussian Splatting [80.88015191411714]
LaGaは、3Dシーンをオブジェクトに分解することで、ビュー間のセマンティック接続を確立する。
セマンティック記述子をクラスタリングし、多視点セマンティックスに基づいてそれらを重み付けすることで、ビュー集約セマンティック表現を構築する。
同じ設定で、LaGaはLERF-OVSデータセットの以前のSOTAよりも+18.7% mIoUを大幅に改善した。
論文 参考訳(メタデータ) (2025-05-30T16:06:32Z) - Training-Free Hierarchical Scene Understanding for Gaussian Splatting with Superpoint Graphs [16.153129392697885]
ガウス原始体から直接スーパーポイントグラフを構築する訓練自由フレームワークを導入する。
スーパーポイントグラフはシーンを空間的にコンパクトでセマンティックなコヒーレントな領域に分割し、ビュー一貫性の3Dエンティティを形成する。
提案手法は,30時間以上のセグメンテーションを高速化し,最先端のオープン語彙セグメンテーション性能を実現する。
論文 参考訳(メタデータ) (2025-04-17T17:56:07Z) - OpenGS-SLAM: Open-Set Dense Semantic SLAM with 3D Gaussian Splatting for Object-Level Scene Understanding [20.578106363482018]
OpenGS-SLAMは3次元ガウス表現を利用して、オープンセット環境で密接なセマンティックSLAMを実行する革新的なフレームワークである。
本システムは,2次元モデルから派生した明示的なセマンティックラベルを3次元ガウスフレームワークに統合し,ロバストな3次元オブジェクトレベルの理解を容易にする。
本手法は従来の手法に比べて10倍高速なセマンティックレンダリングと2倍のストレージコストを実現する。
論文 参考訳(メタデータ) (2025-03-03T15:23:21Z) - Bootstraping Clustering of Gaussians for View-consistent 3D Scene Understanding [59.51535163599723]
FreeGSは、教師なしセマンティック組み込み3DGSフレームワークで、2Dラベルを必要とせずに、ビュー一貫性のある3Dシーン理解を実現する。
FreeGSは複雑なデータ前処理のワークロードを避けながら、最先端のメソッドと互換性がある。
論文 参考訳(メタデータ) (2024-11-29T08:52:32Z) - OpenGaussian: Towards Point-Level 3D Gaussian-based Open Vocabulary Understanding [54.981605111365056]
本稿では,3次元点レベルの開語彙理解が可能な3次元ガウススティング(3DGS)に基づくOpenGaussianを紹介する。
我々の主な動機は、既存の3DGSベースのオープン語彙法が主に2Dピクセルレベルの解析に焦点を当てていることに起因している。
論文 参考訳(メタデータ) (2024-06-04T07:42:33Z) - Semantic Gaussians: Open-Vocabulary Scene Understanding with 3D Gaussian Splatting [27.974762304763694]
セマンティック・ガウシアン(Semantic Gaussians)は,3次元ガウシアン・スプレイティングをベースとした,新しいオープン語彙シーン理解手法である。
既存の手法とは異なり、様々な2次元意味的特徴を3次元ガウスの新たな意味的構成要素にマッピングする多目的投影手法を設計する。
我々は,高速な推論のために,生の3Dガウスから意味成分を直接予測する3Dセマンティックネットワークを構築した。
論文 参考訳(メタデータ) (2024-03-22T21:28:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。