論文の概要: SceneSplat++: A Large Dataset and Comprehensive Benchmark for Language Gaussian Splatting
- arxiv url: http://arxiv.org/abs/2506.08710v1
- Date: Tue, 10 Jun 2025 11:52:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-11 15:11:42.371055
- Title: SceneSplat++: A Large Dataset and Comprehensive Benchmark for Language Gaussian Splatting
- Title(参考訳): SceneSplat++: 言語ガウススティングのための大規模データセットと総合ベンチマーク
- Authors: Mengjiao Ma, Qi Ma, Yue Li, Jiahuan Cheng, Runyi Yang, Bin Ren, Nikola Popovic, Mingqiang Wei, Nicu Sebe, Luc Van Gool, Theo Gevers, Martin R. Oswald, Danda Pani Paudel,
- Abstract要約: 3D Gaussian Splatting (3DGS) は、シーン幾何学、外観、意味論の高性能かつ効率的な符号化として機能する。
3次元空間で直接3つの手法群を体系的に評価する,最初の大規模ベンチマークを提案する。
結果は、特にシーン固有の制限を緩和する上で、一般化可能なパラダイムの明確な利点を示している。
- 参考スコア(独自算出の注目度): 104.83629308412958
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: 3D Gaussian Splatting (3DGS) serves as a highly performant and efficient encoding of scene geometry, appearance, and semantics. Moreover, grounding language in 3D scenes has proven to be an effective strategy for 3D scene understanding. Current Language Gaussian Splatting line of work fall into three main groups: (i) per-scene optimization-based, (ii) per-scene optimization-free, and (iii) generalizable approach. However, most of them are evaluated only on rendered 2D views of a handful of scenes and viewpoints close to the training views, limiting ability and insight into holistic 3D understanding. To address this gap, we propose the first large-scale benchmark that systematically assesses these three groups of methods directly in 3D space, evaluating on 1060 scenes across three indoor datasets and one outdoor dataset. Benchmark results demonstrate a clear advantage of the generalizable paradigm, particularly in relaxing the scene-specific limitation, enabling fast feed-forward inference on novel scenes, and achieving superior segmentation performance. We further introduce GaussianWorld-49K a carefully curated 3DGS dataset comprising around 49K diverse indoor and outdoor scenes obtained from multiple sources, with which we demonstrate the generalizable approach could harness strong data priors. Our codes, benchmark, and datasets will be made public to accelerate research in generalizable 3DGS scene understanding.
- Abstract(参考訳): 3D Gaussian Splatting (3DGS) は、シーン幾何学、外観、意味論の高性能かつ効率的な符号化として機能する。
さらに,3次元シーンにおける接地言語は,3次元シーン理解に有効な戦略であることが証明された。
現在の言語 ガウス語 Splatting line of work は3つの主要なグループに分けられる。
(i)シーンごとの最適化
(ii)シーンごとの最適化フリー、
(三)一般化可能なアプローチ。
しかし、そのほとんどは、トレーニングビューに近いいくつかのシーンと視点のレンダリングされた2Dビューでのみ評価され、能力と総合的な3D理解に対する洞察が制限される。
このギャップに対処するため,3つの屋内データセットと1つの屋外データセットにまたがる1060のシーンにおいて,これらの3つの手法を3次元空間で直接的に評価する,最初の大規模ベンチマークを提案する。
ベンチマークの結果は、特にシーン固有の制限を緩和し、新規シーンの高速フィードフォワード推論を可能にし、より優れたセグメンテーション性能を実現する上で、一般化可能なパラダイムの明確な利点を示している。
さらに、複数のソースから得られた49Kの多様な屋内・屋外シーンで構成された、慎重にキュレートされた3DGSデータセットであるGaussianWorld-49Kを紹介した。
私たちのコード、ベンチマーク、データセットは、一般化可能な3DGSシーン理解の研究を加速するために公開されます。
関連論文リスト
- PanoGS: Gaussian-based Panoptic Segmentation for 3D Open Vocabulary Scene Understanding [8.72555461868951]
3D Gaussian Splatting (3DGS) はオープンな語彙シーン理解タスクの促進効果を示した。
従来の方法では3Dインスタンスレベルの情報は識別できないが、通常はシーンの特徴とテキストクエリ間のヒートマップを予測する。
新規かつ効果的な3次元パノプティカルオープンなシーン理解手法であるPanoGSを提案する。
論文 参考訳(メタデータ) (2025-03-23T15:27:29Z) - SceneSplat: Gaussian Splatting-based Scene Understanding with Vision-Language Pretraining [100.23919762298227]
現在、既存のすべてのメソッドは、トレーニング中や推論時に2Dまたはテキストのモダリティに依存している。
我々はSceneSplatを紹介し,3DGSで動作する最初の大規模屋内シーン理解手法について紹介する。
ラベルのないシーンからリッチな3D特徴学習を解放する自己教師付き学習手法を提案する。
論文 参考訳(メタデータ) (2025-03-23T12:50:25Z) - Dr. Splat: Directly Referring 3D Gaussian Splatting via Direct Language Embedding Registration [41.046653227409564]
Dr. Splatは3Dガウススプラッティングを利用したオープンな3Dシーン理解のための新しいアプローチである。
本手法は,言語対応のCLIP埋め込みと3Dガウスアンを関連付けることで,総合的な3Dシーン理解を実現する。
実験により、我々のアプローチは既存の3次元知覚ベンチマークよりも大幅に優れていることが示された。
論文 参考訳(メタデータ) (2025-02-23T17:01:14Z) - SLGaussian: Fast Language Gaussian Splatting in Sparse Views [15.0280871846496]
スパース視点から3次元意味体を構築するフィードフォワード手法であるSLGaussianを提案する。
SLGaussianは、3D空間に言語情報を効率よく埋め込むことができ、スパースビュー条件下で正確な3Dシーン理解のための堅牢なソリューションを提供する。
論文 参考訳(メタデータ) (2024-12-11T12:18:30Z) - Occam's LGS: An Efficient Approach for Language Gaussian Splatting [57.00354758206751]
言語3Dガウススプラッティングのための複雑なパイプラインは、単純に不要であることを示す。
我々は,オッカムのカミソリを手作業に適用し,高効率な重み付き多視点特徴集約技術を実現する。
論文 参考訳(メタデータ) (2024-12-02T18:50:37Z) - MMScan: A Multi-Modal 3D Scene Dataset with Hierarchical Grounded Language Annotations [55.022519020409405]
本稿では,マルチモーダルな3Dシーンデータセットと階層型言語アノテーションを用いたベンチマーク,MMScanを構築した。
結果として得られたマルチモーダルな3Dデータセットは、109kオブジェクトと7.7kリージョン上の1.4Mメタアノテーション付きキャプションと、3Dビジュアルグラウンドと質問応答ベンチマークのための3.04M以上の多様なサンプルを含んでいる。
論文 参考訳(メタデータ) (2024-06-13T17:59:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。