論文の概要: SceneSplat: Gaussian Splatting-based Scene Understanding with Vision-Language Pretraining
- arxiv url: http://arxiv.org/abs/2503.18052v1
- Date: Sun, 23 Mar 2025 12:50:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-25 14:36:33.660192
- Title: SceneSplat: Gaussian Splatting-based Scene Understanding with Vision-Language Pretraining
- Title(参考訳): SceneSplat:視覚言語事前学習によるガウス的スプレイティングに基づくシーン理解
- Authors: Yue Li, Qi Ma, Runyi Yang, Huapeng Li, Mengjiao Ma, Bin Ren, Nikola Popovic, Nicu Sebe, Ender Konukoglu, Theo Gevers, Luc Van Gool, Martin R. Oswald, Danda Pani Paudel,
- Abstract要約: SceneSplatは,3DGS上で動作する最初の大規模屋内シーン理解手法である。
また,ラベルのないシーンからリッチな3D特徴学習を解放する自己教師型学習手法を提案する。
SceneSplat-7Kは、6868シーンからなる屋内シーンのための最初の大規模3DGSデータセットである。
- 参考スコア(独自算出の注目度): 100.23919762298227
- License:
- Abstract: Recognizing arbitrary or previously unseen categories is essential for comprehensive real-world 3D scene understanding. Currently, all existing methods rely on 2D or textual modalities during training, or together at inference. This highlights a clear absence of a model capable of processing 3D data alone for learning semantics end-to-end, along with the necessary data to train such a model. Meanwhile, 3D Gaussian Splatting (3DGS) has emerged as the de facto standard for 3D scene representation across various vision tasks. However, effectively integrating semantic reasoning into 3DGS in a generalizable fashion remains an open challenge. To address these limitations we introduce SceneSplat, to our knowledge the first large-scale 3D indoor scene understanding approach that operates natively on 3DGS. Furthermore, we propose a self-supervised learning scheme that unlocks rich 3D feature learning from unlabeled scenes. In order to power the proposed methods, we introduce SceneSplat-7K, the first large-scale 3DGS dataset for indoor scenes, comprising of 6868 scenes derived from 7 established datasets like ScanNet, Matterport3D, etc. Generating SceneSplat-7K required computational resources equivalent to 119 GPU-days on an L4 GPU, enabling standardized benchmarking for 3DGS-based reasoning for indoor scenes. Our exhaustive experiments on SceneSplat-7K demonstrate the significant benefit of the proposed methods over the established baselines.
- Abstract(参考訳): 任意のカテゴリや以前に見つからないカテゴリを認識することは、実世界の総合的な3Dシーン理解に不可欠である。
現在、既存のすべてのメソッドは、トレーニング中や推論時に2Dまたはテキストのモダリティに依存している。
このことは、セマンティクスをエンドツーエンドに学習するためにのみ3Dデータを処理できるモデルが、そのようなモデルをトレーニングするために必要なデータとともに、明らかに欠如していることを強調している。
一方, 3D Gaussian Splatting (3DGS) は, 様々な視覚課題における3Dシーン表現のデファクトスタンダードとなっている。
しかし、意味論的推論を一般化可能な方法で3DGSに効果的に統合することは、未解決の課題である。
これらの制約に対処するため、SceneSplatは3DGSでネイティブに動作する最初の大規模屋内シーン理解アプローチである。
さらに,ラベルのないシーンからリッチな3D特徴学習を解放する自己教師型学習手法を提案する。
提案手法を活用するために,ScanNet,Matterport3Dなどの7つの確立されたデータセットから6868のシーンを抽出し,室内シーンのための最初の大規模3DGSデータセットであるSceneSplat-7Kを紹介する。
SceneSplat-7Kの生成には、L4 GPU上で119GPU日に相当する計算リソースが必要であり、屋内シーンの3DGSベースの推論のための標準化されたベンチマークを可能にした。
SceneSplat-7Kの総合的な実験により,提案手法が確立されたベースラインに対して有意な効果を示した。
関連論文リスト
- SLGaussian: Fast Language Gaussian Splatting in Sparse Views [15.0280871846496]
スパース視点から3次元意味体を構築するフィードフォワード手法であるSLGaussianを提案する。
SLGaussianは、3D空間に言語情報を効率よく埋め込むことができ、スパースビュー条件下で正確な3Dシーン理解のための堅牢なソリューションを提供する。
論文 参考訳(メタデータ) (2024-12-11T12:18:30Z) - Shape2Scene: 3D Scene Representation Learning Through Pre-training on Shape Data [61.36872381753621]
Shape2Scene(S2S)は3次元形状データから大規模3次元シーンの表現を学習する新しい手法である。
MH-P/Vは、複数のスケールにわたる深い意味情報をキャプチャする高解像度機能への直接パスを確立する。
S2SSアマルガメートは様々な形状を指して、トレーニングデータのためのランダムな擬似シーン(複数のオブジェクトを含む)を作成する。
実験では,MH-P/Vで学習した3次元表現の形状レベルおよびシーンレベルの3次元タスク間での伝達性を示した。
論文 参考訳(メタデータ) (2024-07-14T13:42:05Z) - Grounded 3D-LLM with Referent Tokens [58.890058568493096]
そこで我々は,Grounded 3D-LLMを提案する。
このモデルは、3Dシーンを参照するために特別な名詞句としてシーン参照トークンを使用する。
タスクごとの指示追従テンプレートは、3D視覚タスクを言語形式に翻訳する際の自然と多様性を保証するために使用される。
論文 参考訳(メタデータ) (2024-05-16T18:03:41Z) - Model2Scene: Learning 3D Scene Representation via Contrastive
Language-CAD Models Pre-training [105.3421541518582]
現在成功している3次元シーン認識法は、大規模アノテートされた点雲に依存している。
CAD(Computer-Aided Design)モデルと言語から自由な3Dシーン表現を学習する新しいパラダイムであるModel2Sceneを提案する。
Model2Sceneは、平均mAPが46.08%、ScanNetとS3DISのデータセットが55.49%という、ラベルなしの優れた3Dオブジェクトのサリエント検出をもたらす。
論文 参考訳(メタデータ) (2023-09-29T03:51:26Z) - SGRec3D: Self-Supervised 3D Scene Graph Learning via Object-Level Scene
Reconstruction [16.643252717745348]
本稿では,3次元シーングラフ予測のための自己教師付き事前学習手法であるSGRec3Dを提案する。
事前トレーニングを行うSGRec3Dはオブジェクト関係ラベルを必要としないため、大規模な3Dシーン理解データセットを活用できる。
我々の実験は,最近のクラウドベースの事前学習手法とは対照的に,提案した事前学習は3次元シーングラフの予測を大幅に改善することを示した。
論文 参考訳(メタデータ) (2023-09-27T14:45:29Z) - SGAligner : 3D Scene Alignment with Scene Graphs [84.01002998166145]
3Dシーングラフの構築は、いくつかの具体的AIアプリケーションのためのシーン表現のトピックとして登場した。
オーバーラップ可能な3次元シーングラフのペアをゼロから部分的に整列させるという基本的な問題に着目する。
そこで我々はSGAlignerを提案する。SGAlignerは3次元シーングラフのペアを組合わせるための最初の方法であり、その組込みシナリオに対して堅牢である。
論文 参考訳(メタデータ) (2023-04-28T14:39:22Z) - OpenScene: 3D Scene Understanding with Open Vocabularies [73.1411930820683]
従来の3Dシーン理解アプローチは、単一のタスクのためにモデルをトレーニングするためのラベル付き3Dデータセットに依存している。
私たちは,CLIP機能空間にテキストと画像ピクセルを埋め込んだ3次元シーンポイントの高密度な特徴をモデルが予測する代替手法OpenSceneを提案する。
このゼロショットアプローチは、タスク非依存のトレーニングとオープン語彙クエリを可能にする。
論文 参考訳(メタデータ) (2022-11-28T18:58:36Z) - Learning 3D Scene Priors with 2D Supervision [37.79852635415233]
本研究では,3次元の地平を必要とせず,レイアウトや形状の3次元シーンを学習するための新しい手法を提案する。
提案手法は, 3次元シーンを潜在ベクトルとして表現し, クラスカテゴリを特徴とするオブジェクト列に段階的に復号化することができる。
3D-FRONT と ScanNet による実験により,本手法は単一視点再構成における技術状況よりも優れていた。
論文 参考訳(メタデータ) (2022-11-25T15:03:32Z) - Exploring Data-Efficient 3D Scene Understanding with Contrastive Scene
Contexts [21.201984953068614]
Contrastive Scene Contextsは、シーン内のポイントレベルの対応と空間コンテキストの両方を利用する3Dプリトレーニング方法です。
3次元点雲の徹底的なラベリングは不要である可能性が示唆された。
ScanNetでは、ポイントラベルの0.1%を使用しても、完全なアノテーションを使用するベースラインパフォーマンスの89%(インスタンスセグメンテーション)と96%(セグメンテーション)を達成しています。
論文 参考訳(メタデータ) (2020-12-16T18:59:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。