論文の概要: Gen-LangSplat: Generalized Language Gaussian Splatting with Pre-Trained Feature Compression
- arxiv url: http://arxiv.org/abs/2510.22930v1
- Date: Mon, 27 Oct 2025 02:13:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 15:28:15.419524
- Title: Gen-LangSplat: Generalized Language Gaussian Splatting with Pre-Trained Feature Compression
- Title(参考訳): Gen-LangSplat: 事前訓練による特徴圧縮による一般化言語ガウススプラッティング
- Authors: Pranav Saxena,
- Abstract要約: 我々は,シーンワイドオートエンコーダを汎用オートエンコーダに置き換えるGen-LangSplatを導入し,大規模ScanNetデータセット上で広範囲に事前トレーニングを行った。
このアーキテクチャシフトにより、シーン固有のトレーニングを必要とせずに、新しいシーンにまたがる言語機能に対して、固定的でコンパクトな潜在空間を使用できるようになる。
以上の結果から,新しい3次元シーンにおけるオープン語彙クエリを効率よく,かつ正確に支援できることが示唆された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modeling open-vocabulary language fields in 3D is essential for intuitive human-AI interaction and querying within physical environments. State-of-the-art approaches, such as LangSplat, leverage 3D Gaussian Splatting to efficiently construct these language fields, encoding features distilled from high-dimensional models like CLIP. However, this efficiency is currently offset by the requirement to train a scene-specific language autoencoder for feature compression, introducing a costly, per-scene optimization bottleneck that hinders deployment scalability. In this work, we introduce Gen-LangSplat, that eliminates this requirement by replacing the scene-wise autoencoder with a generalized autoencoder, pre-trained extensively on the large-scale ScanNet dataset. This architectural shift enables the use of a fixed, compact latent space for language features across any new scene without any scene-specific training. By removing this dependency, our entire language field construction process achieves a efficiency boost while delivering querying performance comparable to, or exceeding, the original LangSplat method. To validate our design choice, we perform a thorough ablation study empirically determining the optimal latent embedding dimension and quantifying representational fidelity using Mean Squared Error and cosine similarity between the original and reprojected 512-dimensional CLIP embeddings. Our results demonstrate that generalized embeddings can efficiently and accurately support open-vocabulary querying in novel 3D scenes, paving the way for scalable, real-time interactive 3D AI applications.
- Abstract(参考訳): 3Dでのオープン語彙言語フィールドのモデリングは、物理的環境における直感的な人間-AIインタラクションとクエリに不可欠である。
LangSplatのような最先端のアプローチは、3D Gaussian Splattingを利用してこれらの言語フィールドを効率的に構築し、CLIPのような高次元モデルから抽出された特徴を符号化する。
しかし、この効率性は現在、機能圧縮のためにシーン固有の言語オートエンコーダをトレーニングする必要があるため、デプロイのスケーラビリティを阻害するコストのかかる、シーンごとの最適化ボトルネックを導入している。
本稿では,シーンワイドオートエンコーダを汎用オートエンコーダに置き換え,大規模ScanNetデータセット上で広範囲に事前学習することで,この要件を解消するGen-LangSplatを紹介する。
このアーキテクチャシフトにより、シーン固有のトレーニングを必要とせずに、新しいシーンにまたがる言語機能に対して、固定的でコンパクトな潜在空間を使用できるようになる。
この依存関係を取り除くことで、言語フィールドの構築プロセス全体が効率の向上を実現し、クエリ性能は元のLangSplatメソッドに匹敵する、あるいはそれ以上に向上する。
設計選択を検証するため,我々は,最適潜伏埋め込み次元を実証的に決定し,平均正方形誤差を用いて表現の忠実度を定量化し,元の512次元CLIP埋め込みと再計画された512次元CLIP埋め込みのコサイン類似性を検証した。
一般化埋め込みは,新しい3Dシーンにおけるオープン語彙クエリを効率的かつ正確にサポートし,スケーラブルでリアルタイムなインタラクティブな3DAIアプリケーションを実現することができることを示す。
関連論文リスト
- OpenSplat3D: Open-Vocabulary 3D Instance Segmentation using Gaussian Splatting [52.40697058096931]
3D Gaussian Splatting (3DGS)は神経シーン再構築の強力な表現として登場した。
我々は,OpenSplat3Dと呼ばれる手動ラベリングを必要としないオープン語彙3Dインスタンスセグメンテーションのアプローチを提案する。
LERF-mask と LERF-OVS と ScanNet++ の完全な検証セットについて,本手法の有効性を実証した。
論文 参考訳(メタデータ) (2025-06-09T12:37:15Z) - On Geometry-Enhanced Parameter-Efficient Fine-Tuning for 3D Scene Segmentation [52.96632954620623]
本稿では3Dポイント・クラウド・トランス用に設計された新しい幾何対応PEFTモジュールを提案する。
当社のアプローチでは,大規模3Dポイントクラウドモデルの効率的,スケーラブル,かつ幾何を考慮した微調整のための新しいベンチマークを設定している。
論文 参考訳(メタデータ) (2025-05-28T15:08:36Z) - Online Language Splatting [28.066910888210973]
3DGS-SLAMシステム内で、オンライン、ほぼリアルタイムでオープン語彙の言語マッピングを実現するための最初のフレームワークであるOnline Language Splattingを紹介する。
我々のオンライン手法は最先端のオフライン手法を精度良く超え,40倍以上の効率向上を実現している。
論文 参考訳(メタデータ) (2025-03-12T14:49:24Z) - Large Spatial Model: End-to-end Unposed Images to Semantic 3D [79.94479633598102]
大空間モデル(LSM)は、RGB画像を直接意味的放射場に処理する。
LSMは、単一のフィードフォワード操作における幾何学、外観、意味を同時に推定する。
新しい視点で言語と対話することで、多目的ラベルマップを生成することができる。
論文 参考訳(メタデータ) (2024-10-24T17:54:42Z) - GOI: Find 3D Gaussians of Interest with an Optimizable Open-vocabulary Semantic-space Hyperplane [53.388937705785025]
3Dオープンボキャブラリのシーン理解は、拡張現実とロボット応用の推進に不可欠である。
GOIは2次元視覚言語基礎モデルから3次元ガウススプラッティング(3DGS)に意味的特徴を統合するフレームワークである。
提案手法では,特徴空間内の超平面分割として特徴選択処理を扱い,クエリに関連性の高い特徴のみを保持する。
論文 参考訳(メタデータ) (2024-05-27T18:57:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。