論文の概要: LightSplat: Fast and Memory-Efficient Open-Vocabulary 3D Scene Understanding in Five Seconds
- arxiv url: http://arxiv.org/abs/2603.24146v1
- Date: Wed, 25 Mar 2026 10:12:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-26 21:06:11.242432
- Title: LightSplat: Fast and Memory-Efficient Open-Vocabulary 3D Scene Understanding in Five Seconds
- Title(参考訳): LightSplat:5秒で高速でメモリ効率の良いオープンボキャブラリの3Dシーン理解
- Authors: Jaehun Bang, Jinhyeok Kim, Minji Kim, Seungheon Jeong, Kyungdon Joo,
- Abstract要約: LightSplatは、マルチビューイメージからコンパクトな2バイトセマンティックインデックスを3D表現に注入する、トレーニング不要のフレームワークである。
LightSplatは50-400倍のスピードアップと64倍のメモリで最先端のパフォーマンスを実現し、スケーラブルな言語駆動の3D理解を可能にしている。
- 参考スコア(独自算出の注目度): 11.158005062855372
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Open-vocabulary 3D scene understanding enables users to segment novel objects in complex 3D environments through natural language. However, existing approaches remain slow, memory-intensive, and overly complex due to iterative optimization and dense per-Gaussian feature assignments. To address this, we propose LightSplat, a fast and memory-efficient training-free framework that injects compact 2-byte semantic indices into 3D representations from multi-view images. By assigning semantic indices only to salient regions and managing them with a lightweight index-feature mapping, LightSplat eliminates costly feature optimization and storage overhead. We further ensure semantic consistency and efficient inference via single-step clustering that links geometrically and semantically related masks in 3D. We evaluate our method on LERF-OVS, ScanNet, and DL3DV-OVS across complex indoor-outdoor scenes. As a result, LightSplat achieves state-of-the-art performance with up to 50-400x speedup and 64x lower memory, enabling scalable language-driven 3D understanding. For more details, visit our project page https://vision3d-lab.github.io/lightsplat/.
- Abstract(参考訳): オープンな語彙の3Dシーン理解により、ユーザーは自然言語を通して複雑な3D環境に新しいオブジェクトを分割できる。
しかし、反復最適化とガウス単位の特徴割り当てのため、既存のアプローチは遅く、メモリ集約的で、過度に複雑である。
そこで本研究では,コンパクトな2バイトセマンティックインデックスを多視点画像から3次元表現に注入する,高速でメモリ効率のよいトレーニングフリーフレームワークLightSplatを提案する。
セマンティックインデックスを正常なリージョンのみに割り当て、軽量なインデックス機能マッピングで管理することで、LightSplatはコストのかかる機能最適化とストレージオーバーヘッドを排除します。
さらに3次元の幾何学的および意味論的マスクをリンクする単一ステップクラスタリングによる意味的一貫性と効率的な推論を保証する。
複雑な屋内空間におけるLERF-OVS, ScanNet, DL3DV-OVSについて検討した。
その結果、LightSplatは50-400倍のスピードアップと64倍のメモリで最先端のパフォーマンスを実現し、スケーラブルな言語駆動の3D理解を可能にした。
詳細については、プロジェクトのページ https://vision3d-lab.github.io/lightsplat/.com/を参照してください。
関連論文リスト
- EmbodiedSplat: Online Feed-Forward Semantic 3DGS for Open-Vocabulary 3D Scene Understanding [66.80528512321106]
EmbodiedSplatは、オープン語彙シーン理解のためのオンラインフィードフォワード3DGSである。
目的は,1)300以上のストリーミング画像からシーン全体のセマンティック埋め込み3DGSをオンライン的に再構成すること,2)フィードフォワードデザインの新規シーンに高度に一般化することである。
論文 参考訳(メタデータ) (2026-03-04T16:40:41Z) - GaussianVLM: Scene-centric 3D Vision-Language Models using Language-aligned Gaussian Splats for Embodied Reasoning and Beyond [56.677984098204696]
マルチモーダル言語モデルは、VLM(3D Vision-Language Models)の開発を推進している
本稿では,言語とタスク認識のシーン表現を用いた3次元ガウシアンスプラットシーンのためのシーン中心の3次元VLMを提案する。
本稿では,標準RGB画像から導出した光リアルな3D表現を利用した最初のガウススプラッティングに基づくVLMを提案する。
論文 参考訳(メタデータ) (2025-07-01T15:52:59Z) - OpenSplat3D: Open-Vocabulary 3D Instance Segmentation using Gaussian Splatting [52.40697058096931]
3D Gaussian Splatting (3DGS)は神経シーン再構築の強力な表現として登場した。
我々は,OpenSplat3Dと呼ばれる手動ラベリングを必要としないオープン語彙3Dインスタンスセグメンテーションのアプローチを提案する。
LERF-mask と LERF-OVS と ScanNet++ の完全な検証セットについて,本手法の有効性を実証した。
論文 参考訳(メタデータ) (2025-06-09T12:37:15Z) - LODGE: Level-of-Detail Large-Scale Gaussian Splatting with Efficient Rendering [75.67501939005119]
メモリ制約デバイス上での3次元ガウススプラッティングのための新しいレベル・オブ・ディーテール(LOD)法を提案する。
カメラ距離に基づいてガウスの最適部分集合を反復的に選択する。
本手法は,屋外(階層型3DGS)と屋内(Zip-NeRF)の両方で最先端の性能を実現する。
論文 参考訳(メタデータ) (2025-05-29T06:50:57Z) - SLGaussian: Fast Language Gaussian Splatting in Sparse Views [15.0280871846496]
スパース視点から3次元意味体を構築するフィードフォワード手法であるSLGaussianを提案する。
SLGaussianは、3D空間に言語情報を効率よく埋め込むことができ、スパースビュー条件下で正確な3Dシーン理解のための堅牢なソリューションを提供する。
論文 参考訳(メタデータ) (2024-12-11T12:18:30Z) - Occam's LGS: An Efficient Approach for Language Gaussian Splatting [57.00354758206751]
言語3Dガウススプラッティングのための複雑なパイプラインは、単純に不要であることを示す。
我々は,オッカムのカミソリを手作業に適用し,高効率な重み付き多視点特徴集約技術を実現する。
論文 参考訳(メタデータ) (2024-12-02T18:50:37Z) - Prompt-guided Scene Generation for 3D Zero-Shot Learning [8.658191774247944]
本稿では,ネットワークをよりよく学習するための3Dデータを増やすために,プロンプト誘導型3Dシーン生成と監視手法を提案する。
まず、2つの3Dモデルの点雲を、プロンプトによって記述された特定の方法でマージする。
我々は、合成(ModelNet40, ModelNet10)および実走査(ScanOjbectNN)3Dオブジェクトデータセット上で、最先端のZSLと一般化されたZSL性能を実現した。
論文 参考訳(メタデータ) (2022-09-29T11:24:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。