論文の概要: LangSplatV2: High-dimensional 3D Language Gaussian Splatting with 450+ FPS
- arxiv url: http://arxiv.org/abs/2507.07136v2
- Date: Wed, 08 Oct 2025 03:25:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-20 05:23:07.099454
- Title: LangSplatV2: High-dimensional 3D Language Gaussian Splatting with 450+ FPS
- Title(参考訳): LangSplatV2:450以上のFPSを持つ高次元3次元言語ガウススプラッティング
- Authors: Wanhua Li, Yujie Zhao, Minghan Qin, Yang Liu, Yuanhao Cai, Chuang Gan, Hanspeter Pfister,
- Abstract要約: LangSplatV2は、476.2 FPSで高次元特徴スプラッティングを実現し、384.6 FPSで3Dオープン語彙のテキストクエリを実現する。
LangSplatV2は、より良いまたは競争力のあるクエリ精度を達成するだけでなく、はるかに高速である。
- 参考スコア(独自算出の注目度): 60.933341835615465
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we introduce LangSplatV2, which achieves high-dimensional feature splatting at 476.2 FPS and 3D open-vocabulary text querying at 384.6 FPS for high-resolution images, providing a 42 $\times$ speedup and a 47 $\times$ boost over LangSplat respectively, along with improved query accuracy. LangSplat employs Gaussian Splatting to embed 2D CLIP language features into 3D, significantly enhancing speed and learning a precise 3D language field with SAM semantics. Such advancements in 3D language fields are crucial for applications that require language interaction within complex scenes. However, LangSplat does not yet achieve real-time inference performance (8.2 FPS), even with advanced A100 GPUs, severely limiting its broader application. In this paper, we first conduct a detailed time analysis of LangSplat, identifying the heavyweight decoder as the primary speed bottleneck. Our solution, LangSplatV2 assumes that each Gaussian acts as a sparse code within a global dictionary, leading to the learning of a 3D sparse coefficient field that entirely eliminates the need for a heavyweight decoder. By leveraging this sparsity, we further propose an efficient sparse coefficient splatting method with CUDA optimization, rendering high-dimensional feature maps at high quality while incurring only the time cost of splatting an ultra-low-dimensional feature. Our experimental results demonstrate that LangSplatV2 not only achieves better or competitive query accuracy but is also significantly faster. Codes and demos are available at our project page: https://langsplat-v2.github.io.
- Abstract(参考訳): 本稿では,476.2 FPSで高次元特徴スプラッティングを実現し,384.6 FPSで3Dオープン語彙のテキストクエリを実現するLangSplatV2を紹介し,クエリ精度の向上とともに,42$\times$スピードアップと47$\times$ブーアップを実現した。
LangSplatはGaussian Splattingを使用して2D CLIP言語機能を3Dに組み込み、スピードを大幅に向上し、SAMセマンティクスで正確な3D言語フィールドを学習する。
このような3D言語分野の進歩は、複雑な場面で言語間の相互作用を必要とするアプリケーションにとって不可欠である。
しかし、LangSplatはまだリアルタイム推論性能(8.2 FPS)を達成していない。
本稿では、まずLangSplatの詳細な時間解析を行い、重み付きデコーダを主要な速度ボトルネックとして同定する。
我々の解であるLangSplatV2は、各ガウスがグローバル辞書内のスパースコードとして振る舞うと仮定し、重み付きデコーダの必要性を完全に排除する3次元スパース係数場を学習する。
さらに, この空間性を利用して, 超低次元特徴量を分割する時間的コストのみを発生させながら, 高品質な高次元特徴写像をレンダリングする, CUDA最適化による効率的なスパース係数分割法を提案する。
実験の結果,LangSplatV2はクエリの精度が向上するだけでなく,はるかに高速であることがわかった。
コードとデモはプロジェクトのページで公開されている。
関連論文リスト
- LongSplat: Robust Unposed 3D Gaussian Splatting for Casual Long Videos [24.61106294159454]
LongSplatは、不規則なカメラの動き、未知のカメラポーズ、拡張的なシーンを特徴とする、カジュアルにキャプチャされたロングビデオからの新規ビュー合成(NVS)の課題に対処する。
長尺長尺長尺長尺長尺長尺長尺長尺長尺長尺長尺長尺長尺長尺長尺長尺長尺長尺長尺長尺長尺長尺長尺長尺長尺長尺長尺長尺長尺長尺長尺長尺長尺長尺長尺長尺長尺長尺長尺長尺長尺長尺長尺長尺長尺長尺長尺長尺長尺長尺長尺長尺長尺長尺長尺長尺長尺長尺長尺長尺長尺長尺長尺長尺長尺長尺長尺長尺長尺長尺長尺長尺長尺長尺長尺長尺長尺長尺長尺長尺長尺長尺長尺長尺長尺長尺長尺長尺長尺長尺長尺長尺長尺長尺長尺長尺長尺長尺長尺長尺長尺長尺高尺高尺高尺高尺高尺高尺高尺高尺高尺高尺高尺高尺高尺高尺高尺高尺高尺高尺高尺高尺高尺高尺高尺高尺高尺高尺高尺高尺高尺高尺高尺高尺高尺高尺高尺高尺高尺高尺高尺高尺
論文 参考訳(メタデータ) (2025-08-19T17:59:56Z) - SLAG: Scalable Language-Augmented Gaussian Splatting [19.643023058839603]
言語拡張されたシーン表現は、検索・救助、スマートシティ、鉱業といった大規模ロボット工学の応用に大きな期待を抱いている。
これらのシナリオの多くは時間に敏感で、高速なシーンエンコーディングを必要とする一方で、データ集約型でスケーラブルなソリューションを必要とする。
言語拡張されたガウススプラッティングのためのマルチGPUフレームワークであるSLAGを導入し、大きなシーンの埋め込みのスピードとスケーラビリティを向上させる。
論文 参考訳(メタデータ) (2025-05-12T23:32:24Z) - Occam's LGS: An Efficient Approach for Language Gaussian Splatting [57.00354758206751]
言語3Dガウススプラッティングのための複雑なパイプラインは、単純に不要であることを示す。
我々は,オッカムのカミソリを手作業に適用し,高効率な重み付き多視点特徴集約技術を実現する。
論文 参考訳(メタデータ) (2024-12-02T18:50:37Z) - FlashSplat: 2D to 3D Gaussian Splatting Segmentation Solved Optimally [66.28517576128381]
本研究は,2次元マスクから3次元ガウススプラッティングを正確に分割することの課題に対処する。
3D-GSセグメンテーションのための単純かつグローバルな最適解法を提案する。
私たちのメソッドは30秒以内で完了します。
論文 参考訳(メタデータ) (2024-09-12T17:58:13Z) - LangSplat: 3D Language Gaussian Splatting [42.16849512832556]
LangSplatは、3D空間内で正確で効率的なオープン語彙クエリを可能にする3D言語フィールドを構築する。
LangSplat は従来の最先端手法 LERF を大きなマージンで大幅に上回っている。
論文 参考訳(メタデータ) (2023-12-26T15:14:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。