論文の概要: Sparse Code Uplifting for Efficient 3D Language Gaussian Splatting
- arxiv url: http://arxiv.org/abs/2605.13600v1
- Date: Wed, 13 May 2026 14:35:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-14 23:30:28.108901
- Title: Sparse Code Uplifting for Efficient 3D Language Gaussian Splatting
- Title(参考訳): 効率的な3次元言語ガウススプラッティングのためのスパースコードアップリフト
- Authors: Lovre Antonio Budimir, Yushi Guan, Steve Ryhner, Sven Lončarić, Nandita Vijaykumar,
- Abstract要約: SCOUPは2D画像領域に関連する機能を使って、スパースコードブックベースの表現を学習する。
本手法は,トレーニング中のメモリ効率を3倍に高めながら,最大400Times$トレーニング高速化を実現する。
- 参考スコア(独自算出の注目度): 2.559719177546106
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: 3D Language Gaussian Splatting (3DLGS) augments 3D Gaussian Splatting with language-aligned visual features for open-vocabulary 3D scene understanding. A core challenge is efficiently associating high-dimensional vision-language embeddings with millions of 3D Gaussians while preserving efficient feature rendering for text-based querying. Existing methods either store dense features directly on Gaussians, causing high storage costs and slow rendering, or learn compact representations through expensive per-scene optimization with repeated feature rasterization. No existing method simultaneously achieves fast 3D semantic reconstruction, efficient storage, and fast rendering. We propose SCOUP (Sparse COde UPlifting), which addresses all three by decoupling language representation learning from 3D Gaussian optimization. Rather than working directly in 3D, we learn sparse codebook-based representations entirely using features associated with 2D image regions, associating each region with a sparse set of codebook coefficients. We then uplift these coefficients to 3D Gaussians with our weighted sparse aggregation using Gaussian-to-pixel associations, where each Gaussian accumulates coefficients over codebook atoms across views. Top-$K$ filtering then extracts the most dominant multi-view coefficients per Gaussian, enabling efficient storage and fast rendering. Our method achieves up to $400\times$ training speedup while being $3\times$ more memory efficient during training compared to the state-of-the-art in rendering speed. Across multiple benchmarks, SCOUP matches or outperforms existing methods in open-vocabulary querying accuracy.
- Abstract(参考訳): 3D Language Gaussian Splatting (3DLGS) Augment 3D Gaussian Splatting with language-aligned visual features for open-vocabulary 3D scene understanding。
主要な課題は、テキストベースのクエリの効率的な機能レンダリングを保ちながら、高次元の視覚言語埋め込みを数百万の3Dガウスアンと効率的に関連付けることである。
既存の方法は、ガウシアンに直接高密度な機能を格納し、高いストレージコストとレンダリングの遅さを引き起こすか、高コストなシーンごとの最適化を通じて、繰り返しの特徴ラスタ化によってコンパクトな表現を学ぶかのどちらかである。
既存の方法では、高速な3Dセマンティック再構築、効率的なストレージ、高速レンダリングを同時に実現できない。
本稿では,言語表現学習を3次元ガウス最適化から切り離して3つの問題に対処するSCOUP(Sparse COde UPlifting)を提案する。
直接3Dで作業するのではなく、2D画像領域に関連付けられた機能を用いて、余分なコードブックベースの表現を学習し、各領域を余分なコードブック係数の集合に関連付ける。
次に、これらの係数をガウス対ピクセルアソシエーションを用いて重み付けされたスパースアグリゲーションで3次元ガウスへ上げ、それぞれのガウスアンがビュー全体にわたってコードブック原子上の係数を蓄積する。
Top-K$フィルタはガウスあたりの最も支配的なマルチビュー係数を抽出し、効率的なストレージと高速レンダリングを実現する。
本手法は, レンダリング速度の最先端技術と比較して, トレーニング中のメモリ効率を3倍に高めながら, 400ドル以上のトレーニングスピードアップを実現している。
複数のベンチマークにおいて、SCOUPはオープン語彙クエリの精度で既存のメソッドにマッチするか、性能を上回ります。
関連論文リスト
- Quantile Rendering: Efficiently Embedding High-dimensional Feature on 3D Gaussian Splatting [52.18697134979677]
コンピュータビジョンの最近の進歩は、3Dガウススプラッティング(3D-GS)を活用して、OVS(Open-vocabulary segmentation)を3Dドメインに拡張することに成功している。
既存の方法はコードブックや特徴圧縮を採用しており、情報損失を引き起こし、セグメンテーションの品質が低下する。
本稿では,高忠実度を維持しながら高次元特徴を効率的に処理する3次元ガウスの新たなレンダリング戦略であるQuantile Rendering(Q-Render)を紹介する。
本フレームワークは,512次元特徴写像上での43.7倍の高速化でリアルタイムレンダリングを実現するとともに,最先端の手法よりも優れる。
論文 参考訳(メタデータ) (2025-12-24T04:16:18Z) - C3G: Learning Compact 3D Representations with 2K Gaussians [55.04010158339562]
近年の手法では3次元ガウススプラッティングを再構成に用い, シーン理解のための2D-to-3D機能昇降ステージが提案されている。
提案するC3Gは,空間的にのみコンパクトな3次元ガウスを推定する新しいフィードフォワードフレームワークである。
論文 参考訳(メタデータ) (2025-12-03T17:59:05Z) - SLAG: Scalable Language-Augmented Gaussian Splatting [19.643023058839603]
言語拡張されたシーン表現は、検索・救助、スマートシティ、鉱業といった大規模ロボット工学の応用に大きな期待を抱いている。
これらのシナリオの多くは時間に敏感で、高速なシーンエンコーディングを必要とする一方で、データ集約型でスケーラブルなソリューションを必要とする。
言語拡張されたガウススプラッティングのためのマルチGPUフレームワークであるSLAGを導入し、大きなシーンの埋め込みのスピードとスケーラビリティを向上させる。
論文 参考訳(メタデータ) (2025-05-12T23:32:24Z) - GaussRender: Learning 3D Occupancy with Gaussian Rendering [86.89653628311565]
GaussRenderは、投影的一貫性を強制することによって3D占有学習を改善するモジュールである。
提案手法は,不整合な2次元プロジェクションを生成する3次元構成をペナライズすることにより,より一貫性のある3次元構造を実現する。
論文 参考訳(メタデータ) (2025-02-07T16:07:51Z) - Occam's LGS: An Efficient Approach for Language Gaussian Splatting [57.00354758206751]
言語3Dガウススプラッティングのための複雑なパイプラインは、単純に不要であることを示す。
我々は,オッカムのカミソリを手作業に適用し,高効率な重み付き多視点特徴集約技術を実現する。
論文 参考訳(メタデータ) (2024-12-02T18:50:37Z) - Semantic Gaussians: Open-Vocabulary Scene Understanding with 3D Gaussian Splatting [27.974762304763694]
セマンティック・ガウシアン(Semantic Gaussians)は,3次元ガウシアン・スプレイティングをベースとした,新しいオープン語彙シーン理解手法である。
既存の手法とは異なり、様々な2次元意味的特徴を3次元ガウスの新たな意味的構成要素にマッピングする多目的投影手法を設計する。
我々は,高速な推論のために,生の3Dガウスから意味成分を直接予測する3Dセマンティックネットワークを構築した。
論文 参考訳(メタデータ) (2024-03-22T21:28:19Z) - AGG: Amortized Generative 3D Gaussians for Single Image to 3D [108.38567665695027]
Amortized Generative 3D Gaussian framework (AGG) を導入する。
AGGは、共同最適化のための3Dガウス位置およびその他の外観特性の生成を分解する。
本稿では,まず3次元データの粗い表現を生成し,後に3次元ガウス超解像モジュールでアップサンプリングするカスケードパイプラインを提案する。
論文 参考訳(メタデータ) (2024-01-08T18:56:33Z) - EAGLES: Efficient Accelerated 3D Gaussians with Lightweight EncodingS [40.94643885302646]
3Dガウシアンスプラッティング(3D-GS)は、ノベルビューシーンの合成で人気がある。
レイディアンス・ニューラル・フィールド(NeRF)に関連する長いトレーニング時間と遅いレンダリング速度の課題に対処する。
本稿では,メモリ単位の記憶容量を大幅に削減するために,量子化埋め込みを利用する手法を提案する。
論文 参考訳(メタデータ) (2023-12-07T18:59:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。