論文の概要: Lang3D-XL: Language Embedded 3D Gaussians for Large-scale Scenes
- arxiv url: http://arxiv.org/abs/2512.07807v1
- Date: Mon, 08 Dec 2025 18:39:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-09 22:03:55.00799
- Title: Lang3D-XL: Language Embedded 3D Gaussians for Large-scale Scenes
- Title(参考訳): Lang3D-XL:大規模シーンのための3Dガウス言語
- Authors: Shai Krakovsky, Gal Fiebelman, Sagie Benaim, Hadar Averbuch-Elor,
- Abstract要約: 3次元表現に言語フィールドを埋め込み、空間環境のより豊かな意味理解を可能にする。
本稿では,メモリと実行時の意味的特徴の不一致と非効率性に対処する新しいアプローチを提案する。
本手法は,現在開発中のHolyScenesデータセット上で評価し,性能と効率の両面で既存のアプローチを超越していることを示す。
- 参考スコア(独自算出の注目度): 23.445409551683213
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Embedding a language field in a 3D representation enables richer semantic understanding of spatial environments by linking geometry with descriptive meaning. This allows for a more intuitive human-computer interaction, enabling querying or editing scenes using natural language, and could potentially improve tasks like scene retrieval, navigation, and multimodal reasoning. While such capabilities could be transformative, in particular for large-scale scenes, we find that recent feature distillation approaches cannot effectively learn over massive Internet data due to challenges in semantic feature misalignment and inefficiency in memory and runtime. To this end, we propose a novel approach to address these challenges. First, we introduce extremely low-dimensional semantic bottleneck features as part of the underlying 3D Gaussian representation. These are processed by rendering and passing them through a multi-resolution, feature-based, hash encoder. This significantly improves efficiency both in runtime and GPU memory. Second, we introduce an Attenuated Downsampler module and propose several regularizations addressing the semantic misalignment of ground truth 2D features. We evaluate our method on the in-the-wild HolyScenes dataset and demonstrate that it surpasses existing approaches in both performance and efficiency.
- Abstract(参考訳): 3次元表現に言語フィールドを埋め込むことで、幾何学と記述的意味をリンクすることで、空間環境のより豊かな意味理解が可能になる。
これにより、より直感的な人間とコンピュータのインタラクションが可能になり、自然言語を使ってシーンのクエリや編集を可能にし、シーン検索、ナビゲーション、マルチモーダル推論といったタスクを改善することができる。
このような機能は、特に大規模シーンでは変換可能であるが、最近の機能蒸留手法では、メモリや実行時のセマンティックな特徴調整や非効率性の課題のため、大量のインターネットデータを効果的に学習することはできない。
そこで本研究では,これらの課題に対処するための新しいアプローチを提案する。
まず、基礎となる3次元ガウス表現の一部として、非常に低次元のセマンティック・ボトルネック機能を導入する。
これらはレンダリングして、多解像度の機能ベースのハッシュエンコーダに渡すことで処理される。
これにより、ランタイムとGPUメモリの両方の効率が大幅に向上する。
第二に、減衰ダウンサンプラーモジュールを導入し、基底真理2次元特徴のセマンティック・アライメントに対処するいくつかの正規化を提案する。
本手法は,現在開発中のHolyScenesデータセット上で評価し,性能と効率の両面で既存のアプローチを超越していることを示す。
関連論文リスト
- SemanticSplat: Feed-Forward 3D Scene Understanding with Language-Aware Gaussian Fields [33.113865514268085]
ホロスティックな3Dシーン理解は、拡張現実やロボットインタラクションといったアプリケーションには不可欠だ。
既存のフィードフォワード3Dシーン理解手法(例えば、LSM)は、シーンから言語ベースのセマンティクスを抽出することに限定されている。
フィードフォワード型セマンティック3D再構成手法であるSemanticSplatを提案する。
論文 参考訳(メタデータ) (2025-06-11T09:56:39Z) - Tackling View-Dependent Semantics in 3D Language Gaussian Splatting [80.88015191411714]
LaGaは、3Dシーンをオブジェクトに分解することで、ビュー間のセマンティック接続を確立する。
セマンティック記述子をクラスタリングし、多視点セマンティックスに基づいてそれらを重み付けすることで、ビュー集約セマンティック表現を構築する。
同じ設定で、LaGaはLERF-OVSデータセットの以前のSOTAよりも+18.7% mIoUを大幅に改善した。
論文 参考訳(メタデータ) (2025-05-30T16:06:32Z) - LangSurf: Language-Embedded Surface Gaussians for 3D Scene Understanding [42.750252190275546]
LangSurfは3D言語フィールドとオブジェクトの表面を整列する言語組み込みのSurface Fieldである。
提案手法は,オブジェクトを3次元空間に分割することで,インスタンス認識,削除,編集におけるアプローチの有効性を高めることができる。
論文 参考訳(メタデータ) (2024-12-23T15:12:20Z) - Occam's LGS: An Efficient Approach for Language Gaussian Splatting [57.00354758206751]
言語3Dガウススプラッティングのための複雑なパイプラインは、単純に不要であることを示す。
我々は,オッカムのカミソリを手作業に適用し,高効率な重み付き多視点特徴集約技術を実現する。
論文 参考訳(メタデータ) (2024-12-02T18:50:37Z) - GOI: Find 3D Gaussians of Interest with an Optimizable Open-vocabulary Semantic-space Hyperplane [53.388937705785025]
3Dオープンボキャブラリのシーン理解は、拡張現実とロボット応用の推進に不可欠である。
GOIは2次元視覚言語基礎モデルから3次元ガウススプラッティング(3DGS)に意味的特徴を統合するフレームワークである。
提案手法では,特徴空間内の超平面分割として特徴選択処理を扱い,クエリに関連性の高い特徴のみを保持する。
論文 参考訳(メタデータ) (2024-05-27T18:57:18Z) - Language Embedded 3D Gaussians for Open-Vocabulary Scene Understanding [2.517953665531978]
オープン語彙クエリタスクのための新しいシーン表現であるLanguage Embedded 3D Gaussiansを紹介する。
我々の表現は、現在の言語埋め込み表現において、最高の視覚的品質と言語クエリの精度を達成する。
論文 参考訳(メタデータ) (2023-11-30T11:50:07Z) - ALSTER: A Local Spatio-Temporal Expert for Online 3D Semantic
Reconstruction [62.599588577671796]
本稿では,RGB-Dフレームのストリームから3次元セマンティックマップを段階的に再構成するオンライン3次元セマンティックセマンティックセマンティクス手法を提案する。
オフラインの手法とは異なり、ロボット工学や混合現実のようなリアルタイムな制約のあるシナリオに直接適用できます。
論文 参考訳(メタデータ) (2023-11-29T20:30:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。