論文の概要: GALA: Guided Attention with Language Alignment for Open Vocabulary Gaussian Splatting
- arxiv url: http://arxiv.org/abs/2508.14278v1
- Date: Tue, 19 Aug 2025 21:26:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-21 16:52:41.275902
- Title: GALA: Guided Attention with Language Alignment for Open Vocabulary Gaussian Splatting
- Title(参考訳): GALA:オープンボキャブラリガウススプラッティングのための言語アライメントによるガイド付き注意
- Authors: Elena Alegret Regalado, Kunyi Li, Sen Wang, Siyun Liang, Michael Niemeyer, Stefano Gasperini, Nassir Navab, Federico Tombari,
- Abstract要約: GALAは3次元ガウススプラッティングを用いたオープンな3次元シーン理解のための新しいフレームワークである(3DGS)。
GALAは、自己教師付きコントラスト学習を通じてシーン固有の3Dインスタンス特徴フィールドを蒸留する。
シームレスな2Dおよび3Dオープン語彙クエリをサポートし、ガウス単位の高次元特徴学習を回避してメモリ消費を削減する。
- 参考スコア(独自算出の注目度): 74.56128224977279
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: 3D scene reconstruction and understanding have gained increasing popularity, yet existing methods still struggle to capture fine-grained, language-aware 3D representations from 2D images. In this paper, we present GALA, a novel framework for open-vocabulary 3D scene understanding with 3D Gaussian Splatting (3DGS). GALA distills a scene-specific 3D instance feature field via self-supervised contrastive learning. To extend to generalized language feature fields, we introduce the core contribution of GALA, a cross-attention module with two learnable codebooks that encode view-independent semantic embeddings. This design not only ensures intra-instance feature similarity but also supports seamless 2D and 3D open-vocabulary queries. It reduces memory consumption by avoiding per-Gaussian high-dimensional feature learning. Extensive experiments on real-world datasets demonstrate GALA's remarkable open-vocabulary performance on both 2D and 3D.
- Abstract(参考訳): 3Dシーンの再構築と理解が普及しているが、既存の手法では2D画像から細粒度で言語対応の3D表現を捉えるのに苦戦している。
本稿では,3Dガウススプラッティング(3DGS)を用いたオープンな3Dシーン理解のための新しいフレームワークであるGALAを提案する。
GALAは、自己教師付きコントラスト学習を通じてシーン固有の3Dインスタンス特徴フィールドを蒸留する。
汎用言語機能フィールドに拡張するために、ビューに依存しないセマンティック埋め込みをエンコードする2つの学習可能なコードブックを備えた、GALAのコアコントリビューションを紹介した。
この設計は、インスタンス内特徴の類似性を保証するだけでなく、シームレスな2Dおよび3Dオープン語彙クエリもサポートする。
ガウス単位の高次元特徴学習を回避してメモリ消費を低減する。
実世界のデータセットに関する大規模な実験は、GALAの2Dと3Dの両方における顕著なオープン語彙のパフォーマンスを示している。
関連論文リスト
- Just Add Geometry: Gradient-Free Open-Vocabulary 3D Detection Without Human-in-the-Loop [0.0]
Webスケールのイメージテキストペアでトレーニングされた2次元視覚言語モデルは、リッチなセマンティック理解を示し、オープン語彙検出をサポートする。
我々は,2次元基礎モデルの成熟度とカテゴリの多様性を利用して,人間に注釈を付けた3次元ラベルを使わずに3次元オブジェクト検出を行う。
この結果は,スケーラブルな3D知覚のための2次元基礎モデルの未完成の可能性を強調した。
論文 参考訳(メタデータ) (2025-07-06T15:00:13Z) - Tackling View-Dependent Semantics in 3D Language Gaussian Splatting [80.88015191411714]
LaGaは、3Dシーンをオブジェクトに分解することで、ビュー間のセマンティック接続を確立する。
セマンティック記述子をクラスタリングし、多視点セマンティックスに基づいてそれらを重み付けすることで、ビュー集約セマンティック表現を構築する。
同じ設定で、LaGaはLERF-OVSデータセットの以前のSOTAよりも+18.7% mIoUを大幅に改善した。
論文 参考訳(メタデータ) (2025-05-30T16:06:32Z) - PanoGS: Gaussian-based Panoptic Segmentation for 3D Open Vocabulary Scene Understanding [8.72555461868951]
3D Gaussian Splatting (3DGS) はオープンな語彙シーン理解タスクの促進効果を示した。
従来の方法では3Dインスタンスレベルの情報は識別できないが、通常はシーンの特徴とテキストクエリ間のヒートマップを予測する。
新規かつ効果的な3次元パノプティカルオープンなシーン理解手法であるPanoGSを提案する。
論文 参考訳(メタデータ) (2025-03-23T15:27:29Z) - UniGS: Unified Language-Image-3D Pretraining with Gaussian Splatting [68.37013525040891]
マルチモーダルプレトレーニングに3Dガウススティング(3DGS)を組み込んだUniGSを提案する。
より汎用的で強力なマルチモーダル表現の学習におけるUniGSの有効性を実証する。
論文 参考訳(メタデータ) (2025-02-25T05:10:22Z) - OpenGaussian: Towards Point-Level 3D Gaussian-based Open Vocabulary Understanding [54.981605111365056]
本稿では,3次元点レベルの開語彙理解が可能な3次元ガウススティング(3DGS)に基づくOpenGaussianを紹介する。
我々の主な動機は、既存の3DGSベースのオープン語彙法が主に2Dピクセルレベルの解析に焦点を当てていることに起因している。
論文 参考訳(メタデータ) (2024-06-04T07:42:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。