論文の概要: OpenGaFF: Open-Vocabulary Gaussian Feature Field with Codebook Attention
- arxiv url: http://arxiv.org/abs/2605.06088v1
- Date: Thu, 07 May 2026 12:10:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-08 22:27:11.752004
- Title: OpenGaFF: Open-Vocabulary Gaussian Feature Field with Codebook Attention
- Title(参考訳): OpenGaFF: コードブックを意識したオープン語彙ガウス的機能フィールド
- Authors: Kunyi Li, Michael Niemeyer, Sen Wang, Stefano Gasperini, Nassir Navab, Federico Tombari,
- Abstract要約: オープンな3Dシーン理解のための新しいフレームワークであるOpenGaFFについて述べる。
我々の手法の中核はガウス的特徴場であり、ガウス幾何学と外見の連続関数として意味論をモデル化する。
オブジェクトレベルのセマンティック一貫性をさらに強化するために、共有セマンティックプリミティブのセットとして機能する構造化コードブックを導入する。
- 参考スコア(独自算出の注目度): 80.51557267896938
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Understanding open-vocabulary 3D scenes with Gaussian-based representations remains challenging due to fragmented and spatially inconsistent semantic predictions across multi-view observations. In this paper, we present OpenGaFF, a novel framework for open-vocabulary 3D scene understanding built upon 3D Gaussian Splatting. At the core of our method is a Gaussian Feature Field that models semantics as a continuous function of Gaussian geometry and appearance. By explicitly conditioning semantic predictions on geometric structure, this formulation strengthens the coupling between geometry and semantics, leading to improved spatial coherence across similar structures in 3D space. To further enforce object-level semantic consistency, we introduce a structured codebook that serves as a set of shared semantic primitives. Furthermore, a codebook-guided attention mechanism is proposed to retrieve language features via similarity matching between query embeddings and learned codebook entries, enabling robust open-vocabulary reasoning while reducing intra-object feature variance. Extensive experiments on standard 2D and 3D open-vocabulary benchmarks demonstrate that our method consistently outperforms prior approaches, achieving improved segmentation quality, stronger 3D semantic consistency and a semantically interpretable codebook that provides insight into the learned representation.
- Abstract(参考訳): ガウスに基づく表現を用いたオープン語彙の3Dシーンの理解は、多視点観察における断片的かつ空間的に一貫性のない意味予測のため、依然として困難である。
本稿では,OpenGaFFを提案する。OpenGaFFは3次元ガウススプラッティングに基づくオープンな3次元シーン理解のための新しいフレームワークである。
我々の手法の中核はガウス的特徴場であり、ガウス幾何学と外見の連続関数として意味論をモデル化する。
この定式化は、幾何学的構造に意味的予測を明示的に条件付けすることにより、幾何学と意味論の結合を強化し、3次元空間における類似構造間の空間的コヒーレンスを改善する。
オブジェクトレベルのセマンティック一貫性をさらに強化するために、共有セマンティックプリミティブのセットとして機能する構造化コードブックを導入する。
さらに、クエリ埋め込みと学習したコードブックエントリの類似性マッチングを通じて言語特徴を検索するコードブック誘導型アテンション機構を提案し、オブジェクト内の特徴分散を低減しつつ、堅牢なオープン語彙推論を可能にした。
標準2Dおよび3Dオープン語彙ベンチマークの大規模な実験により,提案手法は従来の手法より一貫して優れており,セグメンテーション品質の向上,より強力な3Dセマンティック一貫性,そして学習された表現の洞察を提供する意味論的解釈可能なコードブックが得られた。
関連論文リスト
- FF3R: Feedforward Feature 3D Reconstruction from Unconstrained views [34.14517479047999]
本稿では,制約のないマルチビュー画像シーケンスから幾何学的および意味論的推論を統一する,完全なアノテーションのないフィードフォワードフレームワークであるFF3Rを紹介する。
従来の方法とは異なり、FF3Rはカメラのポーズや深度マップ、セマンティックラベルを必要としない。
i) 意味的文脈で意味的文脈で幾何学的トークンを豊かにするToken-wise Fusion Moduleと(ii) 局所コヒーレンスのための意味的認識ボクセル化とグローバル一貫性のための幾何学的特徴ワープを組み合わせたセマンティック・ジオメトリ相互ブースティング機構である。
論文 参考訳(メタデータ) (2026-04-10T19:45:24Z) - LESV: Language Embedded Sparse Voxel Fusion for Open-Vocabulary 3D Scene Understanding [9.377694035678948]
本稿では,Sparse Voxel Rasterization (SVRaster) を構造的,不随伴な幾何学表現として活用する新しいフレームワークを提案する。
これにより、決定論的で信頼性に配慮した特徴登録プロセスが可能となり、3DGSに共通する意味的出血アーティファクトが抑制される。
提案手法は,Open Vocabulary 3D Object Retrieval と Point Cloud Understanding ベンチマークの最先端性能を実現する。
論文 参考訳(メタデータ) (2026-04-01T20:48:06Z) - Monocular Open Vocabulary Occupancy Prediction for Indoor Scenes [12.60608820766928]
オープン語彙の3D占有は、複雑な屋内環境を理解する必要があるエンボディエージェントにとって不可欠である。
二元的占有率ラベル(占有率対自由度)のみを使用する幾何学的監督パラダイムを提案する。
オープン語彙設定では59.50 IoU と 21.05 mIoU を達成し,既存の IoU の占有法を全て上回り,mIoU の広いマージンで先行したオープン語彙アプローチよりも優れていた。
論文 参考訳(メタデータ) (2026-02-26T06:37:43Z) - SegSplat: Feed-forward Gaussian Splatting and Open-Set Semantic Segmentation [114.57192386025373]
SegSplatは、高速でフィードフォワードな3D再構成とリッチでオープンなセマンティック理解のギャップを埋めるために設計された、新しいフレームワークである。
この研究は、意味的に認識された3D環境の実践的でオンザフライな生成に向けた重要なステップである。
論文 参考訳(メタデータ) (2025-11-23T10:26:38Z) - OpenInsGaussian: Open-vocabulary Instance Gaussian Segmentation with Context-aware Cross-view Fusion [89.98812408058336]
textbfOpenInsGaussian, textbfOpen-vocabulary textbfInstance textbfGaussian segmentation framework with Context-aware Cross-view Fusion。
OpenInsGaussianは、オープン語彙の3Dガウスのセグメンテーションにおける最先端の結果を達成し、既存のベースラインを大きなマージンで上回る。
論文 参考訳(メタデータ) (2025-10-21T03:24:12Z) - Hierarchical Neural Semantic Representation for 3D Semantic Correspondence [72.8101601086805]
階層型ニューラルセマンティック表現(HNSR)を設計し,高次構造と多分解能局所幾何学的特徴を捉える。
第2に,グローバルなセマンティック特徴を用いた粗いセマンティック対応を確立する,プログレッシブなグローバル-ローカルマッチング戦略を設計する。
第3に,本フレームワークはトレーニングフリーで,様々なトレーニング済みの3D生成バックボーンと広範囲に互換性があり,多様な形状カテゴリにまたがる強力な一般化が示されている。
論文 参考訳(メタデータ) (2025-09-22T07:23:07Z) - OpenGS-Fusion: Open-Vocabulary Dense Mapping with Hybrid 3D Gaussian Splatting for Refined Object-Level Understanding [17.524454394142477]
提案するOpenGS-Fusionは、セマンティックモデリングを改善し、オブジェクトレベルの理解を洗練させる革新的なオープン語彙密集型マッピングフレームワークである。
また,MLLM-Assisted Adaptive Thresholding という新しい多モーダル言語誘導手法を導入し,類似度閾値を適応的に調整することで3次元オブジェクトのセグメンテーションを改良する。
提案手法は,3次元オブジェクト理解とシーン再構築の品質において,既存の手法よりも優れており,言語誘導シーンインタラクションにおけるその効果を示している。
論文 参考訳(メタデータ) (2025-08-02T02:22:36Z) - Cross-Modal and Uncertainty-Aware Agglomeration for Open-Vocabulary 3D Scene Understanding [58.38294408121273]
CUA-O3Dと呼ばれるオープン語彙3次元シーン理解のためのクロスモーダル・不確実性認識アグリゲーションを提案する。
提案手法は,(1)空間認識型視覚基盤モデルの幾何学的知識とともに,VLMのセマンティックな先入観を取り入れること,(2)モデル固有の不確かさを捉えるために,新しい決定論的不確実性推定を用いること,の2つの課題に対処する。
論文 参考訳(メタデータ) (2025-03-20T20:58:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。