論文の概要: CCL-LGS: Contrastive Codebook Learning for 3D Language Gaussian Splatting
- arxiv url: http://arxiv.org/abs/2505.20469v1
- Date: Mon, 26 May 2025 19:09:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 17:05:58.266159
- Title: CCL-LGS: Contrastive Codebook Learning for 3D Language Gaussian Splatting
- Title(参考訳): CCL-LGS:3次元言語ガウススプラッティングのための対照的なコードブック学習
- Authors: Lei Tian, Xiaomin Li, Liqian Ma, Hefei Huang, Zirui Zheng, Hao Yin, Taiqing Li, Huchuan Lu, Xu Jia,
- Abstract要約: 2Dプリンシパルに依存しているメソッドは、横断的なセマンティクスの不整合という重要な課題に陥る。
CCL-LGSは、多視点セマンティックキューを統合することで、ビューに一貫性のあるセマンティック監視を実現する新しいフレームワークである。
我々の枠組みは、カテゴリー識別性を維持しながら意味的対立を明示的に解決する。
- 参考スコア(独自算出の注目度): 53.15827818829865
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in 3D reconstruction techniques and vision-language models have fueled significant progress in 3D semantic understanding, a capability critical to robotics, autonomous driving, and virtual/augmented reality. However, methods that rely on 2D priors are prone to a critical challenge: cross-view semantic inconsistencies induced by occlusion, image blur, and view-dependent variations. These inconsistencies, when propagated via projection supervision, deteriorate the quality of 3D Gaussian semantic fields and introduce artifacts in the rendered outputs. To mitigate this limitation, we propose CCL-LGS, a novel framework that enforces view-consistent semantic supervision by integrating multi-view semantic cues. Specifically, our approach first employs a zero-shot tracker to align a set of SAM-generated 2D masks and reliably identify their corresponding categories. Next, we utilize CLIP to extract robust semantic encodings across views. Finally, our Contrastive Codebook Learning (CCL) module distills discriminative semantic features by enforcing intra-class compactness and inter-class distinctiveness. In contrast to previous methods that directly apply CLIP to imperfect masks, our framework explicitly resolves semantic conflicts while preserving category discriminability. Extensive experiments demonstrate that CCL-LGS outperforms previous state-of-the-art methods. Our project page is available at https://epsilontl.github.io/CCL-LGS/.
- Abstract(参考訳): 近年の3D再構築技術と視覚言語モデルの進歩は、3Dセマンティック理解、ロボット工学、自律運転、バーチャル/拡張現実に不可欠な能力に大きな進歩をもたらした。
しかし、2Dプリエントに依存する手法は、排他的、画像のぼかし、ビュー依存のバリエーションによって引き起こされる、横断的な意味的不整合という、重要な課題に陥る。
これらの矛盾は、プロジェクションの監督によって伝播されると、3次元ガウス意味論の質を悪化させ、出力された成果物に人工物を導入する。
この制限を緩和するために,マルチビューセマンティック・キューを統合することで,ビュー一貫性のあるセマンティック・監視を実現する新しいフレームワークであるCCL-LGSを提案する。
具体的には、まずゼロショットトラッカーを用いてSAM生成した2Dマスクを整列させ、対応するカテゴリを確実に識別する。
次に、CLIPを用いてビュー間のロバストなセマンティックエンコーディングを抽出する。
最後に,私たちのContrastive Codebook Learning (CCL)モジュールは,クラス内コンパクト性とクラス間特異性を強制することにより,識別的意味的特徴を抽出する。
CLIPを不完全なマスクに直接適用する従来の手法とは対照的に、我々のフレームワークはカテゴリ識別性を保ちながら意味的対立を明示的に解決する。
大規模な実験により、CCL-LGSは従来の最先端手法よりも優れていることが示された。
私たちのプロジェクトページはhttps://epsilontl.github.io/CCL-LGS/で公開されています。
関連論文リスト
- 3D-PointZshotS: Geometry-Aware 3D Point Cloud Zero-Shot Semantic Segmentation Narrowing the Visual-Semantic Gap [10.744510913722817]
3D-PointZshotSは、幾何学的なゼロショットセグメンテーションフレームワークである。
我々はLGPをクロスアテンション機構を介してジェネレータに統合し、微粒な幾何学的詳細で意味的特徴を豊かにする。
我々は、共有空間における視覚的特徴と意味的特徴を再表現し、意味と視覚的ギャップを埋め、未知のクラスへの知識伝達を促進する。
論文 参考訳(メタデータ) (2025-04-16T19:17:12Z) - econSG: Efficient and Multi-view Consistent Open-Vocabulary 3D Semantic Gaussians [56.85804719947]
3DGSを用いたオープン語彙セマンティックセマンティックセグメンテーションのためのeconSGを提案する。
筆者らのeconSGは,既存手法と比較して,4つのベンチマークデータセット上での最先端性能を示す。
論文 参考訳(メタデータ) (2025-04-08T13:12:31Z) - Cross-Modal and Uncertainty-Aware Agglomeration for Open-Vocabulary 3D Scene Understanding [58.38294408121273]
CUA-O3Dと呼ばれるオープン語彙3次元シーン理解のためのクロスモーダル・不確実性認識アグリゲーションを提案する。
提案手法は,(1)空間認識型視覚基盤モデルの幾何学的知識とともに,VLMのセマンティックな先入観を取り入れること,(2)モデル固有の不確かさを捉えるために,新しい決定論的不確実性推定を用いること,の2つの課題に対処する。
論文 参考訳(メタデータ) (2025-03-20T20:58:48Z) - CLIP-GS: CLIP-Informed Gaussian Splatting for Real-time and View-consistent 3D Semantic Understanding [32.76277160013881]
コントラスト言語画像事前学習(CLIP)のセマンティクスをガウススプラッティングに統合するCLIP-GSを提案する。
SACはオブジェクト内の固有の統一意味論を利用して、3Dガウスのコンパクトで効果的な意味表現を学ぶ。
また,3次元モデルから得られた多視点一貫性を利用して,3次元コヒーレント自己学習(3DCS)戦略を導入する。
論文 参考訳(メタデータ) (2024-04-22T15:01:32Z) - Segment Any 3D Object with Language [58.471327490684295]
本稿では,Segment any 3D Object with LanguagE (SOLE)を紹介した。
具体的には、バックボーンとデコーダの両方にマルチモーダル意味を組み込むマルチモーダル融合ネットワークを提案する。
我々のSOLEは、ScanNetv2、ScanNet200、Replicaベンチマークにおいて、従来の方法よりも大きなマージンで優れている。
論文 参考訳(メタデータ) (2024-04-02T17:59:10Z) - Language-Driven Visual Consensus for Zero-Shot Semantic Segmentation [114.72734384299476]
本稿では,言語駆動型ビジュアルコンセンサス(LDVC)アプローチを提案する。
クラス埋め込みを、その離散的で抽象的な性質からアンカーとして活用し、クラス埋め込みに向けて視覚的特徴を操る。
我々の手法は、目に見えないクラスに対するセグメンテーションモデルの能力を大幅に向上させる。
論文 参考訳(メタデータ) (2024-03-13T11:23:55Z) - OV-NeRF: Open-vocabulary Neural Radiance Fields with Vision and Language Foundation Models for 3D Semantic Understanding [9.25233177676278]
OV-NeRFは、事前訓練されたビジョンと言語基盤モデルのポテンシャルを利用して、セマンティックフィールド学習を強化する。
提案手法は, Replica と ScanNet の mIoU 測定値において, 20.31% と 18.42% の大幅な改善を実現している。
論文 参考訳(メタデータ) (2024-02-07T08:19:57Z) - Transferring CLIP's Knowledge into Zero-Shot Point Cloud Semantic
Segmentation [17.914290294935427]
従来の3Dセグメンテーション手法では、トレーニングセットに現れる一定の範囲のクラスしか認識できない。
CLIPのような大規模ビジュアル言語事前訓練モデルでは、ゼロショット2Dビジョンタスクにおいて、その一般化能力を示している。
本稿では,CLIPが入力する視覚言語知識をクラウドエンコーダに転送するための,シンプルで効果的なベースラインを提案する。
論文 参考訳(メタデータ) (2023-12-12T12:35:59Z) - Exploiting a Joint Embedding Space for Generalized Zero-Shot Semantic
Segmentation [25.070027668717422]
一般化ゼロショットセマンティックセマンティックセグメンテーション(GZS3)は、見えないクラスと見えないクラスのピクセルワイズセマンティックラベルを予測する。
ほとんどのGZS3メソッドは、対応するセマンティックなクラスから見えないクラスの視覚的特徴を合成する生成的アプローチを採用している。
統一されたフレームワークにおける制限に対処するための差別的アプローチを提案する。
論文 参考訳(メタデータ) (2021-08-14T13:33:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。