Fugu-MT 論文翻訳(概要): CAGS: Open-Vocabulary 3D Scene Understanding with Context-Aware Gaussian Splatting

論文の概要: CAGS: Open-Vocabulary 3D Scene Understanding with Context-Aware Gaussian Splatting

arxiv url: http://arxiv.org/abs/2504.11893v1
Date: Wed, 16 Apr 2025 09:20:03 GMT
ステータス: 翻訳完了
システム内更新日: 2025-04-24 20:52:20.998975
Title: CAGS: Open-Vocabulary 3D Scene Understanding with Context-Aware Gaussian Splatting
Title（参考訳）: CAGS: 文脈対応ガウススプレイティングによる3次元オープンボキャブラリのシーン理解
Authors: Wei Sun, Yanzhao Zhou, Jianbin Jiao, Yuan Li,
Abstract要約: 3D Gaussian Splatting (3DGS) はシーン再構築のための強力な表現を提供するが、相互視の粒度の不整合は問題である。空間コンテキストを3DGSに組み込んだ新しいフレームワークCAGSを提案する。 CAGSは3Dインスタンスのセグメンテーションを大幅に改善し、LERF-OVSやScanNetといったデータセットのフラグメンテーションエラーを低減する。
参考スコア（独自算出の注目度）: 18.581169318975046
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Open-vocabulary 3D scene understanding is crucial for applications requiring natural language-driven spatial interpretation, such as robotics and augmented reality. While 3D Gaussian Splatting (3DGS) offers a powerful representation for scene reconstruction, integrating it with open-vocabulary frameworks reveals a key challenge: cross-view granularity inconsistency. This issue, stemming from 2D segmentation methods like SAM, results in inconsistent object segmentations across views (e.g., a "coffee set" segmented as a single entity in one view but as "cup + coffee + spoon" in another). Existing 3DGS-based methods often rely on isolated per-Gaussian feature learning, neglecting the spatial context needed for cohesive object reasoning, leading to fragmented representations. We propose Context-Aware Gaussian Splatting (CAGS), a novel framework that addresses this challenge by incorporating spatial context into 3DGS. CAGS constructs local graphs to propagate contextual features across Gaussians, reducing noise from inconsistent granularity, employs mask-centric contrastive learning to smooth SAM-derived features across views, and leverages a precomputation strategy to reduce computational cost by precomputing neighborhood relationships, enabling efficient training in large-scale scenes. By integrating spatial context, CAGS significantly improves 3D instance segmentation and reduces fragmentation errors on datasets like LERF-OVS and ScanNet, enabling robust language-guided 3D scene understanding.
Abstract（参考訳）: ロボット工学や拡張現実など、自然言語による空間解釈を必要とするアプリケーションには、オープンな3Dシーン理解が不可欠である。 3D Gaussian Splatting (3DGS)はシーン再構築のための強力な表現を提供するが、オープン語彙フレームワークとの統合は、クロスビューの粒度の不整合という重要な課題を明らかにしている。この問題はSAMのような2次元のセグメンテーション法から派生したもので、ビュー間での一貫性のないオブジェクトセグメンテーション(例えば、"coffee set"を一つのビューで1つのエンティティとして分割するが、別のビューでは"cup + coffee + spoon")をもたらす。既存の3DGSベースの手法は、しばしばガウス単位の特徴学習に依存し、凝集物推論に必要な空間的コンテキストを無視し、断片化された表現をもたらす。空間コンテキストを3DGSに組み込んだ新しいフレームワークCAGSを提案する。 CAGSは局所グラフを構築し、ガウシアン全体の文脈的特徴を伝播させ、矛盾する粒度からのノイズを低減し、マスク中心のコントラスト学習を用いてビューをスムーズにSAMから派生した特徴を可視化し、事前計算戦略を活用して、近隣関係をプリ計算することで計算コストを低減し、大規模シーンでの効率的な訓練を可能にする。空間的コンテキストを統合することで、CAGSは3Dインスタンスのセグメンテーションを大幅に改善し、LERF-OVSやScanNetといったデータセットのフラグメンテーションエラーを低減し、堅牢な言語による3Dシーン理解を可能にする。

関連論文リスト

OpenGS-Fusion: Open-Vocabulary Dense Mapping with Hybrid 3D Gaussian Splatting for Refined Object-Level Understanding [17.524454394142477]
提案するOpenGS-Fusionは、セマンティックモデリングを改善し、オブジェクトレベルの理解を洗練させる革新的なオープン語彙密集型マッピングフレームワークである。また,MLLM-Assisted Adaptive Thresholding という新しい多モーダル言語誘導手法を導入し,類似度閾値を適応的に調整することで3次元オブジェクトのセグメンテーションを改良する。提案手法は,3次元オブジェクト理解とシーン再構築の品質において,既存の手法よりも優れており,言語誘導シーンインタラクションにおけるその効果を示している。
論文参考訳（メタデータ） (2025-08-02T02:22:36Z)
OpenSplat3D: Open-Vocabulary 3D Instance Segmentation using Gaussian Splatting [52.40697058096931]
3D Gaussian Splatting (3DGS)は神経シーン再構築の強力な表現として登場した。我々は,OpenSplat3Dと呼ばれる手動ラベリングを必要としないオープン語彙3Dインスタンスセグメンテーションのアプローチを提案する。 LERF-mask と LERF-OVS と ScanNet++ の完全な検証セットについて,本手法の有効性を実証した。
論文参考訳（メタデータ） (2025-06-09T12:37:15Z)
Training-Free Hierarchical Scene Understanding for Gaussian Splatting with Superpoint Graphs [16.153129392697885]
ガウス原始体から直接スーパーポイントグラフを構築する訓練自由フレームワークを導入する。スーパーポイントグラフはシーンを空間的にコンパクトでセマンティックなコヒーレントな領域に分割し、ビュー一貫性の3Dエンティティを形成する。提案手法は,30時間以上のセグメンテーションを高速化し,最先端のオープン語彙セグメンテーション性能を実現する。
論文参考訳（メタデータ） (2025-04-17T17:56:07Z)
Segment then Splat: A Unified Approach for 3D Open-Vocabulary Segmentation based on Gaussian Splatting [11.186317340623807]
3D空間でのオープンボキャブラリクエリは、ロボット工学、自律システム、拡張現実といったアプリケーションにおいて、よりインテリジェントな認識を可能にするために不可欠である。既存のほとんどの手法は2Dピクセルレベルの解析に依存しており、多視点の不整合と3Dオブジェクトの検索が貧弱になる。そこで,静的シーンと動的シーンの両方に対して,3D対応のオープン語彙セグメンテーション手法であるセグメンテーションを提案する。
論文参考訳（メタデータ） (2025-03-28T07:36:51Z)
COB-GS: Clear Object Boundaries in 3DGS Segmentation Based on Boundary-Adaptive Gaussian Splitting [67.03992455145325]
3D Gaussian Splatting(3DGS)に基づく3Dセグメンテーションは、オブジェクトの境界を正確に記述するのに苦労する。セグメンテーション精度の向上を目的とした3DGS(COB-GS)のためのクリアオブジェクト境界を導入する。意味指導には境界適応型ガウス分割法を導入する。視覚的最適化のために、3DGSシーンの劣化したテクスチャを補正する。
論文参考訳（メタデータ） (2025-03-25T08:31:43Z)
GaussianGraph: 3D Gaussian-based Scene Graph Generation for Open-world Scene Understanding [20.578106363482018]
本稿では,セマンティッククラスタリングとシーングラフ生成を統合し,3DGSに基づくシーン理解を強化する新しいフレームワークを提案する。本稿では,シーンスケールや特徴分布に動的に対応し,特徴圧縮を回避する"Control-Follow"クラスタリング戦略を提案する。 2次元基礎モデルから抽出したオブジェクト属性と空間関係を統合することでシーン表現を充実させる。
論文参考訳（メタデータ） (2025-03-06T02:36:59Z)
OVGaussian: Generalizable 3D Gaussian Segmentation with Open Vocabularies [112.80292725951921]
textbfOVGaussianは3D textbfGaussian表現に基づいた、一般化可能なtextbfOpen-textbfVocabulary 3Dセマンティックセマンティックセグメンテーションフレームワークである。まず,3DGSをベースとした大規模3Dシーンデータセット(textbfSegGaussian)を構築し,ガウス点とマルチビュー画像の両方に対して詳細なセマンティックおよびインスタンスアノテーションを提供する。シーン間のセマンティック・一般化を促進するために,ジェネリック・セマンティック・ラスタライゼーション(GSR)を導入する。
論文参考訳（メタデータ） (2024-12-31T07:55:35Z)
SuperGSeg: Open-Vocabulary 3D Segmentation with Structured Super-Gaussians [77.77265204740037]
3D Gaussian Splattingは、その効率的なトレーニングとリアルタイムレンダリングで注目を集めている。我々は,協調型コンテキスト認識シーン表現を促進する新しいアプローチであるSuperGSegを紹介する。 SuperGSegは、オープン語彙オブジェクトローカライゼーションとセマンティックセグメンテーションタスクの両方において、以前の作業より優れている。
論文参考訳（メタデータ） (2024-12-13T16:01:19Z)
Bootstraping Clustering of Gaussians for View-consistent 3D Scene Understanding [59.51535163599723]
FreeGSは、教師なしセマンティック組み込み3DGSフレームワークで、2Dラベルを必要とせずに、ビュー一貫性のある3Dシーン理解を実現する。我々は、FreeGSが複雑なデータ前処理作業の負荷を回避しつつ、最先端のメソッドと互換性があることを示す。
論文参考訳（メタデータ） (2024-11-29T08:52:32Z)
InstanceGaussian: Appearance-Semantic Joint Gaussian Representation for 3D Instance-Level Perception [17.530797215534456]
3Dシーンの理解は、自動運転、ロボティクス、拡張現実の応用において重要な研究領域となっている。本稿では,インスタンスを適応的に集約しながら外観や意味的特徴を共同学習する InstanceGaussian を提案する。提案手法は,カテゴリーに依存しないオープンボキャブラリ3次元点分割における最先端性能を実現する。
論文参考訳（メタデータ） (2024-11-28T16:08:36Z)
GOI: Find 3D Gaussians of Interest with an Optimizable Open-vocabulary Semantic-space Hyperplane [53.388937705785025]
3Dオープンボキャブラリのシーン理解は、拡張現実とロボット応用の推進に不可欠である。 GOIは2次元視覚言語基礎モデルから3次元ガウススプラッティング(3DGS)に意味的特徴を統合するフレームワークである。提案手法では,特徴空間内の超平面分割として特徴選択処理を扱い,クエリに関連性の高い特徴のみを保持する。
論文参考訳（メタデータ） (2024-05-27T18:57:18Z)
Semantic Gaussians: Open-Vocabulary Scene Understanding with 3D Gaussian Splatting [27.974762304763694]
セマンティック・ガウシアン(Semantic Gaussians)は,3次元ガウシアン・スプレイティングをベースとした,新しいオープン語彙シーン理解手法である。既存の手法とは異なり、様々な2次元意味的特徴を3次元ガウスの新たな意味的構成要素にマッピングする多目的投影手法を設計する。我々は,高速な推論のために,生の3Dガウスから意味成分を直接予測する3Dセマンティックネットワークを構築した。
論文参考訳（メタデータ） (2024-03-22T21:28:19Z)
SAGD: Boundary-Enhanced Segment Anything in 3D Gaussian via Gaussian Decomposition [66.56357905500512]
3Dガウススプラッティングは、新しいビュー合成のための代替の3D表現として登場した。 SAGDは3D-GSのための概念的にシンプルで効果的な境界拡張パイプラインである。提案手法は粗い境界問題なく高品質な3Dセグメンテーションを実現し,他のシーン編集作業にも容易に適用できる。
論文参考訳（メタデータ） (2024-01-31T14:19:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。