論文の概要: GAGS: Granularity-Aware Feature Distillation for Language Gaussian Splatting
- arxiv url: http://arxiv.org/abs/2412.13654v2
- Date: Mon, 10 Mar 2025 13:37:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 15:50:05.699224
- Title: GAGS: Granularity-Aware Feature Distillation for Language Gaussian Splatting
- Title(参考訳): GAGS: 言語ガウススティングのための粒度を考慮した特徴蒸留
- Authors: Yuning Peng, Haiping Wang, Yuan Liu, Chenglu Wen, Zhen Dong, Bisheng Yang,
- Abstract要約: 近年,空間内の物体の複雑な意味的特性を正確に知覚する3次元オープン語彙シーン理解が注目されている。
GAGSは2次元CLIP機能を3次元ガウススプラッティングに蒸留し,任意の視点でレンダリングを行うためのオープン語彙クエリを実現するフレームワークである。
- 参考スコア(独自算出の注目度): 17.357179730544175
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: 3D open-vocabulary scene understanding, which accurately perceives complex semantic properties of objects in space, has gained significant attention in recent years. In this paper, we propose GAGS, a framework that distills 2D CLIP features into 3D Gaussian splatting, enabling open-vocabulary queries for renderings on arbitrary viewpoints. The main challenge of distilling 2D features for 3D fields lies in the multiview inconsistency of extracted 2D features, which provides unstable supervision for the 3D feature field. GAGS addresses this challenge with two novel strategies. First, GAGS associates the prompt point density of SAM with the camera distances, which significantly improves the multiview consistency of segmentation results. Second, GAGS further decodes a granularity factor to guide the distillation process and this granularity factor can be learned in a unsupervised manner to only select the multiview consistent 2D features in the distillation process. Experimental results on two datasets demonstrate significant performance and stability improvements of GAGS in visual grounding and semantic segmentation, with an inference speed 2$\times$ faster than baseline methods. The code and additional results are available at https://pz0826.github.io/GAGS-Webpage/ .
- Abstract(参考訳): 近年,空間内の物体の複雑な意味的特性を正確に知覚する3次元オープン語彙シーン理解が注目されている。
本稿では,2次元CLIP特徴量を3次元ガウススプラッティングに変換するフレームワークGAGSを提案する。
3Dフィールドの2D特徴を蒸留する主な課題は、抽出された2D特徴の多視点不整合であり、3D特徴フィールドの不安定な監視を提供する。
GAGSはこの課題に2つの新しい戦略で対処している。
まず、GAGSはSAMのプロンプト点密度とカメラ距離を関連付け、セグメンテーション結果のマルチビュー一貫性を大幅に向上させる。
第2に、GAGSはさらに粒度因子をデコードして蒸留工程を誘導し、この粒度因子を教師なしの方法で学習し、蒸留工程における多視点一貫した2D特徴のみを選択する。
2つのデータセットに対する実験結果は、ベースライン法よりも高速な推論速度2$\times$の視覚的グラウンド化とセマンティックセグメンテーションにおいて、GAGSの大幅な性能改善と安定性の向上を示す。
コードと追加結果はhttps://pz0826.github.io/GAGS-Webpage/.comで公開されている。
関連論文リスト
- CAGS: Open-Vocabulary 3D Scene Understanding with Context-Aware Gaussian Splatting [18.581169318975046]
3D Gaussian Splatting (3DGS) はシーン再構築のための強力な表現を提供するが、相互視の粒度の不整合は問題である。
空間コンテキストを3DGSに組み込んだ新しいフレームワークCAGSを提案する。
CAGSは3Dインスタンスのセグメンテーションを大幅に改善し、LERF-OVSやScanNetといったデータセットのフラグメンテーションエラーを低減する。
論文 参考訳(メタデータ) (2025-04-16T09:20:03Z) - econSG: Efficient and Multi-view Consistent Open-Vocabulary 3D Semantic Gaussians [56.85804719947]
3DGSを用いたオープン語彙セマンティックセマンティックセグメンテーションのためのeconSGを提案する。
筆者らのeconSGは,既存手法と比較して,4つのベンチマークデータセット上での最先端性能を示す。
論文 参考訳(メタデータ) (2025-04-08T13:12:31Z) - COB-GS: Clear Object Boundaries in 3DGS Segmentation Based on Boundary-Adaptive Gaussian Splitting [67.03992455145325]
3D Gaussian Splatting(3DGS)に基づく3Dセグメンテーションは、オブジェクトの境界を正確に記述するのに苦労する。
セグメンテーション精度の向上を目的とした3DGS(COB-GS)のためのクリアオブジェクト境界を導入する。
意味指導には境界適応型ガウス分割法を導入する。
視覚的最適化のために、3DGSシーンの劣化したテクスチャを補正する。
論文 参考訳(メタデータ) (2025-03-25T08:31:43Z) - GaussianGraph: 3D Gaussian-based Scene Graph Generation for Open-world Scene Understanding [20.578106363482018]
本稿では,セマンティッククラスタリングとシーングラフ生成を統合し,3DGSに基づくシーン理解を強化する新しいフレームワークを提案する。
本稿では,シーンスケールや特徴分布に動的に対応し,特徴圧縮を回避する"Control-Follow"クラスタリング戦略を提案する。
2次元基礎モデルから抽出したオブジェクト属性と空間関係を統合することでシーン表現を充実させる。
論文 参考訳(メタデータ) (2025-03-06T02:36:59Z) - SuperGSeg: Open-Vocabulary 3D Segmentation with Structured Super-Gaussians [77.77265204740037]
3D Gaussian Splattingは、その効率的なトレーニングとリアルタイムレンダリングで注目を集めている。
我々は,協調型コンテキスト認識シーン表現を促進する新しいアプローチであるSuperGSegを紹介する。
SuperGSegは、オープン語彙オブジェクトローカライゼーションとセマンティックセグメンテーションタスクの両方において、以前の作業より優れている。
論文 参考訳(メタデータ) (2024-12-13T16:01:19Z) - Bootstraping Clustering of Gaussians for View-consistent 3D Scene Understanding [59.51535163599723]
FreeGSは、教師なしセマンティック組み込み3DGSフレームワークで、2Dラベルを必要とせずに、ビュー一貫性のある3Dシーン理解を実現する。
我々は、FreeGSが複雑なデータ前処理作業の負荷を回避しつつ、最先端のメソッドと互換性があることを示す。
論文 参考訳(メタデータ) (2024-11-29T08:52:32Z) - ShapeSplat: A Large-scale Dataset of Gaussian Splats and Their Self-Supervised Pretraining [104.34751911174196]
ShapeNetとModelNetを用いた大規模3DGSデータセットを構築した。
データセットのShapeSplatは、87のユニークなカテゴリから65Kのオブジェクトで構成されています。
textbftextitGaussian-MAEを導入し、ガウスパラメータからの表現学習の独特な利点を強調した。
論文 参考訳(メタデータ) (2024-08-20T14:49:14Z) - CLIP-GS: CLIP-Informed Gaussian Splatting for Real-time and View-consistent 3D Semantic Understanding [32.76277160013881]
コントラスト言語画像事前学習(CLIP)のセマンティクスをガウススプラッティングに統合するCLIP-GSを提案する。
SACはオブジェクト内の固有の統一意味論を利用して、3Dガウスのコンパクトで効果的な意味表現を学ぶ。
また,3次元モデルから得られた多視点一貫性を利用して,3次元コヒーレント自己学習(3DCS)戦略を導入する。
論文 参考訳(メタデータ) (2024-04-22T15:01:32Z) - SAGD: Boundary-Enhanced Segment Anything in 3D Gaussian via Gaussian Decomposition [66.80822249039235]
3Dガウススプラッティングは、新しいビュー合成のための代替の3D表現として登場した。
SAGDは3D-GSのための概念的にシンプルで効果的な境界拡張パイプラインである。
提案手法は粗い境界問題なく高品質な3Dセグメンテーションを実現し,他のシーン編集作業にも容易に適用できる。
論文 参考訳(メタデータ) (2024-01-31T14:19:03Z) - Segment Any 3D Gaussians [85.93694310363325]
本稿では, 3次元ガウススプレイティング(3D-GS)に基づく高効率3Dプロンプト可能なセグメンテーション法であるSAGAについて述べる。
入力として2D視覚的プロンプトが与えられたとき、SAGAは対応する3Dターゲットを4ミリ秒以内に3Dガウスで表現できる。
我々は,SAGAが最先端の手法に匹敵する品質で,リアルタイムな多粒度セグメンテーションを実現することを示す。
論文 参考訳(メタデータ) (2023-12-01T17:15:24Z) - PointOcc: Cylindrical Tri-Perspective View for Point-based 3D Semantic
Occupancy Prediction [72.75478398447396]
本稿では,点雲を効果的かつ包括的に表現する円筒型三重対視図を提案する。
また,LiDAR点雲の距離分布を考慮し,円筒座標系における三点ビューを構築した。
プロジェクション中に構造の詳細を維持するために空間群プーリングを使用し、各TPV平面を効率的に処理するために2次元バックボーンを採用する。
論文 参考訳(メタデータ) (2023-08-31T17:57:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。