論文の概要: GAGS: Granularity-Aware Feature Distillation for Language Gaussian Splatting
- arxiv url: http://arxiv.org/abs/2412.13654v1
- Date: Wed, 18 Dec 2024 09:33:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-19 16:48:12.305726
- Title: GAGS: Granularity-Aware Feature Distillation for Language Gaussian Splatting
- Title(参考訳): GAGS: 言語ガウススティングのための粒度を考慮した特徴蒸留
- Authors: Yuning Peng, Haiping Wang, Yuan Liu, Chenglu Wen, Zhen Dong, Bisheng Yang,
- Abstract要約: 近年,空間内の物体の複雑な意味的特性を正確に知覚する3次元オープン語彙シーン理解が注目されている。
GAGSは2次元CLIP機能を3次元ガウススプラッティングに蒸留し,任意の視点でレンダリングを行うためのオープン語彙クエリを実現するフレームワークである。
- 参考スコア(独自算出の注目度): 17.357179730544175
- License:
- Abstract: 3D open-vocabulary scene understanding, which accurately perceives complex semantic properties of objects in space, has gained significant attention in recent years. In this paper, we propose GAGS, a framework that distills 2D CLIP features into 3D Gaussian splatting, enabling open-vocabulary queries for renderings on arbitrary viewpoints. The main challenge of distilling 2D features for 3D fields lies in the multiview inconsistency of extracted 2D features, which provides unstable supervision for the 3D feature field. GAGS addresses this challenge with two novel strategies. First, GAGS associates the prompt point density of SAM with the camera distances, which significantly improves the multiview consistency of segmentation results. Second, GAGS further decodes a granularity factor to guide the distillation process and this granularity factor can be learned in a unsupervised manner to only select the multiview consistent 2D features in the distillation process. Experimental results on two datasets demonstrate significant performance and stability improvements of GAGS in visual grounding and semantic segmentation, with an inference speed 2$\times$ faster than baseline methods. The code and additional results are available at https://pz0826.github.io/GAGS-Webpage/ .
- Abstract(参考訳): 近年,空間内の物体の複雑な意味的特性を正確に知覚する3次元オープン語彙シーン理解が注目されている。
本稿では,2次元CLIP特徴量を3次元ガウススプラッティングに変換するフレームワークGAGSを提案する。
3Dフィールドの2D特徴を蒸留する主な課題は、抽出された2D特徴の多視点不整合であり、3D特徴フィールドの不安定な監視を提供する。
GAGSはこの課題に2つの新しい戦略で対処している。
まず、GAGSはSAMのプロンプト点密度とカメラ距離を関連付け、セグメンテーション結果のマルチビュー一貫性を大幅に向上させる。
第2に、GAGSはさらに粒度因子をデコードして蒸留工程を誘導し、この粒度因子を教師なしの方法で学習し、蒸留工程における多視点一貫した2D特徴のみを選択する。
2つのデータセットに対する実験結果は、ベースライン法よりも高速な推論速度2$\times$の視覚的グラウンド化とセマンティックセグメンテーションにおいて、GAGSの大幅な性能改善と安定性の向上を示す。
コードと追加結果はhttps://pz0826.github.io/GAGS-Webpage/.comで公開されている。
関連論文リスト
- ShapeSplat: A Large-scale Dataset of Gaussian Splats and Their Self-Supervised Pretraining [104.34751911174196]
ShapeNetとModelNetを用いた大規模3DGSデータセットを構築した。
データセットのShapeSplatは、87のユニークなカテゴリから65Kのオブジェクトで構成されています。
textbftextitGaussian-MAEを導入し、ガウスパラメータからの表現学習の独特な利点を強調した。
論文 参考訳(メタデータ) (2024-08-20T14:49:14Z) - GOI: Find 3D Gaussians of Interest with an Optimizable Open-vocabulary Semantic-space Hyperplane [53.388937705785025]
3Dオープンボキャブラリのシーン理解は、拡張現実とロボット応用の推進に不可欠である。
GOIは2次元視覚言語基礎モデルから3次元ガウススプラッティング(3DGS)に意味的特徴を統合するフレームワークである。
提案手法では,特徴空間内の超平面分割として特徴選択処理を扱い,クエリに関連性の高い特徴のみを保持する。
論文 参考訳(メタデータ) (2024-05-27T18:57:18Z) - CLIP-GS: CLIP-Informed Gaussian Splatting for Real-time and View-consistent 3D Semantic Understanding [32.76277160013881]
コントラスト言語画像事前学習(CLIP)のセマンティクスをガウススプラッティングに統合するCLIP-GSを提案する。
SACはオブジェクト内の固有の統一意味論を利用して、3Dガウスのコンパクトで効果的な意味表現を学ぶ。
また,3次元モデルから得られた多視点一貫性を利用して,3次元コヒーレント自己学習(3DCS)戦略を導入する。
論文 参考訳(メタデータ) (2024-04-22T15:01:32Z) - SAGD: Boundary-Enhanced Segment Anything in 3D Gaussian via Gaussian Decomposition [66.80822249039235]
3Dガウススプラッティングは、新しいビュー合成のための代替の3D表現として登場した。
SAGDは3D-GSのための概念的にシンプルで効果的な境界拡張パイプラインである。
提案手法は粗い境界問題なく高品質な3Dセグメンテーションを実現し,他のシーン編集作業にも容易に適用できる。
論文 参考訳(メタデータ) (2024-01-31T14:19:03Z) - Feature 3DGS: Supercharging 3D Gaussian Splatting to Enable Distilled Feature Fields [54.482261428543985]
ニューラル・ラジアンス・フィールドを使用する手法は、新しいビュー合成のような従来のタスクに汎用的である。
3次元ガウシアンスプラッティングは, 実時間ラディアンス場レンダリングにおける最先端の性能を示した。
この問題を効果的に回避するために,アーキテクチャとトレーニングの変更を提案する。
論文 参考訳(メタデータ) (2023-12-06T00:46:30Z) - Segment Any 3D Gaussians [85.93694310363325]
本稿では, 3次元ガウススプレイティング(3D-GS)に基づく高効率3Dプロンプト可能なセグメンテーション法であるSAGAについて述べる。
入力として2D視覚的プロンプトが与えられたとき、SAGAは対応する3Dターゲットを4ミリ秒以内に3Dガウスで表現できる。
我々は,SAGAが最先端の手法に匹敵する品質で,リアルタイムな多粒度セグメンテーションを実現することを示す。
論文 参考訳(メタデータ) (2023-12-01T17:15:24Z) - PointOcc: Cylindrical Tri-Perspective View for Point-based 3D Semantic
Occupancy Prediction [72.75478398447396]
本稿では,点雲を効果的かつ包括的に表現する円筒型三重対視図を提案する。
また,LiDAR点雲の距離分布を考慮し,円筒座標系における三点ビューを構築した。
プロジェクション中に構造の詳細を維持するために空間群プーリングを使用し、各TPV平面を効率的に処理するために2次元バックボーンを採用する。
論文 参考訳(メタデータ) (2023-08-31T17:57:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。