論文の概要: CoSSegGaussians: Compact and Swift Scene Segmenting 3D Gaussians
- arxiv url: http://arxiv.org/abs/2401.05925v1
- Date: Thu, 11 Jan 2024 14:05:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-12 14:42:54.857530
- Title: CoSSegGaussians: Compact and Swift Scene Segmenting 3D Gaussians
- Title(参考訳): CoSSegGaussians:コンパクトでスウィフトなシーンセグメンテーション3Dガウス
- Authors: Bin Dou, Tianyu Zhang, Yongjia Ma, Zhaohui Wang, Zejian Yuan
- Abstract要約: RGB画像のみを入力した高速レンダリング速度で3次元連続シーンセグメンテーションを実現する手法を提案する。
我々のモデルは、セグメンテーションタスクとパノプティックセグメンテーションタスクの両方において、他のセグメンテーション手法よりも優れているので、高品質なゼロショットシーンセグメンテーションを行うことができる。
- 参考スコア(独自算出の注目度): 17.778755539808547
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose Compact and Swift Segmenting 3D Gaussians(CoSSegGaussians), a
method for compact 3D-consistent scene segmentation at fast rendering speed
with only RGB images input. Previous NeRF-based 3D segmentation methods have
relied on implicit or voxel neural scene representation and ray-marching volume
rendering which are time consuming. Recent 3D Gaussian Splatting significantly
improves the rendering speed, however, existing Gaussians-based segmentation
methods(eg: Gaussian Grouping) fail to provide compact segmentation masks
especially in zero-shot segmentation, which is mainly caused by the lack of
robustness and compactness for straightforwardly assigning learnable parameters
to each Gaussian when encountering inconsistent 2D machine-generated labels.
Our method aims to achieve compact and reliable zero-shot scene segmentation
swiftly by mapping fused spatial and semantically meaningful features for each
Gaussian point with a shallow decoding network. Specifically, our method
firstly optimizes Gaussian points' position, convariance and color attributes
under the supervision of RGB images. After Gaussian Locating, we distill
multi-scale DINO features extracted from images through unprojection to each
Gaussian, which is then incorporated with spatial features from the fast point
features processing network, i.e. RandLA-Net. Then the shallow decoding MLP is
applied to the multi-scale fused features to obtain compact segmentation.
Experimental results show that our model can perform high-quality zero-shot
scene segmentation, as our model outperforms other segmentation methods on both
semantic and panoptic segmentation task, meanwhile consumes approximately only
10% segmenting time compared to NeRF-based segmentation. Code and more results
will be available at https://David-Dou.github.io/CoSSegGaussians
- Abstract(参考訳): 我々は,RGB画像のみを入力した高速レンダリング速度で,コンパクトな3D一貫性シーンセグメンテーションを実現する手法であるCoSSegGaussiansとSwift Segmenting 3D Gaussiansを提案する。
従来のnerfベースの3dセグメンテーション手法は、時間を要する暗黙的またはボクセル的シーン表現とレイマーチングボリュームレンダリングに依存している。
最近の3Dガウス分割法はレンダリング速度を大幅に改善するが、既存のガウス系セグメンテーション法(ガウス群化法)は、特にゼロショットセグメンテーションにおいてコンパクトなセグメンテーションマスクを提供していない。
本手法は,空間的,意味的に意味のある各特徴を浅い復号ネットワークでマッピングすることにより,コンパクトで信頼性の高いゼロショットシーンセグメンテーションを実現することを目的とする。
具体的には、RGB画像の監督の下で、まずガウス点の位置、共分散、色特性を最適化する。
ガウス関数の探索後、画像から抽出した複数スケールの dino 特徴を各ガウス関数に投影して蒸留し、高速点特徴処理ネットワーク、すなわち randla-net から空間的特徴量を取り込む。
そして、浅層復号化MLPを多スケール融合特徴に適用し、コンパクトセグメンテーションを得る。
実験の結果,本モデルはセマンティクスとパンオプティカルセグメンテーションの双方において,他のセグメンテーション手法よりも優れており,一方,nrfセグメンテーションに比べて10%のセグメンテーション時間しか消費しないことがわかった。
コードやその他の結果はhttps://David-Dou.github.io/CoSSegGaussiansで公開される。
関連論文リスト
- ShapeSplat: A Large-scale Dataset of Gaussian Splats and Their Self-Supervised Pretraining [104.34751911174196]
ShapeNetとModelNetを用いた大規模3DGSデータセットを構築した。
データセットのShapeSplatは、87のユニークなカテゴリから65Kのオブジェクトで構成されています。
textbftextitGaussian-MAEを導入し、ガウスパラメータからの表現学習の独特な利点を強調した。
論文 参考訳(メタデータ) (2024-08-20T14:49:14Z) - GSGAN: Adversarial Learning for Hierarchical Generation of 3D Gaussian Splats [20.833116566243408]
本稿では,Gaussianを3D GANの3次元表現として利用し,その効率的かつ明示的な特徴を活用する。
生成したガウスの位置とスケールを効果的に正規化する階層的多スケールガウス表現を持つジェネレータアーキテクチャを導入する。
実験結果から,最先端の3D一貫したGANと比較して,レンダリング速度(x100)が大幅に向上することが示された。
論文 参考訳(メタデータ) (2024-06-05T05:52:20Z) - GaussianFormer: Scene as Gaussians for Vision-Based 3D Semantic Occupancy Prediction [70.65250036489128]
3Dのセマンティック占有予測は,周囲のシーンの3Dの微細な形状とセマンティックスを得ることを目的としている。
本稿では,3Dシーンを3Dセマンティック・ガウシアンで表現するオブジェクト中心表現を提案する。
GaussianFormerは17.8%から24.8%のメモリ消費しか持たない最先端のメソッドで同等のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-05-27T17:59:51Z) - GaussianObject: High-Quality 3D Object Reconstruction from Four Views with Gaussian Splatting [82.29476781526752]
高度にスパースな視点から3Dオブジェクトを再構成・レンダリングすることは、3Dビジョン技術の応用を促進する上で非常に重要である。
GaussianObjectは、Gaussian splattingで3Dオブジェクトを表現してレンダリングするフレームワークで、4つの入力イメージだけで高いレンダリング品質を実現する。
GaussianObjectは、MipNeRF360、OmniObject3D、OpenIllumination、および私たちが収集した未提示画像など、いくつかの挑戦的なデータセットで評価されている。
論文 参考訳(メタデータ) (2024-02-15T18:42:33Z) - SAGD: Boundary-Enhanced Segment Anything in 3D Gaussian via Gaussian Decomposition [66.80822249039235]
3Dガウススプラッティングは、新しいビュー合成のための代替の3D表現として登場した。
SAGDは3D-GSのための概念的にシンプルで効果的な境界拡張パイプラインである。
提案手法は粗い境界問題なく高品質な3Dセグメンテーションを実現し,他のシーン編集作業にも容易に適用できる。
論文 参考訳(メタデータ) (2024-01-31T14:19:03Z) - Sparse-view CT Reconstruction with 3D Gaussian Volumetric Representation [13.667470059238607]
Sparse-view CTは従来のCTスキャンの放射線線量を減らすための有望な戦略である。
近年、3Dガウスアンは複雑な自然シーンのモデル化に応用されている。
スパース・ビューCT再建の可能性について検討した。
論文 参考訳(メタデータ) (2023-12-25T09:47:33Z) - Segment Any 3D Gaussians [85.93694310363325]
本稿では, 3次元ガウススプレイティング(3D-GS)に基づく高効率3Dプロンプト可能なセグメンテーション法であるSAGAについて述べる。
入力として2D視覚的プロンプトが与えられたとき、SAGAは対応する3Dターゲットを4ミリ秒以内に3Dガウスで表現できる。
我々は,SAGAが最先端の手法に匹敵する品質で,リアルタイムな多粒度セグメンテーションを実現することを示す。
論文 参考訳(メタデータ) (2023-12-01T17:15:24Z) - Gaussian Grouping: Segment and Edit Anything in 3D Scenes [65.49196142146292]
ガウシアン・グルーピング(ガウシアン・グルーピング)はガウシアン・スプラッティングを拡張して,オープンワールドの3Dシーンで何かを共同で再構築・分割する。
暗黙のNeRF表現と比較すると,グループ化された3次元ガウシアンは,高画質,微粒度,高効率で,あらゆるものを3次元で再構成,分割,編集することができる。
論文 参考訳(メタデータ) (2023-12-01T17:09:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。