論文の概要: Learning Segmented 3D Gaussians via Efficient Feature Unprojection for Zero-shot Neural Scene Segmentation
- arxiv url: http://arxiv.org/abs/2401.05925v4
- Date: Sun, 28 Jul 2024 02:40:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-31 00:16:53.119611
- Title: Learning Segmented 3D Gaussians via Efficient Feature Unprojection for Zero-shot Neural Scene Segmentation
- Title(参考訳): ゼロショットニューラルシーンセグメンテーションのための効率的な特徴予測による3次元ガウスの学習
- Authors: Bin Dou, Tianyu Zhang, Zhaohui Wang, Yongjia Ma, Zejian Yuan,
- Abstract要約: ゼロショットニューラルシーンセグメンテーションはシーン理解に有効な方法である。
既存のモデル、特に効率的な3Dガウス法は、コンパクトなセグメンテーションの結果を生み出すのに苦労している。
セグメンテーションフィールドとしてFeature UnprojectionとFusionモジュールを提案する。
本モデルでは,ゼロショットセマンティックセグメンテーションタスクのベースラインを超越し,最良ベースラインよりも10%mIoU向上を図っている。
- 参考スコア(独自算出の注目度): 16.57158278095853
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Zero-shot neural scene segmentation, which reconstructs 3D neural segmentation field without manual annotations, serves as an effective way for scene understanding. However, existing models, especially the efficient 3D Gaussian-based methods, struggle to produce compact segmentation results. This issue stems primarily from their redundant learnable attributes assigned on individual Gaussians, leading to a lack of robustness against the 3D-inconsistencies in zero-shot generated raw labels. To address this problem, our work, named Compact Segmented 3D Gaussians (CoSegGaussians), proposes the Feature Unprojection and Fusion module as the segmentation field, which utilizes a shallow decoder generalizable for all Gaussians based on high-level features. Specifically, leveraging the learned Gaussian geometric parameters, semantic-aware image-based features are introduced into the scene via our unprojection technique. The lifted features, together with spatial information, are fed into the multi-scale aggregation decoder to generate segmentation identities for all Gaussians. Furthermore, we design CoSeg Loss to boost model robustness against 3D-inconsistent noises. Experimental results show that our model surpasses baselines on zero-shot semantic segmentation task, improving by ~10% mIoU over the best baseline. Code and more results will be available at https://David-Dou.github.io/CoSegGaussians.
- Abstract(参考訳): 手動のアノテーションなしで3Dニューラルセグメンテーションフィールドを再構築するゼロショットニューラルシーンセグメンテーションは、シーン理解に有効な方法である。
しかし、既存のモデル、特に効率的な3Dガウス法は、コンパクトなセグメンテーションの結果を生み出すのに苦労している。
この問題は、主に個々のガウスに割り当てられた冗長な学習可能な属性から来ており、ゼロショット生成された原ラベルの3D不整合に対する堅牢性の欠如につながっている。
この問題に対処するため、コンパクトセグメンテッド3Dガウスアン (CoSegGaussians) と名付けられた我々の研究は、高次特徴に基づいてすべてのガウスアンに一般化可能な浅層デコーダを利用するセグメンテーション場としてFeature Unprojection and Fusionモジュールを提案する。
具体的には,学習したガウス幾何学的パラメータを活かしたセマンティック・アウェア・イメージ・ベースの特徴を,提案手法を用いて現場に導入する。
持ち上げられた特徴と空間情報とをマルチスケールアグリゲーションデコーダに入力し、すべてのガウスのセグメンテーションIDを生成する。
さらに,3次元不整合雑音に対するモデルロバスト性を高めるためにCoSeg Lossを設計する。
実験結果から,本モデルがゼロショットセマンティックセグメンテーションタスクのベースラインを超え,最良ベースラインよりも約10%のmIoUの改善が得られた。
コードやその他の結果はhttps://David-Dou.github.io/CoSegGaussians.orgで公開される。
関連論文リスト
- ShapeSplat: A Large-scale Dataset of Gaussian Splats and Their Self-Supervised Pretraining [104.34751911174196]
ShapeNetとModelNetを用いた大規模3DGSデータセットを構築した。
データセットのShapeSplatは、87のユニークなカテゴリから65Kのオブジェクトで構成されています。
textbftextitGaussian-MAEを導入し、ガウスパラメータからの表現学習の独特な利点を強調した。
論文 参考訳(メタデータ) (2024-08-20T14:49:14Z) - GSGAN: Adversarial Learning for Hierarchical Generation of 3D Gaussian Splats [20.833116566243408]
本稿では,Gaussianを3D GANの3次元表現として利用し,その効率的かつ明示的な特徴を活用する。
生成したガウスの位置とスケールを効果的に正規化する階層的多スケールガウス表現を持つジェネレータアーキテクチャを導入する。
実験結果から,最先端の3D一貫したGANと比較して,レンダリング速度(x100)が大幅に向上することが示された。
論文 参考訳(メタデータ) (2024-06-05T05:52:20Z) - GaussianFormer: Scene as Gaussians for Vision-Based 3D Semantic Occupancy Prediction [70.65250036489128]
3Dのセマンティック占有予測は,周囲のシーンの3Dの微細な形状とセマンティックスを得ることを目的としている。
本稿では,3Dシーンを3Dセマンティック・ガウシアンで表現するオブジェクト中心表現を提案する。
GaussianFormerは17.8%から24.8%のメモリ消費しか持たない最先端のメソッドで同等のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-05-27T17:59:51Z) - GaussianObject: High-Quality 3D Object Reconstruction from Four Views with Gaussian Splatting [82.29476781526752]
高度にスパースな視点から3Dオブジェクトを再構成・レンダリングすることは、3Dビジョン技術の応用を促進する上で非常に重要である。
GaussianObjectは、Gaussian splattingで3Dオブジェクトを表現してレンダリングするフレームワークで、4つの入力イメージだけで高いレンダリング品質を実現する。
GaussianObjectは、MipNeRF360、OmniObject3D、OpenIllumination、および私たちが収集した未提示画像など、いくつかの挑戦的なデータセットで評価されている。
論文 参考訳(メタデータ) (2024-02-15T18:42:33Z) - SAGD: Boundary-Enhanced Segment Anything in 3D Gaussian via Gaussian Decomposition [66.80822249039235]
3Dガウススプラッティングは、新しいビュー合成のための代替の3D表現として登場した。
SAGDは3D-GSのための概念的にシンプルで効果的な境界拡張パイプラインである。
提案手法は粗い境界問題なく高品質な3Dセグメンテーションを実現し,他のシーン編集作業にも容易に適用できる。
論文 参考訳(メタデータ) (2024-01-31T14:19:03Z) - Sparse-view CT Reconstruction with 3D Gaussian Volumetric Representation [13.667470059238607]
Sparse-view CTは従来のCTスキャンの放射線線量を減らすための有望な戦略である。
近年、3Dガウスアンは複雑な自然シーンのモデル化に応用されている。
スパース・ビューCT再建の可能性について検討した。
論文 参考訳(メタデータ) (2023-12-25T09:47:33Z) - Segment Any 3D Gaussians [85.93694310363325]
本稿では, 3次元ガウススプレイティング(3D-GS)に基づく高効率3Dプロンプト可能なセグメンテーション法であるSAGAについて述べる。
入力として2D視覚的プロンプトが与えられたとき、SAGAは対応する3Dターゲットを4ミリ秒以内に3Dガウスで表現できる。
我々は,SAGAが最先端の手法に匹敵する品質で,リアルタイムな多粒度セグメンテーションを実現することを示す。
論文 参考訳(メタデータ) (2023-12-01T17:15:24Z) - Gaussian Grouping: Segment and Edit Anything in 3D Scenes [65.49196142146292]
ガウシアン・グルーピング(ガウシアン・グルーピング)はガウシアン・スプラッティングを拡張して,オープンワールドの3Dシーンで何かを共同で再構築・分割する。
暗黙のNeRF表現と比較すると,グループ化された3次元ガウシアンは,高画質,微粒度,高効率で,あらゆるものを3次元で再構成,分割,編集することができる。
論文 参考訳(メタデータ) (2023-12-01T17:09:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。