論文の概要: CoSSegGaussians: Compact and Swift Scene Segmenting 3D Gaussians with
Dual Feature Fusion
- arxiv url: http://arxiv.org/abs/2401.05925v3
- Date: Tue, 30 Jan 2024 12:46:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-31 18:04:07.065381
- Title: CoSSegGaussians: Compact and Swift Scene Segmenting 3D Gaussians with
Dual Feature Fusion
- Title(参考訳): cosseggaussians: コンパクトでスウィフトなシーンセグメンテーション 3d gaussians with dual feature fusion
- Authors: Bin Dou, Tianyu Zhang, Yongjia Ma, Zhaohui Wang, Zejian Yuan
- Abstract要約: RGB画像のみを入力した高速レンダリング速度で3次元連続シーンセグメンテーションを実現する手法を提案する。
本モデルでは, セグメンテーションタスクのセグメンテーションにおいて, セグメンテーション・セグメンテーション・タスクのベースラインに優れる。
- 参考スコア(独自算出の注目度): 17.778755539808547
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose Compact and Swift Segmenting 3D Gaussians(CoSSegGaussians), a
method for compact 3D-consistent scene segmentation at fast rendering speed
with only RGB images input. Previous NeRF-based segmentation methods have
relied on time-consuming neural scene optimization. While recent 3D Gaussian
Splatting has notably improved speed, existing Gaussian-based segmentation
methods struggle to produce compact masks, especially in zero-shot
segmentation. This issue probably stems from their straightforward assignment
of learnable parameters to each Gaussian, resulting in a lack of robustness
against cross-view inconsistent 2D machine-generated labels. Our method aims to
address this problem by employing Dual Feature Fusion Network as Gaussians'
segmentation field. Specifically, we first optimize 3D Gaussians under RGB
supervision. After Gaussian Locating, DINO features extracted from images are
applied through explicit unprojection, which are further incorporated with
spatial features from the efficient point cloud processing network. Feature
aggregation is utilized to fuse them in a global-to-local strategy for compact
segmentation features. Experimental results show that our model outperforms
baselines on both semantic and panoptic zero-shot segmentation task, meanwhile
consumes less than 10% inference time compared to NeRF-based methods. Code and
more results will be available at https://David-Dou.github.io/CoSSegGaussians
- Abstract(参考訳): 我々は,RGB画像のみを入力した高速レンダリング速度で,コンパクトな3D一貫性シーンセグメンテーションを実現する手法であるCoSSegGaussiansとSwift Segmenting 3D Gaussiansを提案する。
これまでのNeRFベースのセグメンテーション手法は、時間を要するニューラルシーン最適化に依存していた。
最近の3次元ガウスのスプラッティングの速度は著しく向上したが、既存のガウスベースのセグメンテーション法はコンパクトマスク、特にゼロショットセグメンテーションの生成に苦労している。
この問題の原因は、学習可能なパラメータを各ガウスに簡単に割り当てることであり、クロスビューの不整合な2dマシン生成ラベルに対する堅牢性が欠如することにある。
本手法は,ガウスのセグメンテーション分野としてデュアル・フィーチャー・フュージョン・ネットワークを用いてこの問題に対処することを目的とする。
具体的には、まずRGB監督下で3Dガウスを最適化する。
Gaussian Locatingの後、画像から抽出したDINO特徴を明示的非投影により適用し、より効率的なポイントクラウド処理ネットワークから空間的特徴を付加する。
特徴集約は、コンパクトなセグメンテーション機能のためのグローバル-ローカル戦略でそれらを融合するために利用される。
実験結果から,本モデルが意味的および単眼的ゼロショットセグメンテーションタスクのベースラインを上回り,一方,NeRF法に比べて10%未満の推論時間を消費することがわかった。
コードやその他の結果はhttps://David-Dou.github.io/CoSSegGaussiansで公開される。
関連論文リスト
- ShapeSplat: A Large-scale Dataset of Gaussian Splats and Their Self-Supervised Pretraining [104.34751911174196]
ShapeNetとModelNetを用いた大規模3DGSデータセットを構築した。
データセットのShapeSplatは、87のユニークなカテゴリから65Kのオブジェクトで構成されています。
textbftextitGaussian-MAEを導入し、ガウスパラメータからの表現学習の独特な利点を強調した。
論文 参考訳(メタデータ) (2024-08-20T14:49:14Z) - GSGAN: Adversarial Learning for Hierarchical Generation of 3D Gaussian Splats [20.833116566243408]
本稿では,Gaussianを3D GANの3次元表現として利用し,その効率的かつ明示的な特徴を活用する。
生成したガウスの位置とスケールを効果的に正規化する階層的多スケールガウス表現を持つジェネレータアーキテクチャを導入する。
実験結果から,最先端の3D一貫したGANと比較して,レンダリング速度(x100)が大幅に向上することが示された。
論文 参考訳(メタデータ) (2024-06-05T05:52:20Z) - GaussianFormer: Scene as Gaussians for Vision-Based 3D Semantic Occupancy Prediction [70.65250036489128]
3Dのセマンティック占有予測は,周囲のシーンの3Dの微細な形状とセマンティックスを得ることを目的としている。
本稿では,3Dシーンを3Dセマンティック・ガウシアンで表現するオブジェクト中心表現を提案する。
GaussianFormerは17.8%から24.8%のメモリ消費しか持たない最先端のメソッドで同等のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-05-27T17:59:51Z) - GaussianObject: High-Quality 3D Object Reconstruction from Four Views with Gaussian Splatting [82.29476781526752]
高度にスパースな視点から3Dオブジェクトを再構成・レンダリングすることは、3Dビジョン技術の応用を促進する上で非常に重要である。
GaussianObjectは、Gaussian splattingで3Dオブジェクトを表現してレンダリングするフレームワークで、4つの入力イメージだけで高いレンダリング品質を実現する。
GaussianObjectは、MipNeRF360、OmniObject3D、OpenIllumination、および私たちが収集した未提示画像など、いくつかの挑戦的なデータセットで評価されている。
論文 参考訳(メタデータ) (2024-02-15T18:42:33Z) - SAGD: Boundary-Enhanced Segment Anything in 3D Gaussian via Gaussian Decomposition [66.80822249039235]
3Dガウススプラッティングは、新しいビュー合成のための代替の3D表現として登場した。
SAGDは3D-GSのための概念的にシンプルで効果的な境界拡張パイプラインである。
提案手法は粗い境界問題なく高品質な3Dセグメンテーションを実現し,他のシーン編集作業にも容易に適用できる。
論文 参考訳(メタデータ) (2024-01-31T14:19:03Z) - Sparse-view CT Reconstruction with 3D Gaussian Volumetric Representation [13.667470059238607]
Sparse-view CTは従来のCTスキャンの放射線線量を減らすための有望な戦略である。
近年、3Dガウスアンは複雑な自然シーンのモデル化に応用されている。
スパース・ビューCT再建の可能性について検討した。
論文 参考訳(メタデータ) (2023-12-25T09:47:33Z) - Segment Any 3D Gaussians [85.93694310363325]
本稿では, 3次元ガウススプレイティング(3D-GS)に基づく高効率3Dプロンプト可能なセグメンテーション法であるSAGAについて述べる。
入力として2D視覚的プロンプトが与えられたとき、SAGAは対応する3Dターゲットを4ミリ秒以内に3Dガウスで表現できる。
我々は,SAGAが最先端の手法に匹敵する品質で,リアルタイムな多粒度セグメンテーションを実現することを示す。
論文 参考訳(メタデータ) (2023-12-01T17:15:24Z) - Gaussian Grouping: Segment and Edit Anything in 3D Scenes [65.49196142146292]
ガウシアン・グルーピング(ガウシアン・グルーピング)はガウシアン・スプラッティングを拡張して,オープンワールドの3Dシーンで何かを共同で再構築・分割する。
暗黙のNeRF表現と比較すると,グループ化された3次元ガウシアンは,高画質,微粒度,高効率で,あらゆるものを3次元で再構成,分割,編集することができる。
論文 参考訳(メタデータ) (2023-12-01T17:09:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。