Fugu-MT 論文翻訳(概要): CoSSegGaussians: Compact and Swift Scene Segmenting 3D Gaussians with Dual Feature Fusion

論文の概要: CoSSegGaussians: Compact and Swift Scene Segmenting 3D Gaussians with Dual Feature Fusion

arxiv url: http://arxiv.org/abs/2401.05925v3
Date: Tue, 30 Jan 2024 12:46:04 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-31 18:04:07.065381
Title: CoSSegGaussians: Compact and Swift Scene Segmenting 3D Gaussians with Dual Feature Fusion
Title（参考訳）: cosseggaussians: コンパクトでスウィフトなシーンセグメンテーション 3d gaussians with dual feature fusion
Authors: Bin Dou, Tianyu Zhang, Yongjia Ma, Zhaohui Wang, Zejian Yuan
Abstract要約: RGB画像のみを入力した高速レンダリング速度で3次元連続シーンセグメンテーションを実現する手法を提案する。本モデルでは, セグメンテーションタスクのセグメンテーションにおいて, セグメンテーション・セグメンテーション・タスクのベースラインに優れる。
参考スコア（独自算出の注目度）: 17.778755539808547
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We propose Compact and Swift Segmenting 3D Gaussians(CoSSegGaussians), a method for compact 3D-consistent scene segmentation at fast rendering speed with only RGB images input. Previous NeRF-based segmentation methods have relied on time-consuming neural scene optimization. While recent 3D Gaussian Splatting has notably improved speed, existing Gaussian-based segmentation methods struggle to produce compact masks, especially in zero-shot segmentation. This issue probably stems from their straightforward assignment of learnable parameters to each Gaussian, resulting in a lack of robustness against cross-view inconsistent 2D machine-generated labels. Our method aims to address this problem by employing Dual Feature Fusion Network as Gaussians' segmentation field. Specifically, we first optimize 3D Gaussians under RGB supervision. After Gaussian Locating, DINO features extracted from images are applied through explicit unprojection, which are further incorporated with spatial features from the efficient point cloud processing network. Feature aggregation is utilized to fuse them in a global-to-local strategy for compact segmentation features. Experimental results show that our model outperforms baselines on both semantic and panoptic zero-shot segmentation task, meanwhile consumes less than 10% inference time compared to NeRF-based methods. Code and more results will be available at https://David-Dou.github.io/CoSSegGaussians
Abstract（参考訳）: 我々は,RGB画像のみを入力した高速レンダリング速度で,コンパクトな3D一貫性シーンセグメンテーションを実現する手法であるCoSSegGaussiansとSwift Segmenting 3D Gaussiansを提案する。これまでのNeRFベースのセグメンテーション手法は、時間を要するニューラルシーン最適化に依存していた。最近の3次元ガウスのスプラッティングの速度は著しく向上したが、既存のガウスベースのセグメンテーション法はコンパクトマスク、特にゼロショットセグメンテーションの生成に苦労している。この問題の原因は、学習可能なパラメータを各ガウスに簡単に割り当てることであり、クロスビューの不整合な2dマシン生成ラベルに対する堅牢性が欠如することにある。本手法は,ガウスのセグメンテーション分野としてデュアル・フィーチャー・フュージョン・ネットワークを用いてこの問題に対処することを目的とする。具体的には、まずRGB監督下で3Dガウスを最適化する。 Gaussian Locatingの後、画像から抽出したDINO特徴を明示的非投影により適用し、より効率的なポイントクラウド処理ネットワークから空間的特徴を付加する。特徴集約は、コンパクトなセグメンテーション機能のためのグローバル-ローカル戦略でそれらを融合するために利用される。実験結果から,本モデルが意味的および単眼的ゼロショットセグメンテーションタスクのベースラインを上回り,一方,NeRF法に比べて10%未満の推論時間を消費することがわかった。コードやその他の結果はhttps://David-Dou.github.io/CoSSegGaussiansで公開される。

関連論文リスト

GaussianCross: Cross-modal Self-supervised 3D Representation Learning via Gaussian Splatting [16.179607149692398]
提案するGaussianCrossは, クロスモーダルな自己教師型3D表現学習アーキテクチャである。 GaussianCross はスケール一貫性のない3次元点雲を統一された立方体正規化ガウス表現にシームレスに変換する。最先端の手法と比較して線形探索(0.1%パラメータ)と限られたデータトレーニング(1%のシーン)により優れた性能を発揮する。
論文参考訳（メタデータ） (2025-08-04T08:12:44Z)
FlexGS: Train Once, Deploy Everywhere with Many-in-One Flexible 3D Gaussian Splatting [57.97160965244424]
3Dガウススプラッティング(3DGS)は、3Dシーン表現や新しいビュー合成に様々な応用を可能にしている。従来のアプローチでは、重要でないガウス人を刈り取ることに重点を置いており、3DGSを効果的に圧縮している。本稿では3DGSの弾性推論手法を提案する。
論文参考訳（メタデータ） (2025-06-04T17:17:57Z)
ProtoGS: Efficient and High-Quality Rendering with 3D Gaussian Prototypes [81.48624894781257]
3D Gaussian Splatting (3DGS) は、新しいビュー合成において大きな進歩を遂げてきたが、ガウスプリミティブのかなりの数によって制限されている。近年の手法では、密度の高いガウスの記憶容量を圧縮することでこの問題に対処しているが、レンダリングの品質と効率の維持には失敗している。本稿では,ガウスの原始体を表現するためにガウスのプロトタイプを学習するProtoGSを提案し,視覚的品質を犠牲にすることなくガウスの総量を大幅に削減する。
論文参考訳（メタデータ） (2025-03-21T18:55:14Z)
Rethinking End-to-End 2D to 3D Scene Segmentation in Gaussian Splatting [86.15347226865826]
We design an new end-to-end object-aware lifting approach, called Unified-Lift。コントラスト損失を用いて学習したガウスレベルの機能を各ガウス点に拡張し、インスタンス情報をエンコードする。 LERF-Masked、Replica、Messy Roomsの3つのベンチマークで実験を行った。
論文参考訳（メタデータ） (2025-03-18T08:42:23Z)
TSGaussian: Semantic and Depth-Guided Target-Specific Gaussian Splatting from Sparse Views [18.050257821756148]
TSGaussianは、新しいビュー合成タスクにおける幾何学的劣化を避けるために、意味的制約と深さ事前の制約を組み合わせる新しいフレームワークである。提案手法は,バックグラウンドアロケーションを最小化しながら,指定された目標に対する計算資源の優先順位付けを行う。大規模な実験により、TSGaussianは3つの標準データセット上で最先端の手法より優れていることが示された。
論文参考訳（メタデータ） (2024-12-13T11:26:38Z)
ShapeSplat: A Large-scale Dataset of Gaussian Splats and Their Self-Supervised Pretraining [104.34751911174196]
ShapeNetとModelNetを用いた大規模3DGSデータセットを構築した。データセットのShapeSplatは、87のユニークなカテゴリから65Kのオブジェクトで構成されています。 textbftextitGaussian-MAEを導入し、ガウスパラメータからの表現学習の独特な利点を強調した。
論文参考訳（メタデータ） (2024-08-20T14:49:14Z)
GSGAN: Adversarial Learning for Hierarchical Generation of 3D Gaussian Splats [20.833116566243408]
本稿では,Gaussianを3D GANの3次元表現として利用し,その効率的かつ明示的な特徴を活用する。生成したガウスの位置とスケールを効果的に正規化する階層的多スケールガウス表現を持つジェネレータアーキテクチャを導入する。実験結果から,最先端の3D一貫したGANと比較して,レンダリング速度(x100)が大幅に向上することが示された。
論文参考訳（メタデータ） (2024-06-05T05:52:20Z)
GaussianFormer: Scene as Gaussians for Vision-Based 3D Semantic Occupancy Prediction [70.65250036489128]
3Dのセマンティック占有予測は,周囲のシーンの3Dの微細な形状とセマンティックスを得ることを目的としている。本稿では,3Dシーンを3Dセマンティック・ガウシアンで表現するオブジェクト中心表現を提案する。 GaussianFormerは17.8%から24.8%のメモリ消費しか持たない最先端のメソッドで同等のパフォーマンスを実現している。
論文参考訳（メタデータ） (2024-05-27T17:59:51Z)
GaussianObject: High-Quality 3D Object Reconstruction from Four Views with Gaussian Splatting [82.29476781526752]
高度にスパースな視点から3Dオブジェクトを再構成・レンダリングすることは、3Dビジョン技術の応用を促進する上で非常に重要である。 GaussianObjectは、Gaussian splattingで3Dオブジェクトを表現してレンダリングするフレームワークで、4つの入力イメージだけで高いレンダリング品質を実現する。 GaussianObjectは、MipNeRF360、OmniObject3D、OpenIllumination、および私たちが収集した未提示画像など、いくつかの挑戦的なデータセットで評価されている。
論文参考訳（メタデータ） (2024-02-15T18:42:33Z)
SAGD: Boundary-Enhanced Segment Anything in 3D Gaussian via Gaussian Decomposition [66.80822249039235]
3Dガウススプラッティングは、新しいビュー合成のための代替の3D表現として登場した。 SAGDは3D-GSのための概念的にシンプルで効果的な境界拡張パイプラインである。提案手法は粗い境界問題なく高品質な3Dセグメンテーションを実現し,他のシーン編集作業にも容易に適用できる。
論文参考訳（メタデータ） (2024-01-31T14:19:03Z)
Sparse-view CT Reconstruction with 3D Gaussian Volumetric Representation [13.667470059238607]
Sparse-view CTは従来のCTスキャンの放射線線量を減らすための有望な戦略である。近年、3Dガウスアンは複雑な自然シーンのモデル化に応用されている。スパース・ビューCT再建の可能性について検討した。
論文参考訳（メタデータ） (2023-12-25T09:47:33Z)
Segment Any 3D Gaussians [85.93694310363325]
本稿では, 3次元ガウススプレイティング(3D-GS)に基づく高効率3Dプロンプト可能なセグメンテーション法であるSAGAについて述べる。入力として2D視覚的プロンプトが与えられたとき、SAGAは対応する3Dターゲットを4ミリ秒以内に3Dガウスで表現できる。我々は,SAGAが最先端の手法に匹敵する品質で,リアルタイムな多粒度セグメンテーションを実現することを示す。
論文参考訳（メタデータ） (2023-12-01T17:15:24Z)
Gaussian Grouping: Segment and Edit Anything in 3D Scenes [65.49196142146292]
ガウシアン・グルーピング(ガウシアン・グルーピング)はガウシアン・スプラッティングを拡張して,オープンワールドの3Dシーンで何かを共同で再構築・分割する。暗黙のNeRF表現と比較すると,グループ化された3次元ガウシアンは,高画質,微粒度,高効率で,あらゆるものを3次元で再構成,分割,編集することができる。
論文参考訳（メタデータ） (2023-12-01T17:09:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。