論文の概要: Rethinking End-to-End 2D to 3D Scene Segmentation in Gaussian Splatting
- arxiv url: http://arxiv.org/abs/2503.14029v1
- Date: Tue, 18 Mar 2025 08:42:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-19 14:15:56.408376
- Title: Rethinking End-to-End 2D to 3D Scene Segmentation in Gaussian Splatting
- Title(参考訳): ガウススメッティングにおける2次元から3次元のシーンセグメンテーションの再考
- Authors: Runsong Zhu, Shi Qiu, Zhengzhe Liu, Ka-Hei Hui, Qianyi Wu, Pheng-Ann Heng, Chi-Wing Fu,
- Abstract要約: We design an new end-to-end object-aware lifting approach, called Unified-Lift。
コントラスト損失を用いて学習したガウスレベルの機能を各ガウス点に拡張し、インスタンス情報をエンコードする。
LERF-Masked、Replica、Messy Roomsの3つのベンチマークで実験を行った。
- 参考スコア(独自算出の注目度): 86.15347226865826
- License:
- Abstract: Lifting multi-view 2D instance segmentation to a radiance field has proven to be effective to enhance 3D understanding. Existing methods rely on direct matching for end-to-end lifting, yielding inferior results; or employ a two-stage solution constrained by complex pre- or post-processing. In this work, we design a new end-to-end object-aware lifting approach, named Unified-Lift that provides accurate 3D segmentation based on the 3D Gaussian representation. To start, we augment each Gaussian point with an additional Gaussian-level feature learned using a contrastive loss to encode instance information. Importantly, we introduce a learnable object-level codebook to account for individual objects in the scene for an explicit object-level understanding and associate the encoded object-level features with the Gaussian-level point features for segmentation predictions. While promising, achieving effective codebook learning is non-trivial and a naive solution leads to degraded performance. Therefore, we formulate the association learning module and the noisy label filtering module for effective and robust codebook learning. We conduct experiments on three benchmarks: LERF-Masked, Replica, and Messy Rooms datasets. Both qualitative and quantitative results manifest that our Unified-Lift clearly outperforms existing methods in terms of segmentation quality and time efficiency. The code is publicly available at \href{https://github.com/Runsong123/Unified-Lift}{https://github.com/Runsong123/Unified-Lift}.
- Abstract(参考訳): マルチビュー2Dインスタンスセグメンテーションを放射場にリフティングすることは、3D理解を高めるのに有効であることが証明されている。
既存の手法は、エンドツーエンドのリフトの直接マッチング、劣った結果の獲得、複雑な前処理や後処理に制約された2段階の解の使用に依存している。
本研究では,3次元ガウス表現に基づく高精度な3次元セグメンテーションを提供するUnified-Liftという,エンドツーエンドのオブジェクト認識リフト手法を設計する。
まず、コントラスト損失を用いて学習したガウスレベルの機能を各ガウス点に拡張して、インスタンス情報をエンコードする。
重要なことは、シーン内の個々のオブジェクトを明示的に理解するための学習可能なオブジェクトレベルのコードブックを導入し、コード化されたオブジェクトレベルの特徴とセグメント化予測のためのガウスレベルの点特徴を関連付けることである。
有望ではあるが、効果的なコードブック学習を実現することは簡単ではない。
そこで, 相関学習モジュールと雑音ラベルフィルタリングモジュールを, 有効かつ堅牢なコードブック学習のために定式化する。
LERF-Masked、Replica、Messy Roomsの3つのベンチマークで実験を行った。
定性的かつ定量的な結果は、我々のUnified-Liftが、セグメンテーションの品質と時間効率の点で、既存の手法よりも明らかに優れていることを示している。
コードは \href{https://github.com/Runsong123/Unified-Lift}{https://github.com/Runsong123/Unified-Lift} で公開されている。
関連論文リスト
- Occam's LGS: An Efficient Approach for Language Gaussian Splatting [57.00354758206751]
言語3Dガウススプラッティングのための複雑なパイプラインは、単純に不要であることを示す。
我々は,オッカムのカミソリを手作業に適用し,高効率な重み付き多視点特徴集約技術を実現する。
論文 参考訳(メタデータ) (2024-12-02T18:50:37Z) - Bayesian Self-Training for Semi-Supervised 3D Segmentation [59.544558398992386]
3Dセグメンテーションはコンピュータビジョンの中核的な問題である。
完全に教師されたトレーニングを採用するために、3Dポイントクラウドを密にラベル付けすることは、労働集約的で高価です。
半教師付きトレーニングは、ラベル付きデータの小さなセットのみを付与し、より大きなラベル付きデータセットを伴って、より実用的な代替手段を提供する。
論文 参考訳(メタデータ) (2024-09-12T14:54:31Z) - ShapeSplat: A Large-scale Dataset of Gaussian Splats and Their Self-Supervised Pretraining [104.34751911174196]
ShapeNetとModelNetを用いた大規模3DGSデータセットを構築した。
データセットのShapeSplatは、87のユニークなカテゴリから65Kのオブジェクトで構成されています。
textbftextitGaussian-MAEを導入し、ガウスパラメータからの表現学習の独特な利点を強調した。
論文 参考訳(メタデータ) (2024-08-20T14:49:14Z) - SegVG: Transferring Object Bounding Box to Segmentation for Visual Grounding [56.079013202051094]
ボックスレベルのアノテーションを信号として転送する新しい手法であるSegVGを提案する。
このアプローチでは,ボックスレベルのレグレッションとピクセルレベルのセグメンテーションの両方の信号としてアノテーションを反復的に利用することができる。
論文 参考訳(メタデータ) (2024-07-03T15:30:45Z) - Learning Segmented 3D Gaussians via Efficient Feature Unprojection for Zero-shot Neural Scene Segmentation [16.57158278095853]
ゼロショットニューラルシーンセグメンテーションはシーン理解に有効な方法である。
既存のモデル、特に効率的な3Dガウス法は、コンパクトなセグメンテーションの結果を生み出すのに苦労している。
セグメンテーションフィールドとしてFeature UnprojectionとFusionモジュールを提案する。
本モデルでは,ゼロショットセマンティックセグメンテーションタスクのベースラインを超越し,最良ベースラインよりも10%mIoU向上を図っている。
論文 参考訳(メタデータ) (2024-01-11T14:05:01Z) - Multi-modality Affinity Inference for Weakly Supervised 3D Semantic
Segmentation [47.81638388980828]
本稿では,マルチモーダルポイント親和性推論モジュールを新たに導入した,シンプルで効果的なシーンレベルの弱教師付きポイントクラウドセグメンテーション法を提案する。
ScanNet と S3DIS のベンチマークでは,最先端の ScanNet と S3DIS のベンチマークでは 4% から 6% の mIoU を達成している。
論文 参考訳(メタデータ) (2023-12-27T14:01:35Z) - Open-Set Semi-Supervised Learning for 3D Point Cloud Understanding [62.17020485045456]
半教師付き学習(SSL)では、ラベル付きデータと同じ分布からラベル付きデータが引き出されることが一般的である。
サンプル重み付けによりラベルなしデータを選択的に活用することを提案する。
論文 参考訳(メタデータ) (2022-05-02T16:09:17Z) - VIN: Voxel-based Implicit Network for Joint 3D Object Detection and
Segmentation for Lidars [12.343333815270402]
統合ニューラルネットワーク構造は、ジョイント3Dオブジェクト検出とポイントクラウドセグメンテーションのために提示される。
私たちは、検出ラベルとセグメンテーションラベルの両方からの豊富な監視を活用しています。
論文 参考訳(メタデータ) (2021-07-07T02:16:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。