論文の概要: DCSEG: Decoupled 3D Open-Set Segmentation using Gaussian Splatting
- arxiv url: http://arxiv.org/abs/2412.10972v2
- Date: Tue, 08 Apr 2025 22:38:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-10 16:25:04.085247
- Title: DCSEG: Decoupled 3D Open-Set Segmentation using Gaussian Splatting
- Title(参考訳): DCSEG:ガウススプラッティングによる3次元オープンセットセグメンテーションの分離
- Authors: Luis Wiedmann, Luca Wiehe, David Rozenberszki,
- Abstract要約: 本稿では,新しい3次元表現へのモジュラリティと適応性を確保するために,分離した3次元分割パイプラインを提案する。
我々は、合成および実世界の屋内データセットを評価し、同等のNeRFパイプラインよりも優れた性能を示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Open-set 3D segmentation represents a major point of interest for multiple downstream robotics and augmented/virtual reality applications. We present a decoupled 3D segmentation pipeline to ensure modularity and adaptability to novel 3D representations as well as semantic segmentation foundation models. We first reconstruct a scene with 3D Gaussians and learn class-agnostic features through contrastive supervision from a 2D instance proposal network. These 3D features are then clustered to form coarse object- or part-level masks. Finally, we match each 3D cluster to class-aware masks predicted by a 2D open-vocabulary segmentation model, assigning semantic labels without retraining the 3D representation. Our decoupled design (1) provides a plug-and-play interface for swapping different 2D or 3D modules, (2) ensures multi-object instance segmentation at no extra cost, and (3) leverages rich 3D geometry for robust scene understanding. We evaluate on synthetic and real-world indoor datasets, demonstrating improved performance over comparable NeRF-based pipelines on mIoU and mAcc, particularly for challenging or long-tail classes. We also show how varying the 2D backbone affects the final segmentation, highlighting the modularity of our framework. These results confirm that decoupling 3D mask proposal and semantic classification can deliver flexible, efficient, and open-vocabulary 3D segmentation.
- Abstract(参考訳): オープンセット3Dセグメンテーションは、複数の下流ロボティクスと拡張現実/バーチャルリアリティーアプリケーションにとって大きな関心事である。
本稿では,新しい3次元表現と意味的セグメンテーション基盤モデルに対するモジュラリティと適応性を確保するために,分離された3次元セグメンテーションパイプラインを提案する。
まず3Dガウシアンでシーンを再構築し、2Dインスタンスの提案ネットワークからコントラスト的な監督を通してクラスに依存しない特徴を学習する。
これらの3D機能は、粗いオブジェクトまたは部分レベルのマスクを形成するためにクラスタ化される。
最後に,各3次元クラスタを2次元オープン語彙セグメンテーションモデルにより予測されたクラス認識マスクにマッチングし,セマンティックラベルを3次元表現を再トレーニングせずに割り当てる。
分離されたデザイン(1)は、異なる2Dモジュールや3Dモジュールを交換するためのプラグアンドプレイインタフェースを提供し、(2)余分なコストで複数オブジェクトのインスタンスセグメンテーションを保証し、(3)リッチな3D形状を利用してシーン理解を行う。
我々は,mIoU および mAcc 上での NeRF ベースのパイプラインよりも優れた性能を示し,特に挑戦的・長期的クラスを対象として,合成および実世界の屋内データセットを評価した。
また、2Dバックボーンの変化が最終セグメンテーションにどのように影響するかを示し、フレームワークのモジュラリティを強調します。
これらの結果から、3Dマスクの提案と意味分類を分離することで、柔軟で効率的でオープンな3Dセグメンテーションが可能になることが確認された。
関連論文リスト
- Bootstraping Clustering of Gaussians for View-consistent 3D Scene Understanding [59.51535163599723]
FreeGSは、教師なしセマンティック組み込み3DGSフレームワークで、2Dラベルを必要とせずに、ビュー一貫性のある3Dシーン理解を実現する。
我々は、FreeGSが複雑なデータ前処理作業の負荷を回避しつつ、最先端のメソッドと互換性があることを示す。
論文 参考訳(メタデータ) (2024-11-29T08:52:32Z) - XMask3D: Cross-modal Mask Reasoning for Open Vocabulary 3D Semantic Segmentation [72.12250272218792]
本稿では,3次元特徴量と2次元テキスト埋め込み空間とのより精巧なマスクレベルのアライメントを,クロスモーダルマスク推論フレームワークであるXMask3Dを用いて提案する。
我々は、3Dグローバルな特徴を暗黙の条件として、事前訓練された2D denoising UNetに統合し、セグメンテーションマスクの生成を可能にする。
生成した2Dマスクを用いて、マスクレベルの3D表現を視覚言語の特徴空間と整合させ、3D幾何埋め込みの開語彙能力を増大させる。
論文 参考訳(メタデータ) (2024-11-20T12:02:12Z) - Zero-Shot Dual-Path Integration Framework for Open-Vocabulary 3D Instance Segmentation [19.2297264550686]
Open-vocabulary 3Dのインスタンスセグメンテーションは、従来のクローズドボキャブラリーメソッドを超越する。
我々は、Zero-Shot Dual-Path Integration Frameworkを導入し、3Dと2Dの両方のモダリティの貢献を等しく評価する。
筆者らのフレームワークは,ゼロショット方式で事前学習したモデルを利用しており,モデル非依存であり,目に見えるデータと目に見えないデータの両方において優れた性能を示す。
論文 参考訳(メタデータ) (2024-08-16T07:52:00Z) - 3x2: 3D Object Part Segmentation by 2D Semantic Correspondences [33.99493183183571]
本稿では,いくつかのアノテーション付き3D形状やリッチアノテーション付き2Dデータセットを活用して3Dオブジェクト部分のセグメンテーションを実現することを提案する。
我々は,様々な粒度レベルのベンチマークでSOTA性能を実現する3-By-2という新しい手法を提案する。
論文 参考訳(メタデータ) (2024-07-12T19:08:00Z) - Reasoning3D -- Grounding and Reasoning in 3D: Fine-Grained Zero-Shot Open-Vocabulary 3D Reasoning Part Segmentation via Large Vision-Language Models [20.277479473218513]
オブジェクトの検索とローカライズのためのZero-Shot 3D Reasoningを提案する。
複雑なコマンドを理解し実行するためのシンプルなベースラインメソッドReasoning3Dを設計する。
Reasoning3Dは、暗黙のテキストクエリに基づいて、3Dオブジェクトの一部を効果的にローカライズし、ハイライトすることができることを示す。
論文 参考訳(メタデータ) (2024-05-29T17:56:07Z) - Semantic Gaussians: Open-Vocabulary Scene Understanding with 3D Gaussian Splatting [27.974762304763694]
セマンティック・ガウシアン(Semantic Gaussians)は,3次元ガウシアン・スプレイティングをベースとした,新しいオープン語彙シーン理解手法である。
既存の手法とは異なり、様々な2次元意味的特徴を3次元ガウスの新たな意味的構成要素にマッピングする多目的投影手法を設計する。
我々は,高速な推論のために,生の3Dガウスから意味成分を直接予測する3Dセマンティックネットワークを構築した。
論文 参考訳(メタデータ) (2024-03-22T21:28:19Z) - Segment3D: Learning Fine-Grained Class-Agnostic 3D Segmentation without
Manual Labels [141.23836433191624]
現在の3Dシーンセグメンテーション手法は、手動で注釈付けされた3Dトレーニングデータセットに大きく依存している。
高品質な3Dセグメンテーションマスクを生成するクラス非依存の3Dシーンセグメンテーション法であるSegment3Dを提案する。
論文 参考訳(メタデータ) (2023-12-28T18:57:11Z) - 2D-Guided 3D Gaussian Segmentation [15.139488857163064]
本稿では2次元分節を監督として実装した3次元ガウス分節法を提案する。
このアプローチでは、入力2次元セグメンテーションマップを使用して、付加された3次元ガウス意味情報の学習を誘導する。
実験により,マルチオブジェクトセグメンテーションにおいて,mIOUとmAccに匹敵する性能が得られた。
論文 参考訳(メタデータ) (2023-12-26T13:28:21Z) - SAM-guided Graph Cut for 3D Instance Segmentation [60.75119991853605]
本稿では,3次元画像情報と多視点画像情報の同時利用による3次元インスタンス分割の課題に対処する。
本稿では,3次元インスタンスセグメンテーションのための2次元セグメンテーションモデルを効果的に活用する新しい3D-to-2Dクエリフレームワークを提案する。
本手法は,ロバストなセグメンテーション性能を実現し,異なるタイプのシーンにまたがる一般化を実現する。
論文 参考訳(メタデータ) (2023-12-13T18:59:58Z) - Segment Any 3D Gaussians [85.93694310363325]
本稿では, 3次元ガウススプレイティング(3D-GS)に基づく高効率3Dプロンプト可能なセグメンテーション法であるSAGAについて述べる。
入力として2D視覚的プロンプトが与えられたとき、SAGAは対応する3Dターゲットを4ミリ秒以内に3Dガウスで表現できる。
我々は,SAGAが最先端の手法に匹敵する品質で,リアルタイムな多粒度セグメンテーションを実現することを示す。
論文 参考訳(メタデータ) (2023-12-01T17:15:24Z) - MvDeCor: Multi-view Dense Correspondence Learning for Fine-grained 3D
Segmentation [91.6658845016214]
そこで本研究では,2次元領域における自己教師型手法を,微細な3次元形状分割作業に活用することを提案する。
複数のビューから3次元形状を描画し、コントラスト学習フレームワーク内に密接な対応学習タスクを設置する。
その結果、学習された2次元表現はビュー不変であり、幾何学的に一貫性がある。
論文 参考訳(メタデータ) (2022-08-18T00:48:15Z) - Semi-supervised 3D shape segmentation with multilevel consistency and
part substitution [21.075426681857024]
本稿では,ラベル付3次元形状とラベル付3次元データの量から3次元分割を効果的に学習するための半教師付き手法を提案する。
ラベルのないデータに対して,3次元形状の摂動コピー間のネットワーク予測の整合性を確保するために,新しい多レベル整合性損失を提案する。
ラベル付きデータに対して,より構造的な変化を伴ってラベル付き3次元形状を増強し,トレーニングを強化するシンプルな部分置換法を開発した。
論文 参考訳(メタデータ) (2022-04-19T11:48:24Z) - ICM-3D: Instantiated Category Modeling for 3D Instance Segmentation [19.575077449759377]
Instaniated categorization を用いて3Dインスタンスを分割するシングルステップ手法 ICM-3D を提案する。
我々は、ICM-3Dの有効性を検証するための広範な実験を行い、複数のフレームワーク、バックボーン、ベンチマークにまたがるインスピレーションされた性能が得られることを示す。
論文 参考訳(メタデータ) (2021-08-26T13:08:37Z) - Multi-Modality Task Cascade for 3D Object Detection [22.131228757850373]
多くの手法は2つのモデルを個別に訓練し、単純な特徴結合を用いて3Dセンサーデータを表現している。
本稿では,3次元ボックスの提案を利用して2次元セグメンテーション予測を改善する新しいマルチモードタスクカスケードネットワーク(MTC-RCNN)を提案する。
2段階の3次元モジュール間の2次元ネットワークを組み込むことで,2次元および3次元のタスク性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2021-07-08T17:55:01Z) - A Convolutional Architecture for 3D Model Embedding [1.3858051019755282]
入力として3Dモデルを扱うディープラーニングアーキテクチャを提案する。
埋め込み表現は3Dオブジェクトの類似性評価を扱うのに役立つセマンティック情報を伝えることを示した。
論文 参考訳(メタデータ) (2021-03-05T15:46:47Z) - Cylinder3D: An Effective 3D Framework for Driving-scene LiDAR Semantic
Segmentation [87.54570024320354]
大規模運転シーンのLiDARセマンティックセマンティックセグメンテーションのための最先端の手法は、しばしば2D空間の点雲を投影して処理する。
3D-to-2Dプロジェクションの問題に取り組むための簡単な解決策は、3D表現を保ち、3D空間の点を処理することである。
我々は3次元シリンダー分割と3次元シリンダー畳み込みに基づくフレームワークをCylinder3Dとして開発し,3次元トポロジの関係と運転シーンの点雲の構造を利用する。
論文 参考訳(メタデータ) (2020-08-04T13:56:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。