論文の概要: DCSEG: Decoupled 3D Open-Set Segmentation using Gaussian Splatting
- arxiv url: http://arxiv.org/abs/2412.10972v1
- Date: Sat, 14 Dec 2024 21:26:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-17 15:49:59.921171
- Title: DCSEG: Decoupled 3D Open-Set Segmentation using Gaussian Splatting
- Title(参考訳): DCSEG:ガウススプラッティングによる3次元オープンセットセグメンテーションの分離
- Authors: Luis Wiedmann, Luca Wiehe, David Rozenberszki,
- Abstract要約: オープンセット3Dセグメンテーションは、下流ロボティクスと拡張現実/バーチャルリアリティーアプリケーションにとって大きな関心事である。
本稿では,新しい3次元表現とセマンティックセグメンテーション基盤モデルに対するモジュラリティと適応性を確保するために,分離された3次元セグメンテーションパイプラインを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Open-set 3D segmentation represents a major point of interest for multiple downstream robotics and augmented/virtual reality applications. Recent advances introduce 3D Gaussian Splatting as a computationally efficient representation of the underlying scene. They enable the rendering of novel views while achieving real-time display rates and matching the quality of computationally far more expensive methods. We present a decoupled 3D segmentation pipeline to ensure modularity and adaptability to novel 3D representations and semantic segmentation foundation models. The pipeline proposes class-agnostic masks based on a 3D reconstruction of the scene. Given the resulting class-agnostic masks, we use a class-aware 2D foundation model to add class annotations to the 3D masks. We test this pipeline with 3D Gaussian Splatting and different 2D segmentation models and achieve better performance than more tailored approaches while also significantly increasing the modularity.
- Abstract(参考訳): オープンセット3Dセグメンテーションは、複数の下流ロボティクスと拡張現実/バーチャルリアリティーアプリケーションにとって大きな関心事である。
最近の進歩は、基礎となるシーンの計算的に効率的な表現として、3Dガウススプラッティングを導入している。
リアルタイム表示率を達成しつつ、新しいビューのレンダリングを可能にし、計算上はるかに高価な手法の品質に適合する。
本稿では,新しい3次元表現とセマンティックセグメンテーション基盤モデルに対するモジュラリティと適応性を確保するために,分離された3次元セグメンテーションパイプラインを提案する。
パイプラインは、シーンの3D再構成に基づいて、クラスに依存しないマスクを提案する。
その結果,クラスに依存しない2Dファウンデーションモデルを用いて,クラスアノテーションを3Dマスクに追加する。
このパイプラインを3次元ガウス分割モデルと異なる2次元分割モデルでテストし、より調整されたアプローチよりも優れた性能を実現するとともに、モジュール性を大幅に向上させる。
関連論文リスト
- Bootstraping Clustering of Gaussians for View-consistent 3D Scene Understanding [59.51535163599723]
FreeGSは、教師なしセマンティック組み込み3DGSフレームワークで、2Dラベルを必要とせずに、ビュー一貫性のある3Dシーン理解を実現する。
我々は、FreeGSが複雑なデータ前処理作業の負荷を回避しつつ、最先端のメソッドと互換性があることを示す。
論文 参考訳(メタデータ) (2024-11-29T08:52:32Z) - XMask3D: Cross-modal Mask Reasoning for Open Vocabulary 3D Semantic Segmentation [72.12250272218792]
本稿では,3次元特徴量と2次元テキスト埋め込み空間とのより精巧なマスクレベルのアライメントを,クロスモーダルマスク推論フレームワークであるXMask3Dを用いて提案する。
我々は、3Dグローバルな特徴を暗黙の条件として、事前訓練された2D denoising UNetに統合し、セグメンテーションマスクの生成を可能にする。
生成した2Dマスクを用いて、マスクレベルの3D表現を視覚言語の特徴空間と整合させ、3D幾何埋め込みの開語彙能力を増大させる。
論文 参考訳(メタデータ) (2024-11-20T12:02:12Z) - Zero-Shot Dual-Path Integration Framework for Open-Vocabulary 3D Instance Segmentation [19.2297264550686]
Open-vocabulary 3Dのインスタンスセグメンテーションは、従来のクローズドボキャブラリーメソッドを超越する。
我々は、Zero-Shot Dual-Path Integration Frameworkを導入し、3Dと2Dの両方のモダリティの貢献を等しく評価する。
筆者らのフレームワークは,ゼロショット方式で事前学習したモデルを利用しており,モデル非依存であり,目に見えるデータと目に見えないデータの両方において優れた性能を示す。
論文 参考訳(メタデータ) (2024-08-16T07:52:00Z) - 3x2: 3D Object Part Segmentation by 2D Semantic Correspondences [33.99493183183571]
本稿では,いくつかのアノテーション付き3D形状やリッチアノテーション付き2Dデータセットを活用して3Dオブジェクト部分のセグメンテーションを実現することを提案する。
我々は,様々な粒度レベルのベンチマークでSOTA性能を実現する3-By-2という新しい手法を提案する。
論文 参考訳(メタデータ) (2024-07-12T19:08:00Z) - Reasoning3D -- Grounding and Reasoning in 3D: Fine-Grained Zero-Shot Open-Vocabulary 3D Reasoning Part Segmentation via Large Vision-Language Models [20.277479473218513]
オブジェクトの検索とローカライズのためのZero-Shot 3D Reasoningを提案する。
複雑なコマンドを理解し実行するためのシンプルなベースラインメソッドReasoning3Dを設計する。
Reasoning3Dは、暗黙のテキストクエリに基づいて、3Dオブジェクトの一部を効果的にローカライズし、ハイライトすることができることを示す。
論文 参考訳(メタデータ) (2024-05-29T17:56:07Z) - Semantic Gaussians: Open-Vocabulary Scene Understanding with 3D Gaussian Splatting [27.974762304763694]
セマンティック・ガウシアン(Semantic Gaussians)は,3次元ガウシアン・スプレイティングをベースとした,新しいオープン語彙シーン理解手法である。
既存の手法とは異なり、様々な2次元意味的特徴を3次元ガウスの新たな意味的構成要素にマッピングする多目的投影手法を設計する。
我々は,高速な推論のために,生の3Dガウスから意味成分を直接予測する3Dセマンティックネットワークを構築した。
論文 参考訳(メタデータ) (2024-03-22T21:28:19Z) - Segment3D: Learning Fine-Grained Class-Agnostic 3D Segmentation without
Manual Labels [141.23836433191624]
現在の3Dシーンセグメンテーション手法は、手動で注釈付けされた3Dトレーニングデータセットに大きく依存している。
高品質な3Dセグメンテーションマスクを生成するクラス非依存の3Dシーンセグメンテーション法であるSegment3Dを提案する。
論文 参考訳(メタデータ) (2023-12-28T18:57:11Z) - 2D-Guided 3D Gaussian Segmentation [15.139488857163064]
本稿では2次元分節を監督として実装した3次元ガウス分節法を提案する。
このアプローチでは、入力2次元セグメンテーションマップを使用して、付加された3次元ガウス意味情報の学習を誘導する。
実験により,マルチオブジェクトセグメンテーションにおいて,mIOUとmAccに匹敵する性能が得られた。
論文 参考訳(メタデータ) (2023-12-26T13:28:21Z) - SAM-guided Graph Cut for 3D Instance Segmentation [60.75119991853605]
本稿では,3次元画像情報と多視点画像情報の同時利用による3次元インスタンス分割の課題に対処する。
本稿では,3次元インスタンスセグメンテーションのための2次元セグメンテーションモデルを効果的に活用する新しい3D-to-2Dクエリフレームワークを提案する。
本手法は,ロバストなセグメンテーション性能を実現し,異なるタイプのシーンにまたがる一般化を実現する。
論文 参考訳(メタデータ) (2023-12-13T18:59:58Z) - Segment Any 3D Gaussians [85.93694310363325]
本稿では, 3次元ガウススプレイティング(3D-GS)に基づく高効率3Dプロンプト可能なセグメンテーション法であるSAGAについて述べる。
入力として2D視覚的プロンプトが与えられたとき、SAGAは対応する3Dターゲットを4ミリ秒以内に3Dガウスで表現できる。
我々は,SAGAが最先端の手法に匹敵する品質で,リアルタイムな多粒度セグメンテーションを実現することを示す。
論文 参考訳(メタデータ) (2023-12-01T17:15:24Z) - MvDeCor: Multi-view Dense Correspondence Learning for Fine-grained 3D
Segmentation [91.6658845016214]
そこで本研究では,2次元領域における自己教師型手法を,微細な3次元形状分割作業に活用することを提案する。
複数のビューから3次元形状を描画し、コントラスト学習フレームワーク内に密接な対応学習タスクを設置する。
その結果、学習された2次元表現はビュー不変であり、幾何学的に一貫性がある。
論文 参考訳(メタデータ) (2022-08-18T00:48:15Z) - Semi-supervised 3D shape segmentation with multilevel consistency and
part substitution [21.075426681857024]
本稿では,ラベル付3次元形状とラベル付3次元データの量から3次元分割を効果的に学習するための半教師付き手法を提案する。
ラベルのないデータに対して,3次元形状の摂動コピー間のネットワーク予測の整合性を確保するために,新しい多レベル整合性損失を提案する。
ラベル付きデータに対して,より構造的な変化を伴ってラベル付き3次元形状を増強し,トレーニングを強化するシンプルな部分置換法を開発した。
論文 参考訳(メタデータ) (2022-04-19T11:48:24Z) - ICM-3D: Instantiated Category Modeling for 3D Instance Segmentation [19.575077449759377]
Instaniated categorization を用いて3Dインスタンスを分割するシングルステップ手法 ICM-3D を提案する。
我々は、ICM-3Dの有効性を検証するための広範な実験を行い、複数のフレームワーク、バックボーン、ベンチマークにまたがるインスピレーションされた性能が得られることを示す。
論文 参考訳(メタデータ) (2021-08-26T13:08:37Z) - Multi-Modality Task Cascade for 3D Object Detection [22.131228757850373]
多くの手法は2つのモデルを個別に訓練し、単純な特徴結合を用いて3Dセンサーデータを表現している。
本稿では,3次元ボックスの提案を利用して2次元セグメンテーション予測を改善する新しいマルチモードタスクカスケードネットワーク(MTC-RCNN)を提案する。
2段階の3次元モジュール間の2次元ネットワークを組み込むことで,2次元および3次元のタスク性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2021-07-08T17:55:01Z) - A Convolutional Architecture for 3D Model Embedding [1.3858051019755282]
入力として3Dモデルを扱うディープラーニングアーキテクチャを提案する。
埋め込み表現は3Dオブジェクトの類似性評価を扱うのに役立つセマンティック情報を伝えることを示した。
論文 参考訳(メタデータ) (2021-03-05T15:46:47Z) - Cylinder3D: An Effective 3D Framework for Driving-scene LiDAR Semantic
Segmentation [87.54570024320354]
大規模運転シーンのLiDARセマンティックセマンティックセグメンテーションのための最先端の手法は、しばしば2D空間の点雲を投影して処理する。
3D-to-2Dプロジェクションの問題に取り組むための簡単な解決策は、3D表現を保ち、3D空間の点を処理することである。
我々は3次元シリンダー分割と3次元シリンダー畳み込みに基づくフレームワークをCylinder3Dとして開発し,3次元トポロジの関係と運転シーンの点雲の構造を利用する。
論文 参考訳(メタデータ) (2020-08-04T13:56:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。