論文の概要: Cues3D: Unleashing the Power of Sole NeRF for Consistent and Unique Instances in Open-Vocabulary 3D Panoptic Segmentation
- arxiv url: http://arxiv.org/abs/2505.00378v1
- Date: Thu, 01 May 2025 08:12:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:55.264629
- Title: Cues3D: Unleashing the Power of Sole NeRF for Consistent and Unique Instances in Open-Vocabulary 3D Panoptic Segmentation
- Title(参考訳): Cues3D: オープンVocabulary 3Dパノプティックセグメンテーションにおける一貫性および特異なインスタンスに対するソレNeRFのパワーの解放
- Authors: Feng Xue, Wenzhuang Xu, Guofeng Zhong, Anlong Minga, Nicu Sebe,
- Abstract要約: Open-vocabulary 3D panoptic segmentationは、最近重要なトレンドとして現れている。
先行連想の代わりにNeural Radiance Field(NeRF)のみに依存するコンパクトなアプローチであるCues3Dを提案する。
ScanNet v2、ScanNet200、ScanNet++、Replicaの3Dインスタンス、パノプティクス、セマンティックセグメンテーションタスクを対象に実験を行った。
- 参考スコア(独自算出の注目度): 48.231573110948
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Open-vocabulary 3D panoptic segmentation has recently emerged as a significant trend. Top-performing methods currently integrate 2D segmentation with geometry-aware 3D primitives. However, the advantage would be lost without high-fidelity 3D point clouds, such as methods based on Neural Radiance Field (NeRF). These methods are limited by the insufficient capacity to maintain consistency across partial observations. To address this, recent works have utilized contrastive loss or cross-view association pre-processing for view consensus. In contrast to them, we present Cues3D, a compact approach that relies solely on NeRF instead of pre-associations. The core idea is that NeRF's implicit 3D field inherently establishes a globally consistent geometry, enabling effective object distinction without explicit cross-view supervision. We propose a three-phase training framework for NeRF, initialization-disambiguation-refinement, whereby the instance IDs are corrected using the initially-learned knowledge. Additionally, an instance disambiguation method is proposed to match NeRF-rendered 3D masks and ensure globally unique 3D instance identities. With the aid of Cues3D, we obtain highly consistent and unique 3D instance ID for each object across views with a balanced version of NeRF. Our experiments are conducted on ScanNet v2, ScanNet200, ScanNet++, and Replica datasets for 3D instance, panoptic, and semantic segmentation tasks. Cues3D outperforms other 2D image-based methods and competes with the latest 2D-3D merging based methods, while even surpassing them when using additional 3D point clouds. The code link could be found in the appendix and will be released on \href{https://github.com/mRobotit/Cues3D}{github}
- Abstract(参考訳): Open-vocabulary 3D panoptic segmentationは、最近重要なトレンドとして現れている。
現在、2Dセグメンテーションを幾何学的3Dプリミティブと統合している。
しかし、Neural Radiance Field (NeRF) に基づく手法のような高忠実度3D点雲がなければ、利点は失われる。
これらの手法は、部分的な観測における一貫性を維持するのに不十分な能力によって制限される。
これを解決するために、近年の研究では、コンセンサスに対するコンセンサスに対するコントラスト損失やクロスビューアソシエーション前処理を活用している。
それらとは対照的に、先行連想の代わりにNeRFのみに依存するコンパクトなアプローチであるCues3Dを提案する。
中心となる考え方は、NeRFの暗黙の3Dフィールドが本質的にグローバルに一貫した幾何学を確立し、明示的なクロスビューの監督なしに効果的なオブジェクトの区別を可能にすることである。
本研究では,NeRFの初期化と曖昧化を両立させる3段階学習フレームワークを提案し,初期学習知識を用いてインスタンスIDを補正する。
さらに,NeRF-Rendered 3Dマスクにマッチし,グローバルにユニークな3Dインスタンスの同一性を確保するために,インスタンスの曖昧さの手法を提案する。
Cues3Dの助けを借りて、NeRFのバランスの取れたバージョンで、各オブジェクトに対して高度に一貫したユニークな3DインスタンスIDを得る。
ScanNet v2、ScanNet200、ScanNet++、Replicaの3Dインスタンス、パノプティクス、セマンティックセグメンテーションタスクを対象に実験を行った。
Cues3Dは、他の2D画像ベースの手法よりも優れており、最新の2D-3Dマージベースの手法と競合する。
コードリンクは付録で見つけることができ、 \href{https://github.com/mRobotit/Cues3D}{github} でリリースされる。
関連論文リスト
- NeuraLoc: Visual Localization in Neural Implicit Map with Dual Complementary Features [50.212836834889146]
本稿では,補完的な特徴を持つニューラル暗黙マップに基づく,効率的で斬新な視覚的局所化手法を提案する。
具体的には、幾何学的制約を強制し、ストレージ要件を小さくするために、3Dキーポイント記述子フィールドを暗黙的に学習する。
記述子の意味的あいまいさにさらに対処するために、追加の意味的文脈的特徴体を導入する。
論文 参考訳(メタデータ) (2025-03-08T08:04:27Z) - DCSEG: Decoupled 3D Open-Set Segmentation using Gaussian Splatting [0.0]
本稿では,新しい3次元表現へのモジュラリティと適応性を確保するために,分離した3次元分割パイプラインを提案する。
我々は、合成および実世界の屋内データセットを評価し、同等のNeRFパイプラインよりも優れた性能を示す。
論文 参考訳(メタデータ) (2024-12-14T21:26:44Z) - OpenGaussian: Towards Point-Level 3D Gaussian-based Open Vocabulary Understanding [54.981605111365056]
本稿では,3次元点レベルの開語彙理解が可能な3次元ガウススティング(3DGS)に基づくOpenGaussianを紹介する。
我々の主な動機は、既存の3DGSベースのオープン語彙法が主に2Dピクセルレベルの解析に焦点を当てていることに起因している。
論文 参考訳(メタデータ) (2024-06-04T07:42:33Z) - Free3D: Consistent Novel View Synthesis without 3D Representation [63.931920010054064]
Free3Dは単分子開集合新規ビュー合成(NVS)の簡易的高精度な方法である
同様のアプローチを採った他の作品と比較して,明快な3D表現に頼らずに大幅な改善が得られた。
論文 参考訳(メタデータ) (2023-12-07T18:59:18Z) - Points-to-3D: Bridging the Gap between Sparse Points and
Shape-Controllable Text-to-3D Generation [16.232803881159022]
本稿では,スパースで自由な3Dポイントとリアルな形状制御可能な3D生成とのギャップを埋めるために,Points-to-3Dのフレキシブルなフレームワークを提案する。
Points-to-3Dの基本的な考え方は、テキストから3D生成を導くために制御可能なスパース3Dポイントを導入することである。
論文 参考訳(メタデータ) (2023-07-26T02:16:55Z) - Asymmetric 3D Context Fusion for Universal Lesion Detection [55.61873234187917]
3Dネットワークは、3Dコンテキストでは強いが、教師付き事前トレーニングがない。
既存の3Dコンテキスト融合演算子は空間対称に設計されており、畳み込みのように各2Dスライス上で同一の操作を行う。
本研究では, 異なる重みを持つ非対称な3次元コンテキスト融合演算子 (A3D) を提案し, 異なる2次元スライスから3次元コンテキストを融合させる。
論文 参考訳(メタデータ) (2021-09-17T16:25:10Z) - Cylindrical and Asymmetrical 3D Convolution Networks for LiDAR-based
Perception [122.53774221136193]
運転時のLiDARに基づく認識のための最先端の手法は、しばしば点雲を2D空間に投影し、2D畳み込みによって処理する。
自然な対策として、3Dボクセル化と3D畳み込みネットワークを利用する方法がある。
本研究では,3次元幾何学的パターンを探索するために,円筒状分割と非対称な3次元畳み込みネットワークを設計する,屋外LiDARセグメンテーションのための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-12T06:25:11Z) - Multi-Modality Task Cascade for 3D Object Detection [22.131228757850373]
多くの手法は2つのモデルを個別に訓練し、単純な特徴結合を用いて3Dセンサーデータを表現している。
本稿では,3次元ボックスの提案を利用して2次元セグメンテーション予測を改善する新しいマルチモードタスクカスケードネットワーク(MTC-RCNN)を提案する。
2段階の3次元モジュール間の2次元ネットワークを組み込むことで,2次元および3次元のタスク性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2021-07-08T17:55:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。