論文の概要: SPNeRF: Open Vocabulary 3D Neural Scene Segmentation with Superpoints
- arxiv url: http://arxiv.org/abs/2503.15712v1
- Date: Wed, 19 Mar 2025 21:45:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-21 16:34:16.515351
- Title: SPNeRF: Open Vocabulary 3D Neural Scene Segmentation with Superpoints
- Title(参考訳): SPNeRF: スーパーポイント付きオープンボキャブラリ3次元ニューラルシーンセグメンテーション
- Authors: Weiwen Hu, Niccolò Parodi, Marcus Zepp, Ingo Feldmann, Oliver Schreer, Peter Eisert,
- Abstract要約: 幾何学的先行性を利用するゼロショット3Dセグメンテーション手法であるSPNeRFを導入する。
親和性スコアが強化されたプリミティブベースマージ機構を提案する。
- 参考スコア(独自算出の注目度): 4.048112693621376
- License:
- Abstract: Open-vocabulary segmentation, powered by large visual-language models like CLIP, has expanded 2D segmentation capabilities beyond fixed classes predefined by the dataset, enabling zero-shot understanding across diverse scenes. Extending these capabilities to 3D segmentation introduces challenges, as CLIP's image-based embeddings often lack the geometric detail necessary for 3D scene segmentation. Recent methods tend to address this by introducing additional segmentation models or replacing CLIP with variations trained on segmentation data, which lead to redundancy or loss on CLIP's general language capabilities. To overcome this limitation, we introduce SPNeRF, a NeRF based zero-shot 3D segmentation approach that leverages geometric priors. We integrate geometric primitives derived from the 3D scene into NeRF training to produce primitive-wise CLIP features, avoiding the ambiguity of point-wise features. Additionally, we propose a primitive-based merging mechanism enhanced with affinity scores. Without relying on additional segmentation models, our method further explores CLIP's capability for 3D segmentation and achieves notable improvements over original LERF.
- Abstract(参考訳): CLIPのような大きなビジュアル言語モデルを活用したオープンボキャブラリセグメンテーションは、データセットによって事前に定義された固定クラスを超えて2Dセグメンテーション機能を拡張し、多様なシーンでゼロショット理解を可能にした。
これらの機能を3Dセグメンテーションに拡張することは、CLIPのイメージベースの埋め込みが3Dシーンセグメンテーションに必要な幾何学的な詳細を欠いているため、課題を引き起こす。
最近の手法では、追加のセグメンテーションモデルを導入するか、あるいはセグメンテーションデータに基づいてトレーニングされたバリエーションでCLIPを置き換えることでこの問題に対処する傾向にある。
この制限を克服するために、幾何的先行性を利用するNeRFベースのゼロショット3Dセグメンテーション手法であるSPNeRFを導入する。
3Dシーンから派生した幾何学的プリミティブをNeRFトレーニングに統合し、プリミティブワイドCLIP特徴を生成し、ポイントワイド特徴の曖昧さを回避する。
さらに,親和性スコアが強化されたプリミティブベースマージ機構を提案する。
新たなセグメンテーションモデルに頼ることなく,CLIPの3次元セグメンテーション能力をさらに探求し,元のLERFよりも顕著に改善した。
関連論文リスト
- 3D Part Segmentation via Geometric Aggregation of 2D Visual Features [57.20161517451834]
監督された3D部分分割モデルは、固定されたオブジェクトと部品のセットに合わせて調整されており、それらの転送可能性は、オープンセットの現実世界のシナリオに制限される。
近年、視覚言語モデル(VLM)を多視点レンダリングとテキストプロンプトを用いてオブジェクト部品の識別に活用する研究が進められている。
これらの制約に対処するために,視覚概念から抽出した意味論と3次元幾何学をブレンドし,対象部品を効果的に同定するCOPSを提案する。
論文 参考訳(メタデータ) (2024-12-05T15:27:58Z) - SA3DIP: Segment Any 3D Instance with Potential 3D Priors [41.907914881608995]
本稿では,SA3DIPを提案する。SA3DIPは,任意の3Dインスタンスを,潜在的3Dプライオリティを利用してセグメント化するための新しい手法である。
具体的には,幾何学的およびテクスチャ的先行性の両方に基づいて,相補的な3Dプリミティブを生成する。
一方,3次元検出器を用いて3次元空間からの補足制約を導入し,さらなるマージプロセスの導出を行う。
論文 参考訳(メタデータ) (2024-11-06T10:39:00Z) - SegPoint: Segment Any Point Cloud via Large Language Model [62.69797122055389]
我々は,多種多様なタスクにまたがるポイントワイドセグメンテーションマスクを生成するSegPointと呼ばれるモデルを提案する。
SegPointは、単一のフレームワーク内でさまざまなセグメンテーションタスクに対処する最初のモデルである。
論文 参考訳(メタデータ) (2024-07-18T17:58:03Z) - OpenNeRF: Open Set 3D Neural Scene Segmentation with Pixel-Wise Features and Rendered Novel Views [90.71215823587875]
提案するOpenNeRFは,ポーズ画像上で自然に動作し,NeRF内のVLM機能を直接符号化する。
我々の研究は、ピクセルワイドVLM機能を用いることで、DINO正規化を必要とせずに、全体的なアーキテクチャがより複雑になることを示している。
Replicaデータセット上の3Dポイントクラウドセグメンテーションでは、OpenNeRFはLERFやOpenSceneといった最近のオープン語彙法を少なくとも4.9 mIoUで上回っている。
論文 参考訳(メタデータ) (2024-04-04T17:59:08Z) - 3D Open-Vocabulary Panoptic Segmentation with 2D-3D Vision-Language Distillation [40.49322398635262]
本稿では,3次元オープンボキャブラリパノプタセグメンテーションのための最初の手法を提案する。
我々のモデルは、学習可能なLiDAR機能と密集した凍結視覚CLIP機能との融合を利用する。
本稿では,オブジェクトレベルの蒸留損失とボクセルレベルの蒸留損失の2つの新しい損失関数を提案する。
論文 参考訳(メタデータ) (2024-01-04T18:39:32Z) - SAI3D: Segment Any Instance in 3D Scenes [68.57002591841034]
新規なゼロショット3Dインスタンスセグメンテーション手法であるSAI3Dを紹介する。
我々の手法は3Dシーンを幾何学的プリミティブに分割し、段階的に3Dインスタンスセグメンテーションにマージする。
ScanNet、Matterport3D、さらに難しいScanNet++データセットに関する実証的な評価は、我々のアプローチの優位性を示している。
論文 参考訳(メタデータ) (2023-12-17T09:05:47Z) - PartSLIP++: Enhancing Low-Shot 3D Part Segmentation via Multi-View
Instance Segmentation and Maximum Likelihood Estimation [32.2861030554128]
最近の進歩であるPartSLIPは、ゼロと少数ショットの3D部分セグメンテーションにおいて大きな進歩を遂げている。
先代の制限を克服するために設計された拡張バージョンであるPartSLIP++を紹介する。
ローショットな3Dセマンティクスとインスタンスベースのオブジェクト部分分割タスクの両方において、PartSLIP++はPartSLIPよりも優れたパフォーマンスを示す。
論文 参考訳(メタデータ) (2023-12-05T01:33:04Z) - Geometry Aware Field-to-field Transformations for 3D Semantic
Segmentation [48.307734886370014]
ニューラル・レージアンス・フィールド(NeRF)を利用した3次元セマンティック・セマンティック・セマンティック・セマンティック・セマンティクスの手法を提案する。
表面点雲に沿って特徴を抽出することにより,サンプル効率が高く3次元推論に導出しやすいシーンのコンパクトな表現を実現する。
論文 参考訳(メタデータ) (2023-10-08T11:48:19Z) - Weakly Supervised 3D Open-vocabulary Segmentation [104.07740741126119]
学習済み基礎モデルCLIPとDINOを弱教師付きで活用することで,3次元オープン語彙セグメンテーションの課題に取り組む。
我々はCLIPとDINOのオープン語彙多様知識とオブジェクト推論能力をニューラルラディアンス場(NeRF)に蒸留する。
提案手法の特筆すべき点は,基礎モデルや蒸留プロセスに手動セグメンテーションアノテーションを必要としない点である。
論文 参考訳(メタデータ) (2023-05-23T14:16:49Z) - PartSLIP: Low-Shot Part Segmentation for 3D Point Clouds via Pretrained
Image-Language Models [56.324516906160234]
一般化可能な3D部分分割は重要だが、ビジョンとロボティクスでは難しい。
本稿では,事前学習した画像言語モデルGLIPを利用して,3次元点雲の低ショット部分分割法を提案する。
我々は2Dから3Dへの豊富な知識を、ポイントクラウドレンダリングにおけるGLIPに基づく部分検出と新しい2D-to-3Dラベルリフトアルゴリズムにより転送する。
論文 参考訳(メタデータ) (2022-12-03T06:59:01Z) - Meta-Learning 3D Shape Segmentation Functions [16.119694625781992]
本稿では,3次元形状を入力として,各3次元セグメント関数空間の事前予測を行うメタリアナとして,補助的なディープニューラルネットワークを導入する。
実験では,メタ3DSegと呼ばれるメタラーニング手法が,教師なし3次元形状のセグメンテーションの改善につながることを示す。
論文 参考訳(メタデータ) (2021-10-08T01:50:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。