論文の概要: SNAP: Towards Segmenting Anything in Any Point Cloud
- arxiv url: http://arxiv.org/abs/2510.11565v1
- Date: Mon, 13 Oct 2025 16:07:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:30.447505
- Title: SNAP: Towards Segmenting Anything in Any Point Cloud
- Title(参考訳): SNAP: 任意のポイントクラウドでのセグメンテーションを目指す
- Authors: Aniket Gupta, Hanhui Wang, Charles Saunders, Aruni RoyChowdhury, Hanumant Singh, Huaizu Jiang,
- Abstract要約: インタラクティブな3Dセグメンテーションのための統一モデルである textbfSNAP (textbfSegment atextbfNything in textbfAny textbfPoint cloud) を提案する。
本手法は,屋内・屋外・空域にまたがる7つのデータセットをトレーニングすることにより,ドメイン間の一般化を実現する。
- 参考スコア(独自算出の注目度): 11.224053689781853
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Interactive 3D point cloud segmentation enables efficient annotation of complex 3D scenes through user-guided prompts. However, current approaches are typically restricted in scope to a single domain (indoor or outdoor), and to a single form of user interaction (either spatial clicks or textual prompts). Moreover, training on multiple datasets often leads to negative transfer, resulting in domain-specific tools that lack generalizability. To address these limitations, we present \textbf{SNAP} (\textbf{S}egment a\textbf{N}ything in \textbf{A}ny \textbf{P}oint cloud), a unified model for interactive 3D segmentation that supports both point-based and text-based prompts across diverse domains. Our approach achieves cross-domain generalizability by training on 7 datasets spanning indoor, outdoor, and aerial environments, while employing domain-adaptive normalization to prevent negative transfer. For text-prompted segmentation, we automatically generate mask proposals without human intervention and match them against CLIP embeddings of textual queries, enabling both panoptic and open-vocabulary segmentation. Extensive experiments demonstrate that SNAP consistently delivers high-quality segmentation results. We achieve state-of-the-art performance on 8 out of 9 zero-shot benchmarks for spatial-prompted segmentation and demonstrate competitive results on all 5 text-prompted benchmarks. These results show that a unified model can match or exceed specialized domain-specific approaches, providing a practical tool for scalable 3D annotation. Project page is at, https://neu-vi.github.io/SNAP/
- Abstract(参考訳): インタラクティブな3Dポイントクラウドセグメンテーションは、ユーザ誘導プロンプトを通じて複雑な3Dシーンの効率的なアノテーションを可能にする。
しかしながら、現在のアプローチは通常、単一のドメイン(屋内または屋外)と単一のユーザインタラクション(空間的なクリックまたはテキストプロンプト)に制限される。
さらに、複数のデータセットのトレーニングは、しばしば負の転送をもたらし、一般化性に欠けるドメイン固有のツールをもたらす。
これらの制約に対処するために、さまざまなドメインにわたるポイントベースおよびテキストベースのプロンプトをサポートするインタラクティブな3Dセグメンテーションのための統一モデルである \textbf{SNAP} (\textbf{S}egment a\textbf{N}ything in \textbf{A}ny \textbf{P}oint cloud) を提案する。
提案手法は, 屋内, 屋外, 空域にまたがる7つのデータセットをトレーニングし, 負の移動を防止するために, ドメイン適応正規化を採用することで, ドメイン間の一般化を実現する。
テキストプロップされたセグメンテーションでは、人間の介入なしにマスクの提案を自動的に生成し、それらをテキストクエリのCLIP埋め込みとマッチングすることで、パノプティクスとオープンボキャブラリセグメンテーションの両方を可能にします。
SNAPが常に高品質なセグメンテーション結果をもたらすことを示す大規模な実験である。
9つのゼロショットベンチマークのうち8つは、空間的プロンプトのセグメンテーションのための最先端のパフォーマンスを達成し、5つのテキストプロンプトのベンチマークで競合結果を示す。
これらの結果は、統一モデルが特定のドメイン固有のアプローチと一致したり、超えたりできることを示し、スケーラブルな3Dアノテーションのための実用的なツールを提供する。
Project page is at, https://neu-vi.github.io/SNAP/
関連論文リスト
- Test-Time Optimization for Domain Adaptive Open Vocabulary Segmentation [15.941958367737408]
Seg-TTOはゼロショットでオープンなセマンティックセグメンテーションのためのフレームワークである。
このギャップに対処するために、セグメンテーション固有のテスト時間最適化にフォーカスします。
Seg-TTOは明確なパフォーマンス向上(いくつかのデータセットで最大27%のmIoU増加)を示し、新たな最先端の確立を実現している。
論文 参考訳(メタデータ) (2025-01-08T18:58:24Z) - One for All: Multi-Domain Joint Training for Point Cloud Based 3D Object Detection [71.78795573911512]
textbfOneDet3Dは、異なるドメイン間での3D検出に対処する汎用的なワン・ツー・オール・モデルである。
本稿では、データ干渉問題に対処するため、ルーティング機構によって誘導される散乱とコンテキストにおけるドメイン認識を提案する。
完全なスパース構造とアンカーフリーヘッドは、さらに大きなスケールの差のある点雲を収容する。
論文 参考訳(メタデータ) (2024-11-03T14:21:56Z) - LESS: Label-Efficient and Single-Stage Referring 3D Segmentation [55.06002976797879]
参照3Dは、クエリの文で記述された3Dポイントクラウドから、指定されたオブジェクトのすべてのポイントをセグメントする視覚言語タスクである。
本稿では,LESSと呼ばれるレファレンス3次元パイプラインを提案する。
ScanReferデータセット上での最先端のパフォーマンスは、バイナリラベルのみを使用して、以前の3.7% mIoUの手法を上回ります。
論文 参考訳(メタデータ) (2024-10-17T07:47:41Z) - SegVG: Transferring Object Bounding Box to Segmentation for Visual Grounding [56.079013202051094]
ボックスレベルのアノテーションを信号として転送する新しい手法であるSegVGを提案する。
このアプローチでは,ボックスレベルのレグレッションとピクセルレベルのセグメンテーションの両方の信号としてアノテーションを反復的に利用することができる。
論文 参考訳(メタデータ) (2024-07-03T15:30:45Z) - AD-CLIP: Adapting Domains in Prompt Space Using CLIP [11.836764044083257]
ドメインに依存しないCLIPのプロンプト学習戦略であるtextscAD-CLIPを導入する。
我々のプロンプトは、画像スタイルとコンテンツの特徴を同時に学習することで、ドメイン不変でクラス一般化できるように設計されている。
3つのベンチマークDAデータセットに対する実験により,既存の文献と比較して,textscAD-CLIPの有効性が示された。
論文 参考訳(メタデータ) (2023-08-10T15:58:28Z) - FreePoint: Unsupervised Point Cloud Instance Segmentation [72.64540130803687]
点クラウド上の教師なしクラス非依存のインスタンスセグメンテーションを探索するためのFreePointを提案する。
我々は、座標、色、そして自己監督の深い特徴を組み合わせることで、点の特徴を表現する。
ポイント機能に基づいて、ポイントクラウドを擬似ラベルとして粗いインスタンスマスクに分割し、ポイントクラウドインスタンスセグメンテーションモデルをトレーニングする。
論文 参考訳(メタデータ) (2023-05-11T16:56:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。