論文の概要: SpaCeFormer: Fast Proposal-Free Open-Vocabulary 3D Instance Segmentation
- arxiv url: http://arxiv.org/abs/2604.20395v1
- Date: Wed, 22 Apr 2026 09:57:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-23 15:36:11.076435
- Title: SpaCeFormer: Fast Proposal-Free Open-Vocabulary 3D Instance Segmentation
- Title(参考訳): SpaCeFormer: 高速なプロポーザルフリーなOpen-Vocabulary 3Dインスタンスセグメンテーション
- Authors: Chris Choy, Junha Lee, Chunghyun Park, Minsu Cho, Jan Kautz,
- Abstract要約: SpaCeFormerはプロポーザルフリーのスペースカーブトランスであり、1シーンあたり0.14秒で動作する。
SpaCeFormerは、以前のシングルビューパイプラインよりも21倍高いマスクリコールを実現している。
ScanNet200では、従来のベストプロポーザルフリーメソッドよりも2.8倍改善された11.1ゼロショットのmAPを実現しています。
- 参考スコア(独自算出の注目度): 82.87586897359367
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Open-vocabulary 3D instance segmentation is a core capability for robotics and AR/VR, but prior methods trade one bottleneck for another: multi-stage 2D+3D pipelines aggregate foundation-model outputs at hundreds of seconds per scene, while pseudo-labeled end-to-end approaches rely on fragmented masks and external region proposals. We present SpaCeFormer, a proposal-free space-curve transformer that runs at 0.14 seconds per scene, 2-3 orders of magnitude faster than multi-stage 2D+3D pipelines. We pair it with SpaCeFormer-3M, the largest open-vocabulary 3D instance segmentation dataset (3.0M multi-view-consistent captions over 604K instances from 7.4K scenes) built through multi-view mask clustering and multi-view VLM captioning; it reaches 21x higher mask recall than prior single-view pipelines (54.3% vs 2.5% at IoU > 0.5). SpaCeFormer combines spatial window attention with Morton-curve serialization for spatially coherent features, and uses a RoPE-enhanced decoder to predict instance masks directly from learned queries without external proposals. On ScanNet200 we achieve 11.1 zero-shot mAP, a 2.8x improvement over the prior best proposal-free method; on ScanNet++ and Replica, we reach 22.9 and 24.1 mAP, surpassing all prior methods including those using multi-view 2D inputs.
- Abstract(参考訳): オープンボキャブラリの3Dインスタンスセグメンテーションは、ロボティクスとAR/VRのコア機能であるが、以前の手法では、ひとつのボトルネックを別のものと交換している: マルチステージの2D+3Dパイプラインは、基礎モデルの出力を1シーンあたり数百秒で集約する。
SpaCeFormerは1シーンあたり0.14秒で動作し、マルチステージ2D+3Dパイプラインよりも2~3桁高速である。
SpaCeFormer-3Mはオープンな3Dインスタンスセグメンテーションデータセットで、マルチビューマスククラスタリングとマルチビューVLMキャプションによって構築され、以前のシングルビューパイプライン(IoU > 0.5で54.3%対2.5%)よりも21倍高いマスクリコールを実現する。
SpaCeFormerは空間窓の注意とモートン曲線のシリアライゼーションを組み合わせることで空間的コヒーレントな特徴を実現し、RoPE拡張デコーダを使用して外部提案なしで学習クエリから直接インスタンスマスクを予測する。
ScanNet200では、従来のベストプロポーザルフリーメソッドよりも2.8倍改善された11.1のゼロショットmAPが達成され、ScanNet++とReplicaでは、マルチビュー2D入力を含むすべての先行メソッドを上回り、22.9と24.1mAPに達した。
関連論文リスト
- OpenTrack3D: Towards Accurate and Generalizable Open-Vocabulary 3D Instance Segmentation [5.073373064582996]
オープンな3Dインスタンスセグメンテーションのための汎用的で正確なフレームワークであるOpenTrack3Dを紹介する。
事前に生成された提案に依存するメソッドとは異なり、OpenTrack3Dは、クロスビュー一貫性のあるオブジェクト提案を構築するために、新しいビジュアル空間トラッカーを使用している。
パイプラインは完全にメッシュフリーですが、シーンメッシュが利用可能になった時にパフォーマンスをさらに向上する、オプションのスーパーポイントリファインメントモジュールも提供しています。
論文 参考訳(メタデータ) (2025-12-03T07:51:03Z) - PointGauss: Point Cloud-Guided Multi-Object Segmentation for Gaussian Splatting [18.042769428774676]
本稿では,ガウススプラッティング表現におけるリアルタイム多目的セグメンテーションのための新しいクラウド誘導フレームワークであるPointGaussを紹介する。
1) ポイントクラウドベースのガウスプリミティブデコーダで、1分以内に3Dインスタンスマスクを生成すること、2) マルチビューの一貫性を保証するGPUアクセラレーションされた2Dマスクレンダリングシステムである。
論文 参考訳(メタデータ) (2025-08-01T01:56:54Z) - OnlineAnySeg: Online Zero-Shot 3D Segmentation by Visual Foundation Model Guided 2D Mask Merging [36.9859733771263]
ハッシュ技術を用いて2次元マスクを統一した3次元インスタンスに持ち上げるための効率的な方法を提案する。
効率的な3次元シーンクエリにボクセルハッシュを用いることで、コストのかかる空間的重複クエリの時間的複雑さを低減できる。
提案手法は,オンラインのゼロショット3Dインスタンスセグメンテーションにおける最先端の性能と効率を両立させる。
論文 参考訳(メタデータ) (2025-03-03T08:48:06Z) - Mosaic3D: Foundation Dataset and Model for Open-Vocabulary 3D Segmentation [92.17176311351469]
我々は、新しいデータ生成パイプラインとトレーニングフレームワークを導入することで、オープンな3Dシーン理解に取り組む。
本手法は, 正確な3次元領域分割, 包括的テキスト記述, 十分なデータセットスケールの3つの重要な要件に対処する。
このパイプラインを複数の3Dシーンデータセットに適用すると、Mosaic3D-5.6Mが生成される。
論文 参考訳(メタデータ) (2025-02-04T18:18:50Z) - Any3DIS: Class-Agnostic 3D Instance Segmentation by 2D Mask Tracking [6.599971425078935]
既存の3Dインスタンスセグメンテーションメソッドは、オーバーセグメンテーションの問題に頻繁に遭遇し、下流タスクを複雑にする冗長で不正確な3D提案につながります。
この課題は、フレーム全体に密集した2Dマスクを点雲に上げ、直接の監督なしに3D候補の提案を形成する、教師なしのマージンアプローチから生じる。
本研究では,2次元マスクセグメンテーション・トラッキング基盤モデル(SAM-2)を用いて,映像フレーム間の一貫したオブジェクトマスクを確保する3次元マスク追跡モジュールを提案する。
論文 参考訳(メタデータ) (2024-11-25T08:26:31Z) - Mask Propagation for Efficient Video Semantic Segmentation [63.09523058489429]
ビデオセマンティックベースライン劣化(VSS)は、ビデオシーケンス内の各ピクセルにセマンティックラベルを割り当てることを含む。
SSSSと呼ばれるVSSのための効率的なマスク伝搬フレームワークを提案する。
当社のフレームワークは,フレーム単位のMask2Formerと比較して最大4倍のFLOPを削減し,Cityscapes検証セット上では最大2% mIoUしか使用できない。
論文 参考訳(メタデータ) (2023-10-29T09:55:28Z) - Mask3D: Mask Transformer for 3D Semantic Instance Segmentation [89.41640045953378]
一般的なTransformerビルディングブロックを利用して、3Dポイントクラウドからインスタンスマスクを直接予測できることが示されています。
Transformerデコーダを使用して、インスタンスクエリは、複数のスケールでクラウド機能をポイントする反復的な参加者によって学習される。
Mask3Dは、新しい最先端ScanNetテスト(+6.2 mAP)、S3DIS 6-fold(+10.1 mAP)、LS3D(+11.2 mAP)、ScanNet200テスト(+12.4 mAP)を設定する。
論文 参考訳(メタデータ) (2022-10-06T17:55:09Z) - Pyramid Fusion Transformer for Semantic Segmentation [44.57867861592341]
マルチスケール特徴量を持つマスク毎のセマンティックセマンティックセグメンテーションのためのトランスフォーマベースピラミッドフュージョントランス (PFT) を提案する。
広く使われている3つのセマンティックセグメンテーションデータセット上での競合性能を実現する。
論文 参考訳(メタデータ) (2022-01-11T16:09:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。