論文の概要: Details Matter for Indoor Open-vocabulary 3D Instance Segmentation
- arxiv url: http://arxiv.org/abs/2507.23134v1
- Date: Wed, 30 Jul 2025 22:26:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-01 17:19:08.824298
- Title: Details Matter for Indoor Open-vocabulary 3D Instance Segmentation
- Title(参考訳): 屋内オープン語彙3次元インスタンスセグメンテーションにおける詳細事項
- Authors: Sanghun Jung, Jingjing Zheng, Ke Zhang, Nan Qiao, Albert Y. C. Chen, Lu Xia, Chi Liu, Yuyin Sun, Xiao Zeng, Hsiang-Wei Huang, Byron Boots, Min Sun, Cheng-Hao Kuo,
- Abstract要約: 我々は,OV-3DISのコンセプトを組み合わすレシピを慎重に設計し,最先端のOV-3DISソリューションを提案する。
頑健な3Dトラッキングに基づく提案アグリゲーションを用いて、3Dプロポーザルを生成し、重複または部分的なプロポーザルを除去する。
ScanNet200とS3DISのすべてのAPおよびARメトリクスにおける最先端のパフォーマンスを実現し、エンドツーエンドのクローズドボキャブラリー手法を超越した。
- 参考スコア(独自算出の注目度): 29.535042727523372
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Unlike closed-vocabulary 3D instance segmentation that is often trained end-to-end, open-vocabulary 3D instance segmentation (OV-3DIS) often leverages vision-language models (VLMs) to generate 3D instance proposals and classify them. While various concepts have been proposed from existing research, we observe that these individual concepts are not mutually exclusive but complementary. In this paper, we propose a new state-of-the-art solution for OV-3DIS by carefully designing a recipe to combine the concepts together and refining them to address key challenges. Our solution follows the two-stage scheme: 3D proposal generation and instance classification. We employ robust 3D tracking-based proposal aggregation to generate 3D proposals and remove overlapped or partial proposals by iterative merging/removal. For the classification stage, we replace the standard CLIP model with Alpha-CLIP, which incorporates object masks as an alpha channel to reduce background noise and obtain object-centric representation. Additionally, we introduce the standardized maximum similarity (SMS) score to normalize text-to-proposal similarity, effectively filtering out false positives and boosting precision. Our framework achieves state-of-the-art performance on ScanNet200 and S3DIS across all AP and AR metrics, even surpassing an end-to-end closed-vocabulary method.
- Abstract(参考訳): エンドツーエンドでしばしば訓練されるクローズドボキャブラリ3Dインスタンスセグメンテーションとは異なり、オープンボキャブラリ3Dインスタンスセグメンテーション(OV-3DIS)は視覚言語モデル(VLM)を利用して3Dインスタンスの提案を生成し、それらを分類する。
既存の研究から様々な概念が提案されているが、これらの概念は相互排他的ではなく相補的である。
本稿では,OV-3DISのコンセプトを組み合わさったレシピを慎重に設計し,重要な課題に対処する手法を提案する。
我々の解決策は、2段階のスキームである3Dプロポーザル生成とインスタンス分類に従う。
我々は、3次元追跡に基づく頑健なプロポーザルアグリゲーションを用いて、3次元プロポーザルを生成し、反復的なマージ/削除によって重複または部分的なプロポーザルを除去する。
分類段階では、標準のCLIPモデルをAlpha-CLIPに置き換え、物体マスクをアルファチャネルとして組み込んで背景雑音を低減し、対象中心表現を得る。
さらに,テキスト間類似度を正規化し,偽陽性を効果的に除去し,精度を高めるために,標準化された最大類似度(SMS)スコアを導入する。
ScanNet200とS3DISのすべてのAPおよびARメトリクスにおける最先端のパフォーマンスを実現し、エンドツーエンドのクローズドボキャブラリー手法を超越した。
関連論文リスト
- Hierarchical Cross-Modal Alignment for Open-Vocabulary 3D Object Detection [45.68105299990119]
Open-vocabulary 3D object Detection (OV-3DOD) は、閉じた集合を超えて新しいオブジェクトをローカライズし分類することを目的としている。
我々は,OV-3DODの局所オブジェクトとグローバルシーン情報を同時に学習するための階層型フレームワークHCMAを提案する。
論文 参考訳(メタデータ) (2025-03-10T17:55:22Z) - Open3DIS: Open-Vocabulary 3D Instance Segmentation with 2D Mask Guidance [49.14140194332482]
Open3DISは3Dシーン内でのOpen-Vocabulary Instanceの問題に対処するために設計された新しいソリューションである。
3D環境内のオブジェクトは、さまざまな形状、スケール、色を示し、正確なインスタンスレベルの識別が困難なタスクとなる。
論文 参考訳(メタデータ) (2023-12-17T10:07:03Z) - SAI3D: Segment Any Instance in 3D Scenes [68.57002591841034]
新規なゼロショット3Dインスタンスセグメンテーション手法であるSAI3Dを紹介する。
我々の手法は3Dシーンを幾何学的プリミティブに分割し、段階的に3Dインスタンスセグメンテーションにマージする。
ScanNet、Matterport3D、さらに難しいScanNet++データセットに関する実証的な評価は、我々のアプローチの優位性を示している。
論文 参考訳(メタデータ) (2023-12-17T09:05:47Z) - Distilling Coarse-to-Fine Semantic Matching Knowledge for Weakly
Supervised 3D Visual Grounding [58.924180772480504]
3Dビジュアルグラウンドリングは、所定の文クエリに対応する3Dシーンでターゲットオブジェクトを見つけることを含む。
弱教師付きアノテーションを利用して3次元視覚的接地モデルを学ぶことを提案する。
オブジェクトの提案と文のセマンティックな類似性を粗大な方法で解析する新しいセマンティックマッチングモデルを設計する。
論文 参考訳(メタデータ) (2023-07-18T13:49:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。