論文の概要: Retrieving Objects from 3D Scenes with Box-Guided Open-Vocabulary Instance Segmentation
- arxiv url: http://arxiv.org/abs/2512.19088v1
- Date: Mon, 22 Dec 2025 06:57:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-23 18:54:32.644619
- Title: Retrieving Objects from 3D Scenes with Box-Guided Open-Vocabulary Instance Segmentation
- Title(参考訳): Box-Guided Open-Vocabulary Instance Segmentationによる3次元シーンからのオブジェクトの検索
- Authors: Khanh Nguyen, Dasith de Silva Edirimuni, Ghulam Mubashar Hassan, Ajmal Mian,
- Abstract要約: 本稿では,2次元オープン語彙検出器でガイドされたRGB画像から,新しいオブジェクトの3Dインスタンスマスクを生成する手法を提案する。
提案手法は, 効率的な分類を維持しつつ, 新規な物体を認識できる2次元検出器の能力を継承し, 高速かつ正確なレア・インスタンスの検索を可能にする。
- 参考スコア(独自算出の注目度): 36.41046448860009
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Locating and retrieving objects from scene-level point clouds is a challenging problem with broad applications in robotics and augmented reality. This task is commonly formulated as open-vocabulary 3D instance segmentation. Although recent methods demonstrate strong performance, they depend heavily on SAM and CLIP to generate and classify 3D instance masks from images accompanying the point cloud, leading to substantial computational overhead and slow processing that limit their deployment in real-world settings. Open-YOLO 3D alleviates this issue by using a real-time 2D detector to classify class-agnostic masks produced directly from the point cloud by a pretrained 3D segmenter, eliminating the need for SAM and CLIP and significantly reducing inference time. However, Open-YOLO 3D often fails to generalize to object categories that appear infrequently in the 3D training data. In this paper, we propose a method that generates 3D instance masks for novel objects from RGB images guided by a 2D open-vocabulary detector. Our approach inherits the 2D detector's ability to recognize novel objects while maintaining efficient classification, enabling fast and accurate retrieval of rare instances from open-ended text queries. Our code will be made available at https://github.com/ndkhanh360/BoxOVIS.
- Abstract(参考訳): シーンレベルのクラウドからのオブジェクトの配置と検索は、ロボット工学や拡張現実における幅広い応用において難しい問題である。
このタスクは一般にオープン語彙の3Dインスタンスセグメンテーションとして定式化される。
最近の手法は強力なパフォーマンスを示しているが、ポイントクラウドに付随する画像から3Dインスタンスマスクを生成・分類するためにSAMとCLIPに大きく依存しているため、計算オーバーヘッドが大きくなり、処理が遅くなり、実際の環境でのデプロイメントが制限される。
Open-YOLO 3Dは、リアルタイム2D検出器を使用して、事前訓練された3Dセグメンタによってポイントクラウドから直接生成されたクラス非依存マスクを分類し、SAMとCLIPの必要性を排除し、推論時間を著しく短縮することでこの問題を軽減する。
しかし、Open-YOLO 3Dは、しばしば3Dトレーニングデータに稀に現れるオブジェクトカテゴリへの一般化に失敗する。
本稿では,2次元オープンボキャブラリ検出器でガイドされたRGB画像から,新しいオブジェクトの3Dインスタンスマスクを生成する手法を提案する。
提案手法は,新しいオブジェクトを効率よく分類しながら認識する2D検出器の能力を継承し,オープンエンドテキストクエリからのレアインスタンスの高速かつ正確な検索を可能にする。
私たちのコードはhttps://github.com/ndkhanh360/BoxOVIS.comで公開されます。
関連論文リスト
- EmbodiedSAM: Online Segment Any 3D Thing in Real Time [61.2321497708998]
身体的なタスクは、エージェントが探索と同時に3Dシーンを完全に理解する必要がある。
オンライン、リアルタイム、微粒化、高度に一般化された3D知覚モデルは、必死に必要である。
論文 参考訳(メタデータ) (2024-08-21T17:57:06Z) - Open-YOLO 3D: Towards Fast and Accurate Open-Vocabulary 3D Instance Segmentation [91.40798599544136]
高速かつ高精度なオープン語彙型3Dインスタンスセグメンテーション手法Open-YOLO 3Dを提案する。
オープンな3Dインスタンスセグメンテーションのために、マルチビューRGB画像からの2Dオブジェクト検出のみを効果的に活用する。
テキストプロンプトと3Dマスクとのマッチング性能は、2Dオブジェクト検出器でより高速に実現できることを実証的に見出した。
論文 参考訳(メタデータ) (2024-06-04T17:59:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。