論文の概要: Retrieving Objects from 3D Scenes with Box-Guided Open-Vocabulary Instance Segmentation
- arxiv url: http://arxiv.org/abs/2512.19088v1
- Date: Mon, 22 Dec 2025 06:57:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-23 18:54:32.644619
- Title: Retrieving Objects from 3D Scenes with Box-Guided Open-Vocabulary Instance Segmentation
- Title(参考訳): Box-Guided Open-Vocabulary Instance Segmentationによる3次元シーンからのオブジェクトの検索
- Authors: Khanh Nguyen, Dasith de Silva Edirimuni, Ghulam Mubashar Hassan, Ajmal Mian,
- Abstract要約: 本稿では,2次元オープン語彙検出器でガイドされたRGB画像から,新しいオブジェクトの3Dインスタンスマスクを生成する手法を提案する。
提案手法は, 効率的な分類を維持しつつ, 新規な物体を認識できる2次元検出器の能力を継承し, 高速かつ正確なレア・インスタンスの検索を可能にする。
- 参考スコア(独自算出の注目度): 36.41046448860009
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Locating and retrieving objects from scene-level point clouds is a challenging problem with broad applications in robotics and augmented reality. This task is commonly formulated as open-vocabulary 3D instance segmentation. Although recent methods demonstrate strong performance, they depend heavily on SAM and CLIP to generate and classify 3D instance masks from images accompanying the point cloud, leading to substantial computational overhead and slow processing that limit their deployment in real-world settings. Open-YOLO 3D alleviates this issue by using a real-time 2D detector to classify class-agnostic masks produced directly from the point cloud by a pretrained 3D segmenter, eliminating the need for SAM and CLIP and significantly reducing inference time. However, Open-YOLO 3D often fails to generalize to object categories that appear infrequently in the 3D training data. In this paper, we propose a method that generates 3D instance masks for novel objects from RGB images guided by a 2D open-vocabulary detector. Our approach inherits the 2D detector's ability to recognize novel objects while maintaining efficient classification, enabling fast and accurate retrieval of rare instances from open-ended text queries. Our code will be made available at https://github.com/ndkhanh360/BoxOVIS.
- Abstract(参考訳): シーンレベルのクラウドからのオブジェクトの配置と検索は、ロボット工学や拡張現実における幅広い応用において難しい問題である。
このタスクは一般にオープン語彙の3Dインスタンスセグメンテーションとして定式化される。
最近の手法は強力なパフォーマンスを示しているが、ポイントクラウドに付随する画像から3Dインスタンスマスクを生成・分類するためにSAMとCLIPに大きく依存しているため、計算オーバーヘッドが大きくなり、処理が遅くなり、実際の環境でのデプロイメントが制限される。
Open-YOLO 3Dは、リアルタイム2D検出器を使用して、事前訓練された3Dセグメンタによってポイントクラウドから直接生成されたクラス非依存マスクを分類し、SAMとCLIPの必要性を排除し、推論時間を著しく短縮することでこの問題を軽減する。
しかし、Open-YOLO 3Dは、しばしば3Dトレーニングデータに稀に現れるオブジェクトカテゴリへの一般化に失敗する。
本稿では,2次元オープンボキャブラリ検出器でガイドされたRGB画像から,新しいオブジェクトの3Dインスタンスマスクを生成する手法を提案する。
提案手法は,新しいオブジェクトを効率よく分類しながら認識する2D検出器の能力を継承し,オープンエンドテキストクエリからのレアインスタンスの高速かつ正確な検索を可能にする。
私たちのコードはhttps://github.com/ndkhanh360/BoxOVIS.comで公開されます。
関連論文リスト
- Sparse Multiview Open-Vocabulary 3D Detection [27.57172918603858]
3Dオブジェクト検出は伝統的に、固定されたカテゴリのセットを検出するトレーニングによって解決されてきた。
本研究では,オープンボキャブラリによる3次元物体検出の課題について検討する。
我々のアプローチは、計算コストのかかる3D特徴フュージョンを使わずに、事前訓練されたオフザシェルフ2Dファンデーションモデルに頼っている。
論文 参考訳(メタデータ) (2025-09-19T12:22:24Z) - CutS3D: Cutting Semantics in 3D for 2D Unsupervised Instance Segmentation [13.871856894814005]
我々は,シーンのポイントクラウド表現を利用して,最後の2Dインスタンスを得るために,3次元のセマンティックマスクをカットすることを提案する。
また,クリーンな学習信号の分離を目的とした3つの空間信頼成分を用いたクラス非依存検出器のトレーニングの強化も提案する。
論文 参考訳(メタデータ) (2024-11-25T12:11:27Z) - Training an Open-Vocabulary Monocular 3D Object Detection Model without 3D Data [57.53523870705433]
我々はOVM3D-Detと呼ばれる新しいオープン語彙単分子オブジェクト検出フレームワークを提案する。
OVM3D-Detは、入力または3Dバウンディングボックスを生成するために高精度のLiDARや3Dセンサーデータを必要としない。
オープンボキャブラリ2Dモデルと擬似LiDARを使用して、RGB画像に3Dオブジェクトを自動的にラベル付けし、オープンボキャブラリ単分子3D検出器の学習を促進する。
論文 参考訳(メタデータ) (2024-11-23T21:37:21Z) - EmbodiedSAM: Online Segment Any 3D Thing in Real Time [61.2321497708998]
身体的なタスクは、エージェントが探索と同時に3Dシーンを完全に理解する必要がある。
オンライン、リアルタイム、微粒化、高度に一般化された3D知覚モデルは、必死に必要である。
論文 参考訳(メタデータ) (2024-08-21T17:57:06Z) - Open-YOLO 3D: Towards Fast and Accurate Open-Vocabulary 3D Instance Segmentation [91.40798599544136]
高速かつ高精度なオープン語彙型3Dインスタンスセグメンテーション手法Open-YOLO 3Dを提案する。
オープンな3Dインスタンスセグメンテーションのために、マルチビューRGB画像からの2Dオブジェクト検出のみを効果的に活用する。
テキストプロンプトと3Dマスクとのマッチング性能は、2Dオブジェクト検出器でより高速に実現できることを実証的に見出した。
論文 参考訳(メタデータ) (2024-06-04T17:59:31Z) - Open3DIS: Open-Vocabulary 3D Instance Segmentation with 2D Mask Guidance [49.14140194332482]
Open3DISは3Dシーン内でのOpen-Vocabulary Instanceの問題に対処するために設計された新しいソリューションである。
3D環境内のオブジェクトは、さまざまな形状、スケール、色を示し、正確なインスタンスレベルの識別が困難なタスクとなる。
論文 参考訳(メタデータ) (2023-12-17T10:07:03Z) - SAI3D: Segment Any Instance in 3D Scenes [68.57002591841034]
新規なゼロショット3Dインスタンスセグメンテーション手法であるSAI3Dを紹介する。
我々の手法は3Dシーンを幾何学的プリミティブに分割し、段階的に3Dインスタンスセグメンテーションにマージする。
ScanNet、Matterport3D、さらに難しいScanNet++データセットに関する実証的な評価は、我々のアプローチの優位性を示している。
論文 参考訳(メタデータ) (2023-12-17T09:05:47Z) - OpenIns3D: Snap and Lookup for 3D Open-vocabulary Instance Segmentation [32.508069732371105]
OpenIns3Dは、3Dオープン語彙シーン理解のための新しい3D入力専用フレームワークである。
様々な3Dオープン語彙タスクで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-09-01T17:59:56Z) - OpenMask3D: Open-Vocabulary 3D Instance Segmentation [84.58747201179654]
OpenMask3Dはオープンな3Dインスタンスセグメンテーションのためのゼロショットアプローチである。
私たちのモデルは、CLIPベースの画像埋め込みのマルチビュー融合により、マスクごとの特徴を集約する。
論文 参考訳(メタデータ) (2023-06-23T17:36:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。