論文の概要: OV-MAP : Open-Vocabulary Zero-Shot 3D Instance Segmentation Map for Robots
- arxiv url: http://arxiv.org/abs/2506.11585v1
- Date: Fri, 13 Jun 2025 08:49:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-16 17:50:49.722968
- Title: OV-MAP : Open-Vocabulary Zero-Shot 3D Instance Segmentation Map for Robots
- Title(参考訳): OV-MAP : ロボットのためのオープンボキャブラリゼロショット3次元インスタンスセグメンテーションマップ
- Authors: Juno Kim, Yesol Park, Hye-Jung Yoon, Byoung-Tak Zhang,
- Abstract要約: OV-MAPは、オブジェクト認識機能を高めるために、オープンな特徴を3Dマップに統合することで、移動ロボットのためのオープンワールド3Dマッピングの新しいアプローチである。
我々は2次元マスクを3次元空間に投影するクラス非依存セグメンテーションモデルと、点雲から生の深度と合成の深度をマージして作成した補足深度画像を組み合わせた。
このアプローチは、3Dマスク投票機構とともに、3D教師付きセグメンテーションモデルに頼ることなく、正確なゼロショット3Dインスタンスセグメンテーションを可能にする。
- 参考スコア(独自算出の注目度): 18.200635521222267
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce OV-MAP, a novel approach to open-world 3D mapping for mobile robots by integrating open-features into 3D maps to enhance object recognition capabilities. A significant challenge arises when overlapping features from adjacent voxels reduce instance-level precision, as features spill over voxel boundaries, blending neighboring regions together. Our method overcomes this by employing a class-agnostic segmentation model to project 2D masks into 3D space, combined with a supplemented depth image created by merging raw and synthetic depth from point clouds. This approach, along with a 3D mask voting mechanism, enables accurate zero-shot 3D instance segmentation without relying on 3D supervised segmentation models. We assess the effectiveness of our method through comprehensive experiments on public datasets such as ScanNet200 and Replica, demonstrating superior zero-shot performance, robustness, and adaptability across diverse environments. Additionally, we conducted real-world experiments to demonstrate our method's adaptability and robustness when applied to diverse real-world environments.
- Abstract(参考訳): OV-MAPは,物体認識能力を高めるために,オープンな特徴を3Dマップに統合することで,移動ロボットのためのオープンワールド3Dマッピングの新しいアプローチである。
隣接するボクセルからの重なり合う特徴がインスタンスレベルの精度を低下させると、その特徴がボクセルの境界を越えて流出し、隣接する領域が混在する。
本手法では,2次元マスクを3次元空間に投影するクラス非依存セグメンテーションモデルと,点雲から生深と合成深度をマージした補足深度画像を組み合わせることで,この問題を克服する。
このアプローチは、3Dマスク投票機構とともに、3D教師付きセグメンテーションモデルに頼ることなく、正確なゼロショット3Dインスタンスセグメンテーションを可能にする。
ScanNet200 や Replica などの公開データセットの総合的な実験を通じて,本手法の有効性を評価し,多様な環境において優れたゼロショット性能,ロバスト性,適応性を示す。
さらに,本手法を実環境に適用した場合の適応性と堅牢性を示すために実世界の実験を行った。
関連論文リスト
- SAB3R: Semantic-Augmented Backbone in 3D Reconstruction [19.236494823612507]
オープン語彙セグメンテーションと3次元再構成の目的を統一する新しいタスクであるMap and Locateを導入する。
具体的には、MapとLocateは、未提示のビデオからポイントクラウドを生成し、オープン語彙クエリに基づいてオブジェクトインスタンスをセグメント化する。
このタスクは、現実世界のAIアプリケーションへの重要なステップとして機能し、再構築、認識、再編成を橋渡しする実践的なタスクを導入します。
論文 参考訳(メタデータ) (2025-06-02T18:00:04Z) - Object-Oriented Material Classification and 3D Clustering for Improved Semantic Perception and Mapping in Mobile Robots [6.395242048226456]
本稿では,オブジェクト指向パイプライン上に構築されたRGB-D教材分類のための補足型ディープラーニング手法を提案する。
本研究では,3次元セマンティックシーンマッピングの最先端手法と比較して,材料分類と3次元クラスタリングの精度が大幅に向上したことを示す。
論文 参考訳(メタデータ) (2024-07-08T16:25:01Z) - Memorize What Matters: Emergent Scene Decomposition from Multitraverse [54.487589469432706]
3次元ガウス写像は3次元ガウス写像をベースとしたカメラのみのオフラインマッピングフレームワークである。
3DGMは、同じ領域から複数のRGBビデオをガウスベースの環境マップに変換し、同時に2D短命なオブジェクトセグメンテーションを実行する。
We build the Mapverse benchmark, sourced from the Ithaca365 and nuPlan datasets, to evaluate our method in unsupervised 2D segmentation, 3D reconstruction, and Neural rendering。
論文 参考訳(メタデータ) (2024-05-27T14:11:17Z) - ClusteringSDF: Self-Organized Neural Implicit Surfaces for 3D Decomposition [32.99080359375706]
ClusteringSDFは、ニューラルな暗黙の表面表現を通して3次元のセグメンテーションと再構成を実現するための新しいアプローチである。
ScanNetとReplicaのデータセットから得られた挑戦的なシーンにおける実験結果から,ClusteringSDFが競争力を発揮することを示す。
論文 参考訳(メタデータ) (2024-03-21T17:59:16Z) - Open3DIS: Open-Vocabulary 3D Instance Segmentation with 2D Mask Guidance [49.14140194332482]
Open3DISは3Dシーン内でのOpen-Vocabulary Instanceの問題に対処するために設計された新しいソリューションである。
3D環境内のオブジェクトは、さまざまな形状、スケール、色を示し、正確なインスタンスレベルの識別が困難なタスクとなる。
論文 参考訳(メタデータ) (2023-12-17T10:07:03Z) - ALSTER: A Local Spatio-Temporal Expert for Online 3D Semantic
Reconstruction [62.599588577671796]
本稿では,RGB-Dフレームのストリームから3次元セマンティックマップを段階的に再構成するオンライン3次元セマンティックセマンティックセマンティクス手法を提案する。
オフラインの手法とは異なり、ロボット工学や混合現実のようなリアルタイムな制約のあるシナリオに直接適用できます。
論文 参考訳(メタデータ) (2023-11-29T20:30:18Z) - Cylindrical and Asymmetrical 3D Convolution Networks for LiDAR-based
Perception [122.53774221136193]
運転時のLiDARに基づく認識のための最先端の手法は、しばしば点雲を2D空間に投影し、2D畳み込みによって処理する。
自然な対策として、3Dボクセル化と3D畳み込みネットワークを利用する方法がある。
本研究では,3次元幾何学的パターンを探索するために,円筒状分割と非対称な3次元畳み込みネットワークを設計する,屋外LiDARセグメンテーションのための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-12T06:25:11Z) - HVPR: Hybrid Voxel-Point Representation for Single-stage 3D Object
Detection [39.64891219500416]
3Dオブジェクト検出手法は、シーン内の3Dオブジェクトを表現するために、ボクセルベースまたはポイントベースの特徴を利用する。
本稿では,voxelベースとポイントベースの両方の特徴を有する,新しい単段3次元検出手法を提案する。
論文 参考訳(メタデータ) (2021-04-02T06:34:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。