論文の概要: Open3DIS: Open-Vocabulary 3D Instance Segmentation with 2D Mask Guidance
- arxiv url: http://arxiv.org/abs/2312.10671v3
- Date: Sat, 6 Apr 2024 01:45:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-10 01:46:19.096699
- Title: Open3DIS: Open-Vocabulary 3D Instance Segmentation with 2D Mask Guidance
- Title(参考訳): Open3DIS: 2Dマスクガイダンスを備えたオープンボキャブラリ3Dインスタンスセグメンテーション
- Authors: Phuc D. A. Nguyen, Tuan Duc Ngo, Evangelos Kalogerakis, Chuang Gan, Anh Tran, Cuong Pham, Khoi Nguyen,
- Abstract要約: Open3DISは3Dシーン内でのOpen-Vocabulary Instanceの問題に対処するために設計された新しいソリューションである。
3D環境内のオブジェクトは、さまざまな形状、スケール、色を示し、正確なインスタンスレベルの識別が困難なタスクとなる。
- 参考スコア(独自算出の注目度): 49.14140194332482
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce Open3DIS, a novel solution designed to tackle the problem of Open-Vocabulary Instance Segmentation within 3D scenes. Objects within 3D environments exhibit diverse shapes, scales, and colors, making precise instance-level identification a challenging task. Recent advancements in Open-Vocabulary scene understanding have made significant strides in this area by employing class-agnostic 3D instance proposal networks for object localization and learning queryable features for each 3D mask. While these methods produce high-quality instance proposals, they struggle with identifying small-scale and geometrically ambiguous objects. The key idea of our method is a new module that aggregates 2D instance masks across frames and maps them to geometrically coherent point cloud regions as high-quality object proposals addressing the above limitations. These are then combined with 3D class-agnostic instance proposals to include a wide range of objects in the real world. To validate our approach, we conducted experiments on three prominent datasets, including ScanNet200, S3DIS, and Replica, demonstrating significant performance gains in segmenting objects with diverse categories over the state-of-the-art approaches.
- Abstract(参考訳): オープンボキャブラリインスタンスセグメンテーション(Open-Vocabulary Instance Segmentation)の問題に、3Dシーンで対処するために設計された新しいソリューションであるOpen3DISを紹介する。
3D環境内のオブジェクトは、さまざまな形状、スケール、色を示し、正確なインスタンスレベルの識別が困難なタスクとなる。
近年のオープン・ボキャブラリ・シーン理解の進歩は,オブジェクトのローカライゼーションにクラスに依存しない3Dインスタンスの提案ネットワークを導入し,各3Dマスクに対してクエリ可能な特徴を学習することによって,この分野において大きな進歩を遂げている。
これらの手法は高品質なインスタンスの提案を生成するが、小型で幾何学的にあいまいな対象を特定するのに苦労する。
提案手法のキーとなるアイデアは,フレームにまたがって2次元のインスタンスマスクを集約し,それらを幾何学的に整合した点クラウド領域にマッピングする,上述の制限に対処する高品質なオブジェクトの提案である。
これらを3Dクラスに依存しないインスタンスの提案と組み合わせて、現実世界に幅広いオブジェクトを含める。
本研究では,ScanNet200,S3DIS,Replicaの3つの顕著なデータセットについて実験を行った。
関連論文リスト
- Any3DIS: Class-Agnostic 3D Instance Segmentation by 2D Mask Tracking [6.599971425078935]
既存の3Dインスタンスセグメンテーションメソッドは、オーバーセグメンテーションの問題に頻繁に遭遇し、下流タスクを複雑にする冗長で不正確な3D提案につながります。
この課題は、フレーム全体に密集した2Dマスクを点雲に上げ、直接の監督なしに3D候補の提案を形成する、教師なしのマージンアプローチから生じる。
本研究では,2次元マスクセグメンテーション・トラッキング基盤モデル(SAM-2)を用いて,映像フレーム間の一貫したオブジェクトマスクを確保する3次元マスク追跡モジュールを提案する。
論文 参考訳(メタデータ) (2024-11-25T08:26:31Z) - Search3D: Hierarchical Open-Vocabulary 3D Segmentation [78.47704793095669]
オープンな3Dセグメンテーションにより、自由形式のテキスト記述を用いた3D空間の探索が可能となる。
本稿では,階層的なオープンな3Dシーン表現を構築するアプローチであるSearch3Dを紹介する。
本手法は,より柔軟なオープンな3次元検索設定にシフトすることで,オープン語彙のインスタンスレベル3次元セグメンテーションの能力を拡大することを目的としている。
論文 参考訳(メタデータ) (2024-09-27T03:44:07Z) - OpenSU3D: Open World 3D Scene Understanding using Foundation Models [2.1262749936758216]
オープンセット, インスタンスレベルの3次元シーン表現を構築するための, 新規でスケーラブルなアプローチを提案する。
既存の方法は、事前に構築された3Dシーンと、ポイント単位の機能ベクトル学習によるスケーラビリティの問題を必要とする。
ゼロショット一般化機能を示すScanNetとReplicaのデータセットから,複数のシーンに対する提案手法の評価を行った。
論文 参考訳(メタデータ) (2024-07-19T13:01:12Z) - SAI3D: Segment Any Instance in 3D Scenes [68.57002591841034]
新規なゼロショット3Dインスタンスセグメンテーション手法であるSAI3Dを紹介する。
我々の手法は3Dシーンを幾何学的プリミティブに分割し、段階的に3Dインスタンスセグメンテーションにマージする。
ScanNet、Matterport3D、さらに難しいScanNet++データセットに関する実証的な評価は、我々のアプローチの優位性を示している。
論文 参考訳(メタデータ) (2023-12-17T09:05:47Z) - Lowis3D: Language-Driven Open-World Instance-Level 3D Scene
Understanding [57.47315482494805]
オープンワールドのインスタンスレベルのシーン理解は、アノテーション付きデータセットに存在しない未知のオブジェクトカテゴリを特定し、認識することを目的としている。
モデルは新しい3Dオブジェクトをローカライズし、それらのセマンティックなカテゴリを推論する必要があるため、この課題は難しい。
本稿では,3Dシーンのキャプションを生成するために,画像テキストペアからの広範な知識を符号化する,事前学習型視覚言語基盤モデルを提案する。
論文 参考訳(メタデータ) (2023-08-01T07:50:14Z) - OpenMask3D: Open-Vocabulary 3D Instance Segmentation [84.58747201179654]
OpenMask3Dはオープンな3Dインスタンスセグメンテーションのためのゼロショットアプローチである。
私たちのモデルは、CLIPベースの画像埋め込みのマルチビュー融合により、マスクごとの特徴を集約する。
論文 参考訳(メタデータ) (2023-06-23T17:36:44Z) - Fine-Grained 3D Shape Classification with Hierarchical Part-View
Attentions [70.0171362989609]
本稿では,FG3D-Netと呼ばれる新しい3次元形状分類手法を提案する。
詳細な3次元形状データセットに基づく結果から,本手法が他の最先端手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2020-05-26T06:53:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。