論文の概要: OpenMask3D: Open-Vocabulary 3D Instance Segmentation
- arxiv url: http://arxiv.org/abs/2306.13631v1
- Date: Fri, 23 Jun 2023 17:36:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-26 11:58:05.198190
- Title: OpenMask3D: Open-Vocabulary 3D Instance Segmentation
- Title(参考訳): OpenMask3D: Open-Vocabulary 3D Instance Segmentation
- Authors: Ay\c{c}a Takmaz, Elisabetta Fedele, Robert W. Sumner, Marc Pollefeys,
Federico Tombari, Francis Engelmann
- Abstract要約: OpenMask3Dはオープンな3Dインスタンスセグメンテーションのためのゼロショットアプローチである。
私たちのモデルは、CLIPベースの画像埋め込みのマルチビュー融合により、マスクごとの特徴を集約する。
提案手法は,特に長尾分布において,他の開語彙よりも優れていることを示す。
- 参考スコア(独自算出の注目度): 89.41434008832262
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce the task of open-vocabulary 3D instance segmentation.
Traditional approaches for 3D instance segmentation largely rely on existing 3D
annotated datasets, which are restricted to a closed-set of object categories.
This is an important limitation for real-life applications where one might need
to perform tasks guided by novel, open-vocabulary queries related to objects
from a wide variety. Recently, open-vocabulary 3D scene understanding methods
have emerged to address this problem by learning queryable features per each
point in the scene. While such a representation can be directly employed to
perform semantic segmentation, existing methods have limitations in their
ability to identify object instances. In this work, we address this limitation,
and propose OpenMask3D, which is a zero-shot approach for open-vocabulary 3D
instance segmentation. Guided by predicted class-agnostic 3D instance masks,
our model aggregates per-mask features via multi-view fusion of CLIP-based
image embeddings. We conduct experiments and ablation studies on the ScanNet200
dataset to evaluate the performance of OpenMask3D, and provide insights about
the open-vocabulary 3D instance segmentation task. We show that our approach
outperforms other open-vocabulary counterparts, particularly on the long-tail
distribution. Furthermore, OpenMask3D goes beyond the limitations of
close-vocabulary approaches, and enables the segmentation of object instances
based on free-form queries describing object properties such as semantics,
geometry, affordances, and material properties.
- Abstract(参考訳): オープン語彙3Dインスタンスセグメンテーションの課題を紹介する。
従来の3Dインスタンスセグメンテーションのアプローチは、既存の3Dアノテーション付きデータセットに大きく依存しており、オブジェクトカテゴリのクローズドセットに制限されている。
これは、さまざまなオブジェクトに関連する新しいオープンボキャブラリクエリによって導かれるタスクを実行する必要がある実生活アプリケーションにとって重要な制限である。
近年,各場面における問合せ可能な特徴を学習することで,オープンな3Dシーン理解手法が出現している。
このような表現は、セマンティックセグメンテーションを実行するために直接使われるが、既存のメソッドはオブジェクトインスタンスを識別する能力に制限がある。
本研究では,この制限に対処し,オープンな3DインスタンスセグメンテーションのためのゼロショットアプローチであるOpenMask3Dを提案する。
予測されたクラス非依存の3Dインスタンスマスクによってガイドされた我々のモデルは、CLIPベースの画像埋め込みのマルチビュー融合を通じて、マスクごとの機能を集約する。
我々は、OpenMask3Dの性能を評価するためにScanNet200データセットの実験およびアブレーション研究を行い、オープン語彙の3Dインスタンスセグメンテーションタスクに関する洞察を提供する。
提案手法は,特に長尾分布において,他の開語彙よりも優れていることを示す。
さらに、OpenMask3Dは、近接語彙アプローチの限界を超えて、セマンティクス、幾何学、余裕、材料プロパティといったオブジェクトプロパティを記述する自由形式のクエリに基づいたオブジェクトインスタンスのセグメンテーションを可能にする。
関連論文リスト
- Search3D: Hierarchical Open-Vocabulary 3D Segmentation [78.47704793095669]
オープンな3Dセグメンテーションにより、自由形式のテキスト記述を用いた3D空間の探索が可能となる。
本稿では,階層的なオープンな3Dシーン表現を構築するアプローチであるSearch3Dを紹介する。
本手法は,より柔軟なオープンな3次元検索設定にシフトすることで,オープン語彙のインスタンスレベル3次元セグメンテーションの能力を拡大することを目的としている。
論文 参考訳(メタデータ) (2024-09-27T03:44:07Z) - Vocabulary-Free 3D Instance Segmentation with Vision and Language Assistant [11.416392706435415]
語彙自由な設定で3Dインスタンスのセグメンテーションに対処する最初の手法を提案する。
我々は、大きな視覚言語アシスタントとオープン語彙の2Dインスタンスセグメンタを活用して、セマンティックなカテゴリを発見し、グラウンド化する。
ScanNet200 と Replica を用いて提案手法の評価を行った。
論文 参考訳(メタデータ) (2024-08-20T08:46:54Z) - Open3DIS: Open-Vocabulary 3D Instance Segmentation with 2D Mask Guidance [49.14140194332482]
Open3DISは3Dシーン内でのOpen-Vocabulary Instanceの問題に対処するために設計された新しいソリューションである。
3D環境内のオブジェクトは、さまざまな形状、スケール、色を示し、正確なインスタンスレベルの識別が困難なタスクとなる。
論文 参考訳(メタデータ) (2023-12-17T10:07:03Z) - SAI3D: Segment Any Instance in 3D Scenes [68.57002591841034]
新規なゼロショット3Dインスタンスセグメンテーション手法であるSAI3Dを紹介する。
我々の手法は3Dシーンを幾何学的プリミティブに分割し、段階的に3Dインスタンスセグメンテーションにマージする。
ScanNet、Matterport3D、さらに難しいScanNet++データセットに関する実証的な評価は、我々のアプローチの優位性を示している。
論文 参考訳(メタデータ) (2023-12-17T09:05:47Z) - OpenIns3D: Snap and Lookup for 3D Open-vocabulary Instance Segmentation [32.508069732371105]
OpenIns3Dは、3Dオープン語彙シーン理解のための新しい3D入力専用フレームワークである。
様々な3Dオープン語彙タスクで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-09-01T17:59:56Z) - Weakly Supervised 3D Open-vocabulary Segmentation [104.07740741126119]
学習済み基礎モデルCLIPとDINOを弱教師付きで活用することで,3次元オープン語彙セグメンテーションの課題に取り組む。
我々はCLIPとDINOのオープン語彙多様知識とオブジェクト推論能力をニューラルラディアンス場(NeRF)に蒸留する。
提案手法の特筆すべき点は,基礎モデルや蒸留プロセスに手動セグメンテーションアノテーションを必要としない点である。
論文 参考訳(メタデータ) (2023-05-23T14:16:49Z) - OpenScene: 3D Scene Understanding with Open Vocabularies [73.1411930820683]
従来の3Dシーン理解アプローチは、単一のタスクのためにモデルをトレーニングするためのラベル付き3Dデータセットに依存している。
私たちは,CLIP機能空間にテキストと画像ピクセルを埋め込んだ3次元シーンポイントの高密度な特徴をモデルが予測する代替手法OpenSceneを提案する。
このゼロショットアプローチは、タスク非依存のトレーニングとオープン語彙クエリを可能にする。
論文 参考訳(メタデータ) (2022-11-28T18:58:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。