論文の概要: OpenMask3D: Open-Vocabulary 3D Instance Segmentation
- arxiv url: http://arxiv.org/abs/2306.13631v2
- Date: Sun, 29 Oct 2023 14:04:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-31 20:59:07.066018
- Title: OpenMask3D: Open-Vocabulary 3D Instance Segmentation
- Title(参考訳): OpenMask3D: Open-Vocabulary 3D Instance Segmentation
- Authors: Ay\c{c}a Takmaz, Elisabetta Fedele, Robert W. Sumner, Marc Pollefeys,
Federico Tombari, Francis Engelmann
- Abstract要約: OpenMask3Dはオープンな3Dインスタンスセグメンテーションのためのゼロショットアプローチである。
私たちのモデルは、CLIPベースの画像埋め込みのマルチビュー融合により、マスクごとの特徴を集約する。
- 参考スコア(独自算出の注目度): 84.58747201179654
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce the task of open-vocabulary 3D instance segmentation. Current
approaches for 3D instance segmentation can typically only recognize object
categories from a pre-defined closed set of classes that are annotated in the
training datasets. This results in important limitations for real-world
applications where one might need to perform tasks guided by novel,
open-vocabulary queries related to a wide variety of objects. Recently,
open-vocabulary 3D scene understanding methods have emerged to address this
problem by learning queryable features for each point in the scene. While such
a representation can be directly employed to perform semantic segmentation,
existing methods cannot separate multiple object instances. In this work, we
address this limitation, and propose OpenMask3D, which is a zero-shot approach
for open-vocabulary 3D instance segmentation. Guided by predicted
class-agnostic 3D instance masks, our model aggregates per-mask features via
multi-view fusion of CLIP-based image embeddings. Experiments and ablation
studies on ScanNet200 and Replica show that OpenMask3D outperforms other
open-vocabulary methods, especially on the long-tail distribution. Qualitative
experiments further showcase OpenMask3D's ability to segment object properties
based on free-form queries describing geometry, affordances, and materials.
- Abstract(参考訳): オープン語彙3Dインスタンスセグメンテーションの課題を紹介する。
現在の3dインスタンスセグメンテーションのアプローチでは、トレーニングデータセットにアノテートされたクラスを事前に定義したクローズドセットからのみオブジェクトのカテゴリを認識できる。
これは、様々なオブジェクトに関連する新しいオープンボキャブラリクエリによって導かれるタスクを実行する必要がある実世界のアプリケーションにとって重要な制限となる。
近年,各場面の問合せ可能な特徴を学習することで,オープンな3Dシーン理解手法が出現している。
このような表現はセマンティクスのセグメンテーションを行うために直接使われるが、既存のメソッドでは複数のオブジェクトインスタンスを分離することはできない。
本研究では,この制限に対処し,オープンな3DインスタンスセグメンテーションのためのゼロショットアプローチであるOpenMask3Dを提案する。
予測されたクラス非依存の3Dインスタンスマスクによってガイドされた我々のモデルは、CLIPベースの画像埋め込みのマルチビュー融合を通じて、マスクごとの機能を集約する。
ScanNet200とReplicaの実験およびアブレーション研究により、OpenMask3Dは他の開語彙法、特に長尾分布よりも優れていることが示された。
定性的実験は、幾何学、余裕、材料を記述する自由形式のクエリに基づいてオブジェクトプロパティを分割するOpenMask3Dの機能をさらに示す。
関連論文リスト
- Search3D: Hierarchical Open-Vocabulary 3D Segmentation [78.47704793095669]
オープンな3Dセグメンテーションにより、自由形式のテキスト記述を用いた3D空間の探索が可能となる。
本稿では,階層的なオープンな3Dシーン表現を構築するアプローチであるSearch3Dを紹介する。
本手法は,より柔軟なオープンな3次元検索設定にシフトすることで,オープン語彙のインスタンスレベル3次元セグメンテーションの能力を拡大することを目的としている。
論文 参考訳(メタデータ) (2024-09-27T03:44:07Z) - Vocabulary-Free 3D Instance Segmentation with Vision and Language Assistant [11.416392706435415]
語彙自由な設定で3Dインスタンスのセグメンテーションに対処する最初の手法を提案する。
我々は、大きな視覚言語アシスタントとオープン語彙の2Dインスタンスセグメンタを活用して、セマンティックなカテゴリを発見し、グラウンド化する。
ScanNet200 と Replica を用いて提案手法の評価を行った。
論文 参考訳(メタデータ) (2024-08-20T08:46:54Z) - Open3DIS: Open-Vocabulary 3D Instance Segmentation with 2D Mask Guidance [49.14140194332482]
Open3DISは3Dシーン内でのOpen-Vocabulary Instanceの問題に対処するために設計された新しいソリューションである。
3D環境内のオブジェクトは、さまざまな形状、スケール、色を示し、正確なインスタンスレベルの識別が困難なタスクとなる。
論文 参考訳(メタデータ) (2023-12-17T10:07:03Z) - SAI3D: Segment Any Instance in 3D Scenes [68.57002591841034]
新規なゼロショット3Dインスタンスセグメンテーション手法であるSAI3Dを紹介する。
我々の手法は3Dシーンを幾何学的プリミティブに分割し、段階的に3Dインスタンスセグメンテーションにマージする。
ScanNet、Matterport3D、さらに難しいScanNet++データセットに関する実証的な評価は、我々のアプローチの優位性を示している。
論文 参考訳(メタデータ) (2023-12-17T09:05:47Z) - OpenIns3D: Snap and Lookup for 3D Open-vocabulary Instance Segmentation [32.508069732371105]
OpenIns3Dは、3Dオープン語彙シーン理解のための新しい3D入力専用フレームワークである。
様々な3Dオープン語彙タスクで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-09-01T17:59:56Z) - Weakly Supervised 3D Open-vocabulary Segmentation [104.07740741126119]
学習済み基礎モデルCLIPとDINOを弱教師付きで活用することで,3次元オープン語彙セグメンテーションの課題に取り組む。
我々はCLIPとDINOのオープン語彙多様知識とオブジェクト推論能力をニューラルラディアンス場(NeRF)に蒸留する。
提案手法の特筆すべき点は,基礎モデルや蒸留プロセスに手動セグメンテーションアノテーションを必要としない点である。
論文 参考訳(メタデータ) (2023-05-23T14:16:49Z) - OpenScene: 3D Scene Understanding with Open Vocabularies [73.1411930820683]
従来の3Dシーン理解アプローチは、単一のタスクのためにモデルをトレーニングするためのラベル付き3Dデータセットに依存している。
私たちは,CLIP機能空間にテキストと画像ピクセルを埋め込んだ3次元シーンポイントの高密度な特徴をモデルが予測する代替手法OpenSceneを提案する。
このゼロショットアプローチは、タスク非依存のトレーニングとオープン語彙クエリを可能にする。
論文 参考訳(メタデータ) (2022-11-28T18:58:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。