論文の概要: Search3D: Hierarchical Open-Vocabulary 3D Segmentation
- arxiv url: http://arxiv.org/abs/2409.18431v1
- Date: Fri, 27 Sep 2024 03:44:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-06 06:21:38.165750
- Title: Search3D: Hierarchical Open-Vocabulary 3D Segmentation
- Title(参考訳): Search3D:階層的なオープンボキャブラリー3Dセグメンテーション
- Authors: Ayca Takmaz, Alexandros Delitzas, Robert W. Sumner, Francis Engelmann, Johanna Wald, Federico Tombari,
- Abstract要約: オープンな3Dセグメンテーションにより、自由形式のテキスト記述を用いた3D空間の探索が可能となる。
本稿では,階層的なオープンな3Dシーン表現を構築するアプローチであるSearch3Dを紹介する。
本手法は,より柔軟なオープンな3次元検索設定にシフトすることで,オープン語彙のインスタンスレベル3次元セグメンテーションの能力を拡大することを目的としている。
- 参考スコア(独自算出の注目度): 78.47704793095669
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Open-vocabulary 3D segmentation enables the exploration of 3D spaces using free-form text descriptions. Existing methods for open-vocabulary 3D instance segmentation primarily focus on identifying object-level instances in a scene. However, they face challenges when it comes to understanding more fine-grained scene entities such as object parts, or regions described by generic attributes. In this work, we introduce Search3D, an approach that builds a hierarchical open-vocabulary 3D scene representation, enabling the search for entities at varying levels of granularity: fine-grained object parts, entire objects, or regions described by attributes like materials. Our method aims to expand the capabilities of open vocabulary instance-level 3D segmentation by shifting towards a more flexible open-vocabulary 3D search setting less anchored to explicit object-centric queries, compared to prior work. To ensure a systematic evaluation, we also contribute a scene-scale open-vocabulary 3D part segmentation benchmark based on MultiScan, along with a set of open-vocabulary fine-grained part annotations on ScanNet++. We verify the effectiveness of Search3D across several tasks, demonstrating that our approach outperforms baselines in scene-scale open-vocabulary 3D part segmentation, while maintaining strong performance in segmenting 3D objects and materials.
- Abstract(参考訳): オープンな3Dセグメンテーションにより、自由形式のテキスト記述を用いた3D空間の探索が可能となる。
オープンな3Dインスタンスセグメンテーションのための既存の方法は、主にシーン内のオブジェクトレベルのインスタンスを特定することに焦点を当てています。
しかし、オブジェクトの部分やジェネリック属性によって記述された領域といったよりきめ細かいシーンエンティティを理解することに関して、それらは課題に直面します。
本稿では,階層的なオープンな3次元シーン表現を構築するアプローチであるSearch3Dを紹介する。
提案手法は,より柔軟なオープンボキャブラリ3Dサーチ設定にシフトすることで,オープンボキャブラリのインスタンスレベル3Dセグメンテーションの能力を拡張することを目的としている。
また,システマティックな評価を実現するため,MultiScanに基づくシーンスケールのオープン語彙3D部分セグメンテーションベンチマークや,ScanNet++上のオープン語彙細粒度アノテーションのセットも提供します。
提案手法は,3次元オブジェクトや素材のセグメンテーションにおいて高い性能を維持しつつ,シーンスケールのオープンな3次元部分セグメンテーションにおいて,ベースラインよりも優れていることを示す。
関連論文リスト
- OpenScan: A Benchmark for Generalized Open-Vocabulary 3D Scene Understanding [43.69535335079362]
Open-vocabulary 3D scene understanding (OV-3D)は、閉じたオブジェクトクラス以外の新しいオブジェクトをローカライズし分類することを目的としている。
既存のアプローチとベンチマークは、主にオブジェクトクラスのコンテキスト内のオープンな語彙の問題に焦点を当てている。
我々は、オブジェクトクラスを超えたオープンな語彙問題を探索するために、汎用オープン語彙3Dシーン理解(GOV-3D)と呼ばれるより困難なタスクを導入する。
論文 参考訳(メタデータ) (2024-08-20T17:31:48Z) - SAI3D: Segment Any Instance in 3D Scenes [68.57002591841034]
新規なゼロショット3Dインスタンスセグメンテーション手法であるSAI3Dを紹介する。
我々の手法は3Dシーンを幾何学的プリミティブに分割し、段階的に3Dインスタンスセグメンテーションにマージする。
ScanNet、Matterport3D、さらに難しいScanNet++データセットに関する実証的な評価は、我々のアプローチの優位性を示している。
論文 参考訳(メタデータ) (2023-12-17T09:05:47Z) - Chat-Scene: Bridging 3D Scene and Large Language Models with Object Identifiers [65.51132104404051]
オブジェクトレベルのシーンと対話するために、オブジェクト識別子とオブジェクト中心表現を導入する。
我々のモデルは、ScanRefer、Multi3DRefer、Scan2Cap、ScanQA、SQA3Dなど、既存のベンチマーク手法よりも大幅に優れています。
論文 参考訳(メタデータ) (2023-12-13T14:27:45Z) - Panoptic Vision-Language Feature Fields [27.209602602110916]
オープンボキャブラリパノプティックセグメンテーションのための第1のアルゴリズムを3次元シーンで提案する。
本アルゴリズムは,事前学習した2次元モデルから視覚言語の特徴を抽出することにより,シーンの意味的特徴場を学習する。
提案手法は,HyperSim, ScanNet, Replicaデータセット上の最先端のクローズドセット3Dシステムと同様のパノプティカルセグメンテーション性能を実現する。
論文 参考訳(メタデータ) (2023-09-11T13:41:27Z) - Lowis3D: Language-Driven Open-World Instance-Level 3D Scene
Understanding [57.47315482494805]
オープンワールドのインスタンスレベルのシーン理解は、アノテーション付きデータセットに存在しない未知のオブジェクトカテゴリを特定し、認識することを目的としている。
モデルは新しい3Dオブジェクトをローカライズし、それらのセマンティックなカテゴリを推論する必要があるため、この課題は難しい。
本稿では,3Dシーンのキャプションを生成するために,画像テキストペアからの広範な知識を符号化する,事前学習型視覚言語基盤モデルを提案する。
論文 参考訳(メタデータ) (2023-08-01T07:50:14Z) - OpenMask3D: Open-Vocabulary 3D Instance Segmentation [84.58747201179654]
OpenMask3Dはオープンな3Dインスタンスセグメンテーションのためのゼロショットアプローチである。
私たちのモデルは、CLIPベースの画像埋め込みのマルチビュー融合により、マスクごとの特徴を集約する。
論文 参考訳(メタデータ) (2023-06-23T17:36:44Z) - Weakly Supervised 3D Open-vocabulary Segmentation [104.07740741126119]
学習済み基礎モデルCLIPとDINOを弱教師付きで活用することで,3次元オープン語彙セグメンテーションの課題に取り組む。
我々はCLIPとDINOのオープン語彙多様知識とオブジェクト推論能力をニューラルラディアンス場(NeRF)に蒸留する。
提案手法の特筆すべき点は,基礎モデルや蒸留プロセスに手動セグメンテーションアノテーションを必要としない点である。
論文 参考訳(メタデータ) (2023-05-23T14:16:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。