論文の概要: Search3D: Hierarchical Open-Vocabulary 3D Segmentation
- arxiv url: http://arxiv.org/abs/2409.18431v2
- Date: Wed, 22 Jan 2025 15:09:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-23 13:29:46.758092
- Title: Search3D: Hierarchical Open-Vocabulary 3D Segmentation
- Title(参考訳): Search3D:階層的なオープンボキャブラリー3Dセグメンテーション
- Authors: Ayca Takmaz, Alexandros Delitzas, Robert W. Sumner, Francis Engelmann, Johanna Wald, Federico Tombari,
- Abstract要約: 本稿では,階層的なオープンな3Dシーン表現を構築するためのアプローチであるSearch3Dを紹介する。
従来の方法とは異なり、Search3Dはより柔軟なオープンな3D検索パラダイムにシフトする。
体系的な評価のために,MultiScanに基づくシーンスケールのオープンボキャブラリ3D部分セグメンテーションベンチマークを提案する。
- 参考スコア(独自算出の注目度): 78.47704793095669
- License:
- Abstract: Open-vocabulary 3D segmentation enables exploration of 3D spaces using free-form text descriptions. Existing methods for open-vocabulary 3D instance segmentation primarily focus on identifying object-level instances but struggle with finer-grained scene entities such as object parts, or regions described by generic attributes. In this work, we introduce Search3D, an approach to construct hierarchical open-vocabulary 3D scene representations, enabling 3D search at multiple levels of granularity: fine-grained object parts, entire objects, or regions described by attributes like materials. Unlike prior methods, Search3D shifts towards a more flexible open-vocabulary 3D search paradigm, moving beyond explicit object-centric queries. For systematic evaluation, we further contribute a scene-scale open-vocabulary 3D part segmentation benchmark based on MultiScan, along with a set of open-vocabulary fine-grained part annotations on ScanNet++. Search3D outperforms baselines in scene-scale open-vocabulary 3D part segmentation, while maintaining strong performance in segmenting 3D objects and materials. Our project page is http://search3d-segmentation.github.io.
- Abstract(参考訳): オープンな3Dセグメンテーションにより、自由形式のテキスト記述を用いた3D空間の探索が可能となる。
オープンな3Dインスタンスセグメンテーションのための既存の方法は、主にオブジェクトレベルのインスタンスを特定することに焦点を当てるが、オブジェクト部分やジェネリック属性によって記述された領域のようなよりきめ細かいシーンエンティティに苦労する。
本稿では,階層的なオープンな3次元シーン表現を構築するためのアプローチであるSearch3Dを紹介し,粒度,オブジェクト全体,材料のような属性によって記述された領域など,複数のレベルの粒度で3D検索を可能にする。
従来の方法とは異なり、Search3Dはより柔軟でオープンな3D検索パラダイムに移行し、明示的なオブジェクト中心のクエリを越えている。
体系的な評価のために,MultiScanをベースとしたシーンスケールのオープン語彙3D部分セグメンテーションベンチマークと,ScanNet++上のオープン語彙細粒度アノテーションのセットを,さらにコントリビュートする。
Search3Dは3Dオブジェクトや素材のセグメンテーションにおいて高い性能を維持しながら、シーンスケールのオープンな3D部分セグメンテーションにおいてベースラインを上回っている。
私たちのプロジェクトページはhttp://search3d-segmentation.github.ioです。
関連論文リスト
- OpenScan: A Benchmark for Generalized Open-Vocabulary 3D Scene Understanding [43.69535335079362]
Open-vocabulary 3D scene understanding (OV-3D)は、閉じたオブジェクトクラス以外の新しいオブジェクトをローカライズし分類することを目的としている。
既存のアプローチとベンチマークは、主にオブジェクトクラスのコンテキスト内のオープンな語彙の問題に焦点を当てている。
我々は、オブジェクトクラスを超えたオープンな語彙問題を探索するために、汎用オープン語彙3Dシーン理解(GOV-3D)と呼ばれるより困難なタスクを導入する。
論文 参考訳(メタデータ) (2024-08-20T17:31:48Z) - SAI3D: Segment Any Instance in 3D Scenes [68.57002591841034]
新規なゼロショット3Dインスタンスセグメンテーション手法であるSAI3Dを紹介する。
我々の手法は3Dシーンを幾何学的プリミティブに分割し、段階的に3Dインスタンスセグメンテーションにマージする。
ScanNet、Matterport3D、さらに難しいScanNet++データセットに関する実証的な評価は、我々のアプローチの優位性を示している。
論文 参考訳(メタデータ) (2023-12-17T09:05:47Z) - Chat-Scene: Bridging 3D Scene and Large Language Models with Object Identifiers [65.51132104404051]
オブジェクトレベルのシーンと対話するために、オブジェクト識別子とオブジェクト中心表現を導入する。
我々のモデルは、ScanRefer、Multi3DRefer、Scan2Cap、ScanQA、SQA3Dなど、既存のベンチマーク手法よりも大幅に優れています。
論文 参考訳(メタデータ) (2023-12-13T14:27:45Z) - Panoptic Vision-Language Feature Fields [27.209602602110916]
オープンボキャブラリパノプティックセグメンテーションのための第1のアルゴリズムを3次元シーンで提案する。
本アルゴリズムは,事前学習した2次元モデルから視覚言語の特徴を抽出することにより,シーンの意味的特徴場を学習する。
提案手法は,HyperSim, ScanNet, Replicaデータセット上の最先端のクローズドセット3Dシステムと同様のパノプティカルセグメンテーション性能を実現する。
論文 参考訳(メタデータ) (2023-09-11T13:41:27Z) - Lowis3D: Language-Driven Open-World Instance-Level 3D Scene
Understanding [57.47315482494805]
オープンワールドのインスタンスレベルのシーン理解は、アノテーション付きデータセットに存在しない未知のオブジェクトカテゴリを特定し、認識することを目的としている。
モデルは新しい3Dオブジェクトをローカライズし、それらのセマンティックなカテゴリを推論する必要があるため、この課題は難しい。
本稿では,3Dシーンのキャプションを生成するために,画像テキストペアからの広範な知識を符号化する,事前学習型視覚言語基盤モデルを提案する。
論文 参考訳(メタデータ) (2023-08-01T07:50:14Z) - OpenMask3D: Open-Vocabulary 3D Instance Segmentation [84.58747201179654]
OpenMask3Dはオープンな3Dインスタンスセグメンテーションのためのゼロショットアプローチである。
私たちのモデルは、CLIPベースの画像埋め込みのマルチビュー融合により、マスクごとの特徴を集約する。
論文 参考訳(メタデータ) (2023-06-23T17:36:44Z) - Weakly Supervised 3D Open-vocabulary Segmentation [104.07740741126119]
学習済み基礎モデルCLIPとDINOを弱教師付きで活用することで,3次元オープン語彙セグメンテーションの課題に取り組む。
我々はCLIPとDINOのオープン語彙多様知識とオブジェクト推論能力をニューラルラディアンス場(NeRF)に蒸留する。
提案手法の特筆すべき点は,基礎モデルや蒸留プロセスに手動セグメンテーションアノテーションを必要としない点である。
論文 参考訳(メタデータ) (2023-05-23T14:16:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。