Fugu-MT 論文翻訳(概要): Search3D: Hierarchical Open-Vocabulary 3D Segmentation

論文の概要: Search3D: Hierarchical Open-Vocabulary 3D Segmentation

arxiv url: http://arxiv.org/abs/2409.18431v1
Date: Fri, 27 Sep 2024 03:44:07 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-06 06:21:38.165750
Title: Search3D: Hierarchical Open-Vocabulary 3D Segmentation
Title（参考訳）: Search3D:階層的なオープンボキャブラリー3Dセグメンテーション
Authors: Ayca Takmaz, Alexandros Delitzas, Robert W. Sumner, Francis Engelmann, Johanna Wald, Federico Tombari,
Abstract要約: オープンな3Dセグメンテーションにより、自由形式のテキスト記述を用いた3D空間の探索が可能となる。本稿では,階層的なオープンな3Dシーン表現を構築するアプローチであるSearch3Dを紹介する。本手法は,より柔軟なオープンな3次元検索設定にシフトすることで,オープン語彙のインスタンスレベル3次元セグメンテーションの能力を拡大することを目的としている。
参考スコア（独自算出の注目度）: 78.47704793095669
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Open-vocabulary 3D segmentation enables the exploration of 3D spaces using free-form text descriptions. Existing methods for open-vocabulary 3D instance segmentation primarily focus on identifying object-level instances in a scene. However, they face challenges when it comes to understanding more fine-grained scene entities such as object parts, or regions described by generic attributes. In this work, we introduce Search3D, an approach that builds a hierarchical open-vocabulary 3D scene representation, enabling the search for entities at varying levels of granularity: fine-grained object parts, entire objects, or regions described by attributes like materials. Our method aims to expand the capabilities of open vocabulary instance-level 3D segmentation by shifting towards a more flexible open-vocabulary 3D search setting less anchored to explicit object-centric queries, compared to prior work. To ensure a systematic evaluation, we also contribute a scene-scale open-vocabulary 3D part segmentation benchmark based on MultiScan, along with a set of open-vocabulary fine-grained part annotations on ScanNet++. We verify the effectiveness of Search3D across several tasks, demonstrating that our approach outperforms baselines in scene-scale open-vocabulary 3D part segmentation, while maintaining strong performance in segmenting 3D objects and materials.
Abstract（参考訳）: オープンな3Dセグメンテーションにより、自由形式のテキスト記述を用いた3D空間の探索が可能となる。オープンな3Dインスタンスセグメンテーションのための既存の方法は、主にシーン内のオブジェクトレベルのインスタンスを特定することに焦点を当てています。しかし、オブジェクトの部分やジェネリック属性によって記述された領域といったよりきめ細かいシーンエンティティを理解することに関して、それらは課題に直面します。本稿では,階層的なオープンな3次元シーン表現を構築するアプローチであるSearch3Dを紹介する。提案手法は,より柔軟なオープンボキャブラリ3Dサーチ設定にシフトすることで,オープンボキャブラリのインスタンスレベル3Dセグメンテーションの能力を拡張することを目的としている。また,システマティックな評価を実現するため,MultiScanに基づくシーンスケールのオープン語彙3D部分セグメンテーションベンチマークや,ScanNet++上のオープン語彙細粒度アノテーションのセットも提供します。提案手法は,3次元オブジェクトや素材のセグメンテーションにおいて高い性能を維持しつつ,シーンスケールのオープンな3次元部分セグメンテーションにおいて,ベースラインよりも優れていることを示す。

関連論文リスト

Segment Any 3D-Part in a Scene from a Sentence [50.46950922754459]
本稿では,自然言語記述に基づくシーン内の任意の3次元部分のセグメンテーションを実現することを目的とする。本稿では,高密度部分アノテーションを用いた最初の大規模3Dデータセットである3D-PUデータセットを紹介する。手法面では,パートレベルセグメンテーションの課題に対処する3DインプットのみのフレームワークであるOpenPart3Dを提案する。
論文参考訳（メタデータ） (2025-06-24T05:51:22Z)
OpenScan: A Benchmark for Generalized Open-Vocabulary 3D Scene Understanding [43.69535335079362]
Open-vocabulary 3D scene understanding (OV-3D)は、閉じたオブジェクトクラス以外の新しいオブジェクトをローカライズし分類することを目的としている。既存のアプローチとベンチマークは、主にオブジェクトクラスのコンテキスト内のオープンな語彙の問題に焦点を当てている。我々は、オブジェクトクラスを超えたオープンな語彙問題を探索するために、汎用オープン語彙3Dシーン理解(GOV-3D)と呼ばれるより困難なタスクを導入する。
論文参考訳（メタデータ） (2024-08-20T17:31:48Z)
Reasoning3D -- Grounding and Reasoning in 3D: Fine-Grained Zero-Shot Open-Vocabulary 3D Reasoning Part Segmentation via Large Vision-Language Models [20.277479473218513]
オブジェクトの検索とローカライズのためのZero-Shot 3D Reasoningを提案する。複雑なコマンドを理解し実行するためのシンプルなベースラインメソッドReasoning3Dを設計する。 Reasoning3Dは、暗黙のテキストクエリに基づいて、3Dオブジェクトの一部を効果的にローカライズし、ハイライトすることができることを示す。
論文参考訳（メタデータ） (2024-05-29T17:56:07Z)
SAI3D: Segment Any Instance in 3D Scenes [68.57002591841034]
新規なゼロショット3Dインスタンスセグメンテーション手法であるSAI3Dを紹介する。我々の手法は3Dシーンを幾何学的プリミティブに分割し、段階的に3Dインスタンスセグメンテーションにマージする。 ScanNet、Matterport3D、さらに難しいScanNet++データセットに関する実証的な評価は、我々のアプローチの優位性を示している。
論文参考訳（メタデータ） (2023-12-17T09:05:47Z)
Chat-Scene: Bridging 3D Scene and Large Language Models with Object Identifiers [65.51132104404051]
オブジェクトレベルのシーンと対話するために、オブジェクト識別子とオブジェクト中心表現を導入する。我々のモデルは、ScanRefer、Multi3DRefer、Scan2Cap、ScanQA、SQA3Dなど、既存のベンチマーク手法よりも大幅に優れています。
論文参考訳（メタデータ） (2023-12-13T14:27:45Z)
Object2Scene: Putting Objects in Context for Open-Vocabulary 3D Detection [24.871590175483096]
ポイントクラウドベースのオープンボキャブラリ3Dオブジェクト検出は、トレーニングセットに地味なアノテーションを持たない3Dカテゴリを検出することを目的としている。従来のアプローチでは、3Dとカテゴリのセマンティクスの橋渡しとして、大規模にリッチな注釈付き画像データセットを活用していた。本研究では,大規模大語彙の3Dオブジェクトデータセットを活用する最初のアプローチであるObject2Sceneを提案し,オープンな3Dオブジェクト検出のために既存の3Dシーンデータセットを拡張する。
論文参考訳（メタデータ） (2023-09-18T03:31:53Z)
Panoptic Vision-Language Feature Fields [27.209602602110916]
オープンボキャブラリパノプティックセグメンテーションのための第1のアルゴリズムを3次元シーンで提案する。本アルゴリズムは,事前学習した2次元モデルから視覚言語の特徴を抽出することにより,シーンの意味的特徴場を学習する。提案手法は,HyperSim, ScanNet, Replicaデータセット上の最先端のクローズドセット3Dシステムと同様のパノプティカルセグメンテーション性能を実現する。
論文参考訳（メタデータ） (2023-09-11T13:41:27Z)
Lowis3D: Language-Driven Open-World Instance-Level 3D Scene Understanding [57.47315482494805]
オープンワールドのインスタンスレベルのシーン理解は、アノテーション付きデータセットに存在しない未知のオブジェクトカテゴリを特定し、認識することを目的としている。モデルは新しい3Dオブジェクトをローカライズし、それらのセマンティックなカテゴリを推論する必要があるため、この課題は難しい。本稿では,3Dシーンのキャプションを生成するために,画像テキストペアからの広範な知識を符号化する,事前学習型視覚言語基盤モデルを提案する。
論文参考訳（メタデータ） (2023-08-01T07:50:14Z)
OpenMask3D: Open-Vocabulary 3D Instance Segmentation [84.58747201179654]
OpenMask3Dはオープンな3Dインスタンスセグメンテーションのためのゼロショットアプローチである。私たちのモデルは、CLIPベースの画像埋め込みのマルチビュー融合により、マスクごとの特徴を集約する。
論文参考訳（メタデータ） (2023-06-23T17:36:44Z)
Weakly Supervised 3D Open-vocabulary Segmentation [104.07740741126119]
学習済み基礎モデルCLIPとDINOを弱教師付きで活用することで,3次元オープン語彙セグメンテーションの課題に取り組む。我々はCLIPとDINOのオープン語彙多様知識とオブジェクト推論能力をニューラルラディアンス場(NeRF)に蒸留する。提案手法の特筆すべき点は,基礎モデルや蒸留プロセスに手動セグメンテーションアノテーションを必要としない点である。
論文参考訳（メタデータ） (2023-05-23T14:16:49Z)
OpenScene: 3D Scene Understanding with Open Vocabularies [73.1411930820683]
従来の3Dシーン理解アプローチは、単一のタスクのためにモデルをトレーニングするためのラベル付き3Dデータセットに依存している。私たちは,CLIP機能空間にテキストと画像ピクセルを埋め込んだ3次元シーンポイントの高密度な特徴をモデルが予測する代替手法OpenSceneを提案する。このゼロショットアプローチは、タスク非依存のトレーニングとオープン語彙クエリを可能にする。
論文参考訳（メタデータ） (2022-11-28T18:58:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。