Fugu-MT 論文翻訳(概要): Vocabulary-Free 3D Instance Segmentation with Vision and Language Assistant

論文の概要: Vocabulary-Free 3D Instance Segmentation with Vision and Language Assistant

arxiv url: http://arxiv.org/abs/2408.10652v1
Date: Tue, 20 Aug 2024 08:46:54 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-21 14:34:27.197845
Title: Vocabulary-Free 3D Instance Segmentation with Vision and Language Assistant
Title（参考訳）: 視覚と言語アシスタントを用いた語彙自由な3次元インスタンスセグメンテーション
Authors: Guofeng Mei, Luigi Riz, Yiming Wang, Fabio Poiesi,
Abstract要約: 語彙自由な設定で3Dインスタンスのセグメンテーションに対処する最初の手法を提案する。我々は、大きな視覚言語アシスタントとオープン語彙の2Dインスタンスセグメンタを活用して、セマンティックなカテゴリを発見し、グラウンド化する。 ScanNet200 と Replica を用いて提案手法の評価を行った。
参考スコア（独自算出の注目度）: 11.416392706435415
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Most recent 3D instance segmentation methods are open vocabulary, offering a greater flexibility than closed-vocabulary methods. Yet, they are limited to reasoning within a specific set of concepts, \ie the vocabulary, prompted by the user at test time. In essence, these models cannot reason in an open-ended fashion, i.e., answering ``List the objects in the scene.''. We introduce the first method to address 3D instance segmentation in a setting that is void of any vocabulary prior, namely a vocabulary-free setting. We leverage a large vision-language assistant and an open-vocabulary 2D instance segmenter to discover and ground semantic categories on the posed images. To form 3D instance mask, we first partition the input point cloud into dense superpoints, which are then merged into 3D instance masks. We propose a novel superpoint merging strategy via spectral clustering, accounting for both mask coherence and semantic coherence that are estimated from the 2D object instance masks. We evaluate our method using ScanNet200 and Replica, outperforming existing methods in both vocabulary-free and open-vocabulary settings. Code will be made available.
Abstract（参考訳）: 最近の3Dインスタンスセグメンテーション手法はオープンボキャブラリであり、クローズドボキャブラリ法よりも柔軟性が高い。しかし、それらは特定の概念のセットである‘e the vocabulary’内での推論に限定されており、テスト時にユーザがトリガーする。本質的に、これらのモデルは、オープンエンドな方法で、つまり、シーン内のオブジェクトの ``List' に答えることができない。と。本稿では,前述した語彙のない設定,すなわち語彙のない設定において,3Dインスタンスのセグメンテーションに対処する最初の方法を紹介する。提案手法では,大規模視覚言語アシスタントとオープンボキャブラリ2Dインスタンスセグメンタを用いて,提案した画像のセマンティックなカテゴリを探索し,構築する。 3Dインスタンスマスクを形成するために、まず入力点雲を高密度なスーパーポイントに分割し、3Dインスタンスマスクにマージする。本稿では,2次元オブジェクト・インスタンス・マスクから推定されるマス・コヒーレンスとセマンティック・コヒーレンスの両方を考慮したスペクトルクラスタリングによる新たなスーパーポイント・マージ戦略を提案する。 ScanNet200 と Replica を用いて提案手法の評価を行った。コードは利用可能になる。

関連論文リスト

XMask3D: Cross-modal Mask Reasoning for Open Vocabulary 3D Semantic Segmentation [72.12250272218792]
本稿では,3次元特徴量と2次元テキスト埋め込み空間とのより精巧なマスクレベルのアライメントを,クロスモーダルマスク推論フレームワークであるXMask3Dを用いて提案する。我々は、3Dグローバルな特徴を暗黙の条件として、事前訓練された2D denoising UNetに統合し、セグメンテーションマスクの生成を可能にする。生成した2Dマスクを用いて、マスクレベルの3D表現を視覚言語の特徴空間と整合させ、3D幾何埋め込みの開語彙能力を増大させる。
論文参考訳（メタデータ） (2024-11-20T12:02:12Z)
Search3D: Hierarchical Open-Vocabulary 3D Segmentation [78.47704793095669]
オープンな3Dセグメンテーションにより、自由形式のテキスト記述を用いた3D空間の探索が可能となる。本稿では,階層的なオープンな3Dシーン表現を構築するアプローチであるSearch3Dを紹介する。本手法は,より柔軟なオープンな3次元検索設定にシフトすることで,オープン語彙のインスタンスレベル3次元セグメンテーションの能力を拡大することを目的としている。
論文参考訳（メタデータ） (2024-09-27T03:44:07Z)
OpenScan: A Benchmark for Generalized Open-Vocabulary 3D Scene Understanding [43.69535335079362]
Open-vocabulary 3D scene understanding (OV-3D)は、閉じたオブジェクトクラス以外の新しいオブジェクトをローカライズし分類することを目的としている。既存のアプローチとベンチマークは、主にオブジェクトクラスのコンテキスト内のオープンな語彙の問題に焦点を当てている。我々は、オブジェクトクラスを超えたオープンな語彙問題を探索するために、汎用オープン語彙3Dシーン理解(GOV-3D)と呼ばれるより困難なタスクを導入する。
論文参考訳（メタデータ） (2024-08-20T17:31:48Z)
3D-AVS: LiDAR-based 3D Auto-Vocabulary Segmentation [20.7179907935644]
3D-AVSは3Dポイントクラウドのオートボキャブラリの手法で、ボキャブラリが未知であり、実行時に各入力に対して自動生成される。 3D-AVSはまずイメージまたはポイントクラウドデータからセマンティックエンティティを認識し、次に自動的に生成された語彙ですべてのポイントをセグメンテーションする。本手法は、画像ベースと点ベースの両方の認識を取り入れ、難解な照明条件下で頑健さを向上する。
論文参考訳（メタデータ） (2024-06-13T13:59:47Z)
MaskClustering: View Consensus based Mask Graph Clustering for Open-Vocabulary 3D Instance Segmentation [11.123421412837336]
オープン語彙の3Dインスタンスセグメンテーションは、事前に定義されたカテゴリなしで3Dインスタンスをセグメンテーションできる能力のために最先端である。最近の研究はまず2Dモデルを通して2Dオープンボキャブラリマスクを生成し、2つの隣接するフレーム間で計算されたメトリクスに基づいてそれらを3Dインスタンスにマージする。本稿では,多視点観測の利用率を高めるために,新しい基準であるビューコンセンサス率を提案する。
論文参考訳（メタデータ） (2024-01-15T14:56:15Z)
Panoptic Vision-Language Feature Fields [27.209602602110916]
オープンボキャブラリパノプティックセグメンテーションのための第1のアルゴリズムを3次元シーンで提案する。本アルゴリズムは,事前学習した2次元モデルから視覚言語の特徴を抽出することにより,シーンの意味的特徴場を学習する。提案手法は,HyperSim, ScanNet, Replicaデータセット上の最先端のクローズドセット3Dシステムと同様のパノプティカルセグメンテーション性能を実現する。
論文参考訳（メタデータ） (2023-09-11T13:41:27Z)
Lowis3D: Language-Driven Open-World Instance-Level 3D Scene Understanding [57.47315482494805]
オープンワールドのインスタンスレベルのシーン理解は、アノテーション付きデータセットに存在しない未知のオブジェクトカテゴリを特定し、認識することを目的としている。モデルは新しい3Dオブジェクトをローカライズし、それらのセマンティックなカテゴリを推論する必要があるため、この課題は難しい。本稿では,3Dシーンのキャプションを生成するために,画像テキストペアからの広範な知識を符号化する,事前学習型視覚言語基盤モデルを提案する。
論文参考訳（メタデータ） (2023-08-01T07:50:14Z)
OpenMask3D: Open-Vocabulary 3D Instance Segmentation [84.58747201179654]
OpenMask3Dはオープンな3Dインスタンスセグメンテーションのためのゼロショットアプローチである。私たちのモデルは、CLIPベースの画像埋め込みのマルチビュー融合により、マスクごとの特徴を集約する。
論文参考訳（メタデータ） (2023-06-23T17:36:44Z)
Weakly Supervised 3D Open-vocabulary Segmentation [104.07740741126119]
学習済み基礎モデルCLIPとDINOを弱教師付きで活用することで,3次元オープン語彙セグメンテーションの課題に取り組む。我々はCLIPとDINOのオープン語彙多様知識とオブジェクト推論能力をニューラルラディアンス場(NeRF)に蒸留する。提案手法の特筆すべき点は,基礎モデルや蒸留プロセスに手動セグメンテーションアノテーションを必要としない点である。
論文参考訳（メタデータ） (2023-05-23T14:16:49Z)
OpenScene: 3D Scene Understanding with Open Vocabularies [73.1411930820683]
従来の3Dシーン理解アプローチは、単一のタスクのためにモデルをトレーニングするためのラベル付き3Dデータセットに依存している。私たちは,CLIP機能空間にテキストと画像ピクセルを埋め込んだ3次元シーンポイントの高密度な特徴をモデルが予測する代替手法OpenSceneを提案する。このゼロショットアプローチは、タスク非依存のトレーニングとオープン語彙クエリを可能にする。
論文参考訳（メタデータ） (2022-11-28T18:58:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。