論文の概要: Segment Any 3D Object with Language
- arxiv url: http://arxiv.org/abs/2404.02157v1
- Date: Tue, 2 Apr 2024 17:59:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-03 15:20:18.247815
- Title: Segment Any 3D Object with Language
- Title(参考訳): 言語による任意の3Dオブジェクトのセグメンテーション
- Authors: Seungjun Lee, Yuyang Zhao, Gim Hee Lee,
- Abstract要約: 本稿では,Segment any 3D Object with LanguagE (SOLE)を紹介した。
具体的には、バックボーンとデコーダの両方にマルチモーダル意味を組み込むマルチモーダル融合ネットワークを提案する。
我々のSOLEは、ScanNetv2、ScanNet200、Replicaベンチマークにおいて、従来の方法よりも大きなマージンで優れている。
- 参考スコア(独自算出の注目度): 58.471327490684295
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we investigate Open-Vocabulary 3D Instance Segmentation (OV-3DIS) with free-form language instructions. Earlier works that rely on only annotated base categories for training suffer from limited generalization to unseen novel categories. Recent works mitigate poor generalizability to novel categories by generating class-agnostic masks or projecting generalized masks from 2D to 3D, but disregard semantic or geometry information, leading to sub-optimal performance. Instead, generating generalizable but semantic-related masks directly from 3D point clouds would result in superior outcomes. In this paper, we introduce Segment any 3D Object with LanguagE (SOLE), which is a semantic and geometric-aware visual-language learning framework with strong generalizability by generating semantic-related masks directly from 3D point clouds. Specifically, we propose a multimodal fusion network to incorporate multimodal semantics in both backbone and decoder. In addition, to align the 3D segmentation model with various language instructions and enhance the mask quality, we introduce three types of multimodal associations as supervision. Our SOLE outperforms previous methods by a large margin on ScanNetv2, ScanNet200, and Replica benchmarks, and the results are even close to the fully-supervised counterpart despite the absence of class annotations in the training. Furthermore, extensive qualitative results demonstrate the versatility of our SOLE to language instructions.
- Abstract(参考訳): 本稿では,自由形式の言語命令を用いたオープン語彙3Dインスタンスセグメンテーション(OV-3DIS)について検討する。
注釈付き基本カテゴリーのみに依存した初期の作品では、未確認の新規カテゴリーへの限定的な一般化に悩まされていた。
近年の研究では,2次元から3次元への一般化マスクの生成や,意味や幾何学的情報を無視した一般化マスクの投影により,新しいカテゴリーへの一般化性が低下し,準最適性能が向上している。
代わりに、3Dポイントの雲から直接、一般化できるがセマンティックなマスクを生成すると、より優れた結果が得られる。
本稿では,Segment any 3D Object with LanguagE (SOLE)について紹介する。
具体的には、バックボーンとデコーダの両方にマルチモーダル意味を組み込むマルチモーダル融合ネットワークを提案する。
さらに,3次元セグメンテーションモデルと様々な言語命令を一致させ,マスクの品質を高めるために,3種類のマルチモーダルアソシエーションを監督として導入する。
我々のSOLEは、ScanNetv2、ScanNet200、Replicaのベンチマークにおいて、従来のメソッドよりも大幅に優れています。
さらに, 言語命令に対するSOLEの汎用性についても検討した。
関連論文リスト
- UniM-OV3D: Uni-Modality Open-Vocabulary 3D Scene Understanding with Fine-Grained Feature Representation [46.998093729036334]
我々は,UniM-OV3Dという,マルチモーダルなオープン・ボキャブラリ・シーン理解ネットワークを提案する。
ポイントクラウドのグローバル機能とローカル機能をよりよく統合するために、階層的なポイントクラウド機能抽出モジュールを設計する。
キャプションからの粗い点列表現の学習を容易にするために,階層型3Dキャプションペアの利用を提案する。
論文 参考訳(メタデータ) (2024-01-21T04:13:58Z) - 3D Open-Vocabulary Panoptic Segmentation with 2D-3D Vision-Language Distillation [40.49322398635262]
本稿では,3次元オープンボキャブラリパノプタセグメンテーションのための最初の手法を提案する。
我々のモデルは、学習可能なLiDAR機能と密集した凍結視覚CLIP機能との融合を利用する。
本稿では,オブジェクトレベルの蒸留損失とボクセルレベルの蒸留損失の2つの新しい損失関数を提案する。
論文 参考訳(メタデータ) (2024-01-04T18:39:32Z) - Segment3D: Learning Fine-Grained Class-Agnostic 3D Segmentation without
Manual Labels [141.23836433191624]
現在の3Dシーンセグメンテーション手法は、手動で注釈付けされた3Dトレーニングデータセットに大きく依存している。
高品質な3Dセグメンテーションマスクを生成するクラス非依存の3Dシーンセグメンテーション法であるSegment3Dを提案する。
論文 参考訳(メタデータ) (2023-12-28T18:57:11Z) - SAI3D: Segment Any Instance in 3D Scenes [68.57002591841034]
新規なゼロショット3Dインスタンスセグメンテーション手法であるSAI3Dを紹介する。
我々の手法は3Dシーンを幾何学的プリミティブに分割し、段階的に3Dインスタンスセグメンテーションにマージする。
ScanNet、Matterport3D、さらに難しいScanNet++データセットに関する実証的な評価は、我々のアプローチの優位性を示している。
論文 参考訳(メタデータ) (2023-12-17T09:05:47Z) - Leveraging Large-Scale Pretrained Vision Foundation Models for
Label-Efficient 3D Point Cloud Segmentation [67.07112533415116]
本稿では3Dポイントクラウドセグメンテーションタスクに様々な基礎モデルを適用する新しいフレームワークを提案する。
我々のアプローチでは、異なる大きな視覚モデルを用いて2次元セマンティックマスクの初期予測を行う。
本研究では,ロバストな3Dセマンティックな擬似ラベルを生成するために,投票による全ての結果を効果的に組み合わせたセマンティックなラベル融合戦略を提案する。
論文 参考訳(メタデータ) (2023-11-03T15:41:15Z) - Lowis3D: Language-Driven Open-World Instance-Level 3D Scene
Understanding [57.47315482494805]
オープンワールドのインスタンスレベルのシーン理解は、アノテーション付きデータセットに存在しない未知のオブジェクトカテゴリを特定し、認識することを目的としている。
モデルは新しい3Dオブジェクトをローカライズし、それらのセマンティックなカテゴリを推論する必要があるため、この課題は難しい。
本稿では,3Dシーンのキャプションを生成するために,画像テキストペアからの広範な知識を符号化する,事前学習型視覚言語基盤モデルを提案する。
論文 参考訳(メタデータ) (2023-08-01T07:50:14Z) - Segmenting 3D Hybrid Scenes via Zero-Shot Learning [13.161136148641813]
この研究は、ゼロショット学習の枠組みの下で、3Dハイブリッドシーンのポイントクラウドセマンティックセマンティックセマンティクスの問題に取り組むことを目的としている。
本稿では、PFNetと呼ばれる、オブジェクトの様々なクラスに対するポイント特徴を、見えていないクラスと見えないクラスの両方のセマンティック特徴を利用して合成するネットワークを提案する。
提案したPFNet は点特徴を合成するために GAN アーキテクチャを用いており、新しい意味正規化器を適用することにより、目に見えるクラスと目に見えないクラスの特徴のセマンティックな関係が統合される。
本研究では,S3DISデータセットとScanNetデータセットを6つの異なるデータ分割で再編成し,アルゴリズム評価のための2つのベンチマークを提案する。
論文 参考訳(メタデータ) (2021-07-01T13:21:49Z) - Fine-Grained 3D Shape Classification with Hierarchical Part-View
Attentions [70.0171362989609]
本稿では,FG3D-Netと呼ばれる新しい3次元形状分類手法を提案する。
詳細な3次元形状データセットに基づく結果から,本手法が他の最先端手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2020-05-26T06:53:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。