論文の概要: Language-Grounded Indoor 3D Semantic Segmentation in the Wild
- arxiv url: http://arxiv.org/abs/2204.07761v1
- Date: Sat, 16 Apr 2022 09:17:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-19 15:14:56.229186
- Title: Language-Grounded Indoor 3D Semantic Segmentation in the Wild
- Title(参考訳): 野生における言語周囲の3次元セマンティックセマンティックセグメンテーション
- Authors: David Rozenberszki, Or Litany, Angela Dai
- Abstract要約: 我々は,200種類のカテゴリを持つScanNetデータに対する新しい拡張ベンチマークを用いて,3次元セマンティックセマンティックセマンティックセグメンテーションのためのより大きな語彙について検討した。
本稿では,言語による事前学習手法を提案し,学習した3次元特徴が事前学習されたテキスト埋め込みに近接することを奨励する。
提案手法は,提案したベンチマークにおいて,3次元セマンティックセマンティックセグメンテーションのための最先端の3D事前トレーニングを一貫して上回っている。
- 参考スコア(独自算出の注目度): 33.40572976383402
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in 3D semantic segmentation with deep neural networks have
shown remarkable success, with rapid performance increase on available
datasets. However, current 3D semantic segmentation benchmarks contain only a
small number of categories -- less than 30 for ScanNet and SemanticKITTI, for
instance, which are not enough to reflect the diversity of real environments
(e.g., semantic image understanding covers hundreds to thousands of classes).
Thus, we propose to study a larger vocabulary for 3D semantic segmentation with
a new extended benchmark on ScanNet data with 200 class categories, an order of
magnitude more than previously studied. This large number of class categories
also induces a large natural class imbalance, both of which are challenging for
existing 3D semantic segmentation methods. To learn more robust 3D features in
this context, we propose a language-driven pre-training method to encourage
learned 3D features that might have limited training examples to lie close to
their pre-trained text embeddings. Extensive experiments show that our approach
consistently outperforms state-of-the-art 3D pre-training for 3D semantic
segmentation on our proposed benchmark (+9% relative mIoU), including
limited-data scenarios with +25% relative mIoU using only 5% annotations.
- Abstract(参考訳): ディープニューラルネットワークによる3Dセマンティックセグメンテーションの最近の進歩は、利用可能なデータセットのパフォーマンスが急速に向上するなど、目覚ましい成功を収めている。
しかし、現在の3Dセマンティックセグメンテーションのベンチマークでは、ScanNetとSemanticKITTIの30未満のカテゴリしか含んでおらず、実際の環境の多様性を反映するには不十分である(たとえば、セマンティックイメージの理解は数百から数千のクラスをカバーする)。
そこで本研究では,200のクラスカテゴリを持つスキャンネットデータに対する新たな拡張ベンチマークを用いて,3次元意味セグメンテーションのためのより大きな語彙について検討する。
この多数のクラスカテゴリは、また大きな自然クラス不均衡を引き起こし、どちらも既存の3d意味セグメンテーション法では困難である。
この文脈でより堅牢な3D特徴を学習するために,事前学習されたテキスト埋め込みに近接する訓練例を限定した3D特徴の学習を促すために,言語駆動型事前学習手法を提案する。
広範な実験により,提案するベンチマーク(+9%相対miou)における3dセマンティクスセグメンテーションのための最先端の3dプリトレーニングを,25%相対miouを5%のアノテーションで満たした限定データシナリオを含む,一貫して改善することを示した。
関連論文リスト
- Segment3D: Learning Fine-Grained Class-Agnostic 3D Segmentation without
Manual Labels [141.23836433191624]
現在の3Dシーンセグメンテーション手法は、手動で注釈付けされた3Dトレーニングデータセットに大きく依存している。
高品質な3Dセグメンテーションマスクを生成するクラス非依存の3Dシーンセグメンテーション法であるSegment3Dを提案する。
論文 参考訳(メタデータ) (2023-12-28T18:57:11Z) - SAI3D: Segment Any Instance in 3D Scenes [72.65788433148309]
新規なゼロショット3Dインスタンスセグメンテーション手法であるSAI3Dを紹介する。
我々の手法は3Dシーンを幾何学的プリミティブに分割し、段階的に3Dインスタンスセグメンテーションにマージする。
Scan-Netとより挑戦的なScanNet++データセットに関する実証的な評価は、我々のアプローチの優位性を示している。
論文 参考訳(メタデータ) (2023-12-17T09:05:47Z) - Lowis3D: Language-Driven Open-World Instance-Level 3D Scene
Understanding [57.47315482494805]
オープンワールドのインスタンスレベルのシーン理解は、アノテーション付きデータセットに存在しない未知のオブジェクトカテゴリを特定し、認識することを目的としている。
モデルは新しい3Dオブジェクトをローカライズし、それらのセマンティックなカテゴリを推論する必要があるため、この課題は難しい。
本稿では,3Dシーンのキャプションを生成するために,画像テキストペアからの広範な知識を符号化する,事前学習型視覚言語基盤モデルを提案する。
論文 参考訳(メタデータ) (2023-08-01T07:50:14Z) - CLIP2Scene: Towards Label-efficient 3D Scene Understanding by CLIP [55.864132158596206]
Contrastive Language-Image Pre-Training (CLIP) は、2次元ゼロショットおよび少数ショット学習において有望な結果をもたらす。
私たちは,CLIP知識が3Dシーン理解にどう役立つか,最初の試みを行う。
筆者らは,CLIPの知識を2次元画像テキスト事前学習モデルから3次元ポイント・クラウド・ネットワークに転送するフレームワークであるCLIP2Sceneを提案する。
論文 参考訳(メタデータ) (2023-01-12T10:42:39Z) - ULIP: Learning a Unified Representation of Language, Images, and Point
Clouds for 3D Understanding [110.07170245531464]
現在の3Dモデルは、注釈付きデータの少ないデータセットと、事前に定義されたカテゴリセットによって制限されている。
近年の進歩は、言語などの他のモダリティからの知識を活用することで、同様の問題を著しく軽減できることを示している。
画像,テキスト,3次元点雲の統一表現は,3つのモードからオブジェクト三重項を事前学習することで学習する。
論文 参考訳(メタデータ) (2022-12-10T01:34:47Z) - Generative Zero-Shot Learning for Semantic Segmentation of 3D Point
Cloud [79.99653758293277]
本稿では,ZSL(Zero-Shot Learning)とGZSL(Generalized ZSL)の両方を3次元データ上に生成する手法を提案する。
インダクティブZSLとインダクティブGZSLの両方に対して,ModelNet40分類における技術状況に到達または向上することを示す。
実験の結果,本手法は強いベースラインよりも優れており,さらに本手法を提案する。
論文 参考訳(メタデータ) (2021-08-13T13:29:27Z) - Learning Compositional Shape Priors for Few-Shot 3D Reconstruction [36.40776735291117]
複雑なエンコーダ・デコーダアーキテクチャが,カテゴリごとの大量のデータを利用することを示す。
データから直接クラス固有のグローバルな形状を学習する3つの方法を提案する。
人気のShapeNetデータセットの実験から,本手法はゼロショットベースラインを40%以上上回る性能を示した。
論文 参考訳(メタデータ) (2021-06-11T14:55:49Z) - Spatial Semantic Embedding Network: Fast 3D Instance Segmentation with
Deep Metric Learning [5.699350798684963]
ディープラーニングを用いた3次元インスタンスセグメンテーションのための,単純かつ効率的なアルゴリズムを提案する。
大規模シーンからの高レベルのインテリジェントなタスクに対して、3Dインスタンスセグメンテーションはオブジェクトの個々のインスタンスを認識する。
我々は,ScanNet 3D インスタンス分割ベンチマークにおいて,我々のアルゴリズムの最先端性能をAPスコアで示す。
論文 参考訳(メタデータ) (2020-07-07T02:17:44Z) - SemanticPOSS: A Point Cloud Dataset with Large Quantity of Dynamic
Instances [6.320104838736362]
3Dセマンティックセグメンテーションは、自動運転システムにとって重要なタスクの1つである。
3Dセマンティックセグメンテーションのための現在のデータセットは、ポイントワイズアノテーション、バラエティフォームシーン、動的オブジェクトの欠如である。
多数の動的インスタンスを持つ2988個のLiDARスキャンを含むSemanticPOSSデータセットを提案する。
論文 参考訳(メタデータ) (2020-02-21T06:10:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。