論文の概要: RegionPLC: Regional Point-Language Contrastive Learning for Open-World
3D Scene Understanding
- arxiv url: http://arxiv.org/abs/2304.00962v2
- Date: Mon, 3 Jul 2023 04:52:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-04 14:03:58.669084
- Title: RegionPLC: Regional Point-Language Contrastive Learning for Open-World
3D Scene Understanding
- Title(参考訳): regionplc: オープンワールド3dシーン理解のための局所的ポイント言語コントラスト学習
- Authors: Jihan Yang, Runyu Ding, Zhe Wang, Xiaojuan Qi
- Abstract要約: 既存の3Dシーン理解タスクは、クローズセットベンチマークでは高いパフォーマンスを達成しているが、現実のアプリケーションでは新しいカテゴリを処理できない。
そこで我々は,オープンワールド3Dシーン理解のためのRegional Point-Language Contrastive Learningフレームワーク,すなわちRegionalPLCを提案する。
- 参考スコア(独自算出の注目度): 33.90339744495611
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Existing 3D scene understanding tasks have achieved high performance on
close-set benchmarks but fail to handle novel categories in real-world
applications. To this end, we propose a Regional Point-Language Contrastive
learning framework, namely RegionPLC, for open-world 3D scene understanding,
which equips models trained on closed-set datasets with open-vocabulary
recognition capabilities. We propose dense visual prompts to elicit
region-level visual-language knowledge from 2D foundation models via
captioning, which further allows us to build dense regional point-language
associations. Then, we design a point-discriminative contrastive learning
objective to enable point-independent learning from captions for dense scene
understanding. We conduct extensive experiments on ScanNet, ScanNet200, and
nuScenes datasets. Our RegionPLC significantly outperforms previous
base-annotated 3D open-world scene understanding approaches by an average of
11.6\% and 6.6\% for semantic and instance segmentation, respectively. It also
shows promising open-world results in absence of any human annotation with low
training and inference costs. Code will be released.
- Abstract(参考訳): 既存の3Dシーン理解タスクは、クローズセットベンチマークで高いパフォーマンスを達成したが、現実のアプリケーションでは新しいカテゴリを処理できなかった。
そこで本研究では,オープンボキャブラリー認識機能を備えたクローズドセットデータセット上で学習されたモデルを取り入れた,open-world 3dシーン理解のための地域的ポイント言語コントラスト学習フレームワークであるregionplcを提案する。
本研究では,2次元基礎モデルから地域レベルの視覚言語知識をキャプションを通して引き出すための密集した視覚プロンプトを提案する。
次に,シーン理解のためのキャプションから無意味なポイント独立学習を可能にするために,ポイント識別型コントラスト学習目標を設計する。
ScanNet, ScanNet200, nuScenesデータセットについて広範な実験を行った。
我々のRereaPLCは,従来の3次元オープンワールドシーン理解手法を,セマンティックスとインスタンスセグメンテーションで平均11.6\%,平均6.6\%で大幅に上回っている。
また、トレーニングと推論のコストが低い人間のアノテーションがない場合に、オープンワールドが有望な結果を示す。
コードはリリースされる。
関連論文リスト
- UniM-OV3D: Uni-Modality Open-Vocabulary 3D Scene Understanding with Fine-Grained Feature Representation [46.998093729036334]
我々は,UniM-OV3Dという,マルチモーダルなオープン・ボキャブラリ・シーン理解ネットワークを提案する。
ポイントクラウドのグローバル機能とローカル機能をよりよく統合するために、階層的なポイントクラウド機能抽出モジュールを設計する。
キャプションからの粗い点列表現の学習を容易にするために,階層型3Dキャプションペアの利用を提案する。
論文 参考訳(メタデータ) (2024-01-21T04:13:58Z) - POP-3D: Open-Vocabulary 3D Occupancy Prediction from Images [32.33170182669095]
入力された2次元画像からオープンな3次元セマンティックなボクセル占有マップを推定する手法について述べる。
アーキテクチャは、2D-3Dエンコーダと、占有率予測と3D言語ヘッドで構成されている。
出力は3次元接地言語埋め込みの密度の高いボクセルマップであり、様々なオープン語彙タスクを可能にする。
論文 参考訳(メタデータ) (2024-01-17T18:51:53Z) - SceneVerse: Scaling 3D Vision-Language Learning for Grounded Scene
Understanding [39.085879587406694]
3D視覚言語グラウンドリングは、言語と3D物理環境の整合性に焦点を当て、エンボディエージェントの開発の基盤となっている。
約68Kの屋内シーンを含む最初の100万スケールの3Dビジョン言語データセットであるSceneVerseを紹介した。
このスケーリングにより、3次元視覚言語学習のための一貫した事前学習フレームワーク、Grounded Pre-training for Scenes (GPS) が実現可能であることを実証する。
論文 参考訳(メタデータ) (2024-01-17T17:04:35Z) - Generalized Label-Efficient 3D Scene Parsing via Hierarchical Feature
Aligned Pre-Training and Region-Aware Fine-tuning [55.517000360348725]
本研究は,ラベル付きシーンが極めて限定された場合の3次元シーン理解のためのフレームワークを提案する。
事前学習された視覚言語モデルから新しいカテゴリーの知識を抽出するために,階層的特徴整合型事前学習と知識蒸留戦略を提案する。
室内と屋外の両方で実験を行ったところ、データ効率のよい学習とオープンワールドの複数ショット学習の両方において、我々のアプローチの有効性が示された。
論文 参考訳(メタデータ) (2023-12-01T15:47:04Z) - Three Ways to Improve Verbo-visual Fusion for Dense 3D Visual Grounding [79.8456640972935]
3Dビジュアルグラウンドティング(3D visual grounding)は、自然言語で記述された3Dシーンでオブジェクトをローカライズするタスクである。
本稿では,3つのスタンドアロンモジュールを特徴とする高密度3次元グラウンドネットワークを提案する。
まず,文間関係を曖昧にすることを目的としたボトムアップ注意融合モジュールを導入し,次に,潜時空間の分離を誘導する対照的な学習手法を構築し,学習されたグローバルカメラトークンを用いて視点依存発話を解消する。
論文 参考訳(メタデータ) (2023-09-08T19:27:01Z) - Lowis3D: Language-Driven Open-World Instance-Level 3D Scene
Understanding [57.47315482494805]
オープンワールドのインスタンスレベルのシーン理解は、アノテーション付きデータセットに存在しない未知のオブジェクトカテゴリを特定し、認識することを目的としている。
モデルは新しい3Dオブジェクトをローカライズし、それらのセマンティックなカテゴリを推論する必要があるため、この課題は難しい。
本稿では,3Dシーンのキャプションを生成するために,画像テキストペアからの広範な知識を符号化する,事前学習型視覚言語基盤モデルを提案する。
論文 参考訳(メタデータ) (2023-08-01T07:50:14Z) - CLIP$^2$: Contrastive Language-Image-Point Pretraining from Real-World
Point Cloud Data [80.42480679542697]
現実シナリオにおける3Dポイントクラウド表現の伝達を学習するために,Contrastive Language-Image-Point Cloud Pretraining (CLIP$2$)を提案する。
具体的には、2Dおよび3Dシナリオで自然に存在する対応を利用して、それらの複雑なシナリオから、適切に整列されたインスタンスベースのテキストイメージポイントプロキシを構築します。
論文 参考訳(メタデータ) (2023-03-22T09:32:45Z) - PLA: Language-Driven Open-Vocabulary 3D Scene Understanding [57.47315482494805]
オープン語彙シーン理解は、アノテートされたラベル空間を超えて見えないカテゴリをローカライズし、認識することを目的としている。
最近の2次元オープン語彙認識のブレークスルーは、リッチな語彙概念を持つインターネットスケールのペア画像テキストデータによって駆動される。
本稿では,3次元からの多視点画像のキャプションにより,事前学習された視覚言語(VL)基盤モデルに符号化された知識を抽出することを提案する。
論文 参考訳(メタデータ) (2022-11-29T15:52:22Z) - Language-Assisted 3D Feature Learning for Semantic Scene Understanding [26.414294993374543]
言語支援型3D特徴学習は、現代のオブジェクト検出とインスタンスセグメンテーションの手法と組み合わせることができる。
3次元言語タスクと3次元言語タスクのベンチマーク実験により,言語支援型3次元特徴学習の有効性が示された。
論文 参考訳(メタデータ) (2022-11-25T13:21:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。