論文の概要: Lowis3D: Language-Driven Open-World Instance-Level 3D Scene
Understanding
- arxiv url: http://arxiv.org/abs/2308.00353v1
- Date: Tue, 1 Aug 2023 07:50:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-02 15:01:02.597983
- Title: Lowis3D: Language-Driven Open-World Instance-Level 3D Scene
Understanding
- Title(参考訳): Lowis3D: 言語駆動のオープンワールドインスタンスレベルの3Dシーン理解
- Authors: Runyu Ding, Jihan Yang, Chuhui Xue, Wenqing Zhang, Song Bai, Xiaojuan
Qi
- Abstract要約: オープンワールドのインスタンスレベルのシーン理解は、アノテーション付きデータセットに存在しない未知のオブジェクトカテゴリを特定し、認識することを目的としている。
モデルは新しい3Dオブジェクトをローカライズし、それらのセマンティックなカテゴリを推論する必要があるため、この課題は難しい。
本稿では,3Dシーンのキャプションを生成するために,画像テキストペアからの広範な知識を符号化する,事前学習型視覚言語基盤モデルを提案する。
- 参考スコア(独自算出の注目度): 57.47315482494805
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Open-world instance-level scene understanding aims to locate and recognize
unseen object categories that are not present in the annotated dataset. This
task is challenging because the model needs to both localize novel 3D objects
and infer their semantic categories. A key factor for the recent progress in 2D
open-world perception is the availability of large-scale image-text pairs from
the Internet, which cover a wide range of vocabulary concepts. However, this
success is hard to replicate in 3D scenarios due to the scarcity of 3D-text
pairs. To address this challenge, we propose to harness pre-trained
vision-language (VL) foundation models that encode extensive knowledge from
image-text pairs to generate captions for multi-view images of 3D scenes. This
allows us to establish explicit associations between 3D shapes and
semantic-rich captions. Moreover, to enhance the fine-grained visual-semantic
representation learning from captions for object-level categorization, we
design hierarchical point-caption association methods to learn semantic-aware
embeddings that exploit the 3D geometry between 3D points and multi-view
images. In addition, to tackle the localization challenge for novel classes in
the open-world setting, we develop debiased instance localization, which
involves training object grouping modules on unlabeled data using
instance-level pseudo supervision. This significantly improves the
generalization capabilities of instance grouping and thus the ability to
accurately locate novel objects. We conduct extensive experiments on 3D
semantic, instance, and panoptic segmentation tasks, covering indoor and
outdoor scenes across three datasets. Our method outperforms baseline methods
by a significant margin in semantic segmentation (e.g. 34.5%$\sim$65.3%),
instance segmentation (e.g. 21.8%$\sim$54.0%) and panoptic segmentation (e.g.
14.7%$\sim$43.3%). Code will be available.
- Abstract(参考訳): オープンワールドのインスタンスレベルのシーン理解は、アノテーション付きデータセットに存在しない未認識のオブジェクトカテゴリを見つけ、認識することを目的としている。
モデルは新しい3Dオブジェクトをローカライズし、それらのセマンティックなカテゴリを推論する必要があるため、この課題は難しい。
2dオープンワールド認識の最近の進歩の鍵となる要素は、幅広い語彙概念をカバーするインターネットからの大規模画像テキストペアが利用可能であることだ。
しかし、この成功は、3Dテキストペアの不足のため、3Dシナリオで再現することは困難である。
この課題に対処するために,3次元シーンの多視点画像のキャプションを生成するために,画像テキストペアからの広範な知識を符号化する,事前学習された視覚言語基盤モデルを提案する。
これにより,3次元形状と意味豊かなキャプションとの明確な関連性を確立することができる。
さらに、オブジェクトレベルの分類のためのキャプションからのきめ細かい視覚的意味表現の学習を強化するために、3Dポイントとマルチビューイメージ間の3次元幾何を利用した意味認識埋め込みを学習するための階層的ポイントキャプチャーアソシエーション法を設計する。
さらに,オープンワールド設定における新規クラスのローカライズチャレンジに取り組むために,インスタンスレベルの擬似監督を用いてラベルなしデータに対してオブジェクトグループ化モジュールをトレーニングするデバイアス付きインスタンスローカライズを開発した。
これにより、インスタンスグループ化の一般化能力が大幅に向上し、新しいオブジェクトを正確に見つけることができる。
室内と屋外のシーンを3つのデータセットでカバーし、3Dセマンティック、例えば、パノプティックセグメンテーションタスクについて広範な実験を行った。
我々の手法は、セマンティックセグメンテーション(34.5%$\sim$65.3%)、インスタンスセグメンテーション(21.8%$\sim$54.0%)、パン光学セグメンテーション(14.7%$\sim$43.3%)において、ベースライン手法よりも優れている。
コードは利用可能だ。
関連論文リスト
- Search3D: Hierarchical Open-Vocabulary 3D Segmentation [78.47704793095669]
オープンな3Dセグメンテーションにより、自由形式のテキスト記述を用いた3D空間の探索が可能となる。
本稿では,階層的なオープンな3Dシーン表現を構築するアプローチであるSearch3Dを紹介する。
本手法は,より柔軟なオープンな3次元検索設定にシフトすることで,オープン語彙のインスタンスレベル3次元セグメンテーションの能力を拡大することを目的としている。
論文 参考訳(メタデータ) (2024-09-27T03:44:07Z) - 3D Weakly Supervised Semantic Segmentation with 2D Vision-Language Guidance [68.8825501902835]
3DSS-VLGは2Dビジョンランゲージ誘導を用いた3Dセマンティックの弱い教師付きアプローチである。
我々の知る限りでは、テキストカテゴリラベルのテキスト意味情報を用いて、弱教師付きセマンティックセマンティックセグメンテーションを調査するのは、これが初めてである。
論文 参考訳(メタデータ) (2024-07-13T09:39:11Z) - Grounded 3D-LLM with Referent Tokens [58.890058568493096]
そこで我々は,Grounded 3D-LLMを提案する。
このモデルは、3Dシーンを参照するために特別な名詞句としてシーン参照トークンを使用する。
タスクごとの指示追従テンプレートは、3D視覚タスクを言語形式に翻訳する際の自然と多様性を保証するために使用される。
論文 参考訳(メタデータ) (2024-05-16T18:03:41Z) - UniM-OV3D: Uni-Modality Open-Vocabulary 3D Scene Understanding with Fine-Grained Feature Representation [46.998093729036334]
我々は,UniM-OV3Dという,マルチモーダルなオープン・ボキャブラリ・シーン理解ネットワークを提案する。
ポイントクラウドのグローバル機能とローカル機能をよりよく統合するために、階層的なポイントクラウド機能抽出モジュールを設計する。
キャプションからの粗い点列表現の学習を容易にするために,階層型3Dキャプションペアの利用を提案する。
論文 参考訳(メタデータ) (2024-01-21T04:13:58Z) - POP-3D: Open-Vocabulary 3D Occupancy Prediction from Images [32.33170182669095]
入力された2次元画像からオープンな3次元セマンティックなボクセル占有マップを推定する手法について述べる。
アーキテクチャは、2D-3Dエンコーダと、占有率予測と3D言語ヘッドで構成されている。
出力は3次元接地言語埋め込みの密度の高いボクセルマップであり、様々なオープン語彙タスクを可能にする。
論文 参考訳(メタデータ) (2024-01-17T18:51:53Z) - RegionPLC: Regional Point-Language Contrastive Learning for Open-World 3D Scene Understanding [46.253711788685536]
複数の2次元基礎モデルから派生した3次元視覚言語対を融合する3次元認識型SFusion戦略を導入する。
我々は、堅牢で効果的な3D学習を実現するために、地域対応のポイント識別型コントラスト学習目標を考案する。
我々のモデルは、セマンティックスとインスタンスセグメンテーションにおいて、平均17.2%と9.1%の3Dオープンワールドシーン理解アプローチよりも優れている。
論文 参考訳(メタデータ) (2023-04-03T13:30:04Z) - CLIP$^2$: Contrastive Language-Image-Point Pretraining from Real-World
Point Cloud Data [80.42480679542697]
現実シナリオにおける3Dポイントクラウド表現の伝達を学習するために,Contrastive Language-Image-Point Cloud Pretraining (CLIP$2$)を提案する。
具体的には、2Dおよび3Dシナリオで自然に存在する対応を利用して、それらの複雑なシナリオから、適切に整列されたインスタンスベースのテキストイメージポイントプロキシを構築します。
論文 参考訳(メタデータ) (2023-03-22T09:32:45Z) - PLA: Language-Driven Open-Vocabulary 3D Scene Understanding [57.47315482494805]
オープン語彙シーン理解は、アノテートされたラベル空間を超えて見えないカテゴリをローカライズし、認識することを目的としている。
最近の2次元オープン語彙認識のブレークスルーは、リッチな語彙概念を持つインターネットスケールのペア画像テキストデータによって駆動される。
本稿では,3次元からの多視点画像のキャプションにより,事前学習された視覚言語(VL)基盤モデルに符号化された知識を抽出することを提案する。
論文 参考訳(メタデータ) (2022-11-29T15:52:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。