論文の概要: Towards Label-free Scene Understanding by Vision Foundation Models
- arxiv url: http://arxiv.org/abs/2306.03899v2
- Date: Mon, 30 Oct 2023 15:27:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-01 23:39:07.267349
- Title: Towards Label-free Scene Understanding by Vision Foundation Models
- Title(参考訳): ビジョンファウンデーションモデルによるラベルなしシーン理解に向けて
- Authors: Runnan Chen, Youquan Liu, Lingdong Kong, Nenglun Chen, Xinge Zhu,
Yuexin Ma, Tongliang Liu, Wenping Wang
- Abstract要約: ネットワークがラベル付きデータなしで2Dおよび3D世界を理解できるようにするためのビジョン基盤モデルの可能性について検討する。
本稿では,CLIPとSAMの強度を利用して2次元ネットワークと3次元ネットワークを同時に監視するクロスモダリティ・ノイズ・スーパービジョン(CNS)手法を提案する。
我々の2Dネットワークと3Dネットワークは、ScanNet上で28.4%と33.5%のmIoUでラベルなしセマンティックセグメンテーションを実現し、それぞれ4.7%と7.9%を改善した。
- 参考スコア(独自算出の注目度): 87.13117617056004
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Vision foundation models such as Contrastive Vision-Language Pre-training
(CLIP) and Segment Anything (SAM) have demonstrated impressive zero-shot
performance on image classification and segmentation tasks. However, the
incorporation of CLIP and SAM for label-free scene understanding has yet to be
explored. In this paper, we investigate the potential of vision foundation
models in enabling networks to comprehend 2D and 3D worlds without labelled
data. The primary challenge lies in effectively supervising networks under
extremely noisy pseudo labels, which are generated by CLIP and further
exacerbated during the propagation from the 2D to the 3D domain. To tackle
these challenges, we propose a novel Cross-modality Noisy Supervision (CNS)
method that leverages the strengths of CLIP and SAM to supervise 2D and 3D
networks simultaneously. In particular, we introduce a prediction consistency
regularization to co-train 2D and 3D networks, then further impose the
networks' latent space consistency using the SAM's robust feature
representation. Experiments conducted on diverse indoor and outdoor datasets
demonstrate the superior performance of our method in understanding 2D and 3D
open environments. Our 2D and 3D network achieves label-free semantic
segmentation with 28.4\% and 33.5\% mIoU on ScanNet, improving 4.7\% and 7.9\%,
respectively. For nuImages and nuScenes datasets, the performance is 22.1\% and
26.8\% with improvements of 3.5\% and 6.0\%, respectively. Code is available.
(https://github.com/runnanchen/Label-Free-Scene-Understanding).
- Abstract(参考訳): Contrastive Vision-Language Pre-Training (CLIP) や Segment Anything (SAM) のような視覚基礎モデルは、画像分類やセグメンテーションタスクにおいて印象的なゼロショット性能を示している。
しかし, ラベルなしシーン理解のためのCLIPとSAMの組み入れはまだ検討されていない。
本稿では,ラベル付きデータなしで2次元世界と3次元世界を理解可能にするビジョン基盤モデルの可能性を検討する。
主な課題は、非常にノイズの多い擬似ラベルの下でネットワークを効果的に監視することであり、これはCLIPによって生成され、2Dから3Dドメインへの伝播中にさらに悪化する。
これらの課題に対処するために,CLIPとSAMの強みを利用して同時に2Dと3Dネットワークを監督するクロスモダリティノイズスーパービジョン(CNS)手法を提案する。
特に,コトレイン2Dおよび3Dネットワークに対して予測整合性正則化を導入し,さらにSAMの頑健な特徴表現を用いた遅延空間整合性を示す。
屋内および屋外の多様なデータセットを用いた実験は,2次元および3次元オープン環境の理解において,本手法の優れた性能を示す。
2dネットワークと3dネットワークは、scannet上で28.4\%と33.5\%miouでラベルなしセマンティクスセグメンテーションを実現し、それぞれ4.7\%と7.9\%を改善した。
nuImages と nuScenes のデータセットでは、それぞれ 22.1\% と 26.8\% であり、3.5\% と 6.0\% の改善がある。
コードは利用可能。
(https://github.com/runnanchen/Label-Free-Scene-Understanding)。
関連論文リスト
- Cross-Modal Self-Training: Aligning Images and Pointclouds to Learn Classification without Labels [69.55622471172941]
CLIPのような大規模ビジョン2D視覚言語モデルは、一般化可能な(オープン語彙)3D視覚モデルを学ぶために3Dエンコーダと整列することができる。
ゼロショット3Dビジョンモデルのラベルなし分類性能を改善するために、クロスモーダル自己訓練(Cross-MoST: Cross-Modal Self-Training)を提案する。
論文 参考訳(メタデータ) (2024-04-15T21:30:50Z) - Leveraging Large-Scale Pretrained Vision Foundation Models for
Label-Efficient 3D Point Cloud Segmentation [67.07112533415116]
本稿では3Dポイントクラウドセグメンテーションタスクに様々な基礎モデルを適用する新しいフレームワークを提案する。
我々のアプローチでは、異なる大きな視覚モデルを用いて2次元セマンティックマスクの初期予測を行う。
本研究では,ロバストな3Dセマンティックな擬似ラベルを生成するために,投票による全ての結果を効果的に組み合わせたセマンティックなラベル融合戦略を提案する。
論文 参考訳(メタデータ) (2023-11-03T15:41:15Z) - CLIP2Scene: Towards Label-efficient 3D Scene Understanding by CLIP [55.864132158596206]
Contrastive Language-Image Pre-Training (CLIP) は、2次元ゼロショットおよび少数ショット学習において有望な結果をもたらす。
私たちは,CLIP知識が3Dシーン理解にどう役立つか,最初の試みを行う。
筆者らは,CLIPの知識を2次元画像テキスト事前学習モデルから3次元ポイント・クラウド・ネットワークに転送するフレームワークであるCLIP2Sceneを提案する。
論文 参考訳(メタデータ) (2023-01-12T10:42:39Z) - Image Understands Point Cloud: Weakly Supervised 3D Semantic
Segmentation via Association Learning [59.64695628433855]
ラベルのない画像から補完的な情報を取り入れた3次元セグメンテーションのための新しいクロスモダリティ弱教師付き手法を提案する。
基本的に、ラベルの小さな部分のパワーを最大化するために、アクティブなラベリング戦略を備えたデュアルブランチネットワークを設計する。
提案手法は,1%未満のアクティブなアノテーションで,最先端の完全教師付き競合よりも優れていた。
論文 参考訳(メタデータ) (2022-09-16T07:59:04Z) - Cylindrical and Asymmetrical 3D Convolution Networks for LiDAR-based
Perception [122.53774221136193]
運転時のLiDARに基づく認識のための最先端の手法は、しばしば点雲を2D空間に投影し、2D畳み込みによって処理する。
自然な対策として、3Dボクセル化と3D畳み込みネットワークを利用する方法がある。
本研究では,3次元幾何学的パターンを探索するために,円筒状分割と非対称な3次元畳み込みネットワークを設計する,屋外LiDARセグメンテーションのための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-12T06:25:11Z) - S3CNet: A Sparse Semantic Scene Completion Network for LiDAR Point
Clouds [0.16799377888527683]
S3CNetはスパース畳み込みに基づくニューラルネットワークで、単一で統一されたLiDARポイントクラウドからセマンティックに完了したシーンを予測する。
提案手法は,Semantic KITTI ベンチマークを用いて,3次元課題における全ての課題に対して優れることを示す。
論文 参考訳(メタデータ) (2020-12-16T20:14:41Z) - Weakly Supervised Semantic Segmentation in 3D Graph-Structured Point
Clouds of Wild Scenes [36.07733308424772]
3Dセグメンテーションラベルの欠如は、効率的な点雲セグメンテーションの主な障害の1つである。
本稿では,2D のみを監督する点群における大規模セマンティックシーンセグメンテーションのための,新しいディープグラフ畳み込みネットワークフレームワークを提案する。
論文 参考訳(メタデータ) (2020-04-26T23:02:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。