論文の概要: Multi-view Vision-Prompt Fusion Network: Can 2D Pre-trained Model Boost
3D Point Cloud Data-scarce Learning?
- arxiv url: http://arxiv.org/abs/2304.10224v1
- Date: Thu, 20 Apr 2023 11:39:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-21 13:41:29.392629
- Title: Multi-view Vision-Prompt Fusion Network: Can 2D Pre-trained Model Boost
3D Point Cloud Data-scarce Learning?
- Title(参考訳): Multi-view Vision-Prompt Fusion Network: 2次元事前学習モデルによる3Dポイントクラウドデータ共有学習の促進
- Authors: Haoyang Peng, Baopu Li, Bo Zhang, Xin Chen, Tao Chen, Hongyuan Zhu
- Abstract要約: 本研究は,Multi-view Vision-Prompt Fusion Network (MvNet) を提案する。
MvNetは、3Dの複数ショットポイントのクラウドイメージ分類のために、最先端のパフォーマンスを新たに実現している。
- 参考スコア(独自算出の注目度): 38.06639044139636
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Point cloud based 3D deep model has wide applications in many applications
such as autonomous driving, house robot, and so on. Inspired by the recent
prompt learning in natural language processing, this work proposes a novel
Multi-view Vision-Prompt Fusion Network (MvNet) for few-shot 3D point cloud
classification. MvNet investigates the possibility of leveraging the
off-the-shelf 2D pre-trained models to achieve the few-shot classification,
which can alleviate the over-dependence issue of the existing baseline models
towards the large-scale annotated 3D point cloud data. Specifically, MvNet
first encodes a 3D point cloud into multi-view image features for a number of
different views. Then, a novel multi-view prompt fusion module is developed to
effectively fuse information from different views to bridge the gap between 3D
point cloud data and 2D pre-trained models. A set of 2D image prompts can then
be derived to better describe the suitable prior knowledge for a large-scale
pre-trained image model for few-shot 3D point cloud classification. Extensive
experiments on ModelNet, ScanObjectNN, and ShapeNet datasets demonstrate that
MvNet achieves new state-of-the-art performance for 3D few-shot point cloud
image classification. The source code of this work will be available soon.
- Abstract(参考訳): ポイントクラウドベースの3d深層モデルは、自動運転やハウスロボットなど、多くのアプリケーションで広く応用されている。
自然言語処理における最近の急進的な学習に触発されて、この研究は、少数の3Dポイントクラウド分類のための新しいMulti-view Vision-Prompt Fusion Network (MvNet)を提案する。
MvNetは、既存のベースラインモデルの大規模なアノテーション付き3Dポイントクラウドデータへの過度な依存を軽減できる、数発の分類を実現するために、市販の2D事前訓練モデルを活用する可能性を調査している。
具体的には、mvnetはまず3dポイントクラウドを様々なビューのマルチビュー画像機能にエンコードする。
そして、3Dポイントクラウドデータと2D事前学習モデルのギャップを埋めるために、異なるビューからの情報を効果的に融合する新しいマルチビュープロンプト融合モジュールを開発した。
次に、2D画像プロンプトのセットを導出し、少数の3Dポイントクラウド分類のための大規模事前学習画像モデルに適した事前知識を記述する。
ModelNet、ScanObjectNN、ShapeNetデータセットに関する大規模な実験は、MvNetが3Dの複数ショットポイントのクラウドイメージ分類のために新しい最先端のパフォーマンスを達成することを実証している。
この作業のソースコードは近く公開される予定だ。
関連論文リスト
- Point Cloud Self-supervised Learning via 3D to Multi-view Masked
Autoencoder [21.73287941143304]
Multi-Modality Masked AutoEncoders (MAE) 法は2次元画像と3次元点雲の両方を事前学習に利用している。
本稿では、3次元から多視点のマスク付きオートエンコーダを用いて、3次元点雲のマルチモーダル特性をフル活用する手法を提案する。
提案手法は,様々な下流タスクにおいて,最先端のタスクよりも大きなマージンで性能を向上する。
論文 参考訳(メタデータ) (2023-11-17T22:10:03Z) - Leveraging Large-Scale Pretrained Vision Foundation Models for
Label-Efficient 3D Point Cloud Segmentation [67.07112533415116]
本稿では3Dポイントクラウドセグメンテーションタスクに様々な基礎モデルを適用する新しいフレームワークを提案する。
我々のアプローチでは、異なる大きな視覚モデルを用いて2次元セマンティックマスクの初期予測を行う。
本研究では,ロバストな3Dセマンティックな擬似ラベルを生成するために,投票による全ての結果を効果的に組み合わせたセマンティックなラベル融合戦略を提案する。
論文 参考訳(メタデータ) (2023-11-03T15:41:15Z) - Take-A-Photo: 3D-to-2D Generative Pre-training of Point Cloud Models [97.58685709663287]
生成事前学習は、2次元視覚における基本モデルの性能を高めることができる。
3Dビジョンでは、トランスフォーマーベースのバックボーンの過度な信頼性と、点雲の秩序のない性質により、生成前のトレーニングのさらなる発展が制限されている。
本稿では,任意の点クラウドモデルに適用可能な3D-to-2D生成事前学習法を提案する。
論文 参考訳(メタデータ) (2023-07-27T16:07:03Z) - PartSLIP: Low-Shot Part Segmentation for 3D Point Clouds via Pretrained
Image-Language Models [56.324516906160234]
一般化可能な3D部分分割は重要だが、ビジョンとロボティクスでは難しい。
本稿では,事前学習した画像言語モデルGLIPを利用して,3次元点雲の低ショット部分分割法を提案する。
我々は2Dから3Dへの豊富な知識を、ポイントクラウドレンダリングにおけるGLIPに基づく部分検出と新しい2D-to-3Dラベルリフトアルゴリズムにより転送する。
論文 参考訳(メタデータ) (2022-12-03T06:59:01Z) - Voint Cloud: Multi-View Point Cloud Representation for 3D Understanding [80.04281842702294]
本稿では,複数の視点から抽出した特徴の集合として,各3次元点を表す多視点クラウド(Voint Cloud)の概念を紹介する。
この新しい3次元Vointクラウド表現は、3Dポイントクラウド表現のコンパクト性と、マルチビュー表現の自然なビュー認識性を組み合わせたものである。
理論的に確立された機能を持つVointニューラルネットワーク(VointNet)をデプロイし,Voint空間の表現を学習する。
論文 参考訳(メタデータ) (2021-11-30T13:08:19Z) - Image2Point: 3D Point-Cloud Understanding with Pretrained 2D ConvNets [45.78834662125001]
私たちは、イメージとポイントクラウドの両方を理解するために、同じニューラルネットモデルアーキテクチャを実際に使用できることを示します。
具体的には、画像データセットに事前トレーニングされた2D ConvNetに基づいて、2D畳み込みフィルタを3Dにテキスト化することで、画像モデルをポイントクラウドモデルに転送することができる。
転送されたモデルは、3Dポイントクラウドの分類、屋内および運転シーンのセグメンテーションにおいて、幅広いポイントクラウドモデルに打ち勝つことさえできる。
論文 参考訳(メタデータ) (2021-06-08T08:42:55Z) - ParaNet: Deep Regular Representation for 3D Point Clouds [62.81379889095186]
ParaNetは、3Dポイントクラウドを表現するための新しいエンドツーエンドのディープラーニングフレームワークである。
不規則な3D点雲を通常の2Dカラー画像に変換する。
多視点投影とボキセル化に基づく従来の正規表現法とは異なり、提案した表現は微分可能で可逆である。
論文 参考訳(メタデータ) (2020-12-05T13:19:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。