論文の概要: MM-Point: Multi-View Information-Enhanced Multi-Modal Self-Supervised 3D
Point Cloud Understanding
- arxiv url: http://arxiv.org/abs/2402.10002v3
- Date: Sun, 25 Feb 2024 07:58:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-27 11:41:56.951277
- Title: MM-Point: Multi-View Information-Enhanced Multi-Modal Self-Supervised 3D
Point Cloud Understanding
- Title(参考訳): MM-Point:マルチビュー情報強化型マルチモーダルセルフスーパービジョン3Dポイントクラウド理解
- Authors: Hai-Tao Yu, Mofei Song
- Abstract要約: マルチビュー2D情報は、3Dオブジェクトに対して優れた自己教師付き信号を提供することができる。
MM-Pointは、モーダル内およびモーダル間類似性目的によって駆動される。
合成データセットModelNet40で92.4%、実世界のデータセットScanObjectNNで87.8%のピーク精度を達成した。
- 参考スコア(独自算出の注目度): 4.220064723125481
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In perception, multiple sensory information is integrated to map visual
information from 2D views onto 3D objects, which is beneficial for
understanding in 3D environments. But in terms of a single 2D view rendered
from different angles, only limited partial information can be provided.The
richness and value of Multi-view 2D information can provide superior
self-supervised signals for 3D objects. In this paper, we propose a novel
self-supervised point cloud representation learning method, MM-Point, which is
driven by intra-modal and inter-modal similarity objectives. The core of
MM-Point lies in the Multi-modal interaction and transmission between 3D
objects and multiple 2D views at the same time. In order to more effectively
simultaneously perform the consistent cross-modal objective of 2D multi-view
information based on contrastive learning, we further propose Multi-MLP and
Multi-level Augmentation strategies. Through carefully designed transformation
strategies, we further learn Multi-level invariance in 2D Multi-views. MM-Point
demonstrates state-of-the-art (SOTA) performance in various downstream tasks.
For instance, it achieves a peak accuracy of 92.4% on the synthetic dataset
ModelNet40, and a top accuracy of 87.8% on the real-world dataset ScanObjectNN,
comparable to fully supervised methods. Additionally, we demonstrate its
effectiveness in tasks such as few-shot classification, 3D part segmentation
and 3D semantic segmentation.
- Abstract(参考訳): 知覚において、複数の感覚情報は、2Dビューから3Dオブジェクトに視覚情報をマッピングするために統合され、3D環境での理解に有用である。
しかし、異なる角度からレンダリングされた単一の2Dビューでは、限られた部分情報しか提供できないため、多視点2D情報の豊かさと価値は、3Dオブジェクトに対して優れた自己監督信号を提供することができる。
本稿では,モーダル内およびモーダル間類似性に基づく自己教師付きポイントクラウド表現学習手法MM-Pointを提案する。
MM-Pointの中核は、3Dオブジェクトと複数の2Dビューを同時にやりとりするマルチモーダル相互作用にある。
コントラスト学習に基づく2次元多視点情報の一貫したクロスモーダル目的をより効果的に実現するために,マルチMLPとマルチレベル拡張戦略を提案する。
注意深く設計されたトランスフォーメーション戦略により、2次元のマルチビューにおけるマルチレベル不変性をさらに学習する。
MM-Pointは、様々な下流タスクにおける最先端(SOTA)パフォーマンスを示す。
例えば、合成データセットmodelnet40では92.4%、実世界のデータセットscanobjectnnでは87.8%という最高精度を達成している。
さらに,その効果を,マイナショット分類,3次元部分分割,3次元意味セグメンテーションなどのタスクで実証する。
関連論文リスト
- Beyond First Impressions: Integrating Joint Multi-modal Cues for
Comprehensive 3D Representation [72.94143731623117]
既存の方法は、単に3D表現を単一ビューの2D画像と粗い親カテゴリテキストに整列させる。
十分でないシナジーは、堅牢な3次元表現は共同視覚言語空間と一致すべきという考えを無視している。
我々は,JM3Dと呼ばれる多視点共同モダリティモデリング手法を提案し,点雲,テキスト,画像の統一表現を求める。
論文 参考訳(メタデータ) (2023-08-06T01:11:40Z) - SCA-PVNet: Self-and-Cross Attention Based Aggregation of Point Cloud and
Multi-View for 3D Object Retrieval [8.74845857766369]
大規模データセットを用いた多モード3Dオブジェクト検索はめったに行われない。
本稿では,3次元オブジェクト検索のための点群と多視点画像の自己・横断的アグリゲーションを提案する。
論文 参考訳(メタデータ) (2023-07-20T05:46:32Z) - MMRDN: Consistent Representation for Multi-View Manipulation
Relationship Detection in Object-Stacked Scenes [62.20046129613934]
我々は,MMRDN(Multi-view MRD Network)と呼ばれる新しい多視点融合フレームワークを提案する。
異なるビューからの2Dデータを共通の隠れ空間に投影し、埋め込みをVon-Mises-Fisher分布に適合させる。
これら2つのオブジェクトの相対位置を符号化した各オブジェクト対の点雲から、K$最大垂直近傍点(KMVN)の集合を選択する。
論文 参考訳(メタデータ) (2023-04-25T05:55:29Z) - Joint-MAE: 2D-3D Joint Masked Autoencoders for 3D Point Cloud
Pre-training [65.75399500494343]
Masked Autoencoders (MAE) は、2Dおよび3Dコンピュータビジョンのための自己教師型学習において有望な性能を示した。
自己監督型3次元点雲事前学習のための2D-3DジョイントMAEフレームワークであるJoint-MAEを提案する。
論文 参考訳(メタデータ) (2023-02-27T17:56:18Z) - MVTN: Learning Multi-View Transformations for 3D Understanding [60.15214023270087]
本稿では,3次元形状認識のための最適視点を決定するために,可変レンダリングを用いたマルチビュー変換ネットワーク(MVTN)を提案する。
MVTNは3次元形状認識のためのマルチビューネットワークでエンドツーエンドに訓練することができる。
提案手法は,複数のベンチマークによる3次元分類と形状検索における最先端性能を示す。
論文 参考訳(メタデータ) (2022-12-27T12:09:16Z) - PointMCD: Boosting Deep Point Cloud Encoders via Multi-view Cross-modal
Distillation for 3D Shape Recognition [55.38462937452363]
本稿では,教師として事前訓練されたディープイメージエンコーダ,学生としてディープポイントエンコーダを含む多視点クロスモーダル蒸留アーキテクチャを提案する。
複数ビューの視覚的および幾何学的記述子をペアワイズにアライメントすることで、より強力なディープポイントエンコーダを、疲労や複雑なネットワーク修正を伴わずに得ることができる。
論文 参考訳(メタデータ) (2022-07-07T07:23:20Z) - Multimodal Semi-Supervised Learning for 3D Objects [19.409295848915388]
本稿では,3次元の分類処理と検索処理の両方において,異なる3次元データのモデルのコヒーレンスを用いてデータ効率を向上させる方法について検討する。
本稿では、インスタンスレベルの一貫性制約を導入し、新しいマルチモーダル・コントラッシブ・プロトタイプ(M2CP)の損失を減らし、新しいマルチモーダル・セミ教師付き学習フレームワークを提案する。
提案するフレームワークは,モデルNet10およびモデルNet40データセットにおいて,分類タスクと検索タスクの両方において,最先端のすべての処理性能を大幅に上回っている。
論文 参考訳(メタデータ) (2021-10-22T05:33:16Z) - Multi-Modality Task Cascade for 3D Object Detection [22.131228757850373]
多くの手法は2つのモデルを個別に訓練し、単純な特徴結合を用いて3Dセンサーデータを表現している。
本稿では,3次元ボックスの提案を利用して2次元セグメンテーション予測を改善する新しいマルチモードタスクカスケードネットワーク(MTC-RCNN)を提案する。
2段階の3次元モジュール間の2次元ネットワークを組み込むことで,2次元および3次元のタスク性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2021-07-08T17:55:01Z) - Multi-Task Multi-Sensor Fusion for 3D Object Detection [93.68864606959251]
本稿では,2次元および3次元物体検出と地盤推定と奥行き完了を理由とするエンドツーエンド学習可能なアーキテクチャを提案する。
実験の結果,これらのタスクは相補的であり,様々なレベルで情報を融合することで,ネットワークがよりよい表現を学ぶのに役立つことがわかった。
論文 参考訳(メタデータ) (2020-12-22T22:49:15Z) - Self-supervised Feature Learning by Cross-modality and Cross-view
Correspondences [32.01548991331616]
本稿では,2次元画像特徴と3次元ポイントクラウド特徴の両方を学習するための,自己指導型学習手法を提案する。
注釈付きラベルを使わずに、クロスモダリティとクロスビュー対応を利用する。
学習した2次元特徴と3次元特徴の有効性を5つの異なるタスクで伝達することによって評価する。
論文 参考訳(メタデータ) (2020-04-13T02:57:25Z) - MANet: Multimodal Attention Network based Point- View fusion for 3D
Shape Recognition [0.5371337604556311]
本稿では3次元形状認識のためのマルチモーダルアテンション機構に基づく融合ネットワークを提案する。
マルチビューデータの制限を考慮すると,グローバルなポイントクラウド機能を用いてマルチビュー機能をフィルタリングするソフトアテンション方式を導入する。
より具体的には、各マルチビュー画像の全体形状認識への寄与をマイニングすることにより、拡張されたマルチビュー特徴を得る。
論文 参考訳(メタデータ) (2020-02-28T07:00:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。