Fugu-MT 論文翻訳(概要): MM-Point: Multi-View Information-Enhanced Multi-Modal Self-Supervised 3D Point Cloud Understanding

論文の概要: MM-Point: Multi-View Information-Enhanced Multi-Modal Self-Supervised 3D Point Cloud Understanding

arxiv url: http://arxiv.org/abs/2402.10002v2
Date: Thu, 22 Feb 2024 07:42:24 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-23 17:42:42.973649
Title: MM-Point: Multi-View Information-Enhanced Multi-Modal Self-Supervised 3D Point Cloud Understanding
Title（参考訳）: MM-Point:マルチビュー情報強化型マルチモーダルセルフスーパービジョン3Dポイントクラウド理解
Authors: Hai-Tao Yu, Mofei Song
Abstract要約: マルチビュー2D情報は、3Dオブジェクトに対して優れた自己教師付き信号を提供することができる。 MM-Pointは、モーダル内およびモーダル間類似性目的によって駆動される。合成データセットModelNet40で92.4%、実世界のデータセットScanObjectNNで87.8%のピーク精度を達成した。
参考スコア（独自算出の注目度）: 4.220064723125481
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In perception, multiple sensory information is integrated to map visual information from 2D views onto 3D objects, which is beneficial for understanding in 3D environments. But in terms of a single 2D view rendered from different angles, only limited partial information can be provided.The richness and value of Multi-view 2D information can provide superior self-supervised signals for 3D objects. In this paper, we propose a novel self-supervised point cloud representation learning method, MM-Point, which is driven by intra-modal and inter-modal similarity objectives. The core of MM-Point lies in the Multi-modal interaction and transmission between 3D objects and multiple 2D views at the same time. In order to more effectively simultaneously perform the consistent cross-modal objective of 2D multi-view information based on contrastive learning, we further propose Multi-MLP and Multi-level Augmentation strategies. Through carefully designed transformation strategies, we further learn Multi-level invariance in 2D Multi-views. MM-Point demonstrates state-of-the-art (SOTA) performance in various downstream tasks. For instance, it achieves a peak accuracy of 92.4% on the synthetic dataset ModelNet40, and a top accuracy of 87.8% on the real-world dataset ScanObjectNN, comparable to fully supervised methods. Additionally, we demonstrate its effectiveness in tasks such as few-shot classification, 3D part segmentation and 3D semantic segmentation.
Abstract（参考訳）: 知覚において、複数の感覚情報は、2Dビューから3Dオブジェクトに視覚情報をマッピングするために統合され、3D環境での理解に有用である。しかし、異なる角度からレンダリングされた単一の2Dビューでは、限られた部分情報しか提供できないため、多視点2D情報の豊かさと価値は、3Dオブジェクトに対して優れた自己監督信号を提供することができる。本稿では,モーダル内およびモーダル間類似性に基づく自己教師付きポイントクラウド表現学習手法MM-Pointを提案する。 MM-Pointの中核は、3Dオブジェクトと複数の2Dビューを同時にやりとりするマルチモーダル相互作用にある。コントラスト学習に基づく2次元多視点情報の一貫したクロスモーダル目的をより効果的に実現するために,マルチMLPとマルチレベル拡張戦略を提案する。注意深く設計されたトランスフォーメーション戦略により、2次元のマルチビューにおけるマルチレベル不変性をさらに学習する。 MM-Pointは、様々な下流タスクにおける最先端(SOTA)パフォーマンスを示す。例えば、合成データセットmodelnet40では92.4%、実世界のデータセットscanobjectnnでは87.8%という最高精度を達成している。さらに,その効果を,マイナショット分類,3次元部分分割,3次元意味セグメンテーションなどのタスクで実証する。

関連論文リスト

TriCLIP-3D: A Unified Parameter-Efficient Framework for Tri-Modal 3D Visual Grounding based on CLIP [52.79100775328595]
3Dビジュアルグラウンドティングは、人間の指示に基づいて現実世界の3D環境における視覚情報を理解するための具体的エージェントである。既存の3Dビジュアルグラウンド法は、異なるモダリティの異なるエンコーダに依存している。本稿では,3つのモードすべてを処理するために,統合された2次元事前学習型マルチモーダルネットワークを提案する。
論文参考訳（メタデータ） (2025-07-20T10:28:06Z)
Unleashing the Multi-View Fusion Potential: Noise Correction in VLM for Open-Vocabulary 3D Scene Understanding [15.86865606131156]
MVOV3Dはオープンな3Dシーン理解のための2次元多視点融合の可能性の解放を目的とした新しいアプローチである。具体的には、MVOV3Dは、CLIPエンコーダでエンコードされた正確な領域レベルの画像特徴とテキスト特徴を活用することで、マルチビュー2D機能を改善する。 ScanNet200では14.7% mIoU,Matterport160では16.2% mIoU,オープン語彙セマンティックセマンティックセグメンテーションでは14.7% mIoUを達成した。
論文参考訳（メタデータ） (2025-06-28T08:40:42Z)
Zero-Shot Dual-Path Integration Framework for Open-Vocabulary 3D Instance Segmentation [19.2297264550686]
Open-vocabulary 3Dのインスタンスセグメンテーションは、従来のクローズドボキャブラリーメソッドを超越する。我々は、Zero-Shot Dual-Path Integration Frameworkを導入し、3Dと2Dの両方のモダリティの貢献を等しく評価する。筆者らのフレームワークは,ゼロショット方式で事前学習したモデルを利用しており,モデル非依存であり,目に見えるデータと目に見えないデータの両方において優れた性能を示す。
論文参考訳（メタデータ） (2024-08-16T07:52:00Z)
Point Cloud Self-supervised Learning via 3D to Multi-view Masked Learner [19.908670991088556]
本稿では,3次元と投影された2次元特徴から点雲と多視点画像を再構成する3次元から多視点自動エンコーダを提案する。 2次元と3次元の表現を整合させる新しい2段階の自己学習戦略が提案されている。提案手法は,3次元分類,部分分割,オブジェクト検出など,さまざまな下流タスクにおいて,最先端のタスクよりも優れる。
論文参考訳（メタデータ） (2023-11-17T22:10:03Z)
Beyond First Impressions: Integrating Joint Multi-modal Cues for Comprehensive 3D Representation [72.94143731623117]
既存の方法は、単に3D表現を単一ビューの2D画像と粗い親カテゴリテキストに整列させる。十分でないシナジーは、堅牢な3次元表現は共同視覚言語空間と一致すべきという考えを無視している。我々は,JM3Dと呼ばれる多視点共同モダリティモデリング手法を提案し,点雲,テキスト,画像の統一表現を求める。
論文参考訳（メタデータ） (2023-08-06T01:11:40Z)
SCA-PVNet: Self-and-Cross Attention Based Aggregation of Point Cloud and Multi-View for 3D Object Retrieval [8.74845857766369]
大規模データセットを用いた多モード3Dオブジェクト検索はめったに行われない。本稿では,3次元オブジェクト検索のための点群と多視点画像の自己・横断的アグリゲーションを提案する。
論文参考訳（メタデータ） (2023-07-20T05:46:32Z)
MMRDN: Consistent Representation for Multi-View Manipulation Relationship Detection in Object-Stacked Scenes [62.20046129613934]
我々は,MMRDN(Multi-view MRD Network)と呼ばれる新しい多視点融合フレームワークを提案する。異なるビューからの2Dデータを共通の隠れ空間に投影し、埋め込みをVon-Mises-Fisher分布に適合させる。これら2つのオブジェクトの相対位置を符号化した各オブジェクト対の点雲から、K$最大垂直近傍点(KMVN)の集合を選択する。
論文参考訳（メタデータ） (2023-04-25T05:55:29Z)
Joint-MAE: 2D-3D Joint Masked Autoencoders for 3D Point Cloud Pre-training [65.75399500494343]
Masked Autoencoders (MAE) は、2Dおよび3Dコンピュータビジョンのための自己教師型学習において有望な性能を示した。自己監督型3次元点雲事前学習のための2D-3DジョイントMAEフレームワークであるJoint-MAEを提案する。
論文参考訳（メタデータ） (2023-02-27T17:56:18Z)
MVTN: Learning Multi-View Transformations for 3D Understanding [60.15214023270087]
本稿では,3次元形状認識のための最適視点を決定するために,可変レンダリングを用いたマルチビュー変換ネットワーク(MVTN)を提案する。 MVTNは3次元形状認識のためのマルチビューネットワークでエンドツーエンドに訓練することができる。提案手法は,複数のベンチマークによる3次元分類と形状検索における最先端性能を示す。
論文参考訳（メタデータ） (2022-12-27T12:09:16Z)
PointMCD: Boosting Deep Point Cloud Encoders via Multi-view Cross-modal Distillation for 3D Shape Recognition [55.38462937452363]
本稿では,教師として事前訓練されたディープイメージエンコーダ,学生としてディープポイントエンコーダを含む多視点クロスモーダル蒸留アーキテクチャを提案する。複数ビューの視覚的および幾何学的記述子をペアワイズにアライメントすることで、より強力なディープポイントエンコーダを、疲労や複雑なネットワーク修正を伴わずに得ることができる。
論文参考訳（メタデータ） (2022-07-07T07:23:20Z)
Multimodal Semi-Supervised Learning for 3D Objects [19.409295848915388]
本稿では,3次元の分類処理と検索処理の両方において,異なる3次元データのモデルのコヒーレンスを用いてデータ効率を向上させる方法について検討する。本稿では、インスタンスレベルの一貫性制約を導入し、新しいマルチモーダル・コントラッシブ・プロトタイプ(M2CP)の損失を減らし、新しいマルチモーダル・セミ教師付き学習フレームワークを提案する。提案するフレームワークは,モデルNet10およびモデルNet40データセットにおいて,分類タスクと検索タスクの両方において,最先端のすべての処理性能を大幅に上回っている。
論文参考訳（メタデータ） (2021-10-22T05:33:16Z)
Multi-Task Multi-Sensor Fusion for 3D Object Detection [93.68864606959251]
本稿では,2次元および3次元物体検出と地盤推定と奥行き完了を理由とするエンドツーエンド学習可能なアーキテクチャを提案する。実験の結果,これらのタスクは相補的であり,様々なレベルで情報を融合することで,ネットワークがよりよい表現を学ぶのに役立つことがわかった。
論文参考訳（メタデータ） (2020-12-22T22:49:15Z)
Self-supervised Feature Learning by Cross-modality and Cross-view Correspondences [32.01548991331616]
本稿では,2次元画像特徴と3次元ポイントクラウド特徴の両方を学習するための,自己指導型学習手法を提案する。注釈付きラベルを使わずに、クロスモダリティとクロスビュー対応を利用する。学習した2次元特徴と3次元特徴の有効性を5つの異なるタスクで伝達することによって評価する。
論文参考訳（メタデータ） (2020-04-13T02:57:25Z)
MANet: Multimodal Attention Network based Point- View fusion for 3D Shape Recognition [0.5371337604556311]
本稿では3次元形状認識のためのマルチモーダルアテンション機構に基づく融合ネットワークを提案する。マルチビューデータの制限を考慮すると,グローバルなポイントクラウド機能を用いてマルチビュー機能をフィルタリングするソフトアテンション方式を導入する。より具体的には、各マルチビュー画像の全体形状認識への寄与をマイニングすることにより、拡張されたマルチビュー特徴を得る。
論文参考訳（メタデータ） (2020-02-28T07:00:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。