論文の概要: Multimodal Semi-Supervised Learning for3D Objects
- arxiv url: http://arxiv.org/abs/2110.11601v1
- Date: Fri, 22 Oct 2021 05:33:16 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-26 00:04:36.299808
- Title: Multimodal Semi-Supervised Learning for3D Objects
- Title(参考訳): マルチモーダル半教師付き学習 for3d objects
- Authors: Zhimin Chen, Longlong Jing, Yang Liang, YingLi Tian, Bing Li
- Abstract要約: 本稿では,3次元の分類処理と検索処理の両方において,異なる3次元データのモデルのコヒーレンスを用いてデータ効率を向上させる方法について検討する。
本稿では、インスタンスレベルの一貫性制約を導入し、新しいマルチモーダル・コントラッシブ・プロトタイプ(M2CP)の損失を減らし、新しいマルチモーダル・セミ教師付き学習フレームワークを提案する。
提案するフレームワークは,モデルNet10およびモデルNet40データセットにおいて,分類タスクと検索タスクの両方において,最先端のすべての処理性能を大幅に上回っている。
- 参考スコア(独自算出の注目度): 19.409295848915388
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In recent years, semi-supervised learning has been widely explored and shows
excellent data efficiency for 2D data. There is an emerging need to improve
data efficiency for 3D tasks due to the scarcity of labeled 3D data. This paper
explores how the coherence of different modelities of 3D data (e.g. point
cloud, image, and mesh) can be used to improve data efficiency for both 3D
classification and retrieval tasks. We propose a novel multimodal
semi-supervised learning framework by introducing instance-level consistency
constraint and a novel multimodal contrastive prototype (M2CP) loss. The
instance-level consistency enforces the network to generate consistent
representations for multimodal data of the same object regardless of its
modality. The M2CP maintains a multimodal prototype for each class and learns
features with small intra-class variations by minimizing the feature distance
of each object to its prototype while maximizing the distance to the others.
Our proposed framework significantly outperforms all the state-of-the-art
counterparts for both classification and retrieval tasks by a large margin on
the modelNet10 and ModelNet40 datasets.
- Abstract(参考訳): 近年、半教師付き学習が広く研究され、2次元データに優れたデータ効率が示されている。
ラベル付き3Dデータの不足により、3Dタスクのデータ効率を改善する必要性が高まっている。
本稿では,3次元データの異なるモデル(ポイントクラウド,イメージ,メッシュなど)のコヒーレンスを用いて,3次元分類および検索作業におけるデータ効率を向上させる方法について検討する。
本稿では,インスタンスレベルの一貫性制約を導入した新しいマルチモーダル半教師付き学習フレームワークと,新しいマルチモーダルコントラストプロトタイプ(m2cp)損失を提案する。
インスタンスレベルの一貫性は、そのモダリティに関係なく、同じオブジェクトのマルチモーダルデータの一貫性のある表現を生成するようにネットワークを強制する。
m2cpは、各クラスのマルチモーダルプロトタイプを維持し、各オブジェクトとプロトタイプの特徴距離を最小化し、他との距離を最大化することで、小さなクラス内バリエーションで特徴を学習する。
提案するフレームワークは,モデルNet10およびモデルNet40データセットにおいて,分類タスクと検索タスクの両方において,最先端のすべての処理性能を大幅に上回っている。
関連論文リスト
- LargeAD: Large-Scale Cross-Sensor Data Pretraining for Autonomous Driving [52.83707400688378]
LargeADは多用途でスケーラブルなフレームワークで、さまざまな現実世界の運転データセットにわたる大規模3D事前トレーニング用に設計されている。
我々のフレームワークは、VFMを利用して2次元画像から意味的にリッチなスーパーピクセルを抽出し、LiDAR点雲に整列して高品質なコントラストサンプルを生成する。
提案手法は,LDARに基づくセグメント化とオブジェクト検出の両面において,線形探索と微調整の両作業において,最先端の手法よりも大幅な性能向上を実現している。
論文 参考訳(メタデータ) (2025-01-07T18:59:59Z) - CL3DOR: Contrastive Learning for 3D Large Multimodal Models via Odds Ratio on High-Resolution Point Clouds [1.9643285694999641]
高解点雲上でのOdds比による3次元大規模マルチモーダルモデルのコントラスト学習を提案する。
CL3DORは3Dシーン理解と推論のベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-01-07T15:42:32Z) - SM3Det: A Unified Model for Multi-Modal Remote Sensing Object Detection [73.49799596304418]
本稿では,リモートセンシングのためのマルチモーダルデータセットとマルチタスクオブジェクト検出(M2Det)という新しいタスクを提案する。
水平方向または指向方向の物体を、あらゆるセンサーから正確に検出するように設計されている。
この課題は、1)マルチモーダルモデリングの管理に関わるトレードオフ、2)マルチタスク最適化の複雑さに起因する。
論文 参考訳(メタデータ) (2024-12-30T02:47:51Z) - GEAL: Generalizable 3D Affordance Learning with Cross-Modal Consistency [50.11520458252128]
既存の3Dアベイランス学習手法は、注釈付きデータに制限があるため、一般化と堅牢性に苦慮している。
本稿では,大規模事前学習型2Dモデルを活用することで,3次元アベイランス学習の一般化と堅牢性を高めるための新しいフレームワークであるGEALを提案する。
GEALは、既存のメソッドと、新しいオブジェクトカテゴリ、および破損したデータにおいて、一貫して優れています。
論文 参考訳(メタデータ) (2024-12-12T17:59:03Z) - Enhancing Generalizability of Representation Learning for Data-Efficient 3D Scene Understanding [50.448520056844885]
本研究では,実世界のパターンを持つ多様な合成シーンを生成可能なベイズネットワークを提案する。
一連の実験は、既存の最先端の事前学習手法に比べて、我々の手法が一貫した優位性を示す。
論文 参考訳(メタデータ) (2024-06-17T07:43:53Z) - MM-Point: Multi-View Information-Enhanced Multi-Modal Self-Supervised 3D
Point Cloud Understanding [4.220064723125481]
マルチビュー2D情報は、3Dオブジェクトに対して優れた自己教師付き信号を提供することができる。
MM-Pointは、モーダル内およびモーダル間類似性目的によって駆動される。
合成データセットModelNet40で92.4%、実世界のデータセットScanObjectNNで87.8%のピーク精度を達成した。
論文 参考訳(メタデータ) (2024-02-15T15:10:17Z) - Leveraging Large-Scale Pretrained Vision Foundation Models for
Label-Efficient 3D Point Cloud Segmentation [67.07112533415116]
本稿では3Dポイントクラウドセグメンテーションタスクに様々な基礎モデルを適用する新しいフレームワークを提案する。
我々のアプローチでは、異なる大きな視覚モデルを用いて2次元セマンティックマスクの初期予測を行う。
本研究では,ロバストな3Dセマンティックな擬似ラベルを生成するために,投票による全ての結果を効果的に組み合わせたセマンティックなラベル融合戦略を提案する。
論文 参考訳(メタデータ) (2023-11-03T15:41:15Z) - Towards Large-scale 3D Representation Learning with Multi-dataset Point Prompt Training [44.790636524264]
ポイント・プロンプト・トレーニング(Point Prompt Training)は、3D表現学習の文脈におけるマルチデータセットのシナジスティック学習のための新しいフレームワークである。
シナジスティック学習に関連する負の移動を克服し、一般化可能な表現を生成する。
教師付きマルチデータセットトレーニングを備えた1つの重み付きモデルを用いて、各データセットの最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-08-18T17:59:57Z) - Beyond First Impressions: Integrating Joint Multi-modal Cues for
Comprehensive 3D Representation [72.94143731623117]
既存の方法は、単に3D表現を単一ビューの2D画像と粗い親カテゴリテキストに整列させる。
十分でないシナジーは、堅牢な3次元表現は共同視覚言語空間と一致すべきという考えを無視している。
我々は,JM3Dと呼ばれる多視点共同モダリティモデリング手法を提案し,点雲,テキスト,画像の統一表現を求める。
論文 参考訳(メタデータ) (2023-08-06T01:11:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。