論文の概要: Masked Scene Contrast: A Scalable Framework for Unsupervised 3D
Representation Learning
- arxiv url: http://arxiv.org/abs/2303.14191v1
- Date: Fri, 24 Mar 2023 17:59:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-27 13:27:26.023520
- Title: Masked Scene Contrast: A Scalable Framework for Unsupervised 3D
Representation Learning
- Title(参考訳): Masked Scene Contrast: 教師なし3D表現学習のためのスケーラブルなフレームワーク
- Authors: Xiaoyang Wu, Xin Wen, Xihui Liu, Hengshuang Zhao
- Abstract要約: Masked Scene Contrast (MSC)フレームワークは、より効率的かつ効果的に包括的な3D表現を抽出することができる。
MSCはまた、複数のデータセットにわたる大規模な3D事前トレーニングを可能にする。
- 参考スコア(独自算出の注目度): 37.155772047656114
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As a pioneering work, PointContrast conducts unsupervised 3D representation
learning via leveraging contrastive learning over raw RGB-D frames and proves
its effectiveness on various downstream tasks. However, the trend of
large-scale unsupervised learning in 3D has yet to emerge due to two stumbling
blocks: the inefficiency of matching RGB-D frames as contrastive views and the
annoying mode collapse phenomenon mentioned in previous works. Turning the two
stumbling blocks into empirical stepping stones, we first propose an efficient
and effective contrastive learning framework, which generates contrastive views
directly on scene-level point clouds by a well-curated data augmentation
pipeline and a practical view mixing strategy. Second, we introduce
reconstructive learning on the contrastive learning framework with an exquisite
design of contrastive cross masks, which targets the reconstruction of point
color and surfel normal. Our Masked Scene Contrast (MSC) framework is capable
of extracting comprehensive 3D representations more efficiently and
effectively. It accelerates the pre-training procedure by at least 3x and still
achieves an uncompromised performance compared with previous work. Besides, MSC
also enables large-scale 3D pre-training across multiple datasets, which
further boosts the performance and achieves state-of-the-art fine-tuning
results on several downstream tasks, e.g., 75.5% mIoU on ScanNet semantic
segmentation validation set.
- Abstract(参考訳): 先駆的な研究として、PointContrastは生のRGB-Dフレーム上のコントラスト学習を活用して教師なしの3D表現学習を行い、様々な下流タスクにおいてその効果を証明する。
しかし、rgb-dフレームをコントラストビューとしてマッチングする非効率性と、前述したような煩わしいモード崩壊現象という2つの障害により、3dでの大規模非教師なし学習の傾向はまだ現れていない。
筆者らはまず,2つのスタブルブロックを経験的ステップストーンに変換し,よく計算されたデータ拡張パイプラインと実用的なビューミキシング戦略により,シーンレベルの点雲に直接コントラストビューを生成する,効率的かつ効果的なコントラスト学習フレームワークを提案する。
次に,ポイントカラーとサーフェルノーマルの再構築を目標としたコントラストクロスマスクをデザインしたコントラスト学習フレームワークの再構築学習について紹介する。
マスキングシーンコントラスト(msc)フレームワークは,包括的3次元表現をより効率的かつ効果的に抽出することができる。
トレーニング前の手順を少なくとも3倍に加速し、以前の作業と比べて未妥協のパフォーマンスを実現している。
さらに、MSCは複数のデータセットにわたる大規模な3D事前トレーニングを可能にし、パフォーマンスをさらに向上し、ScanNetセマンティックセグメンテーション検証セットの75.5% mIoUなど、いくつかの下流タスクで最先端の微調整結果を達成する。
関連論文リスト
- Learning Robust 3D Representation from CLIP via Dual Denoising [4.230780744307392]
私たちはCLIPから堅牢で一般化された3D表現を学習するための新しいフレームワークであるDual Denoisingを提案する。
3D事前トレーニングのための、デノナイジングベースのプロキシタスクと、新たな機能デノナイジングネットワークを組み合わせたものだ。
実験により,本モデルは3次元学習ネットワークの表現学習性能と対角的ロバスト性を効果的に向上できることが示された。
論文 参考訳(メタデータ) (2024-07-01T02:15:03Z) - Enhancing Generalizability of Representation Learning for Data-Efficient 3D Scene Understanding [50.448520056844885]
本研究では,実世界のパターンを持つ多様な合成シーンを生成可能なベイズネットワークを提案する。
一連の実験は、既存の最先端の事前学習手法に比べて、我々の手法が一貫した優位性を示す。
論文 参考訳(メタデータ) (2024-06-17T07:43:53Z) - RadOcc: Learning Cross-Modality Occupancy Knowledge through Rendering
Assisted Distillation [50.35403070279804]
マルチビュー画像を用いた3次元シーンの占有状況とセマンティクスを推定することを目的とした,新たな課題である3D占有予測手法を提案する。
本稿では,RandOccを提案する。Rendering Assisted distillation paradigm for 3D Occupancy prediction。
論文 参考訳(メタデータ) (2023-12-19T03:39:56Z) - Leveraging Large-Scale Pretrained Vision Foundation Models for
Label-Efficient 3D Point Cloud Segmentation [67.07112533415116]
本稿では3Dポイントクラウドセグメンテーションタスクに様々な基礎モデルを適用する新しいフレームワークを提案する。
我々のアプローチでは、異なる大きな視覚モデルを用いて2次元セマンティックマスクの初期予測を行う。
本研究では,ロバストな3Dセマンティックな擬似ラベルを生成するために,投票による全ての結果を効果的に組み合わせたセマンティックなラベル融合戦略を提案する。
論文 参考訳(メタデータ) (2023-11-03T15:41:15Z) - Prompted Contrast with Masked Motion Modeling: Towards Versatile 3D
Action Representation Learning [33.68311764817763]
本稿では,多目的な3次元動作表現学習のためのMasked Motion Modeling(PCM$rm 3$)を用いたPrompted Contrastを提案する。
提案手法は,比較学習とマスク付き予測タスクを相互に有益な方法で統合する。
3つの大規模データセットに基づく5つの下流タスクのテストを行い、最先端の作業と比較してPCM$rm 3$の優れた一般化能力を実証した。
論文 参考訳(メタデータ) (2023-08-08T01:27:55Z) - Generalized 3D Self-supervised Learning Framework via Prompted
Foreground-Aware Feature Contrast [38.34558139249363]
本研究では,事前学習において,より効率的なポイントクラウド表現を学習するための,FAC++フレームワークの汎用的フォアグラウンド対応機能コントラストを提案する。
我々は,3次元セグメント/オブジェクト間の過度な識別を防止し,前景と背景の区別を促進する。
コントラストペアは,事前訓練中に前景領域間の明瞭な対応を捉える。
論文 参考訳(メタデータ) (2023-03-11T11:42:01Z) - CLIP2Scene: Towards Label-efficient 3D Scene Understanding by CLIP [55.864132158596206]
Contrastive Language-Image Pre-Training (CLIP) は、2次元ゼロショットおよび少数ショット学習において有望な結果をもたらす。
私たちは,CLIP知識が3Dシーン理解にどう役立つか,最初の試みを行う。
筆者らは,CLIPの知識を2次元画像テキスト事前学習モデルから3次元ポイント・クラウド・ネットワークに転送するフレームワークであるCLIP2Sceneを提案する。
論文 参考訳(メタデータ) (2023-01-12T10:42:39Z) - PointACL:Adversarial Contrastive Learning for Robust Point Clouds
Representation under Adversarial Attack [73.3371797787823]
逆比較学習(Adversarial contrastive learning, ACL)は、事前学習されたモデルの堅牢性を改善する効果的な方法と考えられている。
本稿では,自己指導型コントラスト学習フレームワークを逆向きに学習するために,ロバストな認識損失関数を提案する。
提案手法であるPointACLを,複数のデータセットを用いた3次元分類と3次元分割を含む下流タスクで検証する。
論文 参考訳(メタデータ) (2022-09-14T22:58:31Z) - P4Contrast: Contrastive Learning with Pairs of Point-Pixel Pairs for
RGB-D Scene Understanding [24.93545970229774]
本論文では, RGB-D 点の対を正に含み, 負が2つのモダリティのいずれかが乱れた対を含む, 対照的な「点-ピクセル対の対」を提案する。
これにより、ハードネガティブのさらなる柔軟性が提供され、ネットワークは両方のモダリティから機能を学ぶことができます。
論文 参考訳(メタデータ) (2020-12-24T04:00:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。