論文の概要: PointContrast: Unsupervised Pre-training for 3D Point Cloud
Understanding
- arxiv url: http://arxiv.org/abs/2007.10985v3
- Date: Sat, 21 Nov 2020 00:42:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-08 05:16:35.604601
- Title: PointContrast: Unsupervised Pre-training for 3D Point Cloud
Understanding
- Title(参考訳): PointContrast: 3Dポイントクラウド理解のための教師なし事前トレーニング
- Authors: Saining Xie, Jiatao Gu, Demi Guo, Charles R. Qi, Leonidas J. Guibas,
Or Litany
- Abstract要約: 本研究では,3次元表現学習の研究を支援することを目的とする。
教師なし事前学習が3Dシーンの大規模なソースセットに与える影響を計測する。
- 参考スコア(独自算出の注目度): 107.02479689909164
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Arguably one of the top success stories of deep learning is transfer
learning. The finding that pre-training a network on a rich source set (eg.,
ImageNet) can help boost performance once fine-tuned on a usually much smaller
target set, has been instrumental to many applications in language and vision.
Yet, very little is known about its usefulness in 3D point cloud understanding.
We see this as an opportunity considering the effort required for annotating
data in 3D. In this work, we aim at facilitating research on 3D representation
learning. Different from previous works, we focus on high-level scene
understanding tasks. To this end, we select a suite of diverse datasets and
tasks to measure the effect of unsupervised pre-training on a large source set
of 3D scenes. Our findings are extremely encouraging: using a unified triplet
of architecture, source dataset, and contrastive loss for pre-training, we
achieve improvement over recent best results in segmentation and detection
across 6 different benchmarks for indoor and outdoor, real and synthetic
datasets -- demonstrating that the learned representation can generalize across
domains. Furthermore, the improvement was similar to supervised pre-training,
suggesting that future efforts should favor scaling data collection over more
detailed annotation. We hope these findings will encourage more research on
unsupervised pretext task design for 3D deep learning.
- Abstract(参考訳): 深層学習でもっとも成功したのは、転校学習だろう。
リッチなソースセット(例えばImageNet)でネットワークを事前トレーニングすることは、通常より小さなターゲットセットで微調整された場合、パフォーマンスを向上させるのに役立ち、言語やビジョンの多くのアプリケーションに役立っている。
しかし、3Dポイントのクラウド理解における有用性についてはほとんど分かっていない。
これを3Dでデータに注釈をつけるのに必要な労力を考える機会と捉えています。
本研究では,3次元表現学習研究の促進を目指す。
従来の作業とは違って,高レベルのシーン理解タスクに重点を置いている。
この目的のために,3dシーンの大きなソースセットに対する教師なし事前トレーニングの効果を測定するために,多様なデータセットとタスクのスイートを選択する。
アーキテクチャの統一三重項、ソースデータセット、および事前トレーニングのためのコントラスト損失を使用することで、屋内および屋外、実および合成データセットの6つのベンチマークにおいて、セグメンテーションと検出における最近の最良の結果よりも改善が得られます。
さらに、改善は教師付き事前トレーニングと似ており、将来の取り組みはより詳細なアノテーションよりもデータ収集をスケールすることを推奨している。
これらの発見が、3D深層学習のための教師なしプレテキスト・タスク・デザインのさらなる研究を促すことを願っている。
関連論文リスト
- Leveraging Large-Scale Pretrained Vision Foundation Models for
Label-Efficient 3D Point Cloud Segmentation [67.07112533415116]
本稿では3Dポイントクラウドセグメンテーションタスクに様々な基礎モデルを適用する新しいフレームワークを提案する。
我々のアプローチでは、異なる大きな視覚モデルを用いて2次元セマンティックマスクの初期予測を行う。
本研究では,ロバストな3Dセマンティックな擬似ラベルを生成するために,投票による全ての結果を効果的に組み合わせたセマンティックなラベル融合戦略を提案する。
論文 参考訳(メタデータ) (2023-11-03T15:41:15Z) - CoT3DRef: Chain-of-Thoughts Data-Efficient 3D Visual Grounding [27.124888373265293]
3Dビジュアルグラウンドティングは、発話によって条件付けられた3Dシーンでオブジェクトをローカライズする機能である。
既存のほとんどのメソッドは参照ヘッドを使って参照オブジェクトを直接ローカライズし、複雑なシナリオで失敗する。
本稿では,まずアンカーの連鎖と最終目標を予測し,シーケンス・ツー・シーケンス・タスクとして3次元視覚接地問題を定式化する。
論文 参考訳(メタデータ) (2023-10-10T00:07:25Z) - SPOT: Scalable 3D Pre-training via Occupancy Prediction for Autonomous
Driving [84.22159537581742]
職業予測は一般表現の学習に有望であることが示されている。
SPOTは、ポイントクラウド拡張にビーム再サンプリング技術を使用し、クラスバランス戦略を適用している。
論文 参考訳(メタデータ) (2023-09-19T11:13:01Z) - Spatio-temporal Self-Supervised Representation Learning for 3D Point
Clouds [96.9027094562957]
ラベルのないタスクから学習できる時間的表現学習フレームワークを導入する。
幼児が野生の視覚的データからどのように学ぶかに触発され、3Dデータから派生した豊かな手がかりを探索する。
STRLは3Dポイントクラウドシーケンスから2つの時間的関連フレームを入力として、空間データ拡張で変換し、不変表現を自己指導的に学習する。
論文 参考訳(メタデータ) (2021-09-01T04:17:11Z) - RandomRooms: Unsupervised Pre-training from Synthetic Shapes and
Randomized Layouts for 3D Object Detection [138.2892824662943]
有望な解決策は、CADオブジェクトモデルで構成される合成データセットをよりよく利用して、実際のデータセットでの学習を促進することである。
最近の3次元事前学習の研究は、合成物体から他の実世界の応用へ学習した伝達特性が失敗することを示している。
本研究では,この目的を達成するためにRandomRoomsという新しい手法を提案する。
論文 参考訳(メタデータ) (2021-08-17T17:56:12Z) - Self-Supervised Pretraining of 3D Features on any Point-Cloud [40.26575888582241]
3D登録なしで任意の3Dデータを扱うことができる簡単な自己監督関連方法を紹介します。
オブジェクト検出、セマンティックセグメンテーション、オブジェクト分類の9つのベンチマークでモデルを評価し、最新の結果を達成し、教師付きプリトレーニングを上回ります。
論文 参考訳(メタデータ) (2021-01-07T18:55:21Z) - Improving Point Cloud Semantic Segmentation by Learning 3D Object
Detection [102.62963605429508]
ポイントクラウドセマンティックセグメンテーションは、自動運転において重要な役割を果たす。
現在の3Dセマンティックセグメンテーションネットワークは、よく表現されたクラスに対して優れた性能を発揮する畳み込みアーキテクチャに焦点を当てている。
Aware 3D Semantic Detection (DASS) フレームワークを提案する。
論文 参考訳(メタデータ) (2020-09-22T14:17:40Z) - Deep Learning for 3D Point Cloud Understanding: A Survey [16.35767262996978]
自律運転やロボティクスといった実用アプリケーションの開発は、3Dポイントのクラウド理解に注意を向けている。
ディープラーニングは、画像ベースのタスクにおいて顕著な成功を収めていますが、大規模で非構造的でノイズの多い3Dポイントを処理する際に、ディープニューラルネットワークが直面する多くのユニークな課題があります。
本稿では,この領域における最近の顕著な研究成果を,いくつかの方向から要約する。
論文 参考訳(メタデータ) (2020-09-18T16:34:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。