論文の概要: A Closer Look at Invariances in Self-supervised Pre-training for 3D
Vision
- arxiv url: http://arxiv.org/abs/2207.04997v1
- Date: Mon, 11 Jul 2022 16:44:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-12 14:50:22.071640
- Title: A Closer Look at Invariances in Self-supervised Pre-training for 3D
Vision
- Title(参考訳): 3次元視覚のための自己教師付き事前学習における不変性について
- Authors: Lanxiao Li and Michael Heizmann
- Abstract要約: 3Dビジョンのための自己監督型事前訓練は近年研究の関心が高まっている。
本稿では,様々な事前学習手法を検証可能な統合フレームワークを提案する。
コントラスト学習を用いた3次元エンコーダと深度マップエンコーダを併用した簡易かつ効果的な事前学習法を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self-supervised pre-training for 3D vision has drawn increasing research
interest in recent years. In order to learn informative representations, a lot
of previous works exploit invariances of 3D features, \eg,
perspective-invariance between views of the same scene, modality-invariance
between depth and RGB images, format-invariance between point clouds and
voxels. Although they have achieved promising results, previous researches lack
a systematic and fair comparison of these invariances. To address this issue,
our work, for the first time, introduces a unified framework, under which
various pre-training methods can be investigated. We conduct extensive
experiments and provide a closer look at the contributions of different
invariances in 3D pre-training. Also, we propose a simple but effective method
that jointly pre-trains a 3D encoder and a depth map encoder using contrastive
learning. Models pre-trained with our method gain significant performance boost
in downstream tasks. For instance, a pre-trained VoteNet outperforms previous
methods on SUN RGB-D and ScanNet object detection benchmarks with a clear
margin.
- Abstract(参考訳): 3Dビジョンのための自己監督型事前訓練は近年研究の関心が高まっている。
情報表現を学習するために、以前の多くの研究は、3D特徴の不変性、例えば、同一シーンのビュー間の視点不変性、深さとRGB画像間のモード不変性、点雲とボクセル間のフォーマット不変性などを利用している。
彼らは有望な結果を得たが、以前の研究ではこれらの不変性の体系的および公正な比較が欠けている。
この問題に対処するため,本研究では,様々な事前学習手法を検討可能な統合フレームワークを初めて導入した。
詳細な実験を行い,3次元事前学習における異なる不変性の寄与について詳しく検討する。
また,コントラスト学習を用いた3次元エンコーダと深度マップエンコーダを併用した簡易かつ効果的な事前学習手法を提案する。
我々の手法で事前訓練されたモデルは下流タスクにおいて大幅な性能向上をもたらす。
例えば、事前訓練されたVoteNetは、SUN RGB-DとScanNetオブジェクト検出ベンチマークにおいて、明らかなマージンで、以前のメソッドよりも優れている。
関連論文リスト
- RadOcc: Learning Cross-Modality Occupancy Knowledge through Rendering
Assisted Distillation [50.35403070279804]
マルチビュー画像を用いた3次元シーンの占有状況とセマンティクスを推定することを目的とした,新たな課題である3D占有予測手法を提案する。
本稿では,RandOccを提案する。Rendering Assisted distillation paradigm for 3D Occupancy prediction。
論文 参考訳(メタデータ) (2023-12-19T03:39:56Z) - Leveraging Large-Scale Pretrained Vision Foundation Models for
Label-Efficient 3D Point Cloud Segmentation [67.07112533415116]
本稿では3Dポイントクラウドセグメンテーションタスクに様々な基礎モデルを適用する新しいフレームワークを提案する。
我々のアプローチでは、異なる大きな視覚モデルを用いて2次元セマンティックマスクの初期予測を行う。
本研究では,ロバストな3Dセマンティックな擬似ラベルを生成するために,投票による全ての結果を効果的に組み合わせたセマンティックなラベル融合戦略を提案する。
論文 参考訳(メタデータ) (2023-11-03T15:41:15Z) - SPOT: Scalable 3D Pre-training via Occupancy Prediction for Learning Transferable 3D Representations [76.45009891152178]
トレーニング-ファインタニングアプローチは、さまざまな下流データセットとタスクをまたいだトレーニング済みのバックボーンを微調整することで、ラベル付けの負担を軽減することができる。
本稿では, 一般表現学習が, 占領予測のタスクを通じて達成できることを, 初めて示す。
本研究は,LiDAR 点の理解を促進するとともに,LiDAR の事前訓練における今後の進歩の道を開くことを目的とする。
論文 参考訳(メタデータ) (2023-09-19T11:13:01Z) - Randomized 3D Scene Generation for Generalizable Self-Supervised
Pre-Training [0.0]
球面高調波を用いた3次元シーン生成手法を提案する。
従来の定式化法をクリアマージンで上回り、実世界のスキャンとCADモデルを用いた手法を用いて、中間結果を得る。
論文 参考訳(メタデータ) (2023-06-07T08:28:38Z) - ALSO: Automotive Lidar Self-supervision by Occupancy estimation [70.70557577874155]
本稿では,ポイントクラウド上で動作している深層知覚モデルのバックボーンを事前学習するための自己教師型手法を提案する。
中心となる考え方は、3Dポイントがサンプリングされる表面の再構成であるプリテキストタスクでモデルをトレーニングすることである。
直感的には、もしネットワークがわずかな入力ポイントのみを考慮し、シーン表面を再構築できるなら、おそらく意味情報の断片をキャプチャする。
論文 参考訳(メタデータ) (2022-12-12T13:10:19Z) - SSMTL++: Revisiting Self-Supervised Multi-Task Learning for Video
Anomaly Detection [108.57862846523858]
自己教師型マルチタスク学習フレームワークを再考し、元の手法にいくつかのアップデートを提案する。
マルチヘッド・セルフアテンション・モジュールを導入することで3次元畳み込みバックボーンを近代化する。
モデルをさらに改良するために,セグメントマップの予測などの自己指導型学習タスクについて検討した。
論文 参考訳(メタデータ) (2022-07-16T19:25:41Z) - Self-Supervised Pretraining of 3D Features on any Point-Cloud [40.26575888582241]
3D登録なしで任意の3Dデータを扱うことができる簡単な自己監督関連方法を紹介します。
オブジェクト検出、セマンティックセグメンテーション、オブジェクト分類の9つのベンチマークでモデルを評価し、最新の結果を達成し、教師付きプリトレーニングを上回ります。
論文 参考訳(メタデータ) (2021-01-07T18:55:21Z) - Deep Optimized Priors for 3D Shape Modeling and Reconstruction [38.79018852887249]
3Dモデリングと再構築のための新しい学習フレームワークを紹介します。
提案手法は,事前訓練によって制約された障壁を効果的に破壊することを示す。
論文 参考訳(メタデータ) (2020-12-14T03:56:31Z) - PointContrast: Unsupervised Pre-training for 3D Point Cloud
Understanding [107.02479689909164]
本研究では,3次元表現学習の研究を支援することを目的とする。
教師なし事前学習が3Dシーンの大規模なソースセットに与える影響を計測する。
論文 参考訳(メタデータ) (2020-07-21T17:59:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。