論文の概要: Spatio-temporal Self-Supervised Representation Learning for 3D Point
Clouds
- arxiv url: http://arxiv.org/abs/2109.00179v1
- Date: Wed, 1 Sep 2021 04:17:11 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-02 14:22:46.565855
- Title: Spatio-temporal Self-Supervised Representation Learning for 3D Point
Clouds
- Title(参考訳): 3次元点雲に対する時空間自己教師あり表現学習
- Authors: Siyuan Huang, Yichen Xie, Song-Chun Zhu, Yixin Zhu
- Abstract要約: ラベルのないタスクから学習できる時間的表現学習フレームワークを導入する。
幼児が野生の視覚的データからどのように学ぶかに触発され、3Dデータから派生した豊かな手がかりを探索する。
STRLは3Dポイントクラウドシーケンスから2つの時間的関連フレームを入力として、空間データ拡張で変換し、不変表現を自己指導的に学習する。
- 参考スコア(独自算出の注目度): 96.9027094562957
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: To date, various 3D scene understanding tasks still lack practical and
generalizable pre-trained models, primarily due to the intricate nature of 3D
scene understanding tasks and their immense variations introduced by camera
views, lighting, occlusions, etc. In this paper, we tackle this challenge by
introducing a spatio-temporal representation learning (STRL) framework, capable
of learning from unlabeled 3D point clouds in a self-supervised fashion.
Inspired by how infants learn from visual data in the wild, we explore the rich
spatio-temporal cues derived from the 3D data. Specifically, STRL takes two
temporally-correlated frames from a 3D point cloud sequence as the input,
transforms it with the spatial data augmentation, and learns the invariant
representation self-supervisedly. To corroborate the efficacy of STRL, we
conduct extensive experiments on three types (synthetic, indoor, and outdoor)
of datasets. Experimental results demonstrate that, compared with supervised
learning methods, the learned self-supervised representation facilitates
various models to attain comparable or even better performances while capable
of generalizing pre-trained models to downstream tasks, including 3D shape
classification, 3D object detection, and 3D semantic segmentation. Moreover,
the spatio-temporal contextual cues embedded in 3D point clouds significantly
improve the learned representations.
- Abstract(参考訳): 現在まで、様々な3dシーン理解タスクは、主に3dシーン理解タスクの複雑な性質と、カメラビュー、照明、オクルージョンなどによってもたらされる多様なバリエーションのために、実用的で一般化された事前学習モデルに欠けている。
本稿では,ラベルのない3次元点群から自己管理的に学習可能な時空間表現学習(STRL)フレームワークを導入することで,この問題に対処する。
幼児が野生の視覚的データからどのように学ぶかに触発され、3Dデータから得られる豊かな時空間的手がかりを探索する。
具体的には、3Dポイントクラウドシーケンスから2つの時間的関連フレームを入力として、空間データ拡張で変換し、不変表現を自己指導的に学習する。
STRLの有効性を裏付けるために,3種類のデータセット(合成,室内,屋外)について広範な実験を行った。
実験の結果,教師付き学習法と比較して,学習された自己教師付き表現は,3次元形状分類,3次元物体検出,3次元意味セグメンテーションなどの下流タスクに事前訓練されたモデルを一般化しながら,同等あるいはそれ以上のパフォーマンスを達成することができることがわかった。
さらに、3dポイントクラウドに埋め込まれた時空間的手がかりは、学習した表現を大幅に改善する。
関連論文リスト
- Learning 3D Representations from Procedural 3D Programs [6.915871213703219]
自己教師付き学習は、ラベルのない3Dポイントクラウドから転送可能な3D表現を取得するための有望なアプローチとして登場した。
簡単なプリミティブと拡張を使って3次元形状を自動的に生成する手続き型3Dプログラムから3次元表現を学習する。
論文 参考訳(メタデータ) (2024-11-25T18:59:57Z) - GS-PT: Exploiting 3D Gaussian Splatting for Comprehensive Point Cloud Understanding via Self-supervised Learning [15.559369116540097]
ポイントクラウドの自己教師型学習は、ラベルのない3Dデータを活用して、手動のアノテーションに頼ることなく意味のある表現を学習することを目的としている。
本稿では,3Dガウススプラッティング(3DGS)をポイントクラウドの自己教師型学習に初めて統合したGS-PTを提案する。
我々のパイプラインは、トランスフォーマーを自己教師付き事前学習のバックボーンとして利用し、3DGSによる新しいコントラスト学習タスクを導入している。
論文 参考訳(メタデータ) (2024-09-08T03:46:47Z) - 4D Contrastive Superflows are Dense 3D Representation Learners [62.433137130087445]
我々は,LiDARとカメラのペアを連続的に利用して事前学習の目的を確立するための,新しいフレームワークであるSuperFlowを紹介する。
学習効率をさらに向上するため,カメラビューから抽出した知識の整合性を高めるプラグイン・アンド・プレイ・ビュー・一貫性モジュールを組み込んだ。
論文 参考訳(メタデータ) (2024-07-08T17:59:54Z) - Enhancing Generalizability of Representation Learning for Data-Efficient 3D Scene Understanding [50.448520056844885]
本研究では,実世界のパターンを持つ多様な合成シーンを生成可能なベイズネットワークを提案する。
一連の実験は、既存の最先端の事前学習手法に比べて、我々の手法が一貫した優位性を示す。
論文 参考訳(メタデータ) (2024-06-17T07:43:53Z) - SUGAR: Pre-training 3D Visual Representations for Robotics [85.55534363501131]
ロボット工学のための新しい3D事前学習フレームワークSUGARを紹介した。
SUGARは3次元の点雲を通してオブジェクトの意味的、幾何学的、および余分な特性をキャプチャする。
SuGARの3D表現は最先端の2Dおよび3D表現よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-04-01T21:23:03Z) - OV-Uni3DETR: Towards Unified Open-Vocabulary 3D Object Detection via Cycle-Modality Propagation [67.56268991234371]
OV-Uni3DETRは、様々なシナリオにおける最先端のパフォーマンスを達成し、既存のメソッドを平均6%以上上回っている。
コードと事前訓練されたモデルは、後にリリースされる。
論文 参考訳(メタデータ) (2024-03-28T17:05:04Z) - Leveraging Large-Scale Pretrained Vision Foundation Models for
Label-Efficient 3D Point Cloud Segmentation [67.07112533415116]
本稿では3Dポイントクラウドセグメンテーションタスクに様々な基礎モデルを適用する新しいフレームワークを提案する。
我々のアプローチでは、異なる大きな視覚モデルを用いて2次元セマンティックマスクの初期予測を行う。
本研究では,ロバストな3Dセマンティックな擬似ラベルを生成するために,投票による全ての結果を効果的に組み合わせたセマンティックなラベル融合戦略を提案する。
論文 参考訳(メタデータ) (2023-11-03T15:41:15Z) - 3D Object Detection with a Self-supervised Lidar Scene Flow Backbone [10.341296683155973]
本稿では,下流3次元視覚タスクのための汎用クラウドバックボーンモデルを学習するために,自己指導型トレーニング戦略を提案する。
我々の主な貢献は、学習の流れと動きの表現を活用し、自己教師付きバックボーンと3D検出ヘッドを組み合わせることである。
KITTIとnuScenesベンチマークの実験により、提案した自己教師付き事前学習は3次元検出性能を著しく向上させることが示された。
論文 参考訳(メタデータ) (2022-05-02T07:53:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。