論文の概要: Spatio-temporal Self-Supervised Representation Learning for 3D Point
Clouds
- arxiv url: http://arxiv.org/abs/2109.00179v1
- Date: Wed, 1 Sep 2021 04:17:11 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-02 14:22:46.565855
- Title: Spatio-temporal Self-Supervised Representation Learning for 3D Point
Clouds
- Title(参考訳): 3次元点雲に対する時空間自己教師あり表現学習
- Authors: Siyuan Huang, Yichen Xie, Song-Chun Zhu, Yixin Zhu
- Abstract要約: ラベルのないタスクから学習できる時間的表現学習フレームワークを導入する。
幼児が野生の視覚的データからどのように学ぶかに触発され、3Dデータから派生した豊かな手がかりを探索する。
STRLは3Dポイントクラウドシーケンスから2つの時間的関連フレームを入力として、空間データ拡張で変換し、不変表現を自己指導的に学習する。
- 参考スコア(独自算出の注目度): 96.9027094562957
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: To date, various 3D scene understanding tasks still lack practical and
generalizable pre-trained models, primarily due to the intricate nature of 3D
scene understanding tasks and their immense variations introduced by camera
views, lighting, occlusions, etc. In this paper, we tackle this challenge by
introducing a spatio-temporal representation learning (STRL) framework, capable
of learning from unlabeled 3D point clouds in a self-supervised fashion.
Inspired by how infants learn from visual data in the wild, we explore the rich
spatio-temporal cues derived from the 3D data. Specifically, STRL takes two
temporally-correlated frames from a 3D point cloud sequence as the input,
transforms it with the spatial data augmentation, and learns the invariant
representation self-supervisedly. To corroborate the efficacy of STRL, we
conduct extensive experiments on three types (synthetic, indoor, and outdoor)
of datasets. Experimental results demonstrate that, compared with supervised
learning methods, the learned self-supervised representation facilitates
various models to attain comparable or even better performances while capable
of generalizing pre-trained models to downstream tasks, including 3D shape
classification, 3D object detection, and 3D semantic segmentation. Moreover,
the spatio-temporal contextual cues embedded in 3D point clouds significantly
improve the learned representations.
- Abstract(参考訳): 現在まで、様々な3dシーン理解タスクは、主に3dシーン理解タスクの複雑な性質と、カメラビュー、照明、オクルージョンなどによってもたらされる多様なバリエーションのために、実用的で一般化された事前学習モデルに欠けている。
本稿では,ラベルのない3次元点群から自己管理的に学習可能な時空間表現学習(STRL)フレームワークを導入することで,この問題に対処する。
幼児が野生の視覚的データからどのように学ぶかに触発され、3Dデータから得られる豊かな時空間的手がかりを探索する。
具体的には、3Dポイントクラウドシーケンスから2つの時間的関連フレームを入力として、空間データ拡張で変換し、不変表現を自己指導的に学習する。
STRLの有効性を裏付けるために,3種類のデータセット(合成,室内,屋外)について広範な実験を行った。
実験の結果,教師付き学習法と比較して,学習された自己教師付き表現は,3次元形状分類,3次元物体検出,3次元意味セグメンテーションなどの下流タスクに事前訓練されたモデルを一般化しながら,同等あるいはそれ以上のパフォーマンスを達成することができることがわかった。
さらに、3dポイントクラウドに埋め込まれた時空間的手がかりは、学習した表現を大幅に改善する。
関連論文リスト
- FILP-3D: Enhancing 3D Few-shot Class-incremental Learning with
Pre-trained Vision-Language Models [62.663113296987085]
クラス増分学習(class-incremental learning)は、モデルが限られたデータに基づいて漸進的にトレーニングされている場合、破滅的な忘れの問題を軽減することを目的としている。
冗長特徴除去器(RFE)と空間ノイズ補償器(SNC)の2つの新しいコンポーネントを紹介する。
既存の3次元データセットの不均衡を考慮し、3次元FSCILモデルのより微妙な評価を提供する新しい評価指標を提案する。
論文 参考訳(メタデータ) (2023-12-28T14:52:07Z) - SPiC-E : Structural Priors in 3D Diffusion Models using Cross-Entity
Attention [10.400213716661773]
本研究では,3次元拡散モデルに構造的ガイダンスを加えるニューラルネットワークSPiC-Eを提案する。
提案手法は,3次元スタイリゼーション,意味的形状の編集,テキスト条件の抽象化-to-3Dなど,様々なアプリケーションをサポートする。
論文 参考訳(メタデータ) (2023-11-29T17:36:49Z) - DatasetNeRF: Efficient 3D-aware Data Factory with Generative Radiance
Fields [73.97131748433212]
本稿では,無限で高品質な3Dアノテーションを3Dポイントクラウドセグメンテーションとともに生成できる新しいアプローチを提案する。
我々は3次元生成モデルに先立って強力なセマンティクスを活用してセマンティクスデコーダを訓練する。
トレーニングが完了すると、デコーダは遅延空間を効率よく一般化し、無限のデータの生成を可能にする。
論文 参考訳(メタデータ) (2023-11-18T21:58:28Z) - Leveraging Large-Scale Pretrained Vision Foundation Models for
Label-Efficient 3D Point Cloud Segmentation [67.07112533415116]
本稿では3Dポイントクラウドセグメンテーションタスクに様々な基礎モデルを適用する新しいフレームワークを提案する。
我々のアプローチでは、異なる大きな視覚モデルを用いて2次元セマンティックマスクの初期予測を行う。
本研究では,ロバストな3Dセマンティックな擬似ラベルを生成するために,投票による全ての結果を効果的に組み合わせたセマンティックなラベル融合戦略を提案する。
論文 参考訳(メタデータ) (2023-11-03T15:41:15Z) - CLIP$^2$: Contrastive Language-Image-Point Pretraining from Real-World
Point Cloud Data [80.42480679542697]
現実シナリオにおける3Dポイントクラウド表現の伝達を学習するために,Contrastive Language-Image-Point Cloud Pretraining (CLIP$2$)を提案する。
具体的には、2Dおよび3Dシナリオで自然に存在する対応を利用して、それらの複雑なシナリオから、適切に整列されたインスタンスベースのテキストイメージポイントプロキシを構築します。
論文 参考訳(メタデータ) (2023-03-22T09:32:45Z) - LWSIS: LiDAR-guided Weakly Supervised Instance Segmentation for
Autonomous Driving [34.119642131912485]
より巧妙なフレームワークであるLiDAR誘導弱監視インスタンス(LWSIS)を提示する。
LWSISは市販の3Dデータ、すなわちポイントクラウドと3Dボックスを2Dイメージインスタンスセグメンテーションモデルをトレーニングするための自然な弱い監督手段として使用している。
我々のLWSISは、訓練中のマルチモーダルデータの補完情報を利用するだけでなく、密集した2Dマスクのコストを大幅に削減します。
論文 参考訳(メタデータ) (2022-12-07T08:08:01Z) - 3D Object Detection with a Self-supervised Lidar Scene Flow Backbone [10.341296683155973]
本稿では,下流3次元視覚タスクのための汎用クラウドバックボーンモデルを学習するために,自己指導型トレーニング戦略を提案する。
我々の主な貢献は、学習の流れと動きの表現を活用し、自己教師付きバックボーンと3D検出ヘッドを組み合わせることである。
KITTIとnuScenesベンチマークの実験により、提案した自己教師付き事前学習は3次元検出性能を著しく向上させることが示された。
論文 参考訳(メタデータ) (2022-05-02T07:53:29Z) - CrossPoint: Self-Supervised Cross-Modal Contrastive Learning for 3D
Point Cloud Understanding [2.8661021832561757]
CrossPointは、転送可能な3Dポイントクラウド表現を学習するための、単純なクロスモーダルコントラスト学習アプローチである。
提案手法は,従来の教師なし学習手法よりも,3次元オブジェクト分類やセグメンテーションなど,さまざまな下流タスクにおいて優れていた。
論文 参考訳(メタデータ) (2022-03-01T18:59:01Z) - PointContrast: Unsupervised Pre-training for 3D Point Cloud
Understanding [107.02479689909164]
本研究では,3次元表現学習の研究を支援することを目的とする。
教師なし事前学習が3Dシーンの大規模なソースセットに与える影響を計測する。
論文 参考訳(メタデータ) (2020-07-21T17:59:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。