Fugu-MT 論文翻訳(概要): Spatio-temporal Self-Supervised Representation Learning for 3D Point Clouds

論文の概要: Spatio-temporal Self-Supervised Representation Learning for 3D Point Clouds

arxiv url: http://arxiv.org/abs/2109.00179v1
Date: Wed, 1 Sep 2021 04:17:11 GMT
ステータス: 翻訳完了
システム内更新日: 2021-09-02 14:22:46.565855
Title: Spatio-temporal Self-Supervised Representation Learning for 3D Point Clouds
Title（参考訳）: 3次元点雲に対する時空間自己教師あり表現学習
Authors: Siyuan Huang, Yichen Xie, Song-Chun Zhu, Yixin Zhu
Abstract要約: ラベルのないタスクから学習できる時間的表現学習フレームワークを導入する。幼児が野生の視覚的データからどのように学ぶかに触発され、3Dデータから派生した豊かな手がかりを探索する。 STRLは3Dポイントクラウドシーケンスから2つの時間的関連フレームを入力として、空間データ拡張で変換し、不変表現を自己指導的に学習する。
参考スコア（独自算出の注目度）: 96.9027094562957
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: To date, various 3D scene understanding tasks still lack practical and generalizable pre-trained models, primarily due to the intricate nature of 3D scene understanding tasks and their immense variations introduced by camera views, lighting, occlusions, etc. In this paper, we tackle this challenge by introducing a spatio-temporal representation learning (STRL) framework, capable of learning from unlabeled 3D point clouds in a self-supervised fashion. Inspired by how infants learn from visual data in the wild, we explore the rich spatio-temporal cues derived from the 3D data. Specifically, STRL takes two temporally-correlated frames from a 3D point cloud sequence as the input, transforms it with the spatial data augmentation, and learns the invariant representation self-supervisedly. To corroborate the efficacy of STRL, we conduct extensive experiments on three types (synthetic, indoor, and outdoor) of datasets. Experimental results demonstrate that, compared with supervised learning methods, the learned self-supervised representation facilitates various models to attain comparable or even better performances while capable of generalizing pre-trained models to downstream tasks, including 3D shape classification, 3D object detection, and 3D semantic segmentation. Moreover, the spatio-temporal contextual cues embedded in 3D point clouds significantly improve the learned representations.
Abstract（参考訳）: 現在まで、様々な3dシーン理解タスクは、主に3dシーン理解タスクの複雑な性質と、カメラビュー、照明、オクルージョンなどによってもたらされる多様なバリエーションのために、実用的で一般化された事前学習モデルに欠けている。本稿では,ラベルのない3次元点群から自己管理的に学習可能な時空間表現学習(STRL)フレームワークを導入することで,この問題に対処する。幼児が野生の視覚的データからどのように学ぶかに触発され、3Dデータから得られる豊かな時空間的手がかりを探索する。具体的には、3Dポイントクラウドシーケンスから2つの時間的関連フレームを入力として、空間データ拡張で変換し、不変表現を自己指導的に学習する。 STRLの有効性を裏付けるために,3種類のデータセット(合成,室内,屋外)について広範な実験を行った。実験の結果,教師付き学習法と比較して,学習された自己教師付き表現は,3次元形状分類,3次元物体検出,3次元意味セグメンテーションなどの下流タスクに事前訓練されたモデルを一般化しながら,同等あるいはそれ以上のパフォーマンスを達成することができることがわかった。さらに、3dポイントクラウドに埋め込まれた時空間的手がかりは、学習した表現を大幅に改善する。

関連論文リスト

DINeMo: Learning Neural Mesh Models with no 3D Annotations [7.21992608540601]
カテゴリーレベルの3D/6Dポーズ推定は、総合的な3Dシーン理解に向けた重要なステップである。最近の研究は、分析バイシンセサイザーの観点から、2Dおよび3Dタスクにアプローチするニューラルネットワークモデルについて検討している。疑似対応を利用して3次元アノテーションを使わずにトレーニングした新しいニューラルネットワークモデルであるDINeMoを提案する。
論文参考訳（メタデータ） (2025-03-26T04:23:53Z)
TREND: Unsupervised 3D Representation Learning via Temporal Forecasting for LiDAR Perception [39.3873954435857]
TRENDは、教師なし3次元表現学習のための時間予測に関する最初の研究である。我々は、NuScenes, Once, NuScenesを含む一般的なデータセット上で、下流3Dオブジェクト検出タスク上でTRENDを評価する。実験の結果, TRENDは従来のSOTA教師なし3D事前学習法と比較して90%向上した。
論文参考訳（メタデータ） (2024-12-04T06:17:24Z)
Learning 3D Representations from Procedural 3D Programs [6.915871213703219]
自己教師付き学習は、ラベルのない3Dポイントクラウドから転送可能な3D表現を取得するための有望なアプローチとして登場した。簡単なプリミティブと拡張を使って3次元形状を自動的に生成する手続き型3Dプログラムから3次元表現を学習する。
論文参考訳（メタデータ） (2024-11-25T18:59:57Z)
GS-PT: Exploiting 3D Gaussian Splatting for Comprehensive Point Cloud Understanding via Self-supervised Learning [15.559369116540097]
ポイントクラウドの自己教師型学習は、ラベルのない3Dデータを活用して、手動のアノテーションに頼ることなく意味のある表現を学習することを目的としている。本稿では,3Dガウススプラッティング(3DGS)をポイントクラウドの自己教師型学習に初めて統合したGS-PTを提案する。我々のパイプラインは、トランスフォーマーを自己教師付き事前学習のバックボーンとして利用し、3DGSによる新しいコントラスト学習タスクを導入している。
論文参考訳（メタデータ） (2024-09-08T03:46:47Z)
4D Contrastive Superflows are Dense 3D Representation Learners [62.433137130087445]
我々は,LiDARとカメラのペアを連続的に利用して事前学習の目的を確立するための,新しいフレームワークであるSuperFlowを紹介する。学習効率をさらに向上するため,カメラビューから抽出した知識の整合性を高めるプラグイン・アンド・プレイ・ビュー・一貫性モジュールを組み込んだ。
論文参考訳（メタデータ） (2024-07-08T17:59:54Z)
Enhancing Generalizability of Representation Learning for Data-Efficient 3D Scene Understanding [50.448520056844885]
本研究では,実世界のパターンを持つ多様な合成シーンを生成可能なベイズネットワークを提案する。一連の実験は、既存の最先端の事前学習手法に比べて、我々の手法が一貫した優位性を示す。
論文参考訳（メタデータ） (2024-06-17T07:43:53Z)
SUGAR: Pre-training 3D Visual Representations for Robotics [85.55534363501131]
ロボット工学のための新しい3D事前学習フレームワークSUGARを紹介した。 SUGARは3次元の点雲を通してオブジェクトの意味的、幾何学的、および余分な特性をキャプチャする。 SuGARの3D表現は最先端の2Dおよび3D表現よりも優れていることを示す。
論文参考訳（メタデータ） (2024-04-01T21:23:03Z)
OV-Uni3DETR: Towards Unified Open-Vocabulary 3D Object Detection via Cycle-Modality Propagation [67.56268991234371]
OV-Uni3DETRは、様々なシナリオにおける最先端のパフォーマンスを達成し、既存のメソッドを平均6%以上上回っている。コードと事前訓練されたモデルは、後にリリースされる。
論文参考訳（メタデータ） (2024-03-28T17:05:04Z)
Leveraging Large-Scale Pretrained Vision Foundation Models for Label-Efficient 3D Point Cloud Segmentation [67.07112533415116]
本稿では3Dポイントクラウドセグメンテーションタスクに様々な基礎モデルを適用する新しいフレームワークを提案する。我々のアプローチでは、異なる大きな視覚モデルを用いて2次元セマンティックマスクの初期予測を行う。本研究では,ロバストな3Dセマンティックな擬似ラベルを生成するために,投票による全ての結果を効果的に組み合わせたセマンティックなラベル融合戦略を提案する。
論文参考訳（メタデータ） (2023-11-03T15:41:15Z)
3D Object Detection with a Self-supervised Lidar Scene Flow Backbone [10.341296683155973]
本稿では,下流3次元視覚タスクのための汎用クラウドバックボーンモデルを学習するために,自己指導型トレーニング戦略を提案する。我々の主な貢献は、学習の流れと動きの表現を活用し、自己教師付きバックボーンと3D検出ヘッドを組み合わせることである。 KITTIとnuScenesベンチマークの実験により、提案した自己教師付き事前学習は3次元検出性能を著しく向上させることが示された。
論文参考訳（メタデータ） (2022-05-02T07:53:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。