論文の概要: Masked Spatio-Temporal Structure Prediction for Self-supervised Learning
on Point Cloud Videos
- arxiv url: http://arxiv.org/abs/2308.09245v1
- Date: Fri, 18 Aug 2023 02:12:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-21 14:54:27.845770
- Title: Masked Spatio-Temporal Structure Prediction for Self-supervised Learning
on Point Cloud Videos
- Title(参考訳): 点雲ビデオにおける自己教師あり学習のためのマスキング時空間構造予測
- Authors: Zhiqiang Shen and Xiaoxiao Sheng and Hehe Fan and Longguang Wang and
Yulan Guo and Qiong Liu and Hao Wen and Xi Zhou
- Abstract要約: 人間のアノテーションを使わずにポイントクラウドビデオの構造をキャプチャするMasked-temporal Structure Prediction (MaST-Pre)法を提案する。
MaST-Preは,2つの自己指導型学習タスクから構成される。まず,マスク付きポイントチューブを再構築することにより,ポイントクラウドビデオの出現情報を捉えることができる。
第2に、動作を学習するために、点管内の点数の変化を推定する時間的濃度差予測タスクを提案する。
- 参考スコア(独自算出の注目度): 75.9251839023226
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, the community has made tremendous progress in developing effective
methods for point cloud video understanding that learn from massive amounts of
labeled data. However, annotating point cloud videos is usually notoriously
expensive. Moreover, training via one or only a few traditional tasks (e.g.,
classification) may be insufficient to learn subtle details of the
spatio-temporal structure existing in point cloud videos. In this paper, we
propose a Masked Spatio-Temporal Structure Prediction (MaST-Pre) method to
capture the structure of point cloud videos without human annotations. MaST-Pre
is based on spatio-temporal point-tube masking and consists of two
self-supervised learning tasks. First, by reconstructing masked point tubes,
our method is able to capture the appearance information of point cloud videos.
Second, to learn motion, we propose a temporal cardinality difference
prediction task that estimates the change in the number of points within a
point tube. In this way, MaST-Pre is forced to model the spatial and temporal
structure in point cloud videos. Extensive experiments on MSRAction-3D,
NTU-RGBD, NvGesture, and SHREC'17 demonstrate the effectiveness of the proposed
method.
- Abstract(参考訳): 近年,大量のラベル付きデータから学習するポイントクラウドビデオ理解のための効果的な手法の開発に,コミュニティは大きな進歩を遂げている。
しかし、注釈付きクラウドビデオは通常高価である。
さらに、1つまたは少数の伝統的なタスク(例えば分類)によるトレーニングは、ポイントクラウドビデオに存在する時空間構造の微妙な詳細を学ぶには不十分である。
本稿では,人間のアノテーションを使わずにポイントクラウドビデオの構造をキャプチャするMasked Spatio-Temporal Structure Prediction (MaST-Pre)法を提案する。
MaST-Preは時空間のポイントチューブマスキングに基づいており、2つの自己教師型学習タスクで構成されている。
まず,マスクした点管を再構成することにより,点雲映像の出現情報を捉えることができる。
次に,動きを学習するために,点管内の点数の変化を推定する時間濃度差予測タスクを提案する。
このようにして、MaST-Preは点雲ビデオの空間構造と時間構造をモデル化せざるを得ない。
MSRAction-3D, NTU-RGBD, NvGesture, SHREC'17の大規模実験により提案手法の有効性が示された。
関連論文リスト
- PRED: Pre-training via Semantic Rendering on LiDAR Point Clouds [18.840000859663153]
本稿では,屋外点雲のための画像支援事前学習フレームワークPreDを提案する。
我々のフレームワークの主な構成要素は、Birds-Eye-View (BEV) 機能マップ条件付きセマンティックレンダリングである。
我々は、高マスキング比のポイントワイドマスクを組み込むことにより、モデルの性能をさらに向上させる。
論文 参考訳(メタデータ) (2023-11-08T07:26:09Z) - CPCM: Contextual Point Cloud Modeling for Weakly-supervised Point Cloud
Semantic Segmentation [60.0893353960514]
疎アノテーションを用いた弱教師付きポイントクラウドセマンティックセマンティックセグメンテーションの課題について検討する。
本研究では,地域マスキング(RegionMask)戦略とコンテキストマスキングトレーニング(CMT)手法の2つの部分からなるコンテキストポイントクラウドモデリング(CPCM)手法を提案する。
論文 参考訳(メタデータ) (2023-07-19T04:41:18Z) - 3DInAction: Understanding Human Actions in 3D Point Clouds [31.66883982183386]
本稿では,3次元クラウド行動認識のための新しい手法を提案する。
提案手法は,ASMビデオを含む既存のデータセットの性能向上を実現する。
論文 参考訳(メタデータ) (2023-03-11T08:42:54Z) - PointCaM: Cut-and-Mix for Open-Set Point Cloud Learning [72.07350827773442]
我々は,新しいポイントカット・アンド・ミクス機構を用いて,オープンセットのクラウド学習を解決することを提案する。
トレーニング段階では,Unknown-Point Simulatorを用いてアウト・オブ・ディストリビューションデータをシミュレートする。
Unknown-Point Estimatorモジュールは、既知のデータを識別するために、ポイントクラウドの機能コンテキストを活用することを学ぶ。
論文 参考訳(メタデータ) (2022-12-05T03:53:51Z) - PSTNet: Point Spatio-Temporal Convolution on Point Cloud Sequences [51.53563462897779]
本稿では,ポイントクラウドシーケンスの情報表現を実現するために,PST畳み込みを提案する。
PSTは3次元空間における局所的構造点を捉えるために空間畳み込みを用い、時間次元に沿った空間領域のダイナミクスをモデル化するために時間畳み込みを用いる。
提案したPST畳み込みを深層ネットワーク,すなわちPSTNetに組み込んで,階層的に点群列の特徴を抽出する。
論文 参考訳(メタデータ) (2022-05-27T02:14:43Z) - PointAttN: You Only Need Attention for Point Cloud Completion [89.88766317412052]
ポイント・クラウド・コンプリート(Point cloud completion)とは、部分的な3次元ポイント・クラウドから3次元の形状を完成させることである。
そこで我々は,kNNを除去するために,ポイントクラウドをポイント単位に処理する新しいニューラルネットワークを提案する。
提案するフレームワークであるPointAttNはシンプルで簡潔で効果的であり、3次元形状の構造情報を正確に捉えることができる。
論文 参考訳(メタデータ) (2022-03-16T09:20:01Z) - CP-Net: Contour-Perturbed Reconstruction Network for Self-Supervised
Point Cloud Learning [53.1436669083784]
本稿では,CP-Net(Contour-Perturbed Restruction Network)を提案する。
分類では、ModelNet40(92.5%の精度)とScanObjectNN(87.9%の精度)の完全教師付き手法で競合する結果を得る。
論文 参考訳(メタデータ) (2022-01-20T15:04:12Z) - Unsupervised Learning of Global Registration of Temporal Sequence of
Point Clouds [16.019588704177288]
点雲のグローバルな登録は、2次元または3次元の点集合の配列の最適なアライメントを見つけることを目的としている。
本稿では,現在ある深層学習技術を利用して,点雲の時間的シーケンスからグローバルな登録を教師なし学習する手法を提案する。
論文 参考訳(メタデータ) (2020-06-17T06:00:36Z) - Review: deep learning on 3D point clouds [9.73176900969663]
ポイントクラウドは3D表現のための最も重要なデータフォーマットの1つである。
ディープラーニングは現在、コンピュータビジョンにおけるデータ処理の最も強力なツールです。
論文 参考訳(メタデータ) (2020-01-17T12:55:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。