論文の概要: T-MAE: Temporal Masked Autoencoders for Point Cloud Representation Learning
- arxiv url: http://arxiv.org/abs/2312.10217v2
- Date: Thu, 21 Mar 2024 16:06:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-22 19:27:29.680305
- Title: T-MAE: Temporal Masked Autoencoders for Point Cloud Representation Learning
- Title(参考訳): T-MAE:ポイントクラウド表現学習のためのテンポラルマスク付きオートエンコーダ
- Authors: Weijie Wei, Fatemeh Karimi Nejadasl, Theo Gevers, Martin R. Oswald,
- Abstract要約: 本稿では,T-MAE (Temporal Masked Auto-Encoders) という,時間的隣接フレームを入力とし,時間的依存を学習する効果的な事前学習戦略を提案する。
2フレーム入力には、シームズエンコーダとウィンドウ付きクロスアテンション(WCA)モジュールを含むSiamWCAバックボーンが設定されている。
我々のT-MAE事前学習戦略は、アノテーション付きデータに対する需要を軽減する。総合的な実験は、T-MAEが両方のデータセット上で最高のパフォーマンスを達成することを実証する。
- 参考スコア(独自算出の注目度): 22.002220932086693
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The scarcity of annotated data in LiDAR point cloud understanding hinders effective representation learning. Consequently, scholars have been actively investigating efficacious self-supervised pre-training paradigms. Nevertheless, temporal information, which is inherent in the LiDAR point cloud sequence, is consistently disregarded. To better utilize this property, we propose an effective pre-training strategy, namely Temporal Masked Auto-Encoders (T-MAE), which takes as input temporally adjacent frames and learns temporal dependency. A SiamWCA backbone, containing a Siamese encoder and a windowed cross-attention (WCA) module, is established for the two-frame input. Considering that the movement of an ego-vehicle alters the view of the same instance, temporal modeling also serves as a robust and natural data augmentation, enhancing the comprehension of target objects. SiamWCA is a powerful architecture but heavily relies on annotated data. Our T-MAE pre-training strategy alleviates its demand for annotated data. Comprehensive experiments demonstrate that T-MAE achieves the best performance on both Waymo and ONCE datasets among competitive self-supervised approaches.
- Abstract(参考訳): LiDARポイントクラウド理解における注釈付きデータの不足は、効果的な表現学習を妨げる。
その結果、学者は自己指導型事前学習パラダイムを積極的に研究している。
それでも、LiDAR点雲列に固有の時間情報は、常に無視されている。
この特性をより有効に活用するために、時間的隣接フレームを入力とし、時間的依存を学習する時間的マスク付きオートエンコーダ(T-MAE)という効果的な事前学習戦略を提案する。
2フレーム入力には、シームズエンコーダとウィンドウ付きクロスアテンション(WCA)モジュールを含むSiamWCAバックボーンが設定されている。
Ego-vehicleの移動が同じインスタンスのビューを変えることを考えると、時間モデリングは頑健で自然なデータ拡張としても機能し、対象オブジェクトの理解を高めます。
SiamWCAは強力なアーキテクチャだが、アノテーション付きデータに大きく依存している。
我々のT-MAE事前学習戦略は、注釈付きデータに対する需要を軽減する。
総合的な実験により、T-MAEは、競争力のあるセルフ教師付きアプローチの中で、WaymoとONCEの両方のデータセット上で最高のパフォーマンスを達成することが示された。
関連論文リスト
- UGMAE: A Unified Framework for Graph Masked Autoencoders [67.75493040186859]
グラフマスク付きオートエンコーダのための統一フレームワークであるUGMAEを提案する。
まず,ノードの特異性を考慮した適応型特徴マスク生成器を開発した。
次に,階層型構造再構成と特徴再構成を併用し,総合的なグラフ情報を取得する。
論文 参考訳(メタデータ) (2024-02-12T19:39:26Z) - Distillation Enhanced Time Series Forecasting Network with Momentum
Contrastive Learning [8.328861861105889]
長周期時系列予測のための革新的蒸留強化フレームワークであるDE-TSMCLを提案する。
具体的には、タイムスタンプをマスクするかどうかを適応的に学習する学習可能なデータ拡張機構を設計する。
そこで本研究では,時系列のサンプル間および時間内相関を探索するために,モーメントを更新したコントラスト学習タスクを提案する。
複数のタスクからモデル損失を発生させることで、下流予測タスクの効果的な表現を学習することができる。
論文 参考訳(メタデータ) (2024-01-31T12:52:10Z) - A Spatiotemporal Correspondence Approach to Unsupervised LiDAR
Segmentation with Traffic Applications [16.260518238832887]
鍵となる考え方は、動的ポイントクラウドシーケンスの性質を活用し、非常に強力なシナリオを導入することである。
我々は、グループへのセマンティクスの最適化と、ポイントワイトテンポラルラベルを用いたクラスタリングを交互に行う。
本手法は,教師なし学習方式で識別的特徴を学習することができる。
論文 参考訳(メタデータ) (2023-08-23T21:32:46Z) - Forecast-MAE: Self-supervised Pre-training for Motion Forecasting with
Masked Autoencoders [7.133110402648305]
本研究では,自己教師型学習の動作予測への応用について検討する。
Forecast-MAEは、モーション予測タスクの自己教師型学習用に特別に設計されたマスクオートエンコーダフレームワークの拡張である。
論文 参考訳(メタデータ) (2023-08-19T02:27:51Z) - Self-Supervised Representation Learning from Temporal Ordering of
Automated Driving Sequences [49.91741677556553]
本研究では、認識タスクのための地域レベルの特徴表現を事前学習するための時間順述前文タスクであるTempOを提案する。
我々は各フレームを、オブジェクト検出やトラッキングシステムにとって自然な表現である、未順序な特徴ベクトルのセットで埋め込む。
BDD100K、nu Images、MOT17データセットの大規模な評価は、私たちのTempO事前学習アプローチがシングルフレームの自己教師型学習方法よりも優れていることを示している。
論文 参考訳(メタデータ) (2023-02-17T18:18:27Z) - GD-MAE: Generative Decoder for MAE Pre-training on LiDAR Point Clouds [72.60362979456035]
Masked Autoencoders (MAE)は、大規模な3Dポイントクラウドでの探索が難しい。
我々は,周囲のコンテキストを自動的にマージするためのtextbfGenerative textbfDecoder for MAE (GD-MAE)を提案する。
提案手法の有効性を, KITTI と ONCE の2つの大規模ベンチマークで実証した。
論文 参考訳(メタデータ) (2022-12-06T14:32:55Z) - OST: Efficient One-stream Network for 3D Single Object Tracking in Point
Clouds [7.669030912326021]
本稿では,前回のシームズネットワークで発生する相関操作を回避するため,トランスフォーマーエンコーディングの強みを生かした新しい一ストリームネットワークを提案する。
提案手法は,クラス固有のトラッキングだけでなく,より少ない計算と高い効率でクラスに依存しないトラッキングを実現する。
論文 参考訳(メタデータ) (2022-10-16T12:31:59Z) - MAPLE: Masked Pseudo-Labeling autoEncoder for Semi-supervised Point
Cloud Action Recognition [160.49403075559158]
本稿では,Pseudo-Labeling autoEncoder (textbfMAPLE) フレームワークを提案する。
特に、MAPLEのバックボーンとして、新規で効率的なtextbfDecoupled textbfspatial-textbftemporal TranstextbfFormer(textbfDestFormer)を設計する。
MAPLEは3つの公開ベンチマークにおいて優れた結果を得て、MSR-Action3の精度を8.08%向上させる。
論文 参考訳(メタデータ) (2022-09-01T12:32:40Z) - SatMAE: Pre-training Transformers for Temporal and Multi-Spectral
Satellite Imagery [74.82821342249039]
Masked Autoencoder(MAE)に基づく時間・マルチスペクトル衛星画像の事前学習フレームワークであるSatMAEについて述べる。
時間的情報を活用するために、時間にわたって画像パッチを個別にマスキングする時間的埋め込みを含む。
論文 参考訳(メタデータ) (2022-07-17T01:35:29Z) - Dual Adversarial Auto-Encoders for Clustering [152.84443014554745]
教師なしクラスタリングのためのDual-AAE(Dual-AAE)を提案する。
Dual-AAEの目的関数に対する変分推論を行うことで,一対のオートエンコーダをトレーニングすることで最適化可能な新たな再構成損失を導出する。
4つのベンチマーク実験により、Dual-AAEは最先端のクラスタリング手法よりも優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2020-08-23T13:16:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。