Fugu-MT 論文翻訳(概要): T-MAE: Temporal Masked Autoencoders for Point Cloud Representation Learning

論文の概要: T-MAE: Temporal Masked Autoencoders for Point Cloud Representation Learning

arxiv url: http://arxiv.org/abs/2312.10217v1
Date: Fri, 15 Dec 2023 21:30:49 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-19 17:46:49.741117
Title: T-MAE: Temporal Masked Autoencoders for Point Cloud Representation Learning
Title（参考訳）: T-MAE:ポイントクラウド表現学習のための仮面自動エンコーダ
Authors: Weijie Wei, Fatemeh Karimi Nejadasl, Theo Gevers, Martin R. Oswald
Abstract要約: 本稿では,T-MAE(Temporal Masked AutoEncoders)という,時間的隣接フレームを入力とし,時間的依存を学習する効果的な事前学習戦略を提案する。 2フレーム入力には、シームズエンコーダとウィンドウベースのクロスアテンション(WCA)モジュールを含むSiamWCAバックボーンが設定されている。
参考スコア（独自算出の注目度）: 24.035845739530043
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The scarcity of annotated data in outdoor point cloud segmentation poses a significant obstacle in harnessing the modeling capabilities of advanced networks like transformers. Consequently, scholars have been actively investigating efficacious self-supervised pre-training strategies, e.g. contrasting learning and reconstruction-based pretext tasks. Nevertheless, temporal information, which is inherent in the LiDAR point cloud sequence, is consistently disregarded. To better utilize this property, we propose an effective pre-training strategy, namely Temporal Masked AutoEncoders (T-MAE), which takes as input temporally adjacent frames and learns temporal dependency. A SiamWCA backbone, containing a Siamese encoder and a window-based cross-attention (WCA) module, is established for the two-frame input. Taking into account that the motion of an ego-vehicle alters the illumination angles of the same instance, temporal modeling also serves as a robust and natural data augmentation, enhancing the comprehension of target objects. Moreover, instead of utilizing consecutive frames, it is more cost-effective and powerful by using distant historical frames. SiamWCA is a powerful architecture but heavily relies on annotated data. With our T-MAE pre-training strategy, we achieve the best performance on the Waymo dataset among self-supervised learning methods. Comprehensive experiments are conducted to validate all components of our proposal. Upon acceptance, the source code will be made accessible.
Abstract（参考訳）: アウトドアポイントクラウドセグメンテーションにおける注釈付きデータの不足は、トランスフォーマーのような高度なネットワークのモデリング能力を活用する上で大きな障害となる。その結果、研究者は学習と再構築に基づく前文課題の対比など、効果的な自己教師付き事前学習戦略を積極的に研究してきた。それでも、LiDAR点雲列に固有の時間情報は、常に無視されている。この特性をより有効に活用するために、時間的隣接フレームを入力として時間的依存を学習する時間的マスク付きオートエンコーダ(T-MAE)という効果的な事前学習戦略を提案する。 2フレーム入力には、シームズエンコーダとウィンドウベースのクロスアテンション(WCA)モジュールを含むSiamWCAバックボーンが設定されている。 ego-vehicleの動作が同じインスタンスの照明角を変化させることを考慮すると、時間的モデリングはロバストで自然なデータ拡張としても機能し、対象オブジェクトの理解を深める。また、連続フレームを利用する代わりに、遠い歴史フレームを使用することでコスト効率が高く、強力である。 SiamWCAは強力なアーキテクチャだが、アノテーション付きデータに大きく依存している。当社のT-MAE事前学習戦略により,自己教師付き学習手法のWaymoデータセット上での最高の性能を実現する。提案のすべてのコンポーネントを検証するため,包括的な実験を行った。受け入れると、ソースコードがアクセスできるようになる。

関連論文リスト

StPR: Spatiotemporal Preservation and Routing for Exemplar-Free Video Class-Incremental Learning [51.003833566279006]
CIL(Class-Incremental Learning)は、以前取得した知識を使わずに、時間とともに新しいアクションカテゴリを継続的に学習するモデルの開発を目指している。既存のアプローチでは、メモリとプライバシに関する懸念を忘れたり、あるいは時間的モデリングを無視する静的なイメージベースのメソッドを適用したりする。本稿では,情報を明示的に切り離して保存する,統一的で非定型なVCILフレームワークを提案する。
論文参考訳（メタデータ） (2025-05-20T06:46:51Z)
SuperFlow++: Enhanced Spatiotemporal Consistency for Cross-Modal Data Pretraining [62.433137130087445]
SuperFlow++は、連続するカメラペアを使用して事前トレーニングと下流タスクを統合する新しいフレームワークである。 SuperFlow++は様々なタスクや運転条件で最先端のメソッドよりも優れています。強力な一般化性と計算効率により、SuperFlow++は、自動運転におけるデータ効率の高いLiDARベースの認識のための新しいベンチマークを確立する。
論文参考訳（メタデータ） (2025-03-25T17:59:57Z)
MambaNUT: Nighttime UAV Tracking via Mamba and Adaptive Curriculum Learning [5.9089796108568855]
バックボーンとして線形複雑性を持つ状態空間モデルを用いる純マンバベースのトラッキングフレームワークを提案する。本稿では,サンプリング戦略と損失重みを動的に調整する適応型カリキュラム学習(ACL)手法を提案する。複数の夜間UAV追跡ベンチマークでの被曝実験は、提案されたMambaNUTが最先端の性能を達成することを示す。
論文参考訳（メタデータ） (2024-12-01T00:51:23Z)
Diffusion Auto-regressive Transformer for Effective Self-supervised Time Series Forecasting [47.58016750718323]
我々はTimeDARTと呼ばれる新しい自己管理手法を提案する。 TimeDARTは、時系列データ内のグローバルシーケンス依存とローカル詳細特徴の両方をキャプチャする。私たちのコードはhttps://github.com/Melmaphother/TimeDART.comで公開されています。
論文参考訳（メタデータ） (2024-10-08T06:08:33Z)
TASeg: Temporal Aggregation Network for LiDAR Semantic Segmentation [80.13343299606146]
そこで本稿では, 時系列LiDARアグリゲーション・蒸留(TLAD)アルゴリズムを提案する。時間画像のフル活用を目的として,カメラFOVを大幅に拡張できるTIAFモジュールを設計した。また,静的移動スイッチ拡張(SMSA)アルゴリズムを開発し,時間的情報を利用してオブジェクトの動作状態を自由に切り替える。
論文参考訳（メタデータ） (2024-07-13T03:00:16Z)
Bringing Masked Autoencoders Explicit Contrastive Properties for Point Cloud Self-Supervised Learning [116.75939193785143]
画像領域における視覚変換器(ViT)のコントラスト学習(CL)は、従来の畳み込みバックボーンのCLに匹敵する性能を達成した。 ViTで事前訓練した3Dポイントクラウドでは、マスク付きオートエンコーダ(MAE)モデリングが主流である。
論文参考訳（メタデータ） (2024-07-08T12:28:56Z)
Disentangling Spatial and Temporal Learning for Efficient Image-to-Video Transfer Learning [59.26623999209235]
ビデオの空間的側面と時間的側面の学習を両立させるDiSTを提案する。 DiSTの非絡み合い学習は、大量の事前学習パラメータのバックプロパゲーションを避けるため、非常に効率的である。 5つのベンチマークの大規模な実験は、DiSTが既存の最先端メソッドよりも優れたパフォーマンスを提供することを示す。
論文参考訳（メタデータ） (2023-09-14T17:58:33Z)
Self-Supervised Representation Learning from Temporal Ordering of Automated Driving Sequences [49.91741677556553]
本研究では、認識タスクのための地域レベルの特徴表現を事前学習するための時間順述前文タスクであるTempOを提案する。我々は各フレームを、オブジェクト検出やトラッキングシステムにとって自然な表現である、未順序な特徴ベクトルのセットで埋め込む。 BDD100K、nu Images、MOT17データセットの大規模な評価は、私たちのTempO事前学習アプローチがシングルフレームの自己教師型学習方法よりも優れていることを示している。
論文参考訳（メタデータ） (2023-02-17T18:18:27Z)
OST: Efficient One-stream Network for 3D Single Object Tracking in Point Clouds [6.661881950861012]
本稿では,従来のシームズネットワークで発生した相関操作を回避するために,インスタンスレベルのエンコーディングの強みを活かした新しい一ストリームネットワークを提案する。提案手法は,クラス固有のトラッキングだけでなく,より少ない計算と高い効率でクラスに依存しないトラッキングを実現する。
論文参考訳（メタデータ） (2022-10-16T12:31:59Z)
MAPLE: Masked Pseudo-Labeling autoEncoder for Semi-supervised Point Cloud Action Recognition [160.49403075559158]
本稿では,Pseudo-Labeling autoEncoder (textbfMAPLE) フレームワークを提案する。特に、MAPLEのバックボーンとして、新規で効率的なtextbfDecoupled textbfspatial-textbftemporal TranstextbfFormer(textbfDestFormer)を設計する。 MAPLEは3つの公開ベンチマークにおいて優れた結果を得て、MSR-Action3の精度を8.08%向上させる。
論文参考訳（メタデータ） (2022-09-01T12:32:40Z)
SatMAE: Pre-training Transformers for Temporal and Multi-Spectral Satellite Imagery [74.82821342249039]
Masked Autoencoder(MAE)に基づく時間・マルチスペクトル衛星画像の事前学習フレームワークであるSatMAEについて述べる。時間的情報を活用するために、時間にわたって画像パッチを個別にマスキングする時間的埋め込みを含む。
論文参考訳（メタデータ） (2022-07-17T01:35:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。