論文の概要: T-MAE: Temporal Masked Autoencoders for Point Cloud Representation
Learning
- arxiv url: http://arxiv.org/abs/2312.10217v1
- Date: Fri, 15 Dec 2023 21:30:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-19 17:46:49.741117
- Title: T-MAE: Temporal Masked Autoencoders for Point Cloud Representation
Learning
- Title(参考訳): T-MAE:ポイントクラウド表現学習のための仮面自動エンコーダ
- Authors: Weijie Wei, Fatemeh Karimi Nejadasl, Theo Gevers, Martin R. Oswald
- Abstract要約: 本稿では,T-MAE(Temporal Masked AutoEncoders)という,時間的隣接フレームを入力とし,時間的依存を学習する効果的な事前学習戦略を提案する。
2フレーム入力には、シームズエンコーダとウィンドウベースのクロスアテンション(WCA)モジュールを含むSiamWCAバックボーンが設定されている。
- 参考スコア(独自算出の注目度): 24.035845739530043
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The scarcity of annotated data in outdoor point cloud segmentation poses a
significant obstacle in harnessing the modeling capabilities of advanced
networks like transformers. Consequently, scholars have been actively
investigating efficacious self-supervised pre-training strategies, e.g.
contrasting learning and reconstruction-based pretext tasks. Nevertheless,
temporal information, which is inherent in the LiDAR point cloud sequence, is
consistently disregarded. To better utilize this property, we propose an
effective pre-training strategy, namely Temporal Masked AutoEncoders (T-MAE),
which takes as input temporally adjacent frames and learns temporal dependency.
A SiamWCA backbone, containing a Siamese encoder and a window-based
cross-attention (WCA) module, is established for the two-frame input. Taking
into account that the motion of an ego-vehicle alters the illumination angles
of the same instance, temporal modeling also serves as a robust and natural
data augmentation, enhancing the comprehension of target objects. Moreover,
instead of utilizing consecutive frames, it is more cost-effective and powerful
by using distant historical frames. SiamWCA is a powerful architecture but
heavily relies on annotated data. With our T-MAE pre-training strategy, we
achieve the best performance on the Waymo dataset among self-supervised
learning methods. Comprehensive experiments are conducted to validate all
components of our proposal. Upon acceptance, the source code will be made
accessible.
- Abstract(参考訳): アウトドアポイントクラウドセグメンテーションにおける注釈付きデータの不足は、トランスフォーマーのような高度なネットワークのモデリング能力を活用する上で大きな障害となる。
その結果、研究者は学習と再構築に基づく前文課題の対比など、効果的な自己教師付き事前学習戦略を積極的に研究してきた。
それでも、LiDAR点雲列に固有の時間情報は、常に無視されている。
この特性をより有効に活用するために、時間的隣接フレームを入力として時間的依存を学習する時間的マスク付きオートエンコーダ(T-MAE)という効果的な事前学習戦略を提案する。
2フレーム入力には、シームズエンコーダとウィンドウベースのクロスアテンション(WCA)モジュールを含むSiamWCAバックボーンが設定されている。
ego-vehicleの動作が同じインスタンスの照明角を変化させることを考慮すると、時間的モデリングはロバストで自然なデータ拡張としても機能し、対象オブジェクトの理解を深める。
また、連続フレームを利用する代わりに、遠い歴史フレームを使用することでコスト効率が高く、強力である。
SiamWCAは強力なアーキテクチャだが、アノテーション付きデータに大きく依存している。
当社のT-MAE事前学習戦略により,自己教師付き学習手法のWaymoデータセット上での最高の性能を実現する。
提案のすべてのコンポーネントを検証するため,包括的な実験を行った。
受け入れると、ソースコードがアクセスできるようになる。
関連論文リスト
- Betrayed by Attention: A Simple yet Effective Approach for
Self-supervised Video Object Segmentation [82.26906652229715]
自己教師型ビデオオブジェクトセグメンテーション(VOS)のための簡易かつ効果的なアプローチを提案する。
我々の重要な洞察は、DINO-pretrained Transformerに存在する構造的依存関係を利用して、ビデオ内の堅牢な時間分割対応を確立することである。
提案手法は,複数の教師なしVOSベンチマークにまたがる最先端性能を実証し,複雑な実世界のマルチオブジェクトビデオセグメンテーションタスクに優れることを示す。
論文 参考訳(メタデータ) (2023-11-29T18:47:17Z) - Disentangling Spatial and Temporal Learning for Efficient Image-to-Video
Transfer Learning [59.26623999209235]
ビデオの空間的側面と時間的側面の学習を両立させるDiSTを提案する。
DiSTの非絡み合い学習は、大量の事前学習パラメータのバックプロパゲーションを避けるため、非常に効率的である。
5つのベンチマークの大規模な実験は、DiSTが既存の最先端メソッドよりも優れたパフォーマンスを提供することを示す。
論文 参考訳(メタデータ) (2023-09-14T17:58:33Z) - Retrieval-Enhanced Contrastive Vision-Text Models [61.783728119255365]
そこで本研究では,メモリから取得したクロスモーダルな情報を推論時に表現することで,その埋め込みを洗練できる視覚テキストモデルを提案する。
注目すべきことに、これは凍ったCLIPの上に軽量の単層核融合トランスを用いて行うことができる。
検索強化コントラスト訓練(RECO)がCLIPの性能を大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-06-12T15:52:02Z) - Self-Supervised Representation Learning from Temporal Ordering of
Automated Driving Sequences [49.91741677556553]
本研究では、認識タスクのための地域レベルの特徴表現を事前学習するための時間順述前文タスクであるTempOを提案する。
我々は各フレームを、オブジェクト検出やトラッキングシステムにとって自然な表現である、未順序な特徴ベクトルのセットで埋め込む。
BDD100K、nu Images、MOT17データセットの大規模な評価は、私たちのTempO事前学習アプローチがシングルフレームの自己教師型学習方法よりも優れていることを示している。
論文 参考訳(メタデータ) (2023-02-17T18:18:27Z) - MAPLE: Masked Pseudo-Labeling autoEncoder for Semi-supervised Point
Cloud Action Recognition [160.49403075559158]
本稿では,Pseudo-Labeling autoEncoder (textbfMAPLE) フレームワークを提案する。
特に、MAPLEのバックボーンとして、新規で効率的なtextbfDecoupled textbfspatial-textbftemporal TranstextbfFormer(textbfDestFormer)を設計する。
MAPLEは3つの公開ベンチマークにおいて優れた結果を得て、MSR-Action3の精度を8.08%向上させる。
論文 参考訳(メタデータ) (2022-09-01T12:32:40Z) - Motion-aware Memory Network for Fast Video Salient Object Detection [15.967509480432266]
我々は、隣接するフレームから現在のフレームの有用な時間情報をVSODの時間枝として抽出する時空間メモリ(STM)ベースのネットワークを設計する。
符号化段階では、電流とその隣接するフレームから高次特徴を用いて高次時間特徴を生成する。
復号化段階では,空間的および時間的分岐に対する効果的な融合戦略を提案する。
提案モデルでは,光学フローなどの前処理を必要とせず,推定時に100FPS近い速度に達することができる。
論文 参考訳(メタデータ) (2022-08-01T15:56:19Z) - SatMAE: Pre-training Transformers for Temporal and Multi-Spectral
Satellite Imagery [74.82821342249039]
Masked Autoencoder(MAE)に基づく時間・マルチスペクトル衛星画像の事前学習フレームワークであるSatMAEについて述べる。
時間的情報を活用するために、時間にわたって画像パッチを個別にマスキングする時間的埋め込みを含む。
論文 参考訳(メタデータ) (2022-07-17T01:35:29Z) - Spatiotemporal Transformer Attention Network for 3D Voxel Level Joint
Segmentation and Motion Prediction in Point Cloud [9.570438238511073]
自動走行システムとインテリジェント輸送アプリケーションにとって、モーション予測は重要な有効性である。
現在の課題は、異なる知覚タスクを単一のバックボーンに効果的に組み合わせることである。
本稿では,共同セマンティックセグメンテーションのためのトランスフォーマ自己アテンション機構に基づく新しいアテンションネットワークを提案する。
論文 参考訳(メタデータ) (2022-02-28T23:18:27Z) - Fast Video Salient Object Detection via Spatiotemporal Knowledge
Distillation [20.196945571479002]
本稿では,映像の有能な物体検出に適した軽量ネットワークを提案する。
具体的には,空間的特徴を洗練させるために,サリエンシガイダンスの埋め込み構造と空間知識蒸留を組み合わせた。
時間的側面において,ネットワークが頑健な時間的特徴を学習することのできる時間的知識蒸留戦略を提案する。
論文 参考訳(メタデータ) (2020-10-20T04:48:36Z) - Representation Learning with Video Deep InfoMax [26.692717942430185]
我々は、DeepInfoMaxをビデオ領域に拡張し、時間的ネットワークにおける同様の構造を利用する。
自然数列と時間ダウンサンプル列の両方からの描画ビューが,キネティクスに制約された行動認識タスクに結果をもたらすことがわかった。
論文 参考訳(メタデータ) (2020-07-27T02:28:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。