論文の概要: DropMAE: Masked Autoencoders with Spatial-Attention Dropout for Tracking
Tasks
- arxiv url: http://arxiv.org/abs/2304.00571v2
- Date: Fri, 7 Apr 2023 02:55:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-10 14:24:58.691828
- Title: DropMAE: Masked Autoencoders with Spatial-Attention Dropout for Tracking
Tasks
- Title(参考訳): DropMAE: 追従作業のための空間認識型自動エンコーダ
- Authors: Qiangqiang Wu and Tianyu Yang and Ziquan Liu and Baoyuan Wu and Ying
Shan and Antoni B. Chan
- Abstract要約: Masked Autoencoder (MAE) Pretraining on video for matching-based downstream task, including visual object tracking (VOT) and video object segmentation (VOS)
そこで我々は,映像における時間的対応学習を容易にするために,フレーム再構成において空間的アテンション・ドロップアウトを適応的に行うDropMAEを提案する。
本モデルは,9つの競争力のあるビデオ追跡とセグメンテーションデータセットのうち8つに,最先端のパフォーマンスを新たに設定する。
- 参考スコア(独自算出の注目度): 76.24996889649744
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we study masked autoencoder (MAE) pretraining on videos for
matching-based downstream tasks, including visual object tracking (VOT) and
video object segmentation (VOS). A simple extension of MAE is to randomly mask
out frame patches in videos and reconstruct the frame pixels. However, we find
that this simple baseline heavily relies on spatial cues while ignoring
temporal relations for frame reconstruction, thus leading to sub-optimal
temporal matching representations for VOT and VOS. To alleviate this problem,
we propose DropMAE, which adaptively performs spatial-attention dropout in the
frame reconstruction to facilitate temporal correspondence learning in videos.
We show that our DropMAE is a strong and efficient temporal matching learner,
which achieves better finetuning results on matching-based tasks than the
ImageNetbased MAE with 2X faster pre-training speed. Moreover, we also find
that motion diversity in pre-training videos is more important than scene
diversity for improving the performance on VOT and VOS. Our pre-trained DropMAE
model can be directly loaded in existing ViT-based trackers for fine-tuning
without further modifications. Notably, DropMAE sets new state-of-the-art
performance on 8 out of 9 highly competitive video tracking and segmentation
datasets. Our code and pre-trained models are available at
https://github.com/jimmy-dq/DropMAE.git.
- Abstract(参考訳): 本稿では,視覚オブジェクト追跡 (vot) やビデオオブジェクトセグメンテーション (vos) など,マッチングベースの下流タスクのための映像を事前学習するマスク付きオートエンコーダ (mae) について検討する。
MAEの単純な拡張は、ビデオのフレームパッチをランダムにマスクアウトし、フレームピクセルを再構築することである。
しかし,この単純なベースラインはフレーム再構成の時間的関係を無視しながら空間的手がかりに大きく依存していることが判明し,VOTとVOSの時間的マッチング表現が準最適となることがわかった。
そこで本研究では,映像の時間的対応学習を容易にするために,フレーム再構成において空間的意図のドロップアウトを適応的に行うDropMAEを提案する。
その結果,DropMAEは2倍高速な事前学習速度を持つImageNetベースのMAEよりも,マッチングベースタスクの微調整結果の精度が向上することがわかった。
さらに,VOTおよびVOSの性能向上のために,事前学習ビデオの動作の多様性がシーンの多様性よりも重要であることも確認した。
トレーニング済みのDropMAEモデルは、既存のViTベースのトラッカーに直接ロードして、さらなる修正を加えることなく微調整することができる。
特にDropMAEは、9つの競争力のあるビデオ追跡とセグメンテーションデータセットのうち8つに、最先端のパフォーマンスを新たに設定する。
私たちのコードと事前トレーニングされたモデルは、https://github.com/jimmy-dq/dropmae.gitで利用可能です。
関連論文リスト
- Efficient Image Pre-Training with Siamese Cropped Masked Autoencoders [89.12558126877532]
そこで我々は,SiamMAE が導入した Siamese プレトレーニングの代替手法である CropMAE を提案する。
本手法では, ビデオから抽出した従来のフレームの対から切り離して, 同一画像から抽出した画像の対を別々に抽出する。
CropMAEは、これまでで最も高いマスキング比(98.5%)を達成し、2つの目に見えるパッチのみを使用して画像の再構成を可能にする。
論文 参考訳(メタデータ) (2024-03-26T16:04:19Z) - Multi-entity Video Transformers for Fine-Grained Video Representation
Learning [36.31020249963468]
ビデオ表現学習のためのトランスフォーマーアーキテクチャの設計を再検討する。
我々の自己監督手法の健全な側面は、時間的パイプラインにおける空間情報の統合の改善である。
我々のMV-Former(Multi-entity Video Transformer)アーキテクチャは、複数のきめ細かいビデオベンチマークで最先端の結果を得る。
論文 参考訳(メタデータ) (2023-11-17T21:23:12Z) - Concatenated Masked Autoencoders as Spatial-Temporal Learner [6.475592804311682]
自己教師型ビデオ表現学習のための時空間学習システムとして,Concatenated Masked Autoencoders (CatMAE)を導入した。
そこで本研究では,ビデオフレームをモデル再構成ターゲットとして用いた新しいデータ拡張戦略であるVideo-Reverse(ViRe)を提案する。
論文 参考訳(メタデータ) (2023-11-02T03:08:26Z) - Unmasked Teacher: Towards Training-Efficient Video Foundation Models [50.19560876891811]
ビデオファウンデーションモデル(VFM)は、高い計算コストとデータ不足のため、限られた探索を受けている。
本稿では,既存の手法の利点を生かした時間感応型VFMの訓練効率向上手法を提案する。
我々のモデルは、シーン関連、時間関連、複雑なビデオ言語理解を含む様々なタスクを処理できる。
論文 参考訳(メタデータ) (2023-03-28T15:39:28Z) - You Can Ground Earlier than See: An Effective and Efficient Pipeline for
Temporal Sentence Grounding in Compressed Videos [56.676761067861236]
ビデオがトリミングされていない場合、時間的文のグラウンド化は、文問合せに従って目的のモーメントを意味的に見つけることを目的としている。
それまでの優れた作品は、かなり成功したが、それらはデコードされたフレームから抽出されたハイレベルな視覚的特徴にのみ焦点を当てている。
本稿では,圧縮された映像を直接視覚入力として利用する,圧縮された領域のTSGを提案する。
論文 参考訳(メタデータ) (2023-03-14T12:53:27Z) - Self-supervised Video Representation Learning with Motion-Aware Masked
Autoencoders [46.38458873424361]
近年,Masked Autoencoders (MAE) が自己教師型表現学習者として登場している。
本研究では、モーションアウェアの変種であるMotionMAEを紹介する。
本モデルは,時間とともに対応する動き構造情報を付加的に予測するように設計されている。
論文 参考訳(メタデータ) (2022-10-09T03:22:15Z) - VIOLET : End-to-End Video-Language Transformers with Masked Visual-token
Modeling [88.30109041658618]
ビデオ言語(VidL)モデリングにおける大きな課題は、画像/映像理解モデルから抽出された固定されたビデオ表現と、下流のVidLデータとの切り離しにある。
我々は、ビデオ入力の時間的ダイナミクスを明示的にモデル化するビデオトランスを採用した、完全なエンドツーエンドVIdeO-LanguagE変換器であるVIOLETを提案する。
論文 参考訳(メタデータ) (2021-11-24T18:31:20Z) - Attention-guided Temporal Coherent Video Object Matting [78.82835351423383]
本稿では,時間的コヒーレントなマッチング結果が得られる深層学習に基づくオブジェクトマッチング手法を提案する。
中心となるコンポーネントは、画像マッチングネットワークの強度を最大化するアテンションベースの時間アグリゲーションモジュールである。
本稿では,最先端のビデオオブジェクトセグメンテーションネットワークを微調整することで,トリマップ生成問題を効果的に解決する方法を示す。
論文 参考訳(メタデータ) (2021-05-24T17:34:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。