論文の概要: Concatenated Masked Autoencoders as Spatial-Temporal Learner
- arxiv url: http://arxiv.org/abs/2311.00961v2
- Date: Thu, 14 Dec 2023 08:15:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-16 03:58:33.812579
- Title: Concatenated Masked Autoencoders as Spatial-Temporal Learner
- Title(参考訳): 空間時間学習者としての複合マスケオートエンコーダ
- Authors: Zhouqiang Jiang, Bowen Wang, Tong Xiang, Zhaofeng Niu, Hong Tang,
Guangshun Li, Liangzhi Li
- Abstract要約: 自己教師型ビデオ表現学習のための時空間学習システムとして,Concatenated Masked Autoencoders (CatMAE)を導入した。
そこで本研究では,ビデオフレームをモデル再構成ターゲットとして用いた新しいデータ拡張戦略であるVideo-Reverse(ViRe)を提案する。
- 参考スコア(独自算出の注目度): 6.475592804311682
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Learning representations from videos requires understanding continuous motion
and visual correspondences between frames. In this paper, we introduce the
Concatenated Masked Autoencoders (CatMAE) as a spatial-temporal learner for
self-supervised video representation learning. For the input sequence of video
frames, CatMAE keeps the initial frame unchanged while applying substantial
masking (95%) to subsequent frames. The encoder in CatMAE is responsible for
encoding visible patches for each frame individually; subsequently, for each
masked frame, the decoder leverages visible patches from both previous and
current frames to reconstruct the original image. Our proposed method enables
the model to estimate the motion information between visible patches, match the
correspondences between preceding and succeeding frames, and ultimately learn
the evolution of scenes. Furthermore, we propose a new data augmentation
strategy, Video-Reverse (ViRe), which uses reversed video frames as the model's
reconstruction targets. This further encourages the model to utilize continuous
motion details and correspondences to complete the reconstruction, thereby
enhancing the model's capabilities. Compared to the most advanced pre-training
methods, CatMAE achieves a leading level in video segmentation tasks and action
recognition tasks.
- Abstract(参考訳): ビデオから表現を学ぶには、連続した動きとフレーム間の視覚的対応を理解する必要がある。
本稿では,自己教師型ビデオ表現学習のための空間時間学習器として,Concatenated Masked Autoencoders (CatMAE)を導入する。
ビデオフレームの入力シーケンスについては、CatMAEは初期フレームを変更せず、マスキング(95%)をその後のフレームに適用する。
CatMAEのエンコーダは各フレームの可視パッチを個別にエンコードする責任があり、その後、各マスクフレームに対して、デコーダは以前のフレームと現在のフレームの両方から可視パッチを活用して元のイメージを再構築する。
提案手法により,目に見えるパッチ間の動き情報を推定し,先行フレームと後続フレーム間の対応を一致させ,最終的にシーンの進化を学習できる。
さらに,モデルの再構成目標として逆フレームを用いた新しいデータ拡張戦略である video-reverse (vire) を提案する。
これにより、モデルが連続的な動きの詳細と対応を利用して再構築を完了させることが奨励され、モデルの能力が向上する。
もっとも先進的な事前学習手法と比較して、CatMAEはビデオセグメンテーションタスクとアクション認識タスクのリードレベルを達成する。
関連論文リスト
- Efficient Image Pre-Training with Siamese Cropped Masked Autoencoders [89.12558126877532]
そこで我々は,SiamMAE が導入した Siamese プレトレーニングの代替手法である CropMAE を提案する。
本手法では, ビデオから抽出した従来のフレームの対から切り離して, 同一画像から抽出した画像の対を別々に抽出する。
CropMAEは、これまでで最も高いマスキング比(98.5%)を達成し、2つの目に見えるパッチのみを使用して画像の再構成を可能にする。
論文 参考訳(メタデータ) (2024-03-26T16:04:19Z) - Video-LaVIT: Unified Video-Language Pre-training with Decoupled Visual-Motional Tokenization [52.63845811751936]
ダイナミックスビデオのモデリングのため、ビデオ事前トレーニングは難しい。
本稿では,ビデオ事前学習におけるこのような制限を,効率的なビデオ分解によって解決する。
筆者らのフレームワークは,13のマルチモーダルベンチマークにおいて,画像と映像のコンテントの理解と生成が可能であることを実証した。
論文 参考訳(メタデータ) (2024-02-05T16:30:49Z) - Prompt Switch: Efficient CLIP Adaptation for Text-Video Retrieval [24.691270610091554]
本稿では,ビデオから意味的に強調された表現を純粋に学習し,ビデオ表現をオフラインで計算し,異なるテキストに対して再利用することを目的とする。
MSR-VTT, MSVD, LSMDCの3つのベンチマークデータセット上で, 最先端のパフォーマンスを得る。
論文 参考訳(メタデータ) (2023-08-15T08:54:25Z) - Siamese Masked Autoencoders [76.35448665609998]
ビデオから視覚的対応を学習するために,Siamese Masked Autoencoders(SiamMAE)を提案する。
SiamMAEはランダムにサンプリングされたビデオフレームのペアで動作し、非対称にそれらをマスクする。
ビデオオブジェクトのセグメンテーション、キーポイントのプロパゲーション、セマンティック部分のプロパゲーションタスクにおいて、最先端の自己管理手法よりも優れています。
論文 参考訳(メタデータ) (2023-05-23T17:59:46Z) - DropMAE: Masked Autoencoders with Spatial-Attention Dropout for Tracking
Tasks [76.24996889649744]
Masked Autoencoder (MAE) Pretraining on video for matching-based downstream task, including visual object tracking (VOT) and video object segmentation (VOS)
そこで我々は,映像における時間的対応学習を容易にするために,フレーム再構成において空間的アテンション・ドロップアウトを適応的に行うDropMAEを提案する。
本モデルは,9つの競争力のあるビデオ追跡とセグメンテーションデータセットのうち8つに,最先端のパフォーマンスを新たに設定する。
論文 参考訳(メタデータ) (2023-04-02T16:40:42Z) - Masked Motion Encoding for Self-Supervised Video Representation Learning [84.24773072241945]
Masked Motion MMEは、外観情報と動作情報の両方を再構成し、時間的手がかりを探索する新しい事前学習パラダイムである。
物体の位置変化や形状変化を追跡することで、人間が行動を認識することができるという事実を動機として、マスク領域におけるこれらの2種類の変化を表す運動軌跡を再構築することを提案する。
我々のMMEパラダイムで事前訓練されたモデルでは、長期的かつきめ細かな動きの詳細を予測できる。
論文 参考訳(メタデータ) (2022-10-12T11:19:55Z) - Frozen CLIP Models are Efficient Video Learners [86.73871814176795]
ビデオ認識はエンドツーエンドの学習パラダイムに支配されている。
Contrastive Vision-Language Pre-Trainingの最近の進歩は、視覚認識タスクのための新しいルートの道を開く。
高品質なビデオ認識モデルを直接トレーニングする効率的なフレームワークである、効率的なビデオ学習を提案する。
論文 参考訳(メタデータ) (2022-08-06T17:38:25Z) - Siamese Network with Interactive Transformer for Video Object
Segmentation [34.202137199782804]
本稿では,SITVOSと呼ばれる対話型トランスフォーマーを設計したネットワークを提案し,過去のフレームから現在のフレームへの効果的なコンテキスト伝搬を実現する。
過去のフレームと現在のフレームの両方のバックボーン機能を抽出するためにバックボーンアーキテクチャを使用します。
論文 参考訳(メタデータ) (2021-12-28T03:38:17Z) - Cycle-Contrast for Self-Supervised Video Representation Learning [10.395615031496064]
本稿では,ビデオ表現を学習する新たな自己指導手法であるCCLについて述べる。
本手法では,R3Dアーキテクチャに基づく1つのネットワークからフレームとビデオの表現を学習する。
我々は,CCLが学習した映像表現が,映像理解の下流タスクにうまく移行できることを実証した。
論文 参考訳(メタデータ) (2020-10-28T08:27:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。