論文の概要: VideoMAC: Video Masked Autoencoders Meet ConvNets
- arxiv url: http://arxiv.org/abs/2402.19082v1
- Date: Thu, 29 Feb 2024 12:09:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-01 15:04:46.503228
- Title: VideoMAC: Video Masked Autoencoders Meet ConvNets
- Title(参考訳): videomac: ビデオマスク付きオートエンコーダーがconvnetsと出会う
- Authors: Gensheng Pei, Tao Chen, Xiruo Jiang, Huafeng Liu, Zeren Sun, Yazhou
Yao
- Abstract要約: VideoMACはランダムにサンプリングされたビデオフレームに対称マスキングを用いる。
本稿では,デュアルエンコーダアーキテクチャであるMVMアプローチを提案する。
古典的(ResNet)/現代的(ConvNeXt)畳み込みエンコーダを強化するビデオMACは、下流タスクにおけるViTベースのアプローチより優れている。
- 参考スコア(独自算出の注目度): 26.723998063596635
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, the advancement of self-supervised learning techniques, like masked
autoencoders (MAE), has greatly influenced visual representation learning for
images and videos. Nevertheless, it is worth noting that the predominant
approaches in existing masked image / video modeling rely excessively on
resource-intensive vision transformers (ViTs) as the feature encoder. In this
paper, we propose a new approach termed as \textbf{VideoMAC}, which combines
video masked autoencoders with resource-friendly ConvNets. Specifically,
VideoMAC employs symmetric masking on randomly sampled pairs of video frames.
To prevent the issue of mask pattern dissipation, we utilize ConvNets which are
implemented with sparse convolutional operators as encoders. Simultaneously, we
present a simple yet effective masked video modeling (MVM) approach, a dual
encoder architecture comprising an online encoder and an exponential moving
average target encoder, aimed to facilitate inter-frame reconstruction
consistency in videos. Additionally, we demonstrate that VideoMAC, empowering
classical (ResNet) / modern (ConvNeXt) convolutional encoders to harness the
benefits of MVM, outperforms ViT-based approaches on downstream tasks,
including video object segmentation (+\textbf{5.2\%} / \textbf{6.4\%}
$\mathcal{J}\&\mathcal{F}$), body part propagation (+\textbf{6.3\%} /
\textbf{3.1\%} mIoU), and human pose tracking (+\textbf{10.2\%} /
\textbf{11.1\%} PCK@0.1).
- Abstract(参考訳): 近年,マスク付きオートエンコーダ(MAE)のような自己指導型学習技術の進歩は,画像やビデオの視覚的表現学習に大きな影響を与えている。
それでも、既存のマスク付き画像/ビデオモデリングにおける主要なアプローチは、機能エンコーダとして資源集約型視覚変換器(ViT)に過度に依存することに注意する必要がある。
本稿では、ビデオマスク付きオートエンコーダとリソースフレンドリーなConvNetを組み合わせた「textbf{VideoMAC}」という新しいアプローチを提案する。
具体的には、ビデオMACはランダムにサンプリングされたビデオフレームに対称マスキングを用いる。
マスクパターンの散逸問題を防止するため,sparse convolutional operatorをエンコーダとして実装したconvnetsを利用する。
同時に、オンラインエンコーダと指数移動平均目標目標目標目標エンコーダからなるデュアルエンコーダアーキテクチャを、ビデオにおけるフレーム間再構成の整合性を促進することを目的とした、シンプルで効果的なマスク付きビデオモデリング(MVM)手法を提案する。
さらに、古典的(resnet)/現代的(convnext)畳み込みエンコーダをmvmの利点に活用し、ビデオオブジェクトのセグメンテーション(+\textbf{5.2\%} / \textbf{6.4\%} $\mathcal{j}\&\mathcal{f}$)、ボディ部分の伝搬(+\textbf{6.3\%} / \textbf{3.1\%} miou)、人間のポーズ追跡(+\textbf{10.2\%} / \textbf{11.1\%}} pck@0.1)など、下流タスクにおけるvitベースのアプローチを上回っていることを実証する。
関連論文リスト
- Text-Guided Video Masked Autoencoder [12.321239366215426]
本稿では,ペア字幕に高い対応で映像領域をマスキングする新しいテキスト誘導マスキングアルゴリズム(TGM)を提案する。
既存のマスキングアルゴリズム、統一MAE、マスキングビデオテキストコントラスト学習により、純粋なMAEと比較して下流性能が向上することを示す。
論文 参考訳(メタデータ) (2024-08-01T17:58:19Z) - Mask Propagation for Efficient Video Semantic Segmentation [63.09523058489429]
ビデオセマンティックベースライン劣化(VSS)は、ビデオシーケンス内の各ピクセルにセマンティックラベルを割り当てることを含む。
SSSSと呼ばれるVSSのための効率的なマスク伝搬フレームワークを提案する。
当社のフレームワークは,フレーム単位のMask2Formerと比較して最大4倍のFLOPを削減し,Cityscapes検証セット上では最大2% mIoUしか使用できない。
論文 参考訳(メタデータ) (2023-10-29T09:55:28Z) - Regress Before Construct: Regress Autoencoder for Point Cloud
Self-supervised Learning [18.10704604275133]
Masked Autoencoders (MAE) は、2Dおよび3Dコンピュータビジョンのための自己教師型学習において有望な性能を示した。
我々は、ポイントクラウド自己教師型学習のための回帰オートエンコーダの新しいスキーム、Point Regress AutoEncoder (Point-RAE)を提案する。
本手法は, 各種下流タスクの事前学習において効率よく, 一般化可能である。
論文 参考訳(メタデータ) (2023-09-25T17:23:33Z) - Siamese Masked Autoencoders [76.35448665609998]
ビデオから視覚的対応を学習するために,Siamese Masked Autoencoders(SiamMAE)を提案する。
SiamMAEはランダムにサンプリングされたビデオフレームのペアで動作し、非対称にそれらをマスクする。
ビデオオブジェクトのセグメンテーション、キーポイントのプロパゲーション、セマンティック部分のプロパゲーションタスクにおいて、最先端の自己管理手法よりも優れています。
論文 参考訳(メタデータ) (2023-05-23T17:59:46Z) - VideoMAE V2: Scaling Video Masked Autoencoders with Dual Masking [57.552798046137646]
Video masked autoencoder(ビデオマスクオートエンコーダ)は、ビデオ基礎モデルを構築するための、スケーラブルで汎用的な自己監督型プレトレーナーである。
我々は10億のパラメータを持つビデオViTモデルのトレーニングに成功した。
論文 参考訳(メタデータ) (2023-03-29T14:28:41Z) - Contrastive Masked Autoencoders for Self-Supervised Video Hashing [54.636976693527636]
SSVH(Self-Supervised Video Hashing)モデルは,ビデオの短いバイナリ表現を生成することを学ぶ。
本稿では,映像意味情報と映像類似性関係理解を組み込んだ,シンプルで効果的なワンステージSSVH手法であるConMHを提案する。
論文 参考訳(メタデータ) (2022-11-21T06:48:14Z) - A Coding Framework and Benchmark towards Low-Bitrate Video Understanding [63.05385140193666]
我々は,従来のコーデックとニューラルネットワーク(NN)の両方を活用する,従来型ニューラル混合符号化フレームワークを提案する。
このフレームワークは、動画の移動効率の良いセマンティック表現を確実に保持することで最適化される。
8つのデータセットに3つのダウンストリームタスクを備えた低ビットレートビデオ理解ベンチマークを構築し、このアプローチの顕著な優位性を実証した。
論文 参考訳(メタデータ) (2022-02-06T16:29:15Z) - VIOLET : End-to-End Video-Language Transformers with Masked Visual-token
Modeling [88.30109041658618]
ビデオ言語(VidL)モデリングにおける大きな課題は、画像/映像理解モデルから抽出された固定されたビデオ表現と、下流のVidLデータとの切り離しにある。
我々は、ビデオ入力の時間的ダイナミクスを明示的にモデル化するビデオトランスを採用した、完全なエンドツーエンドVIdeO-LanguagE変換器であるVIOLETを提案する。
論文 参考訳(メタデータ) (2021-11-24T18:31:20Z) - MetaSCI: Scalable and Adaptive Reconstruction for Video Compressive
Sensing [21.243762976995544]
ビデオスナップショット圧縮イメージング(SCI)は、ビデオフレームが異なるマスクによってコーディングされ、スナップショット測定に圧縮される有望なシステムです。
MetaSCIと呼ばれるSCI再構築のためのMeta Modulated Convolutional Networkを開発しています。
論文 参考訳(メタデータ) (2021-03-02T14:53:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。