論文の概要: Visual Representation Learning from Unlabeled Video using Contrastive
Masked Autoencoders
- arxiv url: http://arxiv.org/abs/2303.12001v1
- Date: Tue, 21 Mar 2023 16:33:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-22 14:13:16.332801
- Title: Visual Representation Learning from Unlabeled Video using Contrastive
Masked Autoencoders
- Title(参考訳): コントラスト型マスクオートエンコーダを用いたビデオからの視覚表現学習
- Authors: Jefferson Hernandez, Ruben Villegas, Vicente Ordonez
- Abstract要約: Masked Autoencoders (MAEs) は入力画像パッチと再構成損失をランダムにマスキングすることで自己教師付き表現を学習する。
そこで本稿では,MAEとコントラスト学習を組み合わせた一般的な手法であるViC-MAEを提案する。
ViC-MAEで学習した視覚表現は,映像分類タスクと画像分類タスクの両方によく当てはまることを示す。
- 参考スコア(独自算出の注目度): 16.414763885082976
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Masked Autoencoders (MAEs) learn self-supervised representations by randomly
masking input image patches and a reconstruction loss. Alternatively,
contrastive learning self-supervised methods encourage two versions of the same
input to have a similar representation, while pulling apart the representations
for different inputs. We propose ViC-MAE, a general method that combines both
MAE and contrastive learning by pooling the local feature representations
learned under the MAE reconstruction objective and leveraging this global
representation under a contrastive objective across video frames. We show that
visual representations learned under ViC-MAE generalize well to both video
classification and image classification tasks. Using a backbone ViT-B/16
network pre-trained on the Moments in Time (MiT) dataset, we obtain
state-of-the-art transfer learning from video to images on Imagenet-1k by
improving 1.58% in absolute top-1 accuracy from a recent previous work.
Moreover, our method maintains a competitive transfer-learning performance of
81.50% top-1 accuracy on the Kinetics-400 video classification benchmark. In
addition, we show that despite its simplicity, ViC-MAE yields improved results
compared to combining MAE pre-training with previously proposed contrastive
objectives such as VicReg and SiamSiam.
- Abstract(参考訳): Masked Autoencoders (MAEs) は入力画像パッチと再構成損失をランダムにマスキングすることで自己教師付き表現を学習する。
あるいは、対照的な学習自己監督手法は、異なる入力の表現を引き離しながら、同じ入力の2つのバージョンを同じ表現を持つように促す。
ビデオフレーム間のコントラッシブな目的の下で学習した局所的特徴表現をプールし,そのグローバルな表現を活用することで,MAEとコントラスト学習を組み合わせた一般的な方法であるViC-MAEを提案する。
ViC-MAEで学習した視覚表現は、映像分類タスクと画像分類タスクの両方によく当てはまる。
モーメント・イン・タイム(MiT)データセットで事前トレーニングしたバックボーンVT-B/16ネットワークを用いて,Imagenet-1k上の映像から画像への最先端の移動学習を,最近の研究から1.58%の絶対トップ1精度で改善した。
さらに,Kinetics-400 ビデオ分類ベンチマークでは,81.50% のトップ-1 の精度で,競合的な転送学習性能を維持している。
さらに,VicRegやSiamSiamのような従来提案されていたコントラスト目標とMAE事前学習を併用した場合と比較して,VC-MAEの精度は向上した。
関連論文リスト
- Efficient Image Pre-Training with Siamese Cropped Masked Autoencoders [89.12558126877532]
そこで我々は,SiamMAE が導入した Siamese プレトレーニングの代替手法である CropMAE を提案する。
本手法では, ビデオから抽出した従来のフレームの対から切り離して, 同一画像から抽出した画像の対を別々に抽出する。
CropMAEは、これまでで最も高いマスキング比(98.5%)を達成し、2つの目に見えるパッチのみを使用して画像の再構成を可能にする。
論文 参考訳(メタデータ) (2024-03-26T16:04:19Z) - AV-MaskEnhancer: Enhancing Video Representations through Audio-Visual
Masked Autoencoder [3.8735222804007394]
視覚情報と音声情報を組み合わせて高品質な映像表現を学習するためのAV-MaskEnhancerを提案する。
本手法は,モーダリティコンテンツにおける音声とビデオの特徴の相補的な性質を実証することによる課題に対処する。
論文 参考訳(メタデータ) (2023-09-15T19:56:15Z) - HomE: Homography-Equivariant Video Representation Learning [62.89516761473129]
マルチビュービデオの表現学習のための新しい手法を提案する。
提案手法は異なる視点間の暗黙的なマッピングを学習し,近隣の視点間のホモグラフィ関係を維持する表現空間を決定づける。
動作分類では,UCF101データセットの96.4%の3倍精度が得られた。
論文 参考訳(メタデータ) (2023-06-02T15:37:43Z) - Masked Video Distillation: Rethinking Masked Feature Modeling for
Self-supervised Video Representation Learning [123.63301596019522]
Masked Video distillation (MVD) は、ビデオ表現学習のための単純な2段階マスク付き特徴モデリングフレームワークである。
教師モデルを選択するために,ビデオ教師が教える生徒が時間重のビデオタスクにおいて,より優れたパフォーマンスを発揮することを観察する。
我々は,異なる教師の利点を活用するために,MVDのための時空間協調学習法を設計する。
論文 参考訳(メタデータ) (2022-12-08T18:59:59Z) - Boosting Video Representation Learning with Multi-Faceted Integration [112.66127428372089]
ビデオコンテンツは多面的であり、オブジェクト、シーン、インタラクション、アクションで構成されている。
既存のデータセットは、主にモデルトレーニングのファセットの1つだけをラベル付けする。
我々は,ビデオコンテンツの全スペクトルを反映した表現を学習するために,異なるデータセットから顔データを集約する,MUFI(MUlti-Faceted Integration)という新たな学習フレームワークを提案する。
論文 参考訳(メタデータ) (2022-01-11T16:14:23Z) - ASCNet: Self-supervised Video Representation Learning with
Appearance-Speed Consistency [62.38914747727636]
本研究では,1)明示的な監督のためのラベルの欠如,2)構造化されていない,ノイズの多い視覚情報による自己指導型映像表現学習について検討する。
既存の方法は、主にビデオクリップをインスタンスとしてコントラスト損失を使用し、互いにインスタンスを識別することで視覚的表現を学ぶ。
本稿では,ロバストな映像表現を学ぶ上で,正のサンプル間の一貫性が鍵となることを観察する。
論文 参考訳(メタデータ) (2021-06-04T08:44:50Z) - RSPNet: Relative Speed Perception for Unsupervised Video Representation
Learning [100.76672109782815]
本研究では,未ラベル映像のみから動作特徴と外観特徴の両方を学習するための教師なし映像表現学習について検討する。
動作と外観の両方をうまくモデル化するために、適切な自己指導タスクを構築することは困難である。
再生速度を知覚し、2つのビデオクリップ間の相対速度をラベルとして利用するための新しい手法を提案する。
論文 参考訳(メタデータ) (2020-10-27T16:42:50Z) - Self-supervised Video Representation Learning Using Inter-intra
Contrastive Framework [43.002621928500425]
ビデオから特徴表現を学習するための自己教師付き手法を提案する。
映像表現が重要であるので、負のサンプルを非負のサンプルによって拡張する。
学習した映像表現を用いて,映像検索と映像認識タスクの実験を行う。
論文 参考訳(メタデータ) (2020-08-06T09:08:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。