論文の概要: Masked Feature Prediction for Self-Supervised Visual Pre-Training
- arxiv url: http://arxiv.org/abs/2112.09133v1
- Date: Thu, 16 Dec 2021 18:59:59 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-17 14:59:21.141740
- Title: Masked Feature Prediction for Self-Supervised Visual Pre-Training
- Title(参考訳): 自己教師付き視覚前訓練のためのマスク特徴予測
- Authors: Chen Wei, Haoqi Fan, Saining Xie, Chao-Yuan Wu, Alan Yuille, Christoph
Feichtenhofer
- Abstract要約: 本稿では,映像モデルの自己教師付き事前学習のためのマスケプド特徴予測(MaskFeat)を提案する。
提案手法は,まず入力シーケンスの一部をランダムにマスキングし,マスク領域の特徴を予測する。
我々のアプローチは、豊富な視覚知識を学習し、大規模トランスフォーマーベースのモデルを駆動することができる。
- 参考スコア(独自算出の注目度): 37.99982773471159
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present Masked Feature Prediction (MaskFeat) for self-supervised
pre-training of video models. Our approach first randomly masks out a portion
of the input sequence and then predicts the feature of the masked regions. We
study five different types of features and find Histograms of Oriented
Gradients (HOG), a hand-crafted feature descriptor, works particularly well in
terms of both performance and efficiency. We observe that the local contrast
normalization in HOG is essential for good results, which is in line with
earlier work using HOG for visual recognition. Our approach can learn abundant
visual knowledge and drive large-scale Transformer-based models. Without using
extra model weights or supervision, MaskFeat pre-trained on unlabeled videos
achieves unprecedented results of 86.7% with MViT-L on Kinetics-400, 88.3% on
Kinetics-600, 80.4% on Kinetics-700, 38.8 mAP on AVA, and 75.0% on SSv2.
MaskFeat further generalizes to image input, which can be interpreted as a
video with a single frame and obtains competitive results on ImageNet.
- Abstract(参考訳): ビデオモデルの自己教師付き事前学習のためのマスク特徴予測(maskfeat)を提案する。
提案手法では,まず入力シーケンスの一部をランダムにマスキングし,その後,マスキング領域の特徴を予測する。
我々は5種類の特徴を研究し、手作りの特徴記述子である向き付け勾配のヒストグラム(Histograms of Oriented Gradients,HOG)を見つけ、特に性能と効率の両面でうまく機能する。
hogの局所的コントラスト正規化は,視覚認識にhogを用いた初期の研究と一致し,良好な結果を得るためには不可欠である。
我々のアプローチは、豊富な視覚知識を学習し、大規模トランスフォーマーベースのモデルを駆動することができる。
追加のモデル重量や監督を使わずに、未ラベルのビデオで事前訓練されたMaskFeatは、Kineetics-400でMViT-Lが86.7%、Kineetics-600で88.3%、Kineetics-700で80.4%、AVAで38.8mAP、SSv2で75.0%という前例のない結果を達成した。
MaskFeatはさらにイメージ入力を一般化し、単一のフレームでビデオとして解釈でき、ImageNet上での競合結果を得ることができる。
関連論文リスト
- Revisiting Feature Prediction for Learning Visual Representations from Video [62.08833572467379]
V-JEPAは、機能予測の目的のみを用いて訓練された視覚モデルの集合である。
モデルは、公開データセットから収集された200万のビデオに基づいてトレーニングされる。
以上の結果から,映像特徴の予測による学習が視覚表現の多目的化につながることが示唆された。
論文 参考訳(メタデータ) (2024-02-15T18:59:11Z) - Facial Emotion Recognition Under Mask Coverage Using a Data Augmentation
Technique [0.0]
異なる顔マスクを着用している個人からの感情を認識できる顔感情認識システムを提案する。
移動学習を用いて学習した4つの畳み込みニューラルネットワークの有効性を評価した。
Resnet50は優れた性能を示しており、人依存モードは73.68%、人依存モードは59.57%である。
論文 参考訳(メタデータ) (2023-12-03T09:50:46Z) - VideoMAE V2: Scaling Video Masked Autoencoders with Dual Masking [57.552798046137646]
Video masked autoencoder(ビデオマスクオートエンコーダ)は、ビデオ基礎モデルを構築するための、スケーラブルで汎用的な自己監督型プレトレーナーである。
我々は10億のパラメータを持つビデオViTモデルのトレーニングに成功した。
論文 参考訳(メタデータ) (2023-03-29T14:28:41Z) - Could Giant Pretrained Image Models Extract Universal Representations? [94.97056702288317]
本稿では,多種多様なコンピュータビジョンタスクに適用した凍結事前学習モデルについて述べる。
私たちの研究は、この凍結した設定にどのような事前学習タスクが最適か、凍結した設定を様々な下流タスクに柔軟にする方法、より大きなモデルサイズの影響について、質問に答えています。
論文 参考訳(メタデータ) (2022-11-03T17:57:10Z) - A Unified View of Masked Image Modeling [117.79456335844439]
マスク付き画像モデリングは、大規模な視覚変換器を訓練する際のラベル・ハングリーの問題を取り除く大きな可能性を示している。
マスク位置の教師モデルから正規化された意味的特徴を再構成する,MaskDistillと呼ばれるシンプルで効果的な手法を提案する。
画像分類とセマンティックセグメンテーションの実験結果から、MaskDistillは最先端の手法よりも同等または優れた性能を達成していることがわかった。
論文 参考訳(メタデータ) (2022-10-19T14:59:18Z) - It Takes Two: Masked Appearance-Motion Modeling for Self-supervised
Video Transformer Pre-training [76.69480467101143]
自己監督型ビデオトランスフォーマーの事前トレーニングは、最近マスク・アンド・予測パイプラインの恩恵を受けている。
本稿では,映像中の動きの手がかりを余分な予測対象として明示的に調査し,マスケッド・出現運動モデリングフレームワークを提案する。
一般的なビデオ表現を学習し、Kinects-400で82.3%、Something V2で71.3%、UCF101で91.5%、HMDB51で62.5%を達成する。
論文 参考訳(メタデータ) (2022-10-11T08:05:18Z) - Affective Behaviour Analysis Using Pretrained Model with Facial Priori [22.885249372875727]
そこで本稿では,未ラベル顔画像に事前トレーニングしたMasked Auto-Encoder (MAE) を用いた顔情報の利用を提案する。
また,MAE事前学習型視覚変換器(ViT)とAffectNet事前学習型CNNを組み合わせてマルチタスク感情認識を行う。
論文 参考訳(メタデータ) (2022-07-24T07:28:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。