論文の概要: Affective Behaviour Analysis Using Pretrained Model with Facial Priori
- arxiv url: http://arxiv.org/abs/2207.11679v1
- Date: Sun, 24 Jul 2022 07:28:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-26 14:35:16.355382
- Title: Affective Behaviour Analysis Using Pretrained Model with Facial Priori
- Title(参考訳): 顔の事前学習モデルを用いた感情行動分析
- Authors: Yifan Li, Haomiao Sun, Zhaori Liu, Hu Han
- Abstract要約: そこで本稿では,未ラベル顔画像に事前トレーニングしたMasked Auto-Encoder (MAE) を用いた顔情報の利用を提案する。
また,MAE事前学習型視覚変換器(ViT)とAffectNet事前学習型CNNを組み合わせてマルチタスク感情認識を行う。
- 参考スコア(独自算出の注目度): 22.885249372875727
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Affective behaviour analysis has aroused researchers' attention due to its
broad applications. However, it is labor exhaustive to obtain accurate
annotations for massive face images. Thus, we propose to utilize the prior
facial information via Masked Auto-Encoder (MAE) pretrained on unlabeled face
images. Furthermore, we combine MAE pretrained Vision Transformer (ViT) and
AffectNet pretrained CNN to perform multi-task emotion recognition. We notice
that expression and action unit (AU) scores are pure and intact features for
valence-arousal (VA) regression. As a result, we utilize AffectNet pretrained
CNN to extract expression scores concatenating with expression and AU scores
from ViT to obtain the final VA features. Moreover, we also propose a
co-training framework with two parallel MAE pretrained ViT for expression
recognition tasks. In order to make the two views independent, we random mask
most patches during the training process. Then, JS divergence is performed to
make the predictions of the two views as consistent as possible. The results on
ABAW4 show that our methods are effective.
- Abstract(参考訳): 影響的な行動分析は研究者の注意を喚起している。
しかし、大量の顔画像の正確なアノテーションを得るのには手間がかかる。
そこで本稿では,未ラベルの顔画像に基づいて事前訓練したMasked Auto-Encoder (MAE) による顔情報の利用を提案する。
さらに,MAE事前学習型視覚変換器(ViT)とAffectNet事前学習型CNNを組み合わせてマルチタスク感情認識を行う。
式と動作単位 (AU) のスコアは純粋かつ無傷であり, valence-arousal (VA) 回帰に有用である。
その結果,impactnet pretrained cnn を用いて vit から式および au スコアに結合した表現スコアを抽出し,最終的な va 特徴を得ることができた。
さらに,2つの並列MAEプレトレーニング済みVETを用いた協調学習フレームワークを提案する。
2つのビューを独立させるため、トレーニングプロセス中にほとんどのパッチをランダムにマスクします。
次に、jsの分岐を行い、2つのビューの予測を可能な限り一貫性を持たせる。
ABAW4の結果は,本手法が有効であることを示している。
関連論文リスト
- HSEmotion Team at the 7th ABAW Challenge: Multi-Task Learning and Compound Facial Expression Recognition [16.860963320038902]
HSEmotionチームは,第7回ABAW(Affective Behavior Analysis in-the-wild)コンペティションの2つの課題について報告する。
マルチタスク設定で事前学習したフレームレベルの顔特徴抽出器に基づく効率的なパイプラインを提案する。
ニューラルネットワークの軽量アーキテクチャを利用することで、私たちのテクニックのプライバシ意識を確保する。
論文 参考訳(メタデータ) (2024-07-18T05:47:49Z) - What Makes Pre-Trained Visual Representations Successful for Robust
Manipulation? [57.92924256181857]
照明やシーンテクスチャの微妙な変化の下では,操作や制御作業のために設計された視覚表現が必ずしも一般化されないことがわかった。
創発的セグメンテーション能力は,ViTモデルにおける分布外一般化の強い予測因子であることがわかった。
論文 参考訳(メタデータ) (2023-11-03T18:09:08Z) - Improving Adversarial Robustness of Masked Autoencoders via Test-time
Frequency-domain Prompting [133.55037976429088]
BERTプリトレーニング(BEiT, MAE)を備えた視覚変換器の対向ロバスト性について検討する。
意外な観察は、MAEが他のBERT事前訓練法よりも敵の頑健さが著しく悪いことである。
我々は,MAEの対角的堅牢性を高めるための,シンプルで効果的な方法を提案する。
論文 参考訳(メタデータ) (2023-08-20T16:27:17Z) - Learning to Mask and Permute Visual Tokens for Vision Transformer
Pre-Training [59.923672191632065]
我々はMasked and Permuted Vision Transformer(MaPeT)という自己教師型事前学習手法を提案する。
MaPeTは、自動回帰および置換予測を使用して、パッチ内依存関係をキャプチャする。
以上の結果から,MaPeTはImageNet上での競合性能を実証した。
論文 参考訳(メタデータ) (2023-06-12T18:12:19Z) - Multi-modal Facial Affective Analysis based on Masked Autoencoder [7.17338843593134]
CVPR 2023: ABAW5 competition: Affective Behavior Analysis in-the-wild について紹介する。
まず,大規模顔画像データセット上で事前学習したMasked Autoencoder(MAE)モデルの視覚情報を利用する。
ABAW5では,平均F1スコアが55.49%,EXPRトラックが41.21%であった。
論文 参考訳(メタデータ) (2023-03-20T03:58:03Z) - Efficient Masked Autoencoders with Self-Consistency [34.7076436760695]
マスク付き画像モデリング(MIM)はコンピュータビジョンにおける強力な自己教師付き事前学習手法として認識されている。
本研究では,自己整合性(EMAE)を有する効率的なマスク付きオートエンコーダを提案し,事前学習効率を向上させる。
EMAEは、画像分類、オブジェクト検出、セマンティックセグメンテーションなど、さまざまな下流タスクにおける最先端の転送能力を一貫して取得する。
論文 参考訳(メタデータ) (2023-02-28T09:21:12Z) - CroCo: Self-Supervised Pre-training for 3D Vision Tasks by Cross-View
Completion [20.121597331207276]
Masked Image Modeling (MIM)は、最近、強力な事前学習パラダイムとして確立されている。
本稿では,多種多様な3次元視覚と下層の幾何学的下流課題によく伝達される表現を学習することを目的とする。
実験の結果,本研究のプリテキストタスクは,モノラルな3次元視覚の下流タスクの性能を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2022-10-19T16:50:36Z) - MaskCLIP: Masked Self-Distillation Advances Contrastive Language-Image
Pretraining [138.86293836634323]
MaskCLIPは、新たに提案されたマスク付き自己蒸留をコントラスト言語イメージ事前学習に組み込む。
MaskCLIPは、言語エンコーダの誘導により、線形探索、微調整、ゼロショット性能において優れた結果が得られる。
論文 参考訳(メタデータ) (2022-08-25T17:59:58Z) - Frame-level Prediction of Facial Expressions, Valence, Arousal and
Action Units for Mobile Devices [7.056222499095849]
本稿では,AffectNetで事前学習した1つのEfficientNetモデルを用いて,顔の特徴を抽出し,フレームレベルの感情認識アルゴリズムを提案する。
当社のアプローチは,モバイルデバイス上でのビデオ解析にも適用できる。
論文 参考訳(メタデータ) (2022-03-25T03:53:27Z) - Corrupted Image Modeling for Self-Supervised Visual Pre-Training [103.99311611776697]
自己教師型視覚前訓練のためのCIM(Corrupted Image Modeling)を提案する。
CIMは、小さなトレーニング可能なBEiTを備えた補助発電機を使用して、人工マスクトークンを使用する代わりに入力イメージを破損させる。
事前トレーニング後、エンハンサーは下流タスク用の高容量ビジュアルエンコーダとして使用できる。
論文 参考訳(メタデータ) (2022-02-07T17:59:04Z) - Learning Representations by Predicting Bags of Visual Words [55.332200948110895]
自己教師付き表現学習ターゲットは、ラベルなしデータから畳み込みに基づく画像表現を学習する。
この分野におけるNLP手法の成功に触発された本研究では,空間的に高密度な画像記述に基づく自己教師型アプローチを提案する。
論文 参考訳(メタデータ) (2020-02-27T16:45:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。