論文の概要: Multi-modal Facial Affective Analysis based on Masked Autoencoder
- arxiv url: http://arxiv.org/abs/2303.10849v2
- Date: Tue, 11 Apr 2023 06:41:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-12 17:51:16.040431
- Title: Multi-modal Facial Affective Analysis based on Masked Autoencoder
- Title(参考訳): マスクオートエンコーダを用いたマルチモーダル顔影響分析
- Authors: Wei Zhang, Bowen Ma, Feng Qiu, Yu Ding
- Abstract要約: CVPR 2023: ABAW5 competition: Affective Behavior Analysis in-the-wild について紹介する。
まず,大規模顔画像データセット上で事前学習したMasked Autoencoder(MAE)モデルの視覚情報を利用する。
ABAW5では,平均F1スコアが55.49%,EXPRトラックが41.21%であった。
- 参考スコア(独自算出の注目度): 7.17338843593134
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Human affective behavior analysis focuses on analyzing human expressions or
other behaviors to enhance the understanding of human psychology. The CVPR 2023
Competition on Affective Behavior Analysis in-the-wild (ABAW) is dedicated to
providing high-quality and large-scale Aff-wild2 for the recognition of
commonly used emotion representations, such as Action Units (AU), basic
expression categories(EXPR), and Valence-Arousal (VA). The competition is
committed to making significant strides in improving the accuracy and
practicality of affective analysis research in real-world scenarios. In this
paper, we introduce our submission to the CVPR 2023: ABAW5. Our approach
involves several key components. First, we utilize the visual information from
a Masked Autoencoder(MAE) model that has been pre-trained on a large-scale face
image dataset in a self-supervised manner. Next, we finetune the MAE encoder on
the image frames from the Aff-wild2 for AU, EXPR and VA tasks, which can be
regarded as a static and uni-modal training. Additionally, we leverage the
multi-modal and temporal information from the videos and implement a
transformer-based framework to fuse the multi-modal features. Our approach
achieves impressive results in the ABAW5 competition, with an average F1 score
of 55.49\% and 41.21\% in the AU and EXPR tracks, respectively, and an average
CCC of 0.6372 in the VA track. Our approach ranks first in the EXPR and AU
tracks, and second in the VA track. Extensive quantitative experiments and
ablation studies demonstrate the effectiveness of our proposed method.
- Abstract(参考訳): 人間の感情行動分析は、人間の表現やその他の行動を分析し、人間の心理学の理解を深めることに焦点を当てている。
CVPR 2023 Competition on Affective Behavior Analysis in-the-wild (ABAW)は、AU(Action Units)、EXPR(Basic Expression category)、VA(Valence-Arousal)などの一般的な感情表現の認識のための高品質で大規模なAff-wild2を提供することを目的としている。
このコンペティションは、実世界のシナリオにおける感情分析研究の精度と実践性を改善するために、大きな努力を払っている。
本稿では,本論文で提案するcvpr 2023: abaw5について述べる。
我々のアプローチにはいくつかの重要な要素がある。
まず,大規模顔画像データセット上で事前学習されたマスク付きオートエンコーダ(mae)モデルからの視覚情報を,自己教師ありで活用する。
次に、au、expr、vaタスクのためのff-wild2から画像フレームにmaeエンコーダを微調整し、静的かつユニモーダルなトレーニングと見なすことができる。
さらに,ビデオからのマルチモーダルとテンポラリ情報を活用し,マルチモーダル機能を融合するトランスフォーマティブ・フレームワークを実装した。
ABAW5では,平均F1スコアが55.49\%,EXPRトラックが41.21\%,VAトラックが0.6372である。
提案手法はEXPRおよびAUトラックで第1位,VAトラックで第2位となる。
大規模な定量的実験とアブレーション研究により,提案手法の有効性が示された。
関連論文リスト
- Disentangled Interaction Representation for One-Stage Human-Object
Interaction Detection [70.96299509159981]
ヒューマン・オブジェクト・インタラクション(HOI)検出は、人間中心の画像理解のコアタスクである。
最近のワンステージ手法では、対話予測に有用な画像ワイドキューの収集にトランスフォーマーデコーダを採用している。
従来の2段階の手法は、非絡み合いで説明可能な方法で相互作用特徴を構成する能力から大きな恩恵を受ける。
論文 参考訳(メタデータ) (2023-12-04T08:02:59Z) - HAP: Structure-Aware Masked Image Modeling for Human-Centric Perception [97.55089867970874]
本稿では,この課題に対する事前学習手法として,マスク付き画像モデリング(MIM)を導入する。
この知見に触発され、人間の前部である直感的な人体構造を事前学習に組み込む。
これにより、モデルが事前トレーニング中に身体構造情報に集中し、さまざまな人間中心の知覚タスクに実質的な利益をもたらす。
論文 参考訳(メタデータ) (2023-10-31T17:56:11Z) - Improving Adversarial Robustness of Masked Autoencoders via Test-time
Frequency-domain Prompting [133.55037976429088]
BERTプリトレーニング(BEiT, MAE)を備えた視覚変換器の対向ロバスト性について検討する。
意外な観察は、MAEが他のBERT事前訓練法よりも敵の頑健さが著しく悪いことである。
我々は,MAEの対角的堅牢性を高めるための,シンプルで効果的な方法を提案する。
論文 参考訳(メタデータ) (2023-08-20T16:27:17Z) - Mixed Autoencoder for Self-supervised Visual Representation Learning [95.98114940999653]
Masked Autoencoder (MAE) は、画像パッチと再構成をランダムにマスキングすることで、様々な視覚タスクにおいて優れた性能を示す。
本稿では,MAEのミキシング強化について検討する。
論文 参考訳(メタデータ) (2023-03-30T05:19:43Z) - Multi-modal Facial Action Unit Detection with Large Pre-trained Models
for the 5th Competition on Affective Behavior Analysis in-the-wild [7.905280782507726]
本稿では,AU検出のためのABAW(Affective Behavior Analysis in-wild)2023コンペティションについて述べる。
本稿では,大規模な事前学習モデルから抽出した視覚的,音響的,語彙的特徴を用いた顔動作単位検出のための多モード手法を提案する。
第5回ABAWチャレンジの公式検証セットでは,F1スコアが52.3%に達している。
論文 参考訳(メタデータ) (2023-03-19T07:18:14Z) - Affective Behaviour Analysis Using Pretrained Model with Facial Priori [22.885249372875727]
そこで本稿では,未ラベル顔画像に事前トレーニングしたMasked Auto-Encoder (MAE) を用いた顔情報の利用を提案する。
また,MAE事前学習型視覚変換器(ViT)とAffectNet事前学習型CNNを組み合わせてマルチタスク感情認識を行う。
論文 参考訳(メタデータ) (2022-07-24T07:28:08Z) - AU-Supervised Convolutional Vision Transformers for Synthetic Facial
Expression Recognition [12.661683851729679]
本稿では,ABAW(Affective Behavior Analysis in-the-wild)コンペティション2022の6つの基本的表現分類法について述べる。
合成データの曖昧さと顔行動単位(AU)の客観性から,AU情報を活用して性能向上を図る。
論文 参考訳(メタデータ) (2022-07-20T09:33:39Z) - mc-BEiT: Multi-choice Discretization for Image BERT Pre-training [52.04866462439979]
Image BERT pre-training with masked image modeling (MIM)は、自己教師付き表現学習に対処する一般的な実践である。
改良されたBERTスタイルの画像事前学習手法であるmc-BEiTを導入する。
論文 参考訳(メタデータ) (2022-03-29T09:08:18Z) - An Exploration of Self-Supervised Pretrained Representations for
End-to-End Speech Recognition [98.70304981174748]
本稿では,事前訓練された音声表現の一般応用,高度なエンドツーエンド自動音声認識(E2E-ASR)モデルに焦点をあてる。
いくつかの事前訓練された音声表現を選択し、E2E-ASRのための様々なオープンソースおよび公開コーパスの実験結果を示す。
論文 参考訳(メタデータ) (2021-10-09T15:06:09Z) - A Multi-modal and Multi-task Learning Method for Action Unit and
Expression Recognition [18.478011167414223]
視覚情報と音声情報の両方を用いたマルチモーダル・マルチタスク学習手法を提案する。
AUスコアは0.712、式スコアは0.477となる。
論文 参考訳(メタデータ) (2021-07-09T03:28:17Z) - A Multi-term and Multi-task Analyzing Framework for Affective Analysis
in-the-wild [0.2216657815393579]
本稿では,ABAW(Affective Behavior Analysis in-the-Wild)2020 Contestに提出された感情認識手法を紹介する。
感情行動には独自の時間枠を持つ観測可能な多くの特徴があるため、複数の最適化された時間窓を導入しました。
時間ごとの感情認識モデルを作成し、これらのモデルをまとめました。
論文 参考訳(メタデータ) (2020-09-29T09:24:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。