論文の概要: Facial Affective Analysis based on MAE and Multi-modal Information for
5th ABAW Competition
- arxiv url: http://arxiv.org/abs/2303.10849v1
- Date: Mon, 20 Mar 2023 03:58:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-21 16:48:34.941705
- Title: Facial Affective Analysis based on MAE and Multi-modal Information for
5th ABAW Competition
- Title(参考訳): 第5回ABAWコンペティションにおけるMAEとマルチモーダル情報に基づく顔影響分析
- Authors: Wei Zhang, Bowen Ma, Feng Qiu, Yu Ding
- Abstract要約: 本稿では,AU検出,表現分類,VA推定,感情反応強度(ERI)推定のためのCVPR 2023: ABAW5を提案する。
まず,大規模顔画像データセット上で事前学習を行ったMAEモデルからの視覚情報を紹介する。
また、ビデオからのマルチモーダル情報や時間情報を利用して、マルチモーダル機能を融合するトランスフォーマーベースのフレームワークを設計する。
- 参考スコア(独自算出の注目度): 7.17338843593134
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Human affective behavior analysis focuses on analyzing human expressions or
other behaviors, which helps improve the understanding of human psychology.
CVPR 2023 Competition on Affective Behavior Analysis in-the-wild (ABAW) makes
great efforts to provide the diversity data for the recognition of the commonly
used emotion representations, including Action Units~(AU), basic expression
categories and Valence-Arousal~(VA). In this paper, we introduce our submission
to the CVPR 2023: ABAW5 for AU detection, expression classification, VA
estimation and emotional reaction intensity (ERI) estimation. First of all, we
introduce the vision information from an MAE model, which has been pre-trained
on a large-scale face image dataset in a self-supervised manner. Then the MAE
encoder part is finetuned on the ABAW challenges on the single frame of
Aff-wild2 dataset. We also exploit the multi-modal and temporal information
from the videos and design a transformer-based framework to fusion the
multi-modal features. Moreover, we construct a novel two-branch collaboration
training strategy to further enhance the model generalization by randomly
interpolating the logits space. The extensive quantitative experiments, as well
as ablation studies on the Aff-Wild2 dataset and Hume-Reaction dataset prove
the effectiveness of our proposed method.
- Abstract(参考訳): 人間の感情行動分析は、人間の表現やその他の行動を分析し、人間の心理学の理解を改善することに焦点を当てている。
CVPR 2023 Competition on Affective Behavior Analysis in-wild (ABAW) は、行動単位~(AU)、基本的な表現カテゴリ、ヴァレンス・オーラル〜(VA)など、一般的に使用される感情表現の認識のための多様性データの提供に尽力している。
本稿では,AU検出,表現分類,VA推定,感情反応強度(ERI)推定のためのCVPR 2023: ABAW5を提案する。
まず,大規模顔画像データセット上で事前学習されたmaeモデルからの視覚情報について,自己教師あり方式で紹介する。
そして、af−wild2データセットの単一フレーム上のabawチャレンジにmaeエンコーダ部を微調整する。
また,ビデオからのマルチモーダル情報と時間情報を活用し,マルチモーダル機能を融合するトランスフォーマティブ・フレームワークを設計した。
さらに,ロジット空間をランダムに補間することにより,モデル一般化をさらに促進するために,新しい2分岐協調学習戦略を構築する。
Aff-Wild2データセットとHum-Reactionデータセットのアブレーション実験により,提案手法の有効性が示された。
関連論文リスト
- Disentangled Interaction Representation for One-Stage Human-Object
Interaction Detection [70.96299509159981]
ヒューマン・オブジェクト・インタラクション(HOI)検出は、人間中心の画像理解のコアタスクである。
最近のワンステージ手法では、対話予測に有用な画像ワイドキューの収集にトランスフォーマーデコーダを採用している。
従来の2段階の手法は、非絡み合いで説明可能な方法で相互作用特徴を構成する能力から大きな恩恵を受ける。
論文 参考訳(メタデータ) (2023-12-04T08:02:59Z) - HAP: Structure-Aware Masked Image Modeling for Human-Centric Perception [97.55089867970874]
本稿では,この課題に対する事前学習手法として,マスク付き画像モデリング(MIM)を導入する。
この知見に触発され、人間の前部である直感的な人体構造を事前学習に組み込む。
これにより、モデルが事前トレーニング中に身体構造情報に集中し、さまざまな人間中心の知覚タスクに実質的な利益をもたらす。
論文 参考訳(メタデータ) (2023-10-31T17:56:11Z) - Improving Adversarial Robustness of Masked Autoencoders via Test-time
Frequency-domain Prompting [133.55037976429088]
BERTプリトレーニング(BEiT, MAE)を備えた視覚変換器の対向ロバスト性について検討する。
意外な観察は、MAEが他のBERT事前訓練法よりも敵の頑健さが著しく悪いことである。
我々は,MAEの対角的堅牢性を高めるための,シンプルで効果的な方法を提案する。
論文 参考訳(メタデータ) (2023-08-20T16:27:17Z) - Mixed Autoencoder for Self-supervised Visual Representation Learning [95.98114940999653]
Masked Autoencoder (MAE) は、画像パッチと再構成をランダムにマスキングすることで、様々な視覚タスクにおいて優れた性能を示す。
本稿では,MAEのミキシング強化について検討する。
論文 参考訳(メタデータ) (2023-03-30T05:19:43Z) - Multi-modal Facial Action Unit Detection with Large Pre-trained Models
for the 5th Competition on Affective Behavior Analysis in-the-wild [7.905280782507726]
本稿では,AU検出のためのABAW(Affective Behavior Analysis in-wild)2023コンペティションについて述べる。
本稿では,大規模な事前学習モデルから抽出した視覚的,音響的,語彙的特徴を用いた顔動作単位検出のための多モード手法を提案する。
第5回ABAWチャレンジの公式検証セットでは,F1スコアが52.3%に達している。
論文 参考訳(メタデータ) (2023-03-19T07:18:14Z) - Affective Behaviour Analysis Using Pretrained Model with Facial Priori [22.885249372875727]
そこで本稿では,未ラベル顔画像に事前トレーニングしたMasked Auto-Encoder (MAE) を用いた顔情報の利用を提案する。
また,MAE事前学習型視覚変換器(ViT)とAffectNet事前学習型CNNを組み合わせてマルチタスク感情認識を行う。
論文 参考訳(メタデータ) (2022-07-24T07:28:08Z) - AU-Supervised Convolutional Vision Transformers for Synthetic Facial
Expression Recognition [12.661683851729679]
本稿では,ABAW(Affective Behavior Analysis in-the-wild)コンペティション2022の6つの基本的表現分類法について述べる。
合成データの曖昧さと顔行動単位(AU)の客観性から,AU情報を活用して性能向上を図る。
論文 参考訳(メタデータ) (2022-07-20T09:33:39Z) - mc-BEiT: Multi-choice Discretization for Image BERT Pre-training [52.04866462439979]
Image BERT pre-training with masked image modeling (MIM)は、自己教師付き表現学習に対処する一般的な実践である。
改良されたBERTスタイルの画像事前学習手法であるmc-BEiTを導入する。
論文 参考訳(メタデータ) (2022-03-29T09:08:18Z) - An Exploration of Self-Supervised Pretrained Representations for
End-to-End Speech Recognition [98.70304981174748]
本稿では,事前訓練された音声表現の一般応用,高度なエンドツーエンド自動音声認識(E2E-ASR)モデルに焦点をあてる。
いくつかの事前訓練された音声表現を選択し、E2E-ASRのための様々なオープンソースおよび公開コーパスの実験結果を示す。
論文 参考訳(メタデータ) (2021-10-09T15:06:09Z) - A Multi-modal and Multi-task Learning Method for Action Unit and
Expression Recognition [18.478011167414223]
視覚情報と音声情報の両方を用いたマルチモーダル・マルチタスク学習手法を提案する。
AUスコアは0.712、式スコアは0.477となる。
論文 参考訳(メタデータ) (2021-07-09T03:28:17Z) - A Multi-term and Multi-task Analyzing Framework for Affective Analysis
in-the-wild [0.2216657815393579]
本稿では,ABAW(Affective Behavior Analysis in-the-Wild)2020 Contestに提出された感情認識手法を紹介する。
感情行動には独自の時間枠を持つ観測可能な多くの特徴があるため、複数の最適化された時間窓を導入しました。
時間ごとの感情認識モデルを作成し、これらのモデルをまとめました。
論文 参考訳(メタデータ) (2020-09-29T09:24:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。