論文の概要: Multi-modal Facial Affective Analysis based on Masked Autoencoder
- arxiv url: http://arxiv.org/abs/2303.10849v2
- Date: Tue, 11 Apr 2023 06:41:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-12 17:51:16.040431
- Title: Multi-modal Facial Affective Analysis based on Masked Autoencoder
- Title(参考訳): マスクオートエンコーダを用いたマルチモーダル顔影響分析
- Authors: Wei Zhang, Bowen Ma, Feng Qiu, Yu Ding
- Abstract要約: CVPR 2023: ABAW5 competition: Affective Behavior Analysis in-the-wild について紹介する。
まず,大規模顔画像データセット上で事前学習したMasked Autoencoder(MAE)モデルの視覚情報を利用する。
ABAW5では,平均F1スコアが55.49%,EXPRトラックが41.21%であった。
- 参考スコア(独自算出の注目度): 7.17338843593134
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Human affective behavior analysis focuses on analyzing human expressions or
other behaviors to enhance the understanding of human psychology. The CVPR 2023
Competition on Affective Behavior Analysis in-the-wild (ABAW) is dedicated to
providing high-quality and large-scale Aff-wild2 for the recognition of
commonly used emotion representations, such as Action Units (AU), basic
expression categories(EXPR), and Valence-Arousal (VA). The competition is
committed to making significant strides in improving the accuracy and
practicality of affective analysis research in real-world scenarios. In this
paper, we introduce our submission to the CVPR 2023: ABAW5. Our approach
involves several key components. First, we utilize the visual information from
a Masked Autoencoder(MAE) model that has been pre-trained on a large-scale face
image dataset in a self-supervised manner. Next, we finetune the MAE encoder on
the image frames from the Aff-wild2 for AU, EXPR and VA tasks, which can be
regarded as a static and uni-modal training. Additionally, we leverage the
multi-modal and temporal information from the videos and implement a
transformer-based framework to fuse the multi-modal features. Our approach
achieves impressive results in the ABAW5 competition, with an average F1 score
of 55.49\% and 41.21\% in the AU and EXPR tracks, respectively, and an average
CCC of 0.6372 in the VA track. Our approach ranks first in the EXPR and AU
tracks, and second in the VA track. Extensive quantitative experiments and
ablation studies demonstrate the effectiveness of our proposed method.
- Abstract(参考訳): 人間の感情行動分析は、人間の表現やその他の行動を分析し、人間の心理学の理解を深めることに焦点を当てている。
CVPR 2023 Competition on Affective Behavior Analysis in-the-wild (ABAW)は、AU(Action Units)、EXPR(Basic Expression category)、VA(Valence-Arousal)などの一般的な感情表現の認識のための高品質で大規模なAff-wild2を提供することを目的としている。
このコンペティションは、実世界のシナリオにおける感情分析研究の精度と実践性を改善するために、大きな努力を払っている。
本稿では,本論文で提案するcvpr 2023: abaw5について述べる。
我々のアプローチにはいくつかの重要な要素がある。
まず,大規模顔画像データセット上で事前学習されたマスク付きオートエンコーダ(mae)モデルからの視覚情報を,自己教師ありで活用する。
次に、au、expr、vaタスクのためのff-wild2から画像フレームにmaeエンコーダを微調整し、静的かつユニモーダルなトレーニングと見なすことができる。
さらに,ビデオからのマルチモーダルとテンポラリ情報を活用し,マルチモーダル機能を融合するトランスフォーマティブ・フレームワークを実装した。
ABAW5では,平均F1スコアが55.49\%,EXPRトラックが41.21\%,VAトラックが0.6372である。
提案手法はEXPRおよびAUトラックで第1位,VAトラックで第2位となる。
大規模な定量的実験とアブレーション研究により,提案手法の有効性が示された。
関連論文リスト
- Self-Training with Pseudo-Label Scorer for Aspect Sentiment Quad Prediction [54.23208041792073]
Aspect Sentiment Quad Prediction (ASQP) は、与えられたレビューに対して全てのクワッド(アスペクト項、アスペクトカテゴリー、意見項、感情極性)を予測することを目的としている。
ASQPタスクにおける重要な課題はラベル付きデータの不足であり、既存のメソッドのパフォーマンスを制限している。
そこで我々は,擬似ラベルスコアラーを用いた自己学習フレームワークを提案し,レビューと擬似ラベルの一致をスコアラーが評価する。
論文 参考訳(メタデータ) (2024-06-26T05:30:21Z) - Opinion-Unaware Blind Image Quality Assessment using Multi-Scale Deep Feature Statistics [54.08757792080732]
我々は,事前学習された視覚モデルからの深い特徴を統計的解析モデルと統合して,意見認識のないBIQA(OU-BIQA)を実現することを提案する。
提案モデルは,最先端のBIQAモデルと比較して,人間の視覚的知覚との整合性に優れる。
論文 参考訳(メタデータ) (2024-05-29T06:09:34Z) - Multi-Modal Prompt Learning on Blind Image Quality Assessment [65.0676908930946]
画像品質評価(IQA)モデルは意味情報から大きな恩恵を受け、異なる種類のオブジェクトを明瞭に扱うことができる。
十分な注釈付きデータが不足している従来の手法では、セマンティックな認識を得るために、CLIPイメージテキスト事前学習モデルをバックボーンとして使用していた。
近年のアプローチでは、このミスマッチに即時技術を使って対処する試みがあるが、これらの解決策には欠点がある。
本稿では、IQAのための革新的なマルチモーダルプロンプトベースの手法を提案する。
論文 参考訳(メタデータ) (2024-04-23T11:45:32Z) - ViTGaze: Gaze Following with Interaction Features in Vision Transformers [42.08842391756614]
本稿では, ViTGaze という新しい単一モダリティ・ギャラクシー・フレームワークを紹介する。
従来の手法とは対照的に、主に強力なエンコーダに基づく新しい視線追跡フレームワークを作成する。
本手法は,すべての単一モダリティ手法において,最先端(SOTA)性能を実現する。
論文 参考訳(メタデータ) (2024-03-19T14:45:17Z) - Disentangled Interaction Representation for One-Stage Human-Object
Interaction Detection [70.96299509159981]
ヒューマン・オブジェクト・インタラクション(HOI)検出は、人間中心の画像理解のコアタスクである。
最近のワンステージ手法では、対話予測に有用な画像ワイドキューの収集にトランスフォーマーデコーダを採用している。
従来の2段階の手法は、非絡み合いで説明可能な方法で相互作用特徴を構成する能力から大きな恩恵を受ける。
論文 参考訳(メタデータ) (2023-12-04T08:02:59Z) - HAP: Structure-Aware Masked Image Modeling for Human-Centric Perception [97.55089867970874]
本稿では,この課題に対する事前学習手法として,マスク付き画像モデリング(MIM)を導入する。
この知見に触発され、人間の前部である直感的な人体構造を事前学習に組み込む。
これにより、モデルが事前トレーニング中に身体構造情報に集中し、さまざまな人間中心の知覚タスクに実質的な利益をもたらす。
論文 参考訳(メタデータ) (2023-10-31T17:56:11Z) - Multi-modal Facial Action Unit Detection with Large Pre-trained Models
for the 5th Competition on Affective Behavior Analysis in-the-wild [7.905280782507726]
本稿では,AU検出のためのABAW(Affective Behavior Analysis in-wild)2023コンペティションについて述べる。
本稿では,大規模な事前学習モデルから抽出した視覚的,音響的,語彙的特徴を用いた顔動作単位検出のための多モード手法を提案する。
第5回ABAWチャレンジの公式検証セットでは,F1スコアが52.3%に達している。
論文 参考訳(メタデータ) (2023-03-19T07:18:14Z) - Affective Behaviour Analysis Using Pretrained Model with Facial Priori [22.885249372875727]
そこで本稿では,未ラベル顔画像に事前トレーニングしたMasked Auto-Encoder (MAE) を用いた顔情報の利用を提案する。
また,MAE事前学習型視覚変換器(ViT)とAffectNet事前学習型CNNを組み合わせてマルチタスク感情認識を行う。
論文 参考訳(メタデータ) (2022-07-24T07:28:08Z) - mc-BEiT: Multi-choice Discretization for Image BERT Pre-training [52.04866462439979]
Image BERT pre-training with masked image modeling (MIM)は、自己教師付き表現学習に対処する一般的な実践である。
改良されたBERTスタイルの画像事前学習手法であるmc-BEiTを導入する。
論文 参考訳(メタデータ) (2022-03-29T09:08:18Z) - A Multi-modal and Multi-task Learning Method for Action Unit and
Expression Recognition [18.478011167414223]
視覚情報と音声情報の両方を用いたマルチモーダル・マルチタスク学習手法を提案する。
AUスコアは0.712、式スコアは0.477となる。
論文 参考訳(メタデータ) (2021-07-09T03:28:17Z) - A Multi-term and Multi-task Analyzing Framework for Affective Analysis
in-the-wild [0.2216657815393579]
本稿では,ABAW(Affective Behavior Analysis in-the-Wild)2020 Contestに提出された感情認識手法を紹介する。
感情行動には独自の時間枠を持つ観測可能な多くの特徴があるため、複数の最適化された時間窓を導入しました。
時間ごとの感情認識モデルを作成し、これらのモデルをまとめました。
論文 参考訳(メタデータ) (2020-09-29T09:24:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。