論文の概要: Facial Affective Analysis based on MAE and Multi-modal Information for
5th ABAW Competition
- arxiv url: http://arxiv.org/abs/2303.10849v1
- Date: Mon, 20 Mar 2023 03:58:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-21 16:48:34.941705
- Title: Facial Affective Analysis based on MAE and Multi-modal Information for
5th ABAW Competition
- Title(参考訳): 第5回ABAWコンペティションにおけるMAEとマルチモーダル情報に基づく顔影響分析
- Authors: Wei Zhang, Bowen Ma, Feng Qiu, Yu Ding
- Abstract要約: 本稿では,AU検出,表現分類,VA推定,感情反応強度(ERI)推定のためのCVPR 2023: ABAW5を提案する。
まず,大規模顔画像データセット上で事前学習を行ったMAEモデルからの視覚情報を紹介する。
また、ビデオからのマルチモーダル情報や時間情報を利用して、マルチモーダル機能を融合するトランスフォーマーベースのフレームワークを設計する。
- 参考スコア(独自算出の注目度): 7.17338843593134
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Human affective behavior analysis focuses on analyzing human expressions or
other behaviors, which helps improve the understanding of human psychology.
CVPR 2023 Competition on Affective Behavior Analysis in-the-wild (ABAW) makes
great efforts to provide the diversity data for the recognition of the commonly
used emotion representations, including Action Units~(AU), basic expression
categories and Valence-Arousal~(VA). In this paper, we introduce our submission
to the CVPR 2023: ABAW5 for AU detection, expression classification, VA
estimation and emotional reaction intensity (ERI) estimation. First of all, we
introduce the vision information from an MAE model, which has been pre-trained
on a large-scale face image dataset in a self-supervised manner. Then the MAE
encoder part is finetuned on the ABAW challenges on the single frame of
Aff-wild2 dataset. We also exploit the multi-modal and temporal information
from the videos and design a transformer-based framework to fusion the
multi-modal features. Moreover, we construct a novel two-branch collaboration
training strategy to further enhance the model generalization by randomly
interpolating the logits space. The extensive quantitative experiments, as well
as ablation studies on the Aff-Wild2 dataset and Hume-Reaction dataset prove
the effectiveness of our proposed method.
- Abstract(参考訳): 人間の感情行動分析は、人間の表現やその他の行動を分析し、人間の心理学の理解を改善することに焦点を当てている。
CVPR 2023 Competition on Affective Behavior Analysis in-wild (ABAW) は、行動単位~(AU)、基本的な表現カテゴリ、ヴァレンス・オーラル〜(VA)など、一般的に使用される感情表現の認識のための多様性データの提供に尽力している。
本稿では,AU検出,表現分類,VA推定,感情反応強度(ERI)推定のためのCVPR 2023: ABAW5を提案する。
まず,大規模顔画像データセット上で事前学習されたmaeモデルからの視覚情報について,自己教師あり方式で紹介する。
そして、af−wild2データセットの単一フレーム上のabawチャレンジにmaeエンコーダ部を微調整する。
また,ビデオからのマルチモーダル情報と時間情報を活用し,マルチモーダル機能を融合するトランスフォーマティブ・フレームワークを設計した。
さらに,ロジット空間をランダムに補間することにより,モデル一般化をさらに促進するために,新しい2分岐協調学習戦略を構築する。
Aff-Wild2データセットとHum-Reactionデータセットのアブレーション実験により,提案手法の有効性が示された。
関連論文リスト
- Self-Training with Pseudo-Label Scorer for Aspect Sentiment Quad Prediction [54.23208041792073]
Aspect Sentiment Quad Prediction (ASQP) は、与えられたレビューに対して全てのクワッド(アスペクト項、アスペクトカテゴリー、意見項、感情極性)を予測することを目的としている。
ASQPタスクにおける重要な課題はラベル付きデータの不足であり、既存のメソッドのパフォーマンスを制限している。
そこで我々は,擬似ラベルスコアラーを用いた自己学習フレームワークを提案し,レビューと擬似ラベルの一致をスコアラーが評価する。
論文 参考訳(メタデータ) (2024-06-26T05:30:21Z) - Opinion-Unaware Blind Image Quality Assessment using Multi-Scale Deep Feature Statistics [54.08757792080732]
我々は,事前学習された視覚モデルからの深い特徴を統計的解析モデルと統合して,意見認識のないBIQA(OU-BIQA)を実現することを提案する。
提案モデルは,最先端のBIQAモデルと比較して,人間の視覚的知覚との整合性に優れる。
論文 参考訳(メタデータ) (2024-05-29T06:09:34Z) - Multi-Modal Prompt Learning on Blind Image Quality Assessment [65.0676908930946]
画像品質評価(IQA)モデルは意味情報から大きな恩恵を受け、異なる種類のオブジェクトを明瞭に扱うことができる。
十分な注釈付きデータが不足している従来の手法では、セマンティックな認識を得るために、CLIPイメージテキスト事前学習モデルをバックボーンとして使用していた。
近年のアプローチでは、このミスマッチに即時技術を使って対処する試みがあるが、これらの解決策には欠点がある。
本稿では、IQAのための革新的なマルチモーダルプロンプトベースの手法を提案する。
論文 参考訳(メタデータ) (2024-04-23T11:45:32Z) - ViTGaze: Gaze Following with Interaction Features in Vision Transformers [42.08842391756614]
本稿では, ViTGaze という新しい単一モダリティ・ギャラクシー・フレームワークを紹介する。
従来の手法とは対照的に、主に強力なエンコーダに基づく新しい視線追跡フレームワークを作成する。
本手法は,すべての単一モダリティ手法において,最先端(SOTA)性能を実現する。
論文 参考訳(メタデータ) (2024-03-19T14:45:17Z) - Disentangled Interaction Representation for One-Stage Human-Object
Interaction Detection [70.96299509159981]
ヒューマン・オブジェクト・インタラクション(HOI)検出は、人間中心の画像理解のコアタスクである。
最近のワンステージ手法では、対話予測に有用な画像ワイドキューの収集にトランスフォーマーデコーダを採用している。
従来の2段階の手法は、非絡み合いで説明可能な方法で相互作用特徴を構成する能力から大きな恩恵を受ける。
論文 参考訳(メタデータ) (2023-12-04T08:02:59Z) - HAP: Structure-Aware Masked Image Modeling for Human-Centric Perception [97.55089867970874]
本稿では,この課題に対する事前学習手法として,マスク付き画像モデリング(MIM)を導入する。
この知見に触発され、人間の前部である直感的な人体構造を事前学習に組み込む。
これにより、モデルが事前トレーニング中に身体構造情報に集中し、さまざまな人間中心の知覚タスクに実質的な利益をもたらす。
論文 参考訳(メタデータ) (2023-10-31T17:56:11Z) - Multi-modal Facial Action Unit Detection with Large Pre-trained Models
for the 5th Competition on Affective Behavior Analysis in-the-wild [7.905280782507726]
本稿では,AU検出のためのABAW(Affective Behavior Analysis in-wild)2023コンペティションについて述べる。
本稿では,大規模な事前学習モデルから抽出した視覚的,音響的,語彙的特徴を用いた顔動作単位検出のための多モード手法を提案する。
第5回ABAWチャレンジの公式検証セットでは,F1スコアが52.3%に達している。
論文 参考訳(メタデータ) (2023-03-19T07:18:14Z) - Affective Behaviour Analysis Using Pretrained Model with Facial Priori [22.885249372875727]
そこで本稿では,未ラベル顔画像に事前トレーニングしたMasked Auto-Encoder (MAE) を用いた顔情報の利用を提案する。
また,MAE事前学習型視覚変換器(ViT)とAffectNet事前学習型CNNを組み合わせてマルチタスク感情認識を行う。
論文 参考訳(メタデータ) (2022-07-24T07:28:08Z) - mc-BEiT: Multi-choice Discretization for Image BERT Pre-training [52.04866462439979]
Image BERT pre-training with masked image modeling (MIM)は、自己教師付き表現学習に対処する一般的な実践である。
改良されたBERTスタイルの画像事前学習手法であるmc-BEiTを導入する。
論文 参考訳(メタデータ) (2022-03-29T09:08:18Z) - A Multi-modal and Multi-task Learning Method for Action Unit and
Expression Recognition [18.478011167414223]
視覚情報と音声情報の両方を用いたマルチモーダル・マルチタスク学習手法を提案する。
AUスコアは0.712、式スコアは0.477となる。
論文 参考訳(メタデータ) (2021-07-09T03:28:17Z) - A Multi-term and Multi-task Analyzing Framework for Affective Analysis
in-the-wild [0.2216657815393579]
本稿では,ABAW(Affective Behavior Analysis in-the-Wild)2020 Contestに提出された感情認識手法を紹介する。
感情行動には独自の時間枠を持つ観測可能な多くの特徴があるため、複数の最適化された時間窓を導入しました。
時間ごとの感情認識モデルを作成し、これらのモデルをまとめました。
論文 参考訳(メタデータ) (2020-09-29T09:24:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。