論文の概要: Facial Affect Recognition based on Transformer Encoder and Audiovisual
Fusion for the ABAW5 Challenge
- arxiv url: http://arxiv.org/abs/2303.09158v2
- Date: Mon, 20 Mar 2023 12:17:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-21 11:41:58.346499
- Title: Facial Affect Recognition based on Transformer Encoder and Audiovisual
Fusion for the ABAW5 Challenge
- Title(参考訳): ABAW5チャレンジにおけるトランスフォーマーエンコーダと聴覚融合による顔効果認識
- Authors: Ziyang Zhang, Liuwei An, Zishun Cui, Ao xu, Tengteng Dong, Yueqi
Jiang, Jingyi Shi, Xin Liu, Xiao Sun, Meng Wang
- Abstract要約: 本稿では,Valence-Arousal Estimation (VA) Estimation, Expression (Expr) Classification, Action Unit (AU) Detection and Emotional Reaction Intensity (ERI) Estimationの4つのサブチャンジに対する解を提案する。
第5回ABAWコンペティションは、さまざまなモダリティとデータセットを使用した顔認識に焦点を当てている。
- 参考スコア(独自算出の注目度): 10.88275919652131
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we present our solutions for the 5th Workshop and Competition
on Affective Behavior Analysis in-the-wild (ABAW), which includes four
sub-challenges of Valence-Arousal (VA) Estimation, Expression (Expr)
Classification, Action Unit (AU) Detection and Emotional Reaction Intensity
(ERI) Estimation. The 5th ABAW competition focuses on facial affect recognition
utilizing different modalities and datasets. In our work, we extract powerful
audio and visual features using a large number of sota models. These features
are fused by Transformer Encoder and TEMMA. Besides, to avoid the possible
impact of large dimensional differences between various features, we design an
Affine Module to align different features to the same dimension. Extensive
experiments demonstrate that the superiority of the proposed method. For the VA
Estimation sub-challenge, our method obtains the mean Concordance Correlation
Coefficient (CCC) of 0.6066. For the Expression Classification sub-challenge,
the average F1 Score is 0.4055. For the AU Detection sub-challenge, the average
F1 Score is 0.5296. For the Emotional Reaction Intensity Estimation
sub-challenge, the average pearson's correlations coefficient on the validation
set is 0.3968. All of the results of four sub-challenges outperform the
baseline with a large margin.
- Abstract(参考訳): 本稿では,5th Workshop and Competition on Affective Behavior Analysis in-the-wild (ABAW) について,4つのサブチャレンジ(VA)推定,表現(Expr)分類,行動単位(AU)検出,感情反応強度(ERI)推定を含むソリューションを提案する。
第5回ABAWコンペティションは、さまざまなモダリティとデータセットを使用した顔認識に焦点を当てている。
本研究では,多数のソタモデルを用いて,強力な音声・視覚的特徴を抽出する。
これらの特徴はトランスフォーマエンコーダとtemmaによって融合される。
さらに,様々な特徴間の大きな次元差の影響を避けるため,異なる特徴を同じ次元に合わせるアフィンモジュールを設計した。
実験により,提案手法の優位性が示された。
VA推定サブチェレンジでは,平均コンコータンス相関係数(CCC)が0.6066である。
式分類では、平均f1スコアは0.4055である。
AU検出サブチャレンジでは、平均F1スコアは0.5296である。
感情反応強度推定サブチェレンジでは、検証セット上の平均ピアソン相関係数は0.3968である。
4つのサブチャレングの結果は、ベースラインよりも大きなマージンで上回っている。
関連論文リスト
- Multi-threshold Deep Metric Learning for Facial Expression Recognition [60.26967776920412]
本稿では,難易度検証を回避する多閾値深度学習手法を提案する。
その結果,三重項損失のそれぞれの閾値は本質的にクラス間変動の特異な分布を決定することがわかった。
埋め込み層はスライスで構成されており、より情報的で差別的な特徴である。
論文 参考訳(メタデータ) (2024-06-24T08:27:31Z) - The 6th Affective Behavior Analysis in-the-wild (ABAW) Competition [53.718777420180395]
本稿では,第6回ABAWコンペティションについて述べる。
第6回ABAWコンペティションは、人間の感情や行動を理解する上での現代の課題に対処する。
論文 参考訳(メタデータ) (2024-02-29T16:49:38Z) - EmoCLIP: A Vision-Language Method for Zero-Shot Video Facial Expression Recognition [10.411186945517148]
本稿では,サンプルレベルのテキスト記述を自然言語の監視に用いる新しい視覚言語モデルを提案する。
以上の結果から,本手法はベースライン法と比較して大きな改善をもたらすことが示唆された。
本研究では,メンタルヘルス症状推定の下流課題について,サンプルレベル記述を用いてトレーニングしたネットワークから得られた表現を評価した。
論文 参考訳(メタデータ) (2023-10-25T13:43:36Z) - DASA: Difficulty-Aware Semantic Augmentation for Speaker Verification [55.306583814017046]
本稿では,話者認証のための難易度認識型セマンティック拡張(DASA)手法を提案する。
DASAは、話者埋め込み空間における多様なトレーニングサンプルを、無視できる余分な計算コストで生成する。
最も良い結果は、CN-Celeb評価セット上でのEER測定値の14.6%の相対的な減少を達成する。
論文 参考訳(メタデータ) (2023-10-18T17:07:05Z) - Cross-Attention is Not Enough: Incongruity-Aware Dynamic Hierarchical
Fusion for Multimodal Affect Recognition [69.32305810128994]
モダリティ間の同調性は、特に認知に影響を及ぼすマルチモーダル融合の課題となる。
本稿では,動的モダリティゲーティング(HCT-DMG)を用いた階層型クロスモーダルトランスを提案する。
HCT-DMG: 1) 従来のマルチモーダルモデルを約0.8Mパラメータで上回り、2) 不整合が認識に影響を及ぼすハードサンプルを認識し、3) 潜在レベルの非整合性をクロスモーダルアテンションで緩和する。
論文 参考訳(メタデータ) (2023-05-23T01:24:15Z) - Multi-modal Facial Affective Analysis based on Masked Autoencoder [7.17338843593134]
CVPR 2023: ABAW5 competition: Affective Behavior Analysis in-the-wild について紹介する。
まず,大規模顔画像データセット上で事前学習したMasked Autoencoder(MAE)モデルの視覚情報を利用する。
ABAW5では,平均F1スコアが55.49%,EXPRトラックが41.21%であった。
論文 参考訳(メタデータ) (2023-03-20T03:58:03Z) - A Dual Branch Network for Emotional Reaction Intensity Estimation [12.677143408225167]
両分岐型マルチアウトプット回帰モデルであるABAW(Affective Behavior Analysis in-wild)のERI問題に対する解法を提案する。
空間的注意は視覚的特徴をよりよく抽出するために使用され、Mel-Frequency Cepstral Coefficients技術は音響的特徴を抽出する。
本手法は,公式な検証セットにおいて優れた結果が得られる。
論文 参考訳(メタデータ) (2023-03-16T10:31:40Z) - Multimodal Feature Extraction and Fusion for Emotional Reaction
Intensity Estimation and Expression Classification in Videos with
Transformers [47.16005553291036]
我々は,野生(ABAW)2023における2つの影響行動分析のサブチャレンジに対して,その解決策を提示する。
表現分類チャレンジでは,分類の課題を効果的に処理する合理化アプローチを提案する。
これらの特徴を研究、分析、組み合わせることで、マルチモーダルコンテキストにおける感情予測のためのモデルの精度を大幅に向上させる。
論文 参考訳(メタデータ) (2023-03-16T09:03:17Z) - EmotiEffNet Facial Features in Uni-task Emotion Recognition in Video at
ABAW-5 competition [7.056222499095849]
第5回ABAW(Affective Behavior Analysis in-the-Wild)コンペティションの結果を報告する。
The use of the pre-trained convolutional network from the EmotiEffNet family for frame-level feature extract。
論文 参考訳(メタデータ) (2023-03-16T08:57:33Z) - Leveraging TCN and Transformer for effective visual-audio fusion in
continuous emotion recognition [0.5370906227996627]
本稿では,Valence-Arousal (VA) Estimation Challenge, Expression (Expr) Classification Challenge, Action Unit (AU) Detection Challengeを提案する。
本稿では、時間的畳み込みネットワーク(TCN)とトランスフォーマーを利用して、連続的な感情認識の性能を向上させる新しいマルチモーダル融合モデルを提案する。
論文 参考訳(メタデータ) (2023-03-15T04:15:57Z) - ABAW: Valence-Arousal Estimation, Expression Recognition, Action Unit
Detection & Emotional Reaction Intensity Estimation Challenges [62.413819189049946]
5th Affective Behavior Analysis in-the-Wild(ABAW)コンペティションは、IEEE Computer Vision and Pattern Recognition Conference(CVPR)と共同で開催される各ABAWワークショップの一部である。
今年のコンペティションでは、Aff-Wild2データベースの拡張バージョンとHume-Reactionデータセットの2つのコーパスが特徴です。
後者のデータセットは、感情的刺激に対する個人の反応が7つの感情的表現強度に対して注釈付けされている聴覚的データセットである。
論文 参考訳(メタデータ) (2023-03-02T18:58:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。