論文の概要: Efficient Feature Extraction and Late Fusion Strategy for Audiovisual Emotional Mimicry Intensity Estimation
- arxiv url: http://arxiv.org/abs/2403.11757v2
- Date: Tue, 19 Mar 2024 18:14:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-21 11:32:23.873358
- Title: Efficient Feature Extraction and Late Fusion Strategy for Audiovisual Emotional Mimicry Intensity Estimation
- Title(参考訳): 聴覚的情緒的ミミリー強度推定のための効率的な特徴抽出とレイトフュージョン戦略
- Authors: Jun Yu, Wangyuan Zhu, Jichao Zhu,
- Abstract要約: Emotional Mimicry Intensity (EMI) Estimation Challenge taskは、シードビデオの感情的強度を評価することを目的としている。
ビデオモダリティのためのResNet18とAUに基づいてリッチなデュアルチャネル視覚特徴を抽出し、オーディオモダリティのためのWav2Vec2.0に基づく効果的なシングルチャネル特徴を抽出した。
視覚モデルと音響モデルの予測値を平均化し,視覚的感情的模倣強度をより正確に推定した。
- 参考スコア(独自算出の注目度): 8.529105068848828
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In this paper, we present the solution to the Emotional Mimicry Intensity (EMI) Estimation challenge, which is part of 6th Affective Behavior Analysis in-the-wild (ABAW) Competition.The EMI Estimation challenge task aims to evaluate the emotional intensity of seed videos by assessing them from a set of predefined emotion categories (i.e., "Admiration", "Amusement", "Determination", "Empathic Pain", "Excitement" and "Joy"). To tackle this challenge, we extracted rich dual-channel visual features based on ResNet18 and AUs for the video modality and effective single-channel features based on Wav2Vec2.0 for the audio modality. This allowed us to obtain comprehensive emotional features for the audiovisual modality. Additionally, leveraging a late fusion strategy, we averaged the predictions of the visual and acoustic models, resulting in a more accurate estimation of audiovisual emotional mimicry intensity. Experimental results validate the effectiveness of our approach, with the average Pearson's correlation Coefficient($\rho$) across the 6 emotion dimensionson the validation set achieving 0.3288.
- Abstract(参考訳): 本稿では,第6回情緒的行動分析(ABAW)コンペティション(ABAW)コンペティション(ABAW)コンペティション(Emotional Mimicry Intensity(EMI)推定課題)の解決法を提案する。
この課題に対処するために,ビデオモダリティのためのResNet18とAUに基づいてリッチなデュアルチャネル視覚特徴を抽出し,オーディオモダリティのためのWav2Vec2.0に基づく効果的なシングルチャネル特徴を抽出した。
これにより、視覚的モダリティに対する包括的感情的特徴が得られました。
さらに、後期融合戦略を利用して視覚モデルと音響モデルの予測を平均化し、より正確な視覚的感情的模倣強度を推定した。
実験の結果,平均ピアソン相関係数($\rho$)を6つの感情次元で比較し,0.3288。
関連論文リスト
- Smile upon the Face but Sadness in the Eyes: Emotion Recognition based on Facial Expressions and Eye Behaviors [63.194053817609024]
視覚行動は、視覚行動支援型マルチモーダル感情認識データセットを作成するための重要な感情的手がかりとなる。
EMERデータセットに感情認識(ER)と表情認識(FER)の両方のアノテーションを初めて提供する。
具体的には、ERとFERの両方のパフォーマンスを同時に向上する新しいEMERTアーキテクチャを設計する。
論文 参考訳(メタデータ) (2024-11-08T04:53:55Z) - The 6th Affective Behavior Analysis in-the-wild (ABAW) Competition [53.718777420180395]
本稿では,第6回ABAWコンペティションについて述べる。
第6回ABAWコンペティションは、人間の感情や行動を理解する上での現代の課題に対処する。
論文 参考訳(メタデータ) (2024-02-29T16:49:38Z) - Mutilmodal Feature Extraction and Attention-based Fusion for Emotion
Estimation in Videos [16.28109151595872]
ABAW(Affective Behavior Analysis in the-wild)に関するCVPR 2023コンペティションについて紹介する。
我々は、音声、ポーズ、画像など、競合データセットから異なる長さのビデオから抽出したマルチモーダル特徴を利用した。
本システムでは,検証データセット上での0.361の性能を実現する。
論文 参考訳(メタデータ) (2023-03-18T14:08:06Z) - A Dual Branch Network for Emotional Reaction Intensity Estimation [12.677143408225167]
両分岐型マルチアウトプット回帰モデルであるABAW(Affective Behavior Analysis in-wild)のERI問題に対する解法を提案する。
空間的注意は視覚的特徴をよりよく抽出するために使用され、Mel-Frequency Cepstral Coefficients技術は音響的特徴を抽出する。
本手法は,公式な検証セットにおいて優れた結果が得られる。
論文 参考訳(メタデータ) (2023-03-16T10:31:40Z) - Multimodal Feature Extraction and Fusion for Emotional Reaction
Intensity Estimation and Expression Classification in Videos with
Transformers [47.16005553291036]
我々は,野生(ABAW)2023における2つの影響行動分析のサブチャレンジに対して,その解決策を提示する。
表現分類チャレンジでは,分類の課題を効果的に処理する合理化アプローチを提案する。
これらの特徴を研究、分析、組み合わせることで、マルチモーダルコンテキストにおける感情予測のためのモデルの精度を大幅に向上させる。
論文 参考訳(メタデータ) (2023-03-16T09:03:17Z) - Leveraging TCN and Transformer for effective visual-audio fusion in
continuous emotion recognition [0.5370906227996627]
本稿では,Valence-Arousal (VA) Estimation Challenge, Expression (Expr) Classification Challenge, Action Unit (AU) Detection Challengeを提案する。
本稿では、時間的畳み込みネットワーク(TCN)とトランスフォーマーを利用して、連続的な感情認識の性能を向上させる新しいマルチモーダル融合モデルを提案する。
論文 参考訳(メタデータ) (2023-03-15T04:15:57Z) - ABAW: Valence-Arousal Estimation, Expression Recognition, Action Unit
Detection & Emotional Reaction Intensity Estimation Challenges [62.413819189049946]
5th Affective Behavior Analysis in-the-Wild(ABAW)コンペティションは、IEEE Computer Vision and Pattern Recognition Conference(CVPR)と共同で開催される各ABAWワークショップの一部である。
今年のコンペティションでは、Aff-Wild2データベースの拡張バージョンとHume-Reactionデータセットの2つのコーパスが特徴です。
後者のデータセットは、感情的刺激に対する個人の反応が7つの感情的表現強度に対して注釈付けされている聴覚的データセットである。
論文 参考訳(メタデータ) (2023-03-02T18:58:15Z) - Affective Image Content Analysis: Two Decades Review and New
Perspectives [132.889649256384]
我々は,過去20年間の情緒的イメージコンテンツ分析(AICA)の発展を包括的にレビューする。
我々は、感情的ギャップ、知覚主観性、ラベルノイズと欠如という3つの主要な課題に関して、最先端の手法に焦点を当てる。
画像の内容やコンテキスト理解,グループ感情クラスタリング,ビューアーとイメージのインタラクションなど,今後の課題や研究の方向性について論じる。
論文 参考訳(メタデータ) (2021-06-30T15:20:56Z) - Exploring Emotion Features and Fusion Strategies for Audio-Video Emotion
Recognition [62.48806555665122]
EmotiW 2019では、感情の特徴と、音声と視覚のモダリティのための機能融合戦略を主に検討している。
慎重な評価により、AFEW検証セットで65.5%、テストセットで62.48%、チャレンジで3位を獲得します。
論文 参考訳(メタデータ) (2020-12-27T10:50:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。