論文の概要: SUN Team's Contribution to ABAW 2024 Competition: Audio-visual Valence-Arousal Estimation and Expression Recognition
- arxiv url: http://arxiv.org/abs/2403.12609v1
- Date: Tue, 19 Mar 2024 10:24:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-20 14:33:18.689784
- Title: SUN Team's Contribution to ABAW 2024 Competition: Audio-visual Valence-Arousal Estimation and Expression Recognition
- Title(参考訳): SUNチームのABAW 2024コンペティションへの貢献: 視覚的価値-覚醒的評価と表現認識
- Authors: Denis Dresvyanskiy, Maxim Markitantov, Jiawei Yu, Peitong Li, Heysem Kaya, Alexey Karpov,
- Abstract要約: 本研究では,感情認識における視覚的深層学習手法について検討する。
細調整畳み込みニューラルネットワーク(CNN)と公共次元感情モデル(PDEM)に基づくアーキテクチャの有効性について検討する。
多段階学習モード特化ディープニューラルネット(DNN)の埋め込みを用いた時間モデルと融合戦略の比較を行った。
- 参考スコア(独自算出の注目度): 8.625751046347139
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: As emotions play a central role in human communication, automatic emotion recognition has attracted increasing attention in the last two decades. While multimodal systems enjoy high performances on lab-controlled data, they are still far from providing ecological validity on non-lab-controlled, namely 'in-the-wild' data. This work investigates audiovisual deep learning approaches for emotion recognition in-the-wild problem. We particularly explore the effectiveness of architectures based on fine-tuned Convolutional Neural Networks (CNN) and Public Dimensional Emotion Model (PDEM), for video and audio modality, respectively. We compare alternative temporal modeling and fusion strategies using the embeddings from these multi-stage trained modality-specific Deep Neural Networks (DNN). We report results on the AffWild2 dataset under Affective Behavior Analysis in-the-Wild 2024 (ABAW'24) challenge protocol.
- Abstract(参考訳): 人間のコミュニケーションにおいて感情が中心的な役割を果たしているため、自動的な感情認識は過去20年間で注目を集めている。
マルチモーダルシステムは実験室で制御されたデータに対して高い性能を享受するが、実験室で制御されていないデータ、すなわち「野生の」データに対する生態学的妥当性を提供するには程遠い。
本研究では,感情認識における視覚的深層学習手法について検討する。
特に、ビデオとオーディオのモダリティのための微調整畳み込みニューラルネットワーク(CNN)と公共次元感情モデル(PDEM)に基づくアーキテクチャの有効性について検討する。
我々は、これらの多段階学習モード固有ディープニューラルネットワーク(DNN)の埋め込みを用いた時間的モデリングと融合戦略の比較を行った。
Affective Behavior Analysis in-the-Wild 2024 (ABAW'24) Challenge ProtocolにおけるAffWild2データセットについて報告する。
関連論文リスト
- Mutilmodal Feature Extraction and Attention-based Fusion for Emotion
Estimation in Videos [16.28109151595872]
ABAW(Affective Behavior Analysis in the-wild)に関するCVPR 2023コンペティションについて紹介する。
我々は、音声、ポーズ、画像など、競合データセットから異なる長さのビデオから抽出したマルチモーダル特徴を利用した。
本システムでは,検証データセット上での0.361の性能を実現する。
論文 参考訳(メタデータ) (2023-03-18T14:08:06Z) - A Hierarchical Regression Chain Framework for Affective Vocal Burst
Recognition [72.36055502078193]
本稿では,声帯からの感情認識のための連鎖回帰モデルに基づく階層的枠組みを提案する。
データスパシティの課題に対処するため、レイヤワイドおよび時間アグリゲーションモジュールを備えた自己教師付き学習(SSL)表現も使用しています。
提案されたシステムは、ACII Affective Vocal Burst (A-VB) Challenge 2022に参加し、「TWO」および「CULTURE」タスクで第1位となった。
論文 参考訳(メタデータ) (2023-03-14T16:08:45Z) - Multimodal Emotion Recognition using Transfer Learning from Speaker
Recognition and BERT-based models [53.31917090073727]
本稿では,音声とテキストのモダリティから,伝達学習モデルと微調整モデルとを融合したニューラルネットワークによる感情認識フレームワークを提案する。
本稿では,対話型感情的モーションキャプチャー・データセットにおけるマルチモーダル・アプローチの有効性を評価する。
論文 参考訳(メタデータ) (2022-02-16T00:23:42Z) - Towards Unbiased Visual Emotion Recognition via Causal Intervention [63.74095927462]
本稿では,データセットバイアスによる負の効果を軽減するために,新しい感情認識ネットワーク(IERN)を提案する。
IERNの有効性を検証する一連の設計されたテストと、3つの感情ベンチマークの実験は、IERNが他の最先端のアプローチよりも優れていることを示した。
論文 参考訳(メタデータ) (2021-07-26T10:40:59Z) - Prior Aided Streaming Network for Multi-task Affective Recognitionat the
2nd ABAW2 Competition [9.188777864190204]
我々は第2回ABAW2コンペティション(ABAW2コンペティション)に応募する。
異なる感情表現を扱う際に,マルチタスク・ストリーミング・ネットワークを提案する。
我々は、先行知識として高度な表情埋め込みを活用している。
論文 参考訳(メタデータ) (2021-07-08T09:35:08Z) - Leveraging Recent Advances in Deep Learning for Audio-Visual Emotion
Recognition [2.1485350418225244]
人間の行動分析のために, 自発的なマルチモーダル感情認識が広く研究されている。
視聴覚感情認識のための深層学習に基づく新しいアプローチを提案する。
論文 参考訳(メタデータ) (2021-03-16T15:49:15Z) - Continuous Emotion Recognition with Spatiotemporal Convolutional Neural
Networks [82.54695985117783]
In-theld でキャプチャした長いビデオシーケンスを用いて,持続的な感情認識のための最先端のディープラーニングアーキテクチャの適合性を検討する。
我々は,2D-CNNと長期記憶ユニットを組み合わせた畳み込みリカレントニューラルネットワークと,2D-CNNモデルの微調整時の重みを膨らませて構築した膨らませた3D-CNNモデルを開発した。
論文 参考訳(メタデータ) (2020-11-18T13:42:05Z) - An End-to-End Visual-Audio Attention Network for Emotion Recognition in
User-Generated Videos [64.91614454412257]
畳み込みニューラルネットワーク(CNN)に基づくエンドツーエンドの映像感情認識を提案する。
具体的には,空間的,チャネル的,時間的注意を視覚的に3D CNNに統合し,時間的注意をオーディオ2D CNNに組み込む新しいアーキテクチャである,深層ビジュアル・オーディオ・アテンション・ネットワーク(VAANet)を開発した。
論文 参考訳(メタデータ) (2020-02-12T15:33:59Z) - Two-Stream Aural-Visual Affect Analysis in the Wild [2.578242050187029]
本稿では,ABAW(Affective Behavior Analysis in-the-wild)2020コンペティションについて紹介する。
本稿では,映像から感情行動を認識するための2ストリーム聴覚・視覚分析モデルを提案する。
我々のモデルは、挑戦的なAff-Wild2データベース上で有望な結果を得る。
論文 参考訳(メタデータ) (2020-02-09T16:59:56Z) - Continuous Emotion Recognition via Deep Convolutional Autoencoder and
Support Vector Regressor [70.2226417364135]
マシンはユーザの感情状態を高い精度で認識できることが不可欠である。
ディープニューラルネットワークは感情を認識する上で大きな成功を収めている。
表情認識に基づく連続的感情認識のための新しいモデルを提案する。
論文 参考訳(メタデータ) (2020-01-31T17:47:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。