論文の概要: Joint Multimodal Transformer for Dimensional Emotional Recognition in the Wild
- arxiv url: http://arxiv.org/abs/2403.10488v1
- Date: Fri, 15 Mar 2024 17:23:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-18 16:01:36.223653
- Title: Joint Multimodal Transformer for Dimensional Emotional Recognition in the Wild
- Title(参考訳): 野生における三次元感情認識のためのマルチモーダル変換器
- Authors: Paul Waligora, Osama Zeeshan, Haseeb Aslam, Soufiane Belharbi, Alessandro Lameiras Koerich, Marco Pedersoli, Simon Bacon, Eric Granger,
- Abstract要約: 本研究は,キーベース・クロスアテンションを用いたマルチモーダルトランスフォーマアーキテクチャを用いた新しい音声視覚感情認識システムを提案する。
このフレームワークは、ビデオにおける音声および視覚的手がかり(表情と発声パターン)の相補的な性質を活用することを目的としており、単一のモダリティにのみ依存するよりも優れたパフォーマンスをもたらす。
- 参考スコア(独自算出の注目度): 49.735299182004404
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Audiovisual emotion recognition (ER) in videos has immense potential over unimodal performance. It effectively leverages the inter- and intra-modal dependencies between visual and auditory modalities. This work proposes a novel audio-visual emotion recognition system utilizing a joint multimodal transformer architecture with key-based cross-attention. This framework aims to exploit the complementary nature of audio and visual cues (facial expressions and vocal patterns) in videos, leading to superior performance compared to solely relying on a single modality. The proposed model leverages separate backbones for capturing intra-modal temporal dependencies within each modality (audio and visual). Subsequently, a joint multimodal transformer architecture integrates the individual modality embeddings, enabling the model to effectively capture inter-modal (between audio and visual) and intra-modal (within each modality) relationships. Extensive evaluations on the challenging Affwild2 dataset demonstrate that the proposed model significantly outperforms baseline and state-of-the-art methods in ER tasks.
- Abstract(参考訳): ビデオにおける視覚的感情認識(ER)は、一助的なパフォーマンスに対して大きな可能性を秘めている。
視覚的モダリティと聴覚的モダリティの間のモード内依存関係を効果的に活用する。
本研究は,キーベース・クロスアテンションを用いたマルチモーダルトランスフォーマアーキテクチャを用いた,新しい音声視覚感情認識システムを提案する。
本フレームワークは,映像における音声・視覚的手がかり(表情・発声パターン)の相補的な性質を活用することを目的としており,単一のモダリティにのみ依存するよりも優れた性能を実現する。
提案モデルでは,各モーダル(音響と視覚)内のモーダル内時間依存性を捉えるために,異なるバックボーンを利用する。
その後、ジョイントマルチモーダルトランスフォーマーアーキテクチャは個々のモーダル埋め込みを統合し、モデルがモーダル間(音声と視覚の間)とモーダル内(各モーダルを含む)を効果的にキャプチャすることを可能にする。
Affwild2データセットの大規模な評価は、提案モデルがERタスクのベースラインと最先端メソッドを大幅に上回っていることを示している。
関連論文リスト
- Enhancing Modal Fusion by Alignment and Label Matching for Multimodal Emotion Recognition [16.97833694961584]
Foal-Netは、モダリティ融合の有効性を高めるように設計されている。
これには、オーディオビデオの感情アライメントと、モーダルな感情ラベルマッチングという2つの補助的なタスクが含まれる。
実験の結果,Foal-Netは最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2024-08-18T11:05:21Z) - AIMDiT: Modality Augmentation and Interaction via Multimodal Dimension Transformation for Emotion Recognition in Conversations [57.99479708224221]
AIMDiTと呼ばれる新しいフレームワークを提案し、深い特徴のマルチモーダル融合の問題を解決する。
公開ベンチマークデータセットMELDでAIMDiTフレームワークを使用して行った実験では、Acc-7とw-F1メトリクスの2.34%と2.87%の改善が明らかにされた。
論文 参考訳(メタデータ) (2024-04-12T11:31:18Z) - Multimodal Latent Emotion Recognition from Micro-expression and
Physiological Signals [11.05207353295191]
本稿では,マルチモーダルデータの導入による潜在感情認識の精度向上のメリットを論じ,マイクロ・エクスプレッション(ME)と生理信号(PS)に着目した。
提案手法では,MEとPSを組み合わせた新しいマルチモーダル学習フレームワークを提案する。
実験の結果,提案手法は,重み付き融合法とガイド付注目モジュールにより,性能向上に寄与することがわかった。
論文 参考訳(メタデータ) (2023-08-23T14:17:44Z) - Cross-Attention is Not Enough: Incongruity-Aware Dynamic Hierarchical
Fusion for Multimodal Affect Recognition [69.32305810128994]
モダリティ間の同調性は、特に認知に影響を及ぼすマルチモーダル融合の課題となる。
本稿では,動的モダリティゲーティング(HCT-DMG)を用いた階層型クロスモーダルトランスを提案する。
HCT-DMG: 1) 従来のマルチモーダルモデルを約0.8Mパラメータで上回り、2) 不整合が認識に影響を及ぼすハードサンプルを認識し、3) 潜在レベルの非整合性をクロスモーダルアテンションで緩和する。
論文 参考訳(メタデータ) (2023-05-23T01:24:15Z) - Recursive Joint Attention for Audio-Visual Fusion in Regression based
Emotion Recognition [15.643176705932396]
映像に基づく感情認識では、音声(A)と視覚(V)の相補的関係を活用することが重要である。
本稿では,AとVの相補的な性質を利用する可能性について,共同配置モデルを用いて検討する。
我々のモデルは、AとVの融合において、モーダル内関係とモーダル間関係の両方を効率的に利用することができる。
論文 参考訳(メタデータ) (2023-04-17T02:57:39Z) - Group Gated Fusion on Attention-based Bidirectional Alignment for
Multimodal Emotion Recognition [63.07844685982738]
本稿では、LSTM隠蔽状態上の注目に基づく双方向アライメントネットワークで構成されるGBAN(Gated Bidirectional Alignment Network)と呼ばれる新しいモデルを提案する。
LSTMの最後の隠れ状態よりもアテンション整列表現の方が有意に優れていたことを実証的に示す。
提案したGBANモデルは、IEMOCAPデータセットにおける既存の最先端マルチモーダルアプローチよりも優れている。
論文 参考訳(メタデータ) (2022-01-17T09:46:59Z) - A cross-modal fusion network based on self-attention and residual
structure for multimodal emotion recognition [7.80238628278552]
マルチモーダル感情認識のための自己注意構造と残像構造(CFN-SR)に基づく新たなクロスモーダル融合ネットワークを提案する。
提案手法の有効性を検証するため,RAVDESSデータセットを用いて実験を行った。
実験結果から,提案したCFN-SRは最先端技術を実現し,精度が75.76%,パラメータが26.30Mであることが確認された。
論文 参考訳(メタデータ) (2021-11-03T12:24:03Z) - Fusion with Hierarchical Graphs for Mulitmodal Emotion Recognition [7.147235324895931]
本稿では,より情報に富んだマルチモーダル表現を学習する階層型グラフネットワーク(HFGCN)モデルを提案する。
具体的には,2段階グラフ構築手法を用いてマルチモーダル入力を融合し,モダリティ依存性を会話表現にエンコードする。
実験により,より正確なAERモデルの有効性が示された。
論文 参考訳(メタデータ) (2021-09-15T08:21:01Z) - Bi-Bimodal Modality Fusion for Correlation-Controlled Multimodal
Sentiment Analysis [96.46952672172021]
Bi-Bimodal Fusion Network (BBFN) は、2対のモダリティ表現で融合を行う新しいエンドツーエンドネットワークである。
モデルは、モダリティ間の既知の情報不均衡により、2つのバイモーダルペアを入力として取る。
論文 参考訳(メタデータ) (2021-07-28T23:33:42Z) - Learning Multimodal VAEs through Mutual Supervision [72.77685889312889]
MEMEは、相互監督を通じて暗黙的にモダリティ間の情報を結合する。
我々は、MEMEが、部分的および完全観察スキームの双方で標準メトリクスのベースラインを上回ることを実証する。
論文 参考訳(メタデータ) (2021-06-23T17:54:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。