論文の概要: Multimodal Emotion Recognition via Bi-directional Cross-Attention and Temporal Modeling
- arxiv url: http://arxiv.org/abs/2603.11971v1
- Date: Thu, 12 Mar 2026 14:20:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-13 14:46:26.137506
- Title: Multimodal Emotion Recognition via Bi-directional Cross-Attention and Temporal Modeling
- Title(参考訳): 双方向のクロスアテンションと時間モデルによるマルチモーダル感情認識
- Authors: Junhyeong Byeon, Jeongyeol Kim, Sejoon Lim,
- Abstract要約: 第10回ABAWチャレンジにおけるExpression (EXPR) 認識タスクのためのマルチモーダル感情認識フレームワークを提案する。
表情系列の時間的依存関係をモデル化するために、固定長ビデオウィンドウ上に時間的畳み込みネットワーク(TCN)を用いる。
さらに,視覚的特徴と音声的特徴が対称に相互作用し,相互モーダルな文脈化が促進される双方向の相互注意融合モジュールを導入する。
- 参考スコア(独自算出の注目度): 2.8037951156321377
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Emotion recognition in in-the-wild video data remains a challenging problem due to large variations in facial appearance, head pose, illumination, background noise, and the inherently dynamic nature of human affect. Relying on a single modality, such as facial expressions or speech, is often insufficient to capture these complex emotional cues. To address this issue, we propose a multimodal emotion recognition framework for the Expression (EXPR) Recognition task in the 10th Affective Behavior Analysis in-the-wild (ABAW) Challenge. Our approach leverages large-scale pre-trained models, namely CLIP for visual encoding and Wav2Vec 2.0 for audio representation learning, as frozen backbone networks. To model temporal dependencies in facial expression sequences, we employ a Temporal Convolutional Network (TCN) over fixed-length video windows. In addition, we introduce a bi-directional cross-attention fusion module, in which visual and audio features interact symmetrically to enhance cross-modal contextualization and capture complementary emotional information. A lightweight classification head is then used for final emotion prediction. We further incorporate a text-guided contrastive objective based on CLIP text features to encourage semantically aligned visual representations. Experimental results on the ABAW 10th EXPR benchmark show that the proposed framework provides a strong multimodal baseline and achieves improved performance over unimodal modeling. These results demonstrate the effectiveness of combining temporal visual modeling, audio representation learning, and cross-modal fusion for robust emotion recognition in unconstrained real-world environments.
- Abstract(参考訳): 眼内ビデオデータにおける感情認識は、顔の外観、顔のポーズ、照明、背景雑音、そして人間の感情の本質的にダイナミックな性質に大きな変化があるため、依然として難しい問題である。
表情やスピーチのような単一のモダリティに頼ることは、これらの複雑な感情的な手がかりを捉えるのに不十分であることが多い。
この問題に対処するため,第10回ABAWチャレンジにおいて,Expression (EXPR) 認識タスクのためのマルチモーダル感情認識フレームワークを提案する。
提案手法では,視覚符号化のためのCLIPと,音声表現学習のためのWav2Vec 2.0を冷凍バックボーンネットワークとして活用する。
表情系列の時間的依存関係をモデル化するために、固定長ビデオウィンドウ上に時間的畳み込みネットワーク(TCN)を用いる。
さらに、視覚的特徴と音声的特徴を対称に相互作用させ、相互の文脈化を強化し、相補的な感情情報をキャプチャする双方向の相互注意融合モジュールを導入する。
次に、最終感情予測に軽量な分類ヘッドを使用する。
さらに、CLIPテキスト機能に基づくテキスト誘導型コントラスト目的を取り入れ、意味的に整合した視覚表現を促進する。
ABAW 10th EXPRベンチマークの実験結果から,提案するフレームワークは強力なマルチモーダルベースラインを提供し,単調なモデリングよりも優れた性能を実現することが示された。
これらの結果は、制約のない実環境において、時間的視覚モデル、音声表現学習、モーダル間融合を併用した堅牢な感情認識の有効性を示す。
関連論文リスト
- AMB-DSGDN: Adaptive Modality-Balanced Dynamic Semantic Graph Differential Network for Multimodal Emotion Recognition [35.370240758006936]
マルチモーダル対話感情認識は、テキスト、ビジュアル、オーディオのモダリティを融合することで感情的な手がかりを捉える。
既存のアプローチは、感情的依存のモデリングやマルチモーダル表現の学習において、依然として顕著な制限に悩まされている。
AMB-DSGDN(Adaptive Modality-Balanced Dynamic Semantic Graph Differential Network)を提案する。
論文 参考訳(メタデータ) (2026-03-07T11:23:23Z) - Text-guided Weakly Supervised Framework for Dynamic Facial Expression Recognition [49.41688891301643]
動的表情認識は、映像列間の顔の動きの時間的変化をモデル化することにより、感情状態の同定を目的としている。
DFERの重要な課題は、多数のフレームからなるビデオが単一の感情ラベルに割り当てられる、多対一のラベリングの問題である。
本稿では,テキスト誘導型弱教師付きフレームワークであるTG-DFERを提案する。
論文 参考訳(メタデータ) (2025-11-14T04:49:58Z) - VAEmo: Efficient Representation Learning for Visual-Audio Emotion with Knowledge Injection [50.57849622045192]
本稿では,外部知識注入を用いた感情中心型VA表現学習のための効率的なフレームワークであるVAEmoを提案する。
VAEmoは、コンパクトな設計で最先端のパフォーマンスを実現し、統合されたクロスモーダルエンコーディングと感情認識のセマンティックガイダンスの利点を強調している。
論文 参考訳(メタデータ) (2025-05-05T03:00:51Z) - MAVEN: Multi-modal Attention for Valence-Arousal Emotion Network [6.304608172789466]
The proposed Multi-modal Attention for Valence-Arousal Emotion Network (MAVEN) integrates visual, audio, and textual modalities。
MAVENは、モダリティ固有のエンコーダを使用して、同期化されたビデオフレーム、オーディオセグメント、および書き起こしから特徴を抽出する。
このアーキテクチャは、会話ビデオにおける感情表現の微妙で過渡的な性質を捉え、現実の状況における感情認識を改善する。
論文 参考訳(メタデータ) (2025-03-16T19:32:32Z) - HSEmotion Team at ABAW-8 Competition: Audiovisual Ambivalence/Hesitancy, Emotional Mimicry Intensity and Facial Expression Recognition [16.860963320038902]
本稿では,第8回ABAW(Affective Behavior Analysis in-the-Wild)コンペティションの結果について述べる。
事前学習したモデルから抽出した顔の感情記述子と音響的特徴と音声から認識されたテキストの埋め込みを組み合わせる。
フレームレベルの特徴を単純に集約し、多層パーセプトロンを訓練することにより、感情的模倣強度の映像レベル予測を実現する。
論文 参考訳(メタデータ) (2025-03-13T14:21:46Z) - EmotiveTalk: Expressive Talking Head Generation through Audio Information Decoupling and Emotional Video Diffusion [49.55774551366049]
拡散モデルは、会話のヘッドジェネレーションの分野に革命をもたらしたが、長期的には表現性、制御可能性、安定性に課題に直面している。
これらの問題に対処するためのEmotiveTalkフレームワークを提案する。
実験結果から,EmotiveTalkは表現力のある対話型ヘッドビデオを生成することができ,長時間発生時の感情の制御性と安定性を保証できることがわかった。
論文 参考訳(メタデータ) (2024-11-23T04:38:51Z) - Joint Multimodal Transformer for Emotion Recognition in the Wild [49.735299182004404]
マルチモーダル感情認識(MMER)システムは、通常、単調なシステムよりも優れている。
本稿では,キーベースのクロスアテンションと融合するために,ジョイントマルチモーダルトランス (JMT) を利用するMMER法を提案する。
論文 参考訳(メタデータ) (2024-03-15T17:23:38Z) - AMuSE: Adaptive Multimodal Analysis for Speaker Emotion Recognition in
Group Conversations [39.79734528362605]
マルチモーダルアテンションネットワークは、空間抽象の様々なレベルにおける相互モーダル相互作用をキャプチャする。
AMuSEモデルは、空間的特徴と時間的特徴の両方を、話者レベルと発話レベルという2つの濃密な記述子に凝縮する。
論文 参考訳(メタデータ) (2024-01-26T19:17:05Z) - Multimodal Emotion Recognition using Transfer Learning from Speaker
Recognition and BERT-based models [53.31917090073727]
本稿では,音声とテキストのモダリティから,伝達学習モデルと微調整モデルとを融合したニューラルネットワークによる感情認識フレームワークを提案する。
本稿では,対話型感情的モーションキャプチャー・データセットにおけるマルチモーダル・アプローチの有効性を評価する。
論文 参考訳(メタデータ) (2022-02-16T00:23:42Z) - Leveraging Semantic Scene Characteristics and Multi-Stream Convolutional
Architectures in a Contextual Approach for Video-Based Visual Emotion
Recognition in the Wild [31.40575057347465]
私たちは、野生のビデオベースの視覚感情認識のタスクに取り組みます。
身体および顔の特徴の抽出のみに依存する標準的な方法論は、しばしば正確な感情予測に欠ける。
我々は、シーンの特徴や属性の形で視覚的コンテキストを活用することで、この問題を軽減することを目指している。
論文 参考訳(メタデータ) (2021-05-16T17:31:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。