Fugu-MT 論文翻訳(概要): Multimodal Emotion Recognition via Bi-directional Cross-Attention and Temporal Modeling

論文の概要: Multimodal Emotion Recognition via Bi-directional Cross-Attention and Temporal Modeling

arxiv url: http://arxiv.org/abs/2603.11971v2
Date: Wed, 18 Mar 2026 11:36:49 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-19 13:49:23.033324
Title: Multimodal Emotion Recognition via Bi-directional Cross-Attention and Temporal Modeling
Title（参考訳）: 双方向のクロスアテンションと時間モデルによるマルチモーダル感情認識
Authors: Junhyeong Byeon, Jeongyeol Kim, Sejoon Lim,
Abstract要約: 本稿では,第10回ABAWチャレンジにおける表現課題に対するマルチモーダル感情認識フレームワークを提案する。本フレームワークは,視覚および音声表現学習のための大規模事前学習モデルを構築し,それらを統合マルチモーダルアーキテクチャに統合する。 ABAW 10th EXPRベンチマークの実験結果から,提案手法の有効性が示された。
参考スコア（独自算出の注目度）: 2.8037951156321377
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Expression recognition in in-the-wild video data remains challenging due to substantial variations in facial appearance, background conditions, audio noise, and the inherently dynamic nature of human affect. Relying on a single modality, such as facial expressions or speech, is often insufficient for capturing these complex emotional cues. To address this limitation, we propose a multimodal emotion recognition framework for the Expression (EXPR) task in the 10th Affective Behavior Analysis in-the-wild (ABAW) Challenge. Our framework builds on large-scale pre-trained models for visual and audio representation learning and integrates them in a unified multimodal architecture. To better capture temporal patterns in facial expression sequences, we incorporate temporal visual modeling over video windows. We further introduce a bi-directional cross-attention fusion module that enables visual and audio features to interact in a symmetric manner, facilitating cross-modal contextualization and complementary emotion understanding. In addition, we employ a text-guided contrastive objective to encourage semantically meaningful visual representations through alignment with emotion-related text prompts. Experimental results on the ABAW 10th EXPR benchmark demonstrate the effectiveness of the proposed framework, achieving a Macro F1 score of 0.32 compared to the baseline score of 0.25, and highlight the benefit of combining temporal visual modeling, audio representation learning, and cross-modal fusion for robust emotion recognition in unconstrained real-world environments.
Abstract（参考訳）: 画像データにおける表情認識は、顔の外観、背景条件、オーディオノイズ、および人間の感情の本質的にダイナミックな性質がかなり異なるため、依然として困難である。表情やスピーチのような単一のモダリティを頼りにすることは、これらの複雑な感情的な手がかりを捉えるのに不十分であることが多い。この制限に対処するため,第10回ABAWチャレンジにおいて,Expression (EXPR)タスクのためのマルチモーダル感情認識フレームワークを提案する。本フレームワークは,視覚および音声表現学習のための大規模事前学習モデルを構築し,それらを統合マルチモーダルアーキテクチャに統合する。表情系列の時間的パターンをよりよく捉えるために,ビデオウィンドウ上での時間的視覚的モデリングを取り入れた。さらに、視覚的特徴と音声的特徴を対称的に相互作用させ、相互の文脈化と相補的な感情理解を容易にする双方向の相互注意融合モジュールを導入する。さらに,感情関係のテキストプロンプトとアライメントすることで,意味的に意味のある視覚表現を促進するために,テキスト誘導型コントラスト目的を用いた。 ABAW 10th EXPRベンチマークの実験結果は、提案フレームワークの有効性を実証し、ベースラインスコア0.25に比べてマクロF1スコア0.32を達成し、時間的視覚モデリング、音声表現学習、および非制約の実環境における堅牢な感情認識のためのモーダル融合の利点を強調した。

関連論文リスト

AMB-DSGDN: Adaptive Modality-Balanced Dynamic Semantic Graph Differential Network for Multimodal Emotion Recognition [35.370240758006936]
マルチモーダル対話感情認識は、テキスト、ビジュアル、オーディオのモダリティを融合することで感情的な手がかりを捉える。既存のアプローチは、感情的依存のモデリングやマルチモーダル表現の学習において、依然として顕著な制限に悩まされている。 AMB-DSGDN(Adaptive Modality-Balanced Dynamic Semantic Graph Differential Network)を提案する。
論文参考訳（メタデータ） (2026-03-07T11:23:23Z)
Text-guided Weakly Supervised Framework for Dynamic Facial Expression Recognition [49.41688891301643]
動的表情認識は、映像列間の顔の動きの時間的変化をモデル化することにより、感情状態の同定を目的としている。 DFERの重要な課題は、多数のフレームからなるビデオが単一の感情ラベルに割り当てられる、多対一のラベリングの問題である。本稿では,テキスト誘導型弱教師付きフレームワークであるTG-DFERを提案する。
論文参考訳（メタデータ） (2025-11-14T04:49:58Z)
VAEmo: Efficient Representation Learning for Visual-Audio Emotion with Knowledge Injection [50.57849622045192]
本稿では,外部知識注入を用いた感情中心型VA表現学習のための効率的なフレームワークであるVAEmoを提案する。 VAEmoは、コンパクトな設計で最先端のパフォーマンスを実現し、統合されたクロスモーダルエンコーディングと感情認識のセマンティックガイダンスの利点を強調している。
論文参考訳（メタデータ） (2025-05-05T03:00:51Z)
MAVEN: Multi-modal Attention for Valence-Arousal Emotion Network [6.304608172789466]
The proposed Multi-modal Attention for Valence-Arousal Emotion Network (MAVEN) integrates visual, audio, and textual modalities。 MAVENは、モダリティ固有のエンコーダを使用して、同期化されたビデオフレーム、オーディオセグメント、および書き起こしから特徴を抽出する。このアーキテクチャは、会話ビデオにおける感情表現の微妙で過渡的な性質を捉え、現実の状況における感情認識を改善する。
論文参考訳（メタデータ） (2025-03-16T19:32:32Z)
HSEmotion Team at ABAW-8 Competition: Audiovisual Ambivalence/Hesitancy, Emotional Mimicry Intensity and Facial Expression Recognition [16.860963320038902]
本稿では,第8回ABAW(Affective Behavior Analysis in-the-Wild)コンペティションの結果について述べる。事前学習したモデルから抽出した顔の感情記述子と音響的特徴と音声から認識されたテキストの埋め込みを組み合わせる。フレームレベルの特徴を単純に集約し、多層パーセプトロンを訓練することにより、感情的模倣強度の映像レベル予測を実現する。
論文参考訳（メタデータ） (2025-03-13T14:21:46Z)
EmotiveTalk: Expressive Talking Head Generation through Audio Information Decoupling and Emotional Video Diffusion [49.55774551366049]
拡散モデルは、会話のヘッドジェネレーションの分野に革命をもたらしたが、長期的には表現性、制御可能性、安定性に課題に直面している。これらの問題に対処するためのEmotiveTalkフレームワークを提案する。実験結果から,EmotiveTalkは表現力のある対話型ヘッドビデオを生成することができ,長時間発生時の感情の制御性と安定性を保証できることがわかった。
論文参考訳（メタデータ） (2024-11-23T04:38:51Z)
Joint Multimodal Transformer for Emotion Recognition in the Wild [49.735299182004404]
マルチモーダル感情認識(MMER)システムは、通常、単調なシステムよりも優れている。本稿では,キーベースのクロスアテンションと融合するために,ジョイントマルチモーダルトランス (JMT) を利用するMMER法を提案する。
論文参考訳（メタデータ） (2024-03-15T17:23:38Z)
AMuSE: Adaptive Multimodal Analysis for Speaker Emotion Recognition in Group Conversations [39.79734528362605]
マルチモーダルアテンションネットワークは、空間抽象の様々なレベルにおける相互モーダル相互作用をキャプチャする。 AMuSEモデルは、空間的特徴と時間的特徴の両方を、話者レベルと発話レベルという2つの濃密な記述子に凝縮する。
論文参考訳（メタデータ） (2024-01-26T19:17:05Z)
Multimodal Emotion Recognition using Transfer Learning from Speaker Recognition and BERT-based models [53.31917090073727]
本稿では,音声とテキストのモダリティから,伝達学習モデルと微調整モデルとを融合したニューラルネットワークによる感情認識フレームワークを提案する。本稿では,対話型感情的モーションキャプチャー・データセットにおけるマルチモーダル・アプローチの有効性を評価する。
論文参考訳（メタデータ） (2022-02-16T00:23:42Z)
Leveraging Semantic Scene Characteristics and Multi-Stream Convolutional Architectures in a Contextual Approach for Video-Based Visual Emotion Recognition in the Wild [31.40575057347465]
私たちは、野生のビデオベースの視覚感情認識のタスクに取り組みます。身体および顔の特徴の抽出のみに依存する標準的な方法論は、しばしば正確な感情予測に欠ける。我々は、シーンの特徴や属性の形で視覚的コンテキストを活用することで、この問題を軽減することを目指している。
論文参考訳（メタデータ） (2021-05-16T17:31:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。