論文の概要: GIA-MIC: Multimodal Emotion Recognition with Gated Interactive Attention and Modality-Invariant Learning Constraints
- arxiv url: http://arxiv.org/abs/2506.00865v1
- Date: Sun, 01 Jun 2025 07:07:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:33.706924
- Title: GIA-MIC: Multimodal Emotion Recognition with Gated Interactive Attention and Modality-Invariant Learning Constraints
- Title(参考訳): GIA-MIC:Gated Interactive AttentionとModality-Invariant Learning Constraintを用いたマルチモーダル感情認識
- Authors: Jiajun He, Jinyi Mi, Tomoki Toda,
- Abstract要約: マルチモーダル感情認識(MER)は、視覚、音声、テキスト入力を含むマルチモーダルデータから感情を抽出し、人間とコンピュータの相互作用において重要な役割を果たす。
本稿では,相互の相互作用を通じて感情情報を高めつつ,モダリティ特有の特徴を適応的に抽出する対話型アテンション機構を提案する。
IEMOCAPの実験では、我々の手法は最先端のMERアプローチより優れており、WA 80.7%、UA 81.3%を達成している。
- 参考スコア(独自算出の注目度): 24.242098942377574
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal emotion recognition (MER) extracts emotions from multimodal data, including visual, speech, and text inputs, playing a key role in human-computer interaction. Attention-based fusion methods dominate MER research, achieving strong classification performance. However, two key challenges remain: effectively extracting modality-specific features and capturing cross-modal similarities despite distribution differences caused by modality heterogeneity. To address these, we propose a gated interactive attention mechanism to adaptively extract modality-specific features while enhancing emotional information through pairwise interactions. Additionally, we introduce a modality-invariant generator to learn modality-invariant representations and constrain domain shifts by aligning cross-modal similarities. Experiments on IEMOCAP demonstrate that our method outperforms state-of-the-art MER approaches, achieving WA 80.7% and UA 81.3%.
- Abstract(参考訳): マルチモーダル感情認識(MER)は、視覚、音声、テキスト入力を含むマルチモーダルデータから感情を抽出し、人間とコンピュータの相互作用において重要な役割を果たす。
注意に基づく融合法がMER研究を支配し,高い分類性能を実現している。
しかし、2つの重要な課題は、モダリティ固有の特徴を効果的に抽出し、モダリティの不均一性に起因する分布差にもかかわらず、モダリティ間の類似性を捉えることである。
そこで本稿では,2つのインタラクションを通じて感情情報を高めつつ,モダリティ特有の特徴を適応的に抽出する,ゲート型対話型アテンション機構を提案する。
さらに、モダリティ不変表現と制約領域シフトを、モーダル間の類似性を整列させることで学習するモダリティ不変生成器を導入する。
IEMOCAPの実験では、我々の手法は最先端のMERアプローチより優れており、WA 80.7%、UA 81.3%を達成している。
関連論文リスト
- A Novel Approach to for Multimodal Emotion Recognition : Multimodal semantic information fusion [3.1409950035735914]
本稿では,コントラスト学習と視覚的シーケンス圧縮を統合した新しいマルチモーダル感情認識手法であるDeepMSI-MERを提案する。
2つの公開データセット(IEMOCAPとMELD)の実験結果から、DeepMSI-MERは感情認識の精度と堅牢性を大幅に向上することが示された。
論文 参考訳(メタデータ) (2025-02-12T17:07:43Z) - AIMDiT: Modality Augmentation and Interaction via Multimodal Dimension Transformation for Emotion Recognition in Conversations [57.99479708224221]
AIMDiTと呼ばれる新しいフレームワークを提案し、深い特徴のマルチモーダル融合の問題を解決する。
公開ベンチマークデータセットMELDでAIMDiTフレームワークを使用して行った実験では、Acc-7とw-F1メトリクスの2.34%と2.87%の改善が明らかにされた。
論文 参考訳(メタデータ) (2024-04-12T11:31:18Z) - Joint Multimodal Transformer for Emotion Recognition in the Wild [49.735299182004404]
マルチモーダル感情認識(MMER)システムは、通常、単調なシステムよりも優れている。
本稿では,キーベースのクロスアテンションと融合するために,ジョイントマルチモーダルトランス (JMT) を利用するMMER法を提案する。
論文 参考訳(メタデータ) (2024-03-15T17:23:38Z) - Adversarial Representation with Intra-Modal and Inter-Modal Graph Contrastive Learning for Multimodal Emotion Recognition [14.639340916340801]
マルチモーダル感情認識 (AR-IIGCN) 法に対して, モーダル内およびモーダル間グラフコントラストを用いた新しい適応表現を提案する。
まず、ビデオ、オーディオ、テキストの特徴を多層パーセプトロン(MLP)に入力し、それらを別々の特徴空間にマッピングする。
第2に,逆表現による3つのモーダル特徴に対するジェネレータと判別器を構築する。
第3に、モーダル内およびモーダル間相補的意味情報を取得するために、コントラッシブグラフ表現学習を導入する。
論文 参考訳(メタデータ) (2023-12-28T01:57:26Z) - A Joint Cross-Attention Model for Audio-Visual Fusion in Dimensional Emotion Recognition [46.443866373546726]
ビデオから抽出した顔と声の融合に基づく次元的感情認識に焦点を当てた。
本稿では, 相補的関係に依拠し, 有意な特徴を抽出する連係関係モデルを提案する。
提案したA-V融合モデルにより,最先端の手法より優れたコスト効率のソリューションが提供される。
論文 参考訳(メタデータ) (2022-03-28T14:09:43Z) - Group Gated Fusion on Attention-based Bidirectional Alignment for
Multimodal Emotion Recognition [63.07844685982738]
本稿では、LSTM隠蔽状態上の注目に基づく双方向アライメントネットワークで構成されるGBAN(Gated Bidirectional Alignment Network)と呼ばれる新しいモデルを提案する。
LSTMの最後の隠れ状態よりもアテンション整列表現の方が有意に優れていたことを実証的に示す。
提案したGBANモデルは、IEMOCAPデータセットにおける既存の最先端マルチモーダルアプローチよりも優れている。
論文 参考訳(メタデータ) (2022-01-17T09:46:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。