論文の概要: Heterogeneous bimodal attention fusion for speech emotion recognition
- arxiv url: http://arxiv.org/abs/2503.06405v1
- Date: Sun, 09 Mar 2025 02:50:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 15:45:43.557665
- Title: Heterogeneous bimodal attention fusion for speech emotion recognition
- Title(参考訳): 音声感情認識のための不均一なバイモーダルアテンション融合
- Authors: Jiachen Luo, Huy Phan, Lin Wang, Joshua Reiss,
- Abstract要約: 本稿では,会話感情認識における多段階多モードインタラクションのためのHBAF(Heterogeneous Bimodal Attention Fusion)という新しいフレームワークを提案する。
ユニモーダル表現モジュールは、コンテキストコンテンツを低レベルのオーディオ表現に組み込んで、異種マルチモーダルギャップをブリッジする。
マルチモーダル融合モジュールは動的バイモーダルアテンションと動的ゲーティング機構を用いて不正確な相互モーダル関係をフィルタリングする。
- 参考スコア(独自算出の注目度): 14.24203981584309
- License:
- Abstract: Multi-modal emotion recognition in conversations is a challenging problem due to the complex and complementary interactions between different modalities. Audio and textual cues are particularly important for understanding emotions from a human perspective. Most existing studies focus on exploring interactions between audio and text modalities at the same representation level. However, a critical issue is often overlooked: the heterogeneous modality gap between low-level audio representations and high-level text representations. To address this problem, we propose a novel framework called Heterogeneous Bimodal Attention Fusion (HBAF) for multi-level multi-modal interaction in conversational emotion recognition. The proposed method comprises three key modules: the uni-modal representation module, the multi-modal fusion module, and the inter-modal contrastive learning module. The uni-modal representation module incorporates contextual content into low-level audio representations to bridge the heterogeneous multi-modal gap, enabling more effective fusion. The multi-modal fusion module uses dynamic bimodal attention and a dynamic gating mechanism to filter incorrect cross-modal relationships and fully exploit both intra-modal and inter-modal interactions. Finally, the inter-modal contrastive learning module captures complex absolute and relative interactions between audio and text modalities. Experiments on the MELD and IEMOCAP datasets demonstrate that the proposed HBAF method outperforms existing state-of-the-art baselines.
- Abstract(参考訳): 会話におけるマルチモーダル感情認識は、異なるモーダル間の複雑で相補的な相互作用のために難しい問題である。
音声とテキストの手がかりは、人間の視点から感情を理解する上で特に重要である。
既存の研究の多くは、同じ表現レベルで音声とテキストのモダリティ間の相互作用を探索することに焦点を当てている。
しかし、低レベルの音声表現と高レベルのテキスト表現との異質なモダリティのギャップは、しばしば見過ごされる。
この問題を解決するために,会話感情認識における多段階多モードインタラクションのためのHBAF(Heterogeneous Bimodal Attention Fusion)という新しいフレームワークを提案する。
提案手法は, ユニモーダル表現モジュール, マルチモーダル融合モジュール, マルチモーダルコントラスト学習モジュールの3つの重要なモジュールからなる。
ユニモーダル表現モジュールは、コンテキストコンテンツを低レベルのオーディオ表現に組み込んで、異質なマルチモーダルギャップをブリッジし、より効果的な融合を可能にする。
マルチモーダル融合モジュールは動的バイモーダルアテンションと動的ゲーティング機構を用いて、不正な相互モーダル関係をフィルタリングし、モーダル内相互作用とモーダル間相互作用の両方を完全に活用する。
最後に、モーダル間のコントラスト学習モジュールは、音声とテキストのモダリティの間の複雑な絶対的および相対的な相互作用をキャプチャする。
MELDとIEMOCAPデータセットの実験は、提案されたHBAF法が既存の最先端ベースラインより優れていることを示した。
関連論文リスト
- Cross-modal Context Fusion and Adaptive Graph Convolutional Network for Multimodal Conversational Emotion Recognition [0.0]
本稿では、クロスモーダルコンテキスト融合モジュール、適応グラフ畳み込み符号化モジュール、感情分類モジュールを含む、新しいマルチモーダル感情認識手法を提案する。
我々のモデルは、公開されているベンチマークデータセットの最先端の手法を超越し、高い認識精度を実現した。
論文 参考訳(メタデータ) (2025-01-25T03:53:53Z) - Hierarchical Banzhaf Interaction for General Video-Language Representation Learning [60.44337740854767]
マルチモーダル表現学習は人工知能領域において重要な役割を担っている。
本稿では,多変量協調ゲーム理論を用いて,ビデオテキストをゲームプレイヤーとしてモデル化する手法を提案する。
元の構造をフレキシブルなエンコーダ・デコーダ・フレームワークに拡張し、モデルが様々な下流タスクに適応できるようにする。
論文 参考訳(メタデータ) (2024-12-30T14:09:15Z) - DeepInteraction++: Multi-Modality Interaction for Autonomous Driving [80.8837864849534]
我々は,モダリティごとの個別表現を学習し,維持することのできる,新しいモダリティインタラクション戦略を導入する。
DeepInteraction++はマルチモーダルなインタラクション・フレームワークであり、マルチモーダルな表現型インタラクション・エンコーダとマルチモーダルな予測型インタラクション・デコーダを特徴とする。
実験では,3次元物体検出とエンドツーエンドの自律走行の両方において,提案手法の優れた性能を示す。
論文 参考訳(メタデータ) (2024-08-09T14:04:21Z) - AIMDiT: Modality Augmentation and Interaction via Multimodal Dimension Transformation for Emotion Recognition in Conversations [57.99479708224221]
AIMDiTと呼ばれる新しいフレームワークを提案し、深い特徴のマルチモーダル融合の問題を解決する。
公開ベンチマークデータセットMELDでAIMDiTフレームワークを使用して行った実験では、Acc-7とw-F1メトリクスの2.34%と2.87%の改善が明らかにされた。
論文 参考訳(メタデータ) (2024-04-12T11:31:18Z) - AMuSE: Adaptive Multimodal Analysis for Speaker Emotion Recognition in
Group Conversations [39.79734528362605]
マルチモーダルアテンションネットワークは、空間抽象の様々なレベルにおける相互モーダル相互作用をキャプチャする。
AMuSEモデルは、空間的特徴と時間的特徴の両方を、話者レベルと発話レベルという2つの濃密な記述子に凝縮する。
論文 参考訳(メタデータ) (2024-01-26T19:17:05Z) - MMoE: Enhancing Multimodal Models with Mixtures of Multimodal Interaction Experts [92.76662894585809]
MMOE(Multimodal Mixtures of Experts)と呼ばれるマルチモーダルモデルの拡張手法を導入する。
MMoEは様々な種類のモデルに適用でき、改善できる。
論文 参考訳(メタデータ) (2023-11-16T05:31:21Z) - Multi-Grained Multimodal Interaction Network for Entity Linking [65.30260033700338]
マルチモーダルエンティティリンクタスクは、マルチモーダル知識グラフへの曖昧な言及を解決することを目的としている。
MELタスクを解決するための新しいMulti-Grained Multimodal InteraCtion Network $textbf(MIMIC)$ frameworkを提案する。
論文 参考訳(メタデータ) (2023-07-19T02:11:19Z) - InterMulti:Multi-view Multimodal Interactions with Text-dominated
Hierarchical High-order Fusion for Emotion Analysis [10.048903012988882]
異なる視点から複雑なマルチモーダルインタラクションを捉えるためのマルチモーダル感情分析フレームワークであるInterMultiを提案する。
提案フレームワークは,異なるモードの信号を3種類のマルチモーダル相互作用表現に分解する。
THHFモジュールは上記の3種類の表現を包括的マルチモーダル相互作用表現に合理的に統合する。
論文 参考訳(メタデータ) (2022-12-20T07:02:32Z) - MM-DFN: Multimodal Dynamic Fusion Network for Emotion Recognition in
Conversations [5.5997926295092295]
会話におけるマルチモーダル感情認識 (ERC) は共感機械の開発にかなりの可能性を持っている。
最近のグラフベース融合法は, グラフ内の非モーダル・クロスモーダル相互作用を探索することによって, 多モーダル情報を集約する。
マルチモーダル・ダイナミック・フュージョン・ネットワーク(MM-DFN)を提案する。
論文 参考訳(メタデータ) (2022-03-04T15:42:53Z) - High-Modality Multimodal Transformer: Quantifying Modality & Interaction
Heterogeneity for High-Modality Representation Learning [112.51498431119616]
本稿では,多種多様なモダリティを含む高モダリティシナリオに対する効率的な表現学習について検討する。
単一のモデルであるHighMMTは、テキスト、画像、オーディオ、ビデオ、センサー、プロプレセプション、スピーチ、時系列、セット、テーブル)と5つの研究領域から15のタスクをスケールする。
論文 参考訳(メタデータ) (2022-03-02T18:56:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。