論文の概要: MCIHN: A Hybrid Network Model Based on Multi-path Cross-modal Interaction for Multimodal Emotion Recognition
- arxiv url: http://arxiv.org/abs/2510.24827v1
- Date: Tue, 28 Oct 2025 16:04:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-30 18:06:01.976763
- Title: MCIHN: A Hybrid Network Model Based on Multi-path Cross-modal Interaction for Multimodal Emotion Recognition
- Title(参考訳): マルチパス相互モーダル相互作用に基づくマルチモーダル感情認識のためのハイブリッドネットワークモデルMCIHN
- Authors: Haoyang Zhang, Zhou Yang, Ke Sun, Yucai Pang, Guoliang Xu,
- Abstract要約: マルチパス・クロスモーダル相互作用(MCIHN)に基づくハイブリッドネットワークモデルを提案する。
対向オートエンコーダ(AAE)は、各モードごとに別々に構築される。
潜伏符号は事前に定義されたクロスモーダルゲート機構モデル(CGMM)に入力される
- 参考スコア(独自算出の注目度): 7.944119407791842
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal emotion recognition is crucial for future human-computer interaction. However, accurate emotion recognition still faces significant challenges due to differences between different modalities and the difficulty of characterizing unimodal emotional information. To solve these problems, a hybrid network model based on multipath cross-modal interaction (MCIHN) is proposed. First, adversarial autoencoders (AAE) are constructed separately for each modality. The AAE learns discriminative emotion features and reconstructs the features through a decoder to obtain more discriminative information about the emotion classes. Then, the latent codes from the AAE of different modalities are fed into a predefined Cross-modal Gate Mechanism model (CGMM) to reduce the discrepancy between modalities, establish the emotional relationship between interacting modalities, and generate the interaction features between different modalities. Multimodal fusion using the Feature Fusion module (FFM) for better emotion recognition. Experiments were conducted on publicly available SIMS and MOSI datasets, demonstrating that MCIHN achieves superior performance.
- Abstract(参考訳): マルチモーダル感情認識は未来の人間とコンピュータの相互作用に不可欠である。
しかし, 正確な感情認識は, モダリティの相違や, 単調な感情情報を特徴づけることの難しさにより, 依然として大きな課題に直面している。
これらの問題を解決するために,MCIHN(Multipath cross-modal interaction)に基づくハイブリッドネットワークモデルを提案する。
まず, 対向オートエンコーダ(AAE)を各モード毎に別々に構成する。
AAEは識別的感情の特徴を学習し、デコーダを通して特徴を再構築し、感情クラスに関するより識別的な情報を得る。
そして、異なるモダリティのAAEからの潜伏符号を、予め定義されたクロスモーダルゲート機構モデル(CGMM)に入力し、モダリティ間の相違を低減し、相互作用するモダリティ間の感情的関係を確立し、異なるモダリティ間の相互作用特徴を生成する。
Feature Fusion Module (FFM) を用いたマルチモーダル融合による感情認識
公開されたSIMSおよびMOSIデータセットで実験を行い、MCIHNが優れた性能を発揮することを示した。
関連論文リスト
- GIA-MIC: Multimodal Emotion Recognition with Gated Interactive Attention and Modality-Invariant Learning Constraints [24.242098942377574]
マルチモーダル感情認識(MER)は、視覚、音声、テキスト入力を含むマルチモーダルデータから感情を抽出し、人間とコンピュータの相互作用において重要な役割を果たす。
本稿では,相互の相互作用を通じて感情情報を高めつつ,モダリティ特有の特徴を適応的に抽出する対話型アテンション機構を提案する。
IEMOCAPの実験では、我々の手法は最先端のMERアプローチより優れており、WA 80.7%、UA 81.3%を達成している。
論文 参考訳(メタデータ) (2025-06-01T07:07:02Z) - Enhancing Emotion Recognition in Conversation through Emotional Cross-Modal Fusion and Inter-class Contrastive Learning [40.101313334772016]
会話における感情認識の目的は、文脈情報に基づいて発話の感情カテゴリーを特定することである。
従来のERC法は、クロスモーダル核融合のための単純な接続に依存していた。
本稿では,ベクトル接続に基づくモーダル融合感情予測ネットワークを提案する。
論文 参考訳(メタデータ) (2024-05-28T07:22:30Z) - Modality Prompts for Arbitrary Modality Salient Object Detection [57.610000247519196]
本論文は、任意のモーダリティ・サリエント物体検出(AM SOD)の課題について述べる。
任意のモダリティ、例えばRGBイメージ、RGB-Dイメージ、RGB-D-Tイメージから有能なオブジェクトを検出することを目的としている。
AM SODの2つの基本的な課題を解明するために,新しいモード適応トランス (MAT) を提案する。
論文 参考訳(メタデータ) (2024-05-06T11:02:02Z) - AIMDiT: Modality Augmentation and Interaction via Multimodal Dimension Transformation for Emotion Recognition in Conversations [57.99479708224221]
AIMDiTと呼ばれる新しいフレームワークを提案し、深い特徴のマルチモーダル融合の問題を解決する。
公開ベンチマークデータセットMELDでAIMDiTフレームワークを使用して行った実験では、Acc-7とw-F1メトリクスの2.34%と2.87%の改善が明らかにされた。
論文 参考訳(メタデータ) (2024-04-12T11:31:18Z) - Joint Multimodal Transformer for Emotion Recognition in the Wild [49.735299182004404]
マルチモーダル感情認識(MMER)システムは、通常、単調なシステムよりも優れている。
本稿では,キーベースのクロスアテンションと融合するために,ジョイントマルチモーダルトランス (JMT) を利用するMMER法を提案する。
論文 参考訳(メタデータ) (2024-03-15T17:23:38Z) - Adversarial Representation with Intra-Modal and Inter-Modal Graph Contrastive Learning for Multimodal Emotion Recognition [14.639340916340801]
マルチモーダル感情認識 (AR-IIGCN) 法に対して, モーダル内およびモーダル間グラフコントラストを用いた新しい適応表現を提案する。
まず、ビデオ、オーディオ、テキストの特徴を多層パーセプトロン(MLP)に入力し、それらを別々の特徴空間にマッピングする。
第2に,逆表現による3つのモーダル特徴に対するジェネレータと判別器を構築する。
第3に、モーダル内およびモーダル間相補的意味情報を取得するために、コントラッシブグラフ表現学習を導入する。
論文 参考訳(メタデータ) (2023-12-28T01:57:26Z) - CFN-ESA: A Cross-Modal Fusion Network with Emotion-Shift Awareness for Dialogue Emotion Recognition [34.24557248359872]
会話における感情認識のための感情シフト認識型クロスモーダルフュージョンネットワーク(CFN-ESA)を提案する。
CFN-ESAは、ユニモーダルエンコーダ(RUME)、クロスモーダルエンコーダ(ACME)、感情シフトモジュール(LESM)からなる。
論文 参考訳(メタデータ) (2023-07-28T09:29:42Z) - Multimodal Emotion Recognition using Transfer Learning from Speaker
Recognition and BERT-based models [53.31917090073727]
本稿では,音声とテキストのモダリティから,伝達学習モデルと微調整モデルとを融合したニューラルネットワークによる感情認識フレームワークを提案する。
本稿では,対話型感情的モーションキャプチャー・データセットにおけるマルチモーダル・アプローチの有効性を評価する。
論文 参考訳(メタデータ) (2022-02-16T00:23:42Z) - Group Gated Fusion on Attention-based Bidirectional Alignment for
Multimodal Emotion Recognition [63.07844685982738]
本稿では、LSTM隠蔽状態上の注目に基づく双方向アライメントネットワークで構成されるGBAN(Gated Bidirectional Alignment Network)と呼ばれる新しいモデルを提案する。
LSTMの最後の隠れ状態よりもアテンション整列表現の方が有意に優れていたことを実証的に示す。
提案したGBANモデルは、IEMOCAPデータセットにおける既存の最先端マルチモーダルアプローチよりも優れている。
論文 参考訳(メタデータ) (2022-01-17T09:46:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。