論文の概要: Cross-modal Context Fusion and Adaptive Graph Convolutional Network for Multimodal Conversational Emotion Recognition
- arxiv url: http://arxiv.org/abs/2501.15063v1
- Date: Sat, 25 Jan 2025 03:53:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-28 13:57:28.020201
- Title: Cross-modal Context Fusion and Adaptive Graph Convolutional Network for Multimodal Conversational Emotion Recognition
- Title(参考訳): マルチモーダル会話感情認識のためのクロスモーダルコンテキスト融合と適応グラフ畳み込みネットワーク
- Authors: Junwei Feng, Xueyan Fan,
- Abstract要約: 本稿では、クロスモーダルコンテキスト融合モジュール、適応グラフ畳み込み符号化モジュール、感情分類モジュールを含む、新しいマルチモーダル感情認識手法を提案する。
我々のモデルは、公開されているベンチマークデータセットの最先端の手法を超越し、高い認識精度を実現した。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Emotion recognition has a wide range of applications in human-computer interaction, marketing, healthcare, and other fields. In recent years, the development of deep learning technology has provided new methods for emotion recognition. Prior to this, many emotion recognition methods have been proposed, including multimodal emotion recognition methods, but these methods ignore the mutual interference between different input modalities and pay little attention to the directional dialogue between speakers. Therefore, this article proposes a new multimodal emotion recognition method, including a cross modal context fusion module, an adaptive graph convolutional encoding module, and an emotion classification module. The cross modal context module includes a cross modal alignment module and a context fusion module, which are used to reduce the noise introduced by mutual interference between different input modalities. The adaptive graph convolution module constructs a dialogue relationship graph for extracting dependencies and self dependencies between speakers. Our model has surpassed some state-of-the-art methods on publicly available benchmark datasets and achieved high recognition accuracy.
- Abstract(参考訳): 感情認識は、人間とコンピュータの相互作用、マーケティング、医療、その他の分野に幅広い応用がある。
近年,深層学習技術の発展により,感情認識の新しい手法が提案されている。
これまで、マルチモーダルな感情認識手法を含む多くの感情認識手法が提案されてきたが、これらの手法は異なる入力モダリティ間の相互干渉を無視し、話者間の指向性対話にはほとんど注意を払わない。
そこで本稿では、クロスモーダルコンテキスト融合モジュール、適応グラフ畳み込み符号化モジュール、感情分類モジュールを含む、新しいマルチモーダル感情認識手法を提案する。
クロスモーダルコンテキストモジュールは、異なる入力モーダル間の相互干渉によって生じるノイズを低減するために使用されるクロスモーダルアライメントモジュールとコンテクスト融合モジュールとを含む。
適応グラフ畳み込みモジュールは、話者間の依存関係と自己依存を抽出する対話関係グラフを構成する。
我々のモデルは、公開されているベンチマークデータセットの最先端の手法を超越し、高い認識精度を実現した。
関連論文リスト
- Masked Graph Learning with Recurrent Alignment for Multimodal Emotion Recognition in Conversation [12.455034591553506]
対話におけるマルチモーダル感情認識(MERC)は、世論監視、インテリジェントな対話ロボット、その他の分野に適用することができる。
従来の作業では、マルチモーダル融合前のモーダル間アライメントプロセスとモーダル内ノイズ情報を無視していた。
我々は,MGLRA(Masked Graph Learning with Recursive Alignment)と呼ばれる新しい手法を開発し,この問題に対処した。
論文 参考訳(メタデータ) (2024-07-23T02:23:51Z) - Enhancing Emotion Recognition in Conversation through Emotional Cross-Modal Fusion and Inter-class Contrastive Learning [40.101313334772016]
会話における感情認識の目的は、文脈情報に基づいて発話の感情カテゴリーを特定することである。
従来のERC法は、クロスモーダル核融合のための単純な接続に依存していた。
本稿では,ベクトル接続に基づくモーダル融合感情予測ネットワークを提案する。
論文 参考訳(メタデータ) (2024-05-28T07:22:30Z) - AIMDiT: Modality Augmentation and Interaction via Multimodal Dimension Transformation for Emotion Recognition in Conversations [57.99479708224221]
AIMDiTと呼ばれる新しいフレームワークを提案し、深い特徴のマルチモーダル融合の問題を解決する。
公開ベンチマークデータセットMELDでAIMDiTフレームワークを使用して行った実験では、Acc-7とw-F1メトリクスの2.34%と2.87%の改善が明らかにされた。
論文 参考訳(メタデータ) (2024-04-12T11:31:18Z) - AMuSE: Adaptive Multimodal Analysis for Speaker Emotion Recognition in
Group Conversations [39.79734528362605]
マルチモーダルアテンションネットワークは、空間抽象の様々なレベルにおける相互モーダル相互作用をキャプチャする。
AMuSEモデルは、空間的特徴と時間的特徴の両方を、話者レベルと発話レベルという2つの濃密な記述子に凝縮する。
論文 参考訳(メタデータ) (2024-01-26T19:17:05Z) - From Text to Pixels: A Context-Aware Semantic Synergy Solution for
Infrared and Visible Image Fusion [66.33467192279514]
我々は、テキスト記述から高レベルなセマンティクスを活用し、赤外線と可視画像のセマンティクスを統合するテキスト誘導多モード画像融合法を提案する。
本手法は,視覚的に優れた融合結果を生成するだけでなく,既存の手法よりも高い検出mAPを達成し,最先端の結果を得る。
論文 参考訳(メタデータ) (2023-12-31T08:13:47Z) - Adversarial Representation with Intra-Modal and Inter-Modal Graph Contrastive Learning for Multimodal Emotion Recognition [14.639340916340801]
マルチモーダル感情認識 (AR-IIGCN) 法に対して, モーダル内およびモーダル間グラフコントラストを用いた新しい適応表現を提案する。
まず、ビデオ、オーディオ、テキストの特徴を多層パーセプトロン(MLP)に入力し、それらを別々の特徴空間にマッピングする。
第2に,逆表現による3つのモーダル特徴に対するジェネレータと判別器を構築する。
第3に、モーダル内およびモーダル間相補的意味情報を取得するために、コントラッシブグラフ表現学習を導入する。
論文 参考訳(メタデータ) (2023-12-28T01:57:26Z) - Part-guided Relational Transformers for Fine-grained Visual Recognition [59.20531172172135]
識別的特徴を学習し,特徴変換モジュールとの相関関係を探索するフレームワークを提案する。
提案手法は,3-of-the-levelオブジェクト認識において,部分ブランチの追加に頼らず,最先端の性能に達する。
論文 参考訳(メタデータ) (2022-12-28T03:45:56Z) - Modeling Motion with Multi-Modal Features for Text-Based Video
Segmentation [56.41614987789537]
テキストベースのビデオセグメンテーションは、対象のオブジェクトを記述文に基づいてビデオに分割することを目的としている。
本研究では, 正確なセグメンテーションを実現するために, 外観, 動き, 言語的特徴を融合, 整合させる手法を提案する。
論文 参考訳(メタデータ) (2022-04-06T02:42:33Z) - High-Modality Multimodal Transformer: Quantifying Modality & Interaction
Heterogeneity for High-Modality Representation Learning [112.51498431119616]
本稿では,多種多様なモダリティを含む高モダリティシナリオに対する効率的な表現学習について検討する。
単一のモデルであるHighMMTは、テキスト、画像、オーディオ、ビデオ、センサー、プロプレセプション、スピーチ、時系列、セット、テーブル)と5つの研究領域から15のタスクをスケールする。
論文 参考訳(メタデータ) (2022-03-02T18:56:20Z) - Multimodal Emotion Recognition using Transfer Learning from Speaker
Recognition and BERT-based models [53.31917090073727]
本稿では,音声とテキストのモダリティから,伝達学習モデルと微調整モデルとを融合したニューラルネットワークによる感情認識フレームワークを提案する。
本稿では,対話型感情的モーションキャプチャー・データセットにおけるマルチモーダル・アプローチの有効性を評価する。
論文 参考訳(メタデータ) (2022-02-16T00:23:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。