論文の概要: Revisiting Multimodal Emotion Recognition in Conversation from the Perspective of Graph Spectrum
- arxiv url: http://arxiv.org/abs/2404.17862v1
- Date: Sat, 27 Apr 2024 10:47:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-30 19:01:27.390712
- Title: Revisiting Multimodal Emotion Recognition in Conversation from the Perspective of Graph Spectrum
- Title(参考訳): グラフスペクトルから見た会話におけるマルチモーダル感情認識の再検討
- Authors: Tao Meng, Fuchen Zhang, Yuntao Shou, Wei Ai, Nan Yin, Keqin Li,
- Abstract要約: グラフスペクトルに基づくマルチモーダル一貫性と相補的協調学習フレームワークGS-MCCを提案する。
まず、GS-MCCは、対話関係をモデル化するマルチモーダル相互作用グラフを構築するためにスライディングウィンドウを使用する。
そして、GS-MCCはコントラスト学習を用いて、相補性と一貫性のあるセマンティック・コラボレーションを反映した自己教師付き信号を構築する。
- 参考スコア(独自算出の注目度): 13.81570624162769
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Efficiently capturing consistent and complementary semantic features in a multimodal conversation context is crucial for Multimodal Emotion Recognition in Conversation (MERC). Existing methods mainly use graph structures to model dialogue context semantic dependencies and employ Graph Neural Networks (GNN) to capture multimodal semantic features for emotion recognition. However, these methods are limited by some inherent characteristics of GNN, such as over-smoothing and low-pass filtering, resulting in the inability to learn long-distance consistency information and complementary information efficiently. Since consistency and complementarity information correspond to low-frequency and high-frequency information, respectively, this paper revisits the problem of multimodal emotion recognition in conversation from the perspective of the graph spectrum. Specifically, we propose a Graph-Spectrum-based Multimodal Consistency and Complementary collaborative learning framework GS-MCC. First, GS-MCC uses a sliding window to construct a multimodal interaction graph to model conversational relationships and uses efficient Fourier graph operators to extract long-distance high-frequency and low-frequency information, respectively. Then, GS-MCC uses contrastive learning to construct self-supervised signals that reflect complementarity and consistent semantic collaboration with high and low-frequency signals, thereby improving the ability of high and low-frequency information to reflect real emotions. Finally, GS-MCC inputs the collaborative high and low-frequency information into the MLP network and softmax function for emotion prediction. Extensive experiments have proven the superiority of the GS-MCC architecture proposed in this paper on two benchmark data sets.
- Abstract(参考訳): 対話におけるマルチモーダル感情認識(MERC)において,多モーダル会話コンテキストにおける一貫性と相補的意味的特徴を効果的に捉えることが重要である。
既存の手法は主に、対話コンテキストのセマンティックな依存性をモデル化するためにグラフ構造を使用し、感情認識のためのマルチモーダルなセマンティックな特徴をキャプチャするためにグラフニューラルネットワーク(GNN)を使用している。
しかし、これらの手法は、オーバースムーシングやローパスフィルタリングなどのGNN固有の特徴によって制限されており、長距離整合情報や補完情報を効率的に学習することができない。
整合性情報と相補性情報はそれぞれ低周波情報と高周波情報に対応するため,グラフスペクトルの観点から会話におけるマルチモーダル感情認識の問題を再考する。
具体的には,グラフスペクトルに基づくマルチモーダル一貫性と補完的協調学習フレームワークGS-MCCを提案する。
まず、GS-MCCはスライディングウィンドウを用いて、対話関係をモデル化するマルチモーダル相互作用グラフを構築し、より効率的なフーリエグラフ演算子を用いて、それぞれ長距離高周波および低周波情報を抽出する。
そして、GS-MCCはコントラスト学習を用いて、高周波数信号と低周波信号との相補性と一貫した意味的協調を反映した自己教師付き信号を構築することにより、実情を反映する高周波情報や低周波情報の能力を向上させる。
最後に、GS-MCCは、協調的な高周波・低周波情報をMLPネットワークとソフトマックス関数に入力し、感情予測を行う。
本稿では,2つのベンチマークデータセットで提案したGS-MCCアーキテクチャの優位性を実証した。
関連論文リスト
- Multi-Task Semantic Communication With Graph Attention-Based Feature Correlation Extraction [69.24689059980035]
本稿では,マルチタスク・セマンティック・コミュニケーション・システムのエンコーダ/トランスミッタに新たなグラフアテンション・インターブロック(GAI)モジュールを提案する。
エンコーダの中間特徴抽出ブロックの出力をグラフのノードとして解釈し,その中間特徴の相関関係を捉える。
実験により、提案されたモデルは、CityScapes 2Taskデータセットにおいて、最も競争力があり、公開可能なモデルよりも11.4%多いことが示されている。
論文 参考訳(メタデータ) (2025-01-02T04:38:01Z) - Effective Context Modeling Framework for Emotion Recognition in Conversations [2.7175580940471913]
会話における感情認識(英語: Emotion Recognition in Conversations, ERC)は、会話中の各発話における話者による感情のより深い理解を促進する。
最近のグラフニューラルネットワーク(GNN)は、データ関係をキャプチャする上で、その強みを実証している。
本稿では,会話中の文脈情報をキャプチャする新しいGNNベースのフレームワークであるConxGNNを提案する。
論文 参考訳(メタデータ) (2024-12-21T02:22:06Z) - SDR-GNN: Spectral Domain Reconstruction Graph Neural Network for Incomplete Multimodal Learning in Conversational Emotion Recognition [14.645598552036908]
会話におけるマルチモーダル感情認識(MERC)は、テキスト、聴覚、視覚的モーダル特徴を用いて発話感情を分類することを目的としている。
既存のMERC手法の多くは、それぞれの発話が完全なモーダル性を持っていると仮定し、現実世界のシナリオにおける不完全モーダル性の一般的な問題を見越している。
会話感情認識における不完全なマルチモーダル学習のためのスペクトル領域再構成グラフニューラルネットワーク(SDR-GNN)を提案する。
論文 参考訳(メタデータ) (2024-11-29T16:31:50Z) - Enhancing Graph Contrastive Learning with Reliable and Informative Augmentation for Recommendation [84.45144851024257]
離散コードによるより強力な協調情報を用いて、コントラスト的なビューを構築することにより、グラフのコントラスト学習を強化することを目的とした、新しいフレームワークを提案する。
中心となる考え方は、ユーザとアイテムを協調情報に富んだ離散コードにマッピングし、信頼性と情報に富んだコントラッシブなビュー生成を可能にすることである。
論文 参考訳(メタデータ) (2024-09-09T14:04:17Z) - Noise-Resilient Unsupervised Graph Representation Learning via Multi-Hop Feature Quality Estimation [53.91958614666386]
グラフニューラルネットワーク(GNN)に基づく教師なしグラフ表現学習(UGRL)
マルチホップ特徴量推定(MQE)に基づく新しいUGRL法を提案する。
論文 参考訳(メタデータ) (2024-07-29T12:24:28Z) - Masked Graph Learning with Recurrent Alignment for Multimodal Emotion Recognition in Conversation [12.455034591553506]
対話におけるマルチモーダル感情認識(MERC)は、世論監視、インテリジェントな対話ロボット、その他の分野に適用することができる。
従来の作業では、マルチモーダル融合前のモーダル間アライメントプロセスとモーダル内ノイズ情報を無視していた。
我々は,MGLRA(Masked Graph Learning with Recursive Alignment)と呼ばれる新しい手法を開発し,この問題に対処した。
論文 参考訳(メタデータ) (2024-07-23T02:23:51Z) - Efficient Long-distance Latent Relation-aware Graph Neural Network for Multi-modal Emotion Recognition in Conversations [8.107561045241445]
会話におけるマルチモーダル感情認識のための高効率長距離遅延関係認識グラフニューラルネットワーク(ELR-GNN)を提案する。
ELR-GNNはIEMOCAPとMELDのベンチマークで最先端のパフォーマンスを実現し、それぞれ実行時間を52%と35%削減した。
論文 参考訳(メタデータ) (2024-06-27T15:54:12Z) - Capturing Spectral and Long-term Contextual Information for Speech
Emotion Recognition Using Deep Learning Techniques [0.0]
本研究では,テキストデータ処理のためのグラフ畳み込みネットワーク(GCN)と,音声信号解析のためのHuBERT変換器を組み合わせたアンサンブルモデルを提案する。
GCNとHuBERTを組み合わせることで、我々のアンサンブルモデルは両方のアプローチの強みを利用することができる。
その結果, 合成モデルが従来の手法の限界を克服し, 音声からの感情認識の精度が向上することが示唆された。
論文 参考訳(メタデータ) (2023-08-04T06:20:42Z) - Improved Speech Emotion Recognition using Transfer Learning and
Spectrogram Augmentation [56.264157127549446]
音声感情認識(SER)は、人間とコンピュータの相互作用において重要な役割を果たす課題である。
SERの主な課題の1つは、データの不足である。
本稿では,スペクトログラム拡張と併用した移動学習戦略を提案する。
論文 参考訳(メタデータ) (2021-08-05T10:39:39Z) - Encoder Fusion Network with Co-Attention Embedding for Referring Image
Segmentation [87.01669173673288]
本稿では,視覚的エンコーダをマルチモーダルな特徴学習ネットワークに変換するエンコーダ融合ネットワーク(EFN)を提案する。
EFNには、マルチモーダル機能の並列更新を実現するコアテンションメカニズムが組み込まれている。
4つのベンチマークデータセットによる実験結果から,提案手法がポストプロセッシングを伴わずに最先端の性能を実現することを示す。
論文 参考訳(メタデータ) (2021-05-05T02:27:25Z) - Jointly Cross- and Self-Modal Graph Attention Network for Query-Based
Moment Localization [77.21951145754065]
本稿では,共同グラフを渡る反復的メッセージのプロセスとして,このタスクをリキャストするクロスモーダルグラフ注意ネットワーク(CSMGAN)を提案する。
CSMGANは2つのモード間の高次相互作用を効果的に捉えることができ、より正確な局所化を可能にします。
論文 参考訳(メタデータ) (2020-08-04T08:25:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。