論文の概要: Revisiting Multimodal Emotion Recognition in Conversation from the Perspective of Graph Spectrum
- arxiv url: http://arxiv.org/abs/2404.17862v2
- Date: Fri, 3 May 2024 02:16:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-06 17:08:18.840360
- Title: Revisiting Multimodal Emotion Recognition in Conversation from the Perspective of Graph Spectrum
- Title(参考訳): グラフスペクトルから見た会話におけるマルチモーダル感情認識の再検討
- Authors: Tao Meng, Fuchen Zhang, Yuntao Shou, Wei Ai, Nan Yin, Keqin Li,
- Abstract要約: グラフスペクトルに基づくマルチモーダル一貫性と相補的協調学習フレームワークGS-MCCを提案する。
まず、GS-MCCは、対話関係をモデル化するマルチモーダル相互作用グラフを構築するためにスライディングウィンドウを使用する。
そして、GS-MCCはコントラスト学習を用いて、相補性と一貫性のあるセマンティック・コラボレーションを反映した自己教師付き信号を構築する。
- 参考スコア(独自算出の注目度): 13.81570624162769
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Efficiently capturing consistent and complementary semantic features in a multimodal conversation context is crucial for Multimodal Emotion Recognition in Conversation (MERC). Existing methods mainly use graph structures to model dialogue context semantic dependencies and employ Graph Neural Networks (GNN) to capture multimodal semantic features for emotion recognition. However, these methods are limited by some inherent characteristics of GNN, such as over-smoothing and low-pass filtering, resulting in the inability to learn long-distance consistency information and complementary information efficiently. Since consistency and complementarity information correspond to low-frequency and high-frequency information, respectively, this paper revisits the problem of multimodal emotion recognition in conversation from the perspective of the graph spectrum. Specifically, we propose a Graph-Spectrum-based Multimodal Consistency and Complementary collaborative learning framework GS-MCC. First, GS-MCC uses a sliding window to construct a multimodal interaction graph to model conversational relationships and uses efficient Fourier graph operators to extract long-distance high-frequency and low-frequency information, respectively. Then, GS-MCC uses contrastive learning to construct self-supervised signals that reflect complementarity and consistent semantic collaboration with high and low-frequency signals, thereby improving the ability of high and low-frequency information to reflect real emotions. Finally, GS-MCC inputs the collaborative high and low-frequency information into the MLP network and softmax function for emotion prediction. Extensive experiments have proven the superiority of the GS-MCC architecture proposed in this paper on two benchmark data sets.
- Abstract(参考訳): 対話におけるマルチモーダル感情認識(MERC)において,多モーダル会話コンテキストにおける一貫性と相補的意味的特徴を効果的に捉えることが重要である。
既存の手法は主に、対話コンテキストのセマンティックな依存性をモデル化するためにグラフ構造を使用し、感情認識のためのマルチモーダルなセマンティックな特徴をキャプチャするためにグラフニューラルネットワーク(GNN)を使用している。
しかし、これらの手法は、オーバースムーシングやローパスフィルタリングなどのGNN固有の特徴によって制限されており、長距離整合情報や補完情報を効率的に学習することができない。
整合性情報と相補性情報はそれぞれ低周波情報と高周波情報に対応するため,グラフスペクトルの観点から会話におけるマルチモーダル感情認識の問題を再考する。
具体的には,グラフスペクトルに基づくマルチモーダル一貫性と補完的協調学習フレームワークGS-MCCを提案する。
まず、GS-MCCはスライディングウィンドウを用いて、対話関係をモデル化するマルチモーダル相互作用グラフを構築し、より効率的なフーリエグラフ演算子を用いて、それぞれ長距離高周波および低周波情報を抽出する。
そして、GS-MCCはコントラスト学習を用いて、高周波数信号と低周波信号との相補性と一貫した意味的協調を反映した自己教師付き信号を構築することにより、実情を反映する高周波情報や低周波情報の能力を向上させる。
最後に、GS-MCCは、協調的な高周波・低周波情報をMLPネットワークとソフトマックス関数に入力し、感情予測を行う。
本稿では,2つのベンチマークデータセットで提案したGS-MCCアーキテクチャの優位性を実証した。
関連論文リスト
- Semantic Communication for Cooperative Perception using HARQ [51.148203799109304]
我々は重要セマンティック情報を抽出するために重要地図を活用し、協調的な知覚セマンティックコミュニケーションフレームワークを導入する。
周波数分割多重化(OFDM)とチャネル推定と等化戦略を併用して,時間変化によるマルチパスフェーディングによる課題に対処する。
我々は,ハイブリッド自動繰り返し要求(HARQ)の精神において,我々の意味コミュニケーションフレームワークと統合された新しい意味エラー検出手法を提案する。
論文 参考訳(メタデータ) (2024-08-29T08:53:26Z) - Noise-Resilient Unsupervised Graph Representation Learning via Multi-Hop Feature Quality Estimation [53.91958614666386]
グラフニューラルネットワーク(GNN)に基づく教師なしグラフ表現学習(UGRL)
マルチホップ特徴量推定(MQE)に基づく新しいUGRL法を提案する。
論文 参考訳(メタデータ) (2024-07-29T12:24:28Z) - Masked Graph Learning with Recurrent Alignment for Multimodal Emotion Recognition in Conversation [12.455034591553506]
対話におけるマルチモーダル感情認識(MERC)は、世論監視、インテリジェントな対話ロボット、その他の分野に適用することができる。
従来の作業では、マルチモーダル融合前のモーダル間アライメントプロセスとモーダル内ノイズ情報を無視していた。
我々は,MGLRA(Masked Graph Learning with Recursive Alignment)と呼ばれる新しい手法を開発し,この問題に対処した。
論文 参考訳(メタデータ) (2024-07-23T02:23:51Z) - Efficient Long-distance Latent Relation-aware Graph Neural Network for Multi-modal Emotion Recognition in Conversations [8.107561045241445]
会話におけるマルチモーダル感情認識のための高効率長距離遅延関係認識グラフニューラルネットワーク(ELR-GNN)を提案する。
ELR-GNNはIEMOCAPとMELDのベンチマークで最先端のパフォーマンスを実現し、それぞれ実行時間を52%と35%削減した。
論文 参考訳(メタデータ) (2024-06-27T15:54:12Z) - Dynamic Spectrum Mixer for Visual Recognition [17.180863898764194]
動的スペクトルミキサー (DSM) という,コンテンツ適応型だが計算効率のよい構造を提案する。
DSMはコサイン変換を用いて周波数領域におけるトークンの相互作用を表す。
ログ線形複雑性で長期空間依存を学習することができる。
論文 参考訳(メタデータ) (2023-09-13T04:51:15Z) - Capturing Spectral and Long-term Contextual Information for Speech
Emotion Recognition Using Deep Learning Techniques [0.0]
本研究では,テキストデータ処理のためのグラフ畳み込みネットワーク(GCN)と,音声信号解析のためのHuBERT変換器を組み合わせたアンサンブルモデルを提案する。
GCNとHuBERTを組み合わせることで、我々のアンサンブルモデルは両方のアプローチの強みを利用することができる。
その結果, 合成モデルが従来の手法の限界を克服し, 音声からの感情認識の精度が向上することが示唆された。
論文 参考訳(メタデータ) (2023-08-04T06:20:42Z) - GraphCFC: A Directed Graph Based Cross-Modal Feature Complementation
Approach for Multimodal Conversational Emotion Recognition [37.12407597998884]
Emotion Recognition in Conversation (ERC) は人間とコンピュータのインタラクション(HCI)システムにおいて重要な役割を果たす。
マルチモーダルERCでは、グラフニューラルネットワーク(GNN)は、長距離コンテキスト情報とモーダル間インタラクティブ情報の両方を抽出することができる。
我々は,文脈情報や対話的情報を効率的にモデル化できるグラフベースのクロスモーダル特徴補完(GraphCFC)モジュールを提案する。
論文 参考訳(メタデータ) (2022-07-06T13:56:48Z) - Improved Speech Emotion Recognition using Transfer Learning and
Spectrogram Augmentation [56.264157127549446]
音声感情認識(SER)は、人間とコンピュータの相互作用において重要な役割を果たす課題である。
SERの主な課題の1つは、データの不足である。
本稿では,スペクトログラム拡張と併用した移動学習戦略を提案する。
論文 参考訳(メタデータ) (2021-08-05T10:39:39Z) - Encoder Fusion Network with Co-Attention Embedding for Referring Image
Segmentation [87.01669173673288]
本稿では,視覚的エンコーダをマルチモーダルな特徴学習ネットワークに変換するエンコーダ融合ネットワーク(EFN)を提案する。
EFNには、マルチモーダル機能の並列更新を実現するコアテンションメカニズムが組み込まれている。
4つのベンチマークデータセットによる実験結果から,提案手法がポストプロセッシングを伴わずに最先端の性能を実現することを示す。
論文 参考訳(メタデータ) (2021-05-05T02:27:25Z) - Jointly Cross- and Self-Modal Graph Attention Network for Query-Based
Moment Localization [77.21951145754065]
本稿では,共同グラフを渡る反復的メッセージのプロセスとして,このタスクをリキャストするクロスモーダルグラフ注意ネットワーク(CSMGAN)を提案する。
CSMGANは2つのモード間の高次相互作用を効果的に捉えることができ、より正確な局所化を可能にします。
論文 参考訳(メタデータ) (2020-08-04T08:25:24Z) - A Novel Graph-based Multi-modal Fusion Encoder for Neural Machine
Translation [131.33610549540043]
NMTのための新しいグラフベースのマルチモーダル核融合エンコーダを提案する。
まず、統合マルチモーダルグラフを用いて、入力文と画像を表す。
次に、複数のグラフベースのマルチモーダル融合層を積み重ねて、ノード表現を学習するためのセマンティックな相互作用を反復的に実行する。
論文 参考訳(メタデータ) (2020-07-17T04:06:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。