論文の概要: MMGCN: Multimodal Fusion via Deep Graph Convolution Network for Emotion
Recognition in Conversation
- arxiv url: http://arxiv.org/abs/2107.06779v1
- Date: Wed, 14 Jul 2021 15:37:02 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-15 14:13:10.333244
- Title: MMGCN: Multimodal Fusion via Deep Graph Convolution Network for Emotion
Recognition in Conversation
- Title(参考訳): MMGCN:会話における感情認識のためのディープグラフ畳み込みネットワークによるマルチモーダルフュージョン
- Authors: Jingwen Hu, Yuchen Liu, Jinming Zhao, Qin Jin
- Abstract要約: 本研究では,マルチモーダル融合グラフ畳み込みネットワークMMGCNに基づく新しいモデルを提案する。
MMGCNは、マルチモーダル依存関係を効果的に活用できるだけでなく、話者間の依存性や話者内依存性をモデル化するために話者情報を利用することもできる。
提案したモデルを,IEMOCAPとMELDという2つの公開ベンチマークデータセット上で評価し,MMGCNの有効性を実証した。
- 参考スコア(独自算出の注目度): 32.15124603618625
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Emotion recognition in conversation (ERC) is a crucial component in affective
dialogue systems, which helps the system understand users' emotions and
generate empathetic responses. However, most works focus on modeling speaker
and contextual information primarily on the textual modality or simply
leveraging multimodal information through feature concatenation. In order to
explore a more effective way of utilizing both multimodal and long-distance
contextual information, we propose a new model based on multimodal fused graph
convolutional network, MMGCN, in this work. MMGCN can not only make use of
multimodal dependencies effectively, but also leverage speaker information to
model inter-speaker and intra-speaker dependency. We evaluate our proposed
model on two public benchmark datasets, IEMOCAP and MELD, and the results prove
the effectiveness of MMGCN, which outperforms other SOTA methods by a
significant margin under the multimodal conversation setting.
- Abstract(参考訳): 会話における感情認識(ERC)は感情対話システムにおいて重要な要素であり、ユーザの感情を理解し、共感的な反応を生成するのに役立つ。
しかし、ほとんどの研究は、主にテキストのモダリティに焦点を当てた話者情報と文脈情報のモデリングや、特徴結合によるマルチモーダル情報の活用に重点を置いている。
本研究では,マルチモーダル・長距離両方のコンテキスト情報を活用するためのより効率的な手法を探るため,マルチモーダル融合グラフ畳み込みネットワークMMGCNに基づく新しいモデルを提案する。
mmgcnはマルチモーダル依存を効果的に利用するだけでなく、話者情報を利用して話者間依存や話者内依存をモデル化する。
提案手法をiemocapとmeldの2つの公開ベンチマークデータセットで評価し,マルチモーダルな会話環境において,他のsoma手法を有意差で上回るmmgcnの有効性を実証した。
関連論文リスト
- Masked Graph Learning with Recurrent Alignment for Multimodal Emotion Recognition in Conversation [12.455034591553506]
対話におけるマルチモーダル感情認識(MERC)は、世論監視、インテリジェントな対話ロボット、その他の分野に適用することができる。
従来の作業では、マルチモーダル融合前のモーダル間アライメントプロセスとモーダル内ノイズ情報を無視していた。
我々は,MGLRA(Masked Graph Learning with Recursive Alignment)と呼ばれる新しい手法を開発し,この問題に対処した。
論文 参考訳(メタデータ) (2024-07-23T02:23:51Z) - AIMDiT: Modality Augmentation and Interaction via Multimodal Dimension Transformation for Emotion Recognition in Conversations [57.99479708224221]
AIMDiTと呼ばれる新しいフレームワークを提案し、深い特徴のマルチモーダル融合の問題を解決する。
公開ベンチマークデータセットMELDでAIMDiTフレームワークを使用して行った実験では、Acc-7とw-F1メトリクスの2.34%と2.87%の改善が明らかにされた。
論文 参考訳(メタデータ) (2024-04-12T11:31:18Z) - DialCLIP: Empowering CLIP as Multi-Modal Dialog Retriever [83.33209603041013]
マルチモーダルダイアログ検索のためのパラメータ効率の高いプロンプトチューニング手法であるDialCLIPを提案する。
提案手法では,事前学習された視覚言語モデルCLIP内のプロンプトに抽出された文脈特徴を学習するためのマルチモーダルコンテキスト生成手法を提案する。
様々なタイプの検索を容易にするために,CLIP出力からマルチモーダル表現空間へのマッピングを学習するために,複数の専門家を設計する。
論文 参考訳(メタデータ) (2024-01-02T07:40:12Z) - MMICT: Boosting Multi-Modal Fine-Tuning with In-Context Examples [63.78384552789171]
本稿では,新しいマルチモーダル微調整パラダイムであるMMICTを紹介する。
M-Hub(Multi-Modal Hub)は,異なる入力や目的に応じて様々なマルチモーダル特徴をキャプチャするモジュールである。
M-Hubに基づいてMMICTは、MM-LLMがコンテキスト内視覚誘導されたテキスト特徴から学習し、その後、テキスト誘導された視覚特徴に基づいて条件付き出力を生成する。
論文 参考訳(メタデータ) (2023-12-11T13:11:04Z) - Multimodal Prompt Transformer with Hybrid Contrastive Learning for
Emotion Recognition in Conversation [9.817888267356716]
会話におけるマルチモーダル感情認識(ERC)は2つの問題に直面している。
表現能力の強いモダリティに対して深部感情の手がかり抽出を行った。
特徴フィルタは、表現能力の弱いモダリティのためのマルチモーダルプロンプト情報として設計された。
MPTは、Transformerの各アテンション層にマルチモーダル融合情報を埋め込む。
論文 参考訳(メタデータ) (2023-10-04T13:54:46Z) - Revisiting Disentanglement and Fusion on Modality and Context in
Conversational Multimodal Emotion Recognition [81.2011058113579]
特徴の多様性と会話の文脈化は、特徴の絡み合いと融合の段階において、同時に適切にモデル化されるべきである。
マルチモーダル・コンテキスト統合のためのコントリビューション・アウェア・フュージョン・メカニズム(CFM)とコンテキスト・リフュージョン・メカニズム(CRM)を提案する。
我々のシステムは、新しい最先端のパフォーマンスを一貫して達成する。
論文 参考訳(メタデータ) (2023-08-08T18:11:27Z) - MM-DFN: Multimodal Dynamic Fusion Network for Emotion Recognition in
Conversations [5.5997926295092295]
会話におけるマルチモーダル感情認識 (ERC) は共感機械の開発にかなりの可能性を持っている。
最近のグラフベース融合法は, グラフ内の非モーダル・クロスモーダル相互作用を探索することによって, 多モーダル情報を集約する。
マルチモーダル・ダイナミック・フュージョン・ネットワーク(MM-DFN)を提案する。
論文 参考訳(メタデータ) (2022-03-04T15:42:53Z) - Fusion with Hierarchical Graphs for Mulitmodal Emotion Recognition [7.147235324895931]
本稿では,より情報に富んだマルチモーダル表現を学習する階層型グラフネットワーク(HFGCN)モデルを提案する。
具体的には,2段階グラフ構築手法を用いてマルチモーダル入力を融合し,モダリティ依存性を会話表現にエンコードする。
実験により,より正確なAERモデルの有効性が示された。
論文 参考訳(メタデータ) (2021-09-15T08:21:01Z) - A Novel Graph-based Multi-modal Fusion Encoder for Neural Machine
Translation [131.33610549540043]
NMTのための新しいグラフベースのマルチモーダル核融合エンコーダを提案する。
まず、統合マルチモーダルグラフを用いて、入力文と画像を表す。
次に、複数のグラフベースのマルチモーダル融合層を積み重ねて、ノード表現を学習するためのセマンティックな相互作用を反復的に実行する。
論文 参考訳(メタデータ) (2020-07-17T04:06:09Z) - InterBERT: Vision-and-Language Interaction for Multi-modal Pretraining [76.32065400614162]
我々は,本シリーズのマルチモーダル事前学習手法M6の最初のモデルであるInterBERT(BERT for Interaction)を提案する。
モデルは、異なるモダリティの情報フロー間の相互作用をモデル化する強力な能力を持っている。
中国語におけるマルチモーダル事前学習のための大規模データセットを提案し,中国初のマルチモーダル事前学習モデルである中国語InterBERTを開発した。
論文 参考訳(メタデータ) (2020-03-30T03:13:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。